资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

MFCC（梅尔频率倒谱系数）详解

创作时间:

作者:

@小白创作中心

MFCC（梅尔频率倒谱系数）详解

引用

来源

https://www.cnblogs.com/mxh010211/p/18322195

MFCC（梅尔频率倒谱系数）是音频信号处理领域中一种重要的特征提取方法，广泛应用于语音识别、音乐信息检索和声纹识别等领域。本文将详细介绍MFCC的计算过程、应用场景及其优缺点，并提供Python代码示例，帮助读者深入理解这一关键技术。

1. 背景

人耳对不同频率的声音感知是非线性的，特别是对高频声音的敏感度较低。梅尔频率标度（Mel scale）是一种模拟人耳感知的频率标度。MFCC正是基于这种标度来进行音频信号的特征提取。

2. 计算步骤

预加重 (Pre-emphasis)

通过一个高通滤波器增加高频部分的能量，通常使用以下滤波器：

$$
y[n]=x[n]-\alpha x[n-1]
$$

其中，$\alpha$ 通常取值为0.97。

分帧 (Framing)

将音频信号分成多个小段（帧），每帧通常包含20到40毫秒的数据。相邻帧之间通常有一定的重叠（通常为50%）。

加窗 (Windowing)

对每一帧信号应用一个窗函数（通常是Hamming窗）以减少频谱泄露：

$$
y[n]=x[n] \cdot w[n]
$$

其中，$w[n]$ 是窗函数。

快速傅里叶变换 (FFT)

对加窗后的信号进行FFT，得到每一帧的频谱。

功率谱 (Power Spectrum)

计算每一帧的功率谱：

其中，$X[k]$ 是FFT的结果，$N$ 是FFT的点数。

梅尔滤波器组 (Mel Filter Bank)

将频谱映射到梅尔频率标度，并通过一组三角形滤波器对频谱进行加权平均。梅尔频率和普通频率 $f$ 的关系为：

对数压缩 (Log Compression)

对滤波器组输出的每个值取对数，以模拟人耳对声音强度的感知。

离散余弦变换 (DCT)

对对数梅尔频谱进行DCT，得到梅尔频率倒谱系数（MFCC）。DCT的目的是将频谱压缩到更少的系数，并去除相关性。

保留低阶系数

通常保留前12到13个系数，因为低阶系数包含了主要的频谱信息，高阶系数往往与噪声有关。

3. 应用

语音识别：MFCC是语音识别系统中的常用特征，因为它能够有效捕捉语音信号中的重要信息。
音乐信息检索：MFCC可以用于音乐分类、情感识别等任务。
声纹识别：MFCC可用于用户身份验证和安全系统中。

4. 优点与缺点

优点

模拟人耳的听觉特性，使得特征更具代表性。
计算过程高效，能够实时应用。

缺点

对噪声较为敏感，需要额外的预处理步骤。
对非语音信号（如背景音乐）的处理效果较差。

5. 代码示例 (Python)

使用库librosa来计算MFCC：

import librosa
import numpy as np

# 加载音频文件
y, sr = librosa.load('audio.wav', sr=None)

# 计算MFCC
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# 打印MFCC的形状
print(mfccs.shape)

# 可视化MFCC
import matplotlib.pyplot as plt
import librosa.display

plt.figure(figsize=(10, 6))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCC')
plt.tight_layout()
plt.show()