音频处理入门：从声音本质到数字音频核心技术

创作时间:

作者:

@小白创作中心

音频处理入门：从声音本质到数字音频核心技术

引用

CSDN

https://blog.csdn.net/qq_28258885/article/details/120181075

音频处理是现代多媒体技术的重要组成部分，涉及声音的采集、编码、传输和播放等多个环节。本文将从声音的本质出发，深入探讨音频处理中的关键概念，包括采样率、量化、音频帧等核心知识点，帮助读者建立对数字音频处理的全面理解。

声音的本质

声音是一种由物体震动引发的物理现象，如小提琴的弦声等。物体的震动使其四周空气的压强产生变化，这种变化以波的形式向四周传播，当被人耳接收时，我们就听见了声音。

声音的物理性质

波形

声音是由物体的振动产生的，这种震动引起了周围空气压强的震荡，我们称这种震荡的函数表现形式为波形。振幅反映了声音的音量大小。

频率

声音的频率是周期的倒数，它表示的是声音在1秒时间内的周期数，单位是赫兹(Hz)、千赫(kHz)，即1000Hz，表示每秒震动一千次。声音按频率可做如下划分：

低频：20Hz - 200Hz
中频：200Hz - 2000Hz
高频：2000Hz - 20kHz

人耳能听见的声音频率范围大约在20Hz到20kHz之间。

一个例子

这是一个采样率16kHz，16bit，1kHz的音源。放大后效果如下：

这就是音频数据在计算机中的存储方式——数字音频。

数字音频

主要从采样率、采样量化、编码来进行讲解。

为什么需要采样？

计算机并不直接使用连续平滑的波形来表示声音，而是每隔固定的时间对波形的幅值进行采样，用得到的一系列数字量来表示声音，如下图：

PCM（脉冲编码调制）是将声音从模拟信号转化为数字信号的核心技术。

采样率

采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，单位用赫兹（Hz）来表示。根据奈奎斯特采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。人耳能听到的是20Hz到20kHz频率的声音，所以采样率一般为40kHz，为了不使其造成低频失真，所以CD质量采样率使用44.1kHz，这样就能保证声音到达20kHz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

采样量化（采样精度、采样深度）

采样的精度取决于它用多少位来表示，这就是量化。如8bit量化可以表示256个不同的值，而CD质量的16bit量化可以表示65536个值，范围为[-32768,32767]。下图是一个3bit量化的示意图，可以看出3bit量化只能表示8个值:0.75,0.5,0.25,0,-0.25,-0.5,-0.75和-1，因而量化位数比较少，波形就很难辨认，还原后的声音质量也就越差（可能除了嗡嗡声之外什么都没有）：