问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

音频处理入门:从声音本质到数字音频核心技术

创作时间:
作者:
@小白创作中心

音频处理入门:从声音本质到数字音频核心技术

引用
CSDN
1.
https://blog.csdn.net/qq_28258885/article/details/120181075

音频处理是现代多媒体技术的重要组成部分,涉及声音的采集、编码、传输和播放等多个环节。本文将从声音的本质出发,深入探讨音频处理中的关键概念,包括采样率、量化、音频帧等核心知识点,帮助读者建立对数字音频处理的全面理解。

声音的本质

声音是一种由物体震动引发的物理现象,如小提琴的弦声等。物体的震动使其四周空气的压强产生变化,这种变化以波的形式向四周传播,当被人耳接收时,我们就听见了声音。

声音的物理性质

波形

声音是由物体的振动产生的,这种震动引起了周围空气压强的震荡,我们称这种震荡的函数表现形式为波形。振幅反映了声音的音量大小。

频率

声音的频率是周期的倒数,它表示的是声音在1秒时间内的周期数,单位是赫兹(Hz)、千赫(kHz),即1000Hz,表示每秒震动一千次。声音按频率可做如下划分:

  • 低频:20Hz - 200Hz
  • 中频:200Hz - 2000Hz
  • 高频:2000Hz - 20kHz

人耳能听见的声音频率范围大约在20Hz到20kHz之间。

一个例子

这是一个采样率16kHz,16bit,1kHz的音源。放大后效果如下:

这就是音频数据在计算机中的存储方式——数字音频。

数字音频

主要从采样率、采样量化、编码来进行讲解。

为什么需要采样?

计算机并不直接使用连续平滑的波形来表示声音,而是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音,如下图:

PCM(脉冲编码调制)是将声音从模拟信号转化为数字信号的核心技术。

采样率

采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,单位用赫兹(Hz)来表示。根据奈奎斯特采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。人耳能听到的是20Hz到20kHz频率的声音,所以采样率一般为40kHz,为了不使其造成低频失真,所以CD质量采样率使用44.1kHz,这样就能保证声音到达20kHz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

采样量化(采样精度、采样深度)

采样的精度取决于它用多少位来表示,这就是量化。如8bit量化可以表示256个不同的值,而CD质量的16bit量化可以表示65536个值,范围为[-32768,32767]。下图是一个3bit量化的示意图,可以看出3bit量化只能表示8个值:0.75,0.5,0.25,0,-0.25,-0.5,-0.75和-1,因而量化位数比较少,波形就很难辨认,还原后的声音质量也就越差(可能除了嗡嗡声之外什么都没有):

音频帧

音频和视频不一样,视频每一帧都是一张图像,音频数据是流式的,不同的编码格式各自有不同的编码标准。拿PCM和MP3做一个对比。PCM因为没有压缩,根据采样率位宽等数据可以得到每秒的音频数据,并不需要帧的概念;MP3是因为压缩后信息比较多,则有了类似H264的帧概念,每一个帧都有帧头。

每帧的采样点 = 采样率 / 帧率
帧率是我们自己定义的

MP3原理(待更)

常见名词解释

5.1声道常用于电影院,是环绕的立体声。码率就是单位时间内的音频数据量(bit)。

以上的两个模式就是左右声道存储的方式。如果是四声道:

  • 交错存储方式就是1234 1234 1234 1234
  • 非交错存储方式是1111 2222 3333 4444

举例

如上图,采样频率44100Hz,采样精度16bit,2通道(声道),采集4分钟的数据:

44100 x 16 x 2 x 4 x 60 = 338688000 bit
338688000 / 8 / 1024 / 1024 = 40M byte
比特率:采样频率 x 采样精度 x 通道数= 44100 x 16 x2 = 1411200 bit/s

可以看到,如果不做压缩,存储空间还是很多的。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号