浅谈语音质量保障：如何测试 RTC 中的音频质量？

创作时间:

作者:

@小白创作中心

浅谈语音质量保障：如何测试 RTC 中的音频质量？

引用

来源

https://www.imooc.com/article/320963

在日常的音视频会议中，我们经常会遇到各种语音质量问题，如断断续续的声音、回声、噪音等，这些问题严重影响了会议体验。那么，如何有效地减少这些问题的发生呢？本文将分享阿里云视频云在保障RTC（实时音视频通信）语音质量方面的测试经验，从音频质量、适配测试、QoS质量、自动化方案四个维度进行介绍，重点讲解音频质量部分的测试方法。

背景介绍

音频质量主要包含两个方面：一是正常网络下的听觉质量，二是音频3A算法质量。听觉质量是指在无损网络情况下人耳对语音优劣的主观感受，会受到收听环境和收听心理的影响。在测试时，可以从声音三要素（响度、音高、音色）出发，对一些指标进行量化评估。业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受，比如POLQA、PESQ等。

音频3A算法主要包括：

AGC（Automatic Gain Control）：自动增益控制
ANS（Adaptive Noise Suppression）：噪声抑制
AEC（Acoustic Echo Cancellation）：回声消除

RTC语音测试链路拆解

在正式测试前，需要了解RTC语音传输的整个链路框架图。声音通过麦克风采集，经过上行音频算法的前处理，再通过编解码传输，最后通过扬声器播放出来。若想测试上行音频算法，可以在（1）处输入声音，而后在（2）处拉取输出音频进行分析。系统测试时，往往从端到端角度评估，即从（1）处输入声音后在（4）处拉取声音进行分析。

音频质量测试方案

阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量。具体指标如下：

客观测试方法

有效频宽

测试方法：Line in输入扫频文件+48K采样率的人声音频，Line out录制输出音频，通过频率分析读取有效频宽。

端到端延迟

方法一：使用VQT测试，测试结果中输出延迟时间。
方法二：自研。Line in测试素材，Line out录制未经过传输及输出音频，计算音频延迟时间。
测试素材：一段连续的单音。
指标计算：录制文件中读取未经过传输的音频起始时间记为t1，读取经过会议传输的音频起始时间记为t2，则Delay=t2-t1。

ANS（噪声抑制）

考察ANS算法在纯噪声和语噪混合场景下的表现，分析指标包含：降噪一致性、信噪比提升、收敛时间、消噪后人声音质。
测试拓扑：通过音量Line in或者外放输入背景素材及语音素材，在拉流端Line out录制输出音频进行指标分析。
测试素材：ITU-P863提供标准人声素材。
指标计算：
1. 信噪比提升：求取经过消噪后音频的信噪比为A，则信噪比提升值=A-输入信噪比。
2. 降噪一致性：计算各种噪声输入后噪声的残留值，并统计各种噪声下噪声残留是否一致。
3. 收敛时间：记录噪声能量开始下降的时间为t1，记录噪声已收敛至平稳的初始时间t2，收敛时间=t2-t1。
4. 音质：改造VQT POLQA测试脚本，计算不同信噪比输入下输出音频MOS分。

AGC（自动增益控制）

考察AGC算法在不同音量下表现，分析指标包括：声音平稳性、输出响度。
测试拓扑：参考ANS测试拓扑图，通过音量Line in或者外放输入语音素材，在拉流端Line out录制输出音频进行指标分析。
测试素材：ITU-P863提供标准人声素材。
指标计算：
1. 声音平稳性：计算输出音频各音量段的平均RMS，而后求解这个输出音频的平均RMS的方差。
2. 输出响度：Line out方式计算输出音频的平均RMS；外放方式使用标准声压计，以A计权方式记录响度值。
3. 音质：改造VQT POLQA测试脚本，计算不同音量输入下输出音频MOS分。

AEC（回声消除）

考察AEC算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。
测试拓扑：
【单讲】推流端播放单讲语音素材，拉流端默认配置放在空旷会议室中。Line out录制推流端的输出，判断拉流端是否存在漏回声。
【双讲】同时向推流端和拉流端播放双讲测试素材，Line out录制推流端的输出，判断拉流端是否存在漏回声和人声抑制。
测试素材：ITU-P863提供标准人声素材。
指标计算：
1. 漏回声：读取录制音频文件的人声残留量，理论上该处值为0-没有漏回声。
2. 人声抑制：双讲场景下评估此指标。利用3gpp TS 26.132标准评价剪切情况，最终评价以D类（连续剪切大于150ms）为标准，值越接近于0质量越好。
3. 收敛时间：测试开始时间记为t1，AEC收敛完成无漏回声出现时间记为t2，收敛时间=t2-t1。
4. 人声音质：双讲场景下评估此指标。改造VQT POLQA测试脚本，计算双讲场景下人声的音质得分。