浅谈语音质量保障:如何测试 RTC 中的音频质量?
创作时间:
作者:
@小白创作中心
浅谈语音质量保障:如何测试 RTC 中的音频质量?
引用
1
来源
1.
https://www.imooc.com/article/320963
在日常的音视频会议中,我们经常会遇到各种语音质量问题,如断断续续的声音、回声、噪音等,这些问题严重影响了会议体验。那么,如何有效地减少这些问题的发生呢?本文将分享阿里云视频云在保障RTC(实时音视频通信)语音质量方面的测试经验,从音频质量、适配测试、QoS质量、自动化方案四个维度进行介绍,重点讲解音频质量部分的测试方法。
背景介绍
音频质量主要包含两个方面:一是正常网络下的听觉质量,二是音频3A算法质量。听觉质量是指在无损网络情况下人耳对语音优劣的主观感受,会受到收听环境和收听心理的影响。在测试时,可以从声音三要素(响度、音高、音色)出发,对一些指标进行量化评估。业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受,比如POLQA、PESQ等。
音频3A算法主要包括:
- AGC(Automatic Gain Control):自动增益控制
- ANS(Adaptive Noise Suppression):噪声抑制
- AEC(Acoustic Echo Cancellation):回声消除
RTC语音测试链路拆解
在正式测试前,需要了解RTC语音传输的整个链路框架图。声音通过麦克风采集,经过上行音频算法的前处理,再通过编解码传输,最后通过扬声器播放出来。若想测试上行音频算法,可以在(1)处输入声音,而后在(2)处拉取输出音频进行分析。系统测试时,往往从端到端角度评估,即从(1)处输入声音后在(4)处拉取声音进行分析。
音频质量测试方案
阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量。具体指标如下:
客观测试方法
- 有效频宽
- 测试方法:Line in输入扫频文件+48K采样率的人声音频,Line out录制输出音频,通过频率分析读取有效频宽。
- 端到端延迟
- 方法一:使用VQT测试,测试结果中输出延迟时间。
- 方法二:自研。Line in测试素材,Line out录制未经过传输及输出音频,计算音频延迟时间。
- 测试素材:一段连续的单音。
- 指标计算:录制文件中读取未经过传输的音频起始时间记为t1,读取经过会议传输的音频起始时间记为t2,则Delay=t2-t1。
- ANS(噪声抑制)
- 考察ANS算法在纯噪声和语噪混合场景下的表现,分析指标包含:降噪一致性、信噪比提升、收敛时间、消噪后人声音质。
- 测试拓扑:通过音量Line in或者外放输入背景素材及语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 信噪比提升:求取经过消噪后音频的信噪比为A,则信噪比提升值=A-输入信噪比。
- 降噪一致性:计算各种噪声输入后噪声的残留值,并统计各种噪声下噪声残留是否一致。
- 收敛时间:记录噪声能量开始下降的时间为t1,记录噪声已收敛至平稳的初始时间t2,收敛时间=t2-t1。
- 音质:改造VQT POLQA测试脚本,计算不同信噪比输入下输出音频MOS分。
- AGC(自动增益控制)
- 考察AGC算法在不同音量下表现,分析指标包括:声音平稳性、输出响度。
- 测试拓扑:参考ANS测试拓扑图,通过音量Line in或者外放输入语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 声音平稳性:计算输出音频各音量段的平均RMS,而后求解这个输出音频的平均RMS的方差。
- 输出响度:Line out方式计算输出音频的平均RMS;外放方式使用标准声压计,以A计权方式记录响度值。
- 音质:改造VQT POLQA测试脚本,计算不同音量输入下输出音频MOS分。
- AEC(回声消除)
- 考察AEC算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。
- 测试拓扑:
- 【单讲】推流端播放单讲语音素材,拉流端默认配置放在空旷会议室中。Line out录制推流端的输出,判断拉流端是否存在漏回声。
- 【双讲】同时向推流端和拉流端播放双讲测试素材,Line out录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 漏回声:读取录制音频文件的人声残留量,理论上该处值为0-没有漏回声。
- 人声抑制:双讲场景下评估此指标。利用3gpp TS 26.132标准评价剪切情况,最终评价以D类(连续剪切大于150ms)为标准,值越接近于0质量越好。
- 收敛时间:测试开始时间记为t1,AEC收敛完成无漏回声出现时间记为t2,收敛时间=t2-t1。
- 人声音质:双讲场景下评估此指标。改造VQT POLQA测试脚本,计算双讲场景下人声的音质得分。
- STOI(短时客观可懂度)
- 当前学术上比较精确、可靠的客观评估方法来计算语音可懂度,客观测试结果可以一定程度上反映语音可懂性和自然性。存在局限性:需降采样到16K进行计算。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:如下框架图展示了STOI计算流程,当前业内已有matlab和python对该算法的工程实现。
- POLQA
- ITU-T P.863提供测试方法,可得到MOS分和音频延迟。支持8K、16K、48K测试,局限性是设备贵。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材&VQT内置语音测试素材。
- 指标计算:POLQA MOS分。
- PESQ
- ITU-T P.862提供测试方法,可得到MOS分,局限性是仅可支持8K和16K。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:PESQ MOS分。
主观测试方法
采用“YD/T 2309音频质量主观测试方法(ITU-R BS.1284)”中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。
热门推荐
百万医疗险和惠民保冲突吗
重磅发布:2024软科中国高职院校排名
奎木狼在《乱斗西游》中的入手价值与实用性深度剖析
提升满意度,从沟通开始:医患关系改善的关键课程
肠梗阻怎么才算通了?专家教你三个方法
个性化mRNA疫苗为胰腺癌治疗带来突破性进展
玉米须桑叶茶的功效与作用
什么是基于L7负载均衡?它如何工作?
全顺电机与瓦片有什么区别?
赫尔移动平均线(HMA):一种改进的移动平均线指标
大厂开始反内卷!美的被曝18点20后不允许加班,大疆实行晚9点清场
为何我买的陈皮喝起来发苦?夏天喝陈皮的4大好处,看完你就懂了
工伤事故报告撰写指南:从事故发生到赔偿申请的全流程详解
以某智能家居企业为例展示如何做到“全流程一站式主动服务”
早餐,孩子迷上了吃此,有红豆就能做,做一次吃3天,简单方便
饮用水卫生宣传周:一起来学习饮用水安全知识吧!
心肌缺血是什么意思
白居易诗句“共道牡丹时,相随买花去”中的“牡丹时”指什么时候
罗瑟汉姆与威科姆的较量是英格兰足球联赛中颇具看点的一场比赛
如何理解企业的采购合同?
怎么评估汽车产业链的整体健康状况?
2024-2028年中国未来产业之智能汽车行业趋势预测及投资机会研究报告
多潘立酮片作用与功效是什么
宣传片文案:如何通过故事与视觉打造品牌影响力
网站ICP备案需要准备哪些材料
游戏中的“后悔药”:存档的交互艺术
劳动合同甲方变更流程及注意事项
打造锂电产业高地 新余主官大力推进“双链”共建
打造锂电产业高地 新余主官大力推进“双链”共建
《火影忍者》中,宇智波一族的命运为什么这么悲惨?