浅谈语音质量保障:如何测试 RTC 中的音频质量?
创作时间:
作者:
@小白创作中心
浅谈语音质量保障:如何测试 RTC 中的音频质量?
引用
1
来源
1.
https://www.imooc.com/article/320963
在日常的音视频会议中,我们经常会遇到各种语音质量问题,如断断续续的声音、回声、噪音等,这些问题严重影响了会议体验。那么,如何有效地减少这些问题的发生呢?本文将分享阿里云视频云在保障RTC(实时音视频通信)语音质量方面的测试经验,从音频质量、适配测试、QoS质量、自动化方案四个维度进行介绍,重点讲解音频质量部分的测试方法。
背景介绍
音频质量主要包含两个方面:一是正常网络下的听觉质量,二是音频3A算法质量。听觉质量是指在无损网络情况下人耳对语音优劣的主观感受,会受到收听环境和收听心理的影响。在测试时,可以从声音三要素(响度、音高、音色)出发,对一些指标进行量化评估。业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受,比如POLQA、PESQ等。
音频3A算法主要包括:
- AGC(Automatic Gain Control):自动增益控制
- ANS(Adaptive Noise Suppression):噪声抑制
- AEC(Acoustic Echo Cancellation):回声消除
RTC语音测试链路拆解
在正式测试前,需要了解RTC语音传输的整个链路框架图。声音通过麦克风采集,经过上行音频算法的前处理,再通过编解码传输,最后通过扬声器播放出来。若想测试上行音频算法,可以在(1)处输入声音,而后在(2)处拉取输出音频进行分析。系统测试时,往往从端到端角度评估,即从(1)处输入声音后在(4)处拉取声音进行分析。
音频质量测试方案
阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量。具体指标如下:
客观测试方法
- 有效频宽
- 测试方法:Line in输入扫频文件+48K采样率的人声音频,Line out录制输出音频,通过频率分析读取有效频宽。
- 端到端延迟
- 方法一:使用VQT测试,测试结果中输出延迟时间。
- 方法二:自研。Line in测试素材,Line out录制未经过传输及输出音频,计算音频延迟时间。
- 测试素材:一段连续的单音。
- 指标计算:录制文件中读取未经过传输的音频起始时间记为t1,读取经过会议传输的音频起始时间记为t2,则Delay=t2-t1。
- ANS(噪声抑制)
- 考察ANS算法在纯噪声和语噪混合场景下的表现,分析指标包含:降噪一致性、信噪比提升、收敛时间、消噪后人声音质。
- 测试拓扑:通过音量Line in或者外放输入背景素材及语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 信噪比提升:求取经过消噪后音频的信噪比为A,则信噪比提升值=A-输入信噪比。
- 降噪一致性:计算各种噪声输入后噪声的残留值,并统计各种噪声下噪声残留是否一致。
- 收敛时间:记录噪声能量开始下降的时间为t1,记录噪声已收敛至平稳的初始时间t2,收敛时间=t2-t1。
- 音质:改造VQT POLQA测试脚本,计算不同信噪比输入下输出音频MOS分。
- AGC(自动增益控制)
- 考察AGC算法在不同音量下表现,分析指标包括:声音平稳性、输出响度。
- 测试拓扑:参考ANS测试拓扑图,通过音量Line in或者外放输入语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 声音平稳性:计算输出音频各音量段的平均RMS,而后求解这个输出音频的平均RMS的方差。
- 输出响度:Line out方式计算输出音频的平均RMS;外放方式使用标准声压计,以A计权方式记录响度值。
- 音质:改造VQT POLQA测试脚本,计算不同音量输入下输出音频MOS分。
- AEC(回声消除)
- 考察AEC算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。
- 测试拓扑:
- 【单讲】推流端播放单讲语音素材,拉流端默认配置放在空旷会议室中。Line out录制推流端的输出,判断拉流端是否存在漏回声。
- 【双讲】同时向推流端和拉流端播放双讲测试素材,Line out录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 漏回声:读取录制音频文件的人声残留量,理论上该处值为0-没有漏回声。
- 人声抑制:双讲场景下评估此指标。利用3gpp TS 26.132标准评价剪切情况,最终评价以D类(连续剪切大于150ms)为标准,值越接近于0质量越好。
- 收敛时间:测试开始时间记为t1,AEC收敛完成无漏回声出现时间记为t2,收敛时间=t2-t1。
- 人声音质:双讲场景下评估此指标。改造VQT POLQA测试脚本,计算双讲场景下人声的音质得分。
- STOI(短时客观可懂度)
- 当前学术上比较精确、可靠的客观评估方法来计算语音可懂度,客观测试结果可以一定程度上反映语音可懂性和自然性。存在局限性:需降采样到16K进行计算。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:如下框架图展示了STOI计算流程,当前业内已有matlab和python对该算法的工程实现。
- POLQA
- ITU-T P.863提供测试方法,可得到MOS分和音频延迟。支持8K、16K、48K测试,局限性是设备贵。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材&VQT内置语音测试素材。
- 指标计算:POLQA MOS分。
- PESQ
- ITU-T P.862提供测试方法,可得到MOS分,局限性是仅可支持8K和16K。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:PESQ MOS分。
主观测试方法
采用“YD/T 2309音频质量主观测试方法(ITU-R BS.1284)”中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。
热门推荐
上海常熟路地铁站攻略:位置、线路与末班车时间全解析
提升网站排名的15种方法(从SEO到用户体验)
钦州至云南全程攻略:路线、交通方式及旅行小贴士
美元大跌!在岸、离岸人民币对美元汇率一度升破7.23
体现汉字特点的古诗精选
提升公司治理效能的具体步骤有哪些?
助听器的作用
关于单耳失聪:原因、诊断和治疗
民法典婚姻家庭编司法解释重点解决这些问题
小米SU7接连遭遇故障,换新仍需排队;门店销售:提车要等八个月
提升社区公众参与感的有效策略与方法
失业保险条例在不同地区的实施情况有差异吗?
眼压高什么原因造成的
青年创新为全球发展注入青春之力
请假后一定要销假吗
如何收集被骗的证据:法律实务中的要点与技巧
眼袋手术后出现凹陷是否正常
想要用iPhone拍出更好看地照片?这篇摄影指南一定要看
身份证正反面如何扫描到1页A4大小的pdf上
公孙瓒到底是怎样起家的?扒一扒他的发家史
汞同位素揭示火山活动与奥陶纪末环境气候变化及生物大灭绝的潜在联系
建筑百科:大型建筑三检表填写指南及费用参考
编程中的source是什么
深入探讨“source”在信息、学术与日常生活中的多重含义与重要性
普洱茶的分类、存储年限及其使用方法
企业如何规避其他应收款挂账带来的财务风险?
终极解决方案!解决iPhone无法在Mac/Windows上识别问题
新妈妈补充蛋白质的营养食物及食谱推荐
煎饼果子热量(两个煎饼果子热量)
主动脉瓣大量反流怎么治疗后遗症呢