浅谈语音质量保障:如何测试 RTC 中的音频质量?
创作时间:
作者:
@小白创作中心
浅谈语音质量保障:如何测试 RTC 中的音频质量?
引用
1
来源
1.
https://www.imooc.com/article/320963
在日常的音视频会议中,我们经常会遇到各种语音质量问题,如断断续续的声音、回声、噪音等,这些问题严重影响了会议体验。那么,如何有效地减少这些问题的发生呢?本文将分享阿里云视频云在保障RTC(实时音视频通信)语音质量方面的测试经验,从音频质量、适配测试、QoS质量、自动化方案四个维度进行介绍,重点讲解音频质量部分的测试方法。
背景介绍
音频质量主要包含两个方面:一是正常网络下的听觉质量,二是音频3A算法质量。听觉质量是指在无损网络情况下人耳对语音优劣的主观感受,会受到收听环境和收听心理的影响。在测试时,可以从声音三要素(响度、音高、音色)出发,对一些指标进行量化评估。业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受,比如POLQA、PESQ等。
音频3A算法主要包括:
- AGC(Automatic Gain Control):自动增益控制
- ANS(Adaptive Noise Suppression):噪声抑制
- AEC(Acoustic Echo Cancellation):回声消除
RTC语音测试链路拆解
在正式测试前,需要了解RTC语音传输的整个链路框架图。声音通过麦克风采集,经过上行音频算法的前处理,再通过编解码传输,最后通过扬声器播放出来。若想测试上行音频算法,可以在(1)处输入声音,而后在(2)处拉取输出音频进行分析。系统测试时,往往从端到端角度评估,即从(1)处输入声音后在(4)处拉取声音进行分析。
音频质量测试方案
阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量。具体指标如下:
客观测试方法
- 有效频宽
- 测试方法:Line in输入扫频文件+48K采样率的人声音频,Line out录制输出音频,通过频率分析读取有效频宽。
- 端到端延迟
- 方法一:使用VQT测试,测试结果中输出延迟时间。
- 方法二:自研。Line in测试素材,Line out录制未经过传输及输出音频,计算音频延迟时间。
- 测试素材:一段连续的单音。
- 指标计算:录制文件中读取未经过传输的音频起始时间记为t1,读取经过会议传输的音频起始时间记为t2,则Delay=t2-t1。
- ANS(噪声抑制)
- 考察ANS算法在纯噪声和语噪混合场景下的表现,分析指标包含:降噪一致性、信噪比提升、收敛时间、消噪后人声音质。
- 测试拓扑:通过音量Line in或者外放输入背景素材及语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 信噪比提升:求取经过消噪后音频的信噪比为A,则信噪比提升值=A-输入信噪比。
- 降噪一致性:计算各种噪声输入后噪声的残留值,并统计各种噪声下噪声残留是否一致。
- 收敛时间:记录噪声能量开始下降的时间为t1,记录噪声已收敛至平稳的初始时间t2,收敛时间=t2-t1。
- 音质:改造VQT POLQA测试脚本,计算不同信噪比输入下输出音频MOS分。
- AGC(自动增益控制)
- 考察AGC算法在不同音量下表现,分析指标包括:声音平稳性、输出响度。
- 测试拓扑:参考ANS测试拓扑图,通过音量Line in或者外放输入语音素材,在拉流端Line out录制输出音频进行指标分析。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 声音平稳性:计算输出音频各音量段的平均RMS,而后求解这个输出音频的平均RMS的方差。
- 输出响度:Line out方式计算输出音频的平均RMS;外放方式使用标准声压计,以A计权方式记录响度值。
- 音质:改造VQT POLQA测试脚本,计算不同音量输入下输出音频MOS分。
- AEC(回声消除)
- 考察AEC算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。
- 测试拓扑:
- 【单讲】推流端播放单讲语音素材,拉流端默认配置放在空旷会议室中。Line out录制推流端的输出,判断拉流端是否存在漏回声。
- 【双讲】同时向推流端和拉流端播放双讲测试素材,Line out录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:
- 漏回声:读取录制音频文件的人声残留量,理论上该处值为0-没有漏回声。
- 人声抑制:双讲场景下评估此指标。利用3gpp TS 26.132标准评价剪切情况,最终评价以D类(连续剪切大于150ms)为标准,值越接近于0质量越好。
- 收敛时间:测试开始时间记为t1,AEC收敛完成无漏回声出现时间记为t2,收敛时间=t2-t1。
- 人声音质:双讲场景下评估此指标。改造VQT POLQA测试脚本,计算双讲场景下人声的音质得分。
- STOI(短时客观可懂度)
- 当前学术上比较精确、可靠的客观评估方法来计算语音可懂度,客观测试结果可以一定程度上反映语音可懂性和自然性。存在局限性:需降采样到16K进行计算。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:如下框架图展示了STOI计算流程,当前业内已有matlab和python对该算法的工程实现。
- POLQA
- ITU-T P.863提供测试方法,可得到MOS分和音频延迟。支持8K、16K、48K测试,局限性是设备贵。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材&VQT内置语音测试素材。
- 指标计算:POLQA MOS分。
- PESQ
- ITU-T P.862提供测试方法,可得到MOS分,局限性是仅可支持8K和16K。
- 测试拓扑:参考ANS测试拓扑。
- 测试素材:ITU-P863提供标准人声素材。
- 指标计算:PESQ MOS分。
主观测试方法
采用“YD/T 2309音频质量主观测试方法(ITU-R BS.1284)”中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。
热门推荐
新手司机找陪练 这些坑不要踩!
规模化肉牛育肥饲料配方技术指南
如何净化Web网页内容
上海科技馆举办特别活动,致敬“中国的摩尔根”谈家桢院士
如何办理和获取相关行业的经营资质?这种资质办理有哪些具体要求?
程序员如何利用社交平台扩大职业网络
合同上的三个字:格式条款中的免责承诺与法律风险
川芎泡酒的正确方法与技巧,如何搭配白酒制作药酒,泡酒配方详解
谢维军或成国足制胜关键:190CM身高优势有望助中国队晋级
探索思维导图制作技巧,提高思考和学习效率的实用指南
医生提醒:榴莲虽好,这几类人要少吃
胡椒饼的做法窍门 胡椒饼的功效与作用
5种运动缓解手指麻木,附专业医生建议
源于唐、兴于元,青花瓷里的中华民族交融史
“春”字的前世今生:从甲骨文到现代汉字的演变
维吾尔族小姑娘有个“中医梦”,武汉老师送给她看得懂的《本草纲目》
工业生产追求极致精准,“AI+工业机器人”应用尚在探索初期
图形推理三大题型“立体拼合、截面图、三视图”技巧全解
如何在知识库中设置有效的导航
雅尼·佩萨:加快6G标准制定 以开放生态推动发展
停息挂账对信用卡使用的影响
头皮过敏用什么洗发水?几款适合敏感头皮的洗发水推荐
为什么醋可以消毒(白醋——家用杀菌消毒的秘密武器)
丙寅年五行属性 丙寅年生人命运详解
泡菜的力量:临床前研究揭示抗肥胖效果,减少体脂31.8%
原神角色深度分析:希格雯 - 龙女妙变
你了解基本构图技巧吗?三分法、黄金风格、黄金螺旋线让你作品更完美
2025中美俄军事力量大揭秘:海陆空全方位对比
评估公司收费流程中如何确保费用合理?
稳就业 促创业丨一技傍身 就业不愁 技能培训让更多人端稳就业“饭碗”