问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

小红书最新开源语音识别模型FireRedASR,中文效果新SOTA

创作时间:
作者:
@小白创作中心

小红书最新开源语音识别模型FireRedASR,中文效果新SOTA

引用
CSDN
1.
https://blog.csdn.net/weixin_48827824/article/details/145610094

近日,小红书FireRed团队正式发布并开源了基于大模型的语音识别模型——FireRedASR,在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上,FireRedASR凭借卓越的性能取得了新SOTA!FireRedASR在字错误率(CER)这一核心技术指标上,对比此前的SOTA Seed-ASR,错误率相对降低8.4%,充分体现了团队在语音识别技术领域的创新能力与技术突破。

FireRedASR模型介绍

FireRedASR系列模型包含两种核心结构:FireRedASR-LLM和FireRedASR-AED,分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码,旨在满足全面覆盖多样化的应用场景。

  • FireRedASR-LLM(左):结合了文本预训练LLM的能力,为极致的ASR准确率而生,适用于对准确率要求极高的应用场景。

  • FireRedASR-AED(右下):基于经典的Attention-based Encoder-Decoder架构,FireRedASR-AED通过扩展参数至1.1B,成功平衡了ASR语音识别的高准确率与推理效率。

实验及结果

下图是FireRedASR和其他ASR大模型的对比,在业界常用的中文普通话公开测试集上,FireRedASR-LLM(8.3B参数量)取得了最优CER 3.05%、成为新SOTA!FireRedASR-AED(1.1B参数量)紧随其后取得3.18%,两者均比Seed-ASR(12+B参数量)的3.33%低、并且参数量更小。FireRedASR也比Qwen-Audio、SenseVoice、Whisper、Paraformer取得了更优的CER。

(aishell1表示AISHELL-1测试集,aishell2表示AISHELL-2 iOS测试集,ws_net和ws_meeting分别表示WenetSpeech的Internet和Meeting测试集)

FireRedASR不仅在公开测试集上表现优异,在多种日常场景下,也展现了卓越的语音识别效果。

如下图所示,在由短视频、直播、语音输入和智能助手等多种来源组成的Speech测试集上,与业内领先的ASR服务提供商(ProviderA)和Paraformer-Large相比,FireRedASR-LLM的CER相对降低23.7%~40.0%,优势十分明显。

值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM也表现出极强的适配能力,CER实现了50.2%~66.7%的相对降低,这一成果进一步拓宽了FireRedASR的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。

多语言支持能力

FireRedASR在中文方言和英语场景中同样表现不俗。在KeSpeech(中文方言)和LibriSpeech(英语)测试集上,FireRedASR的CER显著优于此前的开源SOTA模型,使其在支持好普通话ASR的前提下,在中文方言和英语上也足够通用,进一步凸显了其鲁棒的语言适配能力。

开源信息

FireRed团队希望通过开源能为语音社区做出贡献,促进ASR的应用和端到端语音交互的发展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号