小红书最新开源语音识别模型FireRedASR,中文效果新SOTA
小红书最新开源语音识别模型FireRedASR,中文效果新SOTA
近日,小红书FireRed团队正式发布并开源了基于大模型的语音识别模型——FireRedASR,在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上,FireRedASR凭借卓越的性能取得了新SOTA!FireRedASR在字错误率(CER)这一核心技术指标上,对比此前的SOTA Seed-ASR,错误率相对降低8.4%,充分体现了团队在语音识别技术领域的创新能力与技术突破。
FireRedASR模型介绍
FireRedASR系列模型包含两种核心结构:FireRedASR-LLM和FireRedASR-AED,分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码,旨在满足全面覆盖多样化的应用场景。
FireRedASR-LLM(左):结合了文本预训练LLM的能力,为极致的ASR准确率而生,适用于对准确率要求极高的应用场景。
FireRedASR-AED(右下):基于经典的Attention-based Encoder-Decoder架构,FireRedASR-AED通过扩展参数至1.1B,成功平衡了ASR语音识别的高准确率与推理效率。
实验及结果
下图是FireRedASR和其他ASR大模型的对比,在业界常用的中文普通话公开测试集上,FireRedASR-LLM(8.3B参数量)取得了最优CER 3.05%、成为新SOTA!FireRedASR-AED(1.1B参数量)紧随其后取得3.18%,两者均比Seed-ASR(12+B参数量)的3.33%低、并且参数量更小。FireRedASR也比Qwen-Audio、SenseVoice、Whisper、Paraformer取得了更优的CER。
(aishell1表示AISHELL-1测试集,aishell2表示AISHELL-2 iOS测试集,ws_net和ws_meeting分别表示WenetSpeech的Internet和Meeting测试集)
FireRedASR不仅在公开测试集上表现优异,在多种日常场景下,也展现了卓越的语音识别效果。
如下图所示,在由短视频、直播、语音输入和智能助手等多种来源组成的Speech测试集上,与业内领先的ASR服务提供商(ProviderA)和Paraformer-Large相比,FireRedASR-LLM的CER相对降低23.7%~40.0%,优势十分明显。
值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM也表现出极强的适配能力,CER实现了50.2%~66.7%的相对降低,这一成果进一步拓宽了FireRedASR的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。
多语言支持能力
FireRedASR在中文方言和英语场景中同样表现不俗。在KeSpeech(中文方言)和LibriSpeech(英语)测试集上,FireRedASR的CER显著优于此前的开源SOTA模型,使其在支持好普通话ASR的前提下,在中文方言和英语上也足够通用,进一步凸显了其鲁棒的语言适配能力。
开源信息
FireRed团队希望通过开源能为语音社区做出贡献,促进ASR的应用和端到端语音交互的发展。
- 论文标题:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
- 论文地址:http://arxiv.org/abs/2501.14350
- 项目地址:https://github.com/FireRedTeam/FireRedASR