小红书最新开源语音识别模型FireRedASR，中文效果新SOTA

创作时间:

作者:

@小白创作中心

小红书最新开源语音识别模型FireRedASR，中文效果新SOTA

引用

CSDN

https://blog.csdn.net/weixin_48827824/article/details/145610094

近日，小红书FireRed团队正式发布并开源了基于大模型的语音识别模型——FireRedASR，在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上，FireRedASR凭借卓越的性能取得了新SOTA！FireRedASR在字错误率（CER）这一核心技术指标上，对比此前的SOTA Seed-ASR，错误率相对降低8.4%，充分体现了团队在语音识别技术领域的创新能力与技术突破。

FireRedASR模型介绍

FireRedASR系列模型包含两种核心结构：FireRedASR-LLM和FireRedASR-AED，分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码，旨在满足全面覆盖多样化的应用场景。

FireRedASR-LLM（左）：结合了文本预训练LLM的能力，为极致的ASR准确率而生，适用于对准确率要求极高的应用场景。
FireRedASR-AED（右下）：基于经典的Attention-based Encoder-Decoder架构，FireRedASR-AED通过扩展参数至1.1B，成功平衡了ASR语音识别的高准确率与推理效率。

实验及结果

下图是FireRedASR和其他ASR大模型的对比，在业界常用的中文普通话公开测试集上，FireRedASR-LLM（8.3B参数量）取得了最优CER 3.05%、成为新SOTA！FireRedASR-AED（1.1B参数量）紧随其后取得3.18%，两者均比Seed-ASR（12+B参数量）的3.33%低、并且参数量更小。FireRedASR也比Qwen-Audio、SenseVoice、Whisper、Paraformer取得了更优的CER。

(aishell1表示AISHELL-1测试集，aishell2表示AISHELL-2 iOS测试集，ws_net和ws_meeting分别表示WenetSpeech的Internet和Meeting测试集)

FireRedASR不仅在公开测试集上表现优异，在多种日常场景下，也展现了卓越的语音识别效果。

如下图所示，在由短视频、直播、语音输入和智能助手等多种来源组成的Speech测试集上，与业内领先的ASR服务提供商（ProviderA）和Paraformer-Large相比，FireRedASR-LLM的CER相对降低23.7%~40.0%，优势十分明显。

值得一提的是，在需要歌词识别能力的场景中，FireRedASR-LLM也表现出极强的适配能力，CER实现了50.2%～66.7%的相对降低，这一成果进一步拓宽了FireRedASR的应用范围，使其不仅能胜任传统语音识别需求，还能在创新性的多媒体场景中大放异彩。

多语言支持能力

FireRedASR在中文方言和英语场景中同样表现不俗。在KeSpeech（中文方言）和LibriSpeech（英语）测试集上，FireRedASR的CER显著优于此前的开源SOTA模型，使其在支持好普通话ASR的前提下，在中文方言和英语上也足够通用，进一步凸显了其鲁棒的语言适配能力。

开源信息

FireRed团队希望通过开源能为语音社区做出贡献，促进ASR的应用和端到端语音交互的发展。

论文标题：FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
论文地址：http://arxiv.org/abs/2501.14350
项目地址：https://github.com/FireRedTeam/FireRedASR

热门推荐

亚硝酸盐会致癌？当食品添加硝酸盐遇上「它」才危险