跨物种语音识别新突破:人类语音模型成功解析狗叫声
创作时间:
2025-01-21 17:34:32
作者:
@小白创作中心
跨物种语音识别新突破:人类语音模型成功解析狗叫声
近日,来自密歇根大学的研究人员开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。这项研究发表在国际计算语言学会议上,论文地址为:https://arxiv.org/pdf/2404.18739。
研究团队由密歇根大学和墨西哥国家天体物理、光学和电子研究所(INAOE)的研究人员组成。他们发现,源自人类语音的声音和模式,可以作为分析和理解其他声音(例如动物发声)声学模式的基础。
数据收集与模型训练
研究人员首先收集了74只不同品种、年龄和性别的狗狗在各种情况下发出的声音。然后,他们使用Wav2Vec2模型进行训练,该模型是使用人类语音数据训练的最先进的语音表示模型。
研究团队比较了两种训练方式的效果:
- 完全用狗狗的声音数据从头训练模型
- 在人类语音预训练模型的基础上,使用狗狗声音数据进行微调
实验结果表明,使用人类语音预训练的模型表现更好,这说明通用基础大模型的微调方法即使在跨物种的情况下也能取得良好效果。
实验结果
研究人员进行了多个分类任务的实验,包括个体叫声识别、狗的品种识别、性别识别以及预测叫声关联的场景。所有实验都使用十倍交叉验证设置。
- 叫声识别:实验结果显示,使用预训练模型微调的方案在所有任务中表现最佳。
- 品种鉴别:预训练模型在这一任务中也表现最好。不同品种的识别准确率分别为:吉娃娃85%,法国贵宾犬78%,雪纳瑞犬72%。
- 性别预测:从头开始训练的Wav2Vec2模型在这一任务中表现更优,可能是因为狗狗数据集中母狗的数据较多(占67.95%)。
- 关联场景预测:预训练版本的模型获得了最准确的结果,特别是在对陌生人具有攻击性的吠叫场景中。
这项研究不仅展示了AI在理解动物语言方面的潜力,还为未来跨物种交流的研究奠定了基础。密歇根大学人工智能实验室主任Rada Mihalcea表示:“人工智能的进步将彻底改变我们对动物交流的理解,而且我们可以使用以人类语音为基础的预训练模型,不必从头开始。”
热门推荐
五行之间“相爱相杀”,宇宙造化皆由此生
哪些因素会影响员工离职管理制度的成功实施?
筋膜层的主要作用和功效是什么
清蒸鲈鱼:年味里的鲜嫩秘籍,解锁美食新境界
高中数学应用题类型有哪些(常见的高中数学应用题类型)
高铁、飞机怎么选座?疫情返程的注意事都在这了
如何进行家居装饰的灯光设计?这种设计怎样营造温馨的氛围?
8种家常汤面条做法,哪款能成为你的餐桌新宠?
古代圣旨开头的演变及其文化内涵
在宋朝,一道圣旨是如何出台的?
做低空经济,必须了解的六大商业模式
艳山姜:一种美丽的观赏植物
腹膜炎症状及饮食注意事项
腹膜炎症状及饮食注意事项
新疆洛浦:把美好生活设计进艾德莱斯服装里
专家观点|如何让“花”经济“热”文旅
车险事故认定书:明确事故责任,保障车主权益
北海市住建局举办物业管理服务提升培训会,推动行业高质量发展
《功夫熊猫4》中国内地票房破亿 豆瓣开分6.7
深度分析盘点!C罗距离生涯千球还差115球,梅西制造进球效率更高
“医不叩门、法不轻传、道不贱卖,师不顺路”到底是什么意思?
UI设计师必备技能与职业发展指南
配音老师的发声技巧:从气息控制到共鸣调节
鼻部手术后遗症及其处理方法
水培绿豆的方法和步骤
如何避免鹦鹉拔毛?鹦鹉拔毛症的5大成因与治疗选择
外企做项目管理如何
女性如何预防尿路感染
眩晕治疗的利器:前庭康复治疗
Verilog中wire和reg的区别详解