跨物种语音识别新突破:人类语音模型成功解析狗叫声
创作时间:
2025-01-21 17:34:32
作者:
@小白创作中心
跨物种语音识别新突破:人类语音模型成功解析狗叫声
近日,来自密歇根大学的研究人员开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。这项研究发表在国际计算语言学会议上,论文地址为:https://arxiv.org/pdf/2404.18739。
研究团队由密歇根大学和墨西哥国家天体物理、光学和电子研究所(INAOE)的研究人员组成。他们发现,源自人类语音的声音和模式,可以作为分析和理解其他声音(例如动物发声)声学模式的基础。
数据收集与模型训练
研究人员首先收集了74只不同品种、年龄和性别的狗狗在各种情况下发出的声音。然后,他们使用Wav2Vec2模型进行训练,该模型是使用人类语音数据训练的最先进的语音表示模型。
研究团队比较了两种训练方式的效果:
- 完全用狗狗的声音数据从头训练模型
- 在人类语音预训练模型的基础上,使用狗狗声音数据进行微调
实验结果表明,使用人类语音预训练的模型表现更好,这说明通用基础大模型的微调方法即使在跨物种的情况下也能取得良好效果。
实验结果
研究人员进行了多个分类任务的实验,包括个体叫声识别、狗的品种识别、性别识别以及预测叫声关联的场景。所有实验都使用十倍交叉验证设置。
- 叫声识别:实验结果显示,使用预训练模型微调的方案在所有任务中表现最佳。
- 品种鉴别:预训练模型在这一任务中也表现最好。不同品种的识别准确率分别为:吉娃娃85%,法国贵宾犬78%,雪纳瑞犬72%。
- 性别预测:从头开始训练的Wav2Vec2模型在这一任务中表现更优,可能是因为狗狗数据集中母狗的数据较多(占67.95%)。
- 关联场景预测:预训练版本的模型获得了最准确的结果,特别是在对陌生人具有攻击性的吠叫场景中。
这项研究不仅展示了AI在理解动物语言方面的潜力,还为未来跨物种交流的研究奠定了基础。密歇根大学人工智能实验室主任Rada Mihalcea表示:“人工智能的进步将彻底改变我们对动物交流的理解,而且我们可以使用以人类语音为基础的预训练模型,不必从头开始。”
热门推荐
肺部有结节的饮食与生活注意事项
结肠癌姑息手术后如何治疗
最新进展!宁波前湾机场、宁海机场、轨交象山线传来大消息……
数字人形象设计与制作方法
项羽与范增之间发生了什么,为何要赶走范增
姚贝娜:去世的十年,父母仍不敢看电视
冷锻技术革命:打造高效能人形机器人,预计节省成本 58%!
如何处理消息队列中的死信
蛋白低是什么病造成的
新客规实施!火车票如何改签?一文了解→
洗车液:成分、分类与选择指南
6年前帽子戏法!3年前梅开二度!C罗的好状态能否重演史上的经典?
给大数据施压兑现梦想?新型“赛博迷信”开始流行
家常肉类十大解冻方法 冷冻肉怎么解冻快还新鲜
几组数据帮你读懂航天科技与航天科工
衣服发霉用什么洗掉霉斑?
阿拉比卡和罗布斯塔咖啡:两个系列之间的11个区别
蜂胶漱口水与氯己定漱口水治疗牙龈炎的疗效比较
今起实施!缴个人养老金可享这些优惠→
信用卡使用指南:账单日调整、额度查询及无法使用的原因
配偶有房时如何提取个人公积金?
考古学专业大学大全:全国33所大学名单(2024最新)
如何分析黄金价格的波动?这种分析对投资风险有何评估?
羽扇豆:象征母爱的观赏植物
谈话笔录规范的法律适用与实践要点
各种材料化学相容性基本指南
不要再为胡海泉感到惋惜了,因为他正在另一个圈子,混的风生水起
多平台分发有何技巧?自媒体发布怎样更高效?
银行金融科技应用的风险管理与合规挑战?
幼儿观察与评价不能舍本逐末