跨物种语音识别新突破:人类语音模型成功解析狗叫声
创作时间:
2025-01-21 17:34:32
作者:
@小白创作中心
跨物种语音识别新突破:人类语音模型成功解析狗叫声
近日,来自密歇根大学的研究人员开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。这项研究发表在国际计算语言学会议上,论文地址为:https://arxiv.org/pdf/2404.18739。
研究团队由密歇根大学和墨西哥国家天体物理、光学和电子研究所(INAOE)的研究人员组成。他们发现,源自人类语音的声音和模式,可以作为分析和理解其他声音(例如动物发声)声学模式的基础。
数据收集与模型训练
研究人员首先收集了74只不同品种、年龄和性别的狗狗在各种情况下发出的声音。然后,他们使用Wav2Vec2模型进行训练,该模型是使用人类语音数据训练的最先进的语音表示模型。
研究团队比较了两种训练方式的效果:
- 完全用狗狗的声音数据从头训练模型
- 在人类语音预训练模型的基础上,使用狗狗声音数据进行微调
实验结果表明,使用人类语音预训练的模型表现更好,这说明通用基础大模型的微调方法即使在跨物种的情况下也能取得良好效果。
实验结果
研究人员进行了多个分类任务的实验,包括个体叫声识别、狗的品种识别、性别识别以及预测叫声关联的场景。所有实验都使用十倍交叉验证设置。
- 叫声识别:实验结果显示,使用预训练模型微调的方案在所有任务中表现最佳。
- 品种鉴别:预训练模型在这一任务中也表现最好。不同品种的识别准确率分别为:吉娃娃85%,法国贵宾犬78%,雪纳瑞犬72%。
- 性别预测:从头开始训练的Wav2Vec2模型在这一任务中表现更优,可能是因为狗狗数据集中母狗的数据较多(占67.95%)。
- 关联场景预测:预训练版本的模型获得了最准确的结果,特别是在对陌生人具有攻击性的吠叫场景中。
这项研究不仅展示了AI在理解动物语言方面的潜力,还为未来跨物种交流的研究奠定了基础。密歇根大学人工智能实验室主任Rada Mihalcea表示:“人工智能的进步将彻底改变我们对动物交流的理解,而且我们可以使用以人类语音为基础的预训练模型,不必从头开始。”
热门推荐
学安全技术与管理可以做什么?
五轴数控工具磨床高精度运行的秘诀
今天,成年人最该认真读的8本书
未来3年 | 中药材会越来越贵吗?
爱因斯坦:发现问题比解决问题更重要!
个人业绩加上保底工资怎么计算?
如何使用CMD命令刷新网络配置?
清明上坟有讲究,是先扫墓还是先添土?祭拜顺序别弄错,建议收藏
流亡皇子组团回国夺嫡?泰国王室的继承战愈发白热化,思蕊凡公主站队仍不明
马鞍山市文物古迹介绍
DIY游戏电脑装机全攻略:选配件与安装指南
探秘四大文明古国:揭开历史长河的奥秘
工抵房是什么意思?工抵房的优势和风险有哪些?
数据库主键如何确定
卡路里完全指南:从概念到计算,教你合理摄入热量
调整Word表格行高的实用技巧,提升文档专业性与可读性
香丹注射液的功效与作用有哪些
趋势交易止盈的策略有哪些?这些策略在不同市场环境下的效果如何?
研究|如何高效引导村民参与村庄规划工作
酒店业与好评的微妙关系:被好评绑架的现象及其应对策略
重庆交通枢纽至市区经济出行指南:北站、西站、机场的省钱攻略
钙钛矿光伏技术:从实验室走向产业化的关键突破
统计学中的P值与假设:原假设与备择假设的角色分析
电缆维护预防措施与保养方法
解读印尼进出口中国数据,对中国企业在印尼开展业务有何启示?
《2024中国城市宜居指数分析报告》发布 沪杭京位列前三
科普:如何给宝宝正确补充维生素AD?
Science经典特刊:“没有一个神经元是孤岛”——大脑连接的重要意义
决策科学:神经元连接如何加强选择?
穷人如何规划购物需求