问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

跨物种语音识别新突破:人类语音模型成功解析狗叫声

创作时间:
2025-01-21 17:34:32
作者:
@小白创作中心

跨物种语音识别新突破:人类语音模型成功解析狗叫声

近日,来自密歇根大学的研究人员开发了一款人工智能工具,可以区分不同含义的狗叫声,并识别狗的年龄、性别和品种。这项研究发表在国际计算语言学会议上,论文地址为:https://arxiv.org/pdf/2404.18739。

研究团队由密歇根大学和墨西哥国家天体物理、光学和电子研究所(INAOE)的研究人员组成。他们发现,源自人类语音的声音和模式,可以作为分析和理解其他声音(例如动物发声)声学模式的基础。

数据收集与模型训练

研究人员首先收集了74只不同品种、年龄和性别的狗狗在各种情况下发出的声音。然后,他们使用Wav2Vec2模型进行训练,该模型是使用人类语音数据训练的最先进的语音表示模型。

研究团队比较了两种训练方式的效果:

  1. 完全用狗狗的声音数据从头训练模型
  2. 在人类语音预训练模型的基础上,使用狗狗声音数据进行微调

实验结果表明,使用人类语音预训练的模型表现更好,这说明通用基础大模型的微调方法即使在跨物种的情况下也能取得良好效果。

实验结果

研究人员进行了多个分类任务的实验,包括个体叫声识别、狗的品种识别、性别识别以及预测叫声关联的场景。所有实验都使用十倍交叉验证设置。

  • 叫声识别:实验结果显示,使用预训练模型微调的方案在所有任务中表现最佳。
  • 品种鉴别:预训练模型在这一任务中也表现最好。不同品种的识别准确率分别为:吉娃娃85%,法国贵宾犬78%,雪纳瑞犬72%。
  • 性别预测:从头开始训练的Wav2Vec2模型在这一任务中表现更优,可能是因为狗狗数据集中母狗的数据较多(占67.95%)。
  • 关联场景预测:预训练版本的模型获得了最准确的结果,特别是在对陌生人具有攻击性的吠叫场景中。

这项研究不仅展示了AI在理解动物语言方面的潜力,还为未来跨物种交流的研究奠定了基础。密歇根大学人工智能实验室主任Rada Mihalcea表示:“人工智能的进步将彻底改变我们对动物交流的理解,而且我们可以使用以人类语音为基础的预训练模型,不必从头开始。”

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号