问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

MIT CSAIL揭秘:AI语音模仿新突破!

创作时间:
作者:
@小白创作中心

MIT CSAIL揭秘:AI语音模仿新突破!

引用
新浪网
12
来源
1.
https://finance.sina.com.cn/roll/2024-08-17/doc-incixqhh4815622.shtml
2.
https://news.mit.edu/2024/what-you-need-to-know-audio-deepfakes-0315
3.
https://new.qq.com/rain/a/20241014A07IML00
4.
https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/139789382
5.
https://www.csail.mit.edu/research/spoken-language-systems-group
6.
https://m.163.com/v/video/VKC0H99LN.html
7.
https://ai-bot.cn/ai-voice-cloning-tools/
8.
https://news.sina.cn/ai/2025-01-19/detail-inefpcsu4396372.d.html
9.
https://www.techexplorist.com/new-ai-model-imitates-sounds-humans/95645/
10.
https://www.clonevoice.net/text-to-speech/index.html
11.
https://www.mambabit.com/tutorial/free-ai-voice-cloning-website
12.
https://dict.youdao.com/example/auth/robert_hawkins/

麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)最近发布了一项关于AI语音模仿技术的重要研究成果。这项新技术不仅能够模拟人类的声音,还能理解并生成多种日常环境中的声音,为教育、娱乐等多个领域带来了革命性的变化。通过精细的算法和对人类发音道的深入模拟,这一AI模型在无训练的情况下就能生成逼真的声音模仿,极大地提升了用户体验。斯坦福大学的语言学教授罗伯特·霍金斯对此表示赞赏,认为这项研究揭示了生理限制和社会推理在语言演变中的复杂关系,具有深远的影响。

01

技术突破:模拟人类声道

研究团队开发了一个模拟人类声道的系统,能够再现声带振动如何通过喉咙、舌头和嘴唇的形状变化发出声音。随后,他们采用一种受认知启发的 AI 算法来控制该声道模型,使其能够根据人类在不同情境下选择的表达方式,生成相应的声音模仿。

02

三步优化模型

研究团队开发了三个层次逐步递进的模型版本,以便将其与人类的声音模仿进行比较。首先,他们构建了一个基线模型,旨在尽可能生成与真实世界声音相似的模仿声音。然而,这个模型与人类的模仿方式存在较大差距。

接着,研究人员设计了一个沟通型模型。根据 Caren 的解释,这个模型会考虑听众对某种声音的独特感知特征。例如,你可能会通过模仿引擎的轰鸣声来表现摩托艇的声音,因为这种声音最具辨识度,尽管它可能不是最响亮的部分,如水花四溅的声音。这个改进后的模型生成的声音模仿比基线模型更贴近人类的表达方式,但研究团队仍希望进一步优化。

为此,研究人员在模型中引入了推理层。Chandra 表示:“声音模仿的效果会受到投入的努力程度影响。要生成完全准确的声音,需要付出时间和精力。”因此,升级后的模型会避免产生过于快速、响亮或音调极高或极低的声音,因为人们在日常对话中通常不会这样表达。最终,这一改进模型生成的声音模仿更加符合人类特点,更真实地反映了人们在模仿同一声音时所做出的选择。

03

实验验证与应用前景

在模型构建完成后,研究团队开展了一项行为实验,测试人类评审如何看待 AI 生成与人类生成的声音模仿,并评估哪种更受欢迎。值得注意的是,实验结果显示,参与者在25%的情况下更偏好 AI 模型生成的声音。尤其是在模仿摩托艇声音时,AI 模型的偏好率高达 75%,而在模仿枪声时,这一偏好率达到 50%。

这项技术未来有望在多个领域发挥重要作用:

  • 艺术与娱乐:帮助艺术家更高效地与计算系统沟通声音,为电影制作人提供更贴合特定情境的AI声音
  • 教育:开发更直观的“基于模仿”的声音设计界面,帮助学生学习新语言
  • 虚拟现实:创造更具拟人化特点的AI角色

04

专家评价

斯坦福大学语言学教授 Robert Hawkins 指出,语言中充满了拟声词和模仿但并不完全复制所描述事物的词汇,比如 “meow” 这个词与猫咪真实的叫声就不完全一致。Hawkins 表示:“从真实的猫叫声到 ‘meow’ 这个词的形成过程,揭示了在语言进化中生理机制、社会推理和交流之间复杂的相互作用。” Hawkins 并未参与这项研究,但他认为:“这个模型是将这些过程的理论形式化并加以验证的重要一步,展示了人类声道的物理限制和社交交流的压力共同作用,解释了声音模仿的分布现象。”

这项研究由 MIT 博士生 Kartik Chandra、博士生 Karima Ma、本科研究员 Matthew Caren 等人共同完成,得到了赫兹基金会和美国国家科学基金会的部分资助,并在 12 月初发表在 SIGGRAPH Asia 会议上。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号