资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

15秒生成多语种语音，OpenAI新引擎谨慎发布

创作时间:

2025-01-22 06:30:16

作者:

@小白创作中心

15秒生成多语种语音，OpenAI新引擎谨慎发布

当地时间3月29日，全球知名的人工智能研究机构OpenAI发布了一款人工智能语音引擎：Voice Engine。仅通过单个15秒的音频样本和文本输入，Voice Engine便能生成与原始说话者声音高度相似的自然语音。这一技术成果标志着AI在语音合成领域迈出了革命性的一步。不过，适逢OpenAI努力在全球大选年将破坏性虚假信息的威胁降至最低之际，这款新工具被认为风险太大，不适合全面发布。

革命性语音引擎“谨慎”发布

3月29日，OpenAI在官网上首次公开展示了其最新研发的语音生成模型——Voice Engine。这一系统可以从15秒的音频样本中生成与原始说话者声音高度相似的自然语言语音。也就是说，如果你上传一段自己的录音和一段文字，这款语音引擎就可以使用听起来和你声音一样的合成声音，来阅读文字。此外，语音引擎“复制”出来的声音不一定只能朗读原始说话者的母语文字，它还能用西班牙语、法语、汉语等多种语言“重现”原始说话者的声音。

有行业专家指出，OpenAI的Voice Engine模型不仅是语音合成技术的一大飞跃，更是AI技术与实际应用结合的一次成功尝试。随着技术的不断完善和应用的深入拓展，Voice Engine有望在未来引领语音合成行业的新风向。

据了解，OpenAI早在2022年便初步开发出这一模型，最初版本应用于内置在ChatGPT中的文本转语音功能。但由于OpenAI选择采用更“谨慎和可靠”的方式在公开范围内发布它，这一版本的应用从未被公开过。

语音生成器和图像、视频生成器一样，可能在社交媒体上传播虚假信息，也可能被不法分子利用为线上或电话诈骗的工具。为了防止滥用，目前，该模型正处于小规模预览阶段，仅与精心挑选的合作伙伴共同推进试点应用，以确保技术的稳健进步和负责任的应用。OpenAI称，他们非常担心这种技术还可能被错用来破解在线银行账户和其他个人应用程序的语音认证。OpenAI产品经理杰夫·哈里斯（Jeff Harris）表示：“这是一件敏感的事情，重要的是要把它做好。”目前，OpenAI正在探索对合成声音加上水印或加强管控的方法。

“我们希望就负责任地部署合成声音，以及社会如何适应这些新功能开启对话。基于这些对话和这些小规模测试的结果，我们将就是否以及如何大规模部署这项技术做出更明智的决定。”OpenAI在一篇未署名的博客文章中这样写道。

AI语音新赛道

OpenAI的语音引擎不是行业内唯一在AI语音领域的研究。2023年初，微软也曾宣布推出了一款名为VALL-E的全新文本转语音人工智能模型，可以基于仅有3秒钟的语音样本，生成几近真实的人类声音。

微软将VALL-E称为“神经编解码器语言模型”，它根据文本输入和目标说话者的短样本生成音频。微软研究者在发表的报告中写道：“Vall-E出现了理解上下文的学习能力，可用于合成高质量的个性化语音，只需录制3秒的声音作为声学提示。实验结果表明，就语音自然度和说话人相似度而言Vall-E明显优于其他AI语音系统，是目前最先进的零样本（文本到语音）系统。”

VALL-E不仅可以模仿音调或质地，还可以模仿说话者的情绪基调以及说话环境的声学效果。也就是说，如果目标语音存在干扰，VALL-E也会像有干扰一样模仿该语音，“我们发现VALL-E可以保留说话人的情感和声音环境。”在测试合成句子中，VALL-E就曾睡眼惺忪地说了这样一句话：“我们必须减少塑料袋的数量。”

为了模仿语音，目标说话人的语音必须与训练数据紧密匹配。研究人员表示，他们已经对VALL-E进行了6万小时的英语语音训练，其中语音来自Meta的LibriLight音频库中的7000多名演讲者，这个训练量比现有其他系统都大数百倍。通过这种方式，AI可以使用其“训练”来尝试模仿目标说话者的声音或大声朗读所需的文本。

微软同样面临着文本到语音AI拟音所存在的安全隐患。研究人员表明：“由于VALL-E可以合成并保存用户的语音，它可能会出现被滥用的潜在风险，例如欺骗目前软件的语音识别功能或是冒充特定的说话人。”例如，人们可以使用VALL-E使骚扰电话听起来更加真实，从而欺骗人们；政治家或具有社会影响力的人也可以被冒充；需要语音命令或语音密码的应用程序也可能受到威胁。

此外，VALL-E还可能会侵占目前声优的工作。洛杉矶一家专注于科技与创业新闻的媒体在评述中提到：“如果更多像詹姆斯·厄尔·琼斯（James Earl Jones，演员）这样的名人同意VALL-E使用他们的声音，或是企业将可以从供应商处购买到可以完美模仿艾迪·墨菲（Eddie Murphy，演员、歌手）的软件时，那么为什么要聘请一个相对不知名的人进入录音室并花费数小时进行配音呢？”

对于VALL-E存在的安全隐患，微软公司发表了一份伦理声明：“这项工作中的实验是在假设模型的用户是目标演讲者并得到演讲者认可的情况下进行的。当模型被推广到现实世界中无法辨别说话人时，它将包括一个协议来确保说话人批准使用和合成他们的声音。”

虽然AI语音存在一定的安全隐患，但多年来，互联网公司也从未停止开发更真实的AI语音系统。英国的Papercup一直在为Sky News，Discovery，Cinedigm等主要媒体品牌提供多种语言的自然人声AI配音。Sonantic公司通过将非语音声音融入其音频模拟中，例如微小的嘲笑声、微弱的呼吸声，或咯咯笑声，以生成极其逼真的效果。

不可否认的是AI合成语音有很多潜在优势，在适当的环境下，AI语音可以帮助节省大量时间和金钱。例如，创作者只要存入自己的声音就可以让AI帮忙录制整个有声读物。在处理重要公共卫生信息或重要安全通知时，音频工程师可以尝试更多的声音和说话风格，以找到最有效的声音并广为流传。

在2014年接受喉癌治疗后永久失声的演员瓦尔·基默（Val Kilmer）就曾与Sonantic公司合作，为自己在日常生活中创造了一种由人工智能驱动的说话声音。而当日渐成熟的AI语音技术与AI对话技术相结合，逼真声音将为虚拟对话带来更真实的体验。新聊天机器人Character.AI可以让用户与几乎任何人交谈，不管是历史上诸如马克思、伊丽莎白等名人，还是去世的亲人。那么，将VALL-E与Character.AI结合，怎样的元宇宙将展现在我们面前？

本文原文来自澎湃新闻