问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI语音克隆技术:下一个网红神器?

创作时间:
2025-01-22 06:52:49
作者:
@小白创作中心

AI语音克隆技术:下一个网红神器?

2025年伊始,AI语音克隆技术再次震撼了我们的视听体验。最近,质量云微信公众号通过AI克隆声音的新功能,推出了一种全新的文章朗读体验,吸引了大量用户的关注。这项技术可以模拟用户的声音,让文章以个性化的方式被朗读出来,给传统阅读方式带来了颠覆性的改变。

01

技术原理与最新进展

随着AI技术的发展,声音模拟的应用范围越来越广。质量云推出的这项功能,标志着声音合成技术的成熟。用户只需选择文章并点击耳机符号,就能听到由自己或他人声音朗读的内容。这不仅提升了阅读的趣味性,还极大地方便了信息获取,尤其是在用户忙碌或需要多任务处理的情况下。

在这项技术的背后,是一系列复杂的AI算法和深度学习模型。声音合成一般依赖于自动语音合成(TTS)技术,结合了语音克隆算法,能够从少量的声音样本中提取特征,生成与之高度相似的音频。这一过程不仅依赖于音频处理技术,还涉及自然语言处理(NLP)和深度学习等多个领域的创新。

02

网红应用案例:三只羊事件

AI语音克隆技术正逐渐成为网红界的宠儿。通过这项技术,主播们可以轻松模仿各种声音,无论是明星大咖还是经典动画角色,都能信手拈来。不仅如此,AI语音克隆还能为有语言障碍的人士提供全新交流方式,让他们重获声音,与粉丝进行无障碍互动。

三只羊事件闹得沸沸扬扬,没想到受害者竟然是AI。前天晚上,合肥警方就“三只羊集团创始人卢文庆录音事件”发布通报,称这条广为流传的音频为AI生成,犯罪嫌疑人已经被依法采取刑事强制措施。

一锤定音,这条通报不仅给出了官方表态,也扇了前几天那位网传“国内AI第一人”一记耳光,毕竟,当时“国内AI第一人”给出的判断是“AI声音克隆技术目前还做不到那么丝滑”。

不过更出人意料的是,昨天有一家AI公司跳出来“发布声明”,说这条音频内容是嫌疑人通过自家研发的AI配音大模型制作的。网友也惊了,都这样了还不忘打广告,AI卷王?我们顺着声明中提及的公司找了一下声明来源,在一个同名微博上找到了相关内容,不过该账号未经官方认证,因此也无法盖棺定论。

但是,围绕这条声明的讨论还在增加,网友们纷纷称之为“自杀式营销”,还有好奇宝宝发问了,这家AI公司的声音克隆产品真有那么厉害吗,“有没有人去这个网站实测一波呀”。试试就试试……在隐去相关公司和产品名称的基础上,我们对该产品进行了一番实测,需要注意的是,以下测试仅作科普之用,工具的价值在于使用者如何使用,我们绝不支持任何人用AI在法律边缘试探。

与此同时,我们也咨询了相关律师,想知道此外这类AI克隆声音侵权案件是否有先例,以及创作者和平台在使用或推广新技术的过程中需要注意哪些法律问题,供各位参考。

AI克隆一个人的声音,只需几秒的声音样本。输入文本、分配角色、自动逐句分割文本,一键点击生成。进入该产品页面后,我们通过操作以上几个步骤,仅花了1分钟,就让姜文念出了《让子弹飞》中六子的台词。

爹,全都找遍了,没钱,没货,也没有银子。人倒是剩俩活的,杀不杀?

这抑扬顿挫、这腔调,不知道还以为六子这角色是姜文演的,实际上六子在电影中演的是儿子,姜文演的是六子的爹。这段音频是我们利用该产品中的语音角色“姜文”生成的。目前,该产品中的语音角色众多,有“孙笑川”“丁真”等知名网络红人,也有“科比”“周杰伦”等文体界的巨星。而这些语音角色都是社区用户上传的,点击平台的官方角色则会显示“即将推出,敬请期待”。

除了可以使用社区用户上传的语音角色,想在该平台上克隆一个名人的声音也很简单。在这里我们上传了一段马斯克的真实采访录音,让AI马斯克“亲口”说出了“You swan, he frog!(癞蛤蟆想吃天鹅肉)”这句火到国外的中式英语。该平台要求样本语音只需大于2秒,样本的质量比长度更重要,所以在进行声音克隆时,最耗时的步骤是寻找马斯克的清晰录音。

官方称,这段录音将用于定义该角色默认的声音表现,包括声线、情感、语速、语调、韵律等。如果想要同个角色的不同声音风格,还支持用户添加该语音角色的不同风格样本。目前这个版本我们仅上传了一段音频,同时使用的还是该平台的快速克隆模式,而非付费的专业克隆模式(官方称该模式音色和情感还原度高达99.9%),在短句的表现上就已经和马斯克本人的声音有6到7分相似了。

从内容形式上来看,生成式AI已经“入侵”文本、音视频甚至3D内容,在这之中音频可以说是目前技术应用较为成熟的赛道之一。AI声音克隆只是AI音频生成的一个细分赛道,其他应用还包括AI生成音乐、AI生成音效。早在生成式AI出现之前,其实AI声音克隆就已经存在了。彼时想要克隆声音,基于的是传统的TTS(Text-to-Speech,文本到语音)技术,需要建立一个AI声库,采集大量的人类声音标本制作数据库,后期还得通过人工调试来模拟人声。或者基于Bert VITS等开源项目,利用最新的深度学习语音合成技术,直接文本转语音来还原音色,但对设备、技术要求都比较高。

如今在AIGC浪潮下,“卷”出来的AI工具只需要10秒乃至更少的声音样本,就能精准复刻音色。早前,我们曾在直播中介绍过AI语音克隆技术的原理,一般分为语音采集、特征提取、模型训练和语音合成等步骤,相关产品工具有Fish Audio、CosyVoice、ElevenLabs、剪映等,让语音克隆操作门槛变得更低。

因而,“三只羊录音门”出自AI之手在技术上是可行的。尤其在“有心之人”手中,除了AI生成,还可以通过人工调试、后期剪辑等方式做到以假乱真的效果。更别说流传的录音中,还有大量复杂的环境噪音、说话人的“醉酒状态”设定等,都大大增加了辨别录音真伪的难度。这下也就不奇怪不少网友会猜测:AI只是充当了“临时工”的角色,抗下了所有。

其实这也从侧面体现出,在AI技术的快速迭代下,我们普通人对AI能做什么、以及能做到什么程度,是和一线从业人员之间存在信息差的。此外,在“三只羊录音门”事件中,也暴露出平台监管缺位、创作者不当使用等法律层面上的问题。

03

未来潜力与创新应用

内容平台的AI声音侵权讨论实际上,通过AI伪造音频的侵权事件已不是第一案。今年4月,北京互联网法院审理了全国首例“AI声音侵权案”。原告殷某某是一名配音师,曾录制多部有声作品。其意外发现,自己的声音被AI化后在一款名为“魔音工坊”的App上出售。法院最终判决被告未经原告许可使用其声音,构成侵权,并赔偿原告各项损失25万元。

根据《中华人民共和国民法典》第1023条,自然人的声音受到法律保护,其保护方式参照肖像权。这意味着,如果AI生成的声音具有可识别性,能够被公众关联到特定自然人,那么未经该自然人许可使用其声音,就可能构成侵权。

中国AI绘画著作权第一案原告、北京市天元律师事务所合伙人李昀锴告诉“AI新榜”:目前来看,我们的法律不太需要修订。因为AI技术还在发展过程中,可能过两年就迭代出新的技术,如果我们的法律是针对这个去立法的话,立法大概要3到5年,到时候技术形态已经改变,那这个法律其实就变成了一纸空文。我们当前的法律已经规定了基本的框架,需要调整的只是对于这些法律怎么去解释,以及怎么通过典型性的案例去塑造相关的司法裁判态度。只有在技术真正成熟的情况下,我们才应该推动立法去把司法实践中已经确立的规则说明清楚。

除了司法实践中的侵权案例以外,内容平台上的AI声音侵权更为广泛和隐秘。眼下,层出不穷的AI工具大大降低了创作门槛,AIGC已成为继PGC、UGC后的热门内容生产方式。用AI声音克隆技术二创热门音乐、让动漫游戏角色进行AI翻唱,或是让已故名人开口说话等等,在国内外的内容平台上都已十分常见。相比老生常谈的同人创作,用AI进行二次创作是一个更为广泛的概念。同人作品通常限于粉丝群体内部的创作,而二次创作可能来源于普通的AI技术爱好者,且因为有了AI技术的加持,改编和创新有了更大的想象空间。

04

法律与伦理挑战

在科技日新月异的今天,人工智能(AI)已经渗透到我们生活的方方面面,其中AI声音克隆技术更是以其独特的魅力吸引了广泛关注。然而,随着这项技术的快速发展,一系列版权争议也随之而来,引发了社会各界的广泛讨论。其中,美国唱片业协会(RIAA)的强烈反应尤为引人注目,他们要求政府介入,将AI声音克隆技术纳入盗版监督名单。

AI声音克隆技术,简单来说,就是通过机器学习算法,对特定人物的声音进行采样和分析,然后生成与该人物声音高度相似的音频。这项技术不仅可以模仿公众人物的讲话风格,还能创作出各种风格的音乐作品。例如,“AI孙燕姿”在全网走红,其独特的唱腔与音色和孙燕姿高度相似,不仅能够演绎自己的歌曲,还能翻唱周杰伦、伍佰等知名歌手的作品。此外,还有AI生成的马云广告、周杰伦搞笑歌曲等,这些创作在社交平台上迅速走红,展现了AI声音克隆技术的巨大潜力。

然而,AI声音克隆技术的快速发展也带来了一系列版权问题。RIAA认为,AI声音克隆技术是一种潜在的侵犯版权的威胁,它允许用户未经授权就复制和使用艺术家的声音模型,从而创作出未经授权的衍生作品。这些作品不仅侵犯了被克隆声音的艺术家的权利,还侵犯了每个底层音乐曲目中声音录制的所有者的权利。此外,这些未经授权的活动还可能侵犯录音艺术家的名誉权。

RIAA在其评论信中表示,2023年见证了大量未经授权的AI声音克隆服务的爆发,这些服务对艺术家的权益造成了严重损害。为此,RIAA要求美国政府将AI声音克隆类别纳入其“恶名市场名单”中,以警告用户可能存在的侵犯版权的行为。同时,RIAA还点名了Voicify.AI等提供著名音乐艺术家声音模型的公司,认为这些公司助长了未经授权的AI声音克隆服务的蔓延。

AI声音克隆技术带来的版权争议不仅是一个法律问题,更是一个道德问题。在科技快速发展的今天,我们如何平衡技术创新与隐私保护之间的关系?如何确保技术的合理使用不会侵犯他人的合法权益?这些问题都需要我们深入思考。

从法律层面来看,目前对于AI声音克隆技术是否构成侵权还没有定论。但是,我们可以借鉴其他领域的法律经验来探讨这个问题。例如,在肖像权、名誉权等方面,我们已经有了相对完善的法律体系来保护个人的合法权益。对于AI声音克隆技术带来的版权问题,我们也可以考虑在相关法律中增加相应的条款来明确其法律责任。

从道德层面来看,我们应该尊重每个人的合法权益和尊严。AI声音克隆技术虽然可以带来很多有趣的创作可能,但我们也应该警惕其可能带来的负面影响。我们不能因为追求技术创新而忽视了对他人权益的尊重和保护。

AI声音克隆技术的快速发展给我们带来了很多新的机遇和挑战。在享受技术带来的便利的同时,我们也应该关注其可能带来的版权问题和道德风险。只有当我们充分认识到这些问题的严重性并采取有效的措施来加以解决时,我们才能确保技术的合理使用不会侵犯他人的合法权益,从而推动科技的健康发展。

此外,针对AI声音克隆技术带来的版权争议,我们还可以考虑从技术层面入手来寻求解决方案。例如,开发更加先进的音频识别技术和版权保护技术来确保音频内容的合法性和原创性。同时,加强技术提供方和互联网传播平台的监管责任也是必不可少的。只有当我们从技术、法律、道德等多个层面共同努力时,我们才能构建一个合法合规、健康发展的AI内容生态。

在这个过程中,一些企业已经开始了积极的尝试。例如千帆大模型开发与服务平台就提供了先进的AI音频生成技术,并采取了水印标识、用户实名认证等措施来确保内容的合法合规性。这种技术的应用不仅可以为创作者提供更多的创作可能性和商业价值,还可以有效保护艺术家的合法权益和尊严。同时,作为用户我们也应该提高法律意识,尊重他人的合法权益和尊严,避免制作和传播可能侵犯他人权益的AI生成内容。只有这样,我们才能共同推动AI技术的健康发展,让其成为推动社会进步的重要力量。

05

总结与展望

AI语音克隆技术正站在创新与争议的十字路口。一方面,它为内容创作、教育、娱乐等领域带来了前所未有的机遇;另一方面,如何平衡技术创新与法律伦理的边界,成为我们必须面对的挑战。随着技术的不断进步,我们期待看到更多创新应用的涌现,同时也希望看到更加完善的法律框架和行业标准的建立,让AI语音克隆技术在健康、可持续的轨道上发展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号