问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI翻唱音频处理流程详解

创作时间:
作者:
@小白创作中心

AI翻唱音频处理流程详解

引用
1
来源
1.
https://www.bilibili.com/opus/977584034594947077

本文将详细介绍使用AI进行音频翻唱处理的完整流程,包括人声提取、编辑、音色转换、拼接和效果添加等步骤。文章假设读者已经部署好Adobe Audition、so-vits-svc、Ultimate Vocal Remover等软件,并具备基本的使用经验。

一、使用Ultimate Vocal Remover提取干声

使用到的模型:3_HP-Vocal-UVR.pth、UVR-MDX-NET Main、5_HP-Karaoke-UVR、UVR-De-Echo-Aggressive

对于一个音频,建议先分别使用3_HP、UVR-MDX-NET进行人声提取,获得两个不同模型提取出来的人声。你也可以使用其它模型进行提取,以在接下来的人声转换中有更多的选择和对比来获得最佳结果。

如果提取出来的人声存在和声,可以使用5_HP对提取出来的人声再提取一次,多数情况下能够把和声分离出来。如果5_HP的效果没有那么理想,可以使用RipX进行进一步操作,RipX的具体用法可以自行搜索。

如果人声有混响(大多数情况下都有),可以使用UVR-De-Echo-Aggressive再对人声进行处理,获得更纯净的人声。

二、将音频导入Audition(以下简称Au)进行编辑

在Au中建立一个多轨会话,将处理好的音频导入,就像这样:

多个不同模型提取的Symphony原声

根据音频内容进行拆分,一般是在句子开头和末尾设置拆分点,目的是为了保证给AI输入的内容没有太多的无声间隙,从而获得更好的输出。

因为Au的默认快捷键设置中似乎没有指定拆分和导出所选剪辑的多轨混音的快捷键,所以建议先在设置中分别对这两个操作指定一个快捷键。下图为一个快捷键设置示例:

然后就可以使用快捷键对选中的音频进行拆分和导出了。

三、使用so-vits-svc进行音色转换

在多个轨道中,选出听起来最纯净的片段,然后将其导出,将音频拿给AI转换。对接下来的音频,重复这样的操作,目的是保证每段人声都能得到最佳的转换结果。当然,也可以直接一整段丢给AI,这样可以省去大部分操作,但这样做可控性不高,结果也不会特别好。

通常情况下,选择默认的pm预测器就足够了。但有的时候可能会出现哑音(多发生在高音部分),这时候可以更换其他预测器进行解决。有的时候转换出来的人声始终存在哑音的情况,对于这种情况的处理将在后续章节详细说明。

如果转换出来的声音不是很理想,可以回到Au中,使用其他模型提取出的人声进行尝试。如果不管怎么样都没有办法让声音听起来正常,可能是这首歌的人声混响太多,AI得不到一个干净的人声,就无法提供一个干净的输出。这时候可以寻找一下是否有其他的翻唱版本,通常情况下翻唱版本的人声会干净些。

四、对转换后的音频进行拼接

在Au中新建一个多轨会话,导入转换后的人声,同时导入伴奏。由于前面进行了拆分,直接导入的人声是没有对齐的。这时可以回到原声轨道,复制片段起点指示器所在的时间,粘贴回来让时间指示器对齐,再把音频对齐到指示器就完成对齐了。

五、给人声音轨添加效果

由于AI转换出来的人声为不带任何混响效果的干声,不进行任何处理的话可能会听起来具有突兀和违和感。建议在轨道的效果栏中添加卷积混响,下图是一个常用的效果设置:

这个效果可以让人声听起来更有空间感。可以根据需要添加其他效果,尽量让转换后的人声听起来接近去混响之前的原人声。当然,也可以不必局限于此,混出自己喜欢的效果就行。

六、高音出现哑音的处理方法

将存在哑音的片段正常导入至轨道的正确位置,然后在该片段的下方轨道添加原声片段,这样可以将原声的高音部分填补到缺少高音的哑音片段中。接下来就是尽可能的消除违和感,使高音部分听起来像是由同一人演唱的。

为了能够使原声音频的叠入不会覆盖掉AI的音色,在不影响高音部分的前提下,可以调整原声的音量,同时给原声添加渐入效果,能够在一定程度上掩盖原声音色的叠入。

更多更具体的操作可以参考提供的工程文件:

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号