从零开始训练基于自己声音的AI大模型:使用so-vits-svc的完整教程
创作时间:
作者:
@小白创作中心
从零开始训练基于自己声音的AI大模型:使用so-vits-svc的完整教程
引用
CSDN
1.
https://blog.csdn.net/u010046615/article/details/141821564
本文将详细介绍如何基于开源项目so-vits-svc,使用阿里云平台从零开始训练一个基于自己声音的AI大模型。通过本文,你将学习到如何准备训练环境、处理训练数据、进行模型训练以及最终实现人声与伴奏的合并。
准备工作
- 技术栈:Python
- 环境要求:阿里云全套可视化平台
- 工具:Chrome浏览器
Step 1: 注册及登录阿里云主机
- 打开阿里云官网,登录个人阿里云账号。
- 在左侧产品目录中,进入人工智能平台PAI。
- 选择左侧的Notebook Gallery,这是一个基于Notebook方式的可视化平台,易于操作和二次开发。
Step 2: 找到大模型项目
- 在全部分类里,搜索开源项目so-vits-svc(即AI孙燕姿用的模型项目)。
- 在搜索结果中,找到“AI歌手”这个项目,然后点击【在DSW中打开】。DSW全称是Data Science Workshop,类似于一个深度训练的云平台。
Step 3: 创建大模型环境实例
- 点击【在DSW中打开】后,会跳转到新建实例页面。
- 为这个大模型在云空间里创建一个运行实例,包括操作系统、CPU、GPU规格。注意,涉及到大模型训练,一定要配置英伟达的GPU。阿里云提供3个月的免费试用期,一般够小型模型训练。
Step 4: 进入Ai_singer教程
- 新建完成后,回到PAI平台,在左侧选择交互式建模(DSW)。
- 找到创建好的实例,点击启动。启动完成后,点击打开,直接进入DSW对应的工作台。
- 在工作台中,找到
ai_singer.ipynb文件,这是一个用IPython(Jupyter)方式引导训练模型的教程。
Step 5: 环境及预训练模型下载
- 按照目录提示,运行预训练模型准备和数据下载的代码。
- 注意:如果在执行过程中缺少组件,可以通过
pip安装。
Step 6: 训练数据准备
- 将准备好的声音文件放置在
so-vits-svc/dataset_raw/目录下。例如,可以创建一个自定义文件夹Amiao。 - 数据清洗步骤包括:
- 人声伴奏抽取:通过全民K歌录制的歌曲,用iPhone自带的快捷指令提取出m4a格式的音频,存入电脑。然后使用UVR软件进行人声和伴奏分离。
- 音频切片:将分离好的纯人声以wav格式上传到自定义目录,如
train_data/one/。 - 数据筛选:播放切片好的声音片段,删除无声片段。
- 数据存放:将处理好的数据放到训练数据源目录
demos/ai_singer/so-vits-svc/dataset_raw/Amiao/。建议准备300条左右10秒的数据,效果更佳。
Step 7: 数据预处理和切分配置
- 按照官方教程进行数据预处理,注意路径要使用自定义路径。
- 过程中可能需要安装一些库才能继续。
Step 8:生成音频特征数据
- 运行相关代码生成特征数据。
Step 9: 训练
- 使用GPU进行模型训练,命令如下:
!cd ./so-vits-svc && python train.py -c configs/config.json -m 44k - 训练时间较长,通常需要1天甚至更久。
Step 10:推理
- 在模型训练完成后,使用目标音乐进行推理,生成AI声音演唱的歌曲。
- 推理命令示例:
!cd ./so-vits-svc && mkdir -p results/one && \ python inference_main.py \ -m "logs/44k/G_103200.pth" \ -c "configs/config.json" \ -n "one/1_1_tt_(Vocals)_(Vocals).wav" \ -t 0 \ -s "Amiao"
Step 11:人声与伴奏合并
- 安装
pydub库:pip install pydub - 运行代码合并人声与伴奏:
from pydub import AudioSegment from IPython.display import Audio,display vocal_audio = './so-vits-svc/results/one/1_1_FirstLove_(Vocals)_(Vocals).wav_-5key_Amiao_sovits_pm.flac' instrumental_audio = './so-vits-svc/raw/one/1_FirstLove_(Instrumental).wav' save_path = './so-vits-svc/results/one_Amiao.wav' sound1 = AudioSegment.from_file(instrumental_audio, format='wav') sound2 = AudioSegment.from_file(vocal_audio, format='flac') output = sound1.overlay(sound2) # 把sound2叠加到sound1上面 output.export(save_path, format="wav") # 保存文件 print('Export successfully!') display(Audio(save_path))
结语
通过本文的详细教程,你可以从零开始训练一个基于自己声音的AI大模型。虽然AI合成的声音可能还需要不断优化,但这是一个很好的开始。希望这篇文章能激发你对AI语音合成的兴趣,开启你的AI创作之旅。
热门推荐
母亲的情绪管理,决定孩子的自信程度
如何判断八字五行是否平衡
《延禧攻略》教你如何倾听与理解女性心声
微博热议:女性如何在恋爱中正确表达爱?
暖气管材选购全攻略:铝塑管、PPR管、PB管对比分析
PE-RT:地暖管道新宠儿!
和平精英高手教你识破人机套路!
福田水围村夜市:如何享受地道夜生活
深圳水围夜市美食攻略:特色小吃与文化体验的完美融合
深圳水围夜市:吃货天堂打卡指南
东坡区公安:小小警务室如何守护社区平安?
双十一剁手必备:微信指纹支付教程
科学研究证实:原谅他人真的能减压!
修复夫妻关系:让爱重燃的十大步骤
历史上东吴以江东六郡为根基,你知道这六郡现在都是哪里吗?
三国时期的东吴,根基是江东六郡,六郡分别是如今的哪些地方?
东吴立国百年:地利、人和与战略的完美结合
春节东南亚海岛游:仙本那、普吉岛和巴厘岛攻略
长滩岛:水上运动爱好者的天堂
巴厘岛:东南亚最美海岛探秘
西湖一日游:必打卡杭帮菜餐厅推荐
全面解析:人工智能在医疗领域的应用与挑战
母亲抑郁与宝宝社交能力的秘密
母亲抑郁:识别、影响与应对之道
家庭教育中的榜样力量:从孔子智慧到现代实践
进门口放什么摆件风水好:提升家居运势的10种选择
职场榜样:如何激发团队潜力?
北大学长故事:榜样教育的力量
Wireshark入门:网络数据包捕获与分析指南
明日初六,迎财神逢立春,4类人需要躲春,春在五九尾有何预兆?