从零开始训练基于自己声音的AI大模型:使用so-vits-svc的完整教程
创作时间:
作者:
@小白创作中心
从零开始训练基于自己声音的AI大模型:使用so-vits-svc的完整教程
引用
CSDN
1.
https://blog.csdn.net/u010046615/article/details/141821564
本文将详细介绍如何基于开源项目so-vits-svc,使用阿里云平台从零开始训练一个基于自己声音的AI大模型。通过本文,你将学习到如何准备训练环境、处理训练数据、进行模型训练以及最终实现人声与伴奏的合并。
准备工作
- 技术栈:Python
- 环境要求:阿里云全套可视化平台
- 工具:Chrome浏览器
Step 1: 注册及登录阿里云主机
- 打开阿里云官网,登录个人阿里云账号。
- 在左侧产品目录中,进入人工智能平台PAI。
- 选择左侧的Notebook Gallery,这是一个基于Notebook方式的可视化平台,易于操作和二次开发。
Step 2: 找到大模型项目
- 在全部分类里,搜索开源项目so-vits-svc(即AI孙燕姿用的模型项目)。
- 在搜索结果中,找到“AI歌手”这个项目,然后点击【在DSW中打开】。DSW全称是Data Science Workshop,类似于一个深度训练的云平台。
Step 3: 创建大模型环境实例
- 点击【在DSW中打开】后,会跳转到新建实例页面。
- 为这个大模型在云空间里创建一个运行实例,包括操作系统、CPU、GPU规格。注意,涉及到大模型训练,一定要配置英伟达的GPU。阿里云提供3个月的免费试用期,一般够小型模型训练。
Step 4: 进入Ai_singer教程
- 新建完成后,回到PAI平台,在左侧选择交互式建模(DSW)。
- 找到创建好的实例,点击启动。启动完成后,点击打开,直接进入DSW对应的工作台。
- 在工作台中,找到
ai_singer.ipynb
文件,这是一个用IPython(Jupyter)方式引导训练模型的教程。
Step 5: 环境及预训练模型下载
- 按照目录提示,运行预训练模型准备和数据下载的代码。
- 注意:如果在执行过程中缺少组件,可以通过
pip
安装。
Step 6: 训练数据准备
- 将准备好的声音文件放置在
so-vits-svc/dataset_raw/
目录下。例如,可以创建一个自定义文件夹Amiao
。 - 数据清洗步骤包括:
- 人声伴奏抽取:通过全民K歌录制的歌曲,用iPhone自带的快捷指令提取出m4a格式的音频,存入电脑。然后使用UVR软件进行人声和伴奏分离。
- 音频切片:将分离好的纯人声以wav格式上传到自定义目录,如
train_data/one/
。 - 数据筛选:播放切片好的声音片段,删除无声片段。
- 数据存放:将处理好的数据放到训练数据源目录
demos/ai_singer/so-vits-svc/dataset_raw/Amiao/
。建议准备300条左右10秒的数据,效果更佳。
Step 7: 数据预处理和切分配置
- 按照官方教程进行数据预处理,注意路径要使用自定义路径。
- 过程中可能需要安装一些库才能继续。
Step 8:生成音频特征数据
- 运行相关代码生成特征数据。
Step 9: 训练
- 使用GPU进行模型训练,命令如下:
!cd ./so-vits-svc && python train.py -c configs/config.json -m 44k
- 训练时间较长,通常需要1天甚至更久。
Step 10:推理
- 在模型训练完成后,使用目标音乐进行推理,生成AI声音演唱的歌曲。
- 推理命令示例:
!cd ./so-vits-svc && mkdir -p results/one && \ python inference_main.py \ -m "logs/44k/G_103200.pth" \ -c "configs/config.json" \ -n "one/1_1_tt_(Vocals)_(Vocals).wav" \ -t 0 \ -s "Amiao"
Step 11:人声与伴奏合并
- 安装
pydub
库:pip install pydub
- 运行代码合并人声与伴奏:
from pydub import AudioSegment from IPython.display import Audio,display vocal_audio = './so-vits-svc/results/one/1_1_FirstLove_(Vocals)_(Vocals).wav_-5key_Amiao_sovits_pm.flac' instrumental_audio = './so-vits-svc/raw/one/1_FirstLove_(Instrumental).wav' save_path = './so-vits-svc/results/one_Amiao.wav' sound1 = AudioSegment.from_file(instrumental_audio, format='wav') sound2 = AudioSegment.from_file(vocal_audio, format='flac') output = sound1.overlay(sound2) # 把sound2叠加到sound1上面 output.export(save_path, format="wav") # 保存文件 print('Export successfully!') display(Audio(save_path))
结语
通过本文的详细教程,你可以从零开始训练一个基于自己声音的AI大模型。虽然AI合成的声音可能还需要不断优化,但这是一个很好的开始。希望这篇文章能激发你对AI语音合成的兴趣,开启你的AI创作之旅。
热门推荐
蒋介石干预致淮海战役失利,杜聿明:错失良机
50岁男性防病指南:健康生活从这里开始
麻将与数学:一盘牌局里的概率游戏
打吊针后失眠困扰如何解决?三种专业治疗方案详解
输液后护理指南:这些细节关乎感染风险
科举制度下的社会流动:机遇与局限
中东资金加速布局香港股市
猫咪上床睡觉的秘密,铲屎官必看!
猫咪为啥偏爱你的枕头?
长期步行的危害
年夜饭里的中国味道
合肥市医院揭秘左臂酸麻真相:从脾虚到神经内科检查
荣格新书揭示:集体无意识如何影响现代人的心灵?
斯洛文尼亚新增跨境列车服务,改善与奥地利铁路连接
啤酒保鲜有讲究:温度、光照、密封是关键
新疆杏干:心血管健康的小甜点
柴胡舒肝丸的正确服用方法,你真的了解吗?
完美饺子馅制作攻略:从选材到调味的全方位解析
自制烧烤腌料酱料配方:8款肉类腌制详解
金华二日游完全攻略:从双龙洞到横店影视城
临沂炒鸡火遍全网,你真的了解它吗?
皮蛋瘦肉粥:从传统到创新,4种食材让美味升级
皮蛋瘦肉粥的健康改良:低钠更便捷,传统美味焕新颜
横跨热带雨林与都市:成都-西双版纳自驾全攻略
拙政园推出迎春花果展,夜游项目让园林更添风雅
2024巴黎奥运会乒乓球比赛规则详解
喀什香妃园,原来香妃不是传说,这里不仅是她故里,还有她的墓地
磁盘写入缓存:性能与安全的博弈
广州融创乐园亲子游:必玩项目大揭秘!
昆明三日游攻略:春城景点美食住宿全指南