本地部署 fish-speech:一款支持多语言的语音合成工具
创作时间:
作者:
@小白创作中心
本地部署 fish-speech:一款支持多语言的语音合成工具
引用
CSDN
1.
https://blog.csdn.net/engchina/article/details/144634619
fish-speech是一款先进的语音合成工具,支持零样本和小样本TTS,能够处理多语言文本,并提供WebUI和GUI两种用户界面。本文将详细介绍如何在本地部署和使用fish-speech,包括具体的安装步骤和运行方法。
0. fish-speech 特性
- 零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。详见语音克隆最佳实践指南。
- 多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
- 无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
- 高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
- 快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
- WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
- GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
- 易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。
1. 本地部署 fish-speech
克隆代码,
git clone https://github.com/fishaudio/fish-speech
修改 tools/download_models.py,将 "gitattributes" 改为 ".gitattributes"。(估计后期代码库会修复,如果代码库已修复,这步就不用做了。)
# "gitattributes"
".gitattributes"
下面是基于windows环境进行部署,进入到 fish-speech 目录,双击 install_env.bat 安装虚拟环境。
2. 运行 fish-speech
下面是想使用 WebUI 界面进行推理,编辑项目根目录下的 API_FLAGS.txt,前三行修改成如下格式:
--infer
# --api
# --listen ...
...
双击 start.bat 运行 fish-speech。第一次运行时,会从网上自动下载模型。
然后使用浏览器,打开 http://127.0.0.1:7860/ 进行访问。
然后单击 “推理配置”,按照截图进行配置,我本地环境,设置编译模型为 "Yes" 会报错,实际使用的时 "No" 这个选项。
然后使用浏览器,打开 http://127.0.0.1:7862/ 进行访问。
之后,输入要推理的文本,上传参考音频,单击 “生成” 就可以进行推理了。
参考资料:
热门推荐
塔罗牌的种类,以及韦特塔罗牌的发明和设计
急性心肌梗塞的治疗要点
在家打造舒适阅读角:客厅、阳台、卧室等多空间创意布局指南
狱警公务员考试怎么备考
专家解析岛屿争夺战:突袭有奇效 岸舰导弹作用大
房间声学处理:四大手段打造专业级听音环境
对鸡蛋过敏的人可以吃鸭蛋和鹅蛋吗
9个异木棉拍照姿势,拍出梦幻粉色调,甜美自然有氛围!
家庭规则:制定合理家规,培养自律的孩子
研究发现:拟人化设计如何激发健身动力?
上海闵行职业技术学院加速AI赋能职教变革 构建数字化转型新范式
【动物界全系列】蚁总科—古山蚁亚科
重塑团队默契,应对豪门足球风云关键时刻
什么工作适合团队协作
《六姊妹》大结局:陈光明考上研究生,才知何家喜有多自私
“十一”出游目的地前瞻:有传统热门也有新晋黑马
揭秘真正护眼手机选择指南:PWM高频调光vsDC调光深度解析
当父母能够做到“无条件”的爱孩子,才是真正教育的开始!
如何通过薪酬管理提升员工绩效?
近视激光手术设备有望国产化,上海LAB基地助医生与企业合作
绿茶能不能去口臭
风吹树式:改善高低肩的瑜伽体式详解
9种“招财花”,穷也要养一盆,小日子很舒心
如何规划家庭的赡养老人预算?
植发术前全方位评估之2025年专业检查费用概览
香港永居需注销内地户籍吗?
怎么有效的预防脚臭
紫微斗数文昌星和文曲星的区别
如何有效减少手机频闪对眼睛的伤害
痛风的原发性和继发性怎么区分