本地部署 fish-speech:一款支持多语言的语音合成工具
创作时间:
作者:
@小白创作中心
本地部署 fish-speech:一款支持多语言的语音合成工具
引用
CSDN
1.
https://blog.csdn.net/engchina/article/details/144634619
fish-speech是一款先进的语音合成工具,支持零样本和小样本TTS,能够处理多语言文本,并提供WebUI和GUI两种用户界面。本文将详细介绍如何在本地部署和使用fish-speech,包括具体的安装步骤和运行方法。
0. fish-speech 特性
- 零样本 & 小样本 TTS:输入 10 到 30 秒的声音样本即可生成高质量的 TTS 输出。详见语音克隆最佳实践指南。
- 多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
- 无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何文字表示的语言。
- 高准确率:在 5 分钟的英文文本上,达到了约 2% 的 CER(字符错误率)和 WER(词错误率)。
- 快速:通过 fish-tech 加速,在 Nvidia RTX 4060 笔记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
- WebUI 推理:提供易于使用的基于 Gradio 的网页用户界面,兼容 Chrome、Firefox、Edge 等浏览器。
- GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。支持 Linux、Windows 和 macOS。查看 GUI。
- 易于部署:轻松设置推理服务器,原生支持 Linux、Windows 和 macOS,最大程度减少速度损失。
1. 本地部署 fish-speech
克隆代码,
git clone https://github.com/fishaudio/fish-speech
修改 tools/download_models.py,将 "gitattributes" 改为 ".gitattributes"。(估计后期代码库会修复,如果代码库已修复,这步就不用做了。)
# "gitattributes"
".gitattributes"
下面是基于windows环境进行部署,进入到 fish-speech 目录,双击 install_env.bat 安装虚拟环境。
2. 运行 fish-speech
下面是想使用 WebUI 界面进行推理,编辑项目根目录下的 API_FLAGS.txt,前三行修改成如下格式:
--infer
# --api
# --listen ...
...
双击 start.bat 运行 fish-speech。第一次运行时,会从网上自动下载模型。
然后使用浏览器,打开 http://127.0.0.1:7860/ 进行访问。
然后单击 “推理配置”,按照截图进行配置,我本地环境,设置编译模型为 "Yes" 会报错,实际使用的时 "No" 这个选项。
然后使用浏览器,打开 http://127.0.0.1:7862/ 进行访问。
之后,输入要推理的文本,上传参考音频,单击 “生成” 就可以进行推理了。
参考资料:
热门推荐
退役军人养老保险如何算?“视同”缴费年限,如何确认?
期货收评:黑色建材集体大涨 玻璃一度涨超6%
深入解析四柱八字透干与通根的力量
微纳机器人的设计与制造:从耦合设计到复合制造
冰箱冻不起来了怎么办?这些处理方法帮你轻松应对
肌肉流失是什么原因
如何有效提升高中文言文翻译的能力
梨树用什么树嫁接当砧木?
很多人选择摆烂和躺平,往往是因为「习得性无助」
幸存者偏差与回填偏差:定义、区别及避免方法
老年社会保障:构建幸福晚年的重要保障体系
基金绩效评价怎么进行才更科学?
2万元成本特摄剧走红网络:大学生剧组热血逐梦
丘处机的长寿秘诀:一生的修行与智慧
痛彻心扉的爱:分手之歌词解析
苏州残疾证优惠政策全解析:生活、税收、教育全方位关怀
蔚蓝档案白洲梓技能解析:单体输出之王的全面解读
软化血管的6种家常食材
期货短线交易是什么?如何制定有效的短线交易策略?
酒驾的法律责任,到底有多重
学到了!优化卧室内部环境,才能每晚好梦连连
杭州五日深度游攻略:西湖、灵隐寺、千岛湖等景点详解
AI智能辅助诊断系统:医疗行业的未来之星
消费贷为啥纷纷“降价”
蓝光危害:守护视力,抵御数字时代的隐形威胁
加工肉类为什么对人有害?深入探讨健康风险与应对策略
成语世界 | 奉为圭臬
4种治疗打呼噜的小妙招有哪些作用
钢化玻璃有几种类型 如何挑选好的钢化玻璃
企业内部调岗原因分析:探究员工调动动机及企业决策策略