AI语音训练——GPT-SoVITS(GSV)

发布于:2025-07-06 ⋅ 阅读:(31) ⋅ 点赞:(0)

链接说明

github项目地址:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

项目中文说明书: GPT-SoVITS指南//项目说明书里也有在线使用的链接

原项目作者B站教学视频:耗时两个月自主研发的低成本AI音色克隆软件,免费送给大家!【GPT-SoVITS】_哔哩哔哩_bilibili

作者甚至贴心提供了AutoDL教程!他真的我哭死:AutoDL(Linux系统,镜像更新最快)

同理可以在线训练:AI Hobbyist TTS  

项目目前只有TTS(文字转语音Text-To-Speech)、并不支持歌声转换SVC歌声合成SVS

支持跨语种合成(可以合成和训练音频语种不一样的语种)

*任何发布基于GPT-SoVITS,需要附带上GPT-SoVITS的tag。

项目版权归原作者所有,此blog仅是lz训练过程记录。 如有谬误欢迎指正。

目录

链接说明

硬件要求

使用步骤

1.素材准备

1.1输入&输出管理

1.2纯净人声获取(如果有干净的人声素材可以跳过此步)

​编辑

1.3切割音频

开源协议 & 署名要求


硬件要求

原项目说明,恩,uu们自行斟酌。

使用步骤

各种文件路径,模型名称都不要有中文

前往上文提到的项目说明书中下载最新整合包。解压后,双击运行go-webui.bat运行程序。

稍等一会儿,此时会弹出console窗口,如下图,在项目运行时不能关闭该窗口

稍等一会儿,在默认浏览器中跳出GSV的webUI界面,界面大致如下图所示。 目前最新的整合包中,变声部分仍然在施工中,所以该项目能够实现,通过上传数据集,训练音色,训练好的音色+目标文字→该音色语音

1.素材准备

需要把音频格式转化为wav以获得更好的音频效果。

此处分享一个在线免费音频格式转换工具:音频转换器- FreeConvert.com

1.1输入&输出管理

所有文件路径复制时都不能有双引号

项目原输出文件夹可以更改,原输出默认存放在output文件夹中

可以自行更改文件输出目录, 建议uu们合理地设置数据集的存放,便于后续管理,此处lz提供一个参考的管理方法。

1.2纯净人声获取(如果有干净的人声素材可以跳过此步)

若需要纯净的人声素材,可以使用UVR5对人声进行分离,此项目也整合了这个功能。

点击上图中的开启人声分离webUI后,会在默认浏览器中跳出一个新的窗口,UVR5 WebUI

lz同期有研究一个AI翻唱,也会使用到UVR5,故此处lz使用歌曲素材对音乐中的人声进行分离。

模型说明,上图灰色字已经说得很清楚了,抄作业就是第一遍选择模型1,第二遍选择模型2。uu们也可以自行尝试混合使用其他模型。 

可以在 console窗口看到进度

看到这样的输出就说明音频分离成功了

如果去除效果不是很好可以多去除几次,或者切换不同的模型进行去除。去除后最好去完整地听一遍,看看有没有什么问题。

lz最后用的HP5模型对人声和歌曲进行分离

1.3切割音频

准备一段2分钟左右的素材,数据集并不是越多越好,比起数量,更重要的是质量

回到GPT-SoVITS WebUI界面。

选好输入输出地址之后,点击开启语音切分即可。  

切分完成之后也会输出如下信息

前往输出文件中听取切分好的音频,最好是逐一地去听,挑选一些合适的音频,因为有的切割可能和预期的有差别,可以删除一部分切割得不好的音频,或者重新切割

1.4打标

先别急着打标,看完打标这一小节再开始!

匹配声音和文字。人工智能里的人工部分。

利用项目自带打标工具进行初步打标

初步打标之后需要人工校对,点击开启音频标注WebUI进入打标页面

点击后会在默认浏览器弹出一个Gradio的窗口,这就是打标页面了。

文本校对

文本和音频对应,需要注意一些文字是否有误, 比如中文中的同音不同字,语气之间的停顿符号表示

当页校对结果提交

*注意是每一页,每一页,每一页。

只要点击Next Index,就需要点击Submit Text。不然就得重头开始了。

合并音频

如果一段话被切成了2段,可通过下述方式将其合并。

删除音频

如果某段音频并不符合预期,可将其删除。

校对好后关闭该页面,关闭音频标注WebUI

关闭该页面,就像关浏览器网页一样。 

 2.开始训练

切换页面开始训练

2.1训练集格式化

直接点击一键三连开始训练。 

看到这样的字样说明训练集格式化已完成。

2.2微调训练

以上操作也很无脑,保持默认选项, 依次点击训练即可,可以适当调节batch_size的值,不过不要调得太高

训练完成

2.3推理 

开启推理界面 

开启之后会浏览器会默认打开一个新的界面

需要注意参考音频对最终合成效果影响较大,可以理解为主参考音频为模型提供了这个人说这句话的语气,是温柔的还是铿锵有力的。

想立即看到结果就不需要去更改下图的设置,直接点合成语音即可

注意如果是跨语种合成,最好多上传一些辅助音频参考,lz用的英文数据集,在没有上传多个辅助音频之前,生成的音频听起来就像“让我们说中文”,hhh

开源协议 & 署名要求

开源协议:GPT-SOVITS 以 MIT 协议开源,模型以 CC-BY-NC 4.0 协议开源;

署名要求:作品简介必须完整署名,缺一不可(参考下文),否则违反开源协议。

参考署名:

GPT-SoVITS开发者:@花儿不哭

模型训练者:@红血球AE3803 @白菜工厂1145号员工

推理特化包适配 & 在线推理:@AI-Hobbyist

生活像海洋,只有意志坚强的人才能到达彼岸。——来点鸡汤8

以上end