1 简介
GPT-SoVITS是一种语音合成模型,于2024年2月18日发布,它基于深度学习的语音合成框架,通过整合GPT(Generative Pre-trained Transformer)的自然语言理解能力与SoVITS(Soft Voice Isolation and Timbre Synthesis)的声纹特征建模技术,实现了「文本 – 语音」的高保真映射与个性化声音克隆。其核心优势在于:
多模态融合:支持文本、声纹、情感标签等多维度输入,生成兼具语义理解与情感表达的自然语音;
低资源适配:通过少量样本即可完成声线迁移,降低专业配音的门槛;
场景化定制:可针对短视频创作、智能客服、有声书制作等场景优化韵律与音色,满足工业化部署需求。
1.创建虚拟环境
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
2.新建工程
3.部分环境
pip install -r requirements.txt
4.模型下载。
手动下载以下几个模型(体验时几个模型不一定需全下载)
本文统一放在模型存档目录:/u01/workspace/models/GPT-SoVITS
pretrained_models
git clone https://huggingface.co/lj1995/GPT-SoVITS
uvr5_weights
https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights
asr model:
git clone https://hf-mirror.com/Systran/faster-whisper-large-v3
可选模型: speech_fsmn_vad_zh-cn-16k-common-pytorch,speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch, punc_ct-transformer_zh-cn-common-vocab272727-pytorch
下载地址分别为:
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git
预训练模型
中国用户可以从这里下载所有这些模型。
1.从GPT-SoVITS模型下载预训练模型,并放入GPT_SoVITS/pretrained_models文件夹中。
2.从G2PWModel_1.1.zip下载G2PW模型,解压并重命名为G2PWModel,然后放入GPT_SoVITS/text。(仅限中文TTS)
3.对于UVR5(声乐/伴奏分离及混响去除),从UVR5权重下载模型,并放入tools/uvr5/uvr5_weights。
4.对于中文ASR(可选),从Damo ASR模型、Damo VAD模型和Damo标点模型下载,并将它们放入tools/asr/models。
5.对于英语或日语ASR(可选),从Faster Whisper Large V3下载模型,并置于tools/asr/models内。同时,Systran的其他模型可能以更小的磁盘占用实现类似效果。
下载源码
git clone https://github.com/RVC-Boss/GPT-SoVITS.git;
cd GPT-SoVITS
Docker 容器化部署
Dockerfile样例
注意 根据官方的Dockerfile自己build出满足自身环境需要的镜像。
# Base CUDA image
# FROM cnstark/pytorch:2.0.1-py3.9.17-cuda11.8.0-ubuntu20.04
FROM pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
....
....
本文对官方的Dockerfile做了简单修改以便满足自己需要。 采用基础镜像pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
同时需要修改镜像的语言的环境变量,否则webui 会展示为英文界面:
ENV LANG=zh_CN.UTF-8
nltk_data 文件下载
下载地址:
https://www.nltk.org/nltk_data/
需要下载的语料库:
cmudict
averaged_perceptron_tagger
构建image
docker build -t qingcloudtech/gpt-sovits:v1.0 .
运行
修改docker-compose.yaml文件用自己编译的容器镜像:
运行
docker-compose up -d
几个重要的页面:
下面几个页面并非启动后都可以直接访问,需要根据需要点选相应的启动按钮后方可访问。
主页面: http://127.0.0.1:9874/
UVR5人声伴奏分离&去混响去延迟工具 : http://127.0.0.1:9873/
TTS推理WebUI:http://127.0.0.1:9872/
语音文本校对标注工具: http://127.0.0.1:9871/