2026年4月

项目地址:https://github.com/RVC-Boss/GPT-SoVITS

说下V2版本的更新:新增两种语种,现在支持中、英、日、韩、粤物种语种,现在1分钟的参考音频就能训练出很好的效果。
对中英多音字做了优化,解决了旧版吞字的问题,情绪化复刻效果更加逼真了。

其他更多的效果大家自行体验,使用和之前的老版本类似。

软件下载后,解压出来,建议解压到非中文目录下,切记!
在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,1-3分钟左右即可。
素材的质量,决定合成的效果。

解压后,双击 go-webui.bat,或完成环境配置和依赖安装后,在终端中输入 python webui.py 即可启动项目。(Windows系统)
访问地址:http://localhost:9874

UI最上方有官方的使用教程手册,想系统的学习可以参考:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

Windows整合包
https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4
GPT-SoVITS整合包使用说明
首先上传3-10秒的参考音频。

然后在参考音频的文本里输入音频样本的文字内容,不输入音频文本的话,效果会差些,尽量输入。

然后输入需要合成的文本,点击合成语音按钮。

1 简介
GPT-SoVITS是一种语音合成模型,于2024年2月18日发布,它基于深度学习的语音合成框架,通过整合GPT(Generative Pre-trained Transformer)的自然语言理解能力与SoVITS(Soft Voice Isolation and Timbre Synthesis)的声纹特征建模技术,实现了「文本 – 语音」的高保真映射与个性化声音克隆。其核心优势在于:​

多模态融合:支持文本、声纹、情感标签等多维度输入,生成兼具语义理解与情感表达的自然语音;​
低资源适配:通过少量样本即可完成声线迁移,降低专业配音的门槛;​
场景化定制:可针对短视频创作、智能客服、有声书制作等场景优化韵律与音色,满足工业化部署需求。

1.创建虚拟环境
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
2.新建工程
3.部分环境
pip install -r requirements.txt

4.模型下载。
手动下载以下几个模型(体验时几个模型不一定需全下载)
本文统一放在模型存档目录:/u01/workspace/models/GPT-SoVITS
pretrained_models
git clone https://huggingface.co/lj1995/GPT-SoVITS

uvr5_weights
https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights

asr model:
git clone https://hf-mirror.com/Systran/faster-whisper-large-v3

可选模型: speech_fsmn_vad_zh-cn-16k-common-pytorch,speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch, punc_ct-transformer_zh-cn-common-vocab272727-pytorch
下载地址分别为:
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git

预训练模型
中国用户可以从这里下载所有这些模型。

1.从GPT-SoVITS模型下载预训练模型,并放入GPT_SoVITS/pretrained_models文件夹中。

2.从G2PWModel_1.1.zip下载G2PW模型,解压并重命名为G2PWModel,然后放入GPT_SoVITS/text。(仅限中文TTS)

3.对于UVR5(声乐/伴奏分离及混响去除),从UVR5权重下载模型,并放入tools/uvr5/uvr5_weights。

4.对于中文ASR(可选),从Damo ASR模型、Damo VAD模型和Damo标点模型下载,并将它们放入tools/asr/models。

5.对于英语或日语ASR(可选),从Faster Whisper Large V3下载模型,并置于tools/asr/models内。同时,Systran的其他模型可能以更小的磁盘占用实现类似效果。

下载源码
git clone https://github.com/RVC-Boss/GPT-SoVITS.git;
cd GPT-SoVITS

Docker 容器化部署
Dockerfile样例
注意 根据官方的Dockerfile自己build出满足自身环境需要的镜像。

# Base CUDA image
# FROM cnstark/pytorch:2.0.1-py3.9.17-cuda11.8.0-ubuntu20.04
FROM pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
....
....

本文对官方的Dockerfile做了简单修改以便满足自己需要。 采用基础镜像pytorch/pytorch:2.2.1-cuda12.1-cudnn8-runtime
同时需要修改镜像的语言的环境变量,否则webui 会展示为英文界面:
ENV LANG=zh_CN.UTF-8

nltk_data 文件下载
下载地址:
https://www.nltk.org/nltk_data/
需要下载的语料库:
cmudict
averaged_perceptron_tagger

构建image
docker build -t qingcloudtech/gpt-sovits:v1.0 .

运行
修改docker-compose.yaml文件用自己编译的容器镜像:

运行
docker-compose up -d

几个重要的页面:
下面几个页面并非启动后都可以直接访问,需要根据需要点选相应的启动按钮后方可访问。
主页面: http://127.0.0.1:9874/
UVR5人声伴奏分离&去混响去延迟工具 : http://127.0.0.1:9873/
TTS推理WebUI:http://127.0.0.1:9872/
语音文本校对标注工具: http://127.0.0.1:9871/

Replacing package opencv-contrib-python with opencv-contrib-python-headless
Looking in indexes: https://pypi.doubanio.com/simple, https://pypi.oystermercury.top/ms
Looking in links: https://mirror.sjtu.edu.cn/pytorch-wheels/torch_stable.html

pip install numba -i https://mirrors.aliyun.com/pypi/simple/
pip install numba -i https://pypi.org/simple
pip --default-timeout=100 install numba

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

确保 pip 和 setuptools 是最新版:
python -m pip install --upgrade pip setuptools

总结建议
优先尝试 更换镜像源(如阿里云)或 增加超时时间。如果问题仍然存在,可能是网络环境限制,需检查代理或防火墙设置。

按照这个路径找:HKEY_CURRENT_USER/Software/Microsoft/Windows/CurrentVersion/Internet Settings
ProxyEnable=0

RuntimeError: GPUs with compute capability below 8.0 are not supported.
计算能力低于8.0的GPU不支持
(turbodiffusion) D:\AITool\TurboDiffusion\SpargeAttn>nvidia-smi --query-gpu=name,compute_cap --format=csv
name, compute_cap
Tesla V100-SXM2-16GB, 7.0
NVIDIA GeForce GTX 750 Ti, 5.0

ERROR: Could not find a version that satisfies the requirement triton>=3.3.0 (from turbodiffusion) (from versions: none)
ERROR: No matching distribution found for triton>=3.3.0

通义千问2.5 Wan2.1

RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16.
问题分析
这是 V100 用户最常见的报错之一。虽然现代 LLM 框架默认倾向于使用 bfloat16 以提升训练稳定性,但 V100 的计算能力为 7.0,仅支持 float16 而不支持 bfloat16。当 vLLM 自动检测模型 dtype 为 bfloat16 时,将无法在 V100 上加载。

解决方案
必须显式指定数据类型为 float16,可通过以下两种方式实现:
方法一:命令行启动时指定
--dtype half 即表示 float16

方法二:代码中初始化 LLM 时设置

from vllm import LLM
 
llm = LLM(
    model="/path/to/Qwen2.5-7B-Instruct",
    dtype="float16",           # 关键设置
    swap_space=16,             # CPU交换空间(GiB)
    gpu_memory_utilization=0.9 # 控制显存利用率
)

如果启动报错,尤其是显卡不支持 FlashAttention
提示RuntimeError: FlashAttention only supports Ampere GPUs or newer

问题分析
FlashAttention-2 是目前最快的 attention 实现之一,但它要求 GPU 架构为 Ampere(如 A100)及以上。而 V100 属于 Volta 架构(Compute Capability 7.0),不支持 FlashAttention-2,因此 vLLM 会自动降级至 XFormers 或其他替代方案。

那就是
GTX 10xx/20xx 等较旧的 GPU 不适用于此版本的 FlashAttention,那只能另找途径,或者去万人同骑的huggingface和modelscope官网玩儿。

Xformers是什么
xFormers 是一个由 Meta(原 Facebook Research)开发的基于 PyTorch 的优化库,专注于提升 Transformer 模型的计算效率和显存利用率。它通过定制化的 CUDA 内核、模块化组件和前沿算法优化,为深度学习任务(尤其是生成式模型如 Stable Diffusion)提供加速支持。

xFormers 提供了多种优化的注意力机制(如 Memory-Efficient Attention 和 Flash Attention),通过减少显存占用和加速矩阵运算,显著提升模型推理和训练效率。例如,在生成图像时,显存消耗可降低 30%-50%,速度提升可达 2 倍。

xFormers 是 ComfyUI 用户提升生成效率和稳定性的关键工具,尤其适合需要处理复杂工作流或显存有限的场景。

如果没有安装,可能会报类似这样的错误:

no module 'xformers'.Processing without...

这个报错出现,并不影响comfyui可以正常运行,图像还是可以正常生成的,只是速度会慢一些,如果你的显卡本身显存不大,还是建议更新安装下的。

如何安装
注意:xformers版本跟你电脑的pytorch和cuda版本关系非常大,如果不兼容有可能直接把你当前的运行环境搞崩溃,所以如果崩溃了,而自己又不懂如何修复,可能要重新安装comfyui。

首先需要到xformers官方的git上查看下版本兼容的问题:

GitHub - facebookresearch/xformers: Hackable and optimized Transformers building blocks, supporting a composable construction.

https://github.com/facebookresearch/xformers

比如说,这边是12.4的cuda,所以要找到这行命令:
cuda 12.4 version
但是,请勿直接安装:
如果是这样安装,系统会自动更新torch到最新的2.6,然后启动comfyui你就会遇到这样的提示:

comfyui环境就崩溃了,而且会遇到跟torchvison等几个package冲突的问题,很麻烦。

多次测试后,找到一个比较靠谱的组合:
torch2.5.1+cu124+xformers 0.0.28.post3版本。
命令行输入:python -m pip install -U xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124 然后回车