2.3 Deploying and Preprocessing the Model
本章节重新介绍安装以及更新的教程
Last updated
本章节重新介绍安装以及更新的教程
Last updated
更新安装包,重新更新
sudo git clone https://github.com/RVC-Boss/GPT-SoVITS.git
pyenv versions
pyenv activate GPTSoVits
python -m pip install -r requirements.txt
因为本地化部署之后不能进行自动更新,所以需要手动更新文件夹之后,然后进行重新生成python 环境,这里使用pyenv 进行虚拟环境的管理。
下载完成之后我们可以看到的目录结构我们需要提前下载的相关的数据进行预处理阶段,以及预处理模型,方便后续进行微调,这里涉及到的URV5 ,以及TTS 等相关的模型
s2G488k.pth 是Pytorch 训练集文件
pth是PyTorch的默认文件格式,通常用于保存和加载模型参数。 pth文件是一个二进制文件,其中包含了模型的所有参数信息,包括权重和偏置等。 通过加载pth文件,我们可以快速地将训练好的模型应用到新的数据集上,进行预测或者微调。 同时,我们也可以将训练好的模型保存为pth文件,以便后续使用。
模型文件地址:https://huggingface.co/lj1995/GPT-SoVITS/tree/main
git lfs install
git clone https://huggingface.co/lj1995/GPT-SoVITS
g2pW:一种有条件的加权 Softmax BERT,用于汉语多音字消歧
ONNX(Open Neural Network Exchange)是一种开放式的文件格式,用于存储和交换训练好的机器学习模型。 它使得不同的人工智能框架(如PyTorch、TensorFlow)可以共享模型,促进了模型在不同平台之间的迁移和复用。
wget
https://paddlespeech.bj.bcebos.com/Parakeet/released_models/g2p/G2PWModel_1.1.zip
UVR5 工具模型下载
这里我们可以使用两种模式,一种是直接下载使用UVR 5 软件进行生成操作,另外一种是可以直接使用的
GPT-SoVIST 提供的UI界面根据现有的模型进行处理前期的音频语料。
模型地址:https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/uvr5_weights
AI人声伴奏音频分离软件UVR5(Ultimate Vocal Remover 5.5)是一款功能强大的伴奏制作/人声提取工具,其表现不仅优于RX9、RipX和SpectraLayers 9等同类工具,而且它提取出来的伴奏已经无限接近原版立体声。
ASR(Automatic Speech Recognition)是自动语音识别的缩写,它是指将人类的语音信号转换成计算机可以理解的文本信息的技术。简单来说,就是让机器“听”懂人类说的话并将其转化为文字。这项技术在许多领域都有广泛的应用,如智能助手、语音搜索、语音输入等。
模型下载地址:
Paraformer语音识别-中文-通用-16k-离线-large-pytorch
FSMN语音端点检测-中文-通用-16k
https://modelscope.cn/models/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch/files
CT-Transformer标点-中文-通用-pytorch
https://modelscope.cn/models/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch/files
这里我们直接是用Openai 的Whisper 进行
模型下载地址:https://huggingface.co/Systran/faster-whisper-large-v3/tree/main
最终的模型文件如下:
启动界面
python webui.py <language(optional)>
启动推理界面
python GPT_SoVITS/inference_webui.py <language(optional)>
如果在使用过程之中,需要重新启动需要,删除相关的端口占用
sudo lsof -i:9874
sudo kill -9 PID