2.4 Model Dataset Formatting
本小节主要介绍模型数据集预处理下标注
Last updated
本小节主要介绍模型数据集预处理下标注
Last updated
接下里我们来到第二个页面,进行相关的模型训练标注。“Dataset Formatting” 是指对数据集进行组织和预处理,以使其符合模型训练或推理的要求。这个过程通常包括数据清洗、转换、标注以及存储等多个步骤,确保数据在输入模型之前已经经过必要的处理,能够被模型正确理解和使用。
这里我们可以看到预训练模型,SoVIST ,GPT 。
GPT(Generative Pre-trained Transformer)是一种基于变换器(Transformer)架构的语言模型,由OpenAI开发。GPT模型通过在大规模文本数据上进行预训练,能够生成高质量的自然语言文本,并在多种自然语言处理任务中表现出色。
SoVITS (Singing Voice Conversion based on VITS) 是一种基于VITS(Variational Inference Text-to-Speech)的歌声转换技术。
VITS 是一种基于变分推理的文本到语音合成(TTS)模型,它结合了变分自编码器(VAE)和Flow模型,可以生成高质量的语音。VITS 模型具有以下特点:
高质量语音合成:由于结合了VAE和Flow模型,VITS可以生成具有高自然度和清晰度的语音。
端到端训练:VITS可以端到端地进行训练,从文本输入直接生成语音输出。
所以可以看到,预处理的模型可以实现的在训练数据集上提取声音的特征,然后使用语义标注原始的音频数据转换为结构化的、具有丰富语义信息的表示,便于后续的处理和分析。
所以现在的逻辑应该是很清晰的了。
所以整个过程如下:
这个部分是数据集格式化的步骤,目的是准备好训练所需的数据。包括以下内容:
Text labeling file: 这是一个文本标注文件的路径,包含了音频文件对应的文本信息。
Audio dataset folder: 这是一个音频数据集的文件夹路径,包含了需要处理的音频文件。
这个部分涉及到文本处理,主要是将音频转换为文本(语音转文本,Speech-to-Text):
GPU numbers: 指定用于处理的GPU编号。
Pretrained BERT model path: 预训练的BERT模型路径,用于文本处理。
Text processing output: 语音转文本处理的输出路径。
这个部分涉及到自监督学习特征提取(SSL),用于从音频中提取特征:
GPU numbers: 指定用于处理的GPU编号。
Pretrained SSL model path: 预训练的自监督学习模型路径。
SSL output log: 特征提取的输出日志路径。
这个部分涉及到语义标记提取,将音频转换为语义标记:
GPU numbers: 指定用于处理的GPU编号。
Semantics token extraction output log: 语义标记提取的输出日志路径。
这里来介绍下推理训练的过程,涉及到2个模型文件。
Chinese-RoBERTa 是一种基于 RoBERTa 的预训练语言模型,专门针对中文语言处理任务进行优化和预训练。通过在大规模中文数据集上进行训练,并使用专门设计的中文词汇表,Chinese-RoBERTa 能够在多种中文自然语言处理任务中表现出色。其应用领域包括文本分类、命名实体识别、机器翻译、问答系统、文本生成和文本摘要等。RoBERTa 仅使用掩码语言模型(Masked Language Model, MLM)进行预训练,而去除了 BERT 中的下一句预测任务(Next Sentence Prediction, NSP),这被证明对模型性能有积极影响。
Chinese-HuBERT 是一种基于 HuBERT 的自监督学习模型,专门针对中文语音处理任务进行优化和预训练。通过在大规模中文音频数据集上进行训练,并使用聚类技术提取中文语音的特定特征,Chinese-HuBERT 能够在语音识别、语音合成、语音分离、情感识别和语音增强等任务中表现出色。其自监督学习的特性使得它能够从未标注数据中学习,有效地提高模型的泛化能力和性能。 是一种专门为中文语言处理任务设计的自监督学习模型,基于 HuBERT(Hidden-Unit BERT)架构。HuBERT 是一种用于语音处理的自监督学习模型,通过学习隐藏单元(hidden units)来表示音频信号,从而在无监督的情况下提取有用的特征。
训练第一阶段:
训练第二阶段
训练第三阶段
训练完成。