4.4 Dataset Formatting
本小节主要介绍,在进行训练之前的如何进行数据的格式化,所谓的数据归一性
Last updated
本小节主要介绍,在进行训练之前的如何进行数据的格式化,所谓的数据归一性
Last updated
这里我们就可以看到安装已经完成并且已经启动
这里我们可以找的安装kahya 下面使用utilities选项,使用 captioning 下的BLIP算法进行打标签。
当然的你这里有也可以WD14 Captioning 进行打标签
这里需要把图片的处理程的格式统一,大小统一的文件的,保留每个文件主体信息的,你自己想要保留的信息。这里有几种方案,一种是可以使用在线的方式的进行处理
根据你训练的模型进行裁剪,可以是512*512 大小的,对于SDXL 模型最好选择是1024*1024大小的模型进行裁剪。
方然你可以使用PS 工具进行裁剪的,如果可以的去掉不必要的背景那么是最好的,图片熟练在10-20张的,当然是可以多,只要有的GPU 算力资源是足够的。
如何提高训练的质量就是的把打标工作做的仔细了,在进行设置的时候注意最好在Prefix 上加上关键词的,这个关键词最好具备一定的特殊性,不是系统可以识别的英文词,可以是的你训练的任务的“人名”,在后续使用训练好的模型进行图片生成的时候的,需要输入关键词,才可以有理想的效果。这样可以给图形增加更加详细的表述,注意这个关键词贺描述很重要,在生成图片的时候的通过输入这个关键词就会有我们想要的理想的效果。
我们可以看到的在每一个的图片的cation 之中的前面的有个prefix ”amerlin“.
执行开始打标签工作,可以看到的后台的运行的过程。
很多生成的大模型的都是在C 盘的是非常地不友好的的,所以在刚开始的配置文件的时候的,需要的进行修改配置文件的处理。具体可以参考:
因为在训练的过程之中的需要把原始的文件拷贝到训练的模型文件,日志文件等多个文件夹,Stable Diffusion web提供了很好的文件夹复制功能,可以快速地复制文件夹路径。
针对需要训练的文件的配置路径如下:
接下来我们看的现在的在folder标签下的文件夹选项
这里需要我们在本地磁盘创建一个的文件夹,这里创建一个名为traning 的文件夹,接下来我们准备我们训练的文件夹,我们可以看到之前的我们的设置的文件夹是空的
当我们点击我们的prepare training file 的时候,我们可以看到
已经有了现在的训练文件。
接下来我们可以看到的所有的文件夹的路径已经复制过来
BLIP 是一种预训练方法,旨在通过结合语言和图像信息来增强模型的理解和生成能力。它使用大规模的图像和文本数据进行预训练,可以在多个任务中表现出色,如图像描述生成(captioning)、视觉问答(VQA)、图像-文本匹配等。
BLIP Captioning 的工作原理通常包括以下几个步骤:
图像输入:将图像输入模型。
特征提取:使用卷积神经网络(CNN)或视觉变压器(Vision Transformer, ViT)提取图像特征。
语言生成:利用预训练的语言模型(如Transformer)生成与图像对应的自然语言描述。
输出描述:生成的描述可以是单句或多句的自然语言文本,描述图像的内容、场景、动作等。
高效:BLIP 模型在大规模数据上进行预训练,能够生成高质量的图像描述。
多任务能力:BLIP 模型可以用于多个视觉-语言任务,如图像描述生成、视觉问答和图像-文本匹配。
预训练优势:通过在大规模数据上进行预训练,BLIP 模型能够捕捉到丰富的视觉和语言信息,有助于在下游任务中取得更好的表现。
什么是 Beam Search?
Beam Search 是一种启发式搜索算法,用于生成序列(如句子)时的解码过程。它通过在每一步选择有限数量的候选项来生成最可能的序列,而不是像贪婪搜索那样只选择最优的单个候选项。
定义: Number of beams
(束的数量)是 Beam Search 中保留的候选序列的数量。
工作原理: 在每一步解码过程中,Beam Search 会保留前 k
个最有可能的候选序列,其中 k
就是 Number of beams
。这些候选序列会在后续步骤中进一步扩展,直到生成完整的序列。
影响:
较小的束数量(如1或2): 生成速度更快,但可能会错过一些高质量的候选序列。
较大的束数量(如5或10): 生成的序列质量通常更高,但计算复杂度和时间也会增加。