5.5 Video Generation Best Practices02
本小节主要介绍使用开源多模态的视频生成模型进行视频生成创作。
Last updated
本小节主要介绍使用开源多模态的视频生成模型进行视频生成创作。
Last updated
CogVideo是目前最大的通用领域文本到视频生成预训练模型,含94亿参数。 CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。 CogVideo:从文本描述生成视频。
在视频生成领域有很多的开源模型提供大家的进行视频生成,目前市面上主流的产品的基本上都是基于开源的模型,进行模型之间堆叠,在工程层面提升的效果,最终我们可以看到的很多的酷炫的产品效果,不管是景深,运镜,多帧拼接等,所以了解的基础的视频的生成的原理对后续在使用产品时候有很大的帮助。
所以,这只名叫CogVideo的AI模型究竟是什么来头?
团队表示,CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。
在设计模型上,模型一共有90亿参数,基于预训练文本-图像模型CogView2打造,一共分为两个模块。
第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;
第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。
在训练上,CogVideo一共用了540万个文本-视频对。
这里不仅仅是直接将文本和视频匹配起来“塞”给AI,而是需要先将视频拆分成几个帧,并额外给每帧图像添加一个帧标记。
这样就避免了AI看见一句话,直接给你生成几张一模一样的视频帧。
其中,每个训练的视频原本是160×160分辨率,被CogView2上采样(放大图像)至480×480分辨率,因此最后生成的也是480×480分辨率的视频。
至于AI插帧的部分,设计的双向通道注意力模块则是为了让AI理解前后帧的语义
本工作流主要的包含几部分,基础图像的加载,注意这里使用的是图生视频的功能,模型加载,生成的提示词,当然这里的提示词的技巧还是需运用,采样器以及采样器的基础设置的,在视频生成过程之中要适当知道现有视频生成的一些基础的要素比如说有帧数设定,噪声数量的设定,最后是vae 解码生成,最终通过Video Combine 进行视频的文件的合成。
输入相关的图片文件,注意这里的图片的文件尺寸以及格式要注意720*480
这里对输入的图片进行了放大,使用的是默认的节点配置,目前参数等不需要处理。
模型的输入以及CLIP 模型的输入设置,这里输入设置里面的如果显示是没有,可以从huggingface 等上面进行下载的处理。
提示词的输入的,可以输入正向的提示词以及反向的提示词
采样器的设置以及VAE 接码器的设置,设置完成之后就可以出经过的模型算法之后的图片
生成图片之后使用的Video Combine 进行的视频的合成操作,就可以输出视频文件。