5.6 Video Generation Model Industry Trends
本文主要介绍目前主流的视频生成模型的对比以及目前国内的视频生成的模型的介绍
Last updated
本文主要介绍目前主流的视频生成模型的对比以及目前国内的视频生成的模型的介绍
Last updated
从OpenAI目前放出的DEMO视频来看,无论是视频的分辨率、质量还是时长,Sora与先前的商业化产品Pika、Runway等相比都有划时代的领先。下图1展示了这些产品之间的对比。
图1 近期AI视频生成模型和产品对比
图2 部分产品效果对比
在方案选型上,Sora选用了扩散+Transformer的结构端到端地生成视频,这与Pika和Runway采用的扩散+UNet结构生成单帧图像,再做帧间的一致性约束是完全不同的。我们知道,Transformer结构是当前主流大模型(GPT4、Gemini等)的基础结构,Sora选择扩散+Transformer的DiT结构,除了有强大的算力支持之外,还体现出整个团队对大模型和其涌现能力的深刻认识。受益于Transformer的长序列建模能力和模型缩放能力,Sora将视频生成长度从先前产品的4秒提高到了60秒,分辨率达到了1080p,且能在各种复杂场景下实现高度自洽性。
在AI视频生成的学术研究领域,常用的评价指标为弗雷彻视频距离(Fréchet Video Distance, FVD),它计算了生成的视频与最近的真实视频之间的距离。一方面,Sora、Pika和Runway等商业化产品通常不会在固定的小规模数据集上评估和披露FVD指标,另一方面,FVD指标只度量了AI生成视频的“拟真度”,即一个生成视频与真实视频有多相似,但评价指标无法准确描述视频中实体和物理规则的正确性。Sora虽然声称自己为世界模拟器(world simulator),但从其公布的演示视频来看,仍然有较多的“穿帮”镜头违背了现实世界和物理规律,例如篮球穿过篮筐、土壤中“生长”出塑料椅子、四条腿的蚂蚁等。
图3 Sora的穿帮镜头
这提醒我们,在为AI技术的突破和进步而欢欣鼓舞的同时,同样要保持冷静和谨慎。在工业应用中,数据的质量直接关系到最终产品的性能和安全性。如果在模型开发过程中使用了AI生成的数据,而这些数据并未经过严格的验证和测试,那么可能会导致模型做出错误的决策。因此,将生成式AI引入垂域,必须经过更全面的评估和微调,确保其在专业领域中的可靠性。
https://magicvideov2.github.io/
Overview of MagicVideo-V2. The T2I module creates a 1024×1024 image that encapsulates the described scene. Subsequently, the I2V module animates this still image, generating a sequence of 600×600×32 frames, with the latent noise prior ensuring continuity from the initial frame. The V2V module enhances these frames to a 1048×048 resolution while refining the video content. Finally, the interpolation module extends the sequence to 94 frames, getting a 1048×1048 resolution video that exhibits both high aesthetic quality and temporal smoothness.
字节跳动在AI视频生成领域有两个大动作:1、2024年1月、2月连续发布了MagicVideo V2、Boximator两个模型。目前两个模型均未正式对外开放,官方称2-3月后才会开放Demo试用版。
1)MagicVideo-V2 (24年1月发布):功能为文生视频,从官方演示视频来看,成品多为动画风,发布的12个案例中仅有2个为写实风,且出现了眼睛变形、多手多脚的情况,实话说,视频演示未能带来太多惊喜。
左一:MagicVideo、左二:SVD、右一上:Pika、右一下:Gen2
2)Boximator(24年2月发布):功能为图生视频+精准控制,所谓的精准控制,就是选中图片中的指定位置或对象,决定其移动路径,再输入文字描述后让图片变为“视频”,该功能类似Runway动态笔刷功能的升级版。通过成品视频来看,Boximator对稳定性的控制与对语义的理解强于Pika与Runway。
相较于两个未正式投入使用的模型,抖音已经把绝大多数精力倾斜到剪映相关业务上,寻求在AI辅助创作上有所突破。目前的剪映虽然距离真正的文生视频仍有一段距离,但是过去一年内,也上线了不少AI相关功能:
● AI作图:剪映会根据用户给出的关键词生成四张图片,用户可以自由设定比例、精细度,并有通用和动漫两种风格。从笔者的实际体验来看,生成的图片对提示词关键信息把握正确、细节较为丰富。用户也可以从灵感库中,复制自己喜欢的风格与提示词,一键生成同款。
● 图文成片:用户输入文案,即可“一键成片“,剪映将根据文案匹配合适的视频或图片片段。我们分别测试了“秋天来了深圳“等四段文案,发现目前剪映剪辑出的成品中包含了较多图片,效果不如百度旗下的度加。
● AI音色克隆:用户只需进行10秒左右的朗读,剪映将会分析原声背后的断句、情感变化并生成与原声接近的声音,并且提供中英双语声音。不少媒体从业者反馈已经在使用克隆的声音进行批量内容创作,克隆出的音色具有一定的辨识度,而且比真人朗读效率高上不少。
● 发布器相关功能:剪映在过去两年,一直在结合AI优化视频剪辑与视频发布,推出AI特效、AI商品图、智能文案、数字人、AI扩图、瞬息全宇宙等新功能,其中AI扩图和瞬息全宇宙功能在抖音、小红书等社交媒体平台讨论最多:
AI扩图:AI扩图的出圈主要是因为足够离谱,例如把人扩成了动物、把四肢分离、让甄嬛传变得离奇、让中国人变成外国人。
瞬息全宇宙:虽然在海外已经有不少平台在做,在TikTok上也比较出圈,但在国内还是比较少见,因此剪映推出该模板时引起了不少用户的好奇与尝试,甚至有一些视频剪辑账号通过推荐该模板获得了超过十万次点赞,使用#一瞬解锁瞬息全宇宙#模板的相关话题在抖音上获得了超过31.4亿次浏览。
The overview of our method. The pose sequence is initially encoded using Pose Guider and fused with multi-frame noise, followed by the Denoising UNet conducting the denoising process for video generation. The computational block of the Denoising UNet consists of Spatial-Attention, Cross-Attention, and Temporal-Attention, as illustrated in the dashed box on the right. The integration of reference image involves two aspects. Firstly, detailed features are extracted through ReferenceNet and utilized for Spatial-Attention. Secondly, semantic features are extracted through the CLIP image encoder for Cross-Attention. Temporal-Attention operates in the temporal dimension. Finally, the VAE decoder decodes the result into a video clip.
阿里在23年12月推出了Animate Anyone,该模型可以将任何静态图片转化为动态视频,配合阿里推出的另一款模型Outfit Anyone,可以实现为人物换装、改变人物动作、制作卡通动画等功能。其实类似功能的模型还有很多,比如阿里同样在23年12月发布的DreaMoving、字节与新加坡国立大学联合发布的Magic Animate。
目前通义千问已经利用Animate Anyone推出「全民舞王」发布器模板,用户只需上传一张照片,并选择对应的动作即可得到不同风格的跳舞视频。虽然精细度一般,但胜在简单高效、门槛低,且容易产出一些出圈的洗脑视频。目前这种效果模式已经有多重可以生成的方式。
该模型由快手与天津大学、香港城市大学合作研发,根据目前发布的论文显示,该模型可控制镜头运动,如左右移动、拉近/拉远的变焦控制,提高视频生成的可控性;此外,该模型也可单独控制物体运动的方向,类似字节的Boximator和Runway的动态笔刷功能。
Our framework synthesizes a video that aligns with the user-directed camera movement and object motion. The camera movement is learned in the training stage and the object motion is implemented in the inference stage. Left: During training, we apply augmentation to video samples to simulate camera movement using panning and zooming parameters. These parameters are embedded and injected into newly introduced temporal cross-attention layers as the camera movement conditioning, eliminating the need for camera movement annotation. Right: During inference, along with camera movement, user inputs a text prompt containing object words and associated box trajectories. We use spatial cross-attention modulation to guide the spatial-temporal placement of objects, all without additional optimization. Note that our approach, by independently controlling camera movement and object motion, effectively decouples the two, thereby enabling both individual and joint control.
产品提供独立网页版和discord版,现阶段免费试用。用户输入文本或图片,在预设的3种视频风格中选择(3D、动漫、写实),可生成时长4秒的动态视频。但通过与Runway、Pika的对比来看,PixVerse的生成效果并未实现明显突破。
Runway:升级动态笔刷功能
Runway的动态笔刷功能可使用户通过画笔选中视频部分素材,并实现该素材的上下、左右、前后移动及素材移动速度。该功能原本仅有1个可调节区域,升级后,提供5个可单独调节的画笔,调节5个区域的运动方向和速度,使视频的可控性提高。
Google:推出VideoPoet、Lumiere视频生成模型
https://sites.research.google/videopoet/
谷歌于23年12月发布AI视频生成模型VideoPoet,除了基础的图/文生成视频、风格化滤镜等,VideoPoet的特色功能包括:
● 加入音频效果:在官方放出的Demo里,VideoPoet就自动为正在吃爆米花的小狗配上了“咔擦咔擦”的音效
● 生成多角度运镜:包括拉远、滑动变焦、左/右平移、弧型运动镜头、摇臂拍摄、无人机航拍等
● 视频编辑功能:当用户输入原始视频后,可通过添加提示词,修改视频中的元素
最左边为原图,中间三个没有文本提示,最后一个文本提示为:烟雾背景下启动
● 视频修复:可以在视频被遮住的部分添加细节,也可以通过文本引导进行修复
● 长视频:默认视频长度为 2 秒,但模型可通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频,但通过官方的案例来看,生成的长视频间的衔接并不连贯,5-6s后就会出现画面的变形
Prompt:展示丛林中一座精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖
紧接着Google在1月又发布了Lumiere模型,可实现的功能包括文/图生视频、风格化滤镜、视频修补/补全、改变视频中的指定区域等,功能较为常规。但谷歌在发布的论文中提到,该模型主要攻克的课题为“生成真实、多样化且连贯的运动”。根据官方的示例来看,与Runway相比,Lumiere生成的视频更为连贯、画面细节更精细、运动感也更强。因为Lumiere可生成“全帧画面”,即一秒30帧的画面全部由模型生成,相比之下,其他模型可能仅生成5帧或6帧,再通过补帧的方式补足缺失帧,导致画面的连贯性与顺滑度受到影响。
https://lumiere-video.github.io/
Sora并不是第一个AI视频生成平台,也并未对公众开放,但却是引起海内外最多讨论的平台。从目前官方发布的成品效果来看,Sora与Runway、Pika等模型相比,主要有以下几点突破:
● 可以理解物理规则与动作间的逻辑性:在Sora之前,视频模型生成的视频主体之间的关联性相对有限。比如几个小孩在雪地打雪仗,但是地上的雪不会随着时间推移或者用户行动而改变、小孩儿也不会因为被雪球砸到而产生表情变化,生命体、物体之间仍是独立的个体。而Sora可以生成符合物理世界逻辑的视频,比如咬一口汉堡会产生咬痕;蜡烛燃烧后剩余蜡烛变少;狗狗敲击键盘,键盘会因受到压力而下陷。
● 可以生成符合游戏规则的虚拟世界内容:OpenAI官网给出了一段Sora生成的《我的世界》的游戏视频。Sora可以操纵《我的世界》中的角色移动,并使周围环境保持高保真的渲染状态。英伟达AI研究员Jim Fan称,Sora更像是一个“数据驱动的物理引擎”,而不是一个创意工具,它不像之前的模型一样仅生成单一的图像,而是通过确定环境中每个物体的物理特性,并根据计算渲染出照片与视频,也就是所谓的"理解世界”。但由于官方未给出生成视频使用的具体Prompt,也未详细解释Sora的技术原理,也有用户质疑Minecraft的这段视频是否只是由于Sora在语料中添加了类似的风格,从而生成了一段带有“风格化”滤镜的视频而已。具体的能力可能还需要等Sora正式发布后再来评判。
● 清晰度更高、生成视频上限更长:根据目前官方释放的信息,Sora已经支持生成60秒、最长300秒的单只视频,比Runway的16秒多出了数倍。另外,Sora可以生成介于横屏1920x1080p 和竖屏1080x1920之间所有比例的视频,观看OpenAI官网和社交媒体上发布的视频,一个最大的感受就是清晰得吓人。Sora还可以根据不同设备输出不同比例的视频,同时也会调整景别(如广角、中景、近景、特写等)以达到更好的视觉效果。
● 多镜头、多分镜、连贯性强:Runway、Pika等平台在延长视频后,经常会出现人物或环境扭曲的情况。且这些平台生成的视频并没有分镜场景,内容很单一。而在Sora发布的视频中,已经出现各种具备分镜变化的故事。OpenAI的工作人员表示,Sora还拥有“物体一致性“(Object permanence)的能力,即可保持一段视频中人物、事物的稳定性。Sora还能生成不同视角的素材,并且保持各个视频的独立性。比如在东京街头掌心捧雪的视频中,Sora给到了远景、街景、路人、背后视角等同一事件多个视角的视频。
自22年开始发布的视频生成AI模型共20个,通过发布时间可以看出,各大厂从23年下半年开始,对视频生成模型领域的投入明显加大。AI生成视频领域的迭代在加速,各个大厂都在寻找增长的第二曲线,互联网厂商与AI厂商被放到同一竞争维度,大家都在创造故事、戳破泡沫、抹黑探索,最终结果如何完全无法预测。而在这个过程中带来的技术进步,短期可以影响视频平台创作者,长期可能会解放视频生产力 ,影视、3D动画都可能走上一条新的轨道。