“一类人有一类人
学家想学习上帝;反抗上帝;
就是上帝;
反……
造一个。
小姐:站在两个世界之间
part01aigc视频生成的技术路线与产品演进趋势
目录
part02aigc视频生成推动世界走向“ai创生时代”
part03“提示交互式”视频制作范式重塑视频产业链
part04文娱领域有望开启第二轮投资浪潮
1.1sora让文生视频迎来“gpt-3”时刻
openai发布文生视频模型sora,堪称视频生成领域的“gpt-3”时刻
“炸裂”视频效果成为讨论热点
春节假期甚至还未结束,sora已引发全民关注
“sora”一词在微信指数及百度指数的关注度快速上升
效果逼真:普通人一时难以分辨
2月16日微信指数快速上升
百度关键词搜索趋势处于高位
时长感人:60秒高清视频生成
“百万”剪辑:堪比专业的镜头语言
多模态:文字、图片、视频皆可生成视频
1.2sora的展现效果
sora模型展现自身超强视频生成及剪辑能力,超出其他竞品一个段位
能力项
视频时长
基本
视频视频长宽比
生成
视频清晰度
语言理解能力
多模文本生成视频
态生
成图片生成视频
视频生成视频文本编辑视频
视频扩展视频
编辑
视频的无缝连接
3d一致性
独特远程相干性和物体持久性
模拟
能力世界交互
数字世界模拟
sora
60秒
1920*1080之间
的任意尺寸
1080p
强支持强支持支持
向前/向后扩展支持
强强强支持
其他模型
20秒以内
固定尺寸比例,例如16:9,9:16,1:1等
部分upscale后达到4k
弱支持支持支持支持
仅支持向后不支持
弱或不支持弱
弱不支持
其他模型情况
模型 gen-2 pika1.0 stablevideodiffusion emuvideo w.a.l.t
开发团队 runway pikalabs stablityai meta 李飞飞及其学生团
队、谷歌
时间 2023年11月 2023年11月 2023年11月 2023年11月 2023年12月
长度 4-18秒 3-7秒 2-4秒 4秒 3秒
分辨率 768*448,1536*896,4096*2160 1280*720
2560*1440 576*1024 512*512 512*896
是否开源 非开源 非开源 开源 非开源 非开源
sora的语言理解能力更强,可将简短的用户提示转换为更长的详细描述
sora还可以生成图片,最高可达到2048*2048分辨率
sora通过插帧技术,实现完全不同主题和场景构图的视频之间的流畅自然的过渡效果
sora可生成具有动态摄像机运动效果的视频,随着摄像机的移动和旋转,人和场景元素在三维空间中保持一致移动
sora可以对短期和长期依赖关系进行建模,保持各个主体的时空连贯性和一致性
sora以简单的方式模拟影响世界状态的行为,比如一个人吃完汉堡可以在上面留下咬痕
sora还能够模拟人工过程,比如视频游戏,同时通过基本策略控制玩家,同时以高保真度渲染世界及其动态
例如,sora可以同时通过基本策略控制
《我的世界》中的玩家,同时以高保真度渲染世界及其动态。
1.2sora的展现效果
大模型训练的“暴力美学”在视频生成领域再次涌现卓越特性
openai发现视频模型在大规模训练时表现出许多有趣的“涌现”能力,使sora能够从物理世界中模拟人、动物和环境。值得一提的是openai尊龙凯时人生就博官网所说的“theyarepurelyphenomena
ofscale”——它们纯粹是“规模现象”,这再一次验证了“暴力美学”。
3d一致性:确保景别切换时运镜的连贯
基于时空双维度的视频扩展
与世界互动:sora有时可以用简单的方式模拟影响世界状况的动作
文/图像/视频生视频的功能视频剪辑功能 12
以上四个镜头由远及近,保证了视频镜头中人和场景的一致性,是其他ai生成视频中少见的。
画家可以在画布上留下新的笔触,并随着
时间的推移而持续存在。
不同主题场景视频的无缝连接
一键进行风格渲染
模拟数字世界 34
远程相关性和物体持久性
1234 以上四个镜头在同一视频中生成,包括机器人的多个角度。
1.3sora的出现意味着agi的又一个里程碑时刻
sora意味着scalinglaw(规模法则)再次验证,推动文生视频进入“gpt-3”时刻
scalinglaw(规模法则)的再次验证:虽然sora并不十全十美,但它通过scalinglaw和原有模型拉开了差距,为视频生成领域提供了另一条可以走通的路线,推动行业进入全新的阶段。
文生视频的“gpt-3”时刻:从发展阶段类比,sora更像文本模型的gpt-3时刻。chatgpt让人类看到实现agi的雏形,sora让实现agi的目标又进一步。
智能新世代:sora向agi再进一步
信能比
原始时代农业时代工业时代
∞
无穷小
信息时代
数字时代
智能新世代
gpt-
iphone4
chatgpt
gpt-3
gpt-1gpt-2
soraagi
>300 0 5000200
第一台计算机…
第一代pc 19461985
文本生成模型 20102018201920202022 4 2023
当下
文生视频模型 20252030
信能比>300
信能比>100
宙线:时间
(人类文明进化历程)