大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

2024-01-29 简体 HK SG TW

今天小编分享的科学经验:从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成,欢迎阅读。

建立会做视频的世界模型,也能通过 Transformer 来实现了!

来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型—— WorldDreamer。

它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。

据团队介绍,通过预测 Token 的方式来建立通用场景世界模型,WorldDreamer 是业界首个。

它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。

可视化实验已经证明,WorldDreamer 已经深刻理解了通用世界的动态变化规律。

那么,它都能完成哪些视频任务,效果如何呢?

支持多种视频任务影像生成视频(Image to Video)

WorldDreamer 可以基于单一影像预测未来的帧。

只需首张影像输入,WorldDreamer 将剩余的视频帧视为被掩码的视觉 Token,并对这部分 Token 进行预测。

如下图所示,WorldDreamer 具有生成高质量电影级别视频的能力。

其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的攝影機运动。

而且,这些视频严格遵循原始影像的约束,确保帧构图的显著一致性。

文本生成视频(Text to Video)

WorldDreamer 还可以基于文本进行视频生成。

仅仅给定语言文本输入,此时 WorldDreamer 认为所有的视频帧都是被掩码的视觉 Token,并对这部分 Token 进行预测。

下图展示了 WorldDreamer 在各种风格范式下从文本生成视频的能力。

生成的视频与输入语言无缝契合,其中用户输入的语言可以塑造视频内容、风格和相机运动。

视频修改(Video Inpainting)

WorldDreamer 进一步可以实现视频的 inpainting 任务。

具体来说,给定一段视频,用户可以指定 mask 区網域,然后根据语言的输入可以更改被 mask 区網域的视频内容。

如下图所示,WorldDreamer 可以将水母更换为熊,也可以将蜥蜴更换为猴子,且更换后的视频高度符合用户的语言描述。

视频风格化(Video Stylization)

除此以外,WorldDreamer 可以实现视频的风格化。

如下图所示,输入一个视频段,其中某些像素被随机掩码,WorldDreamer 可以改变视频的风格,例如根据输入语言创建秋季主题效果。

基于动作合成视频(Action to Video)

WorldDreamer 也可以实现在自动驾驶场景下的驾驶动作到视频的生成。

如下图所示,给定相同的初始帧以及不同的驾驶策略(如左转、右转),WorldDreamer 可以生成高度符合首帧约束以及驾驶策略的视频。

那么,WorldDreamer 又是怎样实现这些功能的呢?

用 Transformer 构建世界模型

研究人员认为,目前最先进的视频生成方法主要分为两类——基于 Transformer 的方法和基于扩散模型的方法。

利用 Transformer 进行 Token 预测可以高效学习到视频信号的动态信息,并可以复用大语言模型社区的经验,因此,基于 Transformer 的方案是学习通用世界模型的一种有效途径。

而基于扩散模型的方法难以在单一模型内整合多种模态,且难以拓展到更大参数,因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领網域,缺乏全面捕捉通用世界变化和运动规律的能力。

所以,研究团队提出了 WorldDreamer 来加强对通用世界的变化和运动规律的学习理解,从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验,WorldDreamer 采用 Transformer 架构,将世界模型建模框架转换为一个无监督的视觉 Token 预测问题。

具体的模型结构如下图所示:

WorldDreamer 首先使用视觉 Tokenizer 将视觉信号(影像和视频)编码为离散的 Token。

这些 Token 在经过掩蔽处理后,输入给研究团队提出的 Sptial Temporal Patchwuse Transformer(STPT)模块。

同时,文本和动作信号被分别编码为对应的特征向量,以作为多模态特征一并输入给 STPT。

STPT 在内部对视觉、语言、动作等特征进行充分的互動学习,并可以预测被掩码部分的视觉 Token。

最终,这些预测出的视觉 Token 可以用来完成各种各样的视频生成和视频编辑任务。

值得注意的是,在训练 WorldDreamer 时,研究团队还构建了 Visual-Text-Action(视觉 - 文本 - 动作)数据的三元组,训练时的损失函数仅涉及预测被掩蔽的视觉 Token,没有额外的监督信号。

而在团队提出的这个数据三元组中,只有视觉信息是必须的,也就是说,即使在没有文本或动作数据的情况下,依然可以进行 WorldDreamer 的训练。

这种模式不仅降低了数据收集的难度,还使得 WorldDreamer 可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对 WorldDreamer 进行训练,其中包括 20 亿经过清洗的影像数据、1000 万段通用场景的视频、50 万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对 10 亿级别的可学习参数进行了百万次迭代训练,收敛后的 WorldDreamer 逐渐理解了物理世界的变化和运动规律,并拥有了各种的视频生成和视频编辑能力。

论文地址:

https://arxiv.org/abs/2401.09985

项目主页:

https://world-dreamer.github.io/

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們