大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事

2024-05-04 简体 HK SG TW

今天小编分享的科学经验:人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事,欢迎阅读。

一支人大系大模型团队,前后与 OpenAI 进行了三次大撞车!

第一次是与 Clip,第二次是与 GPT-4V,最新一次撞在了 Sora 上:

去年 5 月,他们联合并联合伯克利、港大等部門于在 arXiv 上发表了关于VDT的论文。

那时候,该团队就在在技术架构上提出并采用了 Diffusion Transformer。并且,VDT 还在模型中引入统一的时空掩码建模。

这个团队,正由中国人民大学高瓴人工智能学院教授卢志武带队。

Sora 问世已经两个多月,现在这支国产团队在视频生成领網域的进度怎么样了?什么时候我们能迎来国产 Sora 的惊艳时刻?

在本次中国 AIGC 产业峰会上,卢志武对上述问题进行了毫无保留的分享。

为了完整体现卢志武的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

中国 AIGC 产业峰会是由量子位主办的行业峰会,20 位产业代表与会讨论。线下参会观众近千人,线上直播观众 300 万,获得了主流媒体的广泛关注与报道。

话题要点

VDT 使用 Transformer 作为基础模型,能更好地捕捉长期或不规则的时间依赖性;

Scaling Law 是视频生成模型从基于 Diffusion model 转向基于 Transformer 的重要原因;

VDT 采用时空分离的注意力机制,而 Sora 采用时空合一的注意力机制;

VDT 采用 token concat 方式,实现快速收敛和良好效果;

消融实验发现,模型效果与训练消耗的计算资源正相关,计算资源越多,效果越好;

只要拿到更多算力,超过 Sora 也不是那么难的事。

……

以下为卢志武演讲全文:

为什么做视频生成突然要转到用 Transformer 上?

今天的报告,我将重点介绍我们在视频生成领網域的工作,特别是VDT(Video Diffusion Transformer)。

这项工作已于去年 5 月发布在 arXiv 上,并已被机器学习顶级会议 ICLR 接收。接下来,我将介绍我们在这一领網域取得的进展。

众所周知,Sora 非常出色,那么它的优势在哪里呢?之前,所有的工作都是基于 Diffusion Model,那为什么我们在视频生成中突然转向使用 Transformer 呢?

从 Diffusion 到 Transformer 的转变,原因如下:

与基于 U-net 的 Diffusion 模型不同,Transformer 具有许多优点,如 token 化处理和注意力机制,这两个特点使其能够更好地捕捉长期或不规则的时间依赖性。因此,在视频领網域,许多工作开始采用 Transformer 作为基础模型。

然而,这些都是表面现象,最根本的原因是什么呢?使用 Transformer 进行视频生成,是因为其背后的 scaling law 发挥了作用。

Diffusion Model 的模型参数量是有限的,而一旦将 Transformer 作为基础模型,参数量可以随意增加,只要有足够的计算能力,就可以训练出更好的模型。实验证明,只要增加计算量,效果就会得到提升。

当然,视频生成涉及各种任务,使用 Transformer 能够将这些任务统一在一个架构下。

基于上面三个原因探索用 Transformer 当视频生成的底座,这是我们当时的考虑。

我们的创新点有两个:

一是将 Transformer 应用于视频生成,并结合了 Diffusion 的优点;二是在建模过程中,我们考虑了统一的时空掩码建模,将时间和空间置于同等重要的位置。

无论是 VDT 还是 Sora,第一步都是对视频进行压缩和 token 化处理。

这与基于 DM 的方法最大的区别在于,基于 DM 的方法只能进行空间压缩,无法进行时间压缩;而现在,我们可以同时考虑时间和空间,实现更高的压缩程度。

具体来说,我们需要训练一个时空空间中的 3D 量化重构器,这可以作为 tokenizer,得到三维空间中的 patches。

总之,通过这种方式,我们可以得到 Transformer 的输入,输入实际上是 3D 的 tokens。

一旦我们将输入的视频进行 token 化处理,就可以像通常的 Transformer 一样,使用标准的 Transformer 架构对 3D 的 token 序列进行建模,细节我就不赘述了。

VDT 和 Sora 有什么差别?

VDT 模型中最重要的部分是时空的 Transformer Block。

我们与 Sora 有一点不同,当时设计这个 Block 时,我们将时空的 Attention 分开了。高校团队没有 OpenAI 那么多的计算资源,这样分开后,所需的计算资源会少很多——除此之外,其他所有设计都一模一样。

现在,让我们来看看我们与 Sora 的区别。

刚才我说过,VDT 采用了时空分离的注意力机制,空间和时间是分开的,这是在计算资源有限的情况下的折中方案。

Sora 采用的是时空统一的 token 化,注意力机制也是时空合一的,我们推测 Sora 强大的物理世界模拟能力主要来自于这个设计。

至于输入条件不同,这不是 VDT 与 Sora 最大的区别,基本上图生视频能做好,文生视频也能做好。

文生视频的难度较大,但并非无法克服,没有本质上的差别。

接下来,我将介绍我们当时探索的一些事项。架构设计完成后,我们特别关注输入条件。这里有 C 代表的 Condition Frame,以及 F 代表的 Noisy Frame。

这两种输入条件应该如何结合,我们探索了三种方式:

通过 Normalization 的方式;

通过 token concat 的方式;

通过 Cross attention。

我们发现,这三种方式中,token concat 的效果最佳,不仅收敛速度最快,而且效果最好,因此 VDT 采用了 token concat 方式。

我们还特别关注了通用时空掩码机制。

不过,由于 Sora 没有公布细节,我们不清楚它是否也采用了这个机制,但在模型训练过程中,我们特别强调了设计这样的掩码机制,最终发现效果非常好,各种生成任务都能顺利完成——我们发现 Sora 也能达到类似的效果。

消融实验特别有趣,无论是 Sora 还是 VDT,有一个非常重要的问题,就是模型中有大量的超参数,这些超参数与模型密切相关,不同的参数会对模型的效果产生很大影响。

然而,通过大量实验验证,我们发现超参数的选择有一个规律,即如果超参数使得模型的训练计算量增加,那么对模型效果是有益的。

这意味着什么?我们模型的性能只与其背后引入的计算量有关,模型训练所需的计算资源越多,最终的生成效果就越好,就这么简单。

这个发现与 DiT 类似,DiT 被称为 Sora 的基础模型,它是用于图片生成的。

总之,消融实验是 Sora 或我们工作中最重要的事情之一,我们模型的效果只与训练消耗的计算资源有关,消耗的计算资源越大,效果越好。

有更多算力,超过 Sora 不是太难

考虑到我们的计算资源确实有限,我们团队在模型训练规模上,肯定不能与 OpenAI 相比。但是,我们也进行了一些深入的思考。

物理世界模拟本身就在我们的论文中,并不是说这是 OpenAI 首先想到的,我们一年前就想到了。

当时有这个底座以后,很自然想到这样模型到底能不能进行物理规律模拟。后来在物理数据集上训练了一下 VDT,发现它对简单的物理规律模拟得特别好。

比如,这些例子有抛物线的运动,加速运动,还有碰撞的运动,模拟得都还可以。

所以我们当时做了两个在思想上特别有前瞻性的事情,一个是当时我们想到 Diffusion Transformer 用到视频生成里面,第二个是我们得到了这样模型以后,我们当时觉得这就是做物理世界模拟很好的模型,我们做实验验证了这个事情。

当然,如果我们有更多的算力,我们有更多的数据,我相信肯定可以模拟更复杂的物理规律。

我们这个模型也跟现在有模型做了对比,比如人像生成,给一张写真的照片让它动起来,我们只考虑做这个小的事情,因为我们算力特别有限。

这些结果表明 VDT 比 Stable Video Diffusion 要好一些,你可以看看生成得人物眼睛眨的更明显一些,更自然一点。另一个模型生成有点不太自然。

此外,如果人脸从侧面转成正脸,甚至用扇子把脸遮住了,要把人脸预测出来,还是挺难的。

关于这个写真视频是怎么做的我简单说一下。

先提供几张写真的照片,VDT 把每一张写真照片变成两秒的镜头,通过剪辑的方式把镜头拼在一起。

结合我们团队本身的特点,如果说我做通用的模型,我肯定做不过市面上的大部分,但是我当时挑了一个应用点,在这个点上 VDT 并不比 Sora 差。

Sora 出来以后很多人要做视频生成,我要考虑怎么保证我的团队在这个方向上,哪怕很小的一个点保持世界最前沿。

因此,我们做了写真视频生成,国外的 Pika、Sora 也研究了一下。VDT 生成的超写实人物,是超过 Pika 和 Sora 的。在通用的视频生成我们很难超过 Sora,这里的主要原因是我们算力很有限。

我就讲这么多,谢谢大家。

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們