大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律

2024-04-29 简体 HK SG TW

今天小编分享的科学经验:清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律,欢迎阅读。

允中 发自 凹非寺

量子位 | 公众号 QbitAI

Sora 席卷世界,也掀起了全球竞逐 AI 视频生成的热潮。

就在今天,国内又有一支短片引发关注。

视频来自生数科技联合清华大学最新发布的视频大模型「Vidu」。

从官宣消息看,「Vidu」支持一键生成长达 16 秒、分辨率达 1080p的高清视频内容。

更令人惊喜的是,「Vidu」画面效果非常接近 Sora,在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都十分出色,而且还能虚构出真实世界不存在的超现实主义画面,这是当前的视频生成模型难以实现的。

并且实现这般效果,背后团队只用了两个月的时间。

全面对标 Sora

3 月中旬,生数科技联合创始人兼 CEO 唐家渝就曾公开表示:" 今年内一定能达到 Sora 目前版本的效果。"

现在,在生成时长、时空一致性、镜头语言、物理模拟等方面,确实能看到「Vidu」在短时间内已经逼近 Sora 水平。

长度突破 10 秒大关

「Vidu」生成的视频不再是持续几秒的「GIF」,而是达到了 16 秒,并且做到了画面连续流畅,且有细节、逻辑连贯。

尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。

△提示:一艘木头玩具船在地毯上航行给视频注入「镜头语言」

在视频制作中有个非常重要的概念——镜头语言。通过不同的镜头选择、角度、运动和组合,来表达故事情节、揭示角色心理、营造氛围以及引导观众情感。

现有 AI 生成的视频,能够明显地感觉到镜头语言的单调,镜头的运动局限于轻微幅度的推、拉、移等简单镜头。深究背后的原因看,因为现有的视频内容生成大多是先通过生成单帧画面,再做连续的前后帧预测,但主流的技术路径,很难做到长时序的连贯预测,只能做到小幅的动态预测。

「Vidu」则突破了这些局限。在一个「海边小屋」为主题的片段中,我们可以看到,「Vidu」一次生成的一段片段中涉及多个镜头,画面既有小屋的近景特写,也有望向海面的远眺,整体看下来有种从屋内到走廊再到栏杆边赏景的叙事感。

包括从短片中的多个片段能看到,「Vidu」能直接生成转场、追焦、长镜头等效果,包括能够生成影视级的镜头画面,给视频注入镜头语言,提升画面的整体叙事感。

保持时间和空间的一致性

视频画面的连贯和流畅性至关重要,这背后其实是人物和场景的时空一致性,比如人物在空间中的运动始终保持一致,场景也不能在没有任何转场的情况下突变。而这一点 AI 很难实现,尤其时长一长,AI 生成的视频将出现叙事断裂、视觉不连贯、逻辑错误等问题, 这些问题会严重影响视频的真实感和观赏性。

「Vidu」在一定程度上克服了这些问题。从它生成的一段 " 带珍珠耳环的猫 " 的视频中可以看到,随着镜头的移动,作为画面主体的猫在 3D 空间下一直保持着表情、服饰的一致,视频整体上连贯、流畅,保持了很好的时间、空间一致性。

△提示:这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的少女》,画面上戴着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光。

模拟真实物理世界

Sora 令人惊艳的一大特点,就是能够模拟真实物理世界的运动,例如物体的移动和相互作用。其中 Sora 有发布的一个经典案例," 一辆老式 SUV 行驶在山坡上 " 的画面,非常好地模拟了轮胎扬起的灰尘、树林中的光影以及车行驶过程中的阴影变化:

在同样的提示词下,「Vidu」与 Sora 生成效果高度接近,灰尘、光影等细节与人类在真实物理世界中的体验非常接近。

△提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在 SUV 上,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。

当然在 " 带有黑色车顶行李架 " 的局部细节上,「Vidu」没能生成出来,但也瑕不掩瑜,整体效果已高度接近真实世界。

丰富的想象力

与实景拍摄相比,用 AI 生成视频有一个很大的优势——它可以生成现实世界中不存在的画面。以往,这些画面往往要花费很大的人力、物力去搭建或做成特效,但是 AI 短时间就可以自动生成了。

比如在下面这个场景中,「帆船」、「海浪」罕见地出现在了画室里,而且海浪与帆船的互動动态非常自然。

包括短片中的 " 鱼缸女孩 " 的片段,奇幻但又具有一定的合理感,这种能够虚构真实世界不存在的画面,对于创作超现实主义内容非常有帮助,不仅可以激发创作者的灵感,提供新颖的视觉体验,还能拓宽艺术表达的边界,带来更加丰富和多元化的内容形式。

理解中国元素

除了以上四方面的特点外,我们从「Vidu」放出的短片中还看到了一些不一样的惊喜,「Vidu」能够生成特有中国元素的画面,比如熊猫、龙、宫殿场景等。

△提示:在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合。

两个月快速突破的 " 秘籍 "

此前,唐家渝给出的赶上 Sora 的时间,是 " 很难说是三个月还是半年 "。

但如今仅仅过去一个多月时间,团队就实现了突破,而且据透露,3 月份公司内部就实现了 8 秒的视频生成,紧接着 4 月份突破了 16 秒生成。短短两个月时间,背后是如何做到的?

一是选对了技术路线

「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。

Transformer 架构被广泛应用于大语言模型,该架构的优势在于 scale 特性,参数量越大,效果越好,而 Diffusion 被常用于传统视觉任务(影像和视频生成)中。

融合架构就是在 Diffusion Model(扩散模型)中,用 Transformer 替换常用的 U-Net 卷积网络,将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。

不同于市面上之前的一些 " 类 Sora" 模型,长视频的实现其实是通过插帧的方式,在视频的每两帧画面中增加一帧或多帧来提升视频的长度。这种方法就需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。

另外,还有一些视频工具看似实现了长视频,实际打了 " 擦边球 "。底层集合了许多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成单张画面,再图生 4s 短视频,再做拼接。表面看时长是长了,但本质还是 " 短视频生成 " 的内核。

但「Vidu」基于纯自研的融合架构,底层是 " 一步到位 ",不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。直观上,我们可以看到 " 一镜到底 " 的丝滑感,视频从头到尾连续生成,没有插帧痕迹。

二是扎实的工程化基础

早在 2023 年 3 月,基于 U-ViT 架构,团队在开源的大规模图文数据集 LAION-5B 上就训练了 10 亿参数量的多模态模型—— UniDiffuser,并将其开源。

UniDiffuser 主要擅长图文任务,能支持图文模态间的任意生成和转换。UniDiffuser 的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将 U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,同样是图文模型,UniDiffuser 比最近才切换到 DiT 架构的 Stable Diffusion 3 领先了一年。

这些在图文任务中积累工程经验为视频模型的研发打下了基础。因为视频本质上是影像的流,相当于是影像在时间轴上做了一个扩增。因此,在图文任务上取得的成果往往能够在视频任务中得到复用。Sora 就是这么做的:它采用了 DALL · E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。

据悉,「Vidu」也复用了生数科技在图文任务的很多经验,包括训练加速、并行化训练、低显存训练等等,从而快速跑通了训练流程。据悉,他们通过视频数据压缩技术降低输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。

从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容,官方也透露,「Vidu」目前并在加速迭代提升,面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。

One More Thing

最后,再聊下「Vidu」背后的团队——生数科技,这是一支清华背景的精干团队,致力于专注于影像、3D、视频等多模态大模型领網域。

生数科技的核心团队来自清华大学人工智能研究院。首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡则是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领網域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。

团队从事生成式人工智能和贝叶斯机器学习的研究已有 20 余年,在深度生成模型突破的早期就开展了深入研究。在扩散模型方面,团队于国内率先开启了该方向的研究,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

团队于 ICML、NeurIPS、ICLR 等人工智能顶会发表多模态领網域相关论文近 30 篇,其中提出的免训练推理算法 Analytic-DPM、DPM-Solver 等突破性成果,获得 ICLR 杰出论文奖,并被 OpenAI、苹果、Stability.ai 等国外前沿机构采用,应用于 DALL · E 2、Stable Diffusion 等明星项目中。

自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。

* 本文系量子位获授权刊载,观点仅为作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們