大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

清華團隊國產“Sora”火了!畫面效果對标OpenAI,長度可達16秒,還能讀懂物理規律

2024-04-29 简体 HK SG TW

今天小編分享的科學經驗:清華團隊國產“Sora”火了!畫面效果對标OpenAI,長度可達16秒,還能讀懂物理規律,歡迎閱讀。

允中 發自 凹非寺

量子位 | 公眾号 QbitAI

Sora 席卷世界,也掀起了全球競逐 AI 視頻生成的熱潮。

就在今天,國内又有一支短片引發關注。

視頻來自生數科技聯合清華大學最新發布的視頻大模型「Vidu」。

從官宣消息看,「Vidu」支持一鍵生成長達 16 秒、分辨率達 1080p的高清視頻内容。

更令人驚喜的是,「Vidu」畫面效果非常接近 Sora,在多鏡頭語言、時間和空間一致性、遵循物理規律等方面表現都十分出色,而且還能虛構出真實世界不存在的超現實主義畫面,這是當前的視頻生成模型難以實現的。

并且實現這般效果,背後團隊只用了兩個月的時間。

全面對标 Sora

3 月中旬,生數科技聯合創始人兼 CEO 唐家渝就曾公開表示:" 今年内一定能達到 Sora 目前版本的效果。"

現在,在生成時長、時空一致性、鏡頭語言、物理模拟等方面,确實能看到「Vidu」在短時間内已經逼近 Sora 水平。

長度突破 10 秒大關

「Vidu」生成的視頻不再是持續幾秒的「GIF」,而是達到了 16 秒,并且做到了畫面連續流暢,且有細節、邏輯連貫。

盡管都是運動畫面,但幾乎不會出現穿模、鬼影、運動不符合現實規律的問題。

△提示:一艘木頭玩具船在地毯上航行給視頻注入「鏡頭語言」

在視頻制作中有個非常重要的概念——鏡頭語言。通過不同的鏡頭選擇、角度、運動和組合,來表達故事情節、揭示角色心理、營造氛圍以及引導觀眾情感。

現有 AI 生成的視頻,能夠明顯地感覺到鏡頭語言的單調,鏡頭的運動局限于輕微幅度的推、拉、移等簡單鏡頭。深究背後的原因看,因為現有的視頻内容生成大多是先通過生成單幀畫面,再做連續的前後幀預測,但主流的技術路徑,很難做到長時序的連貫預測,只能做到小幅的動态預測。

「Vidu」則突破了這些局限。在一個「海邊小屋」為主題的片段中,我們可以看到,「Vidu」一次生成的一段片段中涉及多個鏡頭,畫面既有小屋的近景特寫,也有望向海面的遠眺,整體看下來有種從屋内到走廊再到欄杆邊賞景的叙事感。

包括從短片中的多個片段能看到,「Vidu」能直接生成轉場、追焦、長鏡頭等效果,包括能夠生成影視級的鏡頭畫面,給視頻注入鏡頭語言,提升畫面的整體叙事感。

保持時間和空間的一致性

視頻畫面的連貫和流暢性至關重要,這背後其實是人物和場景的時空一致性,比如人物在空間中的運動始終保持一致,場景也不能在沒有任何轉場的情況下突變。而這一點 AI 很難實現,尤其時長一長,AI 生成的視頻将出現叙事斷裂、視覺不連貫、邏輯錯誤等問題, 這些問題會嚴重影響視頻的真實感和觀賞性。

「Vidu」在一定程度上克服了這些問題。從它生成的一段 " 帶珍珠耳環的貓 " 的視頻中可以看到,随着鏡頭的移動,作為畫面主體的貓在 3D 空間下一直保持着表情、服飾的一致,視頻整體上連貫、流暢,保持了很好的時間、空間一致性。

△提示:這是一只藍眼睛的橙色貓的肖像,慢慢地旋轉,靈感來自維米爾的《戴珍珠耳環的少女》,畫面上戴着珍珠耳環,棕色頭發像荷蘭帽一樣,黑色背景,工作室燈光。

模拟真實物理世界

Sora 令人驚豔的一大特點,就是能夠模拟真實物理世界的運動,例如物體的移動和相互作用。其中 Sora 有發布的一個經典案例," 一輛老式 SUV 行駛在山坡上 " 的畫面,非常好地模拟了輪胎揚起的灰塵、樹林中的光影以及車行駛過程中的陰影變化:

在同樣的提示詞下,「Vidu」與 Sora 生成效果高度接近,灰塵、光影等細節與人類在真實物理世界中的體驗非常接近。

△提示:鏡頭跟随一輛帶有黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上一條被松樹環繞的陡峭土路上加速行駛,輪胎揚起灰塵,陽光照射在 SUV 上,給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠方,看不到其他汽車或車輛。道路兩旁都是紅杉樹,零星散落着一片片綠意。從後面看,這輛車輕松地沿着曲線行駛,看起來就像是在崎岖的地形上行駛。土路周圍是陡峭的丘陵和山脈,上面是清澈的藍天和縷縷雲彩。

當然在 " 帶有黑色車頂行李架 " 的局部細節上,「Vidu」沒能生成出來,但也瑕不掩瑜,整體效果已高度接近真實世界。

豐富的想象力

與實景拍攝相比,用 AI 生成視頻有一個很大的優勢——它可以生成現實世界中不存在的畫面。以往,這些畫面往往要花費很大的人力、物力去搭建或做成特效,但是 AI 短時間就可以自動生成了。

比如在下面這個場景中,「帆船」、「海浪」罕見地出現在了畫室裡,而且海浪與帆船的互動動态非常自然。

包括短片中的 " 魚缸女孩 " 的片段,奇幻但又具有一定的合理感,這種能夠虛構真實世界不存在的畫面,對于創作超現實主義内容非常有幫助,不僅可以激發創作者的靈感,提供新穎的視覺體驗,還能拓寬藝術表達的邊界,帶來更加豐富和多元化的内容形式。

理解中國元素

除了以上四方面的特點外,我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜,「Vidu」能夠生成特有中國元素的畫面,比如熊貓、龍、宮殿場景等。

△提示:在寧靜的湖邊,一只熊貓熱切地彈着吉他,讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映着這一場景,以生動的全景鏡頭捕捉到,将現實主義與大熊貓活潑的精神融為一體,創造出活力與平靜的和諧融合。

兩個月快速突破的 " 秘籍 "

此前,唐家渝給出的趕上 Sora 的時間,是 " 很難說是三個月還是半年 "。

但如今僅僅過去一個多月時間,團隊就實現了突破,而且據透露,3 月份公司内部就實現了 8 秒的視頻生成,緊接着 4 月份突破了 16 秒生成。短短兩個月時間,背後是如何做到的?

一是選對了技術路線

「Vidu」底層基于完全自研的 U-ViT 架構,該架構由團隊在 2022 年 9 月提出,早于 Sora 采用的 DiT 架構,是全球首個 Diffusion 和 Transformer 融合的架構。

Transformer 架構被廣泛應用于大語言模型,該架構的優勢在于 scale 特性,參數量越大,效果越好,而 Diffusion 被常用于傳統視覺任務(影像和視頻生成)中。

融合架構就是在 Diffusion Model(擴散模型)中,用 Transformer 替換常用的 U-Net 卷積網絡,将 Transformer 的可擴展性與 Diffusion 模型處理視覺數據的天然優勢進行融合,能在視覺任務下展現出卓越的湧現能力。

不同于市面上之前的一些 " 類 Sora" 模型,長視頻的實現其實是通過插幀的方式,在視頻的每兩幀畫面中增加一幀或多幀來提升視頻的長度。這種方法就需要對視頻進行逐幀處理,通過插入額外的幀來改善視頻長度和質量。整體畫面就會顯得僵硬而又緩慢。

另外,還有一些視頻工具看似實現了長視頻,實際打了 " 擦邊球 "。底層集合了許多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成單張畫面,再圖生 4s 短視頻,再做拼接。表面看時長是長了,但本質還是 " 短視頻生成 " 的内核。

但「Vidu」基于純自研的融合架構,底層是 " 一步到位 ",不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉換是直接且連續的。直觀上,我們可以看到 " 一鏡到底 " 的絲滑感,視頻從頭到尾連續生成,沒有插幀痕迹。

二是扎實的工程化基礎

早在 2023 年 3 月,基于 U-ViT 架構,團隊在開源的大規模圖文數據集 LAION-5B 上就訓練了 10 億參數量的多模态模型—— UniDiffuser,并将其開源。

UniDiffuser 主要擅長圖文任務,能支持圖文模态間的任意生成和轉換。UniDiffuser 的實現有一項重要的價值——首次驗證了融合架構在大規模訓練任務中的可擴展性(Scaling Law),相當于将 U-ViT 架構在大規模訓練任務中的所有環節流程都跑通。值得一提的,同樣是圖文模型,UniDiffuser 比最近才切換到 DiT 架構的 Stable Diffusion 3 領先了一年。

這些在圖文任務中積累工程經驗為視頻模型的研發打下了基礎。因為視頻本質上是影像的流,相當于是影像在時間軸上做了一個擴增。因此,在圖文任務上取得的成果往往能夠在視頻任務中得到復用。Sora 就是這麼做的:它采用了 DALL · E 3 的重标注技術,通過為視覺訓練數據生成詳細的描述,使模型能夠更加準确地遵循用戶的文本指令生成視頻。

據悉,「Vidu」也復用了生數科技在圖文任務的很多經驗,包括訓練加速、并行化訓練、低顯存訓練等等,從而快速跑通了訓練流程。據悉,他們通過視頻數據壓縮技術降低輸入數據的序列維度,同時采用自研的分布式訓練框架,在保證計算精度的同時,通信效率提升 1 倍,顯存開銷降低 80%,訓練速度累計提升 40 倍。

從圖任務的統一到融合視頻能力,「Vidu」可被視為一款通用視覺模型,能夠支持生成更加多樣化、更長時長的視頻内容,官方也透露,「Vidu」目前并在加速迭代提升,面向未來,「Vidu」靈活的模型架構也将能夠兼容更廣泛的多模态能力。

One More Thing

最後,再聊下「Vidu」背後的團隊——生數科技,這是一支清華背景的精幹團隊,致力于專注于影像、3D、視頻等多模态大模型領網域。

生數科技的核心團隊來自清華大學人工智能研究院。首席科學家由清華人工智能研究院副院長朱軍擔任;CEO 唐家渝本碩就讀于清華大學計算機系,是 THUNLP 組成員;CTO 鮑凡則是清華大學計算機系博士生、朱軍教授的課題組成員,長期關注擴散模型領網域研究,U-ViT 和 UniDiffuser 兩項工作均是由他主導完成的。

團隊從事生成式人工智能和貝葉斯機器學習的研究已有 20 餘年,在深度生成模型突破的早期就開展了深入研究。在擴散模型方面,團隊于國内率先開啟了該方向的研究,成果涉及骨幹網絡、高速推理算法、大規模訓練等全棧技術方向。

團隊于 ICML、NeurIPS、ICLR 等人工智能頂會發表多模态領網域相關論文近 30 篇,其中提出的免訓練推理算法 Analytic-DPM、DPM-Solver 等突破性成果,獲得 ICLR 傑出論文獎,并被 OpenAI、蘋果、Stability.ai 等國外前沿機構采用,應用于 DALL · E 2、Stable Diffusion 等明星項目中。

自 2023 年成立以來,團隊已獲得螞蟻集團、啟明創投、BV 百度風投、字節系錦秋基金等多家知名產業機構的認可,完成數億元融資。據悉,生數科技是目前國内在多模态大模型賽道估值最高的創業團隊。

* 本文系量子位獲授權刊載,觀點僅為作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們