今天小編分享的互聯網經驗:吐槽完 Sora,Google自己做的“基礎世界模型”來了,歡迎閱讀。
曾通過 Gemini 1.5 Pro 指出 Sora 生成視頻不合理,質疑它擔不起 " 世界模型 " 稱号的 Google,G 字輩模型喜添新成員。
今天,Google DeepMind 推出人工智能模型「Genie」,一個能夠生成互動式視頻遊戲的 AI。它可以根據用戶提示,将合成影像、真實照片、手繪草圖或想法轉換成無盡多樣的,可互動、可控制動作的虛拟世界。
Google 認為,現在市面上許多優秀模型都能帶來新穎豐富的内容。但如果給定一個來自互聯網的大量視頻語料庫,不僅能訓練模型生成影像或視頻,還可以創造完整的互動體驗呢?
團隊将其概括為一種全新 GenAI 範式:「生成式互動環境」,并稱由于 Genie 實現了人們與想象世界的自由互動,本質上它才是真正的 " 基礎世界模型"。
一鍵生成無限可玩世界
在成果演示中,研究人員将 Imagen2 生成的影像作為起始幀,通過 Genie 賦予生命:
不僅如此,真實世界中的物體也可以自由操控:
甚至小朋友充滿童真的草圖,也變成了想象力無限的遊戲:
Genie 為生成和步入虛拟世界開啟了更多新的方式,也能夠啟迪更廣泛的内容創作者。DeepMind 高級研究顧問 Jeff Clune 在 X 興奮地分享道:
" 這裡實現的一個驚人之處是,任何人包括孩子們都可以繪制一個世界,然後進入其中探索它。這有多酷啊?我們用我孩子的畫作測試了 Genie。他們畫了兩只鷹,然後就可以操控着鷹到處飛。簡直魔法!"
20 萬小時視頻訓練,無需行動标籤即可學習控制
在《一千零一夜》裡,僅需摩擦神燈,精靈就會出來為人們實現願望。而喚醒 AI 世界裡的 Genie,首先必須把知識和能力填充進燈裡。
項目負責人 Tim Rockt ä schel 在 X 上寫道,與 "inductive biases(歸納偏見)" 不同,團隊專注于規模,使用了一個包含超過 20 萬小時的 2D 平台遊戲視頻數據集,來訓練這個 110 億參數的世界模型。
作為首個從未标記的互聯網視頻中以無監督方式訓練的生成式互動環境, Genie 學會了控制角色的各種潛在動作,并且保持一致性。
實現這種精細控制是一個挑戰,也正是 Genie 的獨特之處。因為互聯網視頻通常沒有關于哪個動作正在執行,甚至哪個影像部分應該被控制的标籤。但 Genie 卻可以确定誰是主角,并使用戶能夠在生成的世界中逐幀控制該角色。
并且,Genie 通過學習產生的這個既豐富多樣又一致性強的潛在動作空間,對于人類來說是可解釋的。換句話說,即使是未經訓練的用戶,在與 Genie 生成的遊戲世界互動幾次之後,也能自然理解并做出向左、向右或跳躍等常見動作,形成多樣化的運動軌迹。
項目組也解釋了 Genie 模型背後的三個關鍵組件:
• 一個潛在動作模型(LAM),用于推斷每對幀之間的潛在動作。
• 一個視頻分詞器(Video tokenizer),具有時間感知能力,與 OpenAI 在 Sora 中的 "patches" 概念類似,能将原始視頻壓縮為離散令牌。
• 一個動力學模型(Dynamics model),能夠在給定潛在動作和過去幀令牌的條件下,預測視頻下一幀。
整個運行過程如上圖所示:将幀視頻作為輸入,通過視頻分詞器将它們轉換成離散的令牌,并由潛在動作模型在每幀之間推斷潛在動作。之後這兩者都傳遞給動力學模型,以迭代方式生成下一幀的預測。
論文地址在這裡,感興趣的小夥伴可以自行查看:https://arxiv.org/abs/2402.15391
關于 " 世界模型 " 的較勁
在整個 Genie 的介紹中," 動作 " 成了出現頻率最高的詞匯。這也正是 Google 對于「世界模型」的理解。
這個近期被 OpenAI 的 Sora 點燃的課題曾引發一場業界大辯論。Meta 首席科學家 Yann LeCun 就首當其衝質疑了 Sora 的技術路徑。他認為,僅從語言提示生成看起來逼真的視頻,并不意味着系統真正理解了物理世界," 内容生成 " 實則與世界模型中進行的因果預測非常不同。
Tim Rockt ä schel 此處轉發表示贊同,先是肯定 Sora 在視覺效果上确實令人印象深刻。接着表示 " 正如 LeCun 所說,一個世界模型需要動作 ",Genie 才是那個可以控制動作的世界模型。
曾表揚 Sora 是一個「數據驅動的物理引擎」,一個「可學習的模拟器或世界模型」的英偉達高級研究科學家 Jim Fan,也再次開啟誇誇模式:
"Tim 是我所知道的最有想象力的研究者之一,而 Genie 是他最具想象力的作品。不同于 Sora,Genie 實際上是一個以推斷合适動作為驅動的世界模型。
2024 年也将是基礎世界模型的一年!"
怎麼條條大路通 AGI?
Google 還進一步表示,"Genie 有朝一日會成為訓練多任務智能體的基礎世界模型,是生成式虛拟世界的未來 "。
以往許多成果已經表明,遊戲環境可以作為開發 AI Agent 的有效試驗場。雖然目前的 Genie 只是基于遊戲數據訓練的,但它是一種通用方法。不僅限于二維環境或應用程式,還适用于多種類型的數據和場景,而無需任何額外專業知識。
為證明這一點,團隊專門拿一些沒有動作标籤的機器人視頻訓練了一個 25 億參數的 Genie 模型。結果它不僅學會了機器人手臂的控制,還學會了各種物體的互動和薯片包這樣可變形物體的物理屬性。
由此看出,Genie 能夠從機器人視頻數據創建一個動作模拟器。換句話說,就算它沒有被明确教導那些動作是什麼,也能夠看視頻學會復制和預測各種動作。
Genie 團隊認為,世界模型應該是一個能夠理解和與環境互動的系統,這種互動不是預先編程的,也不限于特定任務。Genie 的核心是利用未标記視頻數據進行無監督學習,并創建「生成式互動環境」,正是為實現 AGI 而邁出的重要一步。
當然,Genie 還沒有發布日期,目前只是作為一個研究項目,是否會成為真正的產品也還不清楚。除此以外,Tim 也開誠布公地說,"Genie 運行速度是每秒 1 幀,因此現在距離實時可玩還有很遠的距離。" 難怪乎有網友形容,這看起來像個來自 80 年代的 " 馬裡奧 GPT"。
不過多數人還是報以肯定,認為短期到中期它将革新生成式遊戲,長期則有可能解鎖訓練更多領網域的 AI 智能體。項目團隊也非常振奮,DeepMind 研究總監 Edward Grefenstette 激動感慨道:
" 今天的 Genie 可能看起來只是像素塊的跳躍和奔跑,但它實現了可控視頻生成從 0 到 1 的巨大飛躍。幾年以後,面對更逼真的可控視頻生成,我們也許會把這看作是「威爾 · 史密斯吃意大利面」時刻。"
畢竟,"This is the worst it will ever be."