“谷歌版Sora”被嘲畫質好糊，但在世界模拟器上又前進了一步

今天小編分享的科學經驗：“谷歌版Sora”被嘲畫質好糊，但在世界模拟器上又前進了一步，歡迎閱讀。

谷歌 110 億參數 Genie，用來打造互動虛拟世界，它來了！

劃重點：不受視頻監督訓練；只用給它單張影像，就能提示生成可玩的 2D 虛拟世界；這個互動式的虛拟世界還自主可控。

但令人撇嘴的點，就是 Genie 最後出的效果，畫質太糊了。

像這樣：

或者這樣：

團隊也站出來承認，Genie 目前确實還有限制，現在只能以 1FPS 制作遊戲。

看得網友忍不住吐槽，不說和 Sora 的效果比了，就算和别的文生視頻或者文生圖相比，都是 "2K" 和 "480p" 的差距。

看起來挺令人興奮的，但 emmm 怎麼說呢，畫質和風格都像個上世紀 80 年代的遊戲。

但也有人站出來為 Genie 說話。

比如英偉達科學家 Jim Fan，就明确表達：

與 Sora 不同，Genie 實際上是個能推斷動作、用正确動作驅動世界模型。

Genie 團隊負責人 Tim Rockt ä schel 激情開麥，稱認為這（Genie）是邁向 AGI 通用世界模型的充滿希望的一步。

他援引了世界模型第一推崇者 Yann LeCun 的推特，稱：

" 誠然， OpenAI 的 Sora 驚豔世界，但正如楊立昆所說，世界模型一定需要動作。"

畫質就一個字，糊

書歸正傳。

咱們從視覺上來感受一下 Genie 的神奇魔法，直接上效果圖。

這是官方給出的例子——

現實世界的照片，喂給 Genie，就能動起來，變成無限的虛拟世界。

Like this，小黃狗逛公園：

還有古堡武士向前衝：

Genie 團隊用 Imagen2 生成影像，然後把影像喂給 Genie。Genie 把影像作為起始幀，生成以下效果。

團隊表示，Genie 不僅僅能用 AI 繪畫來作為驅動的起始幀，随便拿張人類大作，也可以達到同樣的效果。

比如這是個小朋友的畫作：

丢給 Genie 後，能得到老鷹起飛的效果：

這也是一張小朋友塗鴉，經由 Genie 處理後得到的：

可以明顯看到，上面給出的這些官方效果，明顯畫質參差不齊。

難怪有的網友稱，這些 demo 看上去有一種 700 度近視眼摘掉眼鏡看世界的美

不少人提問為什麼不用超高清分辨率輸出，目前還沒得到回應。

除了畫質太糊，Genie 的另一個點，就是網友們覺得 demo 都太短太短了。

平均每個時長不到 2s。

好多人都急了：

能不能放出來 1 分鍾時長的 demo 啊？？？或者至少讓咱看看，超過 3 秒鍾，會是啥樣子吧。

然而，雖然肉眼可見的畫質糊、時長短，Genie 仍然是令人驚呼的新研究。

畢竟，任何人，包括幼兒園階段的小朋友，都可以繪出一個世界，然後加入其中，開始探索。

有小夥伴已經在暢想，日後能用 Genie 制造 " 一個讓每個人都感到滿足和滿足、永無止境的生成世界 "。

眨眼間，AI 就從生成下一個 word 發展到了生成下一個 world。

Genie，一種通用方法

令人欣慰，谷歌 DeepMind 放出了關于 Genie 的論文，《Genie: Generative Interactive Environments》。

論文顯示，Genie 是一個11B 參數的互動式環境生成模型，能夠從互聯網視頻中無監督地學習并生成可互動的虛拟世界。

并且，Genie 可以通過文本、影像、照片甚至手繪草圖生成最終的互動式虛拟世界。

整個 Genie 包含三個關鍵組件：

潛在動作模型（Latent Action Model ，LAM）；

視頻分詞器（Tokenizer）；

潛在動态模型（Dynamics Model）。

其中，潛在動作模型用于推理每對幀之間的潛在動作。

為了讓視頻生成可控，谷歌 DeepMind 用前一幀所采取的動作來預測未來幀。

由于此類動作标籤在互聯網視頻中可用的很少，同時獲取動作注釋的成本超級高，因此，團隊以完全無監督的方式學習潛在動作。

也就是說，Genie 的訓練使用了大量公開的互聯網視頻數據集，而沒有使用任何動作标籤數據。

視頻分詞器的作用則是把原始視頻幀轉換為離散 token。

三組件之中的第三樣，潛在動态模型，作用是給定潛在動作和過去幀的 token，用來預測視頻的下一幀。

論文介紹，在訓練過程中，使用超 200000 小時的互聯網遊戲視頻，作為其訓練數據。

這些數據集經過篩選，且包含了 2D 平台遊戲的視頻片段。

最終，其推理過程如下：

值得引起注意的是，Genie 允許用戶通過潛在動作在生成的環境中進行互動。

這些動作是通過一個因果動作模型學習得到的，這個模型允許用戶通過指定潛在動作來控制視頻的生成過程。

用戶通過潛在動作與生成的環境進行互動，從而創造出新的、動态的視頻内容。

這也是谷歌認為 Genie 是實現通用 Agent 的基石之作的原因之一。

此前研究表明，遊戲環境可以成為開發 AI Agent 的有效測試平台，但實際情況中常常受到可用遊戲數量的限制。

借助 Genie，未來的 AI Agent 可以在新生成的世界中，進行永無休止的訓練。

多說一句，論文中進行了一個概念證明，即 "Genie 學到的潛在動作可以轉移到真實的人類環境中 "，不過，這都是未來可能發生的事情了。

谷歌還明确表達了自己的态度：Genie 是一種通用方法。

也就是說，雖然 Genie 的訓練數據多是 2D 的遊戲視頻 or 機器人視頻，但不需要任何額外的領網域知識，Genie 就可以在多個領網域中應用。

為了驗證這個觀點，谷歌在 RT1 的無動作視頻上訓練了一個較小的模型，只有 2.5B。

結果發現，具有相同潛在動作序列的軌迹通常會表現出相似的行為，也就是說，Genie 能夠學習一致的動作空間。

這對訓練機器人甚至具身智能來說，都是大大的利好消息。

最後來看一眼 Genie 的研究團隊～

團隊人員不老少，共同一作就有六位，分别是 Jake Bruce，Michael Dennis，Ashley Edwards，Jack Parker-Holder，Yuge（ Jimmy） Shi，以及 Tim Rockt ä schel。

Yuge（Jimmy）Shi是華人，本科畢業于澳大利亞國立大學，2023 年在牛津大學拿下機器學習博士學位。

她在 2023 年 3 月加入谷歌 DeepMind，此前還在 Meta AI 實習過。

此外，研究團隊不少人都是谷歌 DeepMind 的開放性團隊（Open-Endedness Team）成員。

研究團隊中，有位不列颠哥倫比亞大學的計算機科學副教授，他同時是谷歌 DeeoMind 的高級研究顧問。

他在推特上敲了敲小黑板，稱：

咳咳，注意了，現在看到的 Genie 是最糟糕的情況！

相信用不了多久它就會變完美。

參考鏈接：

[ 1 ] https://sites.google.com/view/genie-2024/home

[ 2 ] https://arxiv.org/pdf/2402.15391.pdf

— 聯系作者 —