今天小編分享的科技經驗:AI要進步,居然得先學打遊戲?,歡迎閱讀。
開了眼了,上周編輯部還在說下半年感覺 AI 領網域沒啥大活兒了,結果沒過幾天就發現話放早了。
寧猜怎麼着,本來以為 AI 還停留在輸入文字,然後出圖出視頻的這些程度上,結果這兩天突然有幾個 AI 公司,都開始宣布人家可以生成世界了。
我勒乖乖,這不就是 AI 界做夢都想搞出來的 " 世界模型 " 嘛:能像人一樣理解這個真實世界的超級 AI !
先是前幾天的 World Labs ,雖然大家可能沒聽說過,但人家創始人可是著名 AI 科學家、斯坦福大學教授、美國科學院院士、機器學習奠基人之一、有 AI 教母之稱的著名美籍華人科學家李飛飛。
在 World Labs 官網上說到,這是世界上第一個能直接渲染出完整 3D 場景的AI ,超越了傳統生成模型的單純像素預測,而且這場景還能有互動性和自由度。
說人話就是,這玩意跟以前的生圖生視頻模型不一樣了,只需要塞給它一張圖,人家就能給出一套空間建模,而且還能在裡面動。
雖然現在咱們還沒法用,但人家官網還是放出來一些案例給大家看。
大家一眼就會發現,這演示畫面裡咋有個鍵盤和滑鼠。
其實就是人家為了展示這生成出來的場景是有自由度滴,你可以自己用鍵鼠操作,在網頁上操作去試。
然而世超不建議大家去試,因為真的超卡,活動範圍也不大,還容易暈。。。
不過作為行業内首發,咱也是可以理解萬歲一波的。
但好巧不巧,李飛飛這東西發布才過了一天,還有高手。
谷歌 DeepMind 也出了一個 " 世界模型 " ,而且還是第二代,号稱能理解真實世界的運作規律。世超也跑去他們官網看了一圈,瞅瞅這個 Genie 2 ,到底怎麼個真實法。
先看人家的演示,輸入一句提示詞以後生成的效果。
該說不說,這瞅着确實也挺逼真的,有兩下子。
不過要是跟上面 World Labs 的 AI 對比的話,估計大家一眼就會發現,這個好像更加流暢,自由度也更高些。
實際上人家官網也說了,這是一個類似遊戲的基礎世界模型,在這裡面,你也一樣可以用 WASD ,空格和滑鼠來操控畫面裡的角色
甚至還可以生成第一人稱視角的版本!
而根據操作產生的畫面,則全部是由 AI 即時算出來的,甚至可以持續長達一分鍾時間。
而已經生成出來的畫面和建模,你要是操控鍵盤往回走,會發現之前是什麼樣現在還是什麼樣。
這就很離譜了,相當于生成出來的這個新世界,每一秒長啥樣這 AI 都是能記得住的。
除此之外,這裡面的角色和互動也很有看點。
光在運動上,就不止常規的步行,你可以跑可以跳,還可以爬梯子
甚至可以開車,還可以開槍射擊。
而裡面 AI 生的 npc 們,也是可以發生互動的
雖然這互動效果有點不盡人意,但還是能看出來動了的。
而在整個場景中,跟自然相關的運動場景也能搞出來 .
就比如水面 :
還有煙霧 :
還包括了重力和光線反射效果 :
哪怕你給出現實中的照片,它也能跟着模拟一下周圍的環境,瞅着跟谷歌地圖的街景似的。
雖然視覺效果着實挺牛逼的,不過,跟李飛飛那個一樣, DeepMind 的新模型也沒有給出來讓大家上手試,只在官網發布的他們測試的版本。
但根據世超平時測試這些 AI 的經驗嘛,甭管是大廠還是新勢力,官方給出來的演示那肯定都是精挑細選的好看的案例,真正要用的話,那估計還得降低一個級别的期待值。
不過這次比較好玩的是, DeepMind 也很實誠的說,他們這個還是一個早期的版本,自己測試的時候也會出現一些翻車案例。
就比如下面這個,本來說讓畫面裡的小哥滑雪,結果 AI 給他搞成了跑酷。
還有一個花園的場景,玩家還沒操作呢,啥都沒動,結果花園裡突然飄過了一個幽靈。。。
雖然還有瑕疵,但是就從他們給的這些演示上,世超覺得這确實是在 AI 理解世界這方面,取得了比較成功的進步。
有聰明的差友可能這時候就要問了,這種跟随一個主體運動的畫面,以前的 Sora 類視頻模型不也能做到嘛,憑啥這個就更接近世界模型?
其實還是跟訓練 AI 的方向有關系。
Sora 雖然剛出來的時候号稱世界模型,但是實際這些視頻模型穿模的情況還是很多的,幻覺也不太好解決。
本質上他們學習的資料都是視頻,靠前面視頻的畫面去推後面的,并不真的理解視頻裡的東西是怎麼互動,怎麼作用的。
就比如說,讓 AI 從看視頻裡學到物體有重量,是相當困難的。
而要讓 AI 意識到這些真實世界裡的參數,它首先就得知道環境是一回事,環境裡的人和物是另一回事,所以大家才從文生圖模型,一步步走向了生成地理環境,而後在環境内去呈現人的動作。
這也就是李飛飛 World Labs 的模型的效果,相當于先讓 AI 學會建模,再展示看到的場景。
但相比上面 World Labs , DeepMind 顯得更厲害一點,這其實跟他們的技術路線不一樣有點關系。如果說前一個是打算用圖片來還原更真實的場景,後一個則是用 AI 給你生成了一個遊戲世界。
當然他們之所以能搞出來,主要人家在訓練的時候就是按遊戲素材來學習的 .
相比視頻素材,遊戲的好處就在于 ai 不僅能學到角色和畫面的動态變化,也能觀察到角色動作的鍵盤操作,是如何影響畫面和動作變化的,這樣它就對物體與環境的互動理解的更全面。
實際上,早在今年三月, Genie 團隊就已經出來一個版本,不過那時候他們做的還是 2d 畫面的橫屏 AI 遊戲。
結果到了 2.0 版本,人家給 3d 的整出來了,實際效果看起來也非常接近大家平時玩的這些 3d 遊戲,甚至比一些遊戲的畫面質量還要好一點。
不過呢,咱也不是說 DeepMind 就發現了 AGI 的通用解,演示中表現的還行也不等同于 AI 就真的理解現實。
最明顯的原因就是,這 AI 是靠遊戲學的,而遊戲是人類根據現實來做的。靠人類的二手資料學的再好,也絕不等同于對真實世界的理解無誤。
至于 AGI 啥時候真來,咱還是得說句,再等等。
撰文:納西