大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

為什麼Sora不能成為世界模型?

2025-03-06 简体 HK SG TW

今天小編分享的互聯網經驗:為什麼Sora不能成為世界模型?,歡迎閱讀。

文 | 王智遠

寫完一篇空間智能文章,發到群裡,聊它如何用虛拟空間數據訓練機器人,幫人類理解世界。

結果有朋友提出個問題:

文生視頻算不算空間智能?它也能生成虛拟場景,為什麼不是最佳途徑?這問題挺有意思,我第一反應就想到了 Sora。

文生視頻 " 新星 " 崛起速度太快,幾句話能生成一個視頻,兩年内字節、騰訊、甚至其他模型廠商紛紛壓住該賽道。

不過,兩年過去,有人發現它沒那麼完美,生成人像總帶着 " 恐怖谷 " 的詭異,連 Facebook 首席人工智能科學家 Yann LeCun 也點評說:Sora 不過是畫得好看,壓根不懂物理規律。

于是,我帶着疑問研究了一下:看似強大的 Sora,為什麼不能成為真正的世界模拟器?它和空間智能的差距到底在哪?

01

愛因斯坦有句經典的名言:

" 如果不能簡單地解釋一件事,那就說明還沒有真正理解它。"(If you can't explain it simply, you don't understand it well enough.)

所以,想深入探究,就必須從深層次技術原理出發。

Sora 的核心是 " 擴散模型 "(Diffusion Model);從一堆随機噪點開始,通過 AI 一步步去掉雜亂,最終生成清晰的畫面,再将這些畫面串聯成視頻,聽起來像魔法,其實背後是數學原理在支撐。

另外,它還有個幫手是 "Transformer",這個詞不少人聽說過。什麼意思呢?它擅長處理序列數據,把零散的信息連成一條線。在 Sora 中,它将文字指令拆解,再把一幀幀畫面串聯成流暢的動作。

舉個例子:

如果你輸入 " 船在咖啡杯裡航行 ",Sora 會先理解 " 船 " 和 " 咖啡杯 ",然後,把船、水波蕩漾、船身傾斜這些相關的詞匯、場景串聯起來。

這背後依賴海量視頻數據和強大的算力,才能在幾秒鍾内生成幾十秒的畫面。

可是,你有沒想過,僅僅依賴數據堆砌出來的結果,真的能理解物理世界嗎?答案是不會。問題就出在架構上。

擴散模型擅長從數據中學習像素規律,預測下一步畫面應該是什麼樣子;Transformer 則能讓幀與幀銜接得天衣無縫。所以從視覺上看,Sora 很 " 聰明 ",能夠模仿真實視頻的連續感,但仔細一想,問題就來了。

船怎麼可能塞進杯子?我試過輸入「貓跳到桌上」,畫面流暢得沒話說,結果貓腿直接穿過了桌面,就像遊戲裡的穿模。為什麼會這樣?

因為 Sora 的生成邏輯是 " 畫得好看 ",而不是 " 畫得對 "。

它不懂重力如何讓腳落地,也不懂桌子為何會擋住貓腿,生成 " 恐怖谷 " 人像時,更一目了然,臉部細節一放大就崩了,它只知道靠像素預測,卻沒有考慮現實規則。

所以,Sora 的強項和弱點是一枚硬币的兩面。

視覺流暢是它的本事,不合理也是它的命門。正如 Yann LeCun 所說,它 " 不懂蘋果為何落地 ",我覺得這個觀點很對:Sora 的架構根本就沒想去理解物理世界,只是想把畫面糊弄得像真的。

既然 Sora 不懂物理世界,那它能否成為世界模拟器呢?

我認為有點懸。為什麼?

世界模拟器是一個能夠運行物理規則的虛拟環境,幫助機器人學習現實中的因果關系,但 Sora 生成的視頻雖然看起來像回事,卻毫無真實性。

你想想看," 船在杯子裡 " 這樣的視頻去怎麼去教機器人,機器人可能會以為杯子能裝下萬噸巨輪,這根本沒好用。

因此,擴散模型和 Transformer 的目标是視覺生成,而不是物理模拟,Sora 更像一個藝術工具,追求 " 好看 " 的畫面,而不是 " 對 " 的世界,這讓我覺得 Sora 局限性在于其架構沒有對準目标。

02

既然這樣問題來了:世界模拟器要具備哪些關鍵特性?

我覺得最基礎的有三點:

一,得知道現實物品規則是什麼樣,搬到虛拟場景中,不能差太多;二,理解物品與物品之間怎麼相互影響的;三,還得能把不同物品整合到一起,相互推理。

這麼說,有點抽象,我舉個例子:

你在教一個機器人怎麼拿東西,世界模拟器裡面的 " 虛拟杯子 ",得模仿出真實杯子的重量、材質、形狀,這樣機器人才知道該用多大的力氣去抓。

模拟器把重力以各指标模仿的不準确,機器人就會抓得太緊或者太松,東西就會掉下來,甚至還會被弄壞。

再聊聊智能交通。

現實中,堵車是個大難題。要解決它,得靠算法、數據分析,比如錯峰出行。

假設有個世界模拟器,如果它沒法模拟紅綠燈時長、車輛速度,就無法預測哪裡會堵車、什麼時候堵,也做不了錯峰規劃。

同樣,如果模拟器不清楚車輛摩擦力,就判斷不了車子能不能在綠燈時順利起步或紅燈時及時停下;如果搞不清車輛之間的相互影響,交通就會亂套,甚至可能出事故。

所以,世界模拟器的作用,是把復雜的物理規則和物體之間的關系都搞清楚,這樣才能讓機器人、智能交通這些高科技的東西更好地工作。

對比來看,Sora 在關鍵特性上明顯不足。它在視覺生成方面做得很棒,但沒辦法滿足世界模拟器對物理規則和因果關系推理的要求。

這種問題不只出現在 Sora 上,一些國產大模型也有類似架構缺陷。我刷抖音時經常看到有人用圖生視頻模型,結果人突然變成狗,看起來很搞笑,但明顯不符合現實邏輯。

原因很簡單,架構無法為世界模拟器提供真實的物理理解能力,因此,在具身智能或其他領網域的應用就會受到很大限制。

可以得出一個結論:世界模型和文生視頻的架構完全不一樣。世界模型要模拟真實世界,必須懂物理規律和現實邏輯;文生視頻主要生成畫面,在邏輯和真實性上沒那麼嚴格。

03

我認為,相比之下,真正值得關注的,是更注重物理規則建模和具備因果關系推理方向的模型。比如:李飛飛的 World Labs、黃仁勳的世界模型(Cosmos WFMs),以及群核科技的空間智能。

為什麼拿他們舉例呢?有三點:

先看目标,黃仁勳提出的 Cosmos WFMs(世界模型)是希望打造一個能模拟真實世界的「虛拟大腦」。這個大腦要懂物理規則,要知道物體怎麼動、力怎麼作用,還要明白事情的前因後果。

李飛飛的 World Labs 目标是讓人工智能真正理解世界。它通過模拟物理規則、因果關系和復雜場景,讓 AI 不僅能 " 看到 ",還能 " 理解 " 世界。

比如:一個 AI 產品可以在虛拟場景中預測事情的發展,或根據不同情況做出合理決策。這種能力對提升機器人、自動駕駛等領網域的智能化至關重要。

群核科技的空間智能,目标是希望把真實世界搬到數字世界裡,讓 AI 能看懂、能用,然後用數據幫助家居設計、建築規劃、以及 AR、VR 這些領網域,幫行業更高效的幹活。

說得直白點,是希望打造一個 " 數字孿生 " 的世界,讓人、AI、空間裡面思考和行動,解決實際問題。

既然有了目标,再看看三家技術實現路徑。

Cosmos WFMs 的技術實現路徑是通過構建生成式世界基礎模型(WFMs),結合高級分詞器、安全護欄和加速視頻處理管道等關鍵技術,為開發者提供高效的開發工具。

具體來說,它利用 NVIDIA NeMo 對基礎模型進行調優,并通過 GitHub 和 Hugging Face 提供開源支持,幫助開發者生成高仿真的物理數據。

此外,Cosmos 還專注于多視角視頻生成、路徑規劃、避障等任務,進一步提升物理 AI 在機器人、自動駕駛等領網域的應用能力。

報告裡面的東西是不是很難懂?

通俗的說:他們做的這套系統,能讓 AI 學會像人一樣看路、規劃路線、避開障礙物,還能生成各種角度的視頻,特别适合用在機器人和自動駕駛這些領網域。

李飛飛的 World Labs 的技術實現路徑是,開發一種從 2D 到 3D 的智能轉化技術,讓 AI 不僅能看懂平面圖片,還能生成完整的三維空間。

他們的系統從一張普通照片出發,估算出場景的 3D 結構,然後補全圖片中看不到的部分,最終生成一個用戶可以自由探索和互動的虛拟世界。

簡單講,用 AI 把平面影像變成立體空間,讓人像在真實世界一樣能走進去、四處看看。這種技術對機器人導航、虛拟現實等領網域特别有用,因為它們都要 " 空間智能 " 來理解和應對復雜的 3D 環境。

群核科技搞空間智能,簡單來說:

1 萬台 GPU 伺服器,用計算能力幫家居和建築行業快速做出大量 3D 模型,順便攢了一堆 2D 和 3D 的設計數據;把數據整合到一個平台上,能生成特别逼真的虛拟場景。

最後,企業可以用這個平台來訓練機器人,比如:掃地機器人或者自動駕駛設備,讓它們在虛拟世界裡模拟真實環境,學會怎麼動、怎麼避障,變得更聰明。

因此,無論黃仁勳的 Cosmos WFMs、李飛飛的 World Labs,還是群核科技的空間智能,技術核心目标是通過模拟真實世界的物理規則和因果關系,讓 AI 在空間内訓練更聰明、更能解決實際問題。

04

我認為,要實現這一目标,離不開一個關鍵因素:高質量數據。數據是構建世界模型和空間智能的基礎,可它也是發展裡最大的「攔路虎」。

為什麼?

我們說具身智能有點抽象,換一個更具體的詞:" 虛拟訓練 "。虛拟訓練有兩個重要方面:

一個是生成式的海量數據。就像 GPT 這樣的文字模型,靠超大規模的數據和強大的算力來學習和推理;另一個是真實數據。枕頭的大小、重量、材質,或者光線怎麼反射、物體怎麼碰撞,這些是物理互動場景。

這種真實數據來源于現實世界,直接決定虛拟訓練能否模拟出符合實際邏輯的行為和反應;

換句話說,虛拟訓練要兩種數據:一種是 " 虛拟生成 " 的大數據,另一種是 " 真實場景 " 的物理數據,而後者,往往成為發展的瓶頸。

原因很簡單:文生視頻、文生圖等生成式技術雖然能生成豐富的内容,但很難直接獲取真實的物理規則和精确的互動細節。

比如,文生視頻可以生成一個 " 滾動的球 ",但它可能無法準确模拟球在不同材質地面上的摩擦力、彈跳高度或碰撞反應。

那真實場景的數據從哪兒來呢?只能從真實世界裡來。

通過傳感器、攝像頭、激光雷達等設備,從現實環境中采集;你開車時,傳感器會記錄車輛的運動軌迹、力度變化、光線反射,還有車輛間距、行人行為,甚至天氣對路況的影響。這些信息會被上傳到平台,用來分析和訓練。

但有了數據還不夠。

平台的數據不能保證下一次操作一定精準,還得在虛拟環境裡進行大量訓練;自動駕駛汽車,要在虛拟環境裡反復模拟行駛,可能要跑成千上萬次,直到能應對各種復雜場景,才能用到現實世界裡。

明白這些,你也就明白了,這不僅是自動駕駛、機器人領網域的問題,其他行業也一樣。

不管醫療、制造還是農業,世界模型和空間智能都需要海量的真實數據來支撐,并且要通過虛拟環境的反復訓練來驗證和優化能力。

換句話說,無論是自動駕駛、機器人導航,還是其他行業的具身智能應用,核心挑戰都在于如何獲取高質量的真實數據,再通過虛拟和現實的結合,讓 AI 真正能解決實際問題;這才是未來技術落地的關鍵。

誰有底層架構、誰有數據,誰才有上牌桌的機會。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們