左手Transformer，右手世界模型，我們距離AGI還有多遠？

今天小編分享的科技經驗：左手Transformer，右手世界模型，我們距離AGI還有多遠？，歡迎閱讀。

文 | 極智 GeeTech

" 未來的路不會比過去更筆直，更平坦，但是我并不恐懼，我眼前還閃動着道路前方野百合和野薔薇的影子。"

自 1956 年達特茅斯會議提出 " 人工智能 " 這一概念以來，實現人類水平的智能一直是人工智能領網域的 " 聖杯 "。去年上半年，有主流研究者提出，大語言模型已經表現出 " 通用人工智能的火花 "（sparks of AGI）。這似乎表明，AGI 已經從哲學猜想正在變成觸手可及的未來。

馬斯克在今年早些時候預測，AGI 可能會在 2026 年投入使用。DeepMind 聯合創始人、首席 AGI 科學家 Shane Legg 在一次訪談中認為，2028 年，人類有 50% 的概率開發出第一個 AGI。近期，OpenAI CEO Sam Altman 表示，AGI 将在 2025 年實現，通往 AGI 的道路已經清晰可見。

然而，業界關于 AGI 的觀點眾說紛纭，有人視為洪水猛獸，有人視為又一次技術革命，這些引發了對 AGI 發展路徑的争論。在此背景下，人們不禁要問：我們距離實現 AGI 究竟還有多遠？

誰會是 AGI 的起點？

AGI（Artificial General Intelligence），即通用人工智能，其目标是打造一個具備廣泛能力的 " 類人智能體 "，能夠像人類一樣在不同領網域中自主學習、推理和解決問題。基本上，除了 " 自我意識 " 的生成，AGI 就是人類對人工智能的終極夢想了。

一個完整的 AGI 需要具備三個基本特征：第一，必須能完成無限的任務，而不是只能完成人定義的有限幾個任務。第二，要在場景中自主發現任務，這是通常所說的要做到 " 眼裡有活兒 "。第三，要有自主的價值來驅動，而不是被動的被數據所驅動。

同時，AGI 還需要解決一些關鍵的技術問題，比如構建智能體的認知架構，讓智能體由價值驅動，在現實世界中進行有效的行動，能夠與社會環境進行互動，使智能體決策過程透明可解釋，以及建立和人類之間的信任關系等。

但如果比較 AGI 的三個特征，就會發現大模型還不符合 AGI 的要求。

首先，大模型在處理任務方面的能力有限，它們只能處理文本領網域的任務，無法與物理和社會環境進行互動。這意味着像 ChatGPT 這樣的模型不能真正 " 理解 " 語言的含義，因為它們沒有身體來體驗物理空間。

其次，大模型也不是自主的，它們需要人類來具體定義好每一個任務，就像一只 " 鹦鹉 "，只能模仿被訓練過的話語。真正自主的智能應該類似于 " 烏鴉智能 "，能夠自主完成比現如今 AI 更加智能的任務，當下的人工智能系統還不具備這種潛能。

第三，雖然 ChatGPT 已經在不同的文本數據語料庫上進行了大規模訓練，包括隐含人類價值觀的文本，但它并不具備理解人類價值或與人類價值保持一致的能力，即缺乏所謂的道德指南針。

但這并不妨礙科技巨頭對于大模型的推崇。以 OpenAI 的 ChatGPT、谷歌 Gemini、Meta 的 Llama 為代表的大模型，已經在通用性上展示出了 AGI 的潛力。因為大模型已經能完成範圍相當廣的各類任務，而且表現出了像學習新技能這樣的 " 元認知 " 能力，科技巨頭也都将大模型視為邁向 AGI 的關鍵一步。

相比大模型的 " 鹦鹉範式 "，AGI 是以 " 小數據，大任務 " 為架構的 " 烏鴉範式 "，智能體表現為具有自主的智能，能夠自主感知、認知、推理、學習和執行，不依賴于大數據，基于無标注數據進行無監督學習，并且智能系統低功耗。就像烏鴉喝水這一行為，看似簡單，卻屬于自主推理行為，是由價值與因果驅動的高級智能，也是人工智能的未來發展趨勢。

通往 AGI 的兩大技術流派

目前，在通往 AGI 的道路上，主要有兩個技術流派。

一個是以 OpenAI 為代表的 Transformer 學派，通過大數據、大參數、大算力，以自回歸的方式走向 AGI，今年初發布的 Sora 體現的湧現能力，就初步隐含着 AGI 的味道。

另一個是以 Meta 首席人工智能科學家 Yann LeCun 為代表的世界模型學派，這一學派認為自回歸的 Transformer 是無法通往 AGI。Yann LeCun 認為，人類和動物能夠通過觀察，簡單的互動，以及無監督的方式學習世界知識，這蘊含的潛在能力構成了常識的基礎，這種常識能夠讓人類在陌生的環境下完成任務。

在人工智能的發展歷程中，Transformer 架構無疑是一個劃時代的創新。它首次被介紹是在 2017 年的論文《Attention is All You Need》中，旨在解決自然語言處理任務中序列到序列轉換的問題。

Transformer 架構之所以能夠在短時間内取得廣泛應用，主要歸功于其在語言理解和生成方面的顯著能力。模型通過自注意力機制學習文本中的復雜依賴關系，能夠生成連貫且富有邏輯性的文本，這在機器翻譯、文本摘要、對話系統等應用中尤為突出。同時，Transformer 的設計支持并行計算，極大提高了訓練效率，這使得處理大規模數據集成為可能。

盡管 Transformer 架構在多個領網域取得了成功，但其在理解復雜概念和常識推理方面的能力仍有限。這是因為模型主要依賴于從數據中學習模式，而非真正理解這些模式背後的邏輯和原因。這一點在嘗試實現真正的 AGI 時尤為突出，因為 AGI 不僅要求在特定任務上表現出人類水平的智能，更要求能夠跨領網域學習和适應。

不同于 Transformer 架構專注數據的模式識别和序列處理，Yann LeCun 圍繞如何使機器能夠像人類和動物那樣理解和與世界互動，強調 " 常識 " 推理的重要性以及基于 " 世界模型 " 的預測和計劃能力，試圖通過内部模拟來預測和理解環境的動态變化，進而做出更為合理的決策。

世界模型的基本思想，源自于對人類和動物如何理解世界的觀察。我們的大腦能夠構建内部表示，模拟可能的未來場景，并基于這些模拟做出決策。借鑑這一機制，世界模型旨在為人工智能系統提供一個内部環境的模拟，使其能夠預測外部世界的狀态變化，從而在不同情境下做出适應性決策。

這個模型通過無監督的方式從未标記的數據中學習，從而無需明确指示就能理解世界動态。該模型架構由六個模塊組成，包括執行控制的配置器、理解當前狀态的感知模塊、預測的世界模型、決策的成本模塊、規劃行動的行動模塊，以及追蹤狀态和成本的短期記憶模塊。

在強化學習領網域，世界模型已經顯示出其強大的潛力。通過在模型中模拟環境，人工智能不僅可以在虛拟環境中 " 想象 " 執行動作的後果，還能夠在實際執行之前評估不同行動方案的效果，極大提高了學習效率和決策質量。此外，在自主決策系統，如自動駕駛汽車和機器人中，世界模型能夠幫助系統更好地預測和應對可能的變化，提高了安全性和可靠性。

世界模型的最大優勢在于其環境模拟與預測的能力，這種能力使得人工智能系統可以在進行實際操作之前，通過内部模拟來評估不同行為的後果，這在資源有限或風險較高的情境下尤為重要。世界模型還支持決策支持和規劃能力的提升，允許系統在多個可能的未來中 " 看到 " 并選擇最優路徑。

然而，世界模型的構建和應用也面臨着顯著的挑戰。首先，環境模拟的準确性極大地依賴于模型的復雜度和所擁有的數據質量。要精确地預測復雜環境中的動态變化，需要大量的數據和強大的計算資源，這對于資源有限的項目來說可能是一個限制。

其次，構建一個能夠泛化到多種不同環境的世界模型是極具挑戰性的，因為現實世界的復雜性和不可預測性遠遠超出了任何現有模型的處理能力。

盡管世界模型在理論上具有巨大潛力，但在實際應用中仍然存在許多未知數。例如，如何确保模型的預測準确性，如何處理模型可能的偏差，以及如何在不同的應用場景中調整模型參數以适應特定的需求等問題都需要進一步的研究和探索。

越競争，越融合

在探索 AGI 的道路上，Transformer 架構和世界模型代表了人工智能研究中兩種截然不同的設計哲學和目标。這兩種方法在理解復雜系統、處理未知環境、以及學習效率方面各有優劣，引發了關于哪一種更接近于實現 AGI 的熱烈讨論。

前文提到，Transformer 架構以自注意力機制為核心，它的設計哲學基于對數據之間關系的深入理解，特别适合處理序列化信息，如文本和語言，這使得 Transformer 在自然語言處理 NLP 等領網域大放異彩。

相比之下，世界模型更側重于模拟和預測環境的動态變化，試圖通過構建内部模型來理解外部世界，從而在各種情境下做出适應性決策。這種方法類似于人類和動物如何通過内部表示來預測和規劃行為，因此被認為在實現 AGI 方面具有潛在優勢。

從理解復雜系統與處理未知環境的能力來看，Transformer 架構通過分析大規模數據集來理解復雜系統，優勢在于其能夠捕捉深層次的模式和關系。然而，當面對未知環境或數據稀缺的情境時，它的表現可能會受限，因為 Transformer 依賴于已有數據中的模式進行學習。

世界模型通過模拟可能的環境狀态來理解復雜系統，特别是在處理未知環境時展現出其獨特的優勢。通過内部模拟，它能夠 " 想象 " 不同的未來情境，即使是那些從未直接經歷過的。這種能力使得世界模型在策略規劃和決策支持方面具有顯著的潛力。

在學習效率方面，Transformer 架構能夠快速從大量數據中學習，尤其是在有足夠計算資源的情況下。然而，這種方法可能導致資源使用效率低下，特别是在需要處理非常大的數據集時。

世界模型在學習效率方面的優勢在于其能夠通過少量的實際互動進行有效學習。通過在内部模型中 " 實驗 " 不同的行動策略，世界模型能夠在不直接與環境互動的情況下優化決策，從而降低了學習過程中對實際數據的依賴。

在追求 AGI 的道路上，Transformer 架構和世界模型各有所長，代表了人工智能技術發展的兩條不同路徑。雖然每種方法都有其獨特的優勢和局限，但未來 AGI 的實現可能不會完全依賴于單一技術或方法。相反，結合這兩種架構的優點，甚至探索新的技術和理論，将是實現真正智能、靈活且适應性強的 AGI 系統的關鍵。

例如，利用 Transformer 架構的強大語言處理能力來增強世界模型内部的環境模拟能力，或者在世界模型的框架下集成 Transformer 模塊來提高模型對環境變化的理解深度。這種融合可能會帶來新的挑戰，比如如何平衡兩種架構的計算需求，以及如何整合它們各自的學習機制。

除了結合現有架構，實現 AGI 還需要探索新的技術和理論，這包括發展新的神經網絡架構、深入研究大腦和認知科學以獲取靈感，或者開發能夠跨領網域學習和适應的算法，這些新的探索将跨越學科界限，整合來自神經科學、心理學、計算機科學等領網域的知識，既是人類智慧的集大成者，同時又挑戰着人類智慧的上限。

如今，我們正處在通向 AGI 未來的起點上，盡管實現它的時間表尚不明确，但技術道路正逐漸清晰。AGI 的進步不僅代表了技術創新，更是對未來人機互動方式的重新想象。兩千多年前，蘇格拉底說 " 認識你自己 "，今天在 AGI 技術發展的倒逼下，人類需要 " 重新認識你自己 "。