對話智澄AI胡魯輝：從語言模型到世界模型，讓機器人真正理解物理世界

今天小編分享的科技經驗：對話智澄AI胡魯輝：從語言模型到世界模型，讓機器人真正理解物理世界，歡迎閱讀。

文｜光錐智能，作者 | 白鴿，編｜王一粟

2024 年，具身智能可以說是 AI 領網域最火熱的賽道之一。

所謂具身智能，可以理解為人工智能和機器人技術深度結合的產物，是 " 長了身體的智能 "，能夠直接與物理世界進行互動。目前業内普遍認為，人形機器人是具身智能落地的最佳硬體載體。

也正因此，以機器人為主體的具身智能在全球徹底火了，機器人公司如雨後春筍般出現，具身智能領網域的投融資也非常火熱。

據公開資料顯示，2024 年上半年做具身智能機器人的公司可能已超過 70 家，其中，華為等大廠也開始布局該賽道，創企們則頻頻獲得融資，甚至產品尚未落地，就已經估值數十億元。

今年 11 月 5 日，成立不到一年，致力于 " 将通用人工智能帶入物理世界 " 具身大模型企業 Physical Intelligence 宣布新一輪 4 億美元融資，估值達到 24 億美元。9 月，李飛飛老師創立的空間智能公司 World Labs 在完成 1 億美元融資後，兩個月内又完成了新一輪 2.3 億美元融資；7 月，致力于 " 開發扎根于物理世界的通用人工智能（AGI）" 企業 Skild AI 宣布完成 3 億美元 A 輪融資，估值達到 15 億美金。

那麼，在這一輪具身智能賽道中，創業企業究竟該如何走出差異化競争優勢？具身智能背後的技術發展路徑又是如何？未來機器人時代到底将會在什麼時間到來？

近期，我們與具身智能新銳企業智澄 AI 創始人兼 CEO 胡魯輝進行了一場深度交流，這位行業大咖對具身智能的技術發展和行業趨勢，給出了自己的思考和解法。

智澄 AI 創始人兼 CEO 胡魯輝

" 我們是一家通用人工智能公司，核心技術是理解物理的世界模型，對标斯坦福李飛飛老師的公司。" 胡魯輝如此說道，" 但是我們產品形态并非是模型，而是具身智能機器人。"

在胡魯輝看來，世界模型和主流的多模态大模型主要有兩方面不同之處，一是世界模型主要通過包括攝像頭在内的傳感器直接感知外部環境信息，相比于多模态大模型，其輸入的數據形式以實時感知的外部環境為主，而多模态大模型則是以圖片、文字、視頻、音頻等信息互動為主。

另一方面，世界模型輸出的結果，更多的是時間序列數據（TSD），并通過這個數據可以直接控制機器人。而多模态大模型輸出的結果仍是以信息為主。同時物理智能需要與世界進行實時互動，其對時效性要求較高，而多模态大模型更多是與人互動，對時效性要求較低。

也正因此，世界模型也被行業人士看做是邁向 AGI（通用人工智能）的必經之路。

作為曾在微軟、亞馬遜、華為美國研究院、Meta 這樣的頂尖科技巨頭擔任高管的行業專家，胡魯輝其實早就意識到 AI 能夠與物理世界結合，并一直尋找合适的創業機會。

2024 年年初，智澄 AI 正式成立。胡魯輝對公司的整體發展規劃，也分為兩部分：一是以打造世界模型為核心，持續進行技術創新和研發突破；二則是要真正的實現產品落地應用，" 我們現階段也在與客戶進行深度合作，今年将以產品更新迭代為主，明年将開始真正落地商業化應用。"

據悉，今年 5 月開始，智澄 AI 的人工智能機器人原型一（TR1）、原型二 ( TR2 ) 相繼完成。胡魯輝将智澄 AI 的人工智能機器人命名為 TR，即 Transforming Robot（即意為 " 改變機器人 "）。

智澄 AI 的 TR2 雙臂機器人

" 雖然世界模型的研發是個持續的過程，但我們產品迭代和商業落地速度很快，現在基本上兩個月一次迭代。" 胡魯輝說道。

事實上，當前具身智能行業發展的關鍵挑戰之一，就是機器人的泛化能力。

畢竟，在硬體相差不大的情況下，機器人的抓取能力和動作靈活性完全依賴于 " 大腦 " 的智能化程度。只有擁有強大的泛化能力，機器人才能适應各種任務場景，具備真正的 " 可用性 "。

胡魯輝也表示，應對當前挑戰，智澄 AI 的泛化能力主要體現在三方面：

任務泛化：機器人既能夠做這個任務，也能夠做别的任務。

環境泛化：典型場景類似無人駕駛，需要識别理解不同路況環境，對機器人而言能夠适應不同的環境。

本體泛化：同一個模型既能驅動這類機器人本體，也能夠用另外一類機器人本體。

" 對具身智能來說，只有具備任務、環境和本體三種泛化能力，才能夠真正推動機器人時代到來。" 胡魯輝說道，" 但想要實現三種能力的泛化，以目前的多模态大模型技術來說很難突破。我們将打造澄靈世界模型，分三個階段，花費 2-3 年時間，逐步推進物理世界模型，使其能夠實現像人一樣的泛化能力。"

不過，在邁向通用人工智能的道路上，目前面臨着諸多挑戰，包括算法、數據、算力等多方面，除了應對上述挑戰之外，胡魯輝認為，智能工程和模型架構是另外兩個更為關鍵的要素，而智澄 AI 創始團隊在這兩個方面有多年國際領先的實戰經驗。

面對日新月異的技術和產業變化，胡魯輝也表示，智澄 AI 将堅持以物理智能為核心技術，不斷加強自身技術能力的迭代，積極擁抱行業變化，推動機器人時代的到來。

以下為光錐智能與智澄 AI CEO 胡魯輝詳細對話内容（經光錐智能編輯整理）：

01 每 2 個月迭代一次，明年将實現產品商業化落地

Q：從模型算法到智能機器人的落地，有哪些難點需要克服？我們用了多久實現了從模型算法到智能機器人的落地？

A：整體挑戰還是蠻多的，主要是模型架構、智能工程和產品落地三個方面。智澄 AI 模型架構是端到端智能原生的世界模型，從智能工程，包括數據的采集、模型的訓練和發布等等，產品落地是結合泛化能力和實際的客戶需求快速迭代。2024 年 4 月初公開創業方向，也差不多是這個時候開始做產品研發，產品名稱為 TR（Transforming Robot），基本上每 2 個月實現一次產品迭代，現有多款人工智能機器人產品在進行研發。

Q：最新兩代產品基本完成，智澄 AI 後續的產品研發及市場落地策略如何？

A：我們的整個戰略方針是兩條腿走路，一方面不斷進行技術創新和研發突破，另一方面進行產品落地，我們現在和多家行業頭部客戶進行深度合作，計劃今年主要以技術產品迭代為主，明年開始產品落地和商業化應用。

Q：您大概是從什麼時候決定做智澄 AI 這樣的公司？了解到咱們團隊具備國際領先的 AI 模型與數據能力，這次創業為什麼選擇具身智能賽道？

A：在 2022 年底，我已經在思考這個事情，當時 ChatGPT 剛剛出來。其實更早之前我還寫了一篇關于生成式人工智能的文章，這篇文章被廣泛引用，當時 AIGC 還沒有火起來，結論就是 AI 是能夠跟物理智能結合。從科技角度，現在是移動互聯網時代，下一個時代是機器人時代，想改變機器人現狀，推動機器人時代的到來，核心技術是人工智能，而我和智澄 AI 部分核心團隊在人工智能基礎模型及關鍵大數據等方面深耕多年。

Q：因為其實近一年具身智能火爆，有很多企業加入到賽道當中，包括初創企業和一些大廠。在競争激烈的環境下，智澄 AI 作為創業團隊，未來有哪些核心競争優勢？以及該如何去突破？

A：主要兩方面，一方面我們堅持以理解物理世界、實現通用人工智能為願景，不管外界變化如何，以物理智能為核心技術，推動機器人時代的到來。另一方面，我們不斷加強技術產品的迭代，同時結合產業理解和技術創新，持續推出匹配市場需求的產品。

Q：特斯拉在 10 月份 "We,Robot" 發布會上展示了人形機器人 Optimus2，說成本會到 2-3 萬美金價格區間，您是如何看待這一定價的，以及您認為未來機器人的價格會到什麼區間，才能夠實現真正的普惠于民？

A：在特斯拉的帶動下，現在人形機器人确實比較火。另外我們生活的世界其實是圍繞人類習慣而構建的，因此很多場景，人形機器人會更合适。但我們最終目的是服務于人，幫助人解決問題，所以要思考做什麼樣機器人，而不僅僅只是說要像人。比如說未來汽車也是一種機器人，但不能說讓車變成人的形态背着你跑，現在汽車形态，是比較舒服的形式，所以沒必要做成人形。

對于價格，則是相對的，現在一輛汽車能夠賣到 20 萬人民币，就是一個普遍能夠接受的價格，而賣到 4-5 萬人民币，也是可行的，因為面對的是不同的需求和不同的閱聽人群體。因為本身場景就不太一樣，我覺得價格本身不是很關鍵。

Q：之前在制造業中，已經有很多雙臂機器人進行應用，能夠滿足工廠的生產需求，智澄 AI 的雙臂機器人，會率先落地制造業，那這與上一代機器人，在實際應用上，會有哪些明顯感知的區别？以及對制造業工廠而言，會產生哪些更有價值的效益？

A：我們圍繞具身智能，做人工智能機器人，主要目的還是做事情幹活，幫助人解決問題，所以也是從人類的角度思考出發。因為人做事情的主要部位是雙手，所以我們率先從手開始，即單臂機器人到雙臂機器人。我們的機器人是基于 AI 原生模型，相比傳統機器人控制系統，有本質的變化。傳統的 MPC/WBC 本質還是基于規則的控制系統，優勢比較明顯，即可以實現精準控制操作，缺點就在于類似于自動駕駛這種強化學習，泛化能力比較差，稍微調整一下，就需要重新開始編程，過程比較繁瑣，類似于自動化系統應用。而且，因為這種可擴展性差，也會導致其開發和工程成本比較高。

智澄 AI 的模型則類似于人腦，已具備一定的泛化能力，最終目标是其有很強的泛化能力，能夠很好的适應環境，不會因為環境的變化或任務的變化而重新來過。我們的技術以及解決方案，将真正推動機器人時代的到來。

移動互聯網作為上個時代影響全球數十億用戶的核心技術浪潮，當下已基本進入存量市場，機器人作為 AI 在物理世界的硬體載體，有望進入十億級用戶的日常生產及生活之中，我認為将是下一波科技浪潮中更大的增量市場。

雖然逐步優化產品成本是讓機器人快速普及的推動方式之一，但僅降本很難真正改變行業現狀，所以我們更多要做的是讓一個模型不僅僅驅動一種本體更實用，而是使得不同型号、不同性能的機器人本體都能具備更高的功能實用性，推動本體智能化水平實用、大規模的量產的同時也大幅降低成本。

02 從互動形式、輸出結果來看，多模态大模型與世界模型的本質區别？

Q：多模态大模型如 GPT 和我們想做的物理世界大模型，本質的區别是什麼？

A：目前多模态大模型主要是信息智能（輸入和輸出都是文字、音頻、影像等信息），以信息互動為主，我們做的事情是物理智能，物理智能可以有很多的應用方向，我們主要是聚焦具身智能 / 機器人方向的應用，幫助機器人更好的理解物理世界。

從實時性來講，物理智能的輸入是對外界的直接感知，不是靜态信息輸入的形式，通過傳感器直接感知帶有時間序列的外界環境信息，輸出的則是時間序列數據（TSD），物理智能需要跟現實世界實時、高頻互動。而多模态大模型的信息往往是過往一段時間的靜态沉澱信息。

Q：自動駕駛汽車也需要與物理世界實時互動，與家庭 / 工作場景的機器人在技術實現難度有什麼異同之處？

A：自動駕駛汽車也是機器人的應用場景之一，自動駕駛汽車的自由度或者說控制指令相對簡單（如方向、刹車、油門等），其挑戰的地方是車的速度更快，即便出現小概率的失誤也可能造成重大的損失。

相對于 " 汽車機器人 " 來說，如果在家用、生產、危險等場景的替代或服務人類勞動機器人，其動作復雜度及任務控制指令相對來說也許會更復雜，但機器人執行一般的生產或服務工作可接受的失誤容忍度相對自動駕駛來說更寬松，即便偶然出現一次如杯子掉落等問題，損失相對可控。

Q：我們的機器人模型在實際工作中，如何克服可能出現的長尾問題？從而提高泛化性

A：當前強化學習技術路徑在無人駕駛領網域被廣泛使用，但至今仍未讓車真正實現無人駕駛上路。我們的世界模型核心是解決泛化性問題，并沒有從強化學習的獎勵機制出發，而是從端到端神經網絡去實現，這是本質性的區别。

同時機器人在理解物理世界的時候，也需要像人一樣，具備一定的預測能力，才能夠對沒被訓練過的事情有一定的應對能力。一方面因為永遠有長尾問題存在，另一方面物理世界本身也是在不斷變化的，所以我們的物理世界模型希望實現機器人能夠像人一樣具備思考、推斷、舉一反三的能力。

Q：未來物理世界大模型發展軌迹是否會與 GPT 在過去幾年的迭代發展有相通之處？

A：從未來的發展預判來看，就像 GPT 一樣，它也會是一個階段一個階段的發展過來。現階段世界模型已經表現出很不錯的能力了，例如我們已經可以實現了用單個模型控制實現多個任務、也可以實現在不同光線場景條件下完成任務的泛化能力。

從另一個層面來說，多模态大模型其舉一反三能力、自監督學習等能力，這些技術、特性也會被引入到世界模型開發改進中，來幫助世界模型快速發展。

03 具身大模型只有具備任務、環境、本體三重泛化能力，才能真正推動機器人時代到來

Q：如何理解機器人的泛化能力？是從一個固定場景訓練更新，然後泛化應用到其他場景中嗎？

A：現階段深度強化學習雖然不能夠解決長尾場景問題，但在實際的生產線中（如汽車生產線的某一部分），通過強化某一任務的技能，效果反而會更好一些。但如果汽車生產線伴随柔性生產的趨勢需要定期變化，強化學習路徑的可擴展性有限，需要重新采集數據進行學習。

而物理世界模型則可以很快适應這種調整，不需要針對任務變化重新訓練一遍，而是可以基于原來的基礎馬上調整，适用于新任務。另外在跨場景中，世界模型也可以實現輕松的遷移。

打個比方，現階段世界模型有點像一顆小樹苗，雖然當前與其他樹苗在外觀差異不大，未來潛力巨大，更有機會長成參天大樹。

Q：世界模型有一個很好的泛化能力，您覺得這種泛化的能力，主要來自哪個技術能力的突破？

A：一方面是很強的理解物理世界的能力，就像人一樣，在能感知到環境的情況下，能夠做出實時的決策判斷。機器人操作也好，無人車運行也好，都是不斷地進行決策。

另一方面物理世界大模型與多模态大模型的湧現很類似，能夠舉一反三，在物理世界的任務上有很強的泛化推理能力。但也需要避免多模态大模型會出現的幻覺問題，而物理世界的機器人我們希望能夠真正可靠（不存在幻覺問題），我們将抽成幾個階段逐步優化模型，從而使其能夠既可靠，又能夠具備泛化能力。

Q：智澄 AI 的大模型訓練是否會面臨算力成本的問題？如何解決這一難題？

A：算力也是重點投入的方向之一，我們會随着模型分階段的訓練目标持續投入。同時由于我們具備深厚的模型架構及工程化能力，模型體量會遠小于當前多模态大語言模型，算力需求也相對可控。