具身智能2024：大模型“鑿壁”，機器人“偷光”

今天小編分享的科技經驗：具身智能2024：大模型“鑿壁”，機器人“偷光”，歡迎閱讀。

将世界模型裝入機器人。

兩周前，銀河通用官宣完成 5 億元戰略融資。

成立一年半，拿到 30 多個知名基金投資，北京、上海、深圳、香港四地政府基金加持，累計融資額 12 億元，銀河通用創始人王鶴在近日公開表示，" 銀河通用正在衝刺獨角獸。"

這是 2024 年國内具身智能熱潮的真實寫照。

實際上，早在今年年初，優質機器人團隊已經成了全球投資人瘋搶的标的。

先是有美國 Figure AI B 輪拿到了 6.75 億美元（約合 49 億元）巨額融資，後又有國内宇樹科技拿到 10 億元 B2 輪融資。

這兩家機器人公司，如今已經是具身智能領網域準獨角獸。

此外，據 GGII 統計數據顯示，2024 年 1 月 -10 月，全球人形機器人行業共發起了69 起融資，融資總額高達110 億元。

在具身智能這波歷史大機遇下，2024 年注定将成為機器人總動員的一年。

不過，就具身智能而言，2024 年是大幕拉開的一年，是百家争鳴的一年，也是產業熱切期望的一年，但卻不是成為產業規模化落地的一年。

對于大模型 + 人形機器人這一關注度最高的具身智能模式，我今年在和從業者交流中聽到最多的一個關鍵詞是，"還很遙遠"。

那麼，在具身智能被推上全球科技競争制高點、這麼多熱錢湧入這一賽道的這一年裡，具身智能究竟怎麼樣了？

01 具身智能的數據難題

數據成就了 OpenAI，數據成就了大模型，作為奧特曼眼中通用人工智能的終極形态，數據如今也正在成就具身智能。

ICRA 是由 IEEE 機器人與自動化協會主辦的全球性機器人學術會議，也是全球機器人領網域最權威的學術會議之一，在今年 5 月日本橫濱舉辦的 ICRA 2024 上，會議的最佳論文獎最終給到了一個名為 Open X-Embodiment。

Open X-Embodiment 包含兩項成果，其一是一個機器人學習數據集，其二是基于該數據集訓練的機器人運動控制模型 RT-X。

其中，最為稀缺的是機器人學習數據集，這篇論文中的數據集是由 21 個高校和研究機構收集的 22 個不同機器人的數據集，這個數據集最終包含 100 多萬條機器人的真實運動軌迹數據，并由此展現出了 527 種機器人技能。

基于這一成果，谷歌在今年還訓練出了一個數據規模達到 7B 的視覺 - 語言 - 動作大模型 OpenVLA，後者是今年具身智能領網域一個标志性事件。

不過，即便如此，OpenVLA 依然無法實現普遍的泛化性。

銀河通用團隊就曾就 OpenVLA 模型在實驗室中進行過一系列測試，王鶴發現，" 當在實驗室換一種擺放方式讓基于 OpenVLA 的機器人執行抓取任務時，機器人幾乎無法抓取任何物體。"

小樣本學習，高成功率部署，成了擺在具身智能機器人面前的第一道難題。

實際上，現在行業中就連要打造 " 小樣本學習，高成功率部署 " 的 VLA 模型究竟需要多少數據量，依然争議頗多。

在前不久的一場機器人主題圓桌論壇上，這個問題就曾成為焦點。

千尋智能聯合創始人高陽就指出，" 我們在做具身智能 Scaling Law 研究時發現，僅需要 2000 條數據，就可以讓機器人在任意場景、對任何物體進行（對精确度要求不高的）泛化操作。"

同時還作為清華大學交叉信息研究院助理教授，高陽和他的學生針對這一問題的研究，也在今年的一個機器人頂級學術會議 CoRL 2024 上獲得了最佳論文獎。

不過，對此，跨維智能創始人賈奎教授提出了不同的看法，他指出：

" 無論是機器人倒水、開冰箱，還是其他任何動作，如果僅僅需要 2000 條、乃至 20000 條數據就能實現泛化，我們其實現在就能立刻将這類機器人進行落地并賺到錢，但實際上我們并沒有看到這樣的情況發生。

這是因為具身智能的數據類型是異構多樣的，有視覺、力覺、觸覺等不同傳感器的數據，有基于不同機器人本體自身的狀态數據，也有不同動作軌迹數據，由此形成的異構數據的信息量、復雜度差别是巨大的，任何一項技能的泛化沒有上億條數據是不可能實現的。"

這是具身智能仍處于混沌初開、百家争鳴時期的具象化體現，與人工智能技術發展不同，現在的具身智能還需要一個像 ImageNet 一樣的基準數據集。

2010 年，斯坦福大學李飛飛教授基于 ImageNet 數據集，在全球發起了 ImageNet 挑戰賽，在這一為期八年的針對視覺識别的 AI 挑戰賽中，人工智能算法識别物體的準确率從 71.8% 提升到了 97.3%。

在這之中，今年的諾獎得主 Geoffrey Hinton 的團隊成名作之一 AlexNet，正是 2012 年 ImageNet 挑戰賽的冠軍。

李飛飛用數據重新定義了人們對模型的看法，ImageNet 挑戰賽背後的統一基準測試則推動了人工智能技術又向前邁了一步。

那麼，如今的具身智能有這樣的統一基準嗎？

答案是，沒有。

不過，我們能夠看到的是，李飛飛團隊再次構建了具身智能基準測試環境 BEHAVIOR-1K，國内則有通研院朱松純團隊搭建了通用人工智能标準、評級、測試與架構。

此外，包括北京、上海等地湧現出的具身智能創新中心，已經在構建具身智能數據集，甚至公版人形機器人。

無論是學術界，還是產業界，身在其中的科學家們正在加緊邁出 benchmark 這一步，讓具身智能能夠從分散作戰歸于集中發力。

基準測試固然重要，但模型發展更為關鍵。

02 将世界模型裝入機器人

什麼是具身智能？

我經常舉的一個例子是：

一群研究人工智能的科學家發現，人工智能技術已經發展到一定階段，已經能夠将人工智能算法加載到硬體產品上來更直接地在現實世界中工作，于是就有了具身智能。

所以，在我的理解中，具身智能本身是人工智能技術發展到一定階段的產物，這個階段的一個重要起點是大模型，或者說是世界模型。

将大模型與機器人結合，是具身智能的第一要義。

由于機器人本身是一個拟人設計產品，我們能夠看到，現在具身智能大模型有一條主流設計路線是基于人類大腦快慢系統邏輯——快系統模拟人類進行快速直覺反應，慢系統模拟人類進行反思、推理。

作為國内人工智能領網域的頂級研究機構，智源研究院内部在研發具身智能大模型時，正是基于這一設計路線，并在同步跟進端到端、分層結構兩條技術路線，這裡我們可以以智源基于兩條路線已經公開的研究成果有一個直觀理解。

針對復雜長程任務，智源團隊設計的端到端具身大模型任務執行邏輯為：

首先智源團隊設計了一個快系統，用于產生快速直覺的動作，當通過快系統執行任務失敗時，再通過慢系統檢測、定位任務失敗節點，并進行糾正。

在這個系統中，另一個關鍵程式是快系統的持續知識更新模塊，将慢系統在執行失敗任務過程中積累下來的知識持續轉移到快系統中，提升快系統的任務執行能力。

針對端到端目前無法勝任的更為復雜的長程任務時，基于分層結構的具身大模型将會起到更好的效果。

智源團隊設計的分層結構具身大模型任務執行邏輯為：

首先通過大腦系統進行長程任務拆解、推理，并為小腦提示關鍵點、規劃操作路徑。

為了訓練這樣一個大腦大模型，智源團隊為大腦大模型收集、标注了一個專門的數據集，設計了多階段的訓練策略。

然後再通過小腦模型執行拆解後的原子任務。

作為一個可以執行端到端任務的小腦，既需要高效，也要具備一定的推理能力，智源團隊選用 RoboMamba 作為小腦的大模型底座。

為了跨越不同機器人本體使用，智源團隊還特别為小腦設計了一個高效微調算法，當面臨不同本體、場景、任務時，只選擇一些有代表性的參數進行微調，從而讓它适配相應本體、任務和場景。

據智源官方透露，相較于 OpenVLA 需要重新微調 70 億參數，該模型需要微調的參數只有 300 萬左右的參數，效率可以達到 9Hz。

這是大模型帶給機器人的新思路，也讓機器人在大腦層面有了進一步拟人的可能性，當然也是現在具身智能高潮迭起的誘因。

加速進化創始人程昊就曾指出，" 這次我們遇到的歷史機遇和以往不同的是，過去的歷史機遇更多是通過結合 AI 算法讓硬體變得更自動化，這波機遇是快速發展的人工智能已經開始對真實世界有較強的感知并影響這個世界，而現有的硬體載體無法很好地感知世界、影響世界，人工智能亟需一個新的應用載體。"

什麼是這個新載體呢？

程昊和與他同樣選擇這兩年在機器人領網域創業的不少創業者有一個相同的觀點，那就是：

這個新載體是人形機器人。

03 " 遙遠的 " 人形機器人

要不要做人形機器人，在 2024 年似乎已經不再是一個問題。

早在 2023 年 10 月 20 日，工信部就印發了《人形機器人創新發展指導意見》，意見中指出，到 2025 年，要初步建立人形機器人創新體系，" 大腦、小腦、肢體 " 等一批關鍵技術取得突破，确保核心部組件安全有效供給。

不過，我們這裡談到的具身智能不只有人形機器人。

具身智能是一個廣義概念，凡是符合「大模型 + 硬體」的組合，都可以算作智能體，就連智能汽車，本質上也屬于具身智能。

本文提到的具身智能定義稍微收窄一些，專指「大模型 + 機器人」，即便如此，四足機器人、輪式機器人、人形機器人都屬于具身智能的機器人載體。

而之所以大家對人形機器人關注度如此之高，是因為人形機器人是具身智能的終極載體。

然而，正因人形機器人是具身智能的終極形态，人形機器人無論是大腦、小腦，還是肢體，都還存在着标準形成、技術迭代、成本下降的一個長期過程。

就現在來看，大模型 + 人形機器人（我們且稱之為具身智能人形機器人）在商用領網域落地還不是最好的時機。

在 2024 年，我們看到的是具身智能人形機器人兩大中間形态正在嘗試率先走入商用場景：

首先是輪足底盤 + 機械臂 + 靈巧手形态。

這種形态用輪式底盤代替了人形機器人的下肢，保留了人形機器人的靈巧手，重點在于充分發揮機器人靈巧手在分揀、搬運等方面的工作能力，銀河通用的 GALBOT G1 是這一形态的典型代表。

據銀河通用官方消息顯示，GALBOT G1 已經在北京大型的奔馳車廠、極氪汽車車廠、美團前置倉執行轉運和搬運任務。

其次是經典控制算法 + 人形機器人形态。

這種形态保留了人形機器人的形态，但背後支撐人形機器人的算法并非大模型，而是經典的機器人控制算法，優必選 Walker S 是這一形态的典型代表。

據優必選官方消息顯示，優必選已經與東風柳汽、吉利汽車、比亞迪、北汽新能源、富士康、順豐等企業合作，借助經典控制算法的 Walker S 正在進入這些企業工廠的裝配、轉運、檢測、維護等工序中。

更多真正的具身智能人形機器人，如今是被賣到了科研領網域。

例如，宇樹科技的人形機器人備受全球頂級高校、實驗室所追捧，加速進化也選擇了将科研、教育作為當下自家人形機器人商用落地的主賽道。

2024 年，具身智能人形機器人兩個真實的現狀是：

一方面，只有人形可以兼容所有復雜地形，可以執行人類生活環境中的所有任務；

另一方面，大模型 + 人形機器人這條具身智能之路，依然很遙遠。

本文來自微信公眾号 " 鋅產業 "，作者：山竹。