國内創業者和投資人如何看待 Figure 01 機器人：距離具身智能還有多遠？

今天小編分享的互聯網經驗：國内創業者和投資人如何看待 Figure 01 機器人：距離具身智能還有多遠？，歡迎閱讀。

3 月 13 日，Figure 發布了和 OpenAI 合作後的首個機器人 Figure 01 的演示：視頻中，Figure 的人形機器人，可以完全與人類流暢對話，理解人類的意圖，同時還能理解人的自然語言指令進行抓取和放置，并解釋自己為什麼這麼做。

Figure 01 具體采用了什麼技術，和 Sora 有關嗎？

相比過去的機器人技術有什麼質的飛躍？以及這對于國内機器人創業者有什麼新的啟發？

針對以上問題，我們采訪了國内大模型和機器人行業的創業者、投資人，以下回答經 Founder Park 整理編輯。

大模型 + 機器人，

OpenAI 又「截胡」了 Google

李志飛：出門問問創始人 &CEO。

原理：Figure 類似 PaLM-E + RT-1，而非端到端的 RT-2

原理上，機器人 Figure 看起來類似于 Google 在 2023 年 3 月發布的 PaLM-E 和 RT-1 的 pipeline 組合，而不是Google 于 2023 年 7 月發布的端到端模型 RT-2。

我們知道，如果機器人要與人進行自然語言互動（比如，人說「把桌子上的蘋果拿給主人」），可以大致分為以下兩個步驟。

一是機器理解自然語言，并把自然語言轉換成機器的抽象計劃（所謂 high-level planning），這個抽象的計劃可能是一系列的簡單自然語言指令（比說「拿起蘋果」、「把蘋果移到人手上方」、「放開蘋果」）。

二是把這個抽象計劃轉換成底層具體的操控（所謂 low-level 執行），既把簡單的自然語言指令轉換成一系列的具體動作（比如旋轉、移動、抓取、放開等基本動作）。

簡單來說，RT-1 僅是一個能聽懂簡單指令的機械臂，完成上面說的第二個步驟，模型中沒有思維鏈，也不具備推理能力。PaLM-E 讓機器人有了聰明的大腦，可以将復雜自然語言指令分解為簡單指令，完成上面說的第一個步驟，然後再去調用 RT-1 執行動作。

所以，PaLM-E 所做的只是自然語言理解以及 Planning 部分的工作，并不涉及機器人動作本身，它是一個 VLM（Vision-Language Model）模型。

RT-2 則是把以上環節端到端地集成到了一起，它能夠用復雜文本指令直接操控機械臂，中間不再需要将其轉化成簡單指令，通過自然語言就可得到最終的 Action，它是一個 VLA（Vision-Language-Action Model）模型。

端到端的好處，是通用、能自動适應環境的各種變化，但問題是決策速度慢，很難做到 Figure 這種 200hz 的決策速度，比如 RT-2 論文裡提到的決策頻率是 1 到 5hz，具體取決于語言模型的參數規模。

亮點：既能用到大語言模型的常識和 COT，又能達到人一般的操控速度

Figure 視頻的亮點是它既利用了大語言模型的常識和思維鏈 COT 的能力，又實現了快速的底層操控，幾乎接近人的速度。

比如在視頻中，當人說「我餓了」，Figure 思考了 2-3 秒後，小心翼翼地伸手抓住蘋果，并迅速給人遞過來。

因為 Figure 基于大語言模型的常識，明白蘋果是它面前唯一可以「吃」的事物，在人類沒有任何提示和說明的前提下，即可以接近于人類的反應速度，與人自然互動。

另外，也用上了大語言模型的長上下文的理解能力，比如「你能把它們放到那裡嗎」，誰是「它們」，「那裡」是哪裡？這些只有大語言模型才有能力精準抓取長上下文裡的指代關系。

Figure 是否用到了 Sora?

肯定的是，Figure 與 Sora 一點關系都沒有，因為 Sora 現階段主要是生成，不是理解，就算未來 Sora 既能理解也能生成，是否能端到端做到 200hz 的決策速度也是一個很大的問題。

Figure 是否用到了遠程操控 ?

有人覺得視頻是遠程操控（所謂 Teleop）錄制的，但 Figure 創始人 Brett Adcock 強調了視頻不是 Teleop，錄制速度也是 1 倍原速度，所以視頻中能看到回答問題的明顯延遲（因為語音識别、大語言模型、TTS 是通過 pipeline 方式連起來的，都需要計算時間）。

Figure 是端到端模型嗎？

Figure 創始人 Brett Adcock 上面這個 Post 提到是端到端的神經網絡，個人覺得這可能是口誤吧。

從他們技術負責人的 Twitter post 裡可以看出，至少用了兩個神經網絡模型，一是 OpenAI 的 GPT4V（類似于 Google 的 PaLM-E）；另外一個是機器人操控的模型（類似于 RT-1）。

所以 Figure 不是類似于 RT-2 的「端到端」模型，而是一個 pipeline 系統。

總結一下

我們可以理解為 Figure 的機器人模型是：GPT4V + 操控模型 ≈ Google 的 PaLM-E + RT-1

再次感嘆，OpenAI 的「遠見卓識」，在機器人與大模型結合的領網域，又讓隔壁的 Google 起了大早，趕了晚集。一如既往，OpenAI 超越 Google 的方式不是在技術原理，而是在于產品定義以及宣傳方式。比如，與 RT-2 用一個機械臂演示不一樣，他們用了一個真實的人形機器人來演示。

此外，他們通過展示機器人的操控速度和自然度來吸引觀眾的眼球。這些都比 Google 那種純工程師演示的方式倍加有吸引力。

Figure 聯合創始人兼首席執行官 Bred Adcock 表示，「我們的目标是訓練一個世界模型，以操作十億部門級别的仿人機器人。」這些機器人，可以消除對不安全和不理想工作的需求，最終讓人類擁有更有意義的生活，這也與 OpenAI 的「超級對齊」願景不謀而合。

計算機是虛拟世界的通用平台，機器人是物理世界的通用平台。

從特斯拉的 Optimus 到今天的 Figure，未來的模型能力和機器人硬體會如何平衡，從廣告噱頭到量產應用還有多遠？人形機器人百家争鳴的春秋時代已拉開序幕。

李志飛，出門問問創始人兼 CEO，美國約翰霍普金斯大學計算機系博士，自然語言處理及人工智能專家，前 Google 總部科學家，中國大模型創業者，持續探索 AGI 及商業化落地。

首次向公眾呈現了

當下具身智能創業的核心方向

韓峰濤：千尋 SpiritAI CEO，已投入具身智能行業創業。

1、Figure 的宣傳視頻首次以通俗易懂的方式向公眾展示了這一波具身智能創業機會的核心，即 AI 系統自主的以接近自然的方式釋放機器人硬體的性能。

2、任務理解、拆分和自然語言對話屬于現有 VLM 能力範圍内，動作絲滑遠超以往。

3、證明在單一任務内，VLM+ 具身動作規劃模型 + 遙操微調 +RL 路線可行度最高，以及微調數據質量高低對任務動作生成效果有直觀影響。

4、精細操作、涉及力互動場景以及 LongHorizon 任務的效果待觀察。

5、強 AI 大腦與好機器人身體執行缺一不可，目前國内這樣的團隊還是偏少。

單點技術的快速發展會帶來

今年機器人的「大突破」

陳潤澤：源碼資本執行董事。

基本和我年初的預測一致，2024 年，我們會不斷看到機器人領網域有一些令人興奮的進展出來，相信 Figure 的 demo 只是其中之一，而且肯定不是其中最具突破性的。

為什麼有這個預測？因為機器人整個技術棧裡的單點技術都在快速進展，它們排列組合一下就會有一些很具「視覺衝擊力」的成果出來。

但是，有必要給看到 Figure 視頻過于興奮的人潑點冷水。先說結論：我沒有在 Figure 的 demo 中看到非常新的技術能力，目前 demo 的性質更像是我們去年常說的 GPT-wrapper 的狀态。換句話說，要達到這個 demo 的狀态并沒有很多 secrets。當然這裡 wrapper 沒有負面的意思，硬體產品需要很好的 wrapper。在這一點上，必須承認 Figure 做的還不錯。

簡單聊聊這個 demo 裡的細節。

關于整體架構

Figure 的工程師 Corey Lynch 在 x 上公開了架構圖，整個算法分為三層：

上層：OpenAI model。

這也就是我們常說的 High-level policy 部分，也被稱為「大腦」，這部分負責處理語言和視覺輸入，人機互動，并生成動作決策。這個決策的内涵就是「選擇能執行目标動作的模型」。Lynch 的原話是：「deciding which learned, closed-loop behavior to run on the robot to fulfill a given command, loading particular neural network weights onto the GPU and executing a policy.」這句話其實暗含了一個信息，就是他們的 Low-level policy 包括多個模型，這些模型是通過 learning 的方式得到的，但這些子模型的封裝程度 / 抽象程度沒有披露（是比較細顆粒度的元動作庫，還是比較粗粒度的任務庫）。

中層：Neural Network Policies（NNP）。

這就是 Low-level policy 部分。Lynch 強調了：「All policies are learned, ( not teleoperated ) 」。這個很關鍵，所有的動作都是用 learning 的方式來做的，但沒有強調是什麼 learning 方法。

但 Lynch 也給了一些細節：「All behaviors are driven by neural network visuomotor transformer policies, mapping pixels directly to actions.」結合視頻中的動作，我們可以大膽猜測下，他們應該用的是基于 transformer 的模仿學習（imitation learning）。類似的技術也出現在前陣子爆火的 mobile aloha（https://mobile-aloha.github.io/）中，相關技術的論文至少在 2020-2021 年就已經有了。在 Figure 01 做零食裝籃的動作時，左手的小動作似乎 imitation learning 的一個 clue。

下層：Whole body controller（WBC）。

這部分就是對應人的小腦。這部分公開的細節不多，猜測 NNP 輸出的是全身 24 關節的角度控制信号和靈巧手的控制信号（200Hz），然後在下層會根據一些安全約束對 24DoF 的關節控制信号進行修正和插值（1000Hz）。當然，也不排除 NNP 這部分只 focus 在 manipulation 相關的控制。可以看下面這段視頻，在手部動作時，Figure 01 的全身動作是比較協調的（比如在放杯子時，做出了輕微的下蹲動作）；當然這個在此前 Figure 發的煮咖啡視頻中，已經看到了這個能力。

關于 OpenAI、大模型和機器人的結合

在 High-level Policy 這一層，demo 目前展現出來的感知理解能力、推理能力、對話能力等其實都是多模态大模型能力的直接體現，只是經過「具身化」之後給人比較強的感官衝擊。早在去年 PaLM-E（Corey Lynch 也是 PaLM-E 工作的參與者之一）的時候，這些能力就已經初步展現出來，只是 GPT-4/GPT-4V 的感知理解和推理能力又往前進了一步。

PaLM-E 當時接的下層控制 RT-1 也一個 transformer-based policy model，采用了 learning from demonstration 的方法，只是 Figure 01 用了更復雜的靈巧手，其控制要更復雜精巧，但不一定有方法論層面的本質突破。

比較有意思的是 High-level policy 和 NNP 這層的接口是怎麼做的，在 demo 的復雜度上，這些接口都是可以「手搓」的（LLM 本身就提供了一些靈活性），但要真正希望把 LLM 的泛化能力充分發揮出來，這層接口怎麼做，我猜測并不簡單。不過，最近跟圈内朋友交流下來，應該已經在部分任務上可以實現了，在更廣泛的操作任務上實現，也不是完全不可能的事情了。

文章轉載自作者公眾号「工具與意志」。

長期關注能找到

具身智能 Scaling Law 的團隊

崔轲迪：BV 百度風投高級投資經理。

Figure 的展示非常絲滑，能看出來在模仿學習和遙操作的技術積累是比較久了。

我們後面會長期關注哪些團隊可以找到具身智能操作層面的 Scaling Law。在基礎模型和 Scaling Law 的支持下，當未來數據量達到一定阈值時，我們期待看到遙操作這樣酷炫的機器人可以更為通用。

基座大模型 + 負責操作的神經網絡

會成為通用機器人的關鍵範式

曹巍：藍馳創投合夥人。

Figure 01 此次呈現的亮點頗為豐富：

首先，產品的整體質感與工程設計表現出色，外觀精致，有獨特的設計語言。同時，人機互動的音色經過調優，溝通體驗更加和諧。

再者，機器人依托于底層強大的模型，對場景和任務的理解與推理能力表現卓越，加之其流暢的全身控制，使得操作響應迅速且精準。盡管本次展示未能涵蓋機器人的移動能力和執行復雜任務的能力，但這并不減損其整體的卓越表現。

可以預見，結合視覺推理、語言理解和任務編排等功能的基座大模型，與負責提升機器人操作敏捷性的神經網絡系統，将成為未來通用機器人的關鍵架構範式。在未來 5 至 10 年内，人形機器人技術将迎來其發展的黃金時期。我們相信國内的機器人研發團隊将很快推出更多令人矚目的產品。

基于這輪從底層架構上的創新，藍馳從 21 年起就開始了布局具身機器人相關的創新項目，目前已經投資了智元機器人、銀河通用機器人、萬勳科技等一系列具身智能本體團隊，同時在底層大模型領網域也投資了月之暗面、西湖心辰。具身機器人領網域的創新剛剛起步，藍馳未來還會在仿真訓練平台、關鍵傳感器、機器人核心模組等方面持續尋找優秀創業團隊。

本文來自微信公眾号 " 極客公園 "，36 氪經授權發布。