OpenAI用13天做出神級機器人：當GPT有了人形

今天小編分享的互聯網經驗：OpenAI用13天做出神級機器人：當GPT有了人形，歡迎閲讀。

火遍硅谷、OpenAI 重金押注的人形機器人 Figure 01，現在會看會聽，能和人類自由對話了。

當地時間 3 月 13 日早晨，初創公司 Figure AI 在 X 放出這段最新 demo。

效果十分炸裂，總共展示了以下幾組行為：

1. 首先詢問機器人能看見什麼，Figure 01 清晰描述了一切，包括視角正中的紅蘋果、放有杯碟的瀝水架、以及站在面前的工作人員和他搭在桌上的右手。

2. 接着工作人員問，" 可以給我點吃的嗎？"

Figure 01 把蘋果拿起遞過去，并按照要求，一邊清理工作人員剛傾倒在桌面的紙團，一邊解釋剛剛的行為：" 我給了你蘋果，因為我覺得這是桌上唯一能吃的東西。" 然後自然而然地把收好在籃子裏的紙團給回工作人員。

3." 根據現在所見，你面前的碟子應該到哪兒去？"Figure 01 思考片刻做出判斷：杯碟應該歸置進晾曬架，而後按指令放好。

4. 最後一步，讓它自己評價任務完成的怎麼樣。Figure 01 自信地回答道：" 我覺得我做得很不錯！蘋果找到了新主人，垃圾清理了，桌面上的東西各歸各位。"

這裏的 Figure 01 是 3 月 9 日更新版本，由 OpenAI 技術加持。從兩周前雙方宣布合作，決定共同開發下一代人形機器人 AI 模型，推進機器人學習邊界，到現在面前這個科技感滿滿的 " 人形 GPT" 僅僅用了 13 天。

而且據 Figure AI 創始人 Bratt Adcock 稱，所有這些行為都沒有經過遠程操作，而是通過機器人的自我學習而來。并且以正常的 1.0 倍速連續拍攝，沒有加速、沒有剪輯，所見即所得。可以感受到視頻中 Figure 01 的速度已經快要接近人類。

具體來看，此次 Figure 01 體現出的炸裂能力有：

1. 識别周圍環境，準确描述視覺體驗。視頻開頭它説看到桌上的蘋果和面前站着的人類。

2. 推理和決策下一步行動。例如 " 桌子上的盤子和杯子很可能需要放在瀝水架上 "。

3. 将模棱兩可的請求翻譯成一些與上下文相關的行為。比如将對方説的 " 我餓了，有沒有吃的 " 轉換成 " 遞給這個人一個蘋果 " 的行動。

4. 用語言解釋推理過程，比如 " 蘋果是這裏唯一能吃的 "。

5. 反思自己的記憶做出判斷，即在視頻最後回顧了全套行為，并且基于常識進行評價。

那這一切又是怎麼完美實現的呢？

領導該項目的高級 AI 工程師 Corey Lynch 發文解釋了背後原理。

他表示，Figure 01 正是通過與 OpenAI 提供的大模型連接起來，才被賦予了這些天秀的 " 有趣新功能 "。

他們将機器人攝像頭拍攝到的影像和機載麥克風捕捉的語音，轉錄為文本輸入到由 OpenAI 預訓練的大型多模态模型中。該模型能夠理解影像和文本，在處理整個對話歷史、包括過去的影像後做出語言回應，這些回應再通過文本轉語音最終傳遞給人類。

所有行為都由神經網絡視覺運動轉換器策略驅動。以 10Hz 頻率輸入機載影像，交給大模型處理，大模型推理預測下一步行為，将像素映射到 200Hz、24 個自由度的動作（包括手腕姿勢和手指關節角度），直接輸出結果。整個過程依靠端到端的機器人控制，而無需經過中間過程的編碼。

更新後的 Figure 01 優越之處還在于，接入的 OpenAI 大模型能理解歷史對話，為機器人提供了強大的短期記憶。從而理解上下文語義，做出準确的判斷和執行。

比如 demo 裏甄别過杯子盤子應該放回瀝水架後，工作人員下達指令："Can you put them there?" 這其中代指的 " 它們 " 和 " 那兒 " 是很模糊的。但是經過預訓練的模型通過分析對話歷史記錄，就能促使 Figure 01 迅速形成答案并輸出動作：1）将杯子放在瀝水架上 2）将盤子放在瀝水架上。

除此以外，機器人基于視覺運動策略學習到的行為執行更快速、反應更靈敏，相比之下有些行為提前手動指定是很難的，比如在任何位置操縱一個可變形的袋子。同時，一個整體的全身控制器能确保 Figure 01 保持平衡，時刻處于安全穩定的動态中。

除人工智能加持外，Figure 01 還垂直整合了由專業工程師設計的所有系統，包括電機、固件、熱力學組件、電子設備、中間件作業系統、電池系統、動作傳感器、機械和結構。

對于此次更新，網友們反應極度熱烈。有人説，能做出一個能幫你刷碗打掃屋子的智能機器人已經赢了。