OpenAI用13天做出神級機器人：當GPT有了人形

今天小編分享的互聯網經驗：OpenAI用13天做出神級機器人：當GPT有了人形，歡迎閱讀。

火遍矽谷、OpenAI 重金押注的人形機器人 Figure 01，現在會看會聽，能和人類自由對話了。

當地時間 3 月 13 日早晨，初創公司 Figure AI 在 X 放出這段最新 demo。

效果十分炸裂，總共展示了以下幾組行為：

1. 首先詢問機器人能看見什麼，Figure 01 清晰描述了一切，包括視角正中的紅蘋果、放有杯碟的瀝水架、以及站在面前的工作人員和他搭在桌上的右手。

2. 接着工作人員問，" 可以給我點吃的嗎？"

Figure 01 把蘋果拿起遞過去，并按照要求，一邊清理工作人員剛傾倒在桌面的紙團，一邊解釋剛剛的行為：" 我給了你蘋果，因為我覺得這是桌上唯一能吃的東西。" 然後自然而然地把收好在籃子裡的紙團給回工作人員。

3." 根據現在所見，你面前的碟子應該到哪兒去？"Figure 01 思考片刻做出判斷：杯碟應該歸置進晾曬架，而後按指令放好。

4. 最後一步，讓它自己評價任務完成的怎麼樣。Figure 01 自信地回答道：" 我覺得我做得很不錯！蘋果找到了新主人，垃圾清理了，桌面上的東西各歸各位。"

這裡的 Figure 01 是 3 月 9 日更新版本，由 OpenAI 技術加持。從兩周前雙方宣布合作，決定共同開發下一代人形機器人 AI 模型，推進機器人學習邊界，到現在面前這個科技感滿滿的 " 人形 GPT" 僅僅用了 13 天。

而且據 Figure AI 創始人 Bratt Adcock 稱，所有這些行為都沒有經過遠程操作，而是通過機器人的自我學習而來。并且以正常的 1.0 倍速連續拍攝，沒有加速、沒有剪輯，所見即所得。可以感受到視頻中 Figure 01 的速度已經快要接近人類。

具體來看，此次 Figure 01 體現出的炸裂能力有：

1. 識别周圍環境，準确描述視覺體驗。視頻開頭它說看到桌上的蘋果和面前站着的人類。

2. 推理和決策下一步行動。例如 " 桌子上的盤子和杯子很可能需要放在瀝水架上 "。

3. 将模棱兩可的請求翻譯成一些與上下文相關的行為。比如将對方說的 " 我餓了，有沒有吃的 " 轉換成 " 遞給這個人一個蘋果 " 的行動。

4. 用語言解釋推理過程，比如 " 蘋果是這裡唯一能吃的 "。

5. 反思自己的記憶做出判斷，即在視頻最後回顧了全套行為，并且基于常識進行評價。

那這一切又是怎麼完美實現的呢？

領導該項目的高級 AI 工程師 Corey Lynch 發文解釋了背後原理。

他表示，Figure 01 正是通過與 OpenAI 提供的大模型連接起來，才被賦予了這些天秀的 " 有趣新功能 "。

他們将機器人攝像頭拍攝到的影像和機載麥克風捕捉的語音，轉錄為文本輸入到由 OpenAI 預訓練的大型多模态模型中。該模型能夠理解影像和文本，在處理整個對話歷史、包括過去的影像後做出語言回應，這些回應再通過文本轉語音最終傳遞給人類。

所有行為都由神經網絡視覺運動轉換器策略驅動。以 10Hz 頻率輸入機載影像，交給大模型處理，大模型推理預測下一步行為，将像素映射到 200Hz、24 個自由度的動作（包括手腕姿勢和手指關節角度），直接輸出結果。整個過程依靠端到端的機器人控制，而無需經過中間過程的編碼。

更新後的 Figure 01 優越之處還在于，接入的 OpenAI 大模型能理解歷史對話，為機器人提供了強大的短期記憶。從而理解上下文語義，做出準确的判斷和執行。

比如 demo 裡甄别過杯子盤子應該放回瀝水架後，工作人員下達指令："Can you put them there?" 這其中代指的 " 它們 " 和 " 那兒 " 是很模糊的。但是經過預訓練的模型通過分析對話歷史記錄，就能促使 Figure 01 迅速形成答案并輸出動作：1）将杯子放在瀝水架上 2）将盤子放在瀝水架上。

除此以外，機器人基于視覺運動策略學習到的行為執行更快速、反應更靈敏，相比之下有些行為提前手動指定是很難的，比如在任何位置操縱一個可變形的袋子。同時，一個整體的全身控制器能确保 Figure 01 保持平衡，時刻處于安全穩定的動态中。

除人工智能加持外，Figure 01 還垂直整合了由專業工程師設計的所有系統，包括電機、固件、熱力學組件、電子設備、中間件作業系統、電池系統、動作傳感器、機械和結構。

對于此次更新，網友們反應極度熱烈。有人說，能做出一個能幫你刷碗打掃屋子的智能機器人已經赢了。

還有人已經想象到了商業化适用場景，"Figure 機器人似乎可以成為盲人群體的向導 "。

更有網友不留情面地 cue 波士頓動力 " 該回實驗室給機器人研究點新舞步了 "。Figure 機器人的智能化之強，也讓人感嘆和它對視 8 秒會不會被暴揍。

"13 天内如此驚人的成績，等不及要看接下來會發生什麼了！"

而攜手 Figure AI 提供燃料，将其推上神壇的 OpenAI，也被網友稱為 " 難以抗衡的合作關系 "，建議波士頓動力火速更換合作夥伴。

Figure AI 最新估值是 13 天前的 26 億美元，而今兩周過去，估值應該是多少？網友：" 不可估量 "。

Figure AI 曾在上月 27 号宣布，獲得來自微軟、英偉達、OpenAI 以及亞馬遜創始人貝佐斯等投資人約 6.75 億美元的新一輪融資，成為馬斯克 " 擎天柱 " 機器人之外最受投資人們追捧的 AI 人形機器人。

據 Figure AI 稱，他們的目标是造出真正的通用機器人，替代人類執行危險或機械化的工作，并最終實現 " 行走的 AI 智能體 "，自主執行日常任務。從如今 OpenAI 入局後這短短兩周結果來看，這一目标仿佛變得更近。而 OpenAI 在人工智能產業中全面撒網加大部署這一步，似乎又走對了。

很多人說閉上眼已經可以把 Figure 01 在自己身邊的體驗具象化。機器人真的在變得 " 像人 "。它不再是實驗室裡可看不可得的觀賞品那天，也許比我們想象的更快到來。

現在是 2024 年的 3 月，幾個月後會前進到哪一步？倒計時開始。