今天小編分享的互聯網經驗:OpenAI用13天做出神級機器人:當GPT有了人形,歡迎閱讀。
火遍矽谷、OpenAI 重金押注的人形機器人 Figure 01,現在會看會聽,能和人類自由對話了。
當地時間 3 月 13 日早晨,初創公司 Figure AI 在 X 放出這段最新 demo。
效果十分炸裂,總共展示了以下幾組行為:
1. 首先詢問機器人能看見什麼,Figure 01 清晰描述了一切,包括視角正中的紅蘋果、放有杯碟的瀝水架、以及站在面前的工作人員和他搭在桌上的右手。
2. 接着工作人員問," 可以給我點吃的嗎?"
Figure 01 把蘋果拿起遞過去,并按照要求,一邊清理工作人員剛傾倒在桌面的紙團,一邊解釋剛剛的行為:" 我給了你蘋果,因為我覺得這是桌上唯一能吃的東西。" 然後自然而然地把收好在籃子裡的紙團給回工作人員。
3." 根據現在所見,你面前的碟子應該到哪兒去?"Figure 01 思考片刻做出判斷:杯碟應該歸置進晾曬架,而後按指令放好。
4. 最後一步,讓它自己評價任務完成的怎麼樣。Figure 01 自信地回答道:" 我覺得我做得很不錯!蘋果找到了新主人,垃圾清理了,桌面上的東西各歸各位。"
這裡的 Figure 01 是 3 月 9 日更新版本,由 OpenAI 技術加持。從兩周前雙方宣布合作,決定共同開發下一代人形機器人 AI 模型,推進機器人學習邊界,到現在面前這個科技感滿滿的 " 人形 GPT" 僅僅用了 13 天。
而且據 Figure AI 創始人 Bratt Adcock 稱,所有這些行為都沒有經過遠程操作,而是通過機器人的自我學習而來。并且以正常的 1.0 倍速連續拍攝,沒有加速、沒有剪輯,所見即所得。可以感受到視頻中 Figure 01 的速度已經快要接近人類。
具體來看,此次 Figure 01 體現出的炸裂能力有:
1. 識别周圍環境,準确描述視覺體驗。視頻開頭它說看到桌上的蘋果和面前站着的人類。
2. 推理和決策下一步行動。例如 " 桌子上的盤子和杯子很可能需要放在瀝水架上 "。
3. 将模棱兩可的請求翻譯成一些與上下文相關的行為。比如将對方說的 " 我餓了,有沒有吃的 " 轉換成 " 遞給這個人一個蘋果 " 的行動。
4. 用語言解釋推理過程,比如 " 蘋果是這裡唯一能吃的 "。
5. 反思自己的記憶做出判斷,即在視頻最後回顧了全套行為,并且基于常識進行評價。
那這一切又是怎麼完美實現的呢?
領導該項目的高級 AI 工程師 Corey Lynch 發文解釋了背後原理。
他表示,Figure 01 正是通過與 OpenAI 提供的大模型連接起來,才被賦予了這些天秀的 " 有趣新功能 "。
他們将機器人攝像頭拍攝到的影像和機載麥克風捕捉的語音,轉錄為文本輸入到由 OpenAI 預訓練的大型多模态模型中。該模型能夠理解影像和文本,在處理整個對話歷史、包括過去的影像後做出語言回應,這些回應再通過文本轉語音最終傳遞給人類。
所有行為都由神經網絡視覺運動轉換器策略驅動。以 10Hz 頻率輸入機載影像,交給大模型處理,大模型推理預測下一步行為,将像素映射到 200Hz、24 個自由度的動作(包括手腕姿勢和手指關節角度),直接輸出結果。整個過程依靠端到端的機器人控制,而無需經過中間過程的編碼。
更新後的 Figure 01 優越之處還在于,接入的 OpenAI 大模型能理解歷史對話,為機器人提供了強大的短期記憶。從而理解上下文語義,做出準确的判斷和執行。
比如 demo 裡甄别過杯子盤子應該放回瀝水架後,工作人員下達指令:"Can you put them there?" 這其中代指的 " 它們 " 和 " 那兒 " 是很模糊的。但是經過預訓練的模型通過分析對話歷史記錄,就能促使 Figure 01 迅速形成答案并輸出動作:1)将杯子放在瀝水架上 2)将盤子放在瀝水架上。
除此以外,機器人基于視覺運動策略學習到的行為執行更快速、反應更靈敏,相比之下有些行為提前手動指定是很難的,比如在任何位置操縱一個可變形的袋子。同時,一個整體的全身控制器能确保 Figure 01 保持平衡,時刻處于安全穩定的動态中。
除人工智能加持外,Figure 01 還垂直整合了由專業工程師設計的所有系統,包括電機、固件、熱力學組件、電子設備、中間件作業系統、電池系統、動作傳感器、機械和結構。
對于此次更新,網友們反應極度熱烈。有人說,能做出一個能幫你刷碗打掃屋子的智能機器人已經赢了。
還有人已經想象到了商業化适用場景,"Figure 機器人似乎可以成為盲人群體的向導 "。
更有網友不留情面地 cue 波士頓動力 " 該回實驗室給機器人研究點新舞步了 "。Figure 機器人的智能化之強,也讓人感嘆和它對視 8 秒會不會被暴揍。
"13 天内如此驚人的成績,等不及要看接下來會發生什麼了!"
而攜手 Figure AI 提供燃料,将其推上神壇的 OpenAI,也被網友稱為 " 難以抗衡的合作關系 ",建議波士頓動力火速更換合作夥伴。
Figure AI 最新估值是 13 天前的 26 億美元,而今兩周過去,估值應該是多少?網友:" 不可估量 "。
Figure AI 曾在上月 27 号宣布,獲得來自微軟、英偉達、OpenAI 以及亞馬遜創始人貝佐斯等投資人約 6.75 億美元的新一輪融資,成為馬斯克 " 擎天柱 " 機器人之外最受投資人們追捧的 AI 人形機器人。
據 Figure AI 稱,他們的目标是造出真正的通用機器人,替代人類執行危險或機械化的工作,并最終實現 " 行走的 AI 智能體 ",自主執行日常任務。從如今 OpenAI 入局後這短短兩周結果來看,這一目标仿佛變得更近。而 OpenAI 在人工智能產業中全面撒網加大部署這一步,似乎又走對了。
很多人說閉上眼已經可以把 Figure 01 在自己身邊的體驗具象化。機器人真的在變得 " 像人 "。它不再是實驗室裡可看不可得的觀賞品那天,也許比我們想象的更快到來。
現在是 2024 年的 3 月,幾個月後會前進到哪一步?倒計時開始。