大模型這把“火”，燒到了人形機器人

今天小編分享的互聯網經驗：大模型這把“火”，燒到了人形機器人，歡迎閱讀。

圖片來源 @視覺中國

文｜讀懂财經

如果大模型是雷神之錘，那麼适合它的釘子在哪？過去一年裡，所有人都在急切地尋找這個問題的答案。人形機器人，是所有科技公司為數不多的一個共識。

近日，據外媒報道，微軟與 OpenAI 正洽談參與人形機器人公司 Figure 的新一輪融資，本輪融資金額最高可能達 5 億美元。

這已經是 OpenAI 出手投資的第二家人形機器人公司。這并不是孤例。幾乎所有布局大模型的人和公司，都對人形機器人有着濃厚的熱情，并投入了研究資源。從英偉達到谷歌，從亞馬遜到 Meta，甚至包括馬斯克，莫不是如此。

作為一個曾經經歷幾度起伏的高科技技術，市場對人形機器人的熱情被 AI 大模型徹底 " 點燃 "。正如很多人預期的那樣，在生成式 AI 通過 AGI（人工通用智能）的道路上，人形機器人是不可或缺的重要硬體載體。

人形機器人，正在重新回到熟悉的聚光燈下。

機器人熱情由來已久

此次投資 Figure，并不是 OpenAI 第一次投資人形機器人公司。去年 3 月，來自挪威的人形機器人初創企業 1X Technologies（簡稱：1X），獲得了一輪由 OpenAI 創業基金領投的 2350 萬美元融資，成為了 OpenAI 投資的第一家硬體公司。

OpenAI 的初創企業基金全稱是 "OpenAI Startup Fund"，投資方向更側重于率先實現 AI 技術落地的方向。這也是 OpenAI 投資 1X 的重要邏輯。OpenAI 一名高管曾公開表示，" 投資 1X 瞄準的時機是其機器人硬體已經成熟，能夠在 AI 的加持下開拓更廣泛的勞動力市場。"

如今，再次加注機器人賽道，說明 OpenAI 對人形機器人賽道的高度看好。作為人形機器人領網域領先的創業公司，1X 和 Figure 都已經推出了人形機器人的產品。

其中，1X 共有兩款機器人產品，工作機器人 EVE 和正在研發的家用雙足機器人 NEO。而 Figure 也在去年發布了第一款通用人形機器人 Figure 01，目前 Figure 已經與寶馬達成協定，将在汽車制造領網域部署 " 通用人形機器人 "。

事實上，OpenAI 對人形機器人的熱情由來已久，比大家想象得更高，甚至 OpenAI 還一度專門在内部成立了一個機器人部門。

早在 2017 年，OpenAI 的機器人團隊，就發布過用于模拟機器人控制的開源軟體 Roboschool。2018 年，團隊研發出來的機械臂已經能自如地 " 盤核桃 "，即靈活把玩木塊。當然，OpenAI 機器人團隊最著名的研究，是它研發的機械手，單手就能擰魔術方塊。‍

當然，對人形機器人情有獨鍾的大模型企業還不止 OpenAI。一個有趣的現象是，幾乎每一個在大模型領網域有所建樹的企業，都或多或少地布局了人形機器人。

就拿谷歌來說，去年 10 月 DeepMind 發布 RT-X 機器人大模型，并開放訓練數據集 Open X-Embodiment。今年 1 月，谷歌 DeepMind 團隊和斯坦福大學華人團隊合作研發的能炒菜、做家務的通用機器人 Mobile ALOHA 刷屏全網。

至于馬斯克更不用說，去年 7 月成立了一家名為 X.Al 的人工智能公司，今年年底，特斯拉推出了人形機器人擎天柱，并有望在明年實現交付。

AI 大模型落地過程中，人形機器人究竟扮演着怎麼角色，能夠受到這麼多的青睐？

人形機器人，AGI 的 " 答案 "？

在說大模型與人形機器人關系之前，我們需要先對什麼是人形機器人有一個認知。

必須明确一點的是，機器人并不是一個新興事物。在人形機器人出來之前，工業機器人已經是一個超過 500 億的市場，并廣泛應用于汽車、3C、紡織、包裝等行業。

但是工業機器人也有很明顯的弊端，就是通用性不足。傳統的工業機器人并不能直接使用，需要被系統集成商集成後使用。機器人的系統集成不僅需要結合對客戶工藝的理解高度定制，同時也是嚴重依賴工程師的經驗。這注定了工業機器人适用于大規模、重復性生產的工作。

與其說，工業機器人是機器人，倒不如說其更像是自動化設備。在這一點上，人形機器人無疑更接近我們對機器人的理解。

人形機器人，顧名思義就是形态更接近人的機器人。但外在的形态不過是表象，其内核的特點是機器人的智能性和通用性。之所以選擇 " 人形 "，只是因為我們活動的世界是為人的身體所創造的，人的形态可以操作一切工具，具有最廣泛的适應性。

從物理維度上說，人形機器人由三個模塊組成，分别是 " 肢體 "" 小腦 " 和 " 大腦 "，其中 " 肢體 " 由靈巧手、傳感器等一系列硬體組成，" 小腦 " 負責運動控制，" 大腦 " 則主導機器人的環境感知、推理決策和語言互動。

而大模型的出現，将語義理解能力和推理生成能力引入其中，相當于給人形機器人換了個 " 大腦 "。大模型對人形機器人的提升主要體現在兩個方面：感知能力和思考決策能力。

先說感知能力，大模型的強拟合能力使得人形機器人在進行目标識别、避障、三維重建、語義分割等任務時有可能實現更高的高精确度。舉個例子，現在 AI 已經可以做到識别障礙物，但是如果路邊有個人舉個牌子，說前方橋斷請繞行。過去的 AI 很難理解這種情況，但基于大模型的人形機器人卻有可能識别、理解這些信息。

思考決策能力的意思是，人形機器人具備較好的知識完備性，能夠把一個指令拆解成多個子任務和子指令，在不同場景去完成各種任務。比方說，你和機器人說 " 把飯熱一下 "，它知道要去找微波爐。

随着谷歌、英偉達等公司對大模型 + 機器人探索的深入，上述積極影響也得到了證實。2022 年 12 月，谷歌發布了 RT-1 模型。這是一個基于機器人數據的端到端模型，輸入端是一小段影像序列和用文本描述的任務，輸出端是動作指令，包括 7 個維度的手臂動作指令、3 個維度的基礎移動指令和 1 個維度的狀态切換指令。

研究人員讓機器人執行了超過 700 項任務，結果顯示 : 在之前見過的場景、之前未見過的場景、被幹擾場景、背景更換場景，搭載 RT-1 模型的機器人都展現出了更高的成功率。

值得一提的是，這是機器人首次通過龐大的、多樣化的、任務無關的數據，展現出泛化性，執行了一些未曾見過的任務。

去年 7 月，谷歌發布了 RT-2，這是一個視覺—語言—動作模型。在這個模型裡，谷歌将參數量從 35M 提高到 55B。研究人員對 RT-2 模型進行了和 RT-1 一樣的測試。結果顯示，RT-2 的理解能力、推理能力、針對未知場景的泛化能力都顯著優于 RT-1 模型。

可以說，基于大模型的 AI 技術讓人形機器人通用化變成了可能。而人形機器人作為一個硬體載體，也讓生成式 AI 距離 AGI 的目标越來越近了。

重新回到聚光燈下

盡管引入大模型後擁有了 " 常識 "，并帶來了一定的泛化能力，解決了自然語言理解和任務規劃的兩大難題，也有越來越多公司發布人形機器人，似乎這一切離我們越來越近了。但我們必須清醒認識到：人形機器人距離真正落地仍然有很長的路要走。

大模型對人形機器人智能化的突破固然可喜，但并不解決機器人硬體層面的難題。人形機器人的操作能力和移動能力需要借助硬體本體的硬體和算法來實現，但在過去 50 年的人形機器人研究歷程中，這個難關一直沒有被攻克。

比如，掃地機器人能通過底盤滑動前行，四足機器狗可以靠四肢保持穩定和平衡，但人形機器人只有兩條腿，行動時只能依賴一條腿保證整個身體的穩定和平衡。大模型對物理運動能力的幫助是有限的。

對于人形機器人公司來說，另一大挑戰是數據。人形機器人的模型訓練需要大量決策數據做支撐，如果數據不夠，輸出的結果會容易漂移，成功率也會受影響。

目前，遙操作數據是各家機器人收集數據的重要方法，操作邏輯是先學習和分解人是怎麼做到的，然後對應機器人要怎麼做到。由于采用的是真實世界數據，數據質量最高，但采集成本也很高。比如，谷歌用于訓練 RT-1 和 RT-2 的機器人數據是歷時超過 17 個月在 13 個機器人上收集而來。當年，OpenAI 解散了旗下的機器人團隊，獲取收集難度大就是一個重要原因。

這也是大模型企業都在布局人形機器人的原因。借助機器人的硬體本體，AI 可以更多地接觸外界信息，這些數據也有反哺 AI 算法的可能性。比如，特斯拉的自動駕駛汽車在高速路上積累的數據，哺育了 FSD 的算法系統，提供了最基本的數據基礎。

盡管有着種種問題，但還是無法阻擋越來越多大模型公司衝入人形機器人賽道。很多人把去年稱為，人形機器人真正產業化的元年。但已經少有人記得，2016 年那波人形機器人熱潮，潮水褪去，最後活下來的所謂人形機器人公司寥寥無幾。

當一項超出想象的新技術開始真正走向商業化，面世之初的震撼會很快消退。參與公司需要一邊接受商業規律的檢驗、一邊推動技術走向成熟。個人電腦、互聯網行業都經受住這樣的考驗，進而重塑了整個世界。人形機器人曾幾度突圍、幾度停滞，現在借着大模型的風口，新一批公司又到了這個階段。