具身智能，是機器人的“冷飯熱炒”嗎？

今天小編分享的科學經驗：具身智能，是機器人的“冷飯熱炒”嗎？，歡迎閱讀。

大模型正如火如荼，下一個 AI 風口就來了。

如果你關注 2023 世界人工智能大會等行業峰會，以及英偉達、微軟、谷歌、特斯拉和國內科技大廠的最新發布會，除了 " 大模型 "，應該會聽到另一個高頻詞——具身智能。

所謂具身智能 Embodied AI ，指的是有身體并支持物理互動的智能體。

簡單來說，就是讓 AGI 從數字世界走向實體世界，落地在機器人、機械臂、無人車、無人機，讓實體世界中的機器人 / 仿真人具有智能，像人一樣與環境互動感知，執行各種各樣的任務。

從這個角度看，其實很多人都已經見過或者玩過具身智能產品了。索尼的機器狗 AIBO，軟銀的服務機器人 pepper，還有波士頓動力的人形機器人和機器狗……這些具身智能產品，曾是不少人的童年回憶，或者科幻恐懼。

雖然技術概念很超前，但這些產品的市場表現，其實并不太理想，技術落地難、產品被停產、企業被轉賣，都不算新聞。

因此也有人認為，具身智能作為 AI 的終極形态之一，只是一些大廠推動的營銷概念。

我們今天就來聊聊，具身智能的這一波熱度，是機器人的 " 冷飯熱炒 " 嗎？

下一個 AI 風口

古話說得好，遇到問題，先問是不是，再問為什麼。

有必要先探讨一下，具身智能真的火了嗎？

目前來看，AI 學術界和工業界，确實已經将 " 具身智能 "，作為下一個風口。

學術層面，不少科學家提出推論，大模型的技術路徑打通之後，下一個突破是具身智能。

圖靈獎得主、上海期智研究院院長姚期智認為，人工智能領網域下一個挑戰将是實現 " 具身通用人工智能 "，即如何構建能夠通過自我學習掌握各種技能并執行現實生活中的種種通用任務的高端機器人。清華大學計算機系教授張钹院士，也在某產業智能論壇上提出，随着基礎模型的突破，通用智能機器人（具身智能）是未來的發展方向。

（張钹院士的公開發言現場）

產業層面，谷歌、微軟、特斯拉等科技公司近日都相繼公布了自家的具身智能產品，國內頭部科技大廠如華為、京東，也開始将自身在具身智能領網域的相關布局，向大眾布道。前不久印發的《北京市機器人產業創新發展行動方案（2023-2025 年）（征求意見稿）》，也提出發展機器人 "1+4" 產品體系，加緊布局人形機器人研發與應用。具身智能的產業化、市場化潛力，正在加速積累。

如前所說，無論是現實生活中的機器狗、機械臂、無人車，還是科幻電影中的人形機器人，具身智能產品早已為大眾所熟悉，但市場表現一直不溫不火。為什麼一夜之間成為風口了？

和大模型 " 兩開花 "

這一波具身智能的熱潮，讓我想起了這張梗圖。AGI 起于大模型，終于具身智能。

具身智能的概念，可以追溯到 1950 年，圖靈在論文《Computing Machinery and Intelligence》中，提出機器像人一樣能和環境互動感知，自主規劃、決策、行動，并具備執行能力，是 AI 的終極形态。

歷史上的兩次人工智能浪潮，AI 智能水平都達不到大眾的預期，具身智能雖然誕生了波士頓動力這樣的 " 炸裂 "，但是作為一種未來概念和獨特案例，并沒有取得有成效的產業化進展。

當下正在第三次人工智能浪潮，具身智能的希望重燃，就在于跟大模型 " 兩開花 "。

具體來說，大語言模型讓人們看到了 AGI 通用智能的希望，而這也讓具身智能有了幾個方面突破的可能性：

1. 大模型——更厲害的 " 大腦 "

我們知道，大語言模型和傳統機器學習的區别，就在于泛化能力強，在復雜任務理解、連續對話、零樣本推理等方向有了突破進展。這一突破，讓機器人的理解力、連續決策力、人機互動能力，有了全新的解決思路。

微軟研究院發布 "ChatGPT for Robotics" 文章中提到，大型語言模型 ( LLM ) 将人的語言快速轉換為機器人的高層控制代碼，從而控制機械臂、無人機等機器人。

以前，由于傳統 AI 不具備先驗知識，理解力和泛化能力不足，機器人就無法像人一樣擁有常識，必須要将一個指令由人類工程師分解成一連串簡短的程式化程式，然後機器人（機械臂）再一步一步去完成每個動作。

這也使得高級别的具身智能，比如 L5 自動駕駛、人形機器人、機器狗等，人機互動無法滿足現實中通用智能的需求，廣泛應用的主要是機械臂、履帶式搬運機器人等這類比較機械化的具身智能，只适應某一類設計好的特定任務。

有了大模型之後，機器人終于有了一個強大的 " 大腦 "。

LLM 可以幫助機器人更好理解運用到高級語義知識，自動化地分析自己的任務并拆抽成具體的動作，這樣與人類、與物理環境的互動更加自然，機器人也就顯得更加智能了。

舉個例子，讓機器人倒一杯水，人類自動就會繞開室内的障礙物，但傳統方式下，機器人并不具備 " 遇到障礙物水會打翻 " 這樣的常識，經常會做錯事，而大模型驅動的具身智能，就可以更好地理解這些知識，自動分解任務，不再需要工程師或者主人一步步地指導。

2. 多模态——更豐富的 " 小腦 "

" 具身 " 所相對的概念是 " 離身 "（Disembodiment），從中可以看到，具身智能的實現依賴于身體的感知，不能脫離身體而單獨存在。

人類具有眼耳鼻舌身意，說明對于物理世界的充分感知和理解，是意識和智慧的來源。而傳統 AI 更多的是被動觀測，主要是 " 看 "（計算機視覺）和 " 讀 "（文本 NLP），這就使得智能體 Agent 缺乏對外部環境的通用感知能力。

以自動駕駛為例，無人車也是具身智能的載體，需要通過傳感器、機器視覺、激光雷達等多種方式來感知物理世界的變化，成本昂貴，效果也不是很理想，至今依然沒能實現 L3 級别的自動駕駛量產。

多模态大模型，可以積累和分析 2D&3D 視覺、LiDAR 激光、Voice 聲音等多維信息，基于真實互動，為具身大模型積累高質量數據數據，深度理解并轉化為機器指令，來控制機器人的行為。

有了感知能力更豐富的 " 小腦 "，具身智能自然也就能更好的理解物理世界。

3. 精準決策——更靈活的軀幹。

試想一下，如果一輛無人車，行駛過程中道路上突然衝出一個物體，它只能等着人類來判斷 " 當前是什麼情況 "，下達指令 " 應該幹什麼 "，那黃花菜都涼了，萬一衝出來的是人，那實在是太危險太不可靠了。

傳統的機器人訓練往往采取 pffline 離線模式，一旦遇到訓練環境中沒有出現過的問題，就可能掉鏈子，需要收集數據再重新迭代優化，這個過程的效率很低，也減慢了具身智能在現實中落地的速度。

大模型時代，具身智能模型的訓練與測試，與雲服務相結合，可以在雲上虛拟仿真場景下，進行端到端的實時訓練與測試，快速完成端側迭代與開發，這就大大加速了具身智能體的進化速度。

具身智能體在模拟出來的場景中無數次地嘗試、學習、反饋、迭代，積累對物理世界的深度理解，產生大量互動數據，再通過與真實環境的不斷互動積累經驗，全面提升在復雜世界的自動移動、復雜任務的泛化能力，展現在具身載體上，就是機器人可以更好地适應環境，更靈活地運用機械 " 軀幹 " 來進行人機互動。

一句話總結，和大模型 " 兩開花 "，将通用人工智能落地（Embodiment 物理身體），為具身智能打開了新的想象空間。

能抓老鼠才是好貓

理論歸理論，實踐歸實踐。我們總說能抓住老鼠的才是好貓，那麼實現具身智能，究竟有幾種 " 抓老鼠 " 的方式呢？

目前，主要以兩種路線為主：

一種是谷歌、伯克利等為代表的 " 未來派 "，主打的是 " 一步到位 "。

具體來說，這類研發機構是從具身智能的終極目标出發，希望從當下到終點，尋找一個端到端的技術路徑，所給出的方案，往往采取 " 緊耦合 " 的方式，希望一個大模型就能包辦所有，讓機器人完成識别環境、分解任務、執行操作等所有工作，非常難，也非常有未來感。

比如今年三月谷歌推出的 PaLM-E，就是一種多模态具身視覺語言模型（VLM），讓機器人可以基于大模型，來理解影像、語言等數據，執行復雜的指令，而無需重新訓練。

加州大學伯克利分校的 LM Nav，則通過視覺模型、語言模型、視覺語言模型 CLIP 等三個大模型，讓機器人在不看地圖的情況下按照語言指令到達目的地。Koushil Sreenath 教授的工作，就是推動硬體本體、運動小腦、決策大腦三部分逐漸融合，讓各種四足、雙足，以及人形機器人在真實世界中靈活地運動。

另一種，是英偉達及大量工業機器人廠商為代表的 " 務實派 "，主打的是 " 馬上見效 "。

" 未來派 " 一步到位的路線雖然看起來很酷，但耗時漫長，距離產業可用還比較遙遠，成本昂貴，產業客戶未必能夠接受。在種種不确定之夏，滿足工業界需求，就出現了以松耦合來實現具身智能的技術路線。

簡單來說，就是不同任務通過不同模型來實現，分别讓機器人學習概念并指揮行動，把所有的指令分解執行，通過大模型來完成自動化調度和協作，比如語言大模型來學習對話、視覺大模型來識别地圖、多模态大模型來完成肢體驅動。

這種方式雖然底層邏輯上看還是比較機械，不像人一樣有綜合智能，但成本和可行性上，能讓具身智能更快落地。

哪種路線更優？坦率地說，我們認為都有其局限性。

緊耦合的 " 未來派 "，硬科技的含量顯然更高，在突破後很容易和 LLM 一樣給產業帶來颠覆式的變革，讓此前的大量工作成為無用功，但問題是商業化的周期很長，谷歌此前就曾将一門心思在人形機器人的波士頓動力出售，這一輪能堅持多久還是未知數。

松耦合的 " 務實派 "，确實能很快落地產業應用，但技術壁壘相對不高，随着 AI 玩家增多，存量市場逐漸被開發，毛利率必然會在同質化激烈競争中受到擠壓，商業前景會很快到達天花板。此前國內某機器人龍頭企業，就因為技術含量不高而折戟科創板，這說明具身智能產業還是要笃定遠一點的未來，積累硬核科技。

星辰大海與商業賺錢之間的溝壑，是每一個 AI 企業都要穿越的 " 死亡之谷 "。

我們對機器人還有哪些期待？

LLM 方興未艾，距離通用智能只是理論可行，究竟如何實現，還有很長的路要探索。從這個角度看，被大模型帶火的具身智能，目前也還留在語言、視覺這兩個經典的 AI 任務領網域，能否進一步突破，前途也很朦胧。

既然如此，為什麼學術界和產業界依然将其作為下一個 AI 風口來布道呢？原因或許在于以下兩點：

從學術上看，具身智能是行為主義的極致。人工智能的兩大門派：符号主義和聯接主義。聯接主義也叫行為主義，不追求意識的本質，希望用人工神經網絡模拟人的行為，讓機器 " 看起來像人 "，讓人形機器人成為現實，具身智能就是行為主義發展到極致的表現之一。所以，從學術上倡導向具身智能發展，是符合技術向前演進的路線的。

從產業上看，產業智能化的浪潮，确實讓物理世界和數字世界的互動增多了，只有 AI 軟體是不夠的，必須要能驅動物理實體，比如工業場景下的抓拿放，可以取代人工操作的繁瑣和危險，在煤礦井下作業、港口倉庫搬卸、搬家快遞服務、清理事故現場和救災等領網域，由機器人來代替人類，完成一些危重工作。同時，大模型、雲計算、邊緣計算等技術相結合，有望大大降低具身智能的研發和應用成本，這對于機器人產業的推動作用是巨大的，這時候探索和占坑也有其戰略意義。

當然，現在就投入具身智能，有沒有風險呢？

也是有的。說一個最恐怖的，我們都知道人工智能產業的發展，是在符号主義和聯接主義之間做鍾擺運動，如果有一天，鍾擺向另一方擺動，那麼已經投入到行為主義這一技術路線的大量市場資源、基礎設施投資、人才儲備等，又該何去何從呢？

更加具體的挑戰也有不少。

比如數據的挑戰，具身智能的數據，不同于 " 紙上談兵 " 的算法，只能從與物理世界的互動中獲得，具有很大的隐私性、高成本、敏感性，不能批量生產，這就對能力優化迭代造成了限制。

再比如，收集來的數據一般是不能直接拿來訓練的，要整理轉換成有意義的語料庫，再讓大模型學習，這個開發過程是非常繁瑣的，又增加了研發的成本。

此外，廣大用戶對于具身智能的機器人的安全性要求非常高，如果家政服務機器人将水倒在了插電孔，機器狗摔倒壓住了小朋友，這些故障都是商業上不可能被接受的，可靠、可用、可市場化的具身智能，目前看還比較遙遠，需要長期投入。這意味着具身智能目前看來依然是大廠的遊戲。

無論如何，大模型的普及，大大加快了具身智能的研發和落地速度。人工智能這個學科誕生以來，人類就希望能像 " 女娲 " 一樣，創造出和自己類似的通用機器人。具身智能，就是這個夢想的具體承載方式。

今天，我們終于可以将 " 具身智能 "，作為一個產業風口來暢想和實現了，能夠見證這件事的發生，已經十分值得人類為之自豪。