機器人“圖靈時刻”何時到？四名創始人答曰：五年内見真章

今天小編分享的财經經驗：機器人“圖靈時刻”何時到？四名創始人答曰：五年内見真章，歡迎閲讀。

作者丨邱曉芬

編輯丨蘇建勳

在 2024 年的雲栖大會上，作為 AGI 的一項重要支線，具身智能也成為了其中一大讨論焦點。

在 " 機器人的圖靈時刻 " 論壇上，阿裏特意邀請了四家當前炙手可熱的人形機器人廠商——宇樹科技、星動紀元、銀河通用、逐迹動力，針對今年的機器人熱潮的本質、發展歷程、如何落地、技術難點等關鍵問題展開了讨論。

不過，不像 AI 的論壇那麼針鋒相對，四位創始人對于機器人賽道的判斷基本一致，大家認為：

本次機器人走向台前不是靠自我革命，而是靠大模型能力助推，具身智能将會是多模态大模型的 killer APP；通用機器人本質解決兩件事：移動、操作；此次機器人行業變革兩個關鍵詞：泛化、從專用到通用；機器人領網域發展歷程：從規則驅動、到算法驅動、再到數據驅動對機器人落地的判斷：5 年，在某些特定場景（工業 / 零售等）會有大規模落地；10 年，能進家庭；15 年，產生大千萬級别市場；商業化落地的路徑是：先從單一場景 + 多任務 + 可移動做起；再做多場景 + 多任務，最後普及到全場景 + 全任務。

以下是星動紀元創始人陳建宇、銀河通用創始人王鶴、宇樹科技創始人王興興、逐迹動力創始人張巍的交流整理（略驚摘編）

主持人：通用機器人一定要做成人形嗎？

王興興： 好幾年前有投資人問我，我們做不做人形機器人？我説我堅決地反對做人形機器人，我當時在大一，09 年、10 年的時候，我自己就做過小的人形機器人。做過好以後，我發現全球當前的人類技術其實沒辦法駕馭這麼復雜的機器人系統。

但是 2016 年開始，新的 AI 技術誕生了，在差不多在 22 年的時候，整個的大語言模型的效果已經非常驚豔，整個 AI 技術發展是遠超我自己預計的，所以我們在 23 年初正式開始做人形機器人，目前取得的效果也非常驚豔。

機器人整個發展節奏，無論是硬體和軟體，都是超過我自己預計的節奏。

張巍：我覺得一定要做成人形，而且是有兩條腿的人形機器人。

我簡單説一下我對通用機器人的理解。我首先覺得機器人和 AI 的使命是不同的，AI 是代替人來思考決策的，而機器人本質上要代替人來運動。

大家看到各式各樣的機器人非常多，本質上就在做兩件事情，一件事情是要移動（Mobility），空間中從 a 到 b；另一件事情是，操作。

所謂的通用機器人，在這兩個能力上都能達到跟人一樣的環境适應能力和任務的泛化性。值得一提的是，通用的移動能力其實是不太需要雙臂的，但是通用的操作能力反而是需要雙腿的，不然你可能都沒法到人能到的地方去幹活。

我覺得 AGI 的發展最相比上一代最大的區别，就是從專用到通用的變化，在大模型出來之前，我感覺通用這個詞是個貶義詞，通用，就是證明它是沒啥用。

但是大模型出來以後，大家發現，以前我們這種在專業領網域裏收集數據，去做專項任務的訓練方式是有很大局限性的，反而我們要忽略專項的能力，要先構建通用的基礎模型能力，再在上面長出專用的能力，這才是系統化解決泛化性的關鍵。

我覺得軟體算法的通用性，就靠大模型技術；機器人跟物理世界互動的通用性，就靠人形機器人。

主持人：您怎麼定義人形機器人形态？

王鶴：我們公司叫銀河通用，我們從建立的第一天就是要達成通用機器人。當然通用有一個過程，他先做到單一場景、多任務、可移動，然後再做到多場景、多任務，最後做到全場景、全任務。在這個過程中，形态上在不同階段也有它最适合、最經濟、最穩定的載體。

通用機器人這個萬億市場剛剛開局的時候，我們選擇了先從幾個場景裏頭的多任務做起，比如零售商超場景上貨下貨，在工廠裏去抱箱子，其實我們發現如果它是平地的話，輪子是夠用的，也不能説我們沒有腿，我們是把兩只腿并在了一體。

那為什麼要有雙手呢？因為我們發現，比如説你在超市裏頭一只手拿籃子，一只手拿貨，也是要兩只手，所以我們的形态目前是 360 度輪，雙腿并成一條腿，站直一米七三，夠到二米四，蹲下來可以摸地，用最便宜的價格、最穩定的機器人技術率先實現可以落地的機器人。

主持人：具身智能和人形機器人，大家讨論的時候，總是把兩個詞語放在一塊，您怎麼看？

陳建宇：這個确實是比較容易混淆的兩個概念，但是他們的側重點是不太相同的。

對具身智能來説，我們主要關注智能性和軟體。具身智能其實對形态其實是要求不高的，可以是人形的、四足的、輪式的、單個機械臂的，甚至就是一個桌子、椅子，只要它能動，都可以給他賦予具身智能，是一個更廣泛的概念。

人形機器人顧名思義一定是人形的。

主持人：機器人現在有很多種類，怎麼判斷它的技術含量？

陳建宇：非常粗略的把人形機器人相關的技術抽成三大塊的話，其實就是大腦、小腦和本體。

我覺得這裏面最關鍵的是小腦，它是最基礎的部分，就如果你只有一個本體、大腦，缺了小腦的話，其實你只能成為一個會思考的一堆爛鐵。

小腦是承接大腦思考、規劃的，同時也是技術不确定性最高的，最沒有收斂的。但是我們是有蠻多的產業可以去借鑑，包括我們的工業機器人產業、電動車的產業。

對于小腦來説，我們發現大部分的機器人用的還是十幾年前，甚至幾十年前的掃地機這一類的技術去做。

王鶴：我認為人形機器人的技術含金量可以從這兩個地方總結：

一，他的泛化性到底有多強？是不是真正能通向未來的通用？

二，它能不能跟人之間用自然語言來溝通，然後實現零代碼的部署？不僅能幹活，還能交流。

張巍：機器人就看兩個關鍵詞，一個叫泛化，一個叫通用，這是本次變革最關鍵的兩個詞。

我提供個我的角度，我覺得咱們先看腿，人形機器人之所以是一個新的物種，它不是一個傳統機械臂公司的延續，它的本質就是要長出兩條腿來。

那看腿也要看什麼呢？主要看兩點，一個就是腿，他能不能完成他本能的一些本職的工作，就是地形的泛化能力。第二點是看他能不能支撐雙臂去完成全身協同的通用操作，這也是腿存在的一個重要的價值。

主持人：機器人到底什麼時候能幹活？

陳建宇：如果説我們不是特别嚴苛的定義，就是説它能初步去用起來的話，那我認為不管是工業還是商用，甚至是家用，一兩年的時間就能有，根據羅傑斯的那個創新擴散的模型，都有一些早期的一些使用

工業的場景會更快一些，因為它是有邊界的，你可以人為的制定一些規則，所以在它的圖靈時刻還沒到來之前，機器人可能就能逐步應用起來。

王鶴：以零售場景為例，現在的技術已經達到了產業化的邊界了，我們預測就是從明年開始将會是商用的元年。

5 年，我們的目标是在這樣的場景和車廠的抱箱子裏頭達到一萬台；10 年，是我認為安全性可以進入家庭标準的；15 年，我預計可能會產生千萬乃至大千萬級别的市場。

王興興：我個人的話相對比較樂觀，我覺得到明年，像一些工業場景，明年基本上該問題不大，我覺得三年左右至少全球範圍内有通用型的 AI 出來，因為跟過去十年不一樣了，現在整個機器人 AI 人才資金投入是巨量的，都是幾百倍甚至上千倍的投入。五年應該會有天翻地覆的變化。

張巍：我認為用時間去衡量它，是一個比較難的事情，我管這個賽道的產業的發展叫事件驅動，而不是時間驅動。它更關鍵的是看這個 AI 技術、關鍵的開關什麼時候能找到，而不能用時間去具體的衡量它。

我也是相對樂觀的。只不過我也説，我們要避免過早的去做商業化，比如説在大模型 ChatGPT 2.0、3.0 的時候你要做個超級應用，那肯定要打一堆補丁，因為上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰，大家都調侃説 " 人工智能等于智能不夠靠人工 "，所以是靠很多這個增加了部署的售後成本，最終商業邏輯還是挺難跑通的。

主持人：大模型對人形機器人的發展，起到了什麼樣的影響？

張巍：我覺得機器人這一波的發展不是自我革命，發展是靠大模型技術和大模型技術背後的技術，我甚至認為具身智能将會是多模态大模型的一個 killer APP。當然我把無人駕駛也算在我們具身智能賽道裏邊來了。

我覺得這幾年由于受到大模型技術發展的一個啓發，機器人領網域的發展也經歷了從規則驅動、到算法驅動、再到數據驅動的一個跳變啊。

以前你可能看你有什麼算法，然後根據算法的需求來收數據來解決問題。現在的思維變了，我們要首先看你有什麼數據，然後你獲取新數據的方式和成本是怎麼樣？數據的分布是什麼樣的？

這就直接的決定了你采用什麼樣的算法去訓練，所以我們公司有個口号叫，軟體定義硬體，但數據定義軟體。

王興興：我一直感覺，通用人機器人算是大模型的最好的一個落地的載體，二者是非常好的一個組合關系

王鶴：我覺得就是現在的通用機器人，幾乎都是分立的小模型，所以大模型賦能技能有幾步？

第一步是，大模型可以作為一個 agent 來調用這些 API ，進行長程的任務規劃；

第二步是大模型可以作為一個 monitor，看小模型執行過程中有沒有出任何錯誤，及時的去終止、挽救這些錯誤，比如藥盒子掉在地上了，他立馬説你也給他撿起來；

第三步是最有想象力的，就是端到端的 vision language action，把動作作為大模型輸出的模态，像自動駕駛一樣，做一個把通用感知、通用規劃和通用執行融為一體的大模型。

陳建宇：：我認為大模型這邊帶給我們最重要的啓發就是，告訴我們有 scaling law 的存在，啓發我們去思考怎麼樣去做機器人的 scaling law。

同時它也帶着我們來一些語言模型領網域的一些技術，比如説 Transformer 的架構。算法層面、模型層面，還是數據層面，其實都有很多的不同，需要我們去探索。