今天小編分享的财經經驗:機器人“圖靈時刻”何時到?四名創始人答曰:五年内見真章,歡迎閲讀。
作者丨邱曉芬
編輯丨蘇建勳
在 2024 年的雲栖大會上,作為 AGI 的一項重要支線,具身智能也成為了其中一大讨論焦點。
在 " 機器人的圖靈時刻 " 論壇上,阿裏特意邀請了四家當前炙手可熱的人形機器人廠商——宇樹科技、星動紀元、銀河通用、逐迹動力,針對今年的機器人熱潮的本質、發展歷程、如何落地、技術難點等關鍵問題展開了讨論。
不過,不像 AI 的論壇那麼針鋒相對,四位創始人對于機器人賽道的判斷基本一致,大家認為:
本次機器人走向台前不是靠自我革命,而是靠大模型能力助推,具身智能将會是多模态大模型的 killer APP;通用機器人本質解決兩件事:移動、操作;此次機器人行業變革兩個關鍵詞:泛化、從專用到通用;機器人領網域發展歷程:從規則驅動、到算法驅動、再到數據驅動對機器人落地的判斷:5 年,在某些特定場景(工業 / 零售等)會有大規模落地;10 年,能進家庭;15 年,產生大千萬級别市場;商業化落地的路徑是: 先從單一場景 + 多任務 + 可移動做起;再做多場景 + 多任務,最後普及到全場景 + 全任務。
以下是星動紀元創始人陳建宇、銀河通用創始人王鶴、宇樹科技創始人王興興、逐迹動力創始人張巍的交流整理(略驚摘編)
主持人:通用機器人一定要做成人形嗎?
王興興: 好幾年前有投資人問我,我們做不做人形機器人?我説我堅決地反對做人形機器人,我當時在大一,09 年、10 年的時候,我自己就做過小的人形機器人。做過好以後,我發現全球當前的人類技術其實沒辦法駕馭這麼復雜的機器人系統。
但是 2016 年開始,新的 AI 技術誕生了,在差不多在 22 年的時候,整個的大語言模型的效果已經非常驚豔,整個 AI 技術發展是遠超我自己預計的,所以我們在 23 年初正式開始做人形機器人,目前取得的效果也非常驚豔。
機器人整個發展節奏,無論是硬體和軟體,都是超過我自己預計的節奏 。
張巍:我覺得一定要做成人形,而且是有兩條腿的人形機器人。
我簡單説一下我對通用機器人的理解。我首先覺得機器人和 AI 的使命是不同的,AI 是代替人來思考決策的,而機器人本質上要代替人來運動。
大家看到各式各樣的機器人非常多,本質上就在做兩件事情,一件事情是要移動(Mobility),空間中從 a 到 b;另一件事情是,操作。
所謂的通用機器人,在這兩個能力上都能達到跟人一樣的環境适應能力和任務的泛化性。值得一提的是,通用的移動能力其實是不太需要雙臂的,但是通用的操作能力反而是需要雙腿的,不然你可能都沒法到人能到的地方去幹活。
我覺得 AGI 的發展最相比上一代最大的區别,就是從專用到通用的變化,在大模型出來之前,我感覺通用這個詞是個貶義詞,通用,就是證明它是沒啥用。
但是大模型出來以後,大家發現,以前我們這種在專業領網域裏收集數據,去做專項任務的訓練方式是有很大局限性的,反而我們要忽略專項的能力,要先構建通用的基礎模型能力,再在上面長出專用的能力,這才是系統化解決泛化性的關鍵。
我覺得軟體算法的通用性,就靠大模型技術;機器人跟物理世界互動的通用性,就靠人形機器人。
主持人:您怎麼定義人形機器人形态?
王鶴:我們公司叫銀河通用,我們從建立的第一天就是要達成通用機器人。當然通用有一個過程,他先做到單一場景、多任務、可移動,然後再做到多場景、多任務,最後做到全場景、全任務。在這個過程中,形态上在不同階段也有它最适合、最經濟、最穩定的載體。
通用機器人這個萬億市場剛剛開局的時候,我們選擇了先從幾個場景裏頭的多任務做起,比如零售商超場景上貨下貨,在工廠裏去抱箱子,其實我們發現如果它是平地的話,輪子是夠用的,也不能説我們沒有腿,我們是把兩只腿并在了一體。
那為什麼要有雙手呢?因為我們發現,比如説你在超市裏頭一只手拿籃子,一只手拿貨,也是要兩只手,所以我們的形态目前是 360 度輪,雙腿并成一條腿,站直一米七三,夠到二米四,蹲下來可以摸地,用最便宜的價格、最穩定的機器人技術率先實現可以落地的機器人。
主持人:具身智能和人形機器人,大家讨論的時候,總是把兩個詞語放在一塊,您怎麼看?
陳建宇:這個确實是比較容易混淆的兩個概念,但是他們的側重點是不太相同的。
對具身智能來説,我們主要關注智能性和軟體。具身智能其實對形态其實是要求不高的,可以是人形的、四足的、輪式的、單個機械臂的,甚至就是一個桌子、椅子,只要它能動,都可以給他賦予具身智能,是一個更廣泛的概念。
人形機器人顧名思義一定是人形的。
主持人:機器人現在有很多種類,怎麼判斷它的技術含量?
陳建宇:非常粗略的把人形機器人相關的技術抽成三大塊的話,其實就是大腦、小腦和本體。
我覺得這裏面最關鍵的是小腦,它是最基礎的部分,就如果你只有一個本體、大腦,缺了小腦的話,其實你只能成為一個會思考的一堆爛鐵。
小腦是承接大腦思考、規劃的,同時也是技術不确定性最高的,最沒有收斂的。 但是我們是有蠻多的產業可以去借鑑,包括我們的工業機器人產業、電動車的產業。
對于小腦來説,我們發現大部分的機器人用的還是十幾年前,甚至幾十年前的掃地機這一類的技術去做。
王鶴:我認為人形機器人的技術含金量可以從這兩個地方總結:
一,他的泛化性到底有多強?是不是真正能通向未來的通用?
二,它能不能跟人之間用自然語言來溝通,然後實現零代碼的部署?不僅能幹活,還能交流。
張巍:機器人就看兩個關鍵詞,一個叫泛化,一個叫通用,這是本次變革最關鍵的兩個詞。
我提供個我的角度,我覺得咱們先看腿,人形機器人之所以是一個新的物種,它不是一個傳統機械臂公司的延續,它的本質就是要長出兩條腿來。
那看腿也要看什麼呢?主要看兩點,一個就是腿,他能不能完成他本能的一些本職的工作,就是地形的泛化能力。第二點是看他能不能支撐雙臂去完成全身協同的通用操作,這也是腿存在的一個重要的價值。
主持人:機器人到底什麼時候能幹活?
陳建宇:如果説我們不是特别嚴苛的定義,就是説它能初步去用起來的話,那我認為不管是工業還是商用,甚至是家用,一兩年的時間就能有,根據羅傑斯的那個創新擴散的模型,都有一些早期的一些使用
工業的場景會更快一些,因為它是有邊界的,你可以人為的制定一些規則,所以在它的圖靈時刻還沒到來之前,機器人可能就能逐步應用起來。
王鶴:以零售場景為例,現在的技術已經達到了產業化的邊界了,我們預測就是從明年開始将會是商用的元年。
5 年,我們的目标是在這樣的場景和車廠的抱箱子裏頭達到一萬台;10 年,是我認為安全性可以進入家庭标準的;15 年,我預計可能會產生千萬乃至大千萬級别的市場。
王興興:我個人的話相對比較樂觀,我覺得到明年,像一些工業場景,明年基本上該問題不大,我覺得三年左右至少全球範圍内有通用型的 AI 出來,因為跟過去十年不一樣了,現在整個機器人 AI 人才資金投入是巨量的,都是幾百倍甚至上千倍的投入。五年應該會有天翻地覆的變化。
張巍:我認為用時間去衡量它,是一個比較難的事情,我管這個賽道的產業的發展叫事件驅動,而不是時間驅動。它更關鍵的是看這個 AI 技術、關鍵的開關什麼時候能找到,而不能用時間去具體的衡量它。
我也是相對樂觀的。只不過我也説,我們要避免過早的去做商業化,比如説在大模型 ChatGPT 2.0、3.0 的時候你要做個超級應用,那肯定要打一堆補丁,因為上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰,大家都調侃説 " 人工智能等于智能不夠靠人工 ",所以是靠很多這個增加了部署的售後成本,最終商業邏輯還是挺難跑通的。
主持人:大模型對人形機器人的發展,起到了什麼樣的影響?
張巍:我覺得機器人這一波的發展不是自我革命,發展是靠大模型技術和大模型技術背後的技術,我甚至認為具身智能将會是多模态大模型的一個 killer APP。當然我把無人駕駛也算在我們具身智能賽道裏邊來了。
我覺得這幾年由于受到大模型技術發展的一個啓發,機器人領網域的發展也經歷了從規則驅動、到算法驅動、再到數據驅動的一個跳變啊。
以前你可能看你有什麼算法,然後根據算法的需求來收數據來解決問題。現在的思維變了,我們要首先看你有什麼數據,然後你獲取新數據的方式和成本是怎麼樣?數據的分布是什麼樣的?
這就直接的決定了你采用什麼樣的算法去訓練,所以我們公司有個口号叫,軟體定義硬體,但數據定義軟體。
王興興:我一直感覺,通用人機器人算是大模型的最好的一個落地的載體,二者是非常好的一個組合關系
王鶴:我覺得就是現在的通用機器人,幾乎都是分立的小模型,所以大模型賦能技能有幾步?
第一步是,大模型可以作為一個 agent 來調用這些 API ,進行長程的任務規劃;
第二步是大模型可以作為一個 monitor,看小模型執行過程中有沒有出任何錯誤,及時的去終止、挽救這些錯誤,比如藥盒子掉在地上了,他立馬説你也給他撿起來;
第三步是最有想象力的,就是端到端的 vision language action,把動作作為大模型輸出的模态,像自動駕駛一樣,做一個把通用感知、通用規劃和通用執行融為一體的大模型。
陳建宇::我認為大模型這邊帶給我們最重要的啓發就是,告訴我們有 scaling law 的存在,啓發我們去思考怎麼樣去做機器人的 scaling law。
同時它也帶着我們來一些語言模型領網域的一些技術,比如説 Transformer 的架構。算法層面、模型層面,還是數據層面,其實都有很多的不同,需要我們去探索。
end