今天小編分享的互聯網經驗:我們又忘了,人形機器人≠AI,歡迎閱讀。
文 | 腦極體
" 你看過《機械姬》嗎?那個會騙人的艾娃,真的是 AI 嗎?"
朋友突然的問題讓我陷入思考。電影裡,艾娃的每個眼神、每句對白都讓人毛骨悚然——她太像人了,以至于觀眾理所當然地認為,這就是 AI 的終極形态。
但現實是,艾娃跟我們現在所說的 AI,根本是兩碼事。她的能力寄身于一個叫具身智能的概念。
具身智能并非更高級的 AI,而是一種完全不同的技術路徑:它不依賴大語言模型的尺度定律,通過物理身體與環境互動,像嬰兒一樣學習世界。
但由于科幻片的興起與傳播,被誤當成 AI 好多年。
今天,就讓我們抛開刻板印象,聊一聊:
為什麼具身智能和 AI 不一樣?以及我們離真正的 " 艾娃 ",還有幾公裡?
《機械姬》等影視作品中的機器人形象潛移默化中強化了 " 具身智能 =AI" 的認知。
但實際上,這是一種誤讀。
具身智能并不等同于 AI
要理解具身智能是什麼,首先要分清具身和離身兩個概念。
具身指存在或認知必須通過物理身體與環境的互動實現,強調身體經驗的基礎性作用,如人類;離身指存在或認知可以脫離物理載體獨立存在,強調抽象形式的自主性,如軟體、算法。
類似于 ChatGPT 一樣的傳統 AI 就是離身智能,可以脫離物理實體實現符号邏輯的抽象推理,能存在于任何終端。大語言模型通過海量文本訓練建立詞匯相關性網絡,得出概率映射的最優解。然而,這種虛拟環境中研發出的智能缺乏對物理世界的感知。它難以理解拿起水杯需要怎樣的力學控制,也不明白怎麼避開突然出現的障礙物。
具身智能則強調與物理世界的互動,将智能體的認知能力錨定在特定身體上,相當于 " 靈肉合一 "。這個身體必須擁有清晰的邊界和自我認知:首先,它得是獨一無二的,自己能移動操控的;其次,它要可以與環境互動,并從中累積經驗、習得規律。這種身體化學習(Embodied Learning)機制,讓具身智能的進化路徑與純數據驅動的 AI 截然不同。
而代表具身智能的人形機器人,更是與 AI 差了一萬八千裡。
首先,人形機器人必須擁有能與現實世界互動的物理身體。這不僅僅是加個外殼那麼簡單,而是要建立一套完整的感知-行動閉環。
其次,這個身體要能動。要讓機器人的身體真正活起來,需要突破三大難關:精确的抓握控制,比如拿起筷子或者豌豆;動态平衡,在山坡、樓梯等不平坦道路行走;多任務協調,邊走路邊端盤子等。
并且,要給他與世界互動的多模态感官。具身智能需要構建比 AI 更豐富的感官體系,不僅要能看(計算機視覺),還要能聽(聲源定位)、觸(力度反饋),甚至聞(化學傳感)。
最後,要一個比大語言模型更聰明的大腦,基于尺度定律的腦子難解因果。人形機器人的大腦要走世界模型這條路,在與真實世界的互動中習得經驗,超越概率,走向規律。
綜上,人形機器人是多個頂尖級技術集成的復雜智能體。但這樣一個復雜智能體,真的如網上營銷的那般,離我們只有一步之遙嗎?
哪怕翻遍所有最頂尖人形機器人公司的 demo,我們也只能看到一個不停跳舞、翻跟頭、有時連蘋果也拿不穩的人形巨物。它的電池續航通常不夠 5h,常常電量告急;復雜的動作需要人工遙控,就跟小孩的遙控賽車一般。不過,小孩的賽車只要幾百塊,一款機器人需要幾十萬。
不得不說,這是一個炫技大于實用的概念。
因為我們想象中的人形機器人,那得是《機器人女友》裡文武雙全、長得像绫濑遙一樣美、偶爾露出反差萌的完美 " 戀人 " 才行。
理想豐滿,現實骨感,AI 發展已陷入固有技術方法論的沼澤,我們熱衷于大語言模型、熱衷于強化學習,卻忽略了它們只教會 AI 如何模仿,沒教會 AI 如何理解真實而復雜的物理世界。
而這恰恰是人形機器人向強發展所需要克服的。
近日,圖靈獎得主楊立昆在巴黎 AI 峰會上發表觀點,要研究人類級 AI 就要不破不立,做到三個放棄:放棄只會概率計算的大語言模型、放棄宛如拼圖遊戲的對比學習、放棄馴狗般獎懲 AI 的強化學習。
人形機器人的腦子需要的是世界模型、規劃算法等能與環境互動的技術;人形機器人的身體需要支持運動的仿生關節、代表感官的傳感器融合系統、類似小腦的運動控制算法以及作為心髒的高能量密度電池。
但這些技術恰如 2020 年之前的大語言模型一般,陷入了研究瓶頸。
一方面,是因為太難;另一方面,是成本太高。
舉個例子,人類使用工具的能力建立在數百萬年進化形成的本體感知系統上。人類使用螺絲刀時,能通過觸覺實時調整握力,并預判旋轉時的扭矩變化。而機器人要實現同等操作,需要突破三大難關:0.1 牛頓級的力控精度、高靈敏的觸覺解析,以及避免自碰撞的運動規劃協同。
目前最先進的機器人,仍難在不同場景中拿起一個相同的蘋果。所有科技公司放出的 Demo 幾乎都是無雜物的光滑桌子或者空曠、光線充足的實驗室環境,如果旁邊多出一只梨子,或者蘋果不小心滾落到地板,他們就可能束手無措。
另一方面,如波士頓動力 Atlas 的實驗機人形機器人研發成本普遍超過 200 萬美元。特斯萊自研 " 大腦 " 主控芯片每個 3.2 萬,一個靈巧手 1.2 萬元,作為感官的傳感器系統合計 11 萬元,支持運動的線性關節總成本約 15 萬元,而即使實現量產,後期也要一大筆資金投入維修和保養,因為人形機器人有 30 個左右的關節,經過多次訓練磨損後會出現不靈便、卡殼等情況。
不難看出,發展人形機器人就是為了造人而造人。但是從工業場景來講,雙足的效率是不穩定的,遠遠低于輪式底盤和機械臂的組合;且技術不夠成熟,沒有發展路徑,實在稱不上一門很劃算的生意。
既然性價比如此低,人形機器人的說法到底從何而來,又為什麼如此火熱?
人形機器人是一個被資本炒熟的概念,也是一場為了融資而作秀的狂歡。
2024 年 1 月至 10 月全球人形機器人行業共發生 69 起融資事件,總金額超過 110 億元。其中,有 56 起發生在中國,總金額超過 50 億元,不少頭部企業一輪就融超 10 億。
但是,當前融資熱潮源于資本追捧而非技術成熟,部分公司估值虛高。為了吸引融資,企業持續在社交媒體上營銷打拳、翻跟頭等不實用的功能,同質化嚴重,價格高、能力差、落地難,本質是脫離技術談未來。
清醒後的資本熱開始退潮。
一些企業隕落了。曾估值 30 億美元的達闼科技被曝欠薪、裁員、資金鏈斷裂陷入停擺危機;而素有人形機器人第一股之稱的優必選五年虧超五十億,市值蒸發千億港元。
一些投資方撤資了,朱嘯虎批量撤出人形機器人,退出的公司包括星海圖和松延動力。
這并非孤例,這個由資本催熟的概念,在歷史上至少經過三次幻滅。
1970 年代,早稻田 WABOT-1 首次雙足站立但動作遲緩、能耗極高,僅實驗室展示;
1990 年,服務機器人泡沫,成本高達 200 萬美元的本田 ASIMO,僅能端茶倒水,2018 年終止所有相關項目;
2010 年代的社交機器人神話軟銀 Pepper 因對話機械、價格昂貴、故障率高,在 2023 年停產;
2020 年代,AI 的爆火又一次喚醒了資本對人形機器人的狂歡。但這仍掩蓋不了波士頓動力多次易主谷歌、軟銀、現代的事實,另一家公司 Atlas 因炫技視頻與實際落地脫節,融資越來越少。
回望歷史,人形機器人的發展始終跳不出一個輪回怪圈:總是始于驚豔的實驗室 demo 吸引資本追捧,繼而催生估值泡沫,最終因商業化失敗導致資金集體撤離。
無數企業和資方周而復始地演繹着從希望到幻滅的故事。而這個循環反復出現,主要有三個原因:
首先,燒錢太猛,但沒有形成商業閉環,沒有找到市場過度依賴投資。造一個人形機器人動辄上百萬,比工廠裡用的機械臂貴幾十倍。投資人砸再多錢,也很難找到願意買單的客戶。就像當年本田花 3 億美元研發的 ASIMO,最後只能在科技館裡表演端茶倒水。
其次,現在的技術其實不足以支撐人形機器人的爆炸,還處于摸着石頭過河的狀态。當前 VLA(視覺-語言-動作)模型在動态環境中的錯誤率仍高達 40%,遠未達到自主決策水平;高功耗導致多數人形機器人僅能連續工作不到 5 小時,遠低于工業需求。
最後,方向跑偏了,娛樂屬性強、工具屬性弱。為了吸引投資而不停作秀跳舞、忽略實用性。無法在垂直場景減輕人類負擔提升總體效益的機器人,催生了更大的泡沫。
脫離技術談商業,只是鏡花水月。幾乎可以斷定,即使此輪人形機器人不會破滅,也一定像歷史一樣走向沉寂。畢竟,沒有人願意花幾十萬去買一個只會跳舞的大型機械。但另一方面,值得慶幸的是,我們離那個會欺騙人類感情的 " 艾娃 " 還很遠。