今天小編分享的互聯網經驗:獨家對話智元姚卯青:人形機器人走進家庭還需5年左右時間,歡迎閱讀。
( 圖片來源:智元機器人)
随着 2022 年 AI 聊天機器人 ChatGPT 風靡全球," 具身智能 " 和人形機器人逐漸成為備受矚目的前沿技術領網域。
與傳統 AI 相比," 具身智能 " 更注重通過與環境的實時互動來獲取信息,并基于這些信息進行思考、決策和行動。同時," 具身智能 " 還可通過經驗積累和持續學習,提升行動和操作技能。
實際上," 具身智能 " 和人形機器人領網域近期關注度頗高,也有很高的市場前景。
公開數據顯示,2024 年,中國人形機器人市場規模達到約 27.6 億元,并有望在 2030 年成長為 1000 億元市場,而預計到 2035 年,有望達到 3000 億元規模。截至目前,小米、小鵬、螞蟻等數十家車企和科技大廠都已入局 " 具身智能 " 和人形機器人賽道。
近期,智元機器人研究院執行院長、具身業務部總裁姚卯青對钛媒體 AGI 表示,自動駕駛與 " 具身智能 " 非常不一樣,嚴格意義上來講,兩者在底層硬體、框架和軟體還是有復用的,但 AI 模型、容忍度等層面非常不一樣。
姚卯青畢業于清華大學電子工程系,曾在 Waymo、蔚來汽車等公司擔任重要技術職位,如今,姚卯青擔任智元機器人 Genie 業務部總裁、具身研究院執行院長,承擔了 AI 技術開發及研發工作,确保智元在本體基礎上具備強大的軟體能力,能夠始終保持在人形機器人全球第一梯隊。
成立于 2023 年的智元機器人,是當前國内人形機器人賽道頭部企業之一,其創始人之一彭志輝是坐擁 250 多萬粉絲的 B 站 UP 主 " 稚晖君 "。
公司成立不到 1 個月,智元就完成天使輪融資、年内更斬獲 4 次融資,成立僅 6 個月就發布首款人形機器人,2024 年還發布五款商用人形機器人新品,并且去年底開源百萬真實機器人數據集,以及年初率先達成 1000 台機器人量產等,引發行業關注。
如今,智元機器人共有三條主打產品線,分别是遠征、Genie 和靈犀。預計 2025 下半年,智元機器人會發布一款面向機器人發燒友的產品 X2。
钛媒體 AGI 獨家獲悉,領先具身智能機器人公司 " 智元機器人 " 将于 3 月 10 日發布全新的智元具身基座大模型 Genie Operator-1 ( GO-1 ) 。這将是全球第一個基于大規模、高質量自有數據,基于自有機器人本體訓練并部署的第一個機器人基座模型。
那麼,車企為何要做人形機器人?未來 " 具身智能 " 行業如何發展?人形機器人如何形成生產力價值?圍繞上述話題,姚卯青近期與钛媒體 AGI 展開深度對話。
在姚卯青看來,機器人和 " 具身智能 " 技術需要真機訓練場,并且必須要結合強化學習、大模型等技術能力,從而提升整個人形機器人軟硬體技術發展。
事實上,DeepSeek 熱潮之前,智元團隊就已經開始做強化學習,也是全球可能唯一在真機強化學習上面做通的團隊。" 真實世界價值是最高的。"
姚卯青對钛媒體 AGI 表示,利用 AI 大模型,能夠助力機器人操作上手能力,從而加速進入工廠、零售、服務業等場景工作,長期還能進入家庭。" 這才是機器人價值被充分發揮的時刻。"
談到最受關注的 9.9 萬元機器人話題,姚卯青指出,9 萬 9 的機器人只具備基礎運動能力,在本體、硬體、算法都還沒有收斂的情況下,大家急着 " 卷 " 價格戰,沒有什麼意義。因此,姚卯青呼籲人形機器人產業需要看產品競争力,如果都達不到給用戶創造價值的時候打 9.9 萬元,只會把整個行業變成一個很不健康的狀态。
姚卯青強調,未來 1-2 年,人形機器人能夠在局部工業場景應用落地,機器人走進家庭還需要 5 年左右的時間。此外,機器人實現像人一樣有通用能力的物理世界 AGI(通用人工智能)還需要 5-10 年時間。
智元機器人研究院執行院長、具身業務部總裁姚卯青
以下是姚卯青和钛媒體 AGI 之間的獨家對話編輯:
自動駕駛和 " 具身智能 " 需不同模型
钛媒體 AGI:現在智元機器人主要有三條業務線遠征、Genie 和靈犀,所以内部是怎麼分配業務的?
姚卯青:我們現在有三個產品線,一是雙足機器人,一是輪式雙臂機器人,還有一個是新成立的小的機器人,只有 1 米 3 左右。面對商用場景的雙足人形機器人遠征 A2 系列;輪式雙臂 Genie,主要是面向通用具身操作的輪式雙臂機器人 G1,這些產品都在對外售賣。此外,還有一條用于拓展家用場景、科研及極客的小型人形機器人靈犀產品線,我們的商城也在售賣。
钛媒體 AGI:上次我和智元的交流是 " 機器人 0 元購 " 時期,當時稚晖君發布智元 5 款商用人形機器人,并且透露 2024 年人形機器人超過 200 台左右。那麼到了 2025 年,智元新的規劃是什麼?
姚卯青:去年我們已經超額完成,1 月 6 日已經下線 1000 台。今年公司目标是 10 倍營收。因為是在 2024 年 10 月開始量產交付,而今年時間更長,另外本身有新的市場和新的產品擴展,所以今年我們目标更大。
钛媒體 AGI:近期,特斯拉、小鵬、小米等多家自動駕駛、新能源車公司都計劃或正在做 " 具身智能 " 以及人形機器人,您如何看待這個趨勢?
姚卯青:這主要是資本原因。目前新能源汽車競争慘烈,已經過了高速增長期,而當下 " 具身智能 " 大模型又很火的話,會成為資本追逐的新一個風口。
實際上,馬斯克的特斯拉也很重視 " 機器人 ",因為你看特斯拉的市盈率,是豐田、大眾的幾十倍,但特斯拉和豐田的毛利率相當。豐田一年賣 1000 萬輛車,特斯拉賣不到兩百萬輛車,而且已經停止增長了,那麼他怎麼辦?所以他(馬斯克)就說叫做 " 具身智能 "。
當然,我覺得特斯拉确實是在做 " 具身智能 " 的,行業内自然會有 " 跟風 ",特斯拉都轉型了,這些車企肯定也要轉型。但是,我覺得這也不是沒有道理,因為 " 具身智能 " 與車的很多底層工程能力、軟體、制造供應鏈等都是有很多互通的地方。所以,做車的人 / 企業來做 " 具身智能 " 是更合适的。
所以,我其實是比較敬畏這些從車企轉型做機器人的 " 玩家 "。
钛媒體 AGI:無論是 Waymo,還是其他自動駕駛公司,大家之前目标都是做 L4,當前卻只能是 L2+,這是否也是大家轉向 " 具身智能 " 的原因之一?
姚卯青:對,現在來講,L4、L5 離商業化還是比較遠、比較難的。
包括 Waymo 在舊金山落地,雖然市場份額還不錯,能超過當地第二大的打車公司,但是仔細想,那也只是在舊金山,而舊金山太小了,只有上海的 2% 的面積和人口,路況也相對有規律。但 Robotaxi 在中國大面積商業化其實是很難的,因為它依賴高精地圖,你只能在很小的區網域内,才有可能每天實時維護地圖上每一個微小的變化。
一旦自動駕駛沒有地網域限制放開了,甚至是一個有限制的大城市,幾乎在中國這種大城市幾乎都是不可能的。
所以,(實現 L5 自動駕駛)主要問題就是,最終肯定是依賴單車智能,一方面,單車智能達不到這麼高的一個程度;其次,即使當前單車智能能達到一個不錯的效果,但 Robotaxi 成本不可控,它必須依賴高精地圖、依賴激光雷達、依賴高算力等。當然,特斯拉稱只做純視覺,不依賴地圖與激光雷達,不過其自動駕駛還達不到完全類人水平,可能行駛幾公裡到幾十公裡就需人工接管一次。國内不少同類產品在城市中行駛幾公裡便要接管,如此看來,使用體驗還不如用戶自己開車。
那就是說,(自動駕駛)商業上并未完全商業閉環,收費的話那就更差得遠了,市場需要成本低、體驗好、不用接管的自動駕駛技術,都做到還比較難。
钛媒體 AGI:現在您對哪款輔助駕駛系統比較滿意?
姚卯青:我開的是特斯拉的。我認為,特斯拉跟國内還是體驗上有不同的,就是從拟人性這個角度來講,它是對人的,所以感覺上它上限好像比較高,但是确實可能有一些所謂水土不服的原因,目前下限也比較低。比如,特斯拉輔助駕駛會像人也一樣 " 壓線 ",它也如此,但是很多地方又做的不那麼嚴謹的一個系統。大多國内輔助駕駛方案,我理解還是偏向上一代系統," 大模型端到端 " 還是偽概念,主要還都是後處理,也談不上 billion 參數大模型了,都屬于傳統 CV、在訓練集分布上過拟合的小模型。
钛媒體 AGI:之前您說具身智能并非 " 新瓶裝舊酒 ",其為傳統機器人注入了新的生命力,那麼,在您看來,具身智能對于自動駕駛是 " 新瓶裝舊酒 " 嗎?
姚卯青:自動駕駛與 " 具身智能 " 應該還是非常不一樣的,兩個產品和技術都可能不是一個 " 瓶子 " 了。
大家會說,自動駕駛是 " 具身智能 " 的一種形态,但其實嚴格意義上來講,自動駕駛與 " 具身智能 " 在 AI 模型這一塊基本不一樣,底層硬體、框架和軟體還是有復用的,但模型角度來講,非常不一樣。
比如,車的硬體只有兩個自由度,而且在 2D 平面上運作,但機器人動辄幾十個自由度,存在于 3D 空間中;然後車是嚴禁接觸的,機器人是必須接觸的。
此外,安全性層面,高速動态場景下,車對錯誤的容忍度非常低,因為安全和生命是絕對不能妥協的,自動駕駛不可能上帶幻覺的 AI 大模型,必須是小模型過拟合再加一堆後處理,導致它用傳統 AI+ 規則實際落地。但機器人不太一樣,你還沒有在非常危險的一些場景大規模落地,更多可能在一些靜态的場景,甚至是無人工廠裡,他可以去容忍錯誤,也可以容忍較為長的這種推理,但車的控制要達到 50 赫茲的這種物理頻率控制,導致這個模型不可能去推理一次幾秒鍾,機器人不一樣,它還是一個低速狀态,對于響應速度有時候沒有那麼苛刻,因此它确實需要用大模型來達到一個更高的上限。
所以,車上的都是上一代 AI 1.0 機器視覺和感知,幾百萬、幾千萬參數規模,而機器人是真正的大模型,數十億參數上去,經過互聯網數據預訓練的這種視覺語言大模型,它具備了整個基礎的通用推理認知,還有一些規劃和糾錯能力。
钛媒體 AGI:這一輪 AI 熱潮中,清華系占據一大部分。您怎麼看待很多清華人在 AI 領網域的表現?
姚卯青:清華是理工科最強的學校,而且又有像姚期智老師這樣的世界頂級學者坐鎮,有很好的土壤。至少從海外回來的一些頂尖的人才回國從事教職,我覺得清華肯定還是他們的首選之一。
中美人形機器人沒有差距
钛媒體 AGI:上一次我見到您還是在智元機器人和階躍星辰的合作上,能否簡單聊聊你們的合作細節?
姚卯青:那天是剛剛開始一個簡單的籤約合作儀式,雙方更多合作細節還在探讨過程中。目前我們可以看到的是,階躍星辰确實有國内一線的這種文本模型以及多模态大模型的能力,比如他們現在的文本推理模型可以媲美 DeepSeek-R1 的效果。
不過,推理模型現在很多都是文本,對機器人來講其實是沒什麼用的。因為機器人是需要多模态的,它需要有視覺的輸入,要在有視覺又有語言指令的情況下,再去理解空間,再去規劃任務,甚至規劃一些動作軌迹等,那個是跟文本還挺不一樣的,不是一個純邏輯思維。因此,我們比較期待他們即将發布的視覺推理模型,這應該是國内目前為數不多有多模态的這種視覺推理能力的,對于機器人復雜規劃的大腦是很重要的。
钛媒體 AGI:目前瞄向 AGI 主要有兩派,一是先做語言模型 - 視覺理解模型 - 再到 AGI;另一種像李飛飛提出的 " 空間智能 ",或者是所謂 " 世界模型 ",再到 AGI,您覺得哪條路比較可行?
姚卯青:李飛飛團隊的 " 空間智能 ",其實跟 " 具身智能 " 還沒有特别直接的關聯。她們還是屬于 3D 重建類型,沒有很硬核地做機器人應用,有一些家裝、設計等純 3D 重建一類。真正的 " 空間智能 " 其實是要能夠去生成式預測未來,而不僅僅是預測視頻這類 2D 畫面,應該能夠預測機器人的動作軌迹、3D 的動作軌迹且生成之後,根據周圍的環境和機器人互動所發生的自查,符合物理規律的變化,這個是非常難的。
我們在今年 1 月初發表了一篇 EnerVerse 的論文,就是機器人的世界模型。同時,NVIDIA Cosmos 目前也在使用我們的數據集讓它變得更能理解機器人和物理規律。
我們這次發布的基座模型,其實跟世界模型還不太一樣,它更多是 VLA(Vision Language Action),但它不是一個簡單的 VLA,還是有很多感知、動作、視覺等新的技術和模型能力。
(注:今年 1 月,智元機器人團隊提出了 EnerVerse 架構,通過自回歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成復雜任務。不同于現有方法簡單應用視頻生成模型,EnerVerse 深度結合具身任務需求,創新性地引入稀疏記憶機制與自由錨定視角(FAV),在提升 4D 生成能力的同時,實現了動作規劃性能的顯著突破。實驗結果表明,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。論文地址:https://arxiv.org/abs/2501.01895)
钛媒體 AGI:目前很多人形機器人其實只是在做擺手、翻跟頭、疊衣服等動作和展示,這種能力是不是有點局限,或者說人形機器人應該不是這樣這麼簡單的,您怎麼看?
姚卯青:我覺得,您的觀點是完全正确的。就機器人只會這些的話,其實更多還是娛樂,它沒有產生這種生產力價值,你就只會跑跳翻跟鬥,他對你的生活有什麼幫助?所以更核心的還是,一定是有 AI 大模型,能夠給機器人帶來這種操作上手能力,它可以進工廠作業,也可以在零售、服務業裡面作業,長期來說,它可能還會進入家庭作業,只有真正能夠去做事情,我覺得才是機器人價值被充分發揮的時刻。
钛媒體 AGI:今年春晚上的 " 人形機器人 ",其實是沒有靈巧手的,本身只是一個電機和結構件的旋轉,那麼您認為," 靈巧手 " 還有很高的價值嗎?
姚卯青:我認為,毋庸置疑(靈巧手)是非常重要的。人很多的勞動能力,區别于一些動物的勞動能力價值,其實大部分都在我們的雙臂、雙手上。而機器人 " 靈巧 " 操作,需要一個高自由度的五指靈巧手,而且這個靈巧手要帶很多力覺反饋、觸覺反饋以及力矩控制,因為手比較精細,你要很精細地能夠去控制它的一些力矩等,它不會把東西捏破。
市面上的靈巧手現在依舊還算早期,離我們想象中的靈巧手還有很大的距離。人的手有二十多個自由度,但現在市面上已經量產的靈巧手還沒有達到人類的水平,每個手指只能有一個關節是主動彎曲的,往手掌心這樣彎曲,它沒有側邊的側擺,也沒有旋轉這種。所以,手部功能的局限性會制約未來人形機器人性能的發揮。
钛媒體 AGI:有些客戶反饋,某些場景下,人形機器人的效率還不如人直接拿和放的效率,您怎麼看?
姚卯青:有些機器人确實是這樣,它終究還是在做抓、放這一個動作,這也是為什麼可以在仿真裡面玩。因為抓一些剛性的物體,它動力學比較直觀,可以被仿真,但它到現在還是在做抓放,而且做的都是現在一些常見的 VLA 的模仿學習。
但當機器人最終要進入工廠應用時,會面臨諸多現實問題。在工廠環境中,機器人的操作成功率和工作節拍必須與人類相當,說實話,僅靠 " 模仿學習 " 根本無法達到這樣的效果。因此,機器人必須結合強化學習技術,然而目前這仍是一道較高的技術門檻,并非所有團隊都有能力開展。所以,我們計劃将模仿學習與強化學習相結合。
在 DeepSeek 熱潮之前,我們便已着手強化學習方面的研究,并且組建了一支在真機強化學習領網域極為專業的專家團隊 。
钛媒體 AGI:正如您所講,最近行業裡比較熱的話題是真機 " 訓練場 "。相比其他公司,智元在臨港等地有專門的訓練場,但很多企業偏向于模拟仿真,那麼您認為," 訓練場 " 是否真的很重要?
姚卯青:我覺得,真機訓練永遠是最重要的,這也是為什麼美國的機器人公司很強調真機數據。同時,包括自動駕駛公司也主要用實車數據開發。
道理很簡單,從仿真器到真實世界,這之間還是有很多 gap。仿真能模拟很多物理現象,但也很難精确模拟的一些方面,柔性物體接觸、摩擦力等,這個是很難精确建模的。你像疊衣服這麼一件簡單的事,就很難模拟,所以肯定是真實世界價值是最高的,但真實數據的成本也确實更高。
钛媒體 AGI:您認為現階段中國的人形機器人跟國外先進的人形機器人,如特斯拉的擎天柱相比,是否有差距?
姚卯青:從硬體和算法兩個角度來講,我認為沒什麼差距。因為特斯拉的人形機器人供應鏈也離不開中國企業的支持。
如果要實現馬斯克所說的一個人形機器人 2 萬美元,約合人民币 15 萬元的成本,就必須依靠中國的供應鏈體系,這是毋庸置疑的。而且特斯拉新能源汽車量產成功也已經證明了中國供應鏈的實力。特斯拉的高速發展離不開中國完備的新能源汽車供應鏈和現代化生產制造體系。
從具身算法的模型設計以及最終呈現的效果來看,目前海外的機器人以及我們自主研發的機器人和相關模型,在這方面并沒有顯著的差異。
" 卷 "9.9 萬元價格戰沒意義,人形機器人進入家庭還需 5 年
钛媒體 AGI:波士頓動力創始人 Marc Raibert 去年表示,大部分人形機器人都是 " 炫耀 " 而非生產力,尤其是商業化盈利階段,您怎麼看這個說法?
姚卯青:确實還沒有,但是今年我們希望落地的幾個場景,希望第一個能夠真正做到這樣的(實現生產力的智能機器人)公司,尤其我們在工業場景、部分商用場景其實都有一些布局。
钛媒體 AGI:近期高盛發布研報指出,全球人形機器人的放量步伐将慢于市場預期,您認為這個預測有道理嗎?
姚卯青:看這個市場預期怎麼定義,馬斯克說明年幾十萬台規模,确實是稍微激進了一些,單一企業年出貨量超過萬台是一個有機會達到的狀态。我們 1 月的 1000 台下線是一個裡程碑,在市場能力、制造能力都有比較大挑戰下做到,并沒有那麼容易,因為這個行業還比較新,要達到一個月 100 台的產能其實不容易。
钛媒體 AGI:去年一整年行業最關心的是 "9 萬 9" 機器人,事實上,人形機器人有高昂的研發成本和生產成本,那麼您認為,這種低價戰略對于市場是一件好事,還是壞事?
姚卯青:這是一個非常好的問題。我覺得,9 萬 9 的機器人更多是比較吸引眼球。實際上,可開發版本的費用大約 20 多萬到 50 萬左右,并不便宜。
其次,我覺得這個階段大家何必一上來連蛋糕都還沒有做出來,就開始急着 " 卷 " 價格戰,大家連本體、硬體、算法等都還沒有收斂的情況下就開始價格戰,這個其實沒什麼意義。
所以,更主要的還是要看產品的競争力,你的智能化程度,你的硬體的成熟度,但如果說都達不到給用戶創造價值的時候,你就光去打 9 萬 9,只會把這個市場變成一個很不健康的狀态。
钛媒體 AGI:現在人形機器人還是在工業環境,您覺得需要多長時間能夠進入家庭過程當中?
姚卯青:我們的目标是,今年能真正在 1、2 個工業場景去落地,所謂落地,是說客戶可以真正放心的把它像用工人一樣去用,成本上是可以接受,并且能夠提升產能。未來一兩年,我覺得能有一些局部應用落地,走入家庭,我個人覺得還需要 5 年左右時間,因為家庭環境比較復雜,家庭操作一些物體也不太一樣,任務比較開放式一些。
钛媒體 AGI:在您看來,AGI(通用人工智能)到底是什麼?行業如何正确走向 AGI?
姚卯青:如今數字世界的大模型,現在已經可以算是 AGI 了,它可以回答你所有的問題,可以幫你去總結,甚至規劃,以及回答最難的奧數題,它能夠部分超越人類水平,比如 o3 拿下了 IOI 2024 金牌。
但是,物理智能世界的 AGI,就是能夠在物理實踐裡面像人一樣有通用能力的 AGI,還需要 5-10 年比較長的時間。
一方面,數字智能能夠遷移到物理智能去理解我們的世界,然後去規劃動作,而且要成功、閉環、準确;另一方面,整個大模型和硬體需要更安全、更輕量、更靈巧,需要更成熟的機器人本體、靈巧手,也許還有 5-10 年時間。我相信,物理世界的 AGI 也是可以存在的。
(本文首發于钛媒體 App,作者|林志佳)