今天小編分享的财經經驗:用大白話,講一下人形機器人背後的大棋,歡迎閱讀。
在春晚上跳秧歌的宇樹機器人不會想到,僅僅過了一個多月,自己就已經在 " 節目效果 " 上落後了。
擊敗它的,是一台來自深圳的 " 眾擎機器人 " ——絲滑流暢的斧頭幫舞蹈過于完美,以至于讓很多質疑中國科技發展水平的人表示這肯定是 CG 合成或者 AI 生成。
他們不得不面對這樣的一個艱難的選擇:要麼承認中國機器人技術先進,要麼承認中國 AI 技術先進,要麼承認中國 CG 制作先進。
後來為了應對這些質疑,眾擎專門拿出了第三視角的錄像畫面和訓練花絮。結果卻更令人感到驚豔——眾擎的這款機器人對舞蹈動作的學習,似乎并不是依靠手動輸入的程式指令,而是像人類一樣,一邊看着舞蹈老師的示範,一邊自己模仿。
這是什麼?
這就是 " 端到端 " 啊!
今天能跟着舞蹈老師學跳舞,明天就能跟着工人師傅學着打螺絲,後天就能跟着特種兵學戰術動作。
這背後的想象空間,哎呀,過瘾呐!過瘾!
實際上,從 2024 年底開始,中國的機器人企業便開始了密集的新款機器人產品的宣發——雲深處的輪足機器狗可以在崎岖的南方山地中随意穿梭," 華為天才少年 " 彭志晖的智元機器人已經開始在進行家務勞動訓練。
這麼一看,宇樹機器人單純的扭秧歌,确實在節目效果上就落後太多了。
不過,人家宇樹也沒閒着,你們愛怎麼跳舞就怎麼跳舞,人家一個機器人側空翻視頻,就又一次證明了自己的實力——這動作對于機器人的動作算法、機械性能、平衡能力的要求是相當高的。
雖然 2025 年到現在才過去了不到三個月,但再往後的九個月時間裡,關于機器人的新聞一定不會少。
更細思極恐的是:這一切,其實都已經被計劃好了——早在 2021 年 12 月的《" 十四五 " 機器人產業發展規劃》裡就已經提出了 " 到 2025 年,我國要成為全球機器人技術創新策源地 ",在 2023 年工信部的《人形機器人創新發展指導意見》中,也提出 " 到 2025 年,人形機器人創新體系初步建立,‘大腦’‘小腦’‘肢體’等一批關鍵技術取得突破,确保核心部組件安全有效供給。"
只能說,出來混,說要搞出來,那就要搞出來。非如此,就顯不出咱們的手段。
今天,我們就來徹底聊聊中國的人形機器人產業。
一、人形機器人的價值有多大?
人形機器人的地位,濃縮成一句話就是:這是一個官方認證的 " 颠覆性產品 "。
不要低估了 " 颠覆性產品 " 這個詞,雖然最近這幾年," 颠覆性產品 " 這個詞已經被很多企業給玩兒壞了,搞得随便什麼一個產品的發布會都要說幾聲 " 颠覆 "、道幾句 " 炸裂 ",好像不用這些大詞就不足以表達產品的先進一樣。
但是,在嚴謹且克制的官方話語體系中," 颠覆性產品 " 這個詞的含金量并沒有打絲毫折扣——在 2023 年的那份,《人形機器人創新發展指導意見》中工信部一共列出了四類 " 颠覆性產品 " ——前三個分别是電腦、智能手機、新能源汽車,第四個就是人形機器人。
官方口徑裡的 " 颠覆性產品 ",那就一定是颠覆性的產品。因為想達到工信部的 " 颠覆性產品 " 标準,要求是相當高的,從電腦、智能手機、新能源汽車的發展歷程來看,它們無一例外都滿足以下三條标準:
這款產品,必須能深刻地改變整個中國社會。
這款產品,必須能拉動萬億人民币的市場。
這款產品,必須能培養出至少五家千億元市值的頭部大廠。
言下之意就是:這款產品的普及程度一定極高、銷量一定極為巨大,高到社會上大多數人都會用到,否則談不上深刻改變整個社會。而超高的銷量,也就意味着背後有漫長的產業鏈,不僅是幾個龍頭集成商的事兒,更是背後成百上千家供應商的事業。
回想一下電腦、智能手機、新能源汽車這些年帶來的變化,我們就能感受到工信部所說 " 颠覆性產品 " 的含金量——人形機器人是一個能培育出像華為、小米、比亞迪這樣的超級大廠的賽道,是一個能讓現在本就如日中天的大廠們更上一個台階的賽道,是一個能夠養活包括軟體、硬體、應用在内各種配套產業的賽道。
也只有這樣的賽道,才配得上 " 科技競争新高地、未來產業新賽道、經濟發展新引擎 " 的描述。
二、為什麼一定要做成人形?
那麼,人形機器人憑什麼能有這麼大能量呢?
憑什麼可以被安上如此高的價值呢?
很簡單,因為 " 人形 "。
" 人形 " 并不是一個簡單的外觀問題,背後的含義那是相當深刻。
" 人形 " 的真正含義是:不論在工業生產場景還是在日常生活場景,都能提供超強的通用性。
以工業生產場景為例,人形機器人幾乎是實現 " 智能制造 "" 柔性制造 " 的必要條件。
眾所周知,人是最精密的機器,因為人的行動是 " 三維 " 的。
假設你現在有一個生產筷子的工廠,生產工序的最後一步就是把十根筷子塞進一個圓筒裡并擰上蓋子。
如果是人工操作,那麼這道工序就非常容易——點出來十根筷子、一把抓起、在桌面上怼一下對齊、塞進圓筒、擰好蓋子——這就是人工操作的優勢,簡單直白、清楚明确,幹就完了。
這種簡單到極致、高效到極致的操作,就是人類三維動作的優勢。
不過,雖然人類的動作兼具了簡潔和高效,但人類實在太脆弱了—— " 整理筷子 " 這個動作,做一次兩次不算個事兒,那如果要做 1000 次 2000 次呢,要是每天連續不停做好幾個小時呢?人類的小胳膊小腿兒,還能扛住嗎?
這個時候,就要選擇 " 自動化流水線 " 了。
自動化流水線的優勢很好理解。它是機器,可以 24 小時不間斷運行,不知疲倦,而且速度比人類快得多。但劣勢則在于,它是 " 二維 " 的——一個人類可以輕松完成的動作,機器想做到往往需要拆分為多個步驟。
還是以 " 整理筷子 " 為例,一個自動化流水線想完成這個在人類看來非常簡單的動作可能需要如下流程:
用振動盤整理散亂的筷子,用計數器點出十根筷子, 用夾具抓取 10 根筷子、同時将圓筒固定好,筷子和圓筒對齊後,把筷子塞進圓筒裡,最後用伺服電機配合夾具擰緊蓋子。
雖然一個動作拆成好幾個步驟看上去不怎麼優雅,但這樣做的效率也可以很高。只是,這種把 " 簡單的事情變復雜 " 的行為卻有一個相當大的弊端——自動化流水線是高度定制化的,整理筷子的流水線是沒辦法用在整理盤子上的,想用來生產新產品,很多時候就需要重新設計、建造生產線。
你工廠的 SKU 但凡多一點,牽連的生產線更新費用那就是一大筆錢。
而這種弊端,和 " 柔性制造 "" 智能制造 " 的大趨勢完全矛盾。
說到底,傳統的自動流水線,它還是 " 結構化 " 的——哪怕現在有不少企業生產的 " 柔性制造 " 能力很強,本質上也不過就是把好幾套動作、好幾種硬體融合在一起而已。
它可能真的學了不少姿勢,但其實身體并不靈活。
寫到這裡,我們就能知道 " 人形機器人 " 的價值了。因為人形,所以它的動作也是三維的、是不需要展開成為多個二維動作的——面對生產不同產品的任務,人形機器人只需要在軟體層面改變動作方式即可,不需要像傳統自動流水線那樣完全另起爐灶。
相比起傳統流水線,人形機器人是 " 非結構化 " 的。
理論上來說,只要算法、硬體足夠強大,人形機器人就能做到和人一樣的靈活——别看它現在沒學幾種姿勢,但它身段足夠靈活,以後總是能學會的。
那麼,對于制造業企業來說這意味着什麼呢?
首先就是響應速度可以很快,可以非常快地适應市場需要。
其次就是極大程度降低改造和更新的成本。
傳統自動流水線的建設流程是相當長的,非标自動化這個行業主打的就是一個卷,你得親身去工廠和工廠老板談,知道人家到底想要的是什麼,然後展開設計、建造、調試,後期還有維護和修理在等着你 ...... 總之整個周期可以說是相當長,也相當死板。
而且傳統自動流水線的設計往往也都是 " 一次性 " 的,很多流水線在設計的時候沒有什麼模塊化的概念,遇到更新改造就得推翻重來,舊有設計不能重復使用,設計成本和出錯的概率大大增加。
最終結果就是:一旦市場有變,需要在產品上加點什麼新功能、新部件,那原來設計好的東西很可能就廢了。
以杭州某企業為例,2023 年底的時候,這家企業曾經開發過一種 AI 攝影機。本來風平浪靜的,結果正好迎頭趕上了 AI 行業火爆,市場對 AI 算力的需求提高,產品的性能需要翻倍。但遺憾的是,這家企業的生產線依舊是傳統的自動流水線,改造時間極為漫長,企業不得不推遲發布時間,被對手搶了先機,原本的市場份額丢了許多。
而如果是成熟的人形機器人,這種事情就很好處理——因為三維的人形機器人是沒必要展開那麼多二維動作的,改造生產線的必要性也就沒有那麼高。
甚至,對于人形機器人來說,生產流程改造什麼的,很大程度上在軟體層面上就可以解決——幾個程式員就能搞定的事兒,沒必要停機。
基于上述種種優勢,我們有理由認為:對于未來的制造業而言,人形機器人是不可缺少的一環。
三、人形機器人的成本,阻礙了推進
雖然人形機器人的前景遠大,可眼前的問題簡單卻又難以跨越:
三個字,不賺錢。
說 " 不賺錢 " 其實有點不全面,現在靠人形機器人賺錢的路子倒也有,只是匹配不了這麼高的價值——在當下這個階段,出租機器人,讓這些機器人去參加展覽、演出、當吉祥物,遠比讓他們進工廠打螺絲賺得多——官方定價 9.9 萬元的宇樹 G1 機器人,在二手交易平台的租賃價格最高一度達到每天 1.5 萬元,目前依舊穩定在 8000 元左右,并且供不應求。
某種程度上,這種 " 提供情緒價值 " 的吉祥物表演階段也是機器人發展的必經之路了—— 1973 年日本早稻田大學就已經開發出了全尺寸的人形機器人 Wabot-1,本田也在 1986 年開始研發機器人的雙足結構,後期更是推出了 Asimo 機器人。日本人雖然起了個大早,但最終也沒有攻克成本問題—— Asimo 的租金每年高達 2000 萬日元,提供情緒價值都太貴了,只能讓本田自己放在展會上秀一下肌肉。
而後面波士頓動力的阿特拉斯、特斯拉的擎天柱也是一樣,雖然技術上都有不小突破,但連大規模商用的邊都摸不到。
由此可見,成本降不下來,人形機器人就沒有普及的可能。
對于人形機器人來說,其發展規律一定是先進廠打工,再到尋常百姓家裡幹活兒。原因很簡單,1000 萬砸在工廠裡很多時候也就是聽個響,甚至不夠建一條產線,但對消費者來說這就是天文數字。而且工業場景比起家裡還是簡單、單調太多了,短期内更适合還沒有進化到完全體的人形機器人發揮作用。
只不過,以目前的情況來看,今天的機器人哪怕是進廠,成本也過于高昂了些。
一家工廠購買機器人,大概率是要求人形機器人的購買、折舊、維護等綜合成本小于雇傭人類工人。但當下人形機器人的價格比起用工成本還是太高了——能上產線的機器人,價格在幾十萬到數百萬,不把這個價格打下來,機器人進廠打工就只能存在于 PPT 上。
人形機器人這麼高的成本是怎麼來的?
制造成本是一方面,但真正阻擋人形機器人進一步發展的,終究還是訓練成本。
2013 年波士頓動力的阿特拉斯就已經在機械性能上做到了相當高的程度,足以完成許多高難度動作。但在軟體層上,阿特拉斯只能根據預先設定的 " 行為庫 " 裡的動作進行運動。
強如阿特拉斯,也只會那麼幾種姿勢而已。
阻擋阿特拉斯更進一步的,表面上看是動作的靈活與豐富,本質上其實是數據和算法——人形機器人想要學會和人一樣做事情,數據和算法是相當重要的。我們能看到的是機器人在前台的表演,看不到的是背後的數據和訓練。
随便一個簡單的動作,哪怕只是撿起一個東西,背後就需要采集上百條高質量的數據。如果想讓機器人在工廠裡發揮作用,那數據條數是千億起步。
以特斯拉的 Optimus(擎天柱)機器人訓練為例——為了訓練它,特斯拉專門聘請了幾十位動作捕捉人員,要求他們每天都要走七個小時,以保證能給機器人喂足夠多的數據。但這其實遠遠不夠,因為如果想讓機器人能在工廠裡幹活兒,訓練數據的時長在百萬小時,總成本五億美元起步且不保證 100% 成功。
要注意,這還只是機器人廠商自己組織的訓練,某種程度上只能說是 " 基礎課 "。而最終投入實用,不同工廠、不同崗位的行動自然也不同,機器人還得在補修 " 專業課 "。而更進階的 " 專業課 " 學費,那就要購買機器人的工廠來自己支付了。
不難想象,面對現階段如此高昂的機器人訓練成本,工廠們大概率是不願意買單的。
畢竟,人形機器人的自動控制可比自動駕駛難太多了,不僅需要考慮水平面上的運動軌迹,還需要考慮三維空間裡的物體運動。如果只是依靠人類的遙控和動作捕捉,根本就沒辦法提供足夠的數據。
谷歌當初在一個廚房的場景裡死磕了 17 個月,最後也就采集了 13 萬條數據,機器人在這個熟悉的環境裡表現得非常優秀,但只要換個環境,立刻就崩盤了——成功率從 97% 暴跌到了 30%。
過少的數據,導致現在人形機器人的功能不能 " 泛化 ",不能适應場景的切換。
所以,對于當前階段人形機器人的發展來說,最急需解決的就是訓練成本問題——如何找到一種高效的訓練方法,使得人形機器人可以低成本、快速掌握崗位所需的諸多技能。
而這,恰好就撞到了各大企業的槍口上。
四、大廠們正在大力投入機器人
人形機器人的核心系統,大概可以抽成 " 大腦 "" 小腦 "" 肢體 " 三部分," 大腦 " 負責的是讓機器人理解指令、規劃行動;" 小腦 " 負責根據規劃控制動作;" 肢體 " 則是各種機械結構來具體執行動作。
或者,你也可以把大腦小腦統一歸結為上半身,肢體運動什麼的統一歸結為下半身。
宇樹、眾擎這些新銳的機器人企業,有一個算一個,其實研究的都是 " 下半身 "。
而真正能讓機器人發揮出強大威力的,還得是 " 上半身 "。
而不論是 " 大腦 "" 小腦 ",其實最後歸根結底,都還是要靠 AI 實現的——這恰恰就是中國科技企業的優勢領網域了。
實際上,中國的科技企業,從阿裡、騰訊到京東、美團,從華為、小米到大疆、比亞迪、塞力斯 ...... 有一個算一個,都已經在布局人形機器人了,區别只在于具體以什麼樣的形式進行布局。
像阿裡、百度、騰訊這些大公司,雖然都開始布局這個領網域,但基本上沒有自己動手造機器人的身體,而是更願意掏錢投資相關企業,或者利用自己擅長的數據技術,專門研究機器人的 " 大腦 " ——也就是那些復雜的算法和模型。
說白了,這些互聯網公司更看重的是機器人的 " 軟體 " 部分,而不是 " 硬體 " 部分。他們覺得,與其費勁去造機器人的外殼和零件,不如專注于讓機器人變得更聰明、更智能。這些互聯網公司現在就開始布局,為未來做準備。不過,他們的做法更像是 " 幕後軍師 ",而不是 " 前線戰士 "。
不過,值得一提的是,當前互聯網巨頭們在人形機器人領網域的目光主要還是聚焦于通用的大模型上。現在技術還不能讓機器人像人類一樣直接感知周圍環境并自主做出決策和行動,它們更多是依賴外部設備來獲取信息。
國内幾大互聯網公司,比如百度、阿裡、騰訊,都推出了自己的多模态大模型,比如百度的 " 文心 "、阿裡的 " 通義 "、騰訊的 " 混元 "。這些模型雖然能處理多種類型的數據,但還做不到讓機器人 " 活 " 起來,真正與環境互動。
不過,國内企業也在努力向 " 具身智能 " 方向發展,也就是讓機器人擁有更接近人類的感知和行動能力。
以字節為例,字節跳動在機器人領網域的探索從 2020 年就開始了,他們利用自己在互聯網行業積累的數據優勢,開發了各種大模型。2024 年,字節還發布了 GR-2 具身大模型—— GR-2 具身大模型的亮點在于它像嬰兒一樣學習復雜任務。
預訓練階段,它 " 觀看 " 了 3800 萬個互聯網視頻和 500 億個 tokens,涵蓋家庭、戶外等場景,具備多任務學習和環境适應能力。微調階段,通過機器人軌迹優化視頻生成和動作預測,展現出強大的多任務學習能力,在 100 多個任務中平均成功率高達 97.7%。
阿裡通過 " 通義千問 " 大模型成功将 AI 技術應用于工業機器人,Qwen2 系列模型開源後下載量超 4000 萬,衍生模型達 5 萬,并達成千萬級商業訂單。阿裡積極投資 AI 大模型企業,覆蓋月之暗面、MiniMax 等頭部項目。2024 年 5 月,阿裡通過 " 杭州灏月 " 增持人形機器人企業逐際動力,成為其第二大股東,強調技術落地與盈利性。
小米則不走尋常路,自主研發人形機器人。2022 年推出首款全棧仿生機器人 Cyber One,标志着小米進軍人形機器人領網域。
雖未量產,但 Cyber One 已逐步融入小米自有制造系統。2024 年 6 月,小米機器人公司遷至亦莊工廠,Cyber One 開始分階段落地,向特斯拉那樣的工業制造路線靠攏。
野心最大的,也許就是騰訊了。
别說這些互聯網企業了,車企甚至都開始入局了。
2024 年,車企紛紛進軍人形機器人領網域,廣汽推出 Go Mate,小鵬發布 Iron,小米有 Cyber One,奇瑞有 Mornine,比亞迪有 " 堯舜禹 "。就在這兩天,靠着問界火起來的塞力斯也加入了戰局,布局方式包括但不限于投資(如吉利)、自研(小鵬、小米、廣汽)和合作開發(奇瑞)。
其實這也很好理解,車企在人形機器人領網域具有天然優勢,因其與自動駕駛技術相似,涉及 " 感知 + 決策 + 執行 "。AI 芯片、電機、傳感器等技術可直接復用,自有工廠則為機器人落地提供了理想場景。跨界角逐已成必然趨勢。
就在今天,3 月 26 日,一汽奧迪宣布國產機器人開始進廠打工,vivo 也官宣成立機器人實驗室。
總而言之就是,人形機器人已經成功勾引到了中國幾乎所有上台面的大型科技企業。
結尾:人形機器人依舊是中美之間的競賽
科技的發展,是有規律可循的。
這就像是遊戲裡的科技樹,你必須點亮前置科技,才能點亮後面的科技。
人形機器人的前置科技是 AI,AI 的前置科技是互聯網。
日本雖然是最先開始人形機器人探索的國家,但很遺憾,日本的人形機器人從始至終就沒有和智能化沾邊——因為日本人沒有點亮互聯網和 AI 的科技樹,只能在機電領網域死磕。
但中美兩國則不同,互聯網、AI 都是中美兩國的優勢領網域,所以人形機器人最終的競争,也一定是中美兩國企業之間的對轟。
美國那邊有波士頓動力、有特斯拉、有 FigureAI,我們這邊有宇樹、智元、眾擎、優必選 ...... 實際上,全球 150 多家機器人企業,超過 80 家都在國内,剩下的 70 幾家不用想,基本也在北美了。
今年往後的幾個月,中美兩國的人形機器人企業一定都會整出來各種狠活兒,因為融資規模擺在這,各路資本都已經開始投資人形機器人了。
在我看來,中國一定會率先在人形機器人上做出實質性的突破——原因無他,因為論起工業數據,論起工業場景,誰又能和世界第一工業國一較高下呢?
本文來自微信公眾号:星海情報局,作者:星海老局