今天小編分享的互聯網經驗:大模型給具身智能裝上“大腦”,歡迎閱讀。
文 | AI 大模型工場,作者 | 參商,編輯 | 星奈
剛過去的八月,AI 領網域機器人 " 上桌 "。前有華為天才少年 " 稚晖君 " 的智元機器人一口氣發布了五款商用人形機器人,後有多達 27 款人形機器人亮相世界機器人大會。
蘋果也宣布将進軍機器人行業,推出一款帶有機械臂的桌面機器人,代号 J959。外媒猜測,蘋果将利用這款機器人設備打入智能家居市場,被認為是蘋果進軍機器人市場的第一步。
據外媒報道,該設備将結合一個類似 iPad 的大型顯示屏、攝像頭和一個帶有機械臂的底座,預計将于 2026 年或 2027 年左右發布。
從搬運貨物的輪式機器人到能寫一手老練毛筆字的 AI 機器人助理,再到可以檢測汽車部件的工業機器人,人形機器人正在向產業和生活端不斷滲透。
同時,國内具身智能熱也從產業端蔓延至投融資領網域,熱錢瘋狂湧入。根據來覓 PEVC 的數據顯示,2024 年一季度機器人領網域合計發生融資案例 59 起,涉及融資金額 45.22 億元。其中,最為瘋狂的是,智元機器人成立 17 個月就完成了 7 輪融資,投前估值已達 70 億元。
具身智能成為繼 AI Agent 之後的另一個火熱的大模型落地方向,也是大家都無法也不敢錯過的存在。
一方面,創業者集中湧入。IT 桔子數據顯示,2023 年 1 月至今國内共成立了 29 家人形機器人公司,其中有 22 家已經獲得至少 1 輪融資。
另一方面,大廠也都或多或少地參與到具身智能的投資中。具身智能初創企業融資背後不乏百度、阿裡、美團、科大訊飛、小米、聯想、京東等科技巨頭的身影。
實際上,現在具身智能之所以如此火熱出圈,離不開大模型及生成式 AI 的發展。
具身智能這一概念早在 1950 年就被提出,進入 21 世紀後,具身智能開始在機器人領網域進一步發展。直到去年 ITF World 大會上," 具身智能 " 概念被黃仁勳帶火。黃仁勳直言,人工智能的下一個浪潮将是具身智能,即能理解、推理并與物理世界互動的智能系統。
大模型的出現讓具身智能賦能實際應用這曾一遙不可及的夢想有了實現的可能性。
那麼大模型是如何影響具身智能的?具身智能是昙花一現還是能長盛不敗?其發展的難點、卡點和關鍵點又是什麼?
初創企業狂吸金,巨頭進場砸錢
在大模型領網域一直流傳着 " 新 AI 四小龍 " 和 " 大模型五虎 ",而在具身智能賽道也有自己的 " 新舊四小龍 "。
" 老牌四小龍 " 包括優必選、達闼機器人、非夕科技、宇樹科技;" 新四小龍 " 則分别是智元機器人、有鹿機器人、逐際動力和銀河通用。
老牌四小龍成立時間早,大多集中在 2012-2015 年成立,在技術、產品以及市場上都更為成熟。
而新四小龍則大都誕生于這波大模型浪潮下,相比于傳統機器人公司,他們更加關注将 AI 與機器人的深度融合。盡管成立時間較短,但這些新興公司在市場上展現出強大的競争力,吸引了大量投資。
智元機器人成立之初就自帶光環,由華為天才少年 " 稚晖君 " 帶隊,專注于發展通用人形機器人和具身智能,致力于以 AI+ 機器人的融合創新,打造世界級領先的機器人產品和生态。
目前,智元機器人已經拿到了天使輪、A 輪、A1 輪、A1+ 輪、A2 輪、A3 輪、A4 輪等多輪融資,其中包括紅杉中國、尚欣資本、上海臨港新片區基金等頂級資本,還有百度、比亞迪、上汽等產業資本," 吸金 " 能力可謂強悍。
另一家明星企業當屬銀河通用。去年 5 月成立的銀河通用,在今年兩個月内,就完成兩次融資,今年 6 月獲得超 7 億人民币天使輪融資,被稱為 " 年度最大天使輪 ",僅一個月後香港投資管理有限公司追加投資。在新一輪融資後,銀河通用的最新估值為 4.25 億美元。
兩次融資的陣容也十分豪華,既有中關村科學城、首鋼基金等國資背景,也有 IDG 資本、源碼資本等風投機構,同時還包括美團戰投、訊飛創投、商湯國香資本等產業資本。
有鹿機器人和逐際動力也都憑借着自身的技術優勢和商業化落地方案獲得了資本的青睐。
有鹿機器人專注于機器人通用大腦研發,依托于自主研發的第二代具身智能技術 LPLM 大模型致力于讓每一台專業設備都擁有智能性。在今年 5 月獲得一筆來自中國頭部清潔設備制造商的超千萬元的訂單。
據官方披露,截至目前有鹿機器人已完成由元璟資本、創新工場、百度風投等投資的超 1 億元融資。
逐際動力是為數不多的将空間智能與運動智能結合的公司,這意味着機器人同時具備了 " 眼睛 " 和 " 肢體 " 的協調能力。其自主研發的 "CL-1" 的人形機器人已經基于實時地形感知上樓梯、起跑加速、轉身往返等運動。
7 月,逐際動力也完成數億元 A 輪戰略融資,由阿裡巴巴、招商局創投、上汽集團旗下尚颀資本領投,原始股東峰瑞資本、綠洲資本和明勢資本跟投。
一方面是,具身智能初創企業瘋狂吸金。據智東西統計,截至 2024 年 6 月 30 日,今年國内機器人行業融資 69 起,已披露金額的融資事件中億元級融資 12 起,機器人領網域已披露融資總額總計約在 75 億元左右。
另一方面是,巨頭正在瘋狂砸錢。如果仔細分析就會發現,在具身智能融資背後,國内外大廠在具身智能領網域的争奪也進入白熱化階段。
百度、阿裡、騰訊、美團等選擇直接投資。百度今年連續兩輪押注智元機器人;阿裡領投逐際動力;而在銀河通用背後站着美團;騰訊投資了港股成功上市的 " 人形機器人第一股 " 優必選。
而字節跳動、小米等則選擇自主研發,字節跳動在 AI 和機器學習領網域有着深厚的積累,小米則在智能家居和機器人領網域有着豐富的經驗。
具身智能作為大模型之後的下一個人工智能趨勢,大家都不想錯過。
大模型給具身智能裝上 " 大腦 "
斯坦福大學計算機科學教授李飛飛認為,具身智能是 AI 領網域的下一個 " 北極星問題 " 之一,它能夠在虛拟世界中探測和改變自身環境,與周圍環境互動,學習復雜的類人任務。
即具身智能能夠在與現實環境產生互動後,通過自身的學習,認識和改造世界。區别于我們目前所提到的 AI 大模型,如果說 AI 大模型現在能夠認識世界,那麼具身智能是 AI 的更高階形式,能夠對物理世界進行改造。
這也就意味着,具身智能的實現需要軟硬體高度集中,其中的核心突破點在于大模型。可以說,大模型給具身智能裝上了強大的 "AGI 大腦 "。提升了機器人在感知、理解和規劃任務上的泛化能力,也對人機互動產生颠覆性影響。
那麼大模型如何影響具身智能的?
從架構上看,具身智能分為大腦、小腦和肢體三個重要部分。大腦負責感知和決策,小腦控制肢體生成動作,肢體則通過傳感器、執行器等硬體設備與物理世界進行互動。
以往,傳統的具身智能系統存在環境适應性差,只能在特定、預定的環境中運行,難以适應復雜多變的環境;任務執行效率低,往往需要人工幹預;及缺乏自主學習和泛化能力。
而大模型的出現,正在改變了這一現象。大模型對具身智能的影響更多集中在 " 大腦 " 層面,目前的通用大模型本質都是在接收和回答圖文信息,是決策和感知的過程,而最直觀的效果是我們可以與機器人用自然語言的方式進行交流。
去年 7 月,李飛飛團隊發布具身智能新成果,機器人接入大模型後直接聽懂人話,将復雜的指令轉化成具體行動規劃,無需額外數據和訓練。
在大語言模型 + 視覺語言模型的輔助下,機器人能從 3D 空間中分析出目标和需要繞過的障礙并規劃行動。
大模型的出現讓機器人理解世界的能力、推理決策的能力得到大幅度提升。
大模型之于具身智能的意義,不僅在于大模型讓機器人獲得自然語言能力,更重要的是這極大降低了機器人的使用門檻,有望推進機器人落地各行業應用場景。
可以說,大模型的成功,為具身智能的發展帶來了拐點,除了大模型的賦能,政策端的加持讓這一拐點加速推進。
2023 年 11 月,工信部又印發《人形機器人創新發展指導意見》,提出到 2025 年建立創新體系、整機產品達到國際先進水平,以及到 2027 年產業綜合實力達到世界先進水平等發展目标。
今年 6 月,北京也發布《北京市機器人產業創新發展行動方案 ( 2023-2025 年 ) 》,首次針對人形機器人行業進行政策指導,并提出加緊布局人形機器人,對标國際領先人形機器人產品,支持企業和高校院所開展人形機器人整機產品、關鍵零部件突破瓶頸和工程化。
在國内,人形機器人在智能制造領網域不斷滲透,覆蓋電子、汽車等行業。家用場景下的機器人今年也迎來前所未有的發展機遇,市場規模已觸及數百億美元的量級,并預計未來十年内将繼續保持高速增長的态勢。
據國際機器人協會預測,2021 年至 2030 年,全球人形機器人市場規模年復合增長率将高達 71%。中國電子學會數據顯示,到 2030 年,我國人形機器人市場規模有望達到約 8700 億元。
從技術到產業,從政策引導到商業落地,具身智能的時代正在到來,也是各大科技巨頭押注具身智能深層原因。
具身智能的難點、卡點和關鍵點
盡管具身智能現在融資火熱、新品頻出,未來市場廣闊,但業内普遍認為產業尚處于早期,要形成規模化商業化應用還有很長一段路要走。
具身智能要向前發展,難在盈利和落地,卡在數據。
首先,具身智能商業化前景不明朗,盈利難。
被譽為 " 人形機器人第一股 " 的優必選,已經連續四年虧損。從 2020 年至 2022 年,公司的淨虧損分别達到 7.07 億元、9.20 億元、9.75 億元和 12.34,累計虧損超過 38 億元,且毛利率也在不斷下滑。
具身智能難以實現商業化的背後是落地難的窘境。
目前人形機器人主要集中在在工業、互動服務、營銷,以及商業 3C 等場景,在家庭服務方面,要完全走進還需要 5-8 年時間,甚至更遠,而更多應用場景仍處在探索和試驗階段。盡管有些具身智能企業已經開始小規模量產,而要達到市場所需還遠遠不夠。
實際上,具身智能場景受限和量產困難的背後是成本的制約。盡管目前人形機器人的制造成本在逐漸下探,由之前的上百萬到如今的幾十萬,但對于整個市場的接受度來說依然在上限之上。
具身智能背後涉及從軟體到硬體的超長供應鏈,且技術門類眾多。
伺服器、減速機、控制器是工業機器人三大核心零部件,成本占比超 70%。由于人形機器人相較于工業機器人擁有更大的自由度,因此減速器、電機成本占比将會更高。
要想将人形機器人的成本打下來,通過自研降低這些關鍵零部件的價格是繞不開的關鍵點。
在成本方面,還有一個大頭——數據。
數據是具身智能發展的核心壁壘,如何能持續從物理世界獲取數據并高效使用是制約其繼續發展的主要瓶頸。
當前,對于具身智能公司來說,絕大部分數據都是閉源的,如果要實現長足發展,構建數據自主權是必須要解決的問題。
智元機器人在過去一年裡,構建了一套完整的全流程具身數據方案 AIDEA,投入了大量的數據采集成本。
稚晖君表示,他預計接下來智元會有百台以上自由部署機器人專門用來做端到端的數據采集,他們也将于四季度開源基于 AIDEA 的百萬條真機、千萬條仿真數據集,以積極建設開放生态。
實際上,數據問題背後還涉及到具身智能的泛化問題。泛化可以理解為一種遷移學習的能力,把從過去的經驗中學習到的表達、知識和策略應用到新的領網域。
上文提到大模型對具身智能得影響主要集中在大腦層面,在感知和決策完成後,需要機器人調用 " 小腦 " 去泛化,根據任務驅動身體完成行為。
而在這一過程中大模型對肢體運動和控制得作用則小很多,也就是說具身智能得泛化能力還受到很大局限。
數據問題又不僅是數據問題,它與商業化息息相關。
當時 GPT-40 發布時就有人分析,OpenAI 之所以沒有發布 GPT-5 而是發布 GPT-40 的一個重要原因是想利用 GPT-40 獲取更多高質量的多模态數據資源。
有鹿機器人陳俊波博士曾表示,具身智能需要像特斯拉一樣在真實物理世界裡獲取數據來完善世界模型,但想獲取真實物理世界的數據必須率先完成商業化,第一時間把產品投放到市場,獲得更大規模和更高質量的數據,數據規模變得更大後,智能程度更高,進一步推動商業化程度,實現正向循環。
長期來看,具身智能產品研發投入高、應用落地周期長,行業的馬太效應會逐漸顯現,資金和資源将湧向有技術突破、產品創新及手握訂單的頭部明星創企,而中腰部及尾部生存空間将進一步壓縮。
對具身智能企業來說,要想實現長足發展,數據、技術、商業化三者缺一不可,只有讓這三個飛輪轉起來,才能有望跑出來。