今天小編分享的科技經驗:花5萬元請的機器人“保姆”“員工”是這樣訓練出來的,5年後你一定會更好奇!,歡迎閱讀。
探訪全國唯一規模化數采中心,人形機器人與大模型 " 合體 "
作者/ IT 時報記者 孫妍
編輯/ 潘少穎 孫妍
坐落于上海市張江機器人谷的智元機器人數采中心,是全球唯二、全國唯一的規模化機器人數采中心,這裡每天產出數萬條真機數據和仿真環境數據。
上百台智元數采機器人的背後,都有人類在 " 手把手 " 教,讓機器人復刻真實世界裡的技能,一個倒水的動作,每天至少重復 200 次。
當機器人學會足夠多的技能,當機器人的成本降至人人用得起,它們才會走向千家萬戶。這個時間點大概在 5 年後,到時候,普通家庭花 5 萬元就能将機器人 " 保姆 " 請回家。如果你的動手能力強,完全可以像搭樂高一樣組裝機器人 " 保姆 ",将它開發成全能幫手。
目前,極客們已經可以花一天半 " 手搓 " 一個專屬人形機器人,而人形機器人與 " 賈維斯 " 之間的距離是一雙可以洞察萬物的雙眼和一個實時學習的大腦。
于是,百度與智能機器人 " 聯姻 ",大模型和人形機器人的 " 合體 " 打開了更大的想象空間。
機器人的 " 全能修煉 "
上百台 " 遠征 A2-D" 數采機器人正在被訓練,它們在卧室學習拉窗簾、疊衣服,在客廳裡學習倒水、擦桌子,在廚房學習揉面、做咖啡,在衛生間學習擦馬桶。走出家門,就能到快餐店裡吃一塊機器人做的三明治,上菜後 " 叮 " 的一聲按鈴。在辦公室裡,機器人甚至連擰礦泉水瓶蓋的活都做了。來到工廠倉庫,隔着鐵絲網可以看到,機器人正在分揀零件,一旁還有機器人在練習打包、搬運等工作 ……
在 4000 平方米的智元機器人數采中心,有家居、餐飲、商超、辦公、工業五大場景,包含超 200 個細分場景的任務。
每一台機器人背後都有人類,他們是來自五湖四海的大學生,一手握着搖桿,頭戴 VR 眼鏡,每天至少重復 200 次同一個動作,讓機器人模仿他們。他們操控機器人,打開咖啡機上蓋,小心翼翼地裝入一顆膠囊咖啡,蓋上蓋子,啟動按鈕,才算完成一套完整的動作。
一旁的機器人有點 " 任性 ",讓它揉面,一挪動揉面板,它卻不小心打翻了一旁的燃氣灶支架。因為單一、重復的數據對訓練大模型的作用甚微,數據采集員需要不停地 " 上難度 ":将水壺放在不同的位置讓機器人練習倒水,拿不同的零食讓機器人抓握到箱子裡 ……
" 一般簡單場景只需要幾百條數據,但復雜場景可能需要采集幾萬條。" 一位數據采集師告訴《IT 時報》記者,比如要不停地調整水壺的樣式和位置、杯子裡的水位、環境光照等因素,才能更好地訓練機器人拿放和倒水姿态,形成對環境的基本感知,也就是不同場景下的泛化能力。
2024 年底,智元機器人開源了數采中心采集到的百萬真機數據集,比 Google 的 Open X-Embodiment、AgiBot World 長程數據規模高 10 倍,場景範圍覆蓋面擴大 100 倍,數據質量也從實驗室級上升到工業級标準。
" 大型培訓學校,可以批量培訓保姆、服務員、工人等 "" 機器人在訓練時看起來并沒有那麼智能 "" 機器人崛起後,會不會感恩人類這麼用心地教它們?"《IT 時報》記者與同行的媒體人紛紛感慨。
大模型與人形機器人 " 合體 "
除了人教機器人,AI 也能賦予機器人眼睛與大腦,使其具備視覺和思考能力。
2 月 27 日,百度智能雲與 " 稚晖君 " 彭志輝領銜的智元機器人籤署戰略合作協定。AI 大模型與人形機器人 " 合體 ",頗有想象空間。所謂具身智能,可以簡單理解為機器人安上了 "AI 大腦 ",大腦不僅可以指揮身體做動作,也使機器人有了與現實世界互動的能力,包括感知、決策、行動等。
在戰略合作的首期落地階段,百度智能雲與智元機器人将聚焦教育市場,依托百度智能雲 " 視覺大模型 + 邊緣計算 " 的軟硬一體解決方案,結合智元遠征系列專業數采和互動服務機器人、靈犀全棧開源機器人、AIDEA 全棧數采方案等產品方案的研發布局,共同打造可二次開發的人形機器人平台。
" 主要面向 C 端用戶推廣。" 百度工業產品運營組行業解決方案總監呼嘯向《IT 時報》記者介紹,首先會面向高校用于科普教育,或是面向極客和開發者,進行二次開發和拓展應用,從實驗室走向商用落地。
在 AI 實訓實驗室中,高校師生可通過平台内置的行業模型庫和算法產線,自主訓練機器人完成物品分揀、環境巡檢等高精度任務模型。
這不僅降低了 AI 開發門檻與實驗室的建設成本,更為教育科研機構開展人形機器人 DIY 開發,開辟了又一條路徑。
在 " 人人造 " 現場,一群機器人愛好者正沉浸到電機關節、傳感器、網域控制器等一堆零件中,有條不紊地按照圖紙和裝機視頻進行組裝,一般一天半可以 " 手搓 " 一台 " 超現實機甲 "。在極客眼中,安裝一個自己專屬 " 賈維斯 ",就像普通人安裝一件宜家家具,甚至拼裝一件樂高玩具一般簡單。
當 " 靈犀 " 遇上 " 一見 "
近日,智元機器人在官方電商平台智元商城推出全球首款全棧開源機器人靈犀 X1 的整裝組件。靈犀 X1 采用模塊化設計,輕松拆裝,靈活自由,安全輕量,高可擴展等特性讓它更适合人機互動與輕服務場景。
早在 2024 年 10 月,智元機器人已向全球開發者開源靈犀 X1,而且是軟硬體 " 一站式 " 開源,全套圖紙和代碼已上線 GitHub,開發指南已上線智元機器人官網,這大幅降低機器人技術開發的門檻。GitHub 數據顯示,靈犀 X1 開源上線短短一個月,star 總數超過 2900,總 Fork 數累計超過 981。
整機結構硬體的圖紙,細致到每一個螺絲和齒輪,整機的全部物料可通過自行加工或購買獲取,還特别提供整機裝機說明,幫助開源用戶迅速完成機器人本體的組裝;在整機軟體算法方面,智元機器人提供了 AimRT 平台組件、機器人 URDF 檔案、仿真 Sim2Sim、Sim2Real 代碼、強化學習訓練代碼、模型轉換、推理工具和調試工具(數據可視化、遙控器)等,涵蓋了整個開發流程。
據百度智能雲泛科技副總經理張帆介紹,百度智能雲将基于一見視覺大模型平台與 EdgeBoard 開發板卡,在教育科研、安全生產、連鎖合規、工廠 SOP、農業等場景,雙方可以打造人形機器人的标杆場景。
光靠人教機器人是有限的,而百度雲的 " 一見 " 已經沉澱 800 多個專業視覺小模型,覆蓋 20 多個行業場景,為國能集團龍源電力、中海油大榭石化、中化集團等大量企業解決生產安全、合規品控等管理問題,實現基于視覺的數字化管理。
"人形機器人不會待在固定場景裡,需要用眼睛看,用大腦思考,百度視覺大模型能給人形機器人提供視覺理解能力。" 呼嘯解釋道,具身智能也需要采集數據和訓練模型,未來雙方會在雲服務方面加深合作。
花 5 萬元請位機器人 " 保姆 "
身處如此真實的場景,身邊環繞着無數機器人,仿佛置身電影拍攝場景般不真實。
然而,具身智能世界已經離我們不遠,5 年後,人形機器人的價格可能降至 5 萬元左右,它們将以保姆的身份走進千家萬戶,以服務員的身份走進餐廳,以工人的身份到工廠打螺絲。
據高工產業研究院預測,2030 年全球人形機器人市場規模将突破 200 億美元,其中中國市場占比達四分之一,相當于 365 億元人民币的市場規模。
2024 年是人形機器人覺醒之年,而 2025 年則是人形機器人的量產元年。蛇年春晚的一場舞,讓老百姓們開始好奇:機器人除了跳舞,還會幹什麼?從實驗室到家庭,從概念驗證到商用落地,大模型和 AI Agent(智能體)技術成為人形機器人突破臨界點的關鍵驅動力。
2024 年 8 月," 遠征 " 和 " 靈犀 " 兩大家族 5 款人形機器人站上舞台,讓智元機器人成為機器人商用的破局者。
今年 1 月,智元機器人宣布,旗下具身機器人累計下線 1000 台,其中包括 731 台雙足人形機器人,被應用到多個工業場景。
目前,智元機器人臨港工廠的年產能已達到數千台,後續還會進一步擴大產能。埃隆 · 馬斯克也在今年 1 月宣布計劃,特斯拉将在今年生產數千台人形機器人 Optimus,若進展順利,明年產量将達 5 萬至 10 萬台。
只有當機器人零部件產業鏈成熟,規模化生產才能把機器人價格打下來。除了标準組件外,機器人的大多數核心部件由智元機器人自研,再交由產業鏈工廠生產部件,最後在臨港量產工廠完成組裝。此前智元機器人方面曾透露,機器人的生產成本正以每年 15%~20% 的幅度降低。