今天小編分享的互聯網經驗:智源研究院院長王仲遠:至少5-10年,具身智能模型才能成熟落地,歡迎閲讀。
北京智源人工智能研究院院長 王仲遠
3 月 29 日消息,钛媒體 AGI 獲悉,今天下午舉行的 2025 中關村論壇年會 " 未來人工智能先鋒論壇 " 上,智源研究院院長王仲遠發布首個跨本體具身大小腦協作框架 RoboOS、開源具身大腦 RoboBrain。
全新發布的兩款技術產品 RoboOS、RoboBrain,可實現跨場景多任務輕量化快速部署與跨本體協作,推動單機智能邁向群體智能,為構建具身智能開源統一生态加速場景應用提供底層技術支持。
會前,王仲遠對钛媒體 AGI 表示,這項成果是把多模态大模型放到 " 具身智能 " 當中進行落地的一個嘗試。他指出,具身智能的發展依然在早期,如果具身智能模型走到完全成熟(端到端),這時需要海量的數據,類似這種具身智能模型需要到 5 年乃至 10 年後,5 年屬于樂觀,10 年後也許才能夠成熟。
" 不同的投資機構有不同的投資風格,如果比較看重產業落地,能夠迅速在行業裏面應用的(機構),也許當下進入‘具身智能’并不是一個好的時機,但是我們對于具身智能的長期發展是非常樂觀的,就好像 10 年前我們在看無人駕駛技術是一樣。" 王仲遠稱。
所謂具身智能(Embodied AI),是将 AI 融入機器人等物理實體,賦予它們感知、學習和與環境動态互動的能力。換言之,一個具身智能機器人需要:首先聽懂人類語言,之後分解任務、規劃子任務,移動中識别物體,與環境互動,最終完成相應任務。
作為通向 AGI(通用人工智能)的必要方向之一,目前華為、騰訊、美團、螞蟻、京東等多家中國科技公司都已入局。
不過,當前具身智能面臨四大瓶頸:數據短缺、模型能力弱、落地應用難、硬體不成熟。而智源希望以解決模型能力為突破口,通過研發具身大模型推動迭代能力代際躍遷。
具體來説,RoboBrain 由三個模塊組成:用于任務規劃的基座模型、用于可操作區網域感知的 A-LoRA 模塊和用于軌迹預測的 T-LoRA 模塊。在推理時,模型首先感知視覺輸入,并将輸入指令分解為一系列可執行的子任務,然後執行可操作區網域感知和軌迹預測。RoboBrain 采用多階段訓練策略,使其具備長歷史幀記憶和高分辨率影像感知能力,進而提升場景感知和操作規劃的能力。
目前,RoboBrain 能夠解讀人類指令和視覺影像,以生成基于實時影像反饋的行動計劃和評估,預測每一步的軌迹并感知相應的可操作區網域。在 AGD20K 測試集上,RoboBrain 的平均精度超過了當時最先進的開源模型 Qwen2-VL,驗證了其在指令理解和物體屬性方面卓越能力。
另外,智源還公布跨本體具身大小腦協作框架 RoboOS,基于 " 大腦 - 小腦 " 分層架構,通過模塊化設計、智能任務管理和跨本體協作,為機器人提供高效、靈活、可擴展的底層支持,實現從單機智能到群體智能的躍遷。在 RoboOS 的分層架構下,具身大腦 RoboBrain 的復雜場景感知與決策能力,可與小腦技能庫的高效執行能力深度結合,确保協作框架在長周期、高動态任務中的穩定運行。實現大腦模型(如 LLM/VLM)與小腦技能(如抓取、導航)的 " 即插即用 ",目前,RoboOS 可支持松靈雙臂、睿爾曼單 / 雙臂、智元人形、宇樹人形等不同類型的具身本體。
此外,智源研發的 FlagScale 作為底層支撐框架,支持大模型在多設備間的并行推理與多任務協同調度,可無縫集成視覺語言模型、軌迹生成模塊、感知識别等子系統,全面釋放具身大模型的系統潛力。
談到開源技術發展,王仲遠表示,開源 RoboBrain 能夠實現跨本體化、不同品牌、不同類型的機器人。不管是單臂機器人、雙臂機器人,還是輪式機器人、人形機器人,都可以使用 RoboBrain,從而幫助硬體具備泛化智能能力,至少目前初步看到理解這個世界的人類指令規劃決策。
" 在我看來,這是我們在具身智能上的一小步,同時為了促進整個行業發展,我們也會将所有的研究工作、成果進行開源開放,希望能夠與本體廠商、應用廠商一起來協作,促進整個具身智能行業更好、更快的發展。" 王仲遠表示。
智源表示,目前,智源研究院依托多模态大模型技術優勢資源,正在聯合北大、清華、中科院等高校院所以及銀河通用、樂聚、加速進化、宇樹等產業鏈上下遊企業,積極建設具身智能創新平台,重點開展數據、模型、場景驗證等研究,将有機融合和廣泛鏈接不同構型的具身本體與豐富多元的具身模型,加速具身智能跨本體協作與規模化應用。
(本文首發于钛媒體 App,作者|林志佳)