今天小编分享的互联网经验:智源研究院院长王仲远:至少5-10年,具身智能模型才能成熟落地,欢迎阅读。
北京智源人工智能研究院院长 王仲远
3 月 29 日消息,钛媒体 AGI 获悉,今天下午举行的 2025 中关村论坛年会 " 未来人工智能先锋论坛 " 上,智源研究院院长王仲远发布首个跨本体具身大小腦协作框架 RoboOS、开源具身大腦 RoboBrain。
全新发布的两款技术产品 RoboOS、RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。
会前,王仲远对钛媒体 AGI 表示,这项成果是把多模态大模型放到 " 具身智能 " 当中进行落地的一个尝试。他指出,具身智能的发展依然在早期,如果具身智能模型走到完全成熟(端到端),这时需要海量的数据,类似这种具身智能模型需要到 5 年乃至 10 年后,5 年属于乐观,10 年后也许才能够成熟。
" 不同的投资机构有不同的投资风格,如果比较看重产业落地,能够迅速在行业里面应用的(机构),也许当下进入‘具身智能’并不是一个好的时机,但是我们对于具身智能的长期发展是非常乐观的,就好像 10 年前我们在看无人驾驶技术是一样。" 王仲远称。
所谓具身智能(Embodied AI),是将 AI 融入机器人等物理实体,赋予它们感知、学习和与环境动态互動的能力。换言之,一个具身智能机器人需要:首先听懂人类语言,之后分解任务、规划子任务,移动中识别物体,与环境互動,最终完成相应任务。
作为通向 AGI(通用人工智能)的必要方向之一,目前华为、腾讯、美团、蚂蚁、京东等多家中国科技公司都已入局。
不过,当前具身智能面临四大瓶颈:数据短缺、模型能力弱、落地应用难、硬體不成熟。而智源希望以解决模型能力为突破口,通过研发具身大模型推动迭代能力代际跃迁。
具体来说,RoboBrain 由三个模块组成:用于任务规划的基座模型、用于可操作区網域感知的 A-LoRA 模块和用于轨迹预测的 T-LoRA 模块。在推理时,模型首先感知视觉输入,并将输入指令分解为一系列可执行的子任务,然后执行可操作区網域感知和轨迹预测。RoboBrain 采用多阶段训练策略,使其具备长历史帧记忆和高分辨率影像感知能力,进而提升场景感知和操作规划的能力。
目前,RoboBrain 能够解读人类指令和视觉影像,以生成基于实时影像反馈的行动计划和评估,预测每一步的轨迹并感知相应的可操作区網域。在 AGD20K 测试集上,RoboBrain 的平均精度超过了当时最先进的开源模型 Qwen2-VL,验证了其在指令理解和物体属性方面卓越能力。
另外,智源还公布跨本体具身大小腦协作框架 RoboOS,基于 " 大腦 - 小腦 " 分层架构,通过模块化设计、智能任务管理和跨本体协作,为机器人提供高效、灵活、可扩展的底层支持,实现从单机智能到群体智能的跃迁。在 RoboOS 的分层架构下,具身大腦 RoboBrain 的复杂场景感知与决策能力,可与小腦技能库的高效执行能力深度结合,确保协作框架在长周期、高动态任务中的稳定运行。实现大腦模型(如 LLM/VLM)与小腦技能(如抓取、导航)的 " 即插即用 ",目前,RoboOS 可支持松灵双臂、睿尔曼单 / 双臂、智元人形、宇树人形等不同类型的具身本体。
此外,智源研发的 FlagScale 作为底层支撑框架,支持大模型在多设备间的并行推理与多任务协同调度,可无缝集成视觉语言模型、轨迹生成模块、感知识别等子系统,全面释放具身大模型的系统潜力。
谈到开源技术发展,王仲远表示,开源 RoboBrain 能够实现跨本体化、不同品牌、不同类型的机器人。不管是单臂机器人、双臂机器人,还是轮式机器人、人形机器人,都可以使用 RoboBrain,从而帮助硬體具备泛化智能能力,至少目前初步看到理解这个世界的人类指令规划决策。
" 在我看来,这是我们在具身智能上的一小步,同时为了促进整个行业发展,我们也会将所有的研究工作、成果进行开源开放,希望能够与本体厂商、应用厂商一起来协作,促进整个具身智能行业更好、更快的发展。" 王仲远表示。
智源表示,目前,智源研究院依托多模态大模型技术优势资源,正在联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,积极建设具身智能创新平台,重点开展数据、模型、场景验证等研究,将有机融合和广泛链接不同构型的具身本体与丰富多元的具身模型,加速具身智能跨本体协作与规模化应用。
(本文首发于钛媒体 App,作者|林志佳)