今天小编分享的科技经验:花5万元请的机器人“保姆”“员工”是这样训练出来的,5年后你一定会更好奇!,欢迎阅读。
探访全国唯一规模化数采中心,人形机器人与大模型 " 合体 "
作者/ IT 时报记者 孙妍
编辑/ 潘少颖 孙妍
坐落于上海市张江机器人谷的智元机器人数采中心,是全球唯二、全国唯一的规模化机器人数采中心,这里每天产出数万条真机数据和仿真环境数据。
上百台智元数采机器人的背后,都有人类在 " 手把手 " 教,让机器人复刻真实世界里的技能,一个倒水的动作,每天至少重复 200 次。
当机器人学会足够多的技能,当机器人的成本降至人人用得起,它们才会走向千家万户。这个时间点大概在 5 年后,到时候,普通家庭花 5 万元就能将机器人 " 保姆 " 请回家。如果你的动手能力强,完全可以像搭乐高一样组装机器人 " 保姆 ",将它开发成全能帮手。
目前,极客们已经可以花一天半 " 手搓 " 一个专属人形机器人,而人形机器人与 " 贾维斯 " 之间的距离是一双可以洞察万物的双眼和一个实时学习的大腦。
于是,百度与智能机器人 " 联姻 ",大模型和人形机器人的 " 合体 " 打开了更大的想象空间。
机器人的 " 全能修炼 "
上百台 " 远征 A2-D" 数采机器人正在被训练,它们在卧室学习拉窗帘、叠衣服,在客厅里学习倒水、擦桌子,在厨房学习揉面、做咖啡,在卫生间学习擦马桶。走出家门,就能到快餐店里吃一块机器人做的三明治,上菜后 " 叮 " 的一声按铃。在办公室里,机器人甚至连拧矿泉水瓶盖的活都做了。来到工厂仓库,隔着铁丝网可以看到,机器人正在分拣零件,一旁还有机器人在练习打包、搬运等工作 ……
在 4000 平方米的智元机器人数采中心,有家居、餐饮、商超、办公、工业五大场景,包含超 200 个细分场景的任务。
每一台机器人背后都有人类,他们是来自五湖四海的大学生,一手握着搖桿,头戴 VR 眼镜,每天至少重复 200 次同一个动作,让机器人模仿他们。他们操控机器人,打开咖啡机上盖,小心翼翼地装入一颗胶囊咖啡,盖上盖子,启动按钮,才算完成一套完整的动作。
一旁的机器人有点 " 任性 ",让它揉面,一挪动揉面板,它却不小心打翻了一旁的燃气灶支架。因为单一、重复的数据对训练大模型的作用甚微,数据采集员需要不停地 " 上难度 ":将水壶放在不同的位置让机器人练习倒水,拿不同的零食让机器人抓握到箱子里 ……
" 一般简单场景只需要几百条数据,但复杂场景可能需要采集几万条。" 一位数据采集师告诉《IT 时报》记者,比如要不停地调整水壶的样式和位置、杯子里的水位、环境光照等因素,才能更好地训练机器人拿放和倒水姿态,形成对环境的基本感知,也就是不同场景下的泛化能力。
2024 年底,智元机器人开源了数采中心采集到的百万真机数据集,比 Google 的 Open X-Embodiment、AgiBot World 长程数据规模高 10 倍,场景范围覆盖面扩大 100 倍,数据质量也从实验室级上升到工业级标准。
" 大型培训学校,可以批量培训保姆、服务员、工人等 "" 机器人在训练时看起来并没有那么智能 "" 机器人崛起后,会不会感恩人类这么用心地教它们?"《IT 时报》记者与同行的媒体人纷纷感慨。
大模型与人形机器人 " 合体 "
除了人教机器人,AI 也能赋予机器人眼睛与大腦,使其具备视觉和思考能力。
2 月 27 日,百度智能云与 " 稚晖君 " 彭志辉领衔的智元机器人签署战略合作協定。AI 大模型与人形机器人 " 合体 ",颇有想象空间。所谓具身智能,可以简单理解为机器人安上了 "AI 大腦 ",大腦不仅可以指挥身体做动作,也使机器人有了与现实世界互動的能力,包括感知、决策、行动等。
在战略合作的首期落地阶段,百度智能云与智元机器人将聚焦教育市场,依托百度智能云 " 视觉大模型 + 边缘计算 " 的软硬一体解决方案,结合智元远征系列专业数采和互動服务机器人、灵犀全栈开源机器人、AIDEA 全栈数采方案等产品方案的研发布局,共同打造可二次开发的人形机器人平台。
" 主要面向 C 端用户推广。" 百度工业产品运营组行业解决方案总监呼啸向《IT 时报》记者介绍,首先会面向高校用于科普教育,或是面向极客和开发者,进行二次开发和拓展应用,从实验室走向商用落地。
在 AI 实训实验室中,高校师生可通过平台内置的行业模型库和算法产线,自主训练机器人完成物品分拣、环境巡检等高精度任务模型。
这不仅降低了 AI 开发门槛与实验室的建设成本,更为教育科研机构开展人形机器人 DIY 开发,开辟了又一条路径。
在 " 人人造 " 现场,一群机器人爱好者正沉浸到电机关节、传感器、網域控制器等一堆零件中,有条不紊地按照图纸和装机视频进行组装,一般一天半可以 " 手搓 " 一台 " 超现实机甲 "。在极客眼中,安装一个自己专属 " 贾维斯 ",就像普通人安装一件宜家家具,甚至拼装一件乐高玩具一般简单。
当 " 灵犀 " 遇上 " 一见 "
近日,智元机器人在官方电商平台智元商城推出全球首款全栈开源机器人灵犀 X1 的整装组件。灵犀 X1 采用模块化设计,轻松拆装,灵活自由,安全轻量,高可扩展等特性让它更适合人机互動与轻服务场景。
早在 2024 年 10 月,智元机器人已向全球开发者开源灵犀 X1,而且是软硬體 " 一站式 " 开源,全套图纸和代码已上线 GitHub,开发指南已上线智元机器人官网,这大幅降低机器人技术开发的门槛。GitHub 数据显示,灵犀 X1 开源上线短短一个月,star 总数超过 2900,总 Fork 数累计超过 981。
整机结构硬體的图纸,细致到每一个螺丝和齿轮,整机的全部物料可通过自行加工或购买获取,还特别提供整机装机说明,帮助开源用户迅速完成机器人本体的组装;在整机軟體算法方面,智元机器人提供了 AimRT 平台组件、机器人 URDF 檔案、仿真 Sim2Sim、Sim2Real 代码、强化学习训练代码、模型转换、推理工具和调试工具(数据可视化、遥控器)等,涵盖了整个开发流程。
据百度智能云泛科技副总经理张帆介绍,百度智能云将基于一见视觉大模型平台与 EdgeBoard 开发板卡,在教育科研、安全生产、连锁合规、工厂 SOP、农业等场景,双方可以打造人形机器人的标杆场景。
光靠人教机器人是有限的,而百度云的 " 一见 " 已经沉淀 800 多个专业视觉小模型,覆盖 20 多个行业场景,为国能集团龙源电力、中海油大榭石化、中化集团等大量企业解决生产安全、合规品控等管理问题,实现基于视觉的数字化管理。
"人形机器人不会待在固定场景里,需要用眼睛看,用大腦思考,百度视觉大模型能给人形机器人提供视觉理解能力。" 呼啸解释道,具身智能也需要采集数据和训练模型,未来双方会在云服务方面加深合作。
花 5 万元请位机器人 " 保姆 "
身处如此真实的场景,身边环绕着无数机器人,仿佛置身电影拍摄场景般不真实。
然而,具身智能世界已经离我们不远,5 年后,人形机器人的价格可能降至 5 万元左右,它们将以保姆的身份走进千家万户,以服务员的身份走进餐厅,以工人的身份到工厂打螺丝。
据高工产业研究院预测,2030 年全球人形机器人市场规模将突破 200 亿美元,其中中国市场占比达四分之一,相当于 365 亿元人民币的市场规模。
2024 年是人形机器人觉醒之年,而 2025 年则是人形机器人的量产元年。蛇年春晚的一场舞,让老百姓们开始好奇:机器人除了跳舞,还会干什么?从实验室到家庭,从概念验证到商用落地,大模型和 AI Agent(智能体)技术成为人形机器人突破临界点的关键驱动力。
2024 年 8 月," 远征 " 和 " 灵犀 " 两大家族 5 款人形机器人站上舞台,让智元机器人成为机器人商用的破局者。
今年 1 月,智元机器人宣布,旗下具身机器人累计下线 1000 台,其中包括 731 台双足人形机器人,被应用到多个工业场景。
目前,智元机器人临港工厂的年产能已达到数千台,后续还会进一步扩大产能。埃隆 · 马斯克也在今年 1 月宣布计划,特斯拉将在今年生产数千台人形机器人 Optimus,若进展顺利,明年产量将达 5 万至 10 万台。
只有当机器人零部件产业链成熟,规模化生产才能把机器人价格打下来。除了标准组件外,机器人的大多数核心部件由智元机器人自研,再交由产业链工厂生产部件,最后在临港量产工厂完成组装。此前智元机器人方面曾透露,机器人的生产成本正以每年 15%~20% 的幅度降低。