今天小编分享的科学经验:机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天,欢迎阅读。
好家伙!
机器人已入厂打工分拣快递,手法娴熟和人类一模一样。
前几天,Figure 推出了端到端通用控制模型——Helix,能让机器人像人一样感知、理解和行动。
现在,是时候检验最新成果了。
视频中,一批Figure 02走上生产一线,秩序井然地分拣快递,还能正确调整條碼位置以供机器扫描……
最重要的是,按照官方说法,此次场景微调只用了 30 天。而作为对比,第一个客户案例用了 12 个月之久。
端到端学习方法让 Figure 的机器人能够快速学习新任务!
面对如此进化速度,网友们直呼:我们完啦!
背后关键:改进了 Helix 系统 1
除了视频,针对本次实验的高速、小包装物流场景,Figure 还公开了Helix 进展的最新报告。
在和 OpenAI 断交之后,就在上周五,Figure 公布了首个成果Helix。
作为一个端到端通用控制模型,只需自然语言提示,机器人就能拿起任何东西,哪怕是从没见过的东西(比如这个活泼的小仙人掌)。
更有意思的是,两个机器人也可以共同协作,而且用的是同一组神经网络。
根据当时的介绍,Helix 主要由两个系统组成,两个系统经过端到端训练,并且可以进行通信。
系统 1:80M 参数的交叉注意力 Transformer,用于处理底层控制。
系统 2:基于在互联网规模数据上预训练的 7B 开源 VLM,用于场景理解和语言理解。
而这一次,Figure 在物流场景重点对系统 1(底层控制)进行了一系列改进:
1、隐式立体视觉(Implicit stereo vision):增强了 3D 空间感知,使机器人动作更精准;
2、多尺度视觉表示(Multi-scale visual representation):结合细节和整体场景理解,提高操作精度;
3、学习视觉本体感知(Learned visual proprioceptio):每个 Figure 机器人现在都可以自我校准,简化跨机器人技能迁移;
4、运动模式(Sport mode):使用简单的 test-time 加速技术,同时保持高成功率和更快的执行速度。
最重要的是,Figure 针对该特定场景,进一步探讨了数据质量和数量之间的权衡关系,并初步发现:
仅用 8 小时精心挑选的数据就能训练出一个灵活且适应性强的策略。
下面具体展开。
在物流场景下,关键环节包括包装处理和分类,主要是需要将包裹在传送带上转移并确保标签正确扫描。
听起来是不是很简单,但如果要让机器人取代人类来完成这项工作,面临的挑战在于:
包裹的尺寸、形状、重量等各异,机器人不仅要能拿起来,而且需要确定最佳抓取和转移时间,甚至放错了之后还能立马纠正。
为了实现上述目标,Figure 首先改进了 Helix 系统 1 的视觉能力。
新一代系统 1 通过采用立体视觉骨干网络和多尺度特征提取网络来增强其空间理解能力。
简单说,系统不再独立处理来自每个摄像头的影像特征,而是首先在多尺度立体网络中合并两个摄像头的特征,然后再进行标记化(Tokenize)处理。
这样做的好处是,保持了输入到交叉注意力 transformer 的视觉 tokens 总数不变,避免了计算开销。
同时,多尺度特征提取网络能够同时捕捉到细节和更广泛的上下文信息,这有助于提高操作的准确性和可靠性。
此外,为了解决在多个机器人上部署统一策略时遇到的挑战,以及如何通过在线自我校准来实现跨机器人策略迁移。
例如由于机器人硬體差异导致的观察和动作空间的分布偏移,传统的手动校准方法不适用于大规模机器人群体。
Figure 训练了一个视觉自体感觉模型(visual proprioception model),这个模型可以让每个机器人通过自身的视觉输入来自我校准,估算出机械臂末端(即抓取物体的部分)的精确位置和姿态。
并且这种自我校准是在线进行的,也就是说机器人可以在工作的同时进行校准,这样就能最大程度地减少因校准而需要停止工作的时间。
顺便一提,训练过程中,Figure 排除了那些较慢的、遗漏的或失败的案例,不过特意保留了包含纠正行为的案例(非遥控操作员导致,自然产生)。
最后,为了达到并超过人类的操作速度,Figure 采用了一种被称为 " 运动模式 " 的 test-time 加速技术。
具体来说,他们让系统 1 以每秒 200 次的频率输出一系列动作,这些动作被称为动作 " 块 "(action "chunks")。
然后采用了一种插值方法来加速这些动作块的执行。插值是一种数学方法,可以在原有数据点之间生成新的数据点。在这里,他们将原本的动作块(比如代表 T 毫秒的动作)通过插值缩短为 0.8T 毫秒的动作块,但是仍然以每秒 200 次的频率执行这些缩短后的动作块。
这种方法不需要改变机器人的训练过程,只是在 test-time 对动作执行进行加速。通过这种方法,Figure 机器人能够在实际测试中实现高达 20%的速度提升。
Figure 创始人:未来四年交付 10 万台
总之,技术更新让 Figure 走进工厂的速度更快了。
官方提到的第 1 个客户,应该是指去年 8 月发布的 Figure 02 进宝马工厂从事汽车装配的事儿。
当时宝马工厂花了12 个月才给机器人安排好合适的工作,而这一次,机器人正式上岗物流仅用了 30 天时间。
也难怪 Figure 创始人有底气宣布,未来四年要交付 10 万台人形机器人。
另一方面,随着国内外各家机器人纷纷 " 进厂打工 ",大家逐渐达成了一个共识:
2025 是机器人量产关键之年
从各家 demo 来看,人形机器人的技术已基本成熟,因此接下来的争夺主要围绕量产展开,而且要往实际生产场景走了。
比如在一家上海机器人工厂内,大批 " 未来工人 " 正在生产 ing。
嗯,都卷起来吧!
参考链接:
[ 1 ] https://x.com/Figure_robot/status/1894781226676064459
[ 2 ] https://www.reddit.com/r/singularity/comments/1iymrxs/shanghai_robot_factory_where_humanoid_robots_are/