OpenAI用13天做出神级机器人：当GPT有了人形

今天小编分享的互联网经验：OpenAI用13天做出神级机器人：当GPT有了人形，欢迎阅读。

火遍硅谷、OpenAI 重金押注的人形机器人 Figure 01，现在会看会听，能和人类自由对话了。

当地时间 3 月 13 日早晨，初创公司 Figure AI 在 X 放出这段最新 demo。

效果十分炸裂，总共展示了以下几组行为：

1. 首先询问机器人能看见什么，Figure 01 清晰描述了一切，包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。

2. 接着工作人员问，" 可以给我点吃的吗？"

Figure 01 把苹果拿起递过去，并按照要求，一边清理工作人员刚倾倒在桌面的纸团，一边解释刚刚的行为：" 我给了你苹果，因为我觉得这是桌上唯一能吃的东西。" 然后自然而然地把收好在篮子里的纸团给回工作人员。

3." 根据现在所见，你面前的碟子应该到哪儿去？"Figure 01 思考片刻做出判断：杯碟应该归置进晾晒架，而后按指令放好。

4. 最后一步，让它自己评价任务完成的怎么样。Figure 01 自信地回答道：" 我觉得我做得很不错！苹果找到了新主人，垃圾清理了，桌面上的东西各归各位。"

这里的 Figure 01 是 3 月 9 日更新版本，由 OpenAI 技术加持。从两周前双方宣布合作，决定共同开发下一代人形机器人 AI 模型，推进机器人学习边界，到现在面前这个科技感满满的 " 人形 GPT" 仅仅用了 13 天。

而且据 Figure AI 创始人 Bratt Adcock 称，所有这些行为都没有经过远程操作，而是通过机器人的自我学习而来。并且以正常的 1.0 倍速连续拍摄，没有加速、没有剪辑，所见即所得。可以感受到视频中 Figure 01 的速度已经快要接近人类。

具体来看，此次 Figure 01 体现出的炸裂能力有：

1. 识别周围环境，准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。

2. 推理和决策下一步行动。例如 " 桌子上的盘子和杯子很可能需要放在沥水架上 "。

3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的 " 我饿了，有没有吃的 " 转换成 " 递给这个人一个苹果 " 的行动。

4. 用语言解释推理过程，比如 " 苹果是这里唯一能吃的 "。

5. 反思自己的记忆做出判断，即在视频最后回顾了全套行为，并且基于常识进行评价。

那这一切又是怎么完美实现的呢？

领导该项目的高级 AI 工程师 Corey Lynch 发文解释了背后原理。

他表示，Figure 01 正是通过与 OpenAI 提供的大模型连接起来，才被赋予了这些天秀的 " 有趣新功能 "。

他们将机器人摄像头拍摄到的影像和机载麦克风捕捉的语音，转录为文本输入到由 OpenAI 预训练的大型多模态模型中。该模型能够理解影像和文本，在处理整个对话历史、包括过去的影像后做出语言回应，这些回应再通过文本转语音最终传递给人类。

所有行为都由神经网络视觉运动转换器策略驱动。以 10Hz 频率输入机载影像，交给大模型处理，大模型推理预测下一步行为，将像素映射到 200Hz、24 个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果。整个过程依靠端到端的机器人控制，而无需经过中间过程的编码。

更新后的 Figure 01 优越之处还在于，接入的 OpenAI 大模型能理解历史对话，为机器人提供了强大的短期记忆。从而理解上下文语义，做出准确的判断和执行。

比如 demo 里甄别过杯子盘子应该放回沥水架后，工作人员下达指令："Can you put them there?" 这其中代指的 " 它们 " 和 " 那儿 " 是很模糊的。但是经过预训练的模型通过分析对话历史记录，就能促使 Figure 01 迅速形成答案并输出动作：1）将杯子放在沥水架上 2）将盘子放在沥水架上。

除此以外，机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏，相比之下有些行为提前手动指定是很难的，比如在任何位置操纵一个可变形的袋子。同时，一个整体的全身控制器能确保 Figure 01 保持平衡，时刻处于安全稳定的动态中。

除人工智能加持外，Figure 01 还垂直整合了由专业工程师设计的所有系统，包括电机、固件、热力学组件、电子设备、中间件作業系統、电池系统、动作传感器、机械和结构。

对于此次更新，网友们反应极度热烈。有人说，能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。