今天小编分享的互联网经验:OpenAI用13天做出神级机器人:当GPT有了人形,欢迎阅读。
火遍硅谷、OpenAI 重金押注的人形机器人 Figure 01,现在会看会听,能和人类自由对话了。
当地时间 3 月 13 日早晨,初创公司 Figure AI 在 X 放出这段最新 demo。
效果十分炸裂,总共展示了以下几组行为:
1. 首先询问机器人能看见什么,Figure 01 清晰描述了一切,包括视角正中的红苹果、放有杯碟的沥水架、以及站在面前的工作人员和他搭在桌上的右手。
2. 接着工作人员问," 可以给我点吃的吗?"
Figure 01 把苹果拿起递过去,并按照要求,一边清理工作人员刚倾倒在桌面的纸团,一边解释刚刚的行为:" 我给了你苹果,因为我觉得这是桌上唯一能吃的东西。" 然后自然而然地把收好在篮子里的纸团给回工作人员。
3." 根据现在所见,你面前的碟子应该到哪儿去?"Figure 01 思考片刻做出判断:杯碟应该归置进晾晒架,而后按指令放好。
4. 最后一步,让它自己评价任务完成的怎么样。Figure 01 自信地回答道:" 我觉得我做得很不错!苹果找到了新主人,垃圾清理了,桌面上的东西各归各位。"
这里的 Figure 01 是 3 月 9 日更新版本,由 OpenAI 技术加持。从两周前双方宣布合作,决定共同开发下一代人形机器人 AI 模型,推进机器人学习边界,到现在面前这个科技感满满的 " 人形 GPT" 仅仅用了 13 天。
而且据 Figure AI 创始人 Bratt Adcock 称,所有这些行为都没有经过远程操作,而是通过机器人的自我学习而来。并且以正常的 1.0 倍速连续拍摄,没有加速、没有剪辑,所见即所得。可以感受到视频中 Figure 01 的速度已经快要接近人类。
具体来看,此次 Figure 01 体现出的炸裂能力有:
1. 识别周围环境,准确描述视觉体验。视频开头它说看到桌上的苹果和面前站着的人类。
2. 推理和决策下一步行动。例如 " 桌子上的盘子和杯子很可能需要放在沥水架上 "。
3. 将模棱两可的请求翻译成一些与上下文相关的行为。比如将对方说的 " 我饿了,有没有吃的 " 转换成 " 递给这个人一个苹果 " 的行动。
4. 用语言解释推理过程,比如 " 苹果是这里唯一能吃的 "。
5. 反思自己的记忆做出判断,即在视频最后回顾了全套行为,并且基于常识进行评价。
那这一切又是怎么完美实现的呢?
领导该项目的高级 AI 工程师 Corey Lynch 发文解释了背后原理。
他表示,Figure 01 正是通过与 OpenAI 提供的大模型连接起来,才被赋予了这些天秀的 " 有趣新功能 "。
他们将机器人摄像头拍摄到的影像和机载麦克风捕捉的语音,转录为文本输入到由 OpenAI 预训练的大型多模态模型中。该模型能够理解影像和文本,在处理整个对话历史、包括过去的影像后做出语言回应,这些回应再通过文本转语音最终传递给人类。
所有行为都由神经网络视觉运动转换器策略驱动。以 10Hz 频率输入机载影像,交给大模型处理,大模型推理预测下一步行为,将像素映射到 200Hz、24 个自由度的动作(包括手腕姿势和手指关节角度),直接输出结果。整个过程依靠端到端的机器人控制,而无需经过中间过程的编码。
更新后的 Figure 01 优越之处还在于,接入的 OpenAI 大模型能理解历史对话,为机器人提供了强大的短期记忆。从而理解上下文语义,做出准确的判断和执行。
比如 demo 里甄别过杯子盘子应该放回沥水架后,工作人员下达指令:"Can you put them there?" 这其中代指的 " 它们 " 和 " 那儿 " 是很模糊的。但是经过预训练的模型通过分析对话历史记录,就能促使 Figure 01 迅速形成答案并输出动作:1)将杯子放在沥水架上 2)将盘子放在沥水架上。
除此以外,机器人基于视觉运动策略学习到的行为执行更快速、反应更灵敏,相比之下有些行为提前手动指定是很难的,比如在任何位置操纵一个可变形的袋子。同时,一个整体的全身控制器能确保 Figure 01 保持平衡,时刻处于安全稳定的动态中。
除人工智能加持外,Figure 01 还垂直整合了由专业工程师设计的所有系统,包括电机、固件、热力学组件、电子设备、中间件作業系統、电池系统、动作传感器、机械和结构。
对于此次更新,网友们反应极度热烈。有人说,能做出一个能帮你刷碗打扫屋子的智能机器人已经赢了。
还有人已经想象到了商业化适用场景,"Figure 机器人似乎可以成为盲人群体的向导 "。
更有网友不留情面地 cue 波士顿动力 " 该回实验室给机器人研究点新舞步了 "。Figure 机器人的智能化之强,也让人感叹和它对视 8 秒会不会被暴揍。
"13 天内如此惊人的成绩,等不及要看接下来会发生什么了!"
而携手 Figure AI 提供燃料,将其推上神坛的 OpenAI,也被网友称为 " 难以抗衡的合作关系 ",建议波士顿动力火速更换合作伙伴。
Figure AI 最新估值是 13 天前的 26 亿美元,而今两周过去,估值应该是多少?网友:" 不可估量 "。
Figure AI 曾在上月 27 号宣布,获得来自微软、英伟达、OpenAI 以及亚马逊创始人贝佐斯等投资人约 6.75 亿美元的新一轮融资,成为马斯克 " 擎天柱 " 机器人之外最受投资人们追捧的 AI 人形机器人。
据 Figure AI 称,他们的目标是造出真正的通用机器人,替代人类执行危险或机械化的工作,并最终实现 " 行走的 AI 智能体 ",自主执行日常任务。从如今 OpenAI 入局后这短短两周结果来看,这一目标仿佛变得更近。而 OpenAI 在人工智能产业中全面撒网加大部署这一步,似乎又走对了。
很多人说闭上眼已经可以把 Figure 01 在自己身边的体验具象化。机器人真的在变得 " 像人 "。它不再是实验室里可看不可得的观赏品那天,也许比我们想象的更快到来。
现在是 2024 年的 3 月,几个月后会前进到哪一步?倒计时开始。