比 GPT-4o 还牛？微软推出多模态模型，机器人秒变收纳高手

今天小编分享的科技经验：比 GPT-4o 还牛？微软推出多模态模型，机器人秒变收纳高手，欢迎阅读。

机器人前瞻 2 月 21 日报道，近日，微软研究院发布了一个多模态 AI 模型—— Magma。Magma 是首个能够在其所处环境中理解多模态输入并将其与实际情况相联系的基础模型，只要提供一个描述性目标，Magma 就能够制定计划、执行行动以达成该目标。

Magma 以视觉语言（VL）模型为基础，除了保留传统的语言和视觉的理解能力（语言智能）外，还解锁了空间智能的新技能，能够从多模态输入（用户界面截图、机器人影像、教学视频）中理解对象的物理位置、动作的时序逻辑，并在不同环境（数字界面与物理世界）中完成连贯的任务。

值得一提的是，论文的作者中，13 位有 12 位应该是华人。中美 AI、机器人竞赛的背后，果然还是在美华人和在华中国人之间的较量。

Magma 采用了深度学习架构和大规模预训练相结合的方法，该模型使用 ConvNeXt-XXL 视觉骨干处理影像和视频，同时使用 LLaMA-3-8B 语言模型处理文本输入。

Magma 是通过一个包含 3900 万个样本的多样化数据集进行训练的，其中包括影像、视频和机器人动作轨迹。

这个模型还创新采用了两项技术 :" 可标记集 "（Set-of-Mark，SoM）和 " 轨迹标记 " ( Trace-of-Mark，ToM ) 。前者使模型能够标记 UI 环境中的可操作视觉对象，后者则使其能够追踪物体随时间的移动，提升未来行动的规划能力。

研究团队对包括 ChatGPT 在内的多个模型进行了零样本评估，结果显示，经过预训练的 Magma 模型在未进行任何特定领網域微调情况下，是唯一一款能够执行全范围任务的模型。

将 Magma 和 OpenVLA 这两个模型应用到 WidowX 机械臂上，当让机械臂组装桌面上的热狗模型、把蘑菇模型放到盆中、把桌子上的抹布从左边移动至右边时，Magma 可以让机械臂比较精确地完成任务，而 OpenVLA 则在物体抓取、移动上表现略逊色于前者。

Magma 应用到 WidowX 机械臂并经过少样本的微调后，在分布内和分布外泛化任务中，都有着可靠的性能表现。

在 LIBERO 平台上进行的少样本微调，Magma 在所有任务组中都取得了更高的平均成功率。

在 Google Robots 和 Bridge 上进行的零样本评估中，Magma 模型也展现出了较强的零样本跨網域鲁棒性，并在抓取多种不同物品等跨实体操作模拟任务中取得了不错成绩。

处理一些比较有挑战性的空间推理难题时，虽然 Magma 的预训练数据比 GPT-4o 少得多，但是也可以准确地进行回答。

针对多模态理解方面，Magma 的表现甚至超越了 Video-Llama2 和 ShareGPT4Video。比如，当给 Magma 提供一段视频时，看到有人拿起茶包，它能秒猜下一步要倒热水泡茶。

Magma 成功整合了视觉、语言和行动，在机器人任务操作上表现出了较高的泛化能力。未来，随着模型研究的不断深入及模型规模的扩展，Magma 也有望为解决更复杂的机器人操作问题提供不错的解决方案，让机器人距离真正的落地应用更进一步。