李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在 - 大酷樂

今天小编分享的科学经验：李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在，欢迎阅读。

李飞飞谢赛宁再发新成果：

直接把 o1 式思考拉至下一个 level ——多模态大语言模型的空间思维！

这项研究系统评估了多模态大模型的视觉空间智能，结果发现：

当前，即使是最先进的多模态大模型，在空间认知方面与人类相比仍有显著差距，测试中约71% 的错误都源于空间推理方面的缺陷，即空间推理能力是当前主要瓶颈。

更为有趣的是，在这种情况下，思维链、思维树等常用的语言提示技术直接失灵了——

不仅没有提升模型在空间任务上的表现，反而会使性能下降。

而在问答过程中明确生成认知地图则会增强多模态大模型的空间距离能力。

这项工作阵容非常豪华，合著作者中不仅有李飞飞，还有纽约大学计算机科学助理教授、CV 大牛谢赛宁。

而剩下的四位作者，全部共同一作。

这项研究吸引了不少网友的关注，大伙儿一边看论文，一边已迫不及待搓搓手期待 2025 年的新进展。

多模态大模型的空间思维

虽然当前多模态大语言模型在语言理解和一般视觉任务上取得了显著进展，但在空间认知和理解方面的能力仍未得到充分研究。

反观人类，面对心理旋转测试、挑选家具这些任务时，会同时依赖于空间和视觉思考。

多模态大语言模型能否 " 进行空间思考 "？能否构建一个准确的、隐式的 " 认知地图 " 来帮助它们回答有关空间的问题？使用多模态大语言模型来增强空间智能的优势和局限性是什么？

为了探索这些问题，团队研究了视觉空间智能。

作者解释，之所以在 " 空间智能 " 前加上 " 视觉 " 一词，是因为空间智能不受感官模式限制，比如盲人也可以通过别的感官感知空间，而该研究专注于视频输入，所以讨论视觉空间智能。

VSI-Bench 视觉空间智能基准测试集

首先团队提出了一个名为VSI-Bench的基准测试集。

基于之前的计算机视觉工作，团队重新利用现有的空间扫描视频（最初用于 3D 重建）及其真实标注来自动生成视觉问答（VQA）问题。

具体来说，这个测试集基于 ScanNet、ScanNet++ 和 ARKitScenes 等数据集中的 288 个真实室内场景视频，包括住宅、办公室、实验室等各种环境。

团队设计了超5000 个问答对，将评测任务分为三大类：

配置型任务：物体计数、相对距离、相对方向、路线规划

测量估计：物体尺寸、房间大小、绝对距离

时空任务：物体出现顺序等

并采用人工审核确保数据质量，消除歧义和错误标注。

随后，他们全面评估了15 种支持视频的多模态大语言模型，开源、闭源的都有。

结果，人类在 VSI-Bench 上的平均准确率达到 79%，在配置型和时空任务上准确率更高，处于 94%-100% 之间。

相比之下，表现最好的闭源模型是Gemini-1.5 Pro，平均准确率为 48.8%，开源模型 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 与之相近。

在需要精确估计绝对距离 / 大小的三个测量任务上，大模型和人类表现差距相对较小。

团队还进一步证实了视频输入对模型性能的重要性，盲测实验中，在绝对距离估计等特定任务上，即使是最先进的模型也难以超越随机基线的表现。

语言视觉两个层面分析模型思维过程

为了深入理解模型的认知机制，团队又从语言和视觉两个层面分析了模型的思维过程。

在语言层面，通过让模型进行自我解释，发现它们确实具备不错的视频理解和语言推理能力。

但详细的错误分析显示，超 70% 的错误源于其空间推理能力的不足。

接着，团队用常用的语言提示技术改进，包括思维链、思维树、自洽性。

结果不仅没有提升模型在空间任务上的表现，反而导致了性能下降，也就是说纯粹的语言推理技术难以解决空间认知问题。

在视觉层面，他们又使用认知地图来分析模型的空间记忆能力。

结果显示，模型在理解局部空间关系时表现较好，相邻物体位置关系的准确率达到 64%。但随着物体之间距离的增加，模型的空间关系理解能力显著下降。

这说明模型倾向于建立局部空间模型，而不是形成完整的全局空间理解。

不过，他们研究了一种新思路：

使用认知地图辅助空间推理。

加入这种机制，模型在相对距离任务上的准确率提升了 10 个百分点，这为提升模型空间智能提供了一个潜在的解决方向。

李飞飞谢赛宁领衔，四位共同一作

论文一经公布，几位作者就激情当起了自个儿的首批自来水（doge）。

谢赛宁表示：

视频理解是下一个前沿领網域，但并非所有视频都是相同的。

这项研究探索了多模态大语言模型如何观察、记忆和回忆空间。

"AI 教母 " 李飞飞也转发开麦：

这是人类智能中极为重要的一个方面，2025 年还有更多值得期待，推动空间智能的边界！

这项研究共同一作有四位，正如李飞飞教授透露，多位都是谢赛宁的学生。

Jihan Yang

Jihan Yang 是纽约大学 Courant 研究所博士后研究员，导师是谢赛宁。在此之前，Jihan Yang 于香港大学获得了博士学位，中山大学获得了学士学位。

他的研究兴趣集中在机器学习和计算机视觉领網域，特别关注多模态和具身智能。

Shusheng Yang

Shusheng Yang 目前是纽约大学博士生。

领英显示，他是华中科技大学校友，曾经在阿里和腾讯有过工作经历。

Anjali Gupta

Anjali Gupta 是纽约大学 Courant 研究所博士生，导师是谢赛宁教授。

她的研究领網域是机器学习和计算机视觉，特别是以视觉为中心的多模态大语言模型。

Rilyn Han

Rilyn Han 来自耶鲁大学，主修计算机科学和经济学，研究主要关注探索多模态大语言模型的能力。

论文链接：https://arxiv.org/pdf/2412.14171

项目主页：https://vision-x-nyu.github.io/thinking-in-space.github.io/

参考链接：

[ 1 ] https://x.com/sainingxie/status/1870877202595958791

[ 2 ] https://x.com/drfeifei/status/1870881981703291097

[ 3 ] https://vision-x-nyu.github.io/thinking-in-space.github.io/

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>