大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

2024-12-23 简体 HK SG TW

今天小编分享的科学经验:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在,欢迎阅读。

李飞飞谢赛宁再发新成果:

直接把 o1 式思考拉至下一个 level ——多模态大语言模型的空间思维!

这项研究系统评估了多模态大模型的视觉空间智能,结果发现:

当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71% 的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。

更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——

不仅没有提升模型在空间任务上的表现,反而会使性能下降。

而在问答过程中明确生成认知地图则会增强多模态大模型的空间距离能力。

这项工作阵容非常豪华,合著作者中不仅有李飞飞,还有纽约大学计算机科学助理教授、CV 大牛谢赛宁。

而剩下的四位作者,全部共同一作。

这项研究吸引了不少网友的关注,大伙儿一边看论文,一边已迫不及待搓搓手期待 2025 年的新进展。

多模态大模型的空间思维

虽然当前多模态大语言模型在语言理解和一般视觉任务上取得了显著进展,但在空间认知和理解方面的能力仍未得到充分研究。

反观人类,面对心理旋转测试、挑选家具这些任务时,会同时依赖于空间和视觉思考。

多模态大语言模型能否 " 进行空间思考 "?能否构建一个准确的、隐式的 " 认知地图 " 来帮助它们回答有关空间的问题?使用多模态大语言模型来增强空间智能的优势和局限性是什么?

为了探索这些问题,团队研究了视觉空间智能。

作者解释,之所以在 " 空间智能 " 前加上 " 视觉 " 一词,是因为空间智能不受感官模式限制,比如盲人也可以通过别的感官感知空间,而该研究专注于视频输入,所以讨论视觉空间智能。

VSI-Bench 视觉空间智能基准测试集

首先团队提出了一个名为VSI-Bench的基准测试集。

基于之前的计算机视觉工作,团队重新利用现有的空间扫描视频(最初用于 3D 重建)及其真实标注来自动生成视觉问答(VQA)问题。

具体来说,这个测试集基于 ScanNet、ScanNet++ 和 ARKitScenes 等数据集中的 288 个真实室内场景视频,包括住宅、办公室、实验室等各种环境。

团队设计了超5000 个问答对,将评测任务分为三大类:

配置型任务:物体计数、相对距离、相对方向、路线规划

测量估计:物体尺寸、房间大小、绝对距离

时空任务:物体出现顺序等

并采用人工审核确保数据质量,消除歧义和错误标注。

随后,他们全面评估了15 种支持视频的多模态大语言模型,开源、闭源的都有。

结果,人类在 VSI-Bench 上的平均准确率达到 79%,在配置型和时空任务上准确率更高,处于 94%-100% 之间。

相比之下,表现最好的闭源模型是Gemini-1.5 Pro,平均准确率为 48.8%,开源模型 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 与之相近。

在需要精确估计绝对距离 / 大小的三个测量任务上,大模型和人类表现差距相对较小。

团队还进一步证实了视频输入对模型性能的重要性,盲测实验中,在绝对距离估计等特定任务上,即使是最先进的模型也难以超越随机基线的表现。

语言视觉两个层面分析模型思维过程

为了深入理解模型的认知机制,团队又从语言和视觉两个层面分析了模型的思维过程。

在语言层面,通过让模型进行自我解释,发现它们确实具备不错的视频理解和语言推理能力。

但详细的错误分析显示,超 70% 的错误源于其空间推理能力的不足。

接着,团队用常用的语言提示技术改进,包括思维链、思维树、自洽性。

结果不仅没有提升模型在空间任务上的表现,反而导致了性能下降,也就是说纯粹的语言推理技术难以解决空间认知问题。

在视觉层面,他们又使用认知地图来分析模型的空间记忆能力。

结果显示,模型在理解局部空间关系时表现较好,相邻物体位置关系的准确率达到 64%。但随着物体之间距离的增加,模型的空间关系理解能力显著下降。

这说明模型倾向于建立局部空间模型,而不是形成完整的全局空间理解。

不过,他们研究了一种新思路:

使用认知地图辅助空间推理。

加入这种机制,模型在相对距离任务上的准确率提升了 10 个百分点,这为提升模型空间智能提供了一个潜在的解决方向。

李飞飞谢赛宁领衔,四位共同一作

论文一经公布,几位作者就激情当起了自个儿的首批自来水(doge)。

谢赛宁表示:

视频理解是下一个前沿领網域,但并非所有视频都是相同的。

这项研究探索了多模态大语言模型如何观察、记忆和回忆空间。

"AI 教母 " 李飞飞也转发开麦:

这是人类智能中极为重要的一个方面,2025 年还有更多值得期待,推动空间智能的边界!

这项研究共同一作有四位,正如李飞飞教授透露,多位都是谢赛宁的学生。

Jihan Yang

Jihan Yang 是纽约大学 Courant 研究所博士后研究员,导师是谢赛宁。在此之前,Jihan Yang 于香港大学获得了博士学位,中山大学获得了学士学位。

他的研究兴趣集中在机器学习和计算机视觉领網域,特别关注多模态和具身智能。

Shusheng Yang

Shusheng Yang 目前是纽约大学博士生。

领英显示,他是华中科技大学校友,曾经在阿里和腾讯有过工作经历。

Anjali Gupta

Anjali Gupta 是纽约大学 Courant 研究所博士生,导师是谢赛宁教授。

她的研究领網域是机器学习和计算机视觉,特别是以视觉为中心的多模态大语言模型。

Rilyn Han

Rilyn Han 来自耶鲁大学,主修计算机科学和经济学,研究主要关注探索多模态大语言模型的能力。

论文链接:https://arxiv.org/pdf/2412.14171

项目主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/

参考链接:

[ 1 ] https://x.com/sainingxie/status/1870877202595958791

[ 2 ] https://x.com/drfeifei/status/1870881981703291097

[ 3 ] https://vision-x-nyu.github.io/thinking-in-space.github.io/

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們