大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

2024-06-29 简体 HK SG TW

今天小编分享的科学经验:陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现,欢迎阅读。

Claude 3.5 Sonnet 的图表推理能力,比 GPT-4o 高出了 27.8%。

针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。

新 Benchmark 比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。

该数据集名为CharXiv,内容全部选自 arXiv 论文中的真实图表,共计 2323 张。

相比此前的 FigureQA 等测试基准,CharXiv 涵盖的任务类型更加广泛,而且不按套路出牌,难度大幅增加。

为了宣传这套新 Benchmark,研究团队还写出了一首洗腦神曲,并制作了视频宣传片。

这段魔性的宣传片,让有些网友表示已经被成功 " 洗腦 ",腦海中充满了(歌词中的)"2323 张图表 "。

导师陈丹琦也感到印象十分深刻,直言这是自己见过最 fancy 的视频。

那么,CharXiv 究竟新在哪,又难在哪呢?

来自学术论文的图表测试集

团队指出,过去的表格测试标准太过简单,而且不能反映模型的真实水平。

比如 FigureQA、DVQA 和 ChartQA 的子集,只要稍作简单修改,模型的成绩就能下降超过 1/3。

究其原因,作者认为是之前的数据集中图表都是由程式合成,问答也高度模板化。

于是,研究团队提出了 CharXiv,由人类专家从 arXiv 论文中精心选择了 2323 个真实图表。

图表的类型也更加丰富,提出的问题也避免了套路化的问题。

根据重点考察能力的不同,作者将测试题目抽成了两类——描述性问题和推理性问题。

两类问题的比例为 4:1,即每张图表配有 4 个描述性问题和 1 个推理性问题。

其中描述性问题包括信息提取(Information extraction)、列举(Enumeration)、计数(Counting)、模式识别(Pattern recognition)等等。

这当中,模式识别指的是要求模型识别图表中数据的趋势和分布模式,如线条是否相交、数据是递增还是递减等。

另外还有较难的组合型(Compositionality)任务,模型需要综合多个视觉元素的信息回答问题,体现图表信息的组合理解。

比如这道题目就是一道组合型的描述类问题,它需要在识别清楚坐标轴的同时,完成计数的任务:

在当前的图表中,所有坐标轴中一共有多少明确标记的刻度?(这里问的是标记的数量,不是求和)

推理性问题则根据答案出现的方式又分为了四个子类:

Text-in-chart:问题的答案是图表中出现的文本,如图例标签、离散刻度标签等。

Text-in-general:问题的答案是一个易于验证的文本短语,但不一定显式出现在图表中。

Number-in-chart:问题的答案是图表中给出的一个数值,, 如坐标轴刻度值。

Number-in-general:问题的答案是一个精确到特定小数位数的数值,但可能需要通过阅读和推理才能得出,而不一定直接出现在图表中。

举个例子,下面的问题要求模型对表格中各列的数值进行求和,然后比较后给出和最小的一列对应的标签,这就是一项推理型任务。

利用这套数据集,作者在零样本的条件下评估了一些知名的开源和闭源模型。

模型依然不擅长推理

在推理类问题上,作者发现所有模型的表现都不是很理想。

表现最好的是真人,模型当中则是 Claude 3.5 Sonnet,不过也仅仅及格,和人相比还是差了四分之一,成绩超过 40 的模型一共也只有三个。

紧随其后的是 GPT-4o、Gemini 1.5 Pro 和 Claude 3 家族,有意思的是,Claude 3 的 " 超大杯 "Opus,表现还不如小一些的 Sonnet 和 Haiku。

开源模型中,表现最好的是微软的 " 小 " 模型 Phi-3,参数量一共只有 4B,成绩却跻身到了 Claude 3 家族的中间。

在描述类任务当中,表现最好的依然是人类,但模型和人类的差距小了,表现最好的 GPT-4o 和人类只差了不到 10%。

不过开源模型的表现就不那么好了,分数最高的 Phi-3 才刚刚及格。

另外,其中的组合型问题(COMP)任务,对于模型来说也依旧是难点,没有任何一个模型得分超过 60,而人类的表现是大于 90 的。

例如,数出 x 轴和 y 轴上的刻度标签数量,对于人来说是十分简单的任务,但测试下来,20 个模型在该任务中的准确率无一达到 10%。

而且,随着子图数量的增加,模型的描述能力也会下降。当有 6 个以上子图时,商业模型的成绩会下降 10-30%,开源模型对子图的处理则更加困难,性能下降比例达到了 30-50%。

经过综合比对,作者发具备良好描述能力是推理能力的前提——推理能力强的模型一般描述能力也强,但描述强的模型推理能力不一定强。当模型无法准确描述图表时,即使使用思维链(CoT)推理,成绩也不会提升。

论文地址:

https://arxiv.org/abs/2406.18521

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們