大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA

2025-03-15 简体 HK SG TW

今天小编分享的科学经验:CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA,欢迎阅读。

今年,CVPR 共有 13008 份有效投稿并进入评审流程,其中 2878 篇被录用,最终录用率为 22.1%。

录用论文上来看,多模态相关内容仍是关注重点。

上海交通大学 - 美团计算与智能联合实验室发布的论文也被录用,论文提出了 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架。

论文致力于解决以下问题:

现有的文本到视觉评估数据集存在关键评估维度缺乏系统性、无法区分视觉质量和文本一致性,以及规模不足等问题;

评估过程复杂、结果模糊,难以满足特定评估需求,限制了基于大模型的评估模型在实际场景中的应用

相关实验也表明数据集和方法在评估结论和泛化性方面都做到的当前业界的领先水准。

在下表中可以看到数据集 Q-Eval-100K 的实例数量和人工标注数量远超其他数据集,可以说 Q-Eval-100K 是当前最大的 AIGC 评估数据集。

同时跨数据集验证显示,在 Q-Eval-100K 上训练的模型在 GenAI-Bench 数据集上表现出色,远超当前先进方法,充分证明了 Q-Eval-100K 数据集的泛化价值。

数据集 Q-Eval-100K 开启了文本到视觉内容评估的新时代,同时 Q-Eval-Score 提供一个开源的较为准确客观的 AIGC 打分框架,可用于对 AIGC 图片视频生成类模型的评估。

Q-Eval-100K 数据集共计包含了 100K 的 AIGC 生成数据(其中包含 60k 的 AIGC 图片以及 40k 的 AIGC 视频)。

接下来,将对 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架进行详细介绍。

数据集构建

在数据集构建上,团队确保遵循三个原则:

1)保证数据多样性。为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的 prompt 集,这三个大的维度可以被划分为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉能力项(backrgound,spatialrelationship,etc.),通过对于不同维度数据的比例控制,确保了 prompt 数据的多样性。同时,团队还使用了当前 SOTA 开源或者 API 的 AIGC 模型进行数据生成,从而确保了生成数据的高质量。这些 AIGC 模型包括 FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling 等。

2)高质量的数据标注。团队招募了 200 多名经过培训的人员进行人工打分标注,从这些人员手中收集了超过 960k 条相关数据的打分信息。经过人工严格的筛选和过滤后,最终得到了这 100k AIGC 数据以及其对应的一致性 / 质量标注数据。通过这样的方式,可以确保标注数据与人类偏好的高度一致性,从而提升了 Q-Eval-Score 评估框架的一致性与泛化能力。

3)视觉质量和文本一致性解耦标注。团队观察到当前对于 AIGC 模型质量的研判主要聚焦于视觉质量和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保 Q-Eval-Score 可以同时对这两个维度进行评估。如下图所示,在统计了多个 AIGC 模型的视觉质量和文本一致性 mos 分后,团队发现两个维度上模型的表现存在一定的差异性,因此也说明了将两个维度解耦的必要性。

以上数据集已在 AGI-Eval 社区评测集专区上线。

统一评估框架

在 Q-Eval-100k 的基础上,团队训练得到了 Q-Eval-Score 评估框架,该框架将数据集转换为监督微调(SFT)数据集,以特定上下文 prompt 格式训练大语言模型(LMM),使其能够独立评估视觉质量和文本一致性。

模型训练

首先,团队构建一个上下文 prompt 数据集用于大模型的 SFT 过程,模版如下:

再将人工标注打分按照 1-5 分分别映射到 5 个档位 {Bad,Poor,Fair,Good,Excellent} 上,以确保数据可用于大模型 SFT,人工标注打分映射的过程如下所示。

通过将五档得分的 logits 概率与权重加权得到最终得分,权重 1-0 分别表示从 Excellent 到 Bad 的得分映射。

在模型上,团队选择了当前在影像视频理解上性能较为优异的Qwen2-VL-7B-Instruct模型进行 SFT 微调,在微调时同时启用 CE Loss 和 MSELoss,用于监督模型打分能力的提升。

长 prompt 对齐问题

在文本一致性上,团队发现在处理长 prompt(超过 25 个词长)的场景时,常会低估对应的分数,这通常是由于训练集当中出现的较长提示词占比较少导致。

因此,针对长提示词对齐评估难题,团队创新性地提出 "Vague-to-Specific" 策略,将长提示词拆分为模糊提示词和多个具体提示词分别评估,再综合计算最终得分。

对于模糊提示词,团队按照常规方式计算对齐度得分。

然而,对于特定提示词来说这个策略并不合适,因为每个特定提示词只涉及视觉内容的一部分。

受 VQAScore 方法的启发,团队将问题修改为更温和的形式,例如 "Doestheimage/videoshow [ prompt ] ?",以此来评估每个特定提示词的对齐度。

最后,团队使用加权方法结合模糊提示词和特定提示词的结果,计算最终的对齐分数:

实验结论

在视觉质量评估方面,Q-Eval-Score 在影像和视频的测试中均表现优异,其预测得分与人工打分的斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)超越了当前所有的 SOTA 模型。

在文本一致性上,Q-Eval-Score 同样优势显著,在影像和视频的测试中,其 Instance-level 的 SRCC 分别领先其他的 sota 模型6% 和 12%。

消融实验表明,研究中提出的各项策略和损失函数对模型性能提升贡献显著。

在长提示词子集测试中,"Vague-to-Specific" 策略有效提高了评估性能;

Q-Eval-100K 和 Q-Eval-Score 的出现意义重大。它们为文本到视觉模型的评估提供了更可靠、全面的方案,有助于推动生成式模型的进一步发展和实际应用。未来,这一研究成果有望为相关领網域的发展奠定坚实基础,助力文本到视觉技术迈向新高度。

AGI-Eval 评测社区也一直致力于共创如 "Q-Eval-100k 数据集 " 这样优秀的数据集,在模型评测领網域深耕,旨在打造公正、可信、科学、全面的评测生态以 " 评测助力,让 AI 成为人类更好的伙伴 " 为使命。

论文链接:

https://arxiv.org/abs/2503.02357

AGI-Eval 评测集专区:  https://agi-eval.cn/evaluation/Q-Eval-100K?id=55

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們