今天小编分享的科学经验:CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA,欢迎阅读。
今年,CVPR 共有 13008 份有效投稿并进入评审流程,其中 2878 篇被录用,最终录用率为 22.1%。
录用论文上来看,多模态相关内容仍是关注重点。
上海交通大学 - 美团计算与智能联合实验室发布的论文也被录用,论文提出了 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架。
论文致力于解决以下问题:
现有的文本到视觉评估数据集存在关键评估维度缺乏系统性、无法区分视觉质量和文本一致性,以及规模不足等问题;
评估过程复杂、结果模糊,难以满足特定评估需求,限制了基于大模型的评估模型在实际场景中的应用
相关实验也表明数据集和方法在评估结论和泛化性方面都做到的当前业界的领先水准。
在下表中可以看到数据集 Q-Eval-100K 的实例数量和人工标注数量远超其他数据集,可以说 Q-Eval-100K 是当前最大的 AIGC 评估数据集。
同时跨数据集验证显示,在 Q-Eval-100K 上训练的模型在 GenAI-Bench 数据集上表现出色,远超当前先进方法,充分证明了 Q-Eval-100K 数据集的泛化价值。
数据集 Q-Eval-100K 开启了文本到视觉内容评估的新时代,同时 Q-Eval-Score 提供一个开源的较为准确客观的 AIGC 打分框架,可用于对 AIGC 图片视频生成类模型的评估。
Q-Eval-100K 数据集共计包含了 100K 的 AIGC 生成数据(其中包含 60k 的 AIGC 图片以及 40k 的 AIGC 视频)。
接下来,将对 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架进行详细介绍。
数据集构建
在数据集构建上,团队确保遵循三个原则:
1)保证数据多样性。为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的 prompt 集,这三个大的维度可以被划分为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉能力项(backrgound,spatialrelationship,etc.),通过对于不同维度数据的比例控制,确保了 prompt 数据的多样性。同时,团队还使用了当前 SOTA 开源或者 API 的 AIGC 模型进行数据生成,从而确保了生成数据的高质量。这些 AIGC 模型包括 FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling 等。
2)高质量的数据标注。团队招募了 200 多名经过培训的人员进行人工打分标注,从这些人员手中收集了超过 960k 条相关数据的打分信息。经过人工严格的筛选和过滤后,最终得到了这 100k AIGC 数据以及其对应的一致性 / 质量标注数据。通过这样的方式,可以确保标注数据与人类偏好的高度一致性,从而提升了 Q-Eval-Score 评估框架的一致性与泛化能力。
3)视觉质量和文本一致性解耦标注。团队观察到当前对于 AIGC 模型质量的研判主要聚焦于视觉质量和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保 Q-Eval-Score 可以同时对这两个维度进行评估。如下图所示,在统计了多个 AIGC 模型的视觉质量和文本一致性 mos 分后,团队发现两个维度上模型的表现存在一定的差异性,因此也说明了将两个维度解耦的必要性。
以上数据集已在 AGI-Eval 社区评测集专区上线。
统一评估框架
在 Q-Eval-100k 的基础上,团队训练得到了 Q-Eval-Score 评估框架,该框架将数据集转换为监督微调(SFT)数据集,以特定上下文 prompt 格式训练大语言模型(LMM),使其能够独立评估视觉质量和文本一致性。
模型训练
首先,团队构建一个上下文 prompt 数据集用于大模型的 SFT 过程,模版如下:
再将人工标注打分按照 1-5 分分别映射到 5 个档位 {Bad,Poor,Fair,Good,Excellent} 上,以确保数据可用于大模型 SFT,人工标注打分映射的过程如下所示。
通过将五档得分的 logits 概率与权重加权得到最终得分,权重 1-0 分别表示从 Excellent 到 Bad 的得分映射。
在模型上,团队选择了当前在影像视频理解上性能较为优异的Qwen2-VL-7B-Instruct模型进行 SFT 微调,在微调时同时启用 CE Loss 和 MSELoss,用于监督模型打分能力的提升。
长 prompt 对齐问题
在文本一致性上,团队发现在处理长 prompt(超过 25 个词长)的场景时,常会低估对应的分数,这通常是由于训练集当中出现的较长提示词占比较少导致。
因此,针对长提示词对齐评估难题,团队创新性地提出 "Vague-to-Specific" 策略,将长提示词拆分为模糊提示词和多个具体提示词分别评估,再综合计算最终得分。
对于模糊提示词,团队按照常规方式计算对齐度得分。
然而,对于特定提示词来说这个策略并不合适,因为每个特定提示词只涉及视觉内容的一部分。
受 VQAScore 方法的启发,团队将问题修改为更温和的形式,例如 "Doestheimage/videoshow [ prompt ] ?",以此来评估每个特定提示词的对齐度。
最后,团队使用加权方法结合模糊提示词和特定提示词的结果,计算最终的对齐分数:
实验结论
在视觉质量评估方面,Q-Eval-Score 在影像和视频的测试中均表现优异,其预测得分与人工打分的斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)超越了当前所有的 SOTA 模型。
在文本一致性上,Q-Eval-Score 同样优势显著,在影像和视频的测试中,其 Instance-level 的 SRCC 分别领先其他的 sota 模型6% 和 12%。
消融实验表明,研究中提出的各项策略和损失函数对模型性能提升贡献显著。
在长提示词子集测试中,"Vague-to-Specific" 策略有效提高了评估性能;
Q-Eval-100K 和 Q-Eval-Score 的出现意义重大。它们为文本到视觉模型的评估提供了更可靠、全面的方案,有助于推动生成式模型的进一步发展和实际应用。未来,这一研究成果有望为相关领網域的发展奠定坚实基础,助力文本到视觉技术迈向新高度。
AGI-Eval 评测社区也一直致力于共创如 "Q-Eval-100k 数据集 " 这样优秀的数据集,在模型评测领網域深耕,旨在打造公正、可信、科学、全面的评测生态以 " 评测助力,让 AI 成为人类更好的伙伴 " 为使命。
论文链接:
https://arxiv.org/abs/2503.02357
AGI-Eval 评测集专区: https://agi-eval.cn/evaluation/Q-Eval-100K?id=55
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!