大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

首次引入GPT-4o!影像自动评估新基准来啦

2024-06-28 简体 HK SG TW

今天小编分享的科学经验:首次引入GPT-4o!影像自动评估新基准来啦,欢迎阅读。

面对层出不穷的影像生成技术,一个新问题摆在眼前:

缺乏统一标准来衡量这些生成的图片是否符合人们的喜好

对此,来自清华、西交大、伊利诺伊厄巴纳 - 香槟分校、中科院、旷视的研究人员共同推出了一项新基准DreamBench++。

通过收集不同的影像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计 prompt 以及引入思维链提示和情境学习,团队让 GPT-4o 在影像评估过程中学会了像人类一样思考,并展现其思考过程。

为了测试效果,团队以7 名专业人类标注员的打分为基准,对7 种不同的影像生成方法进行了评估。

结果显示 DreamBench++ 与人类评价高度一致。

更多细节接下来一起瞅瞅 ~

什么是 DreamBench++?

DreamBench++ 是一个全新的评估工具,它在个性化影像评估领網域实现了两项关键技术突破。

引入支持多模态的 GPT-4o,同时实现与人类偏好的深度对齐以及自动化评估

推出了一个更为全面和多元化的数据集

与人类对齐的自动化评估

尽管 GPT-4o 支持多模态输入,但在保留评估中的细微差异时面临挑战。

在评价不同方法的个性化效果时,研究人员选择直接打分而非对比,因为对比可能会受到不同方法生成的影像顺序的影响,而且两两对比需要更长的标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的prompt:

任务描述,明确评估的目标和要求。

评分标准解释,详细说明评估的依据。

评分范围定义,设定评分的量化标准。

格式规范,确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估影像的个性化效果。

最后,为了收集无偏的人类偏好数据,研究团队招募了7 名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++ 的研究人员构建了一个新的个性化数据集。

这一数据集的构建过程涵盖了以下几个关键步骤:

获取主题关键词:团队挑选以及生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200 个关键词,分为物体(objects)、活物(living objects ) ,以及风格化图片(style)三种类型。

图片收集:收集来源包含 Unsplash, Rawpixel 和 Google Image Search。接着,从这些图片中挑选了背景干净、主体占比大的图片,以确保影像的清晰度和识别度。

prompt 生成:引导 GPT-4o 生成不同复杂程度的 prompt。这些 prompt 的复杂性与生成任务的难度相对应,即越复杂的 prompt 对应越具有挑战性的生成任务。

实验结果

在 DreamBench++ 平台上,研究团队对7 种不同的影像生成方法进行了评估。

这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

在影像相似性方面,DINO-I 和 CLIP-I(现有的影像自动评估指标)的评分往往高于人类的评价。

而在文本遵循方面,CLIP-T 的评分则相对较低。

相比之下,GPT-4o 在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o 和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅仅关注单一的方面,而是全面地评估影像的各个方面。

此外,团队还对不同影像生成方法在 DreamBench++ 上的生成结果进行了可视化展示。

在评估影像生成结果的保持主体情况时,DreamBench++ 与人类评估者达到了79.64%的一致性。

在遵循文本指令生成影像的能力方面,DreamBench++ 的一致性高达 93.18%。

从数据来看,DreamBench++ 的人类一致性比 DINO score高出 54.1%,比 CLIP score高出 50.7%。

这也侧面说明,通过设计 prompt,能够让 GPT-4o 较为准确地捕捉和反映人类的审美和偏好。

另外,Dreambench++ 的数据集多样性更高,与 DreamBench 相比,finetune-based 方法在 DreamBench++ 上的表现会下降。

团队推测这可能是因为他们在 DreamBench 上调整了参数,而 DreamBench 的种类并不全面。

同时,Emu2在非自然或复杂影像上的表现也会下降。

这些都说明 DreamBench++ 更全面的数据集暴露了已有的个性化方法中的新问题。

目前相关论文及数据集已公开,感兴趣可以进一步了解。

论文:

https://arxiv.org/abs/2406.16855

开源地址:

https://huggingface.co/papers/2406.16855

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們