大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

首次引入GPT-4o!影像自動評估新基準來啦

2024-06-28 简体 HK SG TW

今天小編分享的科學經驗:首次引入GPT-4o!影像自動評估新基準來啦,歡迎閲讀。

面對層出不窮的影像生成技術,一個新問題擺在眼前:

缺乏統一标準來衡量這些生成的圖片是否符合人們的喜好

對此,來自清華、西交大、伊利諾伊厄巴納 - 香槟分校、中科院、曠視的研究人員共同推出了一項新基準DreamBench++。

通過收集不同的影像和提示,團隊利用GPT-4o實現了符合人類偏好的自動評估。

簡單來説,通過精心設計 prompt 以及引入思維鏈提示和情境學習,團隊讓 GPT-4o 在影像評估過程中學會了像人類一樣思考,并展現其思考過程。

為了測試效果,團隊以7 名專業人類标注員的打分為基準,對7 種不同的影像生成方法進行了評估。

結果顯示 DreamBench++ 與人類評價高度一致。

更多細節接下來一起瞅瞅 ~

什麼是 DreamBench++?

DreamBench++ 是一個全新的評估工具,它在個性化影像評估領網域實現了兩項關鍵技術突破。

引入支持多模态的 GPT-4o,同時實現與人類偏好的深度對齊以及自動化評估

推出了一個更為全面和多元化的數據集

與人類對齊的自動化評估

盡管 GPT-4o 支持多模态輸入,但在保留評估中的細微差異時面臨挑戰。

在評價不同方法的個性化效果時,研究人員選擇直接打分而非對比,因為對比可能會受到不同方法生成的影像順序的影響,而且兩兩對比需要更長的标注時間。

為了确保評估的準确性和一致性,研究人員設計了包含以下要素的prompt:

任務描述,明确評估的目标和要求。

評分标準解釋,詳細説明評估的依據。

評分範圍定義,設定評分的量化标準。

格式規範,确保評分的統一性和可比性。

評分規則涵蓋了形狀、顏色、紋理以及面部細節(特别針對人和動物),以全面評估影像的個性化效果。

最後,為了收集無偏的人類偏好數據,研究團隊招募了7 名經過專業培訓、充分理解個性化任務的人類标注員。他們的标注結果被用作人類打分的基準,以确保評估結果的客觀性和可靠性。

更全面的個性化數據集

為了确保評估過程的公正性和無歧視性,DreamBench++ 的研究人員構建了一個新的個性化數據集。

這一數據集的構建過程涵蓋了以下幾個關鍵步驟:

獲取主題關鍵詞:團隊挑選以及生成了一系列可用于個性化生成的主體名稱,如貓、鍾表、男人等,共200 個關鍵詞,分為物體(objects)、活物(living objects ) ,以及風格化圖片(style)三種類型。

圖片收集:收集來源包含 Unsplash, Rawpixel 和 Google Image Search。接着,從這些圖片中挑選了背景幹淨、主體占比大的圖片,以确保影像的清晰度和識别度。

prompt 生成:引導 GPT-4o 生成不同復雜程度的 prompt。這些 prompt 的復雜性與生成任務的難度相對應,即越復雜的 prompt 對應越具有挑戰性的生成任務。

實驗結果

在 DreamBench++ 平台上,研究團隊對7 種不同的影像生成方法進行了評估。

這些方法涵蓋了基于訓練的、無需訓練的,以及基于多模态大語言模型(MLLM)的多種方案。

評估結果顯示:

在影像相似性方面,DINO-I 和 CLIP-I(現有的影像自動評估指标)的評分往往高于人類的評價。

而在文本遵循方面,CLIP-T 的評分則相對較低。

相比之下,GPT-4o 在這兩方面的評分均更接近人類的打分。

團隊推測上述結果背後的原因是,GPT-4o 和人類評價者都會綜合考慮多個視覺元素,如形狀、輪廓、紋理,以及人或動物的面部細節等,最終給出一個綜合性的評分。

這種評價方式更符合人類的直覺和偏好,因為它不僅僅關注單一的方面,而是全面地評估影像的各個方面。

此外,團隊還對不同影像生成方法在 DreamBench++ 上的生成結果進行了可視化展示。

在評估影像生成結果的保持主體情況時,DreamBench++ 與人類評估者達到了79.64%的一致性。

在遵循文本指令生成影像的能力方面,DreamBench++ 的一致性高達 93.18%。

從數據來看,DreamBench++ 的人類一致性比 DINO score高出 54.1%,比 CLIP score高出 50.7%。

這也側面説明,通過設計 prompt,能夠讓 GPT-4o 較為準确地捕捉和反映人類的審美和偏好。

另外,Dreambench++ 的數據集多樣性更高,與 DreamBench 相比,finetune-based 方法在 DreamBench++ 上的表現會下降。

團隊推測這可能是因為他們在 DreamBench 上調整了參數,而 DreamBench 的種類并不全面。

同時,Emu2在非自然或復雜影像上的表現也會下降。

這些都説明 DreamBench++ 更全面的數據集暴露了已有的個性化方法中的新問題。

目前相關論文及數據集已公開,感興趣可以進一步了解。

論文:

https://arxiv.org/abs/2406.16855

開源地址:

https://huggingface.co/papers/2406.16855

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們