今天小編分享的科學經驗:專抓AI“看圖説謊”,谷歌哥大用三類陷阱觸發幻覺,打造可随技術發展動态演進的評估框架,歡迎閲讀。
幻覺(Hallucination),即生成事實錯誤或不一致的信息,已成為視覺 - 語言模型 ( VLMs)可靠性面臨的核心挑戰。随着 VLMs 在自動駕駛、醫療診斷等關鍵領網域的廣泛應用,幻覺問題因其潛在的重大後果而備受關注。
然而,當前針對幻覺問題的研究面臨多重制約:影像數據集的有限性、缺乏針對多樣化幻覺觸發因素的綜合評估體系,以及在復雜視覺問答任務中進行開放式評估的固有困難。
為突破這些限制,來自哥倫比亞大學和 Google DeepMind 的研究團隊提出了一種創新的視覺問答數據集構建方案。
該方案通過整合真實影像與合成生成影像,利用基于提示的影像生成技術,克服了傳統數據集(如 MS-COCO 和 Flickr)在影像多樣性和特殊性方面的局限。這一名為 HaloQuest 的數據集采用 " 機器 - 人工 " 協同的數據生成流程,重點收集了三類針對當前 VLM 模型固有弱點的挑戰性樣本,旨在系統性地觸發典型幻覺場景:
a. 基于錯誤前提的誘導性問題;
b. 缺乏充分上下文支持的模糊性問題;
c. 其他具有高度復雜性的疑難問題;
此外,HaloQuest 創新性地引入了基于大語言模型(LLM)的自動評估系統(AutoEval),實現了開放式、動态化的評估機制,并探索了合成影像在 VLM 評估中的革命性應用價值。傳統評估方法通常局限于多項選擇題或有限詞匯的封閉式回答,這種評估方式不僅限制了模型展現復雜推理和細微表達能力,也難以準确評估模型在現實場景中的實際表現。
特别是在處理生成式幻覺預測時,現有方法無法全面衡量模型生成連貫性、細節豐富度及上下文一致性等方面的能力。HaloQuest 提出的 AutoEval 系統通過支持對模型響應的細粒度、開放式評估,建立了一個可随技術發展動态演進的評估框架,為 VLMs 的可靠性評估提供了新的範式。
HaloQuest 介紹
圖 2 展示了 HaloQuest 數據集的構建流程,該流程通過整合真實影像與合成影像,确保了數據集的豐富性和多樣性。真實影像選自 Open Images 數據集的随機樣本,而合成影像則來源于 Midjourney 和 Stable Diffusion 在線畫廊。為确保影像質量,篩選過程優先考慮高浏覽量和正面評價的影像,并結合精心設計的主題詞列表進行搜索查詢。
在人類标注階段,影像需滿足兩個标準:既需具備趣味性或獨特性,又需易于理解。例如,展示罕見場景、包含非常規物體組合(如圖 2 所示的 " 穿着報紙的狗 "),或具有視覺衝擊力的影像被視為 " 有趣 "。同時,這些影像即使違背現實物理規律,也需保持視覺連貫性和清晰度,确保人類能夠理解其内容。
這一兩重标準的設計,旨在平衡生成具有挑戰性的場景與确保模型響應的可解釋性,從而能夠準确歸因于模型在推理或理解上的特定缺陷。
影像篩選完成後,人類标注者與大語言模型協作,圍繞影像設計問題和答案,重點關注創造性、細微推理能力以及模型潛在偏見的檢測。HaloQuest 包含三類旨在誘發幻覺的問題:
a. 錯誤前提問題(False Premise Questions):這些問題包含與影像内容直接矛盾的陳述或假設,用于測試模型是否能夠優先考慮視覺證據而非誤導性語言線索。
b. 視覺挑戰性問題(Visually Challenging Questions):這些問題要求模型深入理解影像細節,例如物體計數、空間關系判斷或被遮擋區網域的推理,用于評估模型的復雜視覺分析能力。
c. 信息不足問題(Insufficient Context Questions):這些問題無法僅憑影像内容得出明确答案,旨在探測模型是否會依賴固有偏見或無根據的推測,而非承認信息的局限性。
在問題創建過程中,人類标注者為每張影像設計兩個問題及其答案。首先,他們需提出一個關于影像中某個視覺元素的問題,但該問題無法僅通過影像内容回答。其次,标注者需提出一個關于影像中微妙細節的問題,該問題需有明确且客觀的答案,避免主觀偏見的幹擾。
為提高效率,HaloQuest 還利用 LLMs(如 IdealGPT 框架,結合 GPT-4 和 BLIP2)自動生成影像描述。這些描述被拆分為多個原子陳述(例如:" 這是一只金毛獵犬的特寫 "," 狗的背上披着報紙 ")。人類标注者評估每個陳述的真實性(是 / 否),随後 LLMs 基于這些評估結果生成對應的問答對。
為進一步提升數據質量,HaloQuest 采用篩選機制:首先,高性能 VQA 模型對初始問題池進行預回答;随後,經驗豐富的人類标注者審查問題及模型回答,确保問題的挑戰性和答案的清晰性。過于簡單的問題會被修改或丢棄,模棱兩可的答案會被标記,以确保每個問題都具有足夠的難度和明确的解答。
通過這一嚴謹的流程,HaloQuest 構建了一個高質量、高挑戰性的數據集,為 VLM 的評估提供了更可靠的基準。下圖展示了 HaloQuest 的部分數據樣本,并與其他數據集進行了對比,凸顯了其在多樣性和復雜性方面的優勢。
自動評估
為了大規模支持自由格式和開放式視覺 - 語言模型(VLM)幻覺評估,HaloQuest 開發了一種基于大語言模型(LLM)的自動評估方法。盡管原則上任何 LLM 只需基礎提示即可執行此類評估,但 HaloQuest 提出了一種更為高效和精準的評估框架。
具體而言,HaloQuest 引入了 Langfun 結構,該方法通過結構化提示設計,幫助 Gemini 模型準确提取模型響應與參考答案的核心内容,并判斷二者之間的一致性。圖 7 展示了用于實現自動評估的 Gemini 提示詞及其結構,而圖 8 則提供了 Auto-Eval 評估的具體示例。
如圖所示,Gemini 模型需要根據輸入的問題、模型回答和參考答案,填充 PredictionEvaluation 類的相關屬性。通過 Langfun 結構,HaloQuest 不僅解決了 VLM 幻覺評估中的技術挑戰,還為未來更廣泛的 AI 模型評估提供了創新思路和實踐經驗。
實驗與分析
研究發現,現有視覺 - 語言模型(VLMs)在 HaloQuest 數據集上的表現不盡如人意,幻覺率較高。這一結果揭示了模型在理解和推理能力上的顯著不足,同時也凸顯了開發更穩健的幻覺緩解方法的迫切需求。
關鍵發現:
a. 模型規模與幻覺率的關系
研究發現,更大的模型規模并不一定能夠降低幻覺率。出乎意料的是,較小的 BEiT-3 模型在多個任務上表現優于更大的模型。這一發現表明,單純依賴模型擴展并不能有效解決幻覺問題,數據驅動的幻覺緩解策略可能更具潛力。
b. Auto-Eval 的可靠性
Auto-Eval 與人工評估結果具有較高的相關性。這一結果表明,在人工評估不可行或成本過高的情況下,Auto-Eval 可以作為一種可靠的替代方案,為大規模模型評估提供支持。
c. 微調的有效性
在 HaloQuest 上進行微調顯著降低了 VLMs 的幻覺率,同時并未影響模型在其他基準測試上的表現。這證明了 HaloQuest 在提升模型安全性方面的潛力,且不會削弱其整體有效性。
d. 跨數據集的泛化能力
表 6 展示了各模型在 POPE 幻覺基準測試上的表現。結果顯示,經過 HaloQuest 訓練的模型在新數據集上的表現也有所提升,進一步驗證了 HaloQuest 能夠幫助模型在新環境中避免幻覺。
合成影像與真實影像的對比
研究還按照真實影像和合成影像分别評估了模型的表現。盡管大多數模型在真實影像上的幻覺率更高,但合成影像上的幻覺率仍然顯著。值得注意的是,合成影像在數據集構建中具有獨特優勢
低成本與可擴展性:合成影像提供了一種經濟高效的解決方案,有助于快速擴展數據集規模。
降低幻覺率:實驗結果表明,訓練數據加入合成影像有助于降低模型的幻覺率(見表 5 和表 7)。
技術進步的潛力:盡管目前合成影像的難度略低于真實影像,但随着影像生成技術的進步,這一差距有望縮小。
實際應用的重要性:随着影像生成技術的廣泛應用,确保模型在合成影像上具備抗幻覺能力将變得愈發重要。
幻覺成因與模型表現
研究進一步分析了模型在 HaloQuest 三類問題上的表現:
錯誤前提問題(False Premise Questions):開源模型在處理此類問題時表現較差,但 GPT-4 展現出一定優勢。
信息不足問題(Insufficient Context Questions):模型普遍表現不佳,表明其在處理模糊信息時容易依賴偏見或無根據的推測。
視覺挑戰性問題(Visually Challenging Questions):模型表現略有提升,但 GPT-4 在此類任務上的表現不如其他模型。
這些發現為未來研究提供了新的方向,包括:
數據集優化:通過改進數據集構建方法,進一步提升模型的抗幻覺能力。
受控影像生成:利用更先進的影像生成技術,創建更具挑戰性的合成影像。
标注偏差緩解:減少數據标注過程中的偏差,提高數據集的多樣性和公平性。
針對性優化:針對不同模型的特定弱點,開發定制化的幻覺緩解策略。
結論
HaloQuest 是一個創新的視覺問答基準數據集,通過整合真實世界影像和合成影像,結合受控的影像生成技術和針對特定幻覺類型設計的問題,為分析 VLMs 的幻覺觸發因素提供了更精準的工具。實驗結果表明,當前最先進的模型在 HaloQuest 上的表現普遍不佳,暴露了其能力與實際應用需求之間的顯著差距。
在 HaloQuest 上進行微調的 VLMs 顯著降低了幻覺率,同時保持了其在常規推理任務上的性能,這證明了該數據集在提升模型安全性和可靠性方面的潛力。此外,研究提出了一種基于大語言模型(LLM)的 Auto-Eval 評估機制,能夠對 VLMs 的回答進行開放式、細粒度的評估。與傳統方法相比,Auto-Eval 克服了限制模型表達能力或難以評估復雜幻覺的局限性,實現了評估效率和準确性的顯著優化。
HaloQuest 不僅為 VLMs 的幻覺問題研究提供了新的基準,還通過其創新的數據集構建方法和評估機制,為未來多模态 AI 的發展指明了方向。随着影像生成技術和評估方法的不斷進步,HaloQuest 有望在推動更安全、更可靠的視覺 - 語言模型研究中發揮重要作用。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見