大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

多模态模型免微調接入互聯網,即插即用新框架,效果超閉源商用方案

2024-11-10 简体 HK SG TW

今天小編分享的科技經驗:多模态模型免微調接入互聯網,即插即用新框架,效果超閉源商用方案,歡迎閱讀。

一個 5 月份完成訓練的大模型,無法對《黑神話 · 悟空》遊戲内容相關問題給出準确回答。

這是大模型的老毛病了。

因為《黑神話》8 月才上市,訓練數據裡沒有它的相關知識。

眾所周知,大模型的訓練和微調會消耗大量計算資源和時間,這意味着頻繁更新大模型的參數是不切實際的。

然而,現實世界中的信息是實時產生的且不斷變化的。這使得大模型在完成訓練後,對于後續新產生的信息感到陌生,所以無法提供準确可靠的反饋。

為此,上海人工智能實驗室、北京理工大學、浙江大學、香港大學聯合提出即插即用的SearchLVLMs 框架,可以無縫整合任意的多模态大模型。

該框架在推理階段對大模型進行互聯網檢索增強,使得大模型無需微調即可對實時信息進行準确的反饋。

研究團隊提出首個輔助多模态大模型對實時信息進行反饋的開源檢索增強框架 SearchLVLMs。

該框架主要包括查詢生成、搜索引擎調用、分層過濾三個部分。

以視覺問答為例,該框架會基于問題和圖片生成查詢關鍵詞,并調用搜索引擎查找相關信息,再由粗到細地對檢索結果進行過濾,得到對回答該問題有幫助的信息。

這些信息會以 prompt 的形式在推理階段提供給模型,以輔助回答。

同時,團隊提出一個數據生成框架 UDK-VQA,它可以自動生成依賴實時信息進行回答的視覺問答數據。

基于此框架,數據集可以完成動态更新,以保證測試數據的時效性。

目前已有 UDK-VQA-240401-30、UDK-VQA-240816-20 兩個版本的數據集,涉及到的時間跨度分别是 2024 年 4 月 1 日 -2024 年 4 月 31 日和 2024 年 8 月 16 日 -2024 年 9 月 5 日。

研究者在超過 15 個開源、閉源模型上進行了實驗,包括 GPT-4o、Gemini 1.5 Pro、InternVL-1.5、LLaVA-1.6 等。

在 UDK-VQA 數據集上的回答準确率,則配備了 SearchLVLMs 的 SOTA LVLMs 超過了自帶互聯網檢索增強的 GPT-4o 模型 35%。

開源框架 SearchLVLMs

SearchLVLMs 框架主要由三部分組成:

查詢生成

搜索引擎調用

分層過濾

在查詢生成階段,需要對問題和影像進行充分地理解,以轉化為适用于搜索引擎的文本查詢。

對于問題而言,直接使用手工設計的 prompt 調用 LLM 得到問題查詢詞。

對于影像而言,調用必應視覺搜索得到包含該影像或與該影像相關的網頁,提取這些網頁的題目 / 快照的最長公共子串作為影像查詢詞。

在搜索引擎調用階段,用戶可以根據問題類型自主選擇調用的搜索引擎類别。

比如:對于實時性較強的新聞相關問題,可以選擇調用必應新聞搜索;對于常識性問題,可以選擇調用必應通用搜索。

調用搜索引擎後會得到多個網頁的題目、摘要和鏈接。

在分層過濾階段,首先調用網頁過濾器對得到的網頁進行初篩,基于網頁的題目和摘要對這些網頁進行重排。

對于排序靠前的網頁,使用爬蟲獲取網頁的文本内容,每三句切抽成一個片段,使用内容過濾器對這些片段進行重排。

對于排序靠前的片段,基于 CLIP 特征對它們進行聚類,選擇離每個聚類中心的最近的片段,以避免内容重復片段對大模型預測帶來的誤導。

被選擇的片段被直接拼接在一起,用于提示大模型。

其中,網頁過濾器和内容過濾器是兩個獨立訓練的 LLaVA-1.5 模型,作用是為網頁 / 片段進行打分——網頁 / 片段對于回答該問題的幫助程度。

為了訓練這兩個過濾器,也為了測試大模型對實時信息的反饋能力,研究團隊進一步提出了一個數據生成框架—— UDK-VQA,如下圖所示。

五個步驟完成數據生成

UDK-VQA 數據生成主要遵循五個步驟:

分别是查詢搜集、問題生成、影像分配、偽标注生成、人為驗證。

第一步,查詢搜集。

查詢搜集主要包括兩方面,一方面是從谷歌每日搜索趨勢上爬取熱門搜索詞,另一方面是人為搜集一些熱門搜索詞來對前者進行補充。

第二步,問題生成。

研究人員首先根據搜集到的搜索詞調用搜索引擎得到相關的新聞,将新聞内容進行切分,得到多個内容片段。

然後要求 GPT 根據内容片段自問自答,得到 < 問題,答案 > 的集合。

在第三步影像分配階段,團隊會提取出問題中的實體,使用圖片搜索引擎得到實體的圖片,并将問題中的實體單詞替換為其上分位詞,與圖片一起組成視覺問答樣本。

第四步,偽标注生成。

為了訓練網頁過濾器和内容過濾器,需要對網頁 / 片段進行打分。

對于一個視覺問答樣本和一個網頁 / 片段,研究者基于兩個原則進行打分:

① 如果該樣本是基于該網頁 / 片段生成的,分數為 1.0。

② 如果該樣本不是基于該網頁 / 片段生成的,使用 5 個開源模型在該網頁 / 片段下嘗試回答該樣本,根據模型回答的正确率進行打分。

基于這樣的偽标注方法,研究人員構造了 ~80w 樣本用于訓練。

最後一步,人為驗證。

構造測試集時,研究者對第 3 步得到的視覺問答樣本進行了人為篩選,确保測試樣本的正确性。

為了避免訓練數據和測試數據需要參考相似的實時信息,在構造訓練集和測試集時,研究過程中使用不同時間區間的谷歌每日搜索趨勢來爬取熱門搜索詞。

下圖中 ( a ) 、 ( b ) 、 ( c ) 分别展示了訓練樣本、測試樣本和測試樣本的分布。

基于數據生成框架 UDK-VQA,很容易可以構造出需要實時信息進行回答的視覺問答樣本。

研究團隊聲明會不斷更新測試集,保證測試樣本的時效性。

目前,研究人員已經構造了兩個版本的測試集,分别涉及到 2024 年 5 月份和 2024 年 9 月份的信息。

實驗結果與結論

SearchLVLMs 框架團隊在 UDK-VQA 上測試了 15 個現有的 LVLMs,主要實驗結果如下表所示。

其中,Raw 表示模型的原始版本(沒有檢索增強功能)、Long-Context  (LC)表示将搜索引擎返回的網頁爬取内容後,直接拼接起來提示模型,IAG 表示使用了模型内嵌的互聯網檢索增強能力。

Gen.、Cham. 和 CLIP → FID ( C → F ) 分别表示 [ 1 ] 、 [ 2 ] 和 [ 3 ] 中的方法。

從實驗結果中可以有以下發現:

1、接收長上下文輸入可以一定程度上避免對搜索引擎的返回内容進行二次篩選。

Gemini Pro 1.5 ( LC)的性能高于内嵌互聯網檢索增強的 GPT-4V 和 GPT-4o,但是長上下文會引入額外的計算消耗,并引入一些不必要的信息對模型造成誤導。

經過 SearchLVLMs 的分層過濾模型進行二次篩選還有,可以進一步提升模型性能。

2、具備檢索增強能力的閉源商用模型在性能上顯著高于不具備檢索增強能力的開源模型。

GPT-4V 和 GPT-4o 由于内嵌互聯網檢索增強模塊,在準确率上大幅領先開源模型,如 LLaVA-1.6 和 InternVL-1.5,差距約為 20%~30%。

3、SearchLVLMs 框架可以整合任意的多模态大模型,并大幅度提高它們對于依賴實時信息的問題的回答能力。

無論是在閉源商用模型 Gemini 1.5 Pro、GPT-4o、GPT-4V,還是開源 SOTA 模型 LLaVA-1.6 和 InternVL-1.5 上,SearchLVLMs 均能帶來超過 50% 的性能提升。

4、SearchLVLMs 帶來的性能提升,遠高于已有方法。

研究對比了檢索增強方法 Gen.、C → F 和調用搜索引擎來輔助回答的框架 Cham.,SearchLVLMs 在應對實時信息檢索任務時,表現出明顯的優越性。

5、使用 SearchLVLMs 整合開源模型,性能可以大幅超過内嵌互聯網檢索增強能力的閉源商用模型。

InternVL-1.5+SearchLVLMs 的準确率為 92.9%,遠高于 GPT-4o(IAG)的 57.8%。

這一發現表明,開源模型具有巨大的潛力,SearchLVLMs 在性能、可定制性和透明度上具有顯著的優勢。

參考文獻

[ 1 ] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023.

[ 2 ] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023.

[ 3 ] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.

文章鏈接 :   https://arxiv.org/abs/2405.14554

項目主頁:https://nevermorelch.github.io/SearchLVLMs.github.io/

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們