大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

開源版SearchGPT來了,兩張3090就可復現,超越Perplexity付費版

2024-11-12 简体 HK SG TW

今天小編分享的科學經驗:開源版SearchGPT來了,兩張3090就可復現,超越Perplexity付費版,歡迎閱讀。

OpenAI 推出 SearchGPT 沒幾天,開源版本也來了。

港中文 MMLab、上海 AI Lab、騰訊團隊簡易實現了Vision Search Assistant,模型設計簡單,只要兩張 RTX3090就可復現。

Vision Search Assistant(VSA)以視覺語言模型(VLM)為基礎,巧妙地将 Web 搜索能力融入其中,讓 VLM 内部的知識得到實時更新,使其更加靈活和智能。

目前,VSA 已經針對通用影像進行了實驗,可視化和量化結果良好。但不同類别的影像各具特色,還可以針對不同種類的影像(比如表格、醫學等)構建出更為特定的 VSA 應用。

更令人振奮的是,VSA 的潛力并不僅限于影像處理。還有更廣闊的可探索空間,比如視頻、3D 模型和聲音等領網域,期待能将多模态研究推向新的高度。

讓 VLM 處理未見過的影像和新概念

大型語言模型(LLM)的出現讓人類可以利用模型的強大零樣本問答能力來獲取陌生知識。

在此基礎上,檢索增強生成(RAG)等技術進一步提高了 LLM 在知識密集型、開放網域問答任務中的表現。然而,VLM 在面對未見過的影像和新概念時,它們往往不能利用好來自互聯網的最新多模态知識。

現有的 Web Agent 主要依賴于對用戶問題的檢索,并總結檢索返回的 HTML 文本内容,因此它們在處理涉及影像或其他視覺内容的任務時存在明顯的局限性,即視覺信息被忽視或處理不充分。

為了解決這一問題,團隊提出了 Vision Search Assistant。Vision Search Assistant 以 VLM 模型為基礎,能夠回答有關未見過的影像或新概念的問題,其行為類似人類在互聯網上進行搜索并解決問題的過程,包括:

理解查詢

決定應該關注影像中的哪些對象并推斷對象之間的相關性

逐對象生成查詢文本

根據查詢文本和推斷出的相關性分析搜索引擎返回的内容

判斷獲得的視覺和文本信息是否足以生成答案,或者它應該迭代和改進上述過程

結合檢索結果,回答用戶的問題

視覺内容描述

視覺内容描述模塊被用來提取影像中對象級的描述和對象之間的相關性,其流程如下圖所示。

首先利用開放網域的檢測模型來獲取值得關注的影像區網域。緊接着對每一個檢測到的區網域,使用 VLM 獲取對象級的文本描述。

最後,為了更全面地表達視覺内容,利用 VLM 進一步關聯不同的視覺區網域以獲得不同對象的更精确描述。

具體地,令用戶輸入圖片為,用戶的問題為。可通過一個開放網域的檢測模型獲取個感興趣的區網域:

然後利用預訓練的 VLM 模型分别描述這個區網域的視覺内容:

為了讓不同區網域的信息關聯起來,提高描述的精度,可将區網域與其它區網域的描述拼接,讓 VLM 對區網域的描述進行矯正:

至此,從用戶輸入獲得了與之高度相關的個視覺區網域的精确描述。

Web 知識搜索:" 搜索鏈 "

Web 知識搜索的核心是名為 " 搜索鏈 " 的迭代算法,旨在獲取相關視覺描述的綜合性的 Web 知識,其流程如下圖所示。

在 Vision Search Assistant 中利用 LLM 來生成與答案相關的子問題,這一 LLM 被稱為 "Planing Agent"。搜索引擎返回的頁面會被同樣的 LLM 分析、選擇和總結,被稱為 "Searching Agent"。通過這種方式,可以獲得與視覺内容相關的 Web 知識。

具體地,由于搜索是對每個區網域的視覺内容描述分别進行的,因此以區網域為例,并省略這個上标,即。該模塊中使用同一個 LLM 模型構建決策智能體(Planning Agent)和搜索智能體(Searching Agent)。決策智能體控制整個搜索鏈的流程,搜索智能體與搜索引擎互動,篩選、總結網頁信息。

以第一輪迭代為例,決策智能體将問題拆抽成個搜索子問題并交由搜索智能體處理。搜索智能體會将每一個交付搜索引擎,得到頁面集合。搜索引擎會閱讀頁面摘要并選擇與問題最相關的頁面集合(下标集為),具體方法如下:

對于這些被選中的頁面,搜索智能體會詳細閱讀其内容,并進行總結:

最終,所有個子問題的總結輸送給決策智能體,決策智能體總結得到第一輪迭代後的 Web 知識:

重復進行上述迭代過程次,或是決策智能體認為當前的 Web 知識已足矣回應原問題時,搜索鏈停止,得到最終的 Web 知識。

協同生成

最終基于原始影像、視覺描述、Web 知識,利用 VLM 回答用戶的問題,其流程如下圖所示。具體而言,最終的回答為:

實驗結果開放集問答可視化對比

下圖中比較了新事件(前兩行)和新影像(後兩行)的開放集問答結果。

将 Vision Search Assistant 和 Qwen2-VL-72B 以及 InternVL2-76B 進行了比較,不難發現,Vision Search Assistant 擅長生成更新、更準确、更詳細的結果。

例如,在第一個樣例中,Vision Search Assistant 對 2024 年 Tesla 公司的情況進行了總結,而 Qwen2-VL 局限于 2023 年的信息,InternVL2 明确表示無法提供該公司的實時情況。

開放集問答評估

在開放集問答評估中,總共通過 10 位人類專家進行了比較評估,評估内容涉及 7 月 15 日至 9 月 25 日期間從新聞中收集的 100 個圖文對,涵蓋新穎影像和事件的所有領網域。

人類專家從真實性、相關性和支持性三個關鍵維度進行了評估。

如下圖所示,與 Perplexity.ai Pro 和 GPT-4-Web 相比,Vision Search Assistant 在所有三個維度上都表現出色。

事實性:Vision Search Assistant 得分為 68%,優于 Perplexity.ai Pro(14%)和 GPT-4-Web(18%)。這一顯著領先表明,Vision Search Assistant 始終提供更準确、更基于事實的答案。

相關性:Vision Search Assistant 的相關性得分為 80%,在提供高度相關的答案方面表現出顯著優勢。相比之下,Perplexity.ai Pro 和 GPT-4-Web 分别達到 11% 和 9%,顯示出在保持網絡搜索時效性方面存在顯著差距。

支持性:Vision Search Assistant 在為其響應提供充分證據和理由方面也優于其他模型,支持性得分為 63%。Perplexity.ai Pro 和 GPT-4-Web 分别以 19% 和 24% 的得分落後。這些結果凸顯了 Vision Search Assistant 在開放集任務中的卓越表現,特别是在提供全面、相關且得到良好支持的答案方面,使其成為處理新影像和事件的有效方法。

封閉集問答評估

在 LLaVA W 基準進行閉集評估,其中包含 60 個問題,涉及 VLM 在野外的對話、細節和推理能力。

使用 GPT-4o ( 0806 ) 模型進行評估,使用 LLaVA-1.6-7B 作為基線模型,該模型在兩種模式下進行了評估:标準模式和使用簡單 Google 圖片搜索組件的 " 樸素搜索 " 模式。

此外還評估了 LLaVA-1.6-7B 的增強版本,該版本配備搜索鏈模塊。

如下表所示,Vision Search Assistant 在所有類别中均表現出最強的性能。具體而言,它在對話類别中獲得了 73.3% 的得分,與 LLaVA 模型相比略有提升,提升幅度為 +0.4%。在細節類别中,Vision Search Assistant 以 79.3% 的得分脫穎而出,比表現最好的 LLaVA 變體高出 +2.8%。

在推理方面,VSA 方法比表現最佳的 LLaVA 模型高出 +10.8%。這表明 Vision Search Assistant 對視覺和文本搜索的高級集成極大地增強了其推理能力。

Vision Search Assistant 的整體性能為 84.9%,比基線模型提高 +6.4%。這表明 Vision Search Assistant 在對話和推理任務中都表現出色,使其在野外問答能力方面具有明顯優勢。

論文:https://arxiv.org/abs/2410.21220

主頁:https://cnzzx.github.io/VSA/

代碼:https://github.com/cnzzx/VSA

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們