開源版SearchGPT來了，兩張3090就可復現，超越Perplexity付費版

今天小編分享的科學經驗：開源版SearchGPT來了，兩張3090就可復現，超越Perplexity付費版，歡迎閲讀。

OpenAI 推出 SearchGPT 沒幾天，開源版本也來了。

港中文 MMLab、上海 AI Lab、騰訊團隊簡易實現了Vision Search Assistant，模型設計簡單，只要兩張 RTX3090就可復現。

Vision Search Assistant（VSA）以視覺語言模型（VLM）為基礎，巧妙地将 Web 搜索能力融入其中，讓 VLM 内部的知識得到實時更新，使其更加靈活和智能。

目前，VSA 已經針對通用影像進行了實驗，可視化和量化結果良好。但不同類别的影像各具特色，還可以針對不同種類的影像（比如表格、醫學等）構建出更為特定的 VSA 應用。

更令人振奮的是，VSA 的潛力并不僅限于影像處理。還有更廣闊的可探索空間，比如視頻、3D 模型和聲音等領網域，期待能将多模态研究推向新的高度。

讓 VLM 處理未見過的影像和新概念

大型語言模型（LLM）的出現讓人類可以利用模型的強大零樣本問答能力來獲取陌生知識。

在此基礎上，檢索增強生成（RAG）等技術進一步提高了 LLM 在知識密集型、開放網域問答任務中的表現。然而，VLM 在面對未見過的影像和新概念時，它們往往不能利用好來自互聯網的最新多模态知識。

現有的 Web Agent 主要依賴于對用户問題的檢索，并總結檢索返回的 HTML 文本内容，因此它們在處理涉及影像或其他視覺内容的任務時存在明顯的局限性，即視覺信息被忽視或處理不充分。

為了解決這一問題，團隊提出了 Vision Search Assistant。Vision Search Assistant 以 VLM 模型為基礎，能夠回答有關未見過的影像或新概念的問題，其行為類似人類在互聯網上進行搜索并解決問題的過程，包括：

理解查詢

決定應該關注影像中的哪些對象并推斷對象之間的相關性

逐對象生成查詢文本

根據查詢文本和推斷出的相關性分析搜索引擎返回的内容

判斷獲得的視覺和文本信息是否足以生成答案，或者它應該迭代和改進上述過程

結合檢索結果，回答用户的問題

視覺内容描述

視覺内容描述模塊被用來提取影像中對象級的描述和對象之間的相關性，其流程如下圖所示。

首先利用開放網域的檢測模型來獲取值得關注的影像區網域。緊接着對每一個檢測到的區網域，使用 VLM 獲取對象級的文本描述。

最後，為了更全面地表達視覺内容，利用 VLM 進一步關聯不同的視覺區網域以獲得不同對象的更精确描述。

具體地，令用户輸入圖片為，用户的問題為。可通過一個開放網域的檢測模型獲取個感興趣的區網域：

然後利用預訓練的 VLM 模型分别描述這個區網域的視覺内容：

為了讓不同區網域的信息關聯起來，提高描述的精度，可将區網域與其它區網域的描述拼接，讓 VLM 對區網域的描述進行矯正：

至此，從用户輸入獲得了與之高度相關的個視覺區網域的精确描述。

Web 知識搜索：" 搜索鏈 "

Web 知識搜索的核心是名為 " 搜索鏈 " 的迭代算法，旨在獲取相關視覺描述的綜合性的 Web 知識，其流程如下圖所示。

在 Vision Search Assistant 中利用 LLM 來生成與答案相關的子問題，這一 LLM 被稱為 "Planing Agent"。搜索引擎返回的頁面會被同樣的 LLM 分析、選擇和總結，被稱為 "Searching Agent"。通過這種方式，可以獲得與視覺内容相關的 Web 知識。

具體地，由于搜索是對每個區網域的視覺内容描述分别進行的，因此以區網域為例，并省略這個上标，即。該模塊中使用同一個 LLM 模型構建決策智能體（Planning Agent）和搜索智能體（Searching Agent）。決策智能體控制整個搜索鏈的流程，搜索智能體與搜索引擎互動，篩選、總結網頁信息。

以第一輪迭代為例，決策智能體将問題拆抽成個搜索子問題并交由搜索智能體處理。搜索智能體會将每一個交付搜索引擎，得到頁面集合。搜索引擎會閲讀頁面摘要并選擇與問題最相關的頁面集合（下标集為），具體方法如下：

對于這些被選中的頁面，搜索智能體會詳細閲讀其内容，并進行總結：

最終，所有個子問題的總結輸送給決策智能體，決策智能體總結得到第一輪迭代後的 Web 知識：

重復進行上述迭代過程次，或是決策智能體認為當前的 Web 知識已足矣回應原問題時，搜索鏈停止，得到最終的 Web 知識。

協同生成

最終基于原始影像、視覺描述、Web 知識，利用 VLM 回答用户的問題，其流程如下圖所示。具體而言，最終的回答為：

實驗結果開放集問答可視化對比

下圖中比較了新事件（前兩行）和新影像（後兩行）的開放集問答結果。

将 Vision Search Assistant 和 Qwen2-VL-72B 以及 InternVL2-76B 進行了比較，不難發現，Vision Search Assistant 擅長生成更新、更準确、更詳細的結果。

例如，在第一個樣例中，Vision Search Assistant 對 2024 年 Tesla 公司的情況進行了總結，而 Qwen2-VL 局限于 2023 年的信息，InternVL2 明确表示無法提供該公司的實時情況。

開放集問答評估

在開放集問答評估中，總共通過 10 位人類專家進行了比較評估，評估内容涉及 7 月 15 日至 9 月 25 日期間從新聞中收集的 100 個圖文對，涵蓋新穎影像和事件的所有領網域。

人類專家從真實性、相關性和支持性三個關鍵維度進行了評估。

如下圖所示，與 Perplexity.ai Pro 和 GPT-4-Web 相比，Vision Search Assistant 在所有三個維度上都表現出色。

事實性：Vision Search Assistant 得分為 68%，優于 Perplexity.ai Pro（14%）和 GPT-4-Web（18%）。這一顯著領先表明，Vision Search Assistant 始終提供更準确、更基于事實的答案。

相關性：Vision Search Assistant 的相關性得分為 80%，在提供高度相關的答案方面表現出顯著優勢。相比之下，Perplexity.ai Pro 和 GPT-4-Web 分别達到 11% 和 9%，顯示出在保持網絡搜索時效性方面存在顯著差距。

支持性：Vision Search Assistant 在為其響應提供充分證據和理由方面也優于其他模型，支持性得分為 63%。Perplexity.ai Pro 和 GPT-4-Web 分别以 19% 和 24% 的得分落後。這些結果凸顯了 Vision Search Assistant 在開放集任務中的卓越表現，特别是在提供全面、相關且得到良好支持的答案方面，使其成為處理新影像和事件的有效方法。

封閉集問答評估

在 LLaVA W 基準進行閉集評估，其中包含 60 個問題，涉及 VLM 在野外的對話、細節和推理能力。

使用 GPT-4o ( 0806 ) 模型進行評估，使用 LLaVA-1.6-7B 作為基線模型，該模型在兩種模式下進行了評估：标準模式和使用簡單 Google 圖片搜索組件的 " 樸素搜索 " 模式。

此外還評估了 LLaVA-1.6-7B 的增強版本，該版本配備搜索鏈模塊。

如下表所示，Vision Search Assistant 在所有類别中均表現出最強的性能。具體而言，它在對話類别中獲得了 73.3% 的得分，與 LLaVA 模型相比略有提升，提升幅度為 +0.4%。在細節類别中，Vision Search Assistant 以 79.3% 的得分脱穎而出，比表現最好的 LLaVA 變體高出 +2.8%。

在推理方面，VSA 方法比表現最佳的 LLaVA 模型高出 +10.8%。這表明 Vision Search Assistant 對視覺和文本搜索的高級集成極大地增強了其推理能力。

Vision Search Assistant 的整體性能為 84.9%，比基線模型提高 +6.4%。這表明 Vision Search Assistant 在對話和推理任務中都表現出色，使其在野外問答能力方面具有明顯優勢。