字節大模型新進展：首次引入視覺定位，實現細粒度多模态聯合理解，已開源&demo可玩 - 大酷樂

今天小編分享的科學經驗：字節大模型新進展：首次引入視覺定位，實現細粒度多模态聯合理解，已開源&demo可玩，歡迎閲讀。

字節大模型，BuboGPT 來了。

支持文本、影像、音頻三種模态，做到細粒度的多模态聯合理解。

答哪指哪，什麼講了什麼沒講，一目了然：

除了有 " 慧眼 "，還有 " 聰耳 "。人類都注意不到的細節 BuboGPT 能聽到：

前方高能！

三模态聯合理解，文字描述 + 影像定位 + 聲音定位，一鍵搞定，準确判斷聲音來源：

别着急，還沒完！

即使音頻和影像之間沒有直接關系，也可以合理描述兩者之間的可能關系，看圖辨音講故事也可以：

這麼一看，BuboGPT 幹點活，夠 " 細 " 的。

研究人員表示：

MiniGPT-4，LLaVA 和 X-LLM 等最近爆火的多模态大模型未對輸入的特定部分進行基礎性連接，只構建了粗粒度的映射。

而 BuboGPT 利用文本與其它模态之間豐富的信息且明确的對應關系，可以提供對視覺對象及給定模态的細粒度理解。

因此，當 BuboGPT 對影像進行描述時，能夠指出圖中對象的具體位置。

BuboGPT：首次将視覺連接引入 LLM

除了上面作者分享在 YouTube 的示例，研究團隊在論文中也展示了 BuboGPT 玩出的各種花樣。

活久見青蛙彈琴！這樣的圖 BuboGPT 也能準确描述嗎？

一起康康回答得怎麼樣：

不僅能夠準确描述青蛙的姿勢，還知道手摸的是班卓琴？

問它圖片都有哪些有趣的地方，它也能把圖片背景裏的東西都概括上。

BuboGPT" 眼力 + 聽力 + 表達力測試 "，研究人員是這樣玩的，大家夥兒先來聽這段音頻。

再來看看 BuboGPT 的描述怎麼樣：

圖片上的人的性别、聲音來源、圖片中發生的事情，BuboGPT 都能準确理解。

效果這麼好，是因為字節這次用了将視覺定位引入 LLM 的方法。

具體方法我們接着往下看。

BuboGPT 的架構是通過學習一個共享的語義空間，并進一步探索不同視覺對象和不同模态之間的細粒度關系，從而實現多模态理解。

為探索不同視覺對象和多種模态之間的細粒度關系，研究人員首先基于 SAM 構建了一個現成的視覺定位 pipeline。

這個 pipeline 由标記模塊（Tagging Module）、定位模塊（Grounding Module）和實體匹配模塊 ( Entity-matching Module ) 三個模塊組成。

流程大概是這樣嬸兒的：

首先，标記模塊是一個預訓練模型，可以生成與輸入影像相關的多個文本标籤。

基于 SAM 的定位模塊進一步定位影像上與每個文本标籤相關的語義掩模或邊界框。

然後，實體匹配模塊利用 LLM 的推理能力從标籤和影像描述中檢索匹配的實體。

研究人員就是通過這種方式，使用語言作為橋梁将視覺對象與其它模态連接起來。

為了讓三種模态任意組合輸入都能有不錯的效果，研究人員采用了類似于 Mini-GTP4 的兩階段走訓練方案：

單模态預訓練和多模态指令調整。

具體而言，BuboGPT 使用了 ImageBind 作為音頻編碼器，BLIP-2 作為視覺編碼器，以及 Vicuna 作為預訓練 LLM。

在單模态預訓練階段，在大量的模态 - 文本配對數據上訓練相應的模态 Q-Former 和線性投影層。

對于視覺感知，研究人員僅對影像标題生成部分進行投影層的訓練，并且保持來自 BLIP2 的 Q-Former 固定。

對于音頻理解，他們同時訓練了 Q-Former 和音頻标題生成部分。

在這兩種設定下都不使用任何提示（prompt），模型僅接收相應的影像或音頻作為輸入，并預測相應的标題（caption）。

△不同輸入的指令遵循示例

在多模态指令調整階段，構建了一個高質量的多模态指令數據集對線性投影層進行微調，包括：

影像 - 文本：使用 MiniGPT-4 和 LLaVa 中的兩個數據集進行視覺指令調優。

音頻 - 文本：基于 Clotho 數據集構建了一系列表達性和描述性數據。

音頻 - 影像 - 文本：基于 VGGSS 數據集構建了 < 音頻，影像，文本 > 三模态指導調優數據對，并進一步引入負樣本來增強模型。

值得注意的是，通過引入負樣本 " 影像 - 音頻對 " 進行語義匹配，BuboGPT 可以更好地對齊，多模态聯合理解能力更強。

目前 BuboGPT 代碼、數據集已開源，demo 也已發布啦，我們趕緊上手體驗了一把。

demo 淺玩體驗

BuboGPT demo 頁面功能區一目了然，操作起來也非常簡單，右側可以上傳圖片或者音頻，左側是 BuboGPT 的回答視窗以及用户提問視窗：

上傳好照片後，直接點擊下方第一個按鈕來上傳拆分圖片：

就拿一張長城照片來説，BuboGPT 拆成了這個樣子，識别出了山、旅遊勝地以及城牆：

當我們讓它描述一下這幅圖時，它的回答也比較具體，基本準确：

可以看到拆分框上的内容也有了變化，與回答的文本内容相對應。

再來一張圖片，并帶有一段音頻，BuboGPT 也正确匹配了聲音來源：

當然，它也會出現識别不成功，表述錯誤的情況，比如説下面這張圖中并沒有人，音頻也只是鍾聲，但它的描述和圖片似乎并不搭邊。

感興趣的家人趕緊親自上手試試～～

傳送門：

[ 1 ] https://bubo-gpt.github.io/

[ 2 ] https://huggingface.co/spaces/magicr/BuboGPT（demo）