大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

只需将感知推理能力拆分,2B大模型就能戰勝20B!國產新框架高效處理視覺任務

2024-07-02 简体 HK SG TW

今天小編分享的科學經驗:只需将感知推理能力拆分,2B大模型就能戰勝20B!國產新框架高效處理視覺任務,歡迎閱讀。

只要把推理和感知能力拆分,2B 大模型就能戰勝 20B?!

上海 AI Lab 聯合南京大學、香港中文大學等機構,共同推出了一套兩階段框架——Prism。

這一框架不僅顯式地解耦了視覺語言模型(VLM)  的感知和推理,還提供了一種更高效的處理視覺語言任務的方案。

最終讓 2B VLM 和 ChatGPT 的組合表現出相當于 10 倍參數量 VLM 的性能。

Prism 框架架構及功能

在解決復雜的視覺語言任務時,模型的感知和推理能力至關重要。當模型在基準測試中表現不佳時,我們如何區分問題源自感知能力還是推理能力?

針對這一問題,Prism 框架将視覺語言任務處理拆分為兩個獨立階段:

感知階段:  VLM 作為感知模塊遵循指令提取輸入圖片的視覺信息,并以文本形式輸出

推理階段:  LLM 作為推理模塊根據提取得到的文本信息,結合輸入文本生成回復

框架架構如下圖所示:

Prism 框架中用于引導 VLM 生成圖片描述的指令可以是問題相關的,也可以是問題無關的。

VLM 在框架中只用于視覺感知,而推理任務則由 LLM 解決。通過固定框架中的 LLM,可以測試不同 VLM 的感知能力;相對應地,通過固定 VLM 并使用不同 LLM,可以觀察 VLM 的性能是否被推理能力限制。

除此以外,通過選定 VLM 和 LLM,Prism 具有解決視覺語言任務的能力。

利用 Prism,團隊對現有 VLMs 的感知和推理能力進行了解耦分析,揭示了若幹有趣的發現。從這些發現中汲取靈感,團隊在 Prism 框架内整合了專注于感知的輕量級 VLM 和一個專注于推理的強大 LLM。

定量結果表明,這種組合在各種視覺語言任務中表現出卓越的性能和效率。

視覺語言模型感知推理解耦分析

固定 Prism 中的 LLM 為 ChatGPT-3.5 可以進行不同 VLM 感知性能的對比。考慮到對視覺輸入依賴、數據洩露以及復雜性等問題的考慮,團隊選擇 MMStar 作為實驗的基準。

實驗使用了兩類不同的指令。一是問題無關的通用指令,提前設定并固定;二是問題相關指令,其由問題需要關注的内容與通用指令拼接得到。問題需要關注的内容由推理模塊 LLM 根據輸入問題通過 few shot 輸出。評估過程中最大輸出長度設定為 512,并采用貪心解碼策略。

不同 VLM 在兩類指令上 overall 的性能表現為:

在兩類指令中,GPT-4o 表現出了最強的感知能力。

在開源模型領網域,InternVL-Chat-v1.5 表現最佳。在問題相關指令的結果中,InternVL-Chat-v1.5 不僅在開源模型中表現最好,還微弱領先于 GPT-4v。

細粒度分析

閉源商用模型與開源模型的感知能力比較

GPT-4o 作為閉源商用模型,在感知能力方面明顯超過其他模型,并且可以熟練地處理各種感知任務。一些開源模型,例如 InternVL-Chat-v1.5 和 LLaVA-NeXT (Yi-34B),已經取得了顯著的性能,接近 GPT-4v 和 GeminiPro-V 等閉源 VLM 的能力。其他開源模型由于感知能力有限,通常表現稍差。值得注意的是,MiniCPM-V-2 作為一款具有約 3B 參數的輕量級 VLM,相比某些 7B VLM 表現出更好的感知性能。

感知能力的表現與端到端的性能表現的差異

除了以端到端的方式解決視覺問題外,Prism 還提供了一個替代管道,其中 VLM 僅用于感知。這兩種方法之間的區别在于推理過程:前者在 VLM 内部進行推理,而後者基于使用外部 LLM ( ChatGPT ) 進行推理。這兩種方法在 MMStar 上的比較如下圖所示:

對于最先進的大規模 VLM,如 GPT-4o 和 InternVL-Chat-v1.5,它們具有出色的推理能力,使用外部 ChatGPT 進行推理可能會降低整體性能。相反,對于大多數小規模的 VLM,使用 ChatGPT 進行推理可以顯著提高它們的性能,特别是在推理相關的 VQA 中,如下圖所示。這一現象表明,小規模 VLM 的整體性能可能會受到語言模型的大小的嚴重限制。

ChatGPT 的推理能力是否限制了最先進的 VLM 呢?答案為是的。

将 GPT-4o 分别用作感知和推理模塊進行解耦得到總體準确率為 61%,與端到端 GPT-4o 性能 61.6% 幾乎相同。

語言模型對感知能力的影響

評估過程中觀察到當使用更大的語言模型時,LLaVA-v1.5 系列沒有顯示出顯著的改進。這表明當使用相對低分辨率的視覺主幹時,感知性能可能與語言模型的大小無關。

同時,LLaVA-NeXT 系列的定量結果表明,擴大語言模型會略微增強模型感知,特别是在使用問題相關指令時。其主要原因為:更精細的表達以及更适應于指令,如下圖例子所示:

消融實驗

團隊針對 Prism 中的通用指令,推理模塊 LLM 以及 VLM 視覺編碼器對感知能力的影響做了消融實驗,結果如下:

通用指令:對人工手寫、GPT 生成、思維鏈以及任務分解等不同類型指令的實驗結果表明,即使差距并不明顯,評估分析中所采用的指令是其中最有效的。

推理模塊:比較不同的 LLM 推理模塊的結果顯示,ChatGPT 在推理性能上表現良好,而 GPT4 則進一步提高了性能。開源模型 Llama3-70B-Instruct 表現出與 GPT4 相當的能力,表明開源模型在視覺信息推理中的潛力。

視覺編碼器:關于 VLM 中視覺編碼器對感知性能影響的實驗表明,SigLip-SO400M 相比于 CLIP ViT-L/14 和 InternViT-6B 在實驗基準上表現更好。

專注感知的輕量級視覺語言模型

團隊從分析的結果中得到啟發,使用 ALLaVA 數據訓練了專注感知的輕量級VLM--PrismCaptioners ,并在 Prism 框架中與強大的 LLM 進行整合。

數據與架構

數據集

PrismCaptioners 使用 ALLaVA 中的 ALLaVA-Caption-4V 和 Evol-Intruct-GPT4-Turbo-143K 作為指令調優數據。與 QA 格式的指令調優數據相比,利用描述性數據進行指令調優可以更好地訓練 VLM 提取和表達視覺信息的能力。

模型架構

使用 SigLip-SO400M 作為視覺編碼器,InternLM2- [ 1.8B/7B ] 作為語言編碼器,訓練了兩個不同尺度的視覺 captioner,稱為 PrismCaptioner- [ 2B/7B ] 。

模型性能

團隊在 MMStar, MMMU, MathVista,AI2D 以及後三者的子集上進行了實驗。子集選取的策略類似于 MMStar。将 PrismCaptioner 作為 Prism 感知模塊并接入 ChatGPT 或 Llama3 的性能表現如下表所示。公平起見,模型均使用單個影像作為輸入,并将最大輸出長度限制為 512。

通過 Prism 整合 VLM 與 LLM 的方式相比于基于 LLaVA 數據訓練的端到端 baseline 有顯著的性能提高。同時,PrismCaptioner 相比于另一開源 caption 生成模型 ShareCaptioner 也有更好的效果。

對于 7B 版本,Llama3 的接入帶來大幅性能提升,使組合 PrismCaptioner-7B 的方案成為極具競争力的視覺語言模型,特别是在 MMStar 和 MMMU 上。對于 2B 版本,接入 Prism 後,它實現了與其十倍以上大小 VLM 相當的性能水平。這表明 Prism 能夠提供一個強大而高效的解決方案,例如帶有 ChatGPT 的 PrismCaptioner-2B,并展現了令人印象深刻的結果。

當最大輸出長度設定為 2048,并允許多張影像輸入時 ( 為每張生成描述并拼接 ) ,接入 Llama3 的方案在 MMMU 上取得了更高的性能,在開源領網域優勢明顯,如下表所示:

此外,Prism 允許靈活地結合多個 VLM以增強感知。例如,簡單地将 GPT-4v 和 GeminiPro-V 的輸出拼接起來,即可在 MMStar 基準測試中的大多數指标上顯示出了顯著的改進,如下圖所示:

此外,他們還跟 GPT-4o 進行了一個對比,發現仍有一定的進步空間。GPT-4o 在空間感知推理方面能力更強,描述的更為詳細和準确。

Prism 框架的引入為視覺語言模型的研究和應用開辟了新途徑。

通過有效解耦感知和推理,Prism 不僅能夠用于模型的分析和視覺語言任務的解決,還為未來的研究提供了新的方向。我們期待 Prism 在更多視覺語言任務中的應用,進一步推動這一領網域的發展。

論文鏈接:

https://arxiv.org/abs/2406.14544

Github 鏈接:

https://github.com/SparksJoe/Prism

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們