超越GPT-4o！阿裡發布最強開源多模态模型Qwen2-VL，支持實時視頻對話

今天小編分享的科學經驗：超越GPT-4o！阿裡發布最強開源多模态模型Qwen2-VL，支持實時視頻對話，歡迎閱讀。

新的最強開源多模态大模型來了！

阿裡 Qwen2 大模型家族新添多模态模型Qwen2-VL，在影像和長視頻理解任務上雙雙取得了 SOTA。

在具體的子類任務中，Qwen2-VL 在大部分的指标上都達到了最優，甚至超過 GPT-4o 等閉源模型。

在多模态能力的加持下，Qwen2-VL 可以實時讀取攝像頭或電腦螢幕，進行文字形式的視頻對話。

甚至還能作為 Agent 與環境進行互動，根據任務目标自主操控手機等設備。

目前開源代碼已集成到 Hugging Face Transformers、vLLM 等第三方框架中。

還有不少網友都在狂 cue 一些知名大模型推理平台，如 Groq、Ollama，希望能夠早日提供支持。

下面就來一睹 Qwen2-VL 的表現！

會操作機械臂的多模态大模型

利用強大的多模态能力，Qwen2-VL 能夠操縱機械臂，進行物體的拿取、放置等操作。

還可以化身撲克牌玩家，根據識别到的場上信息和提示詞描述進行 "24 點 " 遊戲的決策，并且取得了勝利。

還有開頭所展示的，Qwen2-VL 可以根據識别到的螢幕内容，結合用戶需求自行操作手機在網絡上進行信息檢索。

當然在這些體現工具調用和 Agent 互動能力的復雜任務背後，基礎能力也是不能落下。

比如影像識别，在物體類的識别當中，Qwen2-VL 可以準确地認出花的品種。

另一類識别場景是文字，Qwen2-VL 支持多種語言的文本提取。

甚至把 16 種語言混合到一張圖中，Qwen2-VL 不僅能判斷各自的語種，也能一口氣提取出全部文本。

手寫字體和復雜的數學公式也能識别，并且上下标這種微小細節處理得非常到位。

Qwen2-VL 還支持多模态推理，代碼和數學（包括幾何）類問題，只需要傳張圖片就能解決。

視頻方面，Qwen2-VL 最長可以對 20 分鍾以上的視頻進行内容分析，既支持總結也能對細節進行提問。

不過目前還只能分析畫面，暫不支持對聲音的處理。

同時也支持實時視頻文字對話，除了開頭展示的基于攝像頭的對話外，也可以讀取電腦螢幕，作為對話的内容。

總之，在這些任務的背後，蘊含着 Qwen2-VL 不凡的綜合實力。

多模态實力超 GPT-4o

為了了解 Qwen2-VL 在各種任務上的綜合表現，千問團隊一共從從六個方面對其視覺能力進行了評估。

具體包括了綜合類大學試題、數學試題、文檔表格理解、通用場景下的問答、視頻理解以及 Agent 能力這六種類型。

整體來看，Qwen2-72B 的大部分的指标上都達到了最優，甚至超過了 GPT-4o 和 Claude3.5-Sonnet，特别是在文檔理解方面優勢明顯。

另外在多語言測試中，MTVQA 也在 9 種語言中的 8 種全面超越了 GPT-4o、Claude3-Opus 和 Gemini Ultra 這些先進閉源模型，平均成績也是最高分。

7B 版本同樣支持影像、多圖、視頻的輸入，同時也達到了同等規模模型的 SOTA 水準。

最小的 2B 版本則主要為移動端設計，但麻雀雖小，卻具備完整影像視頻多語言的理解能力，特别在視頻文檔和通用場景問答相較同規模模型優勢明顯。

整體上，Qwen2-VL 延續了其上一代 Qwen-VL 中 ViT 加 Qwen（2）的串聯結構，在三個不同規模的模型上，Qwen2-VL 都采用了 600M 規模大小的 ViT，并且支持影像和視頻統一輸入。

為了讓模型更清楚地感知視覺信息和理解視頻，Qwen2-VL 新增了對原生動态分辨率的全面支持。

與上一代模型相比，Qwen2-VL 能夠處理任意分辨率的影像輸入，不同大小圖片被轉換為動态數量的 tokens，最少只需要 4 個。

這種設計不僅确保了模型輸入與影像原始信息之間的一致性，也模拟了人類視覺感知的自然方式，讓模型在影像處理任務上更加靈活高效。

Qwen2-VL 在架構上的另一項創新，是多模态旋轉位置嵌入（M-ROPE）。

傳統的旋轉位置嵌入只能捕捉一維序列的位置信息，而 M-ROPE 通過将原始旋轉嵌入分解為代表時間、高度和寬度的三個部分。

這使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺影像以及三維視頻的位置信息。

這一創新有助于提升模型的多模态處理和推理能力，能夠更好地理解和建模復雜的多模态數據。

DEMO：

https://huggingface.co/spaces/Qwen/Qwen2-VL

項目主頁：

https://qwenlm.github.io/blog/qwen2-vl/

GitHub：

https://github.com/QwenLM/Qwen2-VL