今天小編分享的科學經驗:超越GPT-4o!阿裡發布最強開源多模态模型Qwen2-VL,支持實時視頻對話,歡迎閱讀。
新的最強開源多模态大模型來了!
阿裡 Qwen2 大模型家族新添多模态模型Qwen2-VL,在影像和長視頻理解任務上雙雙取得了 SOTA。
在具體的子類任務中,Qwen2-VL 在大部分的指标上都達到了最優,甚至超過 GPT-4o 等閉源模型。
在多模态能力的加持下,Qwen2-VL 可以實時讀取攝像頭或電腦螢幕,進行文字形式的視頻對話。
甚至還能作為 Agent 與環境進行互動,根據任務目标自主操控手機等設備。
目前開源代碼已集成到 Hugging Face Transformers、vLLM 等第三方框架中。
還有不少網友都在狂 cue 一些知名大模型推理平台,如 Groq、Ollama,希望能夠早日提供支持。
下面就來一睹 Qwen2-VL 的表現!
會操作機械臂的多模态大模型
利用強大的多模态能力,Qwen2-VL 能夠操縱機械臂,進行物體的拿取、放置等操作。
還可以化身撲克牌玩家,根據識别到的場上信息和提示詞描述進行 "24 點 " 遊戲的決策,并且取得了勝利。
還有開頭所展示的,Qwen2-VL 可以根據識别到的螢幕内容,結合用戶需求自行操作手機在網絡上進行信息檢索。
當然在這些體現工具調用和 Agent 互動能力的復雜任務背後,基礎能力也是不能落下。
比如影像識别,在物體類的識别當中,Qwen2-VL 可以準确地認出花的品種。
另一類識别場景是文字,Qwen2-VL 支持多種語言的文本提取。
甚至把 16 種語言混合到一張圖中,Qwen2-VL 不僅能判斷各自的語種,也能一口氣提取出全部文本。
手寫字體和復雜的數學公式也能識别,并且上下标這種微小細節處理得非常到位。
Qwen2-VL 還支持多模态推理,代碼和數學(包括幾何)類問題,只需要傳張圖片就能解決。
視頻方面,Qwen2-VL 最長可以對 20 分鍾以上的視頻進行内容分析,既支持總結也能對細節進行提問。
不過目前還只能分析畫面,暫不支持對聲音的處理。
同時也支持實時視頻文字對話,除了開頭展示的基于攝像頭的對話外,也可以讀取電腦螢幕,作為對話的内容。
總之,在這些任務的背後,蘊含着 Qwen2-VL 不凡的綜合實力。
多模态實力超 GPT-4o
為了了解 Qwen2-VL 在各種任務上的綜合表現,千問團隊一共從從六個方面對其視覺能力進行了評估。
具體包括了綜合類大學試題、數學試題、文檔表格理解、通用場景下的問答、視頻理解以及 Agent 能力這六種類型。
整體來看,Qwen2-72B 的大部分的指标上都達到了最優,甚至超過了 GPT-4o 和 Claude3.5-Sonnet,特别是在文檔理解方面優勢明顯。
另外在多語言測試中,MTVQA 也在 9 種語言中的 8 種全面超越了 GPT-4o、Claude3-Opus 和 Gemini Ultra 這些先進閉源模型,平均成績也是最高分。
7B 版本同樣支持影像、多圖、視頻的輸入,同時也達到了同等規模模型的 SOTA 水準。
最小的 2B 版本則主要為移動端設計,但麻雀雖小,卻具備完整影像視頻多語言的理解能力,特别在視頻文檔和通用場景問答相較同規模模型優勢明顯。
整體上,Qwen2-VL 延續了其上一代 Qwen-VL 中 ViT 加 Qwen(2)的串聯結構,在三個不同規模的模型上,Qwen2-VL 都采用了 600M 規模大小的 ViT,并且支持影像和視頻統一輸入。
為了讓模型更清楚地感知視覺信息和理解視頻,Qwen2-VL 新增了對原生動态分辨率的全面支持。
與上一代模型相比,Qwen2-VL 能夠處理任意分辨率的影像輸入,不同大小圖片被轉換為動态數量的 tokens,最少只需要 4 個。
這種設計不僅确保了模型輸入與影像原始信息之間的一致性,也模拟了人類視覺感知的自然方式,讓模型在影像處理任務上更加靈活高效。
Qwen2-VL 在架構上的另一項創新,是多模态旋轉位置嵌入(M-ROPE)。
傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,而 M-ROPE 通過将原始旋轉嵌入分解為代表時間、高度和寬度的三個部分。
這使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺影像以及三維視頻的位置信息。
這一創新有助于提升模型的多模态處理和推理能力,能夠更好地理解和建模復雜的多模态數據。
DEMO:
https://huggingface.co/spaces/Qwen/Qwen2-VL
項目主頁:
https://qwenlm.github.io/blog/qwen2-vl/
GitHub:
https://github.com/QwenLM/Qwen2-VL