今天小編分享的科技經驗:阿裏雲通義千問 Qwen2-VL 第二代視覺語言模型開源,歡迎閲讀。
IT 之家 9 月 2 日消息,阿裏雲通義千問今日宣布開源第二代視覺語言模型 Qwen2-VL,并推出 2B、7B 兩個尺寸及其量化版本模型。同時,旗艦模型 Qwen2-VL-72B 的 API 已上線阿裏雲百煉平台,用户可直接調用。
據阿裏雲官方介紹,相比上代模型,Qwen2-VL 的基礎性能全面提升:
讀懂不同分辨率和不同長寬比的圖片,在 DocVQA、RealWorldQA、MTVQA 等基準測試創下全球領先的表現;
理解 20 分鍾以上長視頻,支持基于視頻的問答、對話和内容創作等應用;
具備強大的視覺智能體能力,可自主操作手機和機器人,借助復雜推理和決策的能力,Qwen2-VL 可以集成到手機、機器人等設備,根據視覺環境和文字指令進行自動操作;
理解影像視頻中的多語言文本,包括中文、英文,大多數歐洲語言,日語、韓語、阿拉伯語、越南語等。
Qwen2-VL 延續了 ViT 加 Qwen2 的串聯結構,三個尺寸的模型都采用了 600M 規模大小的 ViT,支持影像和視頻統一輸入。
但為了讓模型能夠更清楚地感知視覺信息和理解視頻,團隊在架構上進行了一些更新:
一是實現了對原生動态分辨率的全面支持。不同于上代模型,Qwen2-VL 能夠處理任意分辨率的影像輸入,不同大小圖片将被轉換為動态數量的 tokens,最小只占 4 個 tokens。這一設計模拟了人類視覺感知的自然方式,确保了模型輸入與影像原始信息之間的高度一致性,賦予模型處理任意尺寸影像的強大能力,使得其可以更靈活高效地進行影像處理。
二是使用了多模态旋轉位置嵌入(M-ROPE)方法。傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,M-ROPE 使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺影像以及三維視頻的位置信息,賦予了語言模型強大的多模态處理和推理能力,能讓模型更好地理解和建模復雜的多模态數據。
此次 Qwen2-VL 開源的多款模型中的旗艦模型 Qwen2-VL-72B 的 API 已上線阿裏雲百煉平台,用户可通過阿裏雲百煉平台直接調用 API。
同時,通義千問團隊以 Apache 2.0 協定開源了 Qwen2-VL-2B 和 Qwen2-VL-7B,開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發者可以通過 Hugging Face 和魔搭 ModelScope 下載使用模型,也可通過通義官網、通義 App 的主對話頁面使用模型,IT 之家附地址如下:
阿裏雲百煉平台:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:https://github.com/QwenLM/Qwen2-VL
HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model
模型體驗:https://huggingface.co/spaces/Qwen/Qwen2-VL