今天小編分享的互聯網經驗:阿裡雲通義千問開源第二波!大規模視覺語言模型Qwen-VL上線魔搭社區,歡迎閱讀。
通義千問開源第二波!8 月 25 日消息,阿裡雲推出大規模視覺語言模型 Qwen-VL,一步到位、直接開源。Qwen-VL 以通義千問 70 億參數模型 Qwen-7B 為基座語言模型研發,支持圖文輸入,具備多模态信息理解能力。在主流的多模态任務評測和多模态聊天能力評測中,Qwen-VL 取得了遠超同等規模通用模型的表現。
Qwen-VL 是支持中英文等多種語言的視覺語言(Vision Language,VL)模型,相較于此前的 VL 模型,Qwen-VL 除了具備基本的圖文識别、描述、問答及對話能力之外,還新增了視覺定位、影像中文字理解等能力。
多模态是通用人工智能的重要技術演進方向之一。業界普遍認為,從單一感官的、僅支持文本輸入的語言模型,到 " 五官全開 " 的,支持文本、影像、音頻等多種信息輸入的多模态模型,蘊含着大模型智能躍升的巨大可能。多模态能夠提升大模型對世界的理解程度,充分拓展大模型的使用場景。
視覺是人類的第一感官能力,也是研究者首先想賦予大模型的多模态能力。繼此前推出 M6、OFA 系列多模态模型之後,阿裡雲通義千問團隊又開源了基于 Qwen-7B 的大規模視覺語言模型(Large Vision Language Model, LVLM)Qwen-VL。Qwen-VL 及其視覺 AI 助手 Qwen-VL-Chat 均已上線 ModelScope 魔搭社區,開源、免費、可商用。
用戶可從魔搭社區直接下載模型,也可通過阿裡雲靈積平台訪問調用 Qwen-VL 和 Qwen-VL-Chat,阿裡雲為用戶提供包括模型訓練、推理、部署、精調等在内的全方位服務。
Qwen-VL 可用于知識問答、影像标題生成、影像問答、文檔問答、細粒度視覺定位等場景。
比如,一位不懂中文的外國遊客到醫院看病,不知怎麼去往對應科室,他拍下樓層導覽圖問 Qwen-VL" 骨科在哪層 "" 耳鼻喉科去哪層 ",Qwen-VL 會根據圖片信息給出文字回復,這是影像問答能力;再比如,輸入一張上海外灘的照片,讓 Qwen-VL 找出東方明珠,Qwen-VL 能用檢測框準确圈出對應建築,這是視覺定位能力。
Qwen-VL 是業界首個支持中文開放網域定位的通用模型,開放網域視覺定位能力決定了大模型 " 視力 " 的精準度,也即,能否在畫面中精準地找出想找的事物,這對于 VL 模型在機器人操控等真實應用場景的落地至關重要。
Qwen-VL 以 Qwen-7B 為基座語言模型,在模型架構上引入視覺編碼器,使得模型支持視覺信号輸入,并通過設計訓練過程,讓模型具備對視覺信号的細粒度感知和理解能力。Qwen-VL 支持的影像輸入分辨率為 448,此前開源的 LVLM 模型通常僅支持 224 分辨率。在 Qwen-VL 的基礎上,通義千問團隊使用對齊機制,打造了基于 LLM 的視覺 AI 助手 Qwen-VL-Chat,可讓開發者快速搭建具備多模态能力的對話應用。
在四大類多模态任務(Zero-shot Caption/VQA/DocVQA/Grounding)的标準英文測評中,Qwen-VL 取得了同等尺寸開源 LVLM 的最好效果。為了測試模型的多模态對話能力,通義千問團隊構建了一套基于 GPT-4 打分機制的測試集 " 試金石 ",對 Qwen-VL-Chat 及其他模型進行對比測試,Qwen-VL-Chat 在中英文的對齊評測中均取得了開源 LVLM 最好結果。
8 月初,阿裡雲開源通義千問 70 億參數通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat,成為國内首個加入大模型開源行列的大型科技企業。通義千問開源模型剛一上線就廣受關注,當周衝上 HuggingFace 趨勢榜單,不到一個月在 GitHub 收獲 3400 多星,模型累計下載量已突破 40 萬。
開源地址:
ModelScope 魔搭社區:
Qwen-VL https://modelscope.cn/models/qwen/Qwen-VL/summary
Qwen-VL-Chat https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary
模型體驗:https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo/summary
HuggingFace:
Qwen-VL https://huggingface.co/Qwen/Qwen-VL
Qwen-VL-Chat https://huggingface.co/Qwen/Qwen-VL-Chat
GitHub:
https://github.com/QwenLM/Qwen-VL
技術論文地址:
https://arxiv.org/abs/2308.12966
雷峰網