今天小编分享的科学经验:超越GPT-4o!阿里发布最强开源多模态模型Qwen2-VL,支持实时视频对话,欢迎阅读。
新的最强开源多模态大模型来了!
阿里 Qwen2 大模型家族新添多模态模型Qwen2-VL,在影像和长视频理解任务上双双取得了 SOTA。
在具体的子类任务中,Qwen2-VL 在大部分的指标上都达到了最优,甚至超过 GPT-4o 等闭源模型。
在多模态能力的加持下,Qwen2-VL 可以实时读取摄像头或电腦螢幕,进行文字形式的视频对话。
甚至还能作为 Agent 与环境进行互動,根据任务目标自主操控手机等设备。
目前开源代码已集成到 Hugging Face Transformers、vLLM 等第三方框架中。
还有不少网友都在狂 cue 一些知名大模型推理平台,如 Groq、Ollama,希望能够早日提供支持。
下面就来一睹 Qwen2-VL 的表现!
会操作机械臂的多模态大模型
利用强大的多模态能力,Qwen2-VL 能够操纵机械臂,进行物体的拿取、放置等操作。
还可以化身扑克牌玩家,根据识别到的场上信息和提示词描述进行 "24 点 " 游戏的决策,并且取得了胜利。
还有开头所展示的,Qwen2-VL 可以根据识别到的螢幕内容,结合用户需求自行操作手机在网络上进行信息检索。
当然在这些体现工具调用和 Agent 互動能力的复杂任务背后,基础能力也是不能落下。
比如影像识别,在物体类的识别当中,Qwen2-VL 可以准确地认出花的品种。
另一类识别场景是文字,Qwen2-VL 支持多种语言的文本提取。
甚至把 16 种语言混合到一张图中,Qwen2-VL 不仅能判断各自的语种,也能一口气提取出全部文本。
手写字体和复杂的数学公式也能识别,并且上下标这种微小细节处理得非常到位。
Qwen2-VL 还支持多模态推理,代码和数学(包括几何)类问题,只需要传张图片就能解决。
视频方面,Qwen2-VL 最长可以对 20 分钟以上的视频进行内容分析,既支持总结也能对细节进行提问。
不过目前还只能分析画面,暂不支持对声音的处理。
同时也支持实时视频文字对话,除了开头展示的基于摄像头的对话外,也可以读取电腦螢幕,作为对话的内容。
总之,在这些任务的背后,蕴含着 Qwen2-VL 不凡的综合实力。
多模态实力超 GPT-4o
为了了解 Qwen2-VL 在各种任务上的综合表现,千问团队一共从从六个方面对其视觉能力进行了评估。
具体包括了综合类大学试题、数学试题、文档表格理解、通用场景下的问答、视频理解以及 Agent 能力这六种类型。
整体来看,Qwen2-72B 的大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet,特别是在文档理解方面优势明显。
另外在多语言测试中,MTVQA 也在 9 种语言中的 8 种全面超越了 GPT-4o、Claude3-Opus 和 Gemini Ultra 这些先进闭源模型,平均成绩也是最高分。
7B 版本同样支持影像、多图、视频的输入,同时也达到了同等规模模型的 SOTA 水准。
最小的 2B 版本则主要为移动端设计,但麻雀虽小,却具备完整影像视频多语言的理解能力,特别在视频文档和通用场景问答相较同规模模型优势明显。
整体上,Qwen2-VL 延续了其上一代 Qwen-VL 中 ViT 加 Qwen(2)的串联结构,在三个不同规模的模型上,Qwen2-VL 都采用了 600M 规模大小的 ViT,并且支持影像和视频统一输入。
为了让模型更清楚地感知视觉信息和理解视频,Qwen2-VL 新增了对原生动态分辨率的全面支持。
与上一代模型相比,Qwen2-VL 能够处理任意分辨率的影像输入,不同大小图片被转换为动态数量的 tokens,最少只需要 4 个。
这种设计不仅确保了模型输入与影像原始信息之间的一致性,也模拟了人类视觉感知的自然方式,让模型在影像处理任务上更加灵活高效。
Qwen2-VL 在架构上的另一项创新,是多模态旋转位置嵌入(M-ROPE)。
传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。
这使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉影像以及三维视频的位置信息。
这一创新有助于提升模型的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。
DEMO:
https://huggingface.co/spaces/Qwen/Qwen2-VL
项目主页:
https://qwenlm.github.io/blog/qwen2-vl/
GitHub:
https://github.com/QwenLM/Qwen2-VL