阿里开源首个视觉推理模型，击败GPT-4o，网页一度404 - 大酷樂

今天小编分享的科学经验：阿里开源首个视觉推理模型，击败GPT-4o，网页一度404，欢迎阅读。

过年关啦！阿里送上了今年最后一份礼物——

" 眼睛 " 模型 QVQ，其中 V 代表视觉。它只需读取影像和指令，就可以开始思考。

I ’ m watching you！

据介绍，这可能是全球第一个视觉推理模型，也可以把它理解为上个月开源的阿里版 o1 模型 QwQ 的视觉版本。

可以解决数物化生等各领網域问题。

读梗图、数鸭子也不在话下。

目前该模型处于实验阶段，开放测试。

结果可能因为访问过多，网页一度还 404 了。

从性能表现上看，QVQ 在 MMMU 上的得分为 70.3，这一结果超过 GPT-4o、Claude 3.5 Sonnet，但比 o1 模型还差了那么一点。

官方给了几个演示 Demo，让咱们好好感知一下它的推理能力。

首先来看这道数学题。

解题思路如下：

再来个几何题，算算这个沙发的面积。

它的推理过程如下：

高中化学题：图片中的滤液 E 是什么化学物质？

它的答案是：硫酸亚铁溶液。

他们在四个数据集对眼睛模型 QVQ-72B-Preview 进行了评估，包括 MMMU、MathVista、MathVision、OlympiadBench，主要考察数学多模态推理以及综合理解推理方面的能力。

QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 分，大大超过了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个以数学和科学问题为重点的基准测试中，该模型也表现出了卓越的性能，缩小了与 o1 模型之间的差距。

不过目前该模型属于是团队的实验研究模型，不是特别稳定，有几个限制需要注意。

语言混合和代码切换：该模型可能会意外地混合语言或在语言之间切换，从而影响回答的清晰度。

递归推理：模型可能会陷入循环逻辑模式，产生冗长的回复而无法得出结论。

安全和道德方面的考虑：该模型需要加强安全措施，以确保性能可靠和安全，用户在部署时应谨慎。

性能和基准限制：尽管该模型在视觉推理方面有所改进，但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对影像内容的关注，从而导致幻觉。

好好预防针打了，那咱们浅浅实测一波。

比如这道考验谷歌版 o1 的题目：

如何利用这些数字加起来等于 30？

结果它识别出来了这几个球对应的数字，没有意识到 9 号球可以翻转成 6 号球，然后就陷入无尽的思考之中。。。

在 blog 最后，他们也透露了接下来的目标——增强视觉语言基础模型，使其具备基于视觉信息进行深度思考和推理的高级能力。

把时间拉长，他们计划是将更多的模态整合到统一的模型中，能够应对复杂的挑战并参与科学探索。

（模型尽头是 AI For Science？）

参考链接：

[ 1 ] https://x.com/Alibaba_Qwen/status/1871602879972405626

[ 2 ] https://qwenlm.github.io/blog/qvq-72b-preview/

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>

熱門排行

高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02