今天小編分享的科學經驗:阿裡開源首個視覺推理模型,擊敗GPT-4o,網頁一度404,歡迎閱讀。
過年關啦!阿裡送上了今年最後一份禮物——
" 眼睛 " 模型 QVQ,其中 V 代表視覺。它只需讀取影像和指令,就可以開始思考。
I ’ m watching you!
據介紹,這可能是全球第一個視覺推理模型,也可以把它理解為上個月開源的阿裡版 o1 模型 QwQ 的視覺版本。
可以解決數物化生等各領網域問題。
讀梗圖、數鴨子也不在話下。
目前該模型處于實驗階段,開放測試。
結果可能因為訪問過多,網頁一度還 404 了。
從性能表現上看,QVQ 在 MMMU 上的得分為 70.3,這一結果超過 GPT-4o、Claude 3.5 Sonnet,但比 o1 模型還差了那麼一點。
官方給了幾個演示 Demo,讓咱們好好感知一下它的推理能力。
首先來看這道數學題。
解題思路如下:
再來個幾何題,算算這個沙發的面積。
它的推理過程如下:
高中化學題:圖片中的濾液 E 是什麼化學物質?
它的答案是:硫酸亞鐵溶液。
他們在四個數據集對眼睛模型 QVQ-72B-Preview 進行了評估,包括 MMMU、MathVista、MathVision、OlympiadBench,主要考察數學多模态推理以及綜合理解推理方面的能力。
QVQ-72B-Preview 在 MMMU 基準測試中取得了 70.3 分,大大超過了其前身 Qwen2-VL-72B-Instruct。
此外,在其餘三個以數學和科學問題為重點的基準測試中,該模型也表現出了卓越的性能,縮小了與 o1 模型之間的差距。
不過目前該模型屬于是團隊的實驗研究模型,不是特别穩定,有幾個限制需要注意。
語言混合和代碼切換:該模型可能會意外地混合語言或在語言之間切換,從而影響回答的清晰度。
遞歸推理:模型可能會陷入循環邏輯模式,產生冗長的回復而無法得出結論。
安全和道德方面的考慮:該模型需要加強安全措施,以确保性能可靠和安全,用戶在部署時應謹慎。
性能和基準限制:盡管該模型在視覺推理方面有所改進,但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外,在多步驟視覺推理過程中,模型可能會逐漸失去對影像内容的關注,從而導致幻覺。
好好預防針打了,那咱們淺淺實測一波。
比如這道考驗谷歌版 o1 的題目:
如何利用這些數字加起來等于 30?
結果它識别出來了這幾個球對應的數字,沒有意識到 9 号球可以翻轉成 6 号球,然後就陷入無盡的思考之中。。。
在 blog 最後,他們也透露了接下來的目标——增強視覺語言基礎模型,使其具備基于視覺信息進行深度思考和推理的高級能力。
把時間拉長,他們計劃是将更多的模态整合到統一的模型中,能夠應對復雜的挑戰并參與科學探索。
(模型盡頭是 AI For Science?)
參考鏈接:
[ 1 ] https://x.com/Alibaba_Qwen/status/1871602879972405626
[ 2 ] https://qwenlm.github.io/blog/qvq-72b-preview/
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>