大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

超越GPT-4o!阿裡發布最強開源多模态模型Qwen2-VL,支持實時視頻對話

2024-08-31 简体 HK SG TW

今天小編分享的科學經驗:超越GPT-4o!阿裡發布最強開源多模态模型Qwen2-VL,支持實時視頻對話,歡迎閱讀。

新的最強開源多模态大模型來了!

阿裡 Qwen2 大模型家族新添多模态模型Qwen2-VL,在影像和長視頻理解任務上雙雙取得了 SOTA。

在具體的子類任務中,Qwen2-VL 在大部分的指标上都達到了最優,甚至超過 GPT-4o 等閉源模型。

在多模态能力的加持下,Qwen2-VL 可以實時讀取攝像頭或電腦螢幕,進行文字形式的視頻對話。

甚至還能作為 Agent 與環境進行互動,根據任務目标自主操控手機等設備。

目前開源代碼已集成到 Hugging Face Transformers、vLLM 等第三方框架中。

還有不少網友都在狂 cue 一些知名大模型推理平台,如 Groq、Ollama,希望能夠早日提供支持。

下面就來一睹 Qwen2-VL 的表現!

會操作機械臂的多模态大模型

利用強大的多模态能力,Qwen2-VL 能夠操縱機械臂,進行物體的拿取、放置等操作。

還可以化身撲克牌玩家,根據識别到的場上信息和提示詞描述進行 "24 點 " 遊戲的決策,并且取得了勝利。

還有開頭所展示的,Qwen2-VL 可以根據識别到的螢幕内容,結合用戶需求自行操作手機在網絡上進行信息檢索。

當然在這些體現工具調用和 Agent 互動能力的復雜任務背後,基礎能力也是不能落下。

比如影像識别,在物體類的識别當中,Qwen2-VL 可以準确地認出花的品種。

另一類識别場景是文字,Qwen2-VL 支持多種語言的文本提取。

甚至把 16 種語言混合到一張圖中,Qwen2-VL 不僅能判斷各自的語種,也能一口氣提取出全部文本。

手寫字體和復雜的數學公式也能識别,并且上下标這種微小細節處理得非常到位。

Qwen2-VL 還支持多模态推理,代碼和數學(包括幾何)類問題,只需要傳張圖片就能解決。

視頻方面,Qwen2-VL 最長可以對 20 分鍾以上的視頻進行内容分析,既支持總結也能對細節進行提問。

不過目前還只能分析畫面,暫不支持對聲音的處理。

同時也支持實時視頻文字對話,除了開頭展示的基于攝像頭的對話外,也可以讀取電腦螢幕,作為對話的内容。

總之,在這些任務的背後,蘊含着 Qwen2-VL 不凡的綜合實力。

多模态實力超 GPT-4o

為了了解 Qwen2-VL 在各種任務上的綜合表現,千問團隊一共從從六個方面對其視覺能力進行了評估。

具體包括了綜合類大學試題、數學試題、文檔表格理解、通用場景下的問答、視頻理解以及 Agent 能力這六種類型。

整體來看,Qwen2-72B 的大部分的指标上都達到了最優,甚至超過了 GPT-4o 和 Claude3.5-Sonnet,特别是在文檔理解方面優勢明顯。

另外在多語言測試中,MTVQA 也在 9 種語言中的 8 種全面超越了 GPT-4o、Claude3-Opus 和 Gemini Ultra 這些先進閉源模型,平均成績也是最高分。

7B 版本同樣支持影像、多圖、視頻的輸入,同時也達到了同等規模模型的 SOTA 水準。

最小的 2B 版本則主要為移動端設計,但麻雀雖小,卻具備完整影像視頻多語言的理解能力,特别在視頻文檔和通用場景問答相較同規模模型優勢明顯。

整體上,Qwen2-VL 延續了其上一代 Qwen-VL 中 ViT 加 Qwen(2)的串聯結構,在三個不同規模的模型上,Qwen2-VL 都采用了 600M 規模大小的 ViT,并且支持影像和視頻統一輸入。

為了讓模型更清楚地感知視覺信息和理解視頻,Qwen2-VL 新增了對原生動态分辨率的全面支持。

與上一代模型相比,Qwen2-VL 能夠處理任意分辨率的影像輸入,不同大小圖片被轉換為動态數量的 tokens,最少只需要 4 個。

這種設計不僅确保了模型輸入與影像原始信息之間的一致性,也模拟了人類視覺感知的自然方式,讓模型在影像處理任務上更加靈活高效。

Qwen2-VL 在架構上的另一項創新,是多模态旋轉位置嵌入(M-ROPE)。

傳統的旋轉位置嵌入只能捕捉一維序列的位置信息,而 M-ROPE 通過将原始旋轉嵌入分解為代表時間、高度和寬度的三個部分。

這使得大規模語言模型能夠同時捕捉和整合一維文本序列、二維視覺影像以及三維視頻的位置信息。

這一創新有助于提升模型的多模态處理和推理能力,能夠更好地理解和建模復雜的多模态數據。

DEMO:

https://huggingface.co/spaces/Qwen/Qwen2-VL

項目主頁:

https://qwenlm.github.io/blog/qwen2-vl/

GitHub:

https://github.com/QwenLM/Qwen2-VL

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們