大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

100+大模型綜測結果出爐!智源發布FlagEval“百模”評測結果,覆蓋文本語音圖片視頻多種模态

2024-12-20 简体 HK SG TW

今天小編分享的科學經驗:100+大模型綜測結果出爐!智源發布FlagEval“百模”評測結果,覆蓋文本語音圖片視頻多種模态,歡迎閱讀。

大模型最新綜測結果,今天新鮮出爐!

2024 年 12 月 19 日,智源研究院發布并解讀國内外 100 餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果。

結論包括:

2024 年下半年大模型發展更聚焦綜合能力提升與實際應用。多模态模型發展迅速,湧現了不少新的廠商與新模型,語言模型發展相對放緩。

模型開源生态中,除了持續堅定開源的海内外機構,還出現了新的開源貢獻者。

語言模型主觀評測重點考察模型中文能力,結果顯示字節跳動 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二。

文生視頻模型方面,國產玩家領先全球。

K12 學科測驗,大模型仍與海澱學生平均水平存在差距;普遍存在 " 文強理弱 " 的偏科情況。

……

相較于今年 5 月的模型能力全方位評估,本次智源評測擴展、豐富、細化了任務解決能力内涵,新增了數據處理、高級編程和工具調用的相關能力與任務;首次增加了面向真實金融量化交易場景的應用能力評估,測量大模型的收益優化和性能優化等能力;首次探索基于模型辯論的對比評估方式,對模型的邏輯推理、觀點理解、語言表達等核心能力進行深入分析。

具體細節,一起來看。

多種模态評測綜合榜單,覆蓋文本、語音、圖片、視頻理解與生成

評測結果指出,語言模型,針對一般中文場景的開放式問答或者生成任務,模型能力已趨于飽和穩定,但是復雜場景任務的表現,國内頭部語言模型仍然與國際一流水平存在顯著差距。

語言模型主觀評測重點考察模型中文能力,結果顯示字節跳動 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿裡巴巴 Qwen-Max-0919排名第五。

在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest位列第一、第二,阿裡巴巴 Qwen-max-0919、字節跳動 Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。

視覺語言多模态模型,雖然開源模型架構趨同(語言塔 + 視覺塔),但表現不一,其中較好的開源模型在圖文理解任務上正在縮小與頭部閉源模型的能力差距,而長尾視覺知識與文字識别以及復雜圖文數據分析能力仍有提升空間。

評測結果顯示,OpenAI GPT-4o-2024-11-20與字節跳動 Doubao-Pro-Vision-32k-241028先後領先于Anthropic Claude-3-5-sonnet-20241022,阿裡巴巴 Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊随其後。

文生圖多模态模型,今年上半年參評的模型普遍無法生成正确的中文文字,但此次參評的頭部模型已經具備中文文字生成能力,但整體普遍存在復雜場景人物變形的情況,針對常識或知識性推理任務,小于 3 的數量關系任務表現有所提升,大于 3 的數量關系依然無法處理,涉及中國文化和古詩詞理解的場景對于模型而言是不小的挑戰。

評測結果顯示,騰訊 Hunyuan Image位列第一,字節跳動 Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL · E 3、快手可圖次之。

文生視頻多模态模型,畫質進一步提升,動态性更強,鏡頭語言更豐富,專場更流暢,但普遍存在大幅度動作變形,無法理解物理規律,物體消失、閃現、穿模的情況。

評測結果顯示,快手可靈 1.5(高品質)、字節跳動即夢 P2.0 pro、愛詩科技 PixVerse V3、Minimax   海螺 AI、Pika 1.5位列前五。

語音語言模型,得益于文本大模型的進步,能力提升巨大,覆蓋面更全,但在具體任務上與專家模型還存在一定差距,整體而言,性能好、通用能力強的開源語音語言模型偏少。

專項評測結果顯示,阿裡巴巴 Qwen2-Audio位居第一,香港中文大學 & 微軟 WavLLM、清華大學 & 字節跳動 Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均進入前五。

四大專項評測榜單,多維度探索模型能力邊界與應用潛能

本次評測,智源研究院再次聯合與海澱區教師進修學校新編了 K12 全學段、多學科試卷,進一步考察大模型與人類學生的能力差異,其中,答案不唯一的主觀題依然由海澱教師親自評卷。

得益于多模态能力的帶動發展,模型本次 K12 學科測驗綜合得分相較于半年前提升了 12.86%,但是仍與海澱學生平均水平存在差距;在英語和歷史文科試題的表現上,已有模型超越了人類考生的平均分;模型普遍存在 " 文強理弱 " 的偏科情況。

FlagEval 大模型角鬥場,是智源研究院今年 9 月推出的面向用戶開放的模型對戰評測服務,以反映用戶對模型的偏好。

目前,FlagEval 覆蓋國内外約 50 款大模型,支持語言問答、多模态圖文理解、文生圖、文生視頻四大任務的自定義在線或離線盲測。

此次評測,共有 29 個語言模型、16 個圖文問答多模态模型、7 個文生圖模型、14 個文生視頻模型參評。評測發現,用戶對模型的響應時間有更高要求,對模型輸出的内容傾向于更結構化、标準化的格式。

作為模型對戰評測服務 FlagEval 大模型角鬥場的延展,今年 10 月智源研究院推出了模型辯論平台 FlagEval Debate,對模型的邏輯推理、觀點理解以及語言表達等核心能力進行深入評估,以甄别語言模型的能力差異。

本次評測發現,大模型普遍缺乏辯論框架意識,不具備對辯題以整體邏輯進行綜合闡述;大模型在辯論中依然存在 " 幻覺問題 ",論據經不起推敲;大模型更擅長反駁,各個模型表現突出的辯論維度趨同,在不同的辯題中,模型表現差距顯著。

FlagEval Debate 評測結果表明,Anthropic Claude-3-5-sonnet-20241022、零一萬物 Yi-Lighting、OpenAI o1-preview-2024-09-12 為前三名。

此次評測,智源研究院探索了基于實際應用場景的全新方法,通過評測模型的量化代碼實現能力,探索模型在金融量化交易領網域的潛在應用能力和商業價值。

評測發現,大模型已經具備生成有回撤收益的策略代碼的能力,能開發量化交易典型場景裡的代碼;在知識問答方面,模型整體差異較小,整體分數偏高,但在實際代碼生成任務上,模型差異較大,整體能力偏弱;頭部模型能力已接近初級量化交易員的水平。金融量化交易評測結果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。

智源評測體系 FlagEval 再迭代,覆蓋全球 800+ 開閉源模型

本次評測依托智源研究院自 2023 年 6 月上線的大模型評測平台 FlagEval,經過數次迭代,目前已覆蓋全球 800 多個開閉源模型,包含 20 多種任務,90 多個評測數據集,超 200 萬條評測題目。

在評測方法與工具上,智源研究院聯合全國 10 餘家高校和機構合作共建,探索基于 AI 的輔助評測模型 FlagJudge 和靈活全面的多模态評測框架 FlagEvalMM,并構建面向大模型新能力的有挑戰的評測集,包括與北京大學共建的 HalluDial 幻覺評測集、與北師大共建的 CMMU 多模态評測集、多語言跨模态評測集 MG18、復雜代碼評測集 TACO 以及長視頻理解評測 MLVU 等,其中與北京大學共建的 HalluDial 是目前全球規模最大的對話場景下的幻覺評測集,有 18000 多個輪次對話,和 14 萬多個回答。

為規避數據集洩露風險以及數據集飽和度問題,本次評測吸納了近期發布的數據集并持續動态更新評測數據,替換了 98% 的題目,并提升了題目的難度。

智源研究院副院長兼總工程師林詠華在評測發布會上表示,FlagEval 評測體系一直堅守科學、權威、公正、開放的準則,通過技術方法平台持續創新,打造丈量模型能力的标尺,為大模型技術生态發展提供洞察。2025 年,FlagEval 評測體系的發展将進一步探索動态評測與多任務能力評估體系,以評測為标尺感知大模型的發展趨勢。

* 本文系量子位獲授權刊載,觀點僅為作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們