今天小編分享的科技經驗:智源評測出爐:豆包大語言模型排名第一,多模态能力獲得三項第二,歡迎閲讀。
12 月 19 日,智源研究院發布最新一期大模型綜合及專項評測結果。在覆蓋國内外 100 餘個開源和商業閉源大模型的評測中,豆包通用模型 pro 獲得大語言模型主觀評測最高分;在多模态模型評測中,豆包視覺理解模型排名視覺語言模型第二,成績僅次于 GPT-4o;豆包文生圖模型、豆包視頻生成模型(即夢 P2.0 pro)也分别在相應測試中獲得全球第二。
據智源研究院介紹,大模型評測平台 FlagEval 聯合了全國 10 餘家高校和機構合作共建。此次公布的榜單中,大語言模型主觀評測重點考察的是模型的中文能力,多模态模型評測榜單中,視覺語言模型主要考察的是模型在圖文理解、長尾視覺知識、文字識别以及復雜圖文數據分析能力。FlagEval 大模型角鬥場則是向用户開放的模型對戰評測服務,反映了用户對模型的偏好。
在大語言模型主觀評測中,豆包通用模型 pro 的知識運用和推理能力均獲得最高分,簡單理解、數學能力、安全等項目也排名前三,最終綜合成績排名第一。在 FlagEval 大模型角鬥場榜單中,基于模型對戰的用户投票結果,豆包通用模型 pro 得分排名第二,僅次于 OpenAI 的 o1-mini。
在多模态模型評測榜單中,GPT-4o 在視覺語言模型中排名第一,豆包視覺理解模型獲第二。在中文的通用知識、文字識别中,豆包表現突出,相比國外模型有較大優勢。在文生圖測試中,混元和豆包排名前兩位;在文生視頻測試中,國產模型更是優勢顯著,可靈 1.5 高品質版、即夢 P2.0 pro、愛詩科技 PixVerse v3 和海螺 AI 排名前列。
據悉,豆包視覺理解模型在不久前的火山引擎 Force 大會上首次發布,現已對企業客户開放使用。火山引擎方面表示,豆包大模型通過算法、工程、軟硬體結合的技術創新,大幅優化使用成本,讓每一家企業都能用得起,推動 AI 技術普惠和應用發展。