今天小編分享的科技經驗:挑戰高考數學完勝!商湯日日新多模态大模型權威評測第一,歡迎閱讀。
剛剛,商湯科技日日新 SenseNova 多模态大模型,在權威綜合評測權威平台 OpenCompass 的多模态評測中取得榜單第一。
OpenCompass 多模态大模型評測排名
商湯日日新平均得分達到 77.4,領先 GPT-4o、Claude 3.5 Sonnet 以及國内所有不同尺寸的開源和閉源模型。尤其在涵蓋算術、統計、代數、幾何、數值常識、科學和邏輯的權威數據集 MathVista 維度上,取得 78.4 分的最高分,展現了領先的 " 數理 " 能力。
OpenCompass 多模态評測包含八個核心數據集,從多種視角客觀量化多模态大模型的能力。此次評測中,商湯日日新在幾乎所有維度上都達到或超過 GPT-4o 水平,其中四個維度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。
OpenCompass 大模型開放評測體系是上海人工智能實驗室推出的,擁有完整開源可復現的評測框架,定期發布對各類大模型的評測成績和排名。體系覆蓋了語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面,是對大模型真實能力各個維度的全面診斷。
小試牛刀,商湯多模态進階
作為計算機視覺領網域的先行者和領軍企業,早在幾年前,商湯就确定了多模态大模型的研究方向,并在研發中,融合積累的領先算法、豐富數據和場景認知建立起核心優勢。
2023 年 4 月,商湯率先發布了行業領先的多模态大模型;
2024 年 2 月,基于商湯日日新 4.0 的多模态大模型,在當時權威評測基準測試集 MME Benchmark 上位列第一,綜合得分達 2199.5(超過 GPT-4V 的 1926.57),并應用到智能駕駛、智能車艙、電力行業等多個場景;
2024 年 7 月,商湯發布國内首個互動體驗上對标 GPT-4o 的大模型——日日新 5o,實現無延時的實時流式互動。
全新階段,跨模态深度融合
今年三季度以來,商湯已跨越初期探索,進入了多模态大模型的研發新階段——實現跨模态深度融合。以此目标,商湯打造了全新原生多模态大模型——日日新 SenseNova 多模态大模型。
跨模态深度融合指能夠跨越不同模态(自然語言、代碼、語音、影像、醫療影像、視頻等)之間的鴻溝,充分利用不同模态的信息,通過跨模态逆渲染、多模态思維鏈等技術創新,實現數據之間的集成和互動。由此,模型的感知和理解能力将得到極大增強,并支持多模态融合推理的實現。
跨模态融合有多種方法。例如,通過融合預訓練以及後訓練技術,商湯日日新多模态大模型大幅增強了數理邏輯和推理能力。
評測中,當我們從 " 五年高考,三年模拟 " 裡随機抽取幾道高考數學題,日日新多模态大模型都可以輕松應對。
提問:這道選擇題要怎麼做?
商湯日日新輸出結果,并給出詳細解題過程:
提問:這道題要怎麼解?請告訴我詳細的思路
商湯日日新輸出結果:
商湯日日新再次輸出正确結果。
數學回答滿分,再來看看物理。
物理題也答對啦 ~
此外,通過多模态融合并對模型進行定向優化,商湯日日新多模态大模型還大幅提升了對統計圖表和多模态文檔的理解能力。
評測中,當難度提升,讓我們看看結果如何。
提問:使用下表中的數據,計算 2011 年每股 FCFE 的金額。
商湯日日新輸出推理結果:
商湯日日新成功輸出推理結果,效果令人驚嘆。
随着融合模态有效提升 AI 大模型性能,多模态融合未來可廣泛應用于諸多場景,例如在線上教育、語音客服等場景,結合語音和自然語言來提升互動體驗;在自動駕駛場景,融合視覺及多種模态數據,來提升感知精度和決策能力等。
數理還只是起點。目前,日日新 SenseNova 多模态大模型已經可以通過 API 調用,即将開放普通用戶體驗。