今天小编分享的科技经验:挑战高考数学完胜!商汤日日新多模态大模型权威评测第一,欢迎阅读。
刚刚,商汤科技日日新 SenseNova 多模态大模型,在权威综合评测权威平台 OpenCompass 的多模态评测中取得榜单第一。
OpenCompass 多模态大模型评测排名
商汤日日新平均得分达到 77.4,领先 GPT-4o、Claude 3.5 Sonnet 以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集 MathVista 维度上,取得 78.4 分的最高分,展现了领先的 " 数理 " 能力。
OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过 GPT-4o 水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。
OpenCompass 大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。
小试牛刀,商汤多模态进阶
作为计算机视觉领網域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。
2023 年 4 月,商汤率先发布了行业领先的多模态大模型;
2024 年 2 月,基于商汤日日新 4.0 的多模态大模型,在当时权威评测基准测试集 MME Benchmark 上位列第一,综合得分达 2199.5(超过 GPT-4V 的 1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;
2024 年 7 月,商汤发布国内首个互動体验上对标 GPT-4o 的大模型——日日新 5o,实现无延时的实时流式互動。
全新阶段,跨模态深度融合
今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新 SenseNova 多模态大模型。
跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、影像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和互動。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。
跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。
评测中,当我们从 " 五年高考,三年模拟 " 里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。
提问:这道选择题要怎么做?
商汤日日新输出结果,并给出详细解题过程:
提问:这道题要怎么解?请告诉我详细的思路
商汤日日新输出结果:
商汤日日新再次输出正确结果。
数学回答满分,再来看看物理。
物理题也答对啦 ~
此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。
评测中,当难度提升,让我们看看结果如何。
提问:使用下表中的数据,计算 2011 年每股 FCFE 的金额。
商汤日日新输出推理结果:
商汤日日新成功输出推理结果,效果令人惊叹。
随着融合模态有效提升 AI 大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升互動体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。
数理还只是起点。目前,日日新 SenseNova 多模态大模型已经可以通过 API 调用,即将开放普通用户体验。