大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

数学能力超过ChatGPT!上海交大计算大模型登开源榜首

2023-09-23 简体 HK SG TW

今天小编分享的科学经验:数学能力超过ChatGPT!上海交大计算大模型登开源榜首,欢迎阅读。

国产数学大模型,能力已经超过了 ChatGPT!

最新榜单中,上海交大 GAIR 实验室出品的 Abel 专有大模型:

准确率高达 83.6%,在开源模型中位列第一。

据团队介绍,该模型是用挪威数学家尼尔斯 · 阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。

在 GSM8k 数据集上,70B 参数量的 Abel 碾压所有开源模型,还超过了 ChatGPT。

甚至在新数据集 TALSCQ-EN 上,Abel 的表现比 GPT-4 还要强。

而实现这样效果的 Abel,成分可以说是十分 " 单纯 ":

没有使用工具

没有使用数学领網域的大规模预训练数据

没有使用奖励模型

没有使用 RLHF

仅使用有监督精调(Supervised Fine-tuning,SFT)

那么 Abel 的效果究竟怎么样呢?

成绩超越开源模型 SOTA

这里我们选择同样是开源的 Llama-2 来和 Abel 对比。

首先来看下这个鸡兔同笼问题的变体:

Brown 由牛和鸡一共 60 只,鸡的数量是牛的两倍,一共有多少条腿?

这道题 Llama-2 出师不利,而且不是计算错误,是逻辑上就有问题:

Abel 则成功地解决了这个问题。

再来看下一个问题:

12,21,6,11 和 30 的中位数与平均数的和是多少?

两个模型都正确理解了所涉及的概念,但 Llama 还是在计算和排序上出了错。

而 Abel 依旧是正确地做出了这道题:

再从测试数据上看看 Abel 的表现。

首先是 OpenAI 提出的 GSM8k 数据集(大概是美国高中难度),这份榜单的前十名,Abel 占了三个(不同参数规模)。

开源模型当中,70B 规模的 Abel 打败了曾经的 SOTA —— WizardMath。

如果把商业闭源模型算进来,Abel 也仅次于 GPT-4、Claude-2 和 PaLM-2-Flan 这些最著名的模型。

甚至 ChatGPT 也不是 Abel 的对手。

△地球代表开源模型,锁代表闭源模型

在难度更高的 MATH(竞赛题目)数据集中,开源模型的前三名被三个规模的 Abel 包揽,加上闭源也仅次于 Google 和 OpenAI 的产品。

研究团队还使用了新数据集 TALSCQ-EN 对 Abel 进行测试,结果超过了 GPT-4。

那么,研究团队是怎么调教出这样一款高性能模型的呢?

" 保姆级 " 微调训练策略

核心奥义就是高质量的训练数据。

Abel 使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。

为此,研究团队提出了一种叫做家长监督(Parental Oversight)的 " 保姆级 " 微调训练策略。

在家长监督的原则之下,团队仅通过 SFT 方式就完成了 Abel 的训练。

为了评价 Abel 的鲁棒性,研究团队还用 GPT4 对 GSM8k 中的数字进行了修改,测试 Abel 是否依然能解出正确的答案。

结果显示,在调整版 GSM8k 数据集下,70B 参数的 Abel 鲁棒性超过了同等规模的 WizardMath。

在 Abel 的介绍的最后,研究团队还留下了一个彩蛋:

Abel 的下一代,将进化成为 Bernoulli(伯努利)

不过团队并没有对其中的含义进行说明,我们不妨期待一番。

团队简介

Abel 由上海交通大学 GAIR(生成式人工智能研究组)团队打造。

该团队还曾推出过大模型高考 Benchmark、AIGC 事实核查工具 Factool 等成果。

该小组负责人、清源研究院刘鹏飞副教授同时也是 Abel 项目的负责人。

对这个数学模型感兴趣的读者,可以到 GitHub 页面详细了解。

GitHub 页面:

https://github.com/GAIR-NLP/abel

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們