今天小编分享的科学经验:数学能力超过ChatGPT!上海交大计算大模型登开源榜首,欢迎阅读。
国产数学大模型,能力已经超过了 ChatGPT!
最新榜单中,上海交大 GAIR 实验室出品的 Abel 专有大模型:
准确率高达 83.6%,在开源模型中位列第一。
据团队介绍,该模型是用挪威数学家尼尔斯 · 阿贝尔(Niels Abel)的名字命名的,以此向阿贝尔在代数和分析方面的开创性工作致敬。
在 GSM8k 数据集上,70B 参数量的 Abel 碾压所有开源模型,还超过了 ChatGPT。
甚至在新数据集 TALSCQ-EN 上,Abel 的表现比 GPT-4 还要强。
而实现这样效果的 Abel,成分可以说是十分 " 单纯 ":
没有使用工具
没有使用数学领網域的大规模预训练数据
没有使用奖励模型
没有使用 RLHF
仅使用有监督精调(Supervised Fine-tuning,SFT)
那么 Abel 的效果究竟怎么样呢?
成绩超越开源模型 SOTA
这里我们选择同样是开源的 Llama-2 来和 Abel 对比。
首先来看下这个鸡兔同笼问题的变体:
Brown 由牛和鸡一共 60 只,鸡的数量是牛的两倍,一共有多少条腿?
这道题 Llama-2 出师不利,而且不是计算错误,是逻辑上就有问题:
Abel 则成功地解决了这个问题。
再来看下一个问题:
12,21,6,11 和 30 的中位数与平均数的和是多少?
两个模型都正确理解了所涉及的概念,但 Llama 还是在计算和排序上出了错。
而 Abel 依旧是正确地做出了这道题:
再从测试数据上看看 Abel 的表现。
首先是 OpenAI 提出的 GSM8k 数据集(大概是美国高中难度),这份榜单的前十名,Abel 占了三个(不同参数规模)。
开源模型当中,70B 规模的 Abel 打败了曾经的 SOTA —— WizardMath。
如果把商业闭源模型算进来,Abel 也仅次于 GPT-4、Claude-2 和 PaLM-2-Flan 这些最著名的模型。
甚至 ChatGPT 也不是 Abel 的对手。
△地球代表开源模型,锁代表闭源模型
在难度更高的 MATH(竞赛题目)数据集中,开源模型的前三名被三个规模的 Abel 包揽,加上闭源也仅次于 Google 和 OpenAI 的产品。
研究团队还使用了新数据集 TALSCQ-EN 对 Abel 进行测试,结果超过了 GPT-4。
那么,研究团队是怎么调教出这样一款高性能模型的呢?
" 保姆级 " 微调训练策略
核心奥义就是高质量的训练数据。
Abel 使用数据是经过精心策划的,不仅包含问题的答案,还要能告诉模型找到正确答案是的方法。
为此,研究团队提出了一种叫做家长监督(Parental Oversight)的 " 保姆级 " 微调训练策略。
在家长监督的原则之下,团队仅通过 SFT 方式就完成了 Abel 的训练。
为了评价 Abel 的鲁棒性,研究团队还用 GPT4 对 GSM8k 中的数字进行了修改,测试 Abel 是否依然能解出正确的答案。
结果显示,在调整版 GSM8k 数据集下,70B 参数的 Abel 鲁棒性超过了同等规模的 WizardMath。
在 Abel 的介绍的最后,研究团队还留下了一个彩蛋:
Abel 的下一代,将进化成为 Bernoulli(伯努利)
不过团队并没有对其中的含义进行说明,我们不妨期待一番。
团队简介
Abel 由上海交通大学 GAIR(生成式人工智能研究组)团队打造。
该团队还曾推出过大模型高考 Benchmark、AIGC 事实核查工具 Factool 等成果。
该小组负责人、清源研究院刘鹏飞副教授同时也是 Abel 项目的负责人。
对这个数学模型感兴趣的读者,可以到 GitHub 页面详细了解。
GitHub 页面:
https://github.com/GAIR-NLP/abel