數學能力超過ChatGPT！上海交大計算大模型登開源榜首

今天小編分享的科學經驗：數學能力超過ChatGPT！上海交大計算大模型登開源榜首，歡迎閱讀。

國產數學大模型，能力已經超過了 ChatGPT！

最新榜單中，上海交大 GAIR 實驗室出品的 Abel 專有大模型：

準确率高達 83.6%，在開源模型中位列第一。

據團隊介紹，該模型是用挪威數學家尼爾斯 · 阿貝爾（Niels Abel）的名字命名的，以此向阿貝爾在代數和分析方面的開創性工作致敬。

在 GSM8k 數據集上，70B 參數量的 Abel 碾壓所有開源模型，還超過了 ChatGPT。

甚至在新數據集 TALSCQ-EN 上，Abel 的表現比 GPT-4 還要強。

而實現這樣效果的 Abel，成分可以說是十分 " 單純 "：

沒有使用工具

沒有使用數學領網域的大規模預訓練數據

沒有使用獎勵模型

沒有使用 RLHF

僅使用有監督精調（Supervised Fine-tuning，SFT）

那麼 Abel 的效果究竟怎麼樣呢？

成績超越開源模型 SOTA

這裡我們選擇同樣是開源的 Llama-2 來和 Abel 對比。

首先來看下這個雞兔同籠問題的變體：

Brown 由牛和雞一共 60 只，雞的數量是牛的兩倍，一共有多少條腿？

這道題 Llama-2 出師不利，而且不是計算錯誤，是邏輯上就有問題：

Abel 則成功地解決了這個問題。

再來看下一個問題：

12，21，6，11 和 30 的中位數與平均數的和是多少？

兩個模型都正确理解了所涉及的概念，但 Llama 還是在計算和排序上出了錯。

而 Abel 依舊是正确地做出了這道題：

再從測試數據上看看 Abel 的表現。

首先是 OpenAI 提出的 GSM8k 數據集（大概是美國高中難度），這份榜單的前十名，Abel 占了三個（不同參數規模）。

開源模型當中，70B 規模的 Abel 打敗了曾經的 SOTA —— WizardMath。

如果把商業閉源模型算進來，Abel 也僅次于 GPT-4、Claude-2 和 PaLM-2-Flan 這些最著名的模型。

甚至 ChatGPT 也不是 Abel 的對手。

△地球代表開源模型，鎖代表閉源模型

在難度更高的 MATH（競賽題目）數據集中，開源模型的前三名被三個規模的 Abel 包攬，加上閉源也僅次于 Google 和 OpenAI 的產品。

研究團隊還使用了新數據集 TALSCQ-EN 對 Abel 進行測試，結果超過了 GPT-4。

那麼，研究團隊是怎麼調教出這樣一款高性能模型的呢？

" 保姆級 " 微調訓練策略

核心奧義就是高質量的訓練數據。

Abel 使用數據是經過精心策劃的，不僅包含問題的答案，還要能告訴模型找到正确答案是的方法。

為此，研究團隊提出了一種叫做家長監督（Parental Oversight）的 " 保姆級 " 微調訓練策略。

在家長監督的原則之下，團隊僅通過 SFT 方式就完成了 Abel 的訓練。

為了評價 Abel 的魯棒性，研究團隊還用 GPT4 對 GSM8k 中的數字進行了修改，測試 Abel 是否依然能解出正确的答案。

結果顯示，在調整版 GSM8k 數據集下，70B 參數的 Abel 魯棒性超過了同等規模的 WizardMath。

在 Abel 的介紹的最後，研究團隊還留下了一個彩蛋：

Abel 的下一代，将進化成為 Bernoulli（伯努利）

不過團隊并沒有對其中的含義進行說明，我們不妨期待一番。

團隊簡介

Abel 由上海交通大學 GAIR（生成式人工智能研究組）團隊打造。

該團隊還曾推出過大模型高考 Benchmark、AIGC 事實核查工具 Factool 等成果。

該小組負責人、清源研究院劉鵬飛副教授同時也是 Abel 項目的負責人。

對這個數學模型感興趣的讀者，可以到 GitHub 頁面詳細了解。

GitHub 頁面：

https://github.com/GAIR-NLP/abel