秒殺700億Llama 2！最新國產大模型亮相，無需申請即可免費商用，背後公司來自私募巨頭

今天小編分享的科學經驗：秒殺700億Llama 2！最新國產大模型亮相，無需申請即可免費商用，背後公司來自私募巨頭，歡迎閱讀。

國產大模型剛剛出了一位全新選手：

參數 670 億的 DeepSeek。

它在近 20 個中英文的公開評測榜單上直接超越了同量級、700 億的 Llama 2。

并尤其以推理、數學和編碼能力為突出。

其中在數學能力上，它測了 Grok 剛剛參與過的匈牙利今年最新的高中數學考試題，得了 65 分。

對比 Grok 當時公布的成績：59 分，以及GPT-4 的 68 分，表現十分出色。

DeepSeek 主打一個發布即開源：

共包含 70 億和 670 億兩個參數版本，每個版本均含基礎模型和指令微調模型，無需申請，即可免費商用。

同時，它已開放了全面内測，注冊一下就能玩。

Ps. DeepSeek 的中文能力在 GPT-3.5 之上，可以使用中文進行測試。

在推特上，DeepSeek 也引起了一大批技術同行的關注：

早期測試過的人表示沒毛病。

還有人贊譽 DeepSeek 彌補了開源 LLM 在數學和編碼上的短板。

那麼，DeepSeek 是如何訓練出來的？

與 Llama 架構相同

DeepSeek 使用與 Llama 相同的架構，即自回歸 Transformer 解碼器架構。

其中 70 億參數的版本使用多頭注意力，670 億參數版本使用分組查詢注意力。

預訓練在包含2 萬億個中英文 token的數據集（序列長度 4096）和 AdamW 優化器上進行。

其中 70 億參數版本的模型的訓練 batch size 為 2304，學習率為 4.2e-4；670 億參數版本的模型的 batch size 為 4608，學習率為 3.2e-4。

DeepSeek 的訓練過程中特别采用了多步學習率計劃：

先從 2000 個預測步驟開始，然後在 1.6 萬億 token 時逐步達到最大值的 31.6%，在 1.8 萬億 token 時逐步達到最大值的 10%。

有網友看完表示：

這種從 1.6 萬億 token 時開啟的學習率冷卻階段有點類似于 "Scaling Vision Transformers" 那篇論文中的 lr 計劃消融操作。

這也與 Llama 的餘弦學習率衰減（要求它們提前指定步數）完全不同，非常有趣。

下圖是作者發布的 DeepSeek 訓練損失曲線以及在幾個基準上的曲線圖：

數學和編碼能力突出

我們重點關注 DeepSeek 進行的如下三大類測試結果。

一個是今年 5 月才發布的 2023 年匈牙利高中數學考試題。

盡管 DeepSeek 已經在 GSM8k 和 MATH 這兩個标準基準上取得了不錯的成績：

但由于存在過度拟合這些數據集的風險，作者還是決定評估一下樣本外的數學泛化能力。

如下圖所示，位于右上角的 670 億參數 DeepSeek 最終在樣本内數學能力（縱軸 GSM8K）排名第三，僅次于 Claude 2 和 GPT-4，但在樣本外數學能力（橫軸 Exam Score）排名第二，僅次于 GPT-4。

第二個是考驗 DeepSeek 指令跟随能力的測試。

在此，作者使用了谷歌 11 月 15 日剛剛發布的指令跟随評測集，來評價模型的 " 聽話程度 "。

結果是領先一眾開源模型，但 59.1 分的成績與 GPT-4 還有 20 分的差距。

最後是代碼能力測試。

同樣，作者在這裡重點關注了樣本外能力，選擇的是LeetCode今年 7 月 2 日到 11 月 12 日的最新真題進行測試。

結果是比國内常見的大模型都要好很多，并且也遠遠超越了 GPT 3.5。

背後公司是誰？

經搜索，DeepSeek 背後的公司名叫深度求索。base 位于北京，今年 5 月正式成立。

目标不止是大模型，而是 AGI。

就在 11 月初，這家公司就發布代碼大模型DeepSeek Coder。

與之前最好的開源大模型 CodeLlama 相比，DeepSeek Coder 在代碼生成任務上（使用标準數據集 HumanEval、MBPP 和 DS-1000 進行評測）分别領先了 9.3%、10.8% 和 5.9%。

特别值得一提的是，深度求索其實是從知名私募巨頭幻方旗下獨立出來的一家公司。

幻方這家公司聽起來和 AI" 八杆子打不着 "，但實際上，2019 年時，幻方就發布了自研深度學習訓練平台 " 螢火一号 "。

據稱該項目總投資近 2 億元，共搭載了 1100 塊 GPU。

後來 " 螢火一号 " 由更新為 " 二号 "，搭載的 GPU 數則達到了約 1 萬張。

參考鏈接：

[ 1 ] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ

[ 2 ] https://twitter.com/johannes_hage/status/1730075189428494842

[ 3 ] https://twitter.com/jeremyphoward/status/1730113946345205970

[ 4 ] https://twitter.com/bindureddy/status/1730248977499762740

[ 5 ] https://zhuanlan.zhihu.com/p/636451367

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~