今天小編分享的科學經驗:秒殺700億Llama 2!最新國產大模型亮相,無需申請即可免費商用,背後公司來自私募巨頭,歡迎閱讀。
國產大模型剛剛出了一位全新選手:
參數 670 億的 DeepSeek。
它在近 20 個中英文的公開評測榜單上直接超越了同量級、700 億的 Llama 2。
并尤其以推理、數學和編碼能力為突出。
其中在數學能力上,它測了 Grok 剛剛參與過的匈牙利今年最新的高中數學考試題,得了 65 分。
對比 Grok 當時公布的成績:59 分,以及GPT-4 的 68 分,表現十分出色。
DeepSeek 主打一個發布即開源:
共包含 70 億和 670 億兩個參數版本,每個版本均含基礎模型和指令微調模型,無需申請,即可免費商用。
同時,它已開放了全面内測,注冊一下就能玩。
Ps. DeepSeek 的中文能力在 GPT-3.5 之上,可以使用中文進行測試。
在推特上,DeepSeek 也引起了一大批技術同行的關注:
早期測試過的人表示沒毛病。
還有人贊譽 DeepSeek 彌補了開源 LLM 在數學和編碼上的短板。
那麼,DeepSeek 是如何訓練出來的?
與 Llama 架構相同
DeepSeek 使用與 Llama 相同的架構,即自回歸 Transformer 解碼器架構。
其中 70 億參數的版本使用多頭注意力,670 億參數版本使用分組查詢注意力。
預訓練在包含2 萬億個中英文 token的數據集(序列長度 4096)和 AdamW 優化器上進行。
其中 70 億參數版本的模型的訓練 batch size 為 2304,學習率為 4.2e-4;670 億參數版本的模型的 batch size 為 4608,學習率為 3.2e-4。
DeepSeek 的訓練過程中特别采用了多步學習率計劃:
先從 2000 個預測步驟開始,然後在 1.6 萬億 token 時逐步達到最大值的 31.6%,在 1.8 萬億 token 時逐步達到最大值的 10%。
有網友看完表示:
這種從 1.6 萬億 token 時開啟的學習率冷卻階段有點類似于 "Scaling Vision Transformers" 那篇論文中的 lr 計劃消融操作。
這也與 Llama 的餘弦學習率衰減(要求它們提前指定步數)完全不同,非常有趣。
下圖是作者發布的 DeepSeek 訓練損失曲線以及在幾個基準上的曲線圖:
數學和編碼能力突出
我們重點關注 DeepSeek 進行的如下三大類測試結果。
一個是今年 5 月才發布的 2023 年匈牙利高中數學考試題。
盡管 DeepSeek 已經在 GSM8k 和 MATH 這兩個标準基準上取得了不錯的成績:
但由于存在過度拟合這些數據集的風險,作者還是決定評估一下樣本外的數學泛化能力。
如下圖所示,位于右上角的 670 億參數 DeepSeek 最終在樣本内數學能力(縱軸 GSM8K)排名第三,僅次于 Claude 2 和 GPT-4,但在樣本外數學能力(橫軸 Exam Score)排名第二,僅次于 GPT-4。
第二個是考驗 DeepSeek 指令跟随能力的測試。
在此,作者使用了谷歌 11 月 15 日剛剛發布的指令跟随評測集,來評價模型的 " 聽話程度 "。
結果是領先一眾開源模型,但 59.1 分的成績與 GPT-4 還有 20 分的差距。
最後是代碼能力測試。
同樣,作者在這裡重點關注了樣本外能力,選擇的是LeetCode今年 7 月 2 日到 11 月 12 日的最新真題進行測試。
結果是比國内常見的大模型都要好很多,并且也遠遠超越了 GPT 3.5。
背後公司是誰?
經搜索,DeepSeek 背後的公司名叫深度求索。base 位于北京,今年 5 月正式成立。
目标不止是大模型,而是 AGI。
就在 11 月初,這家公司就發布代碼大模型DeepSeek Coder。
與之前最好的開源大模型 CodeLlama 相比,DeepSeek Coder 在代碼生成任務上(使用标準數據集 HumanEval、MBPP 和 DS-1000 進行評測)分别領先了 9.3%、10.8% 和 5.9%。
特别值得一提的是,深度求索其實是從知名私募巨頭幻方旗下獨立出來的一家公司。
幻方這家公司聽起來和 AI" 八杆子打不着 ",但實際上,2019 年時,幻方就發布了自研深度學習訓練平台 " 螢火一号 "。
據稱該項目總投資近 2 億元,共搭載了 1100 塊 GPU。
後來 " 螢火一号 " 由更新為 " 二号 ",搭載的 GPU 數則達到了約 1 萬張。
參考鏈接:
[ 1 ] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ
[ 2 ] https://twitter.com/johannes_hage/status/1730075189428494842
[ 3 ] https://twitter.com/jeremyphoward/status/1730113946345205970
[ 4 ] https://twitter.com/bindureddy/status/1730248977499762740
[ 5 ] https://zhuanlan.zhihu.com/p/636451367
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>