今天小编分享的科学经验:秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头,欢迎阅读。
国产大模型刚刚出了一位全新选手:
参数 670 亿的 DeepSeek。
它在近 20 个中英文的公开评测榜单上直接超越了同量级、700 亿的 Llama 2。
并尤其以推理、数学和编码能力为突出。
其中在数学能力上,它测了 Grok 刚刚参与过的匈牙利今年最新的高中数学考试题,得了 65 分。
对比 Grok 当时公布的成绩:59 分,以及GPT-4 的 68 分,表现十分出色。
DeepSeek 主打一个发布即开源:
共包含 70 亿和 670 亿两个参数版本,每个版本均含基础模型和指令微调模型,无需申请,即可免费商用。
同时,它已开放了全面内测,注册一下就能玩。
Ps. DeepSeek 的中文能力在 GPT-3.5 之上,可以使用中文进行测试。
在推特上,DeepSeek 也引起了一大批技术同行的关注:
早期测试过的人表示没毛病。
还有人赞誉 DeepSeek 弥补了开源 LLM 在数学和编码上的短板。
那么,DeepSeek 是如何训练出来的?
与 Llama 架构相同
DeepSeek 使用与 Llama 相同的架构,即自回归 Transformer 解码器架构。
其中 70 亿参数的版本使用多头注意力,670 亿参数版本使用分组查询注意力。
预训练在包含2 万亿个中英文 token的数据集(序列长度 4096)和 AdamW 优化器上进行。
其中 70 亿参数版本的模型的训练 batch size 为 2304,学习率为 4.2e-4;670 亿参数版本的模型的 batch size 为 4608,学习率为 3.2e-4。
DeepSeek 的训练过程中特别采用了多步学习率计划:
先从 2000 个预测步骤开始,然后在 1.6 万亿 token 时逐步达到最大值的 31.6%,在 1.8 万亿 token 时逐步达到最大值的 10%。
有网友看完表示:
这种从 1.6 万亿 token 时开启的学习率冷却阶段有点类似于 "Scaling Vision Transformers" 那篇论文中的 lr 计划消融操作。
这也与 Llama 的余弦学习率衰减(要求它们提前指定步数)完全不同,非常有趣。
下图是作者发布的 DeepSeek 训练损失曲线以及在几个基准上的曲线图:
数学和编码能力突出
我们重点关注 DeepSeek 进行的如下三大类测试结果。
一个是今年 5 月才发布的 2023 年匈牙利高中数学考试题。
尽管 DeepSeek 已经在 GSM8k 和 MATH 这两个标准基准上取得了不错的成绩:
但由于存在过度拟合这些数据集的风险,作者还是决定评估一下样本外的数学泛化能力。
如下图所示,位于右上角的 670 亿参数 DeepSeek 最终在样本内数学能力(纵轴 GSM8K)排名第三,仅次于 Claude 2 和 GPT-4,但在样本外数学能力(横轴 Exam Score)排名第二,仅次于 GPT-4。
第二个是考验 DeepSeek 指令跟随能力的测试。
在此,作者使用了谷歌 11 月 15 日刚刚发布的指令跟随评测集,来评价模型的 " 听话程度 "。
结果是领先一众开源模型,但 59.1 分的成绩与 GPT-4 还有 20 分的差距。
最后是代码能力测试。
同样,作者在这里重点关注了样本外能力,选择的是LeetCode今年 7 月 2 日到 11 月 12 日的最新真题进行测试。
结果是比国内常见的大模型都要好很多,并且也远远超越了 GPT 3.5。
背后公司是谁?
经搜索,DeepSeek 背后的公司名叫深度求索。base 位于北京,今年 5 月正式成立。
目标不止是大模型,而是 AGI。
就在 11 月初,这家公司就发布代码大模型DeepSeek Coder。
与之前最好的开源大模型 CodeLlama 相比,DeepSeek Coder 在代码生成任务上(使用标准数据集 HumanEval、MBPP 和 DS-1000 进行评测)分别领先了 9.3%、10.8% 和 5.9%。
特别值得一提的是,深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。
幻方这家公司听起来和 AI" 八杆子打不着 ",但实际上,2019 年时,幻方就发布了自研深度学习训练平台 " 萤火一号 "。
据称该项目总投资近 2 亿元,共搭载了 1100 块 GPU。
后来 " 萤火一号 " 由更新为 " 二号 ",搭载的 GPU 数则达到了约 1 万张。
参考链接:
[ 1 ] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ
[ 2 ] https://twitter.com/johannes_hage/status/1730075189428494842
[ 3 ] https://twitter.com/jeremyphoward/status/1730113946345205970
[ 4 ] https://twitter.com/bindureddy/status/1730248977499762740
[ 5 ] https://zhuanlan.zhihu.com/p/636451367
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>