秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用，背后公司来自私募巨头 - 大酷樂

今天小编分享的科学经验：秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用，背后公司来自私募巨头，欢迎阅读。

国产大模型刚刚出了一位全新选手：

参数 670 亿的 DeepSeek。

它在近 20 个中英文的公开评测榜单上直接超越了同量级、700 亿的 Llama 2。

并尤其以推理、数学和编码能力为突出。

其中在数学能力上，它测了 Grok 刚刚参与过的匈牙利今年最新的高中数学考试题，得了 65 分。

对比 Grok 当时公布的成绩：59 分，以及GPT-4 的 68 分，表现十分出色。

DeepSeek 主打一个发布即开源：

共包含 70 亿和 670 亿两个参数版本，每个版本均含基础模型和指令微调模型，无需申请，即可免费商用。

同时，它已开放了全面内测，注册一下就能玩。

Ps. DeepSeek 的中文能力在 GPT-3.5 之上，可以使用中文进行测试。

在推特上，DeepSeek 也引起了一大批技术同行的关注：

早期测试过的人表示没毛病。

还有人赞誉 DeepSeek 弥补了开源 LLM 在数学和编码上的短板。

那么，DeepSeek 是如何训练出来的？

与 Llama 架构相同

DeepSeek 使用与 Llama 相同的架构，即自回归 Transformer 解码器架构。

其中 70 亿参数的版本使用多头注意力，670 亿参数版本使用分组查询注意力。

预训练在包含2 万亿个中英文 token的数据集（序列长度 4096）和 AdamW 优化器上进行。

其中 70 亿参数版本的模型的训练 batch size 为 2304，学习率为 4.2e-4；670 亿参数版本的模型的 batch size 为 4608，学习率为 3.2e-4。

DeepSeek 的训练过程中特别采用了多步学习率计划：

先从 2000 个预测步骤开始，然后在 1.6 万亿 token 时逐步达到最大值的 31.6%，在 1.8 万亿 token 时逐步达到最大值的 10%。

有网友看完表示：

这种从 1.6 万亿 token 时开启的学习率冷却阶段有点类似于 "Scaling Vision Transformers" 那篇论文中的 lr 计划消融操作。

这也与 Llama 的余弦学习率衰减（要求它们提前指定步数）完全不同，非常有趣。

下图是作者发布的 DeepSeek 训练损失曲线以及在几个基准上的曲线图：

数学和编码能力突出

我们重点关注 DeepSeek 进行的如下三大类测试结果。

一个是今年 5 月才发布的 2023 年匈牙利高中数学考试题。

尽管 DeepSeek 已经在 GSM8k 和 MATH 这两个标准基准上取得了不错的成绩：

但由于存在过度拟合这些数据集的风险，作者还是决定评估一下样本外的数学泛化能力。

如下图所示，位于右上角的 670 亿参数 DeepSeek 最终在样本内数学能力（纵轴 GSM8K）排名第三，仅次于 Claude 2 和 GPT-4，但在样本外数学能力（横轴 Exam Score）排名第二，仅次于 GPT-4。

第二个是考验 DeepSeek 指令跟随能力的测试。

在此，作者使用了谷歌 11 月 15 日刚刚发布的指令跟随评测集，来评价模型的 " 听话程度 "。

结果是领先一众开源模型，但 59.1 分的成绩与 GPT-4 还有 20 分的差距。

最后是代码能力测试。

同样，作者在这里重点关注了样本外能力，选择的是LeetCode今年 7 月 2 日到 11 月 12 日的最新真题进行测试。

结果是比国内常见的大模型都要好很多，并且也远远超越了 GPT 3.5。

背后公司是谁？

经搜索，DeepSeek 背后的公司名叫深度求索。base 位于北京，今年 5 月正式成立。

目标不止是大模型，而是 AGI。

就在 11 月初，这家公司就发布代码大模型DeepSeek Coder。

与之前最好的开源大模型 CodeLlama 相比，DeepSeek Coder 在代码生成任务上（使用标准数据集 HumanEval、MBPP 和 DS-1000 进行评测）分别领先了 9.3%、10.8% 和 5.9%。

特别值得一提的是，深度求索其实是从知名私募巨头幻方旗下独立出来的一家公司。

幻方这家公司听起来和 AI" 八杆子打不着 "，但实际上，2019 年时，幻方就发布了自研深度学习训练平台 " 萤火一号 "。

据称该项目总投资近 2 亿元，共搭载了 1100 块 GPU。

后来 " 萤火一号 " 由更新为 " 二号 "，搭载的 GPU 数则达到了约 1 万张。

参考链接：

[ 1 ] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ

[ 2 ] https://twitter.com/johannes_hage/status/1730075189428494842

[ 3 ] https://twitter.com/jeremyphoward/status/1730113946345205970

[ 4 ] https://twitter.com/bindureddy/status/1730248977499762740

[ 5 ] https://zhuanlan.zhihu.com/p/636451367

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>

熱門排行

气炸中甲青岛红狮球员倒地未判点，主帅场边怒惠惠君 | 2025-04-26
HKC推出“Q7S”27 英寸显示器：2K 300Hz，1599 袁曼雁 | 2025-04-26
44岁的孙俪，她的事业危机才刚刚开始謝飛揚 | 2025-04-26
车企热衷插混和增程混动将是新能源汽车的袁曼雁 | 2025-04-26
7轮不败！蓉城2-1亚泰居第二韦世豪赛季第3球衛青柏 | 2025-04-26
保时捷 911 Carrera 新内饰套装重迎 Pasha 衛青柏 | 2025-04-26
蛮好的人生：直到被再次举报，胡曼黎才知，监视自幸聽楓 | 2025-04-26
“组队发育”，安徽在打什么算盘？賁芳蕤 | 2025-04-26
中国成为全球人工智能专利最大拥有国，占比 6 集玲琳 | 2025-04-26
被特朗普“赏识”，准备角逐FED主席？前理事沃寸飛蘭 | 2025-04-26
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02