大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

DeepSeek们的成本,是怎么计算的?

2025-02-19 简体 HK SG TW

今天小编分享的互联网经验:DeepSeek们的成本,是怎么计算的?,欢迎阅读。

文 | 定焦 One(dingjiaoone),作者 | 王璐,编辑 | 魏佳

DeepSeek 彻底让全球都坐不住了。

昨天,马斯克携 " 地球上最聪明的 AI" —— Gork 3 在直播中亮相,自称其 " 推理能力超越目前所有已知模型 ",在推理 - 测试时间得分上,也好于 DeepSeek R1、OpenAI o1。不久前,国民级应用微信宣布接入 DeepSeek R1,正在灰度测试中,这一王炸组合被外界认为 AI 搜索领網域要变天。

如今,微软、英伟达、华为云、腾讯云等全球多家科技大厂都已接入 DeepSeek。网友也开发出了算命、预测彩票等新奇玩法,其热度直接转化成了真金白银,助推 DeepSeek 估值一路上涨,最高已经达到了千亿美金。

DeepSeek 能出圈,除了免费和好用之外,还因为其仅以 557.6 万美元的 GPU 成本,就训练出了与 OpenAI o1 能力不相上下的 DeepSeek R1 模型。毕竟,在过去几年的 " 百模大战 " 中,国内外 AI 大模型公司都砸了几十亿甚至上百亿美元。Gork 3 成为 " 全球最聪明 AI" 的代价也是高昂的,马斯克称 Gork 3 训练累计消耗 20 万块英伟达 GPU(单块成本大约在 3 万美元),而业内人士估计 DeepSeek 仅在 1 万多张。

但也有人在成本上卷 DeepSeek。近日李飞飞团队称,仅花费不到 50 美元的云计算费用,就训练出了一款推理模型 S1,其在数学和编码能力测试中的表现媲美 OpenAI 的 o1 和 DeepSeek 的 R1。但需要注意的是,S1 是中型模型,与 DeepSeek R1 的上千亿参数级别存在差距。

即便如此,从 50 美元到上百亿美元的巨大训练成本差异,还是让大家好奇,一方面想知道 DeepSeek 的能力有多强,为什么各家都在试图赶上甚至超过它,另一方面,训练一个大模型究竟需要多少钱?它涉及哪些环节?未来,是否还有可能进一步降低训练成本?

被 " 以偏概全 " 的 DeepSeek

在从业者看来,在解答这些问题前,得先捋清几个概念。

首先是对 DeepSeek 的理解 " 以偏概全 "。大家惊叹的是它众多大模型之中的一个——推理大模型 DeepSeek-R1,但它还有其他的大模型,不同大模型产品之间的功能不一样。而 557.6 万美元,是其通用大模型 DeepSeek-V3 训练过程中的 GPU 花费,可以理解为净算力成本。

简单对比下:

通用大模型:

接收明确指令,拆解步骤,用户要把任务描述清楚,包括回答顺序,比如用户需要提示是先做总结再给出标题,还是相反。

回复速度较快,基于概率预测(快速反应),通过大量数据预测答案。

推理大模型:

接收简单明了、聚焦目标的任务,用户要什么直接说,它可以自己做规划。

回复速度较慢,基于链式思维(慢速思考),推理问题步骤得到答案。

两者主要的技术差别在于训练数据,通用大模型是问题 + 答案,推理大模型是问题 + 思考过程 + 答案。

第二,由于 Deepseek 的推理大模型 DeepSeek-R1 关注度更高,很多人错误地认为推理大模型一定比通用大模型高级。

需要肯定的是,推理大模型属于前沿模型类型,是大模型预训练范式撞墙后,OpenAI 推出的在推理阶段增加算力的新范式。相比通用大模型,推理大模型更烧钱,训练时间也更长。

但并不意味着,推理大模型一定比通用大模型好用,甚至对于某类问题,推理大模型反而显得鸡肋。

大模型领網域知名专家刘聪对「定焦 One」解释,比如问某个国家的首都 / 某个地方的省会城市,推理大模型就不如通用大模型好用。

DeepSeek-R1 面对简单问题时的过度思考

他表示,面对这类比较简单的问题,推理大模型不仅回答效率低于通用大模型,消耗的算力成本也比较昂贵,甚至会出现过度思考等情况,最后可能给出错误答案。

他建议,完成数学难题、挑战性编码等复杂任务时使用推理模型,总结、翻译、基础问答等简单任务,通用模型使用效果更佳。

第三是 DeepSeek 的真正实力到底如何。

综合权威榜单和从业者的说法,「定焦 One」分别在推理大模型和通用大模型领網域,给 DeepSeek 排了个位。

推理大模型第一梯队主要有四家:国外 OpenAI 的 o 系列模型 ( 如 o3-mini ) 、Google 的 Gemini 2.0;国内的 DeepSeek-R1、阿里的 QwQ。

不止一位从业者认为,虽然外界都在讨论 DeepSeek-R1 作为国内顶尖的模型,能力赶超 OpenAI,但从技术角度看,相比 OpenAI 最新的 o3,还有一定的差距。

它更重要的意义是,大大缩小了国内外顶尖水平之间的差距。" 如果说之前的差距是 2-3 代,DeepSeek-R1 出现后已经缩小到了 0.5 代。"AI 行业资深从业者江树表示。

他结合自身使用经验,介绍了四家的优缺点:

在通用大模型领網域,根据 LM Arena(用于评估和比较大型语言模型(LLM)性能的开源平台)榜单,排在第一梯队的有五家:国外 Google 的 Gemini(闭源)、OpenAI 的 ChatGPT、Anthropic 的 Claude;国内的 DeepSeek、阿里的 Qwen。

江树也列举出了使用它们的体验。

不难发现,尽管 DeepSeek-R1 震惊了全球科技圈,其价值毋庸置疑,但每家大模型产品都有自身的优劣势,DeepSeek 也不是所有大模型都完美无缺。比如刘聪就发现,DeepSeek 最新发布的专注于影像理解和生成任务的多模态大模型 Janus-Pro,使用效果一般。

训练大模型,要花多少钱?

回到训练大模型的成本问题,一个大模型究竟是如何诞生的?

刘聪表示,大模型诞生主要分为预训练 - 后训练两个阶段,如果把大模型比作小孩,预训练和后训练要做的是,让小孩从出生时的只会哭,到懂得大人讲的内容,再到主动和大人讲话。

预训练主要指训练语料。比如将大量的文本语料投给模型,让小孩完成知识摄取,但此刻他只是学了知识还不会用。

后训练则要告诉小孩,如何去用学了的知识,包含两种方法,模型微调(SFT)和强化学习(RLHF)。

刘聪表示,无论是通用大模型还是推理大模型、国内还是国外,大家遵循的都是这一流程。江树也告诉「定焦 One」,各家都用的是 Transformer 模型,因此在最底层的模型构成和训练步骤上,无本质区别。

多位从业者表示,各家大模型的训练成本差别很大,主要集中在硬體、数据、人工三大部分,每一部分也可能采取不同的方式,对应的成本也不同。

刘聪分别举例,比如硬體是买是租,两者间的价格相差很大,如果是买,前期的一次性投入很大,但后期会大幅降低,基本只用交电费,如果是租,可能前期投入不大,但这部抽成本始终无法省去。所使用的训练数据上,是直接购买现成数据,还是自己人工爬,也差别很大。每次的训练成本也不太一样,像第一次要写爬虫、做数据筛选,但下一个版本由于可使用上个版本的重复操作,成本会有所降低。以及在最终展现模型前,中间迭代了多少版本,也决定着成本高低,但大模型公司对此讳莫如深。

总之,每个环节都涉及很多高额的隐形成本。

外界曾按照 GPU 估算,在顶尖模型中,GPT-4 的训练成本大约为 7800 万美元,Llama3.1 超 6000 万美元,Claude3.5 约为 1 亿美元。但由于这些顶尖大模型都是闭源,以及各家是否存在算力浪费现象,外界很难知晓。直到同梯队的 DeepSeek 以 557.6 万美元出现。

需要注意的是,557.6 万美元是 DeepSeek 技术报告中提到的基座模型 DeepSeek-V3 的训练成本。" 关于 V3 版本的训练成本只能代表最后一次成功训练的成本,前期的研究、架构及算法的试错等成本都没有包含在内;而 R1 的具体训练成本,论文中没有提到。" 刘聪表示。也就是说,557.6 万美元仅为模型总成本的一小部分。

半导体市场分析和预测公司 SemiAnalysis 指出,考虑到伺服器资本支出、运营成本等因素,DeepSeek 的总成本在 4 年内可能达到 25.73 亿美元。

从业者认为,相较其他大模型公司百亿美元的投入,即便按 25.73 亿美元计算,DeepSeek 的成本也是低的。

而且,DeepSeek-V3 的训练过程仅需 2048 张英伟达 GPU、所用 GPU 小时仅为 278.8 万,相比之下,OpenAI 耗费了上万张 GPU,Meta 训练模型 Llama-3.1-405B 所用的 GPU 小时为 3084 万。

DeepSeek 不仅在模型训练阶段效率更高,在调用推理阶段也更高效、成本更低。

从 DeepSeek 给出的各大模型 API 定价(开发者可以通过 API 调用大模型,实现文本生成、对话互動、代码生成等功能),能看出成本其低于 "OpenAI 们 "。通常认为,高开发成本的 API 通常需要通过较高的定价来回收成本。

DeepSeek-R1 的 API 定价为:每百万输入 tokens1 元(缓存命中),每百万输出 tokens16 元,反观 OpenAI 的 o3-mini,输入(缓存命中)、输出每百万 tokens 的定价,分别为 0.55 美元(4 元人民币)、4.4 美元(31 元人民币)。

缓存命中,即从缓存中读取数据而非重新计算或调用模型生成结果,可以减少数据处理的时间、降低成本。行业通过区分缓存命中和缓存未命中,从而提高 API 定价的竞争力,低价也让中小企业也更容易接入。

近期结束了优惠期的 DeepSeek-V3,虽然从原来的每百万输入 tokens0.1 元(缓存命中)、每百万输出 tokens2 元,分别上调到了 0.5 元、8 元,价格仍然低于其他主流模型。

虽然大模型总训练成本很难预估,但从业者一致认为,DeepSeek 可能代表的是目前一流大模型的最低成本,未来各家应该会参照 DeepSeek 往下降。

DeepSeek 的降本启示

DeepSeek 的钱省在哪了?综合从业者的说法,从模型结构 - 预训练 - 后训练,每个方面都做了优化。

比如为了保证回答的专业性,很多大模型公司采用的是 MoE 模型(混合专家模型),即面对一个复杂难题,大模型会将其拆解为多个子任务,然后将不同子任务交给不同专家解答。虽然很多家大模型公司都曾提到过这一模型,但 DeepSeek 达到了终极专家专业化水平。

秘诀是采用了细粒度专家分割(对专家在同一类别中再进行子任务细分)和共享专家隔离(隔离部分专家减轻知识冗余),这样做的好处是,能大幅提高 MoE 参数效率和性能,做到更快更准确给予答案。

有从业者估算,DeepSeekMoE 相当于仅用大约 40% 的计算量,便达到了与 LLaMA2-7B 差不多的效果。

数据处理也是大模型训练的一道坎,各家都琢磨着如何提高计算效率,同时还能降低内存和带宽等硬體需求。DeepSeek 找到的方法是,在处理数据时用 FP8 低精度训练(用于加速深度学习训练)," 此举在已知开源模型中比较领先,毕竟大多数大模型使用的是 FP16 或 BF16 混合精度训练,FP8 的训练速度比它们快很多。" 刘聪表示。

后训练中的强化学习上,策略优化是一大难点,可以理解为让大模型更好地进行过决策,比如 AlphaGo 通过策略优化学会了如何在围棋中选择最优的落子策略。

DeepSeek 选择 GRPO(分组相对策略优化)而非 PPO(近端策略优化)算法,两者的主要区别在于在进行算法优化时,是否借助价值模型,前者通过组内相对奖励来估计优势函数,后者用的是单独的价值模型。少一个模型,算力要求自然更小,也会节省成本。

以及推理层面上,用多头潜在注意力机制(MLA)而非传统的多头注意力(MHA),显著降低了显存占用和计算复杂度,最直接的好处是,API 接口费用下降。

不过,这次 DeepSeek 给刘聪的最大启发是,可以从不同角度提升大模型推理能力,纯模型微调(SFT)和纯强化学习(RLHF)都可以做出不错的推理大模型。

也就是说,目前做推理模型,可以有四种方式:

第一种:纯强化学习(DeepSeek-R1-zero)

第二种:SFT+ 强化学习(DeepSeek-R1)

第三种:纯 SFT(DeepSeek 蒸馏模型)

第四种:纯提示词(低成本小模型)

" 之前圈内都是标注 SFT+ 强化学习,大家都没有想到,原来做纯 SFT 和纯做强化学习,也能得到很好的效果。" 刘聪表示。

DeepSeek 的降本不仅给从业者带来了技术上的启发,也影响着 AI 公司的发展路径。

英诺天使基金合伙人王晟介绍,AI 产业在跑通 AGI 方向上往往有两种不同的路径选择:一个是 " 算力军备 " 范式,堆技术堆钱堆算力,先把大模型性能拉至一个高点,再考虑产业落地;另外一个是 " 算法效率 " 范式,一开始就以产业落地为目标,通过架构创新和工程化能力,推出低成本高性能模型。

"DeepSeek 的一系列模型证明了,在天花板涨不动的情况下,把重点放在优化效率而非能力增长上的范式具有可行性。" 王晟称。

从业者们相信,未来随着算法的进化,大模型的训练成本还会进一步降低。

方舟投资管理公司的创始人兼 CEO" 木头姐 " 曾指出,在 DeepSeek 之前,人工智能训练成本每年下降 75%,推理成本甚至下降 85% 到 90%。王晟也曾表示,年初发布的模型到年底再发布同样的模型,成本都会有大幅度下降,甚至有可能降至 1/10。

独立研究机构 SemiAnalysis 在最近一篇分析报告中指出,推理成本的下降是人工智能不断进步的标志之一。原来需要超级计算机、多张 GPU 才能完成的 GPT-3 大模型性能,现在一些安装在筆記型電腦上的小模型也能实现同样效果。而且成本也下降了很多,Anthropic 首席执行官 Dario 认为,算法定价成朝着 GPT-3 质量发展,成本已经降低 1200 倍。

未来,大模型的降本速度还会越来越快。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們