今天小编分享的互联网经验:DeepSeek真成救世主了,欢迎阅读。
出品|虎嗅 ESG 组
作者|陈玉立
头图|电影《黑客帝国》
本文是 #ESG 进步观察 # 系列第 119 篇文章
本次观察关键词:DeepSeek
去年年中,AI 大模型发展风头正劲之时,谷歌一份环境报告引发媒体 " 担忧 " ——自 2019 年以来,其温室气体总排放量增长了 48%。
不止谷歌,微软也在去年 5 月透露二氧化碳排放量增加了近 30%,科技巨头公司碳排放增加的核心原因都被归于一点——人工智能模型、硬體和数据中心的能耗正在大幅攀升。可以说,若 AI 军备竞赛时代到来,人类很可能陷入一场从未预见到的能源危机。
但事情却在最近起了戏剧性变化。
近期,微软取消了威斯康星州 Kenosha 和乔治亚州亚特兰大两个数据中心项目的决策,涉及数百兆瓦的电力容量调整;此外,根据 TD Cowen 最新研究报告显示,微软已终止与多个私营数据中心运营商的租赁協定,并暂停部分国际资本支出计划。
这一系列举措不仅折射出人工智能基础设施建设领網域正在发生的结构性转变,更是被市场解读为 AI 投资热潮降温的重要信号。TD Cowen 分析师指出,微软此次战略调整的核心在于应对 " 供应过剩 " 的行业新常态。
伴随着近期 AI 概念股普遍回调,某种程度上凸显出资本对大模型估值的态度变化—— DeepSeek 这条 " 鲶鱼 " 引发的技术冲击,对大模型未来的技术演化提出了一条新的思考路径。
更少的芯片数量、更低的训练成本,DeepSeek 在改变 AI 企业算力预期的同时,也将未来 AI 算力可能带来的能源消耗做了极大的削减。半开玩笑地讲,人类如果没有因 AI 算力的增长而陷入能源危机,DeepSeek 很有可能是 " 首功 "。
DeepSeek 是如何降低能源消耗的?
灵碳智能创始人李博杰认为,DeepSeek 在技术上主要通过 4 个方面降低了训练成本:
一是流水线并行优化(DualPipe):通过设计前向传播和反向传播的交错执行(如 1F1B 及其扩展策略),实现了计算任务与数据通信的完全重叠,从而最大化 GPU 利用率,缩短了训练过程中因等待产生的 " 气泡 " 时间。
二是冗余专家策略的负载均衡器(EPLB):在 MoE(混合专家系统)架构下,不同专家的工作负载可能严重不平衡。EPLB 通过复制繁忙专家,为部分专家分担负载,避免了部分 GPU 长时间闲置,从而更高效地利用硬體资源。
三是 FP8 混合精度训练:相比传统使用 FP16/FP32 的混合精度训练,DeepSeek v3 " 广泛地采用了 8 位浮点数进行训练 "。这使得内存与计算资源的消耗大幅降低,不仅减少训练时所需的硬體资源,也间接降低了能耗和相关的电力成本。
四是多令牌预测(MTP):通过一次生成多个 token,改善了信息利用率,既能提高训练和推理效率,也有助于缩短整体训练时间,降低计算资源消耗。
具体到 GPU 耗能层面,据李博杰测算,DeepSeek 预训练共耗费大约 2.66 百万 GPU 小时,强化学习(RL)阶段约耗费 0.5 百万 GPU 小时,合计约为 3.16 百万 GPU 小时。
假设使用的是 H800 GPU,此类数据中心级 GPU 的功耗通常在 500W~700W 之间,取平均值 600W 计算,即每个 GPU 小时消耗 0.6 kWh 的电能。最终总能耗≈ GPU 小时数 × 平均每小时耗电,结果约为 1.9 GWh 电能消耗。
作为对比,我们拿 GPT-4 Moe 为案例计算其在 GPU 方面的电能消耗。据黄仁勋在 GTC2024 上的演讲,GPT-4 Moe 使用了 8000 个 H100 GPU 进行了 90 天的训练,总 GPU 卡时为 17.28 百万 GPU 小时。而 H100 GPU 的设计功耗(TDP)为 500-750W,取平均值 600W 计算,可得最终总能耗约为 10.4GWh,与 DeepSeek 相比翻了 5 倍。
虎嗅 ESG 组曾在《AI 革命,是能源的一场 " 灾难 "》一文中指出,普通人家一年的用电量大概在 1000kwh 左右,这意味着 DeepSeek 节约出的电能足够近一万个家庭使用一年。
李博杰指出,人工智能大模型之所以如此耗能,原因是因为目前主流的 LLM 模型采用了基于 transformer 架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。
" 市面上先进的 LLM 通常包含了万亿级别的参数,参数越多,模型复杂度越高,训练时的计算量就越大。"
而 DeepSeek 通过优化训练模型(引入多头潜在注意力机制)加上推出新的强化学习算法 GRPO 等举措,在显著降低计算成本的同时,还提高了模型的训练效率,最终实现其模型训练成本只有 OpenAI 的 1/10,使用成本只有 OpenAI 的 1/30。
根据国际能源署的数据,2022 年美国 2700 个数据中心消耗了全国总电力的 4% 以上;预计到 2026 年,全球数据中心的电力消耗可能会翻一番。但目前从 DeepSeek 引发的 " 降本狂潮 " 来看,因数据中心带来的电力消耗或许不会如此巨大。
间接能源减耗空间巨大
与技术创新带来的训练能耗大大减少相比,因 DeepSeek 的技术创新间接带来的减碳空间同样巨大。
从市场竞争的角度看,面对 DeepSeek 技术创新带来的 " 降本 " 压力,不少 AI 公司都在加速淘汰低效模型架构,最为典型的是 meta。
meta 首席执行官扎克伯格将 2025 年称为 "AI 的决定性一年 ",并期望 meta AI 能成为服务超过十亿人的领先助手。但面对 DeepSeek 带来的新挑战,meta 已陷入恐慌模式。
《The Information》在年初曾报道,meta 的 AI 团队领导层包括 AI 基础设施总监马修 · 奥尔德姆,最近都担心 DeepSeek 的出现意味着 meta 在 AI 竞赛中正在落后。他们尤其害怕 meta 在本季度发布的下一代旗舰 AI Llama 的表现将不如 DeepSeek。据《The Information》引用的两位 meta 员工称,meta 已成立了多个 " 作战室 " 或专业研究小组,以剖析 DeepSeek 并利用其见解改进 Llama。
至于马斯克的 Grok 3,在堆了 20 万张 H100 显卡后,其评分测试确实比 OpenAI、DeepSeek 的得分更高。但如此大量的算力带来的是更大的能源消耗,据财经大 V 淘沙博士测算,Grok3 单次训练的碳排放量相当于 4.6 万辆汽车的年排放量,部門能耗效率上 DeepSeek R1 比 Grok3 低 67%。
就算马斯克再有钱,也不可能放着捷径不走而继续 " 铺张浪费 "。微软转向支持 DeepSeek、meta 开始研究 DeepSeek 算法都足以说明,DeepSeek 正在颠覆 AI 巨头们堆算力、堆芯片这一 " 大力出奇迹 " 的模式,走向精细化运营。
除了市场竞争角度外,从供应链上下游角度分析,DeepSeek 也给能源行业 " 好好上了一课 "。在 DeepSeek 出圈之后,除夕夜前一天能源供应商 Constellation Energy 股价下跌 21%,电力企业 Vistra 下挫 28%。
"DeepSeek 重置了中美在人工智能领網域的竞争环境,更重要的是,它从根本上颠覆了能源领網域。" 国际税务与投资中心能源、增长与安全项目助理主任何伟龙(Wesley Alexander Hill)在发表于《福布斯》杂志的署名文章中表示,全球许多国家制定能源政策所基于的基本假设,即人工智能必会带动需求不断增长,已经不复存在。
最后,在对传统能源企业的赋能方面,DeepSeek 也能有令人惊异的表现。例如对于化工企业而言,通过实时分析生产数据(如反应参数、设备状态),可动态调整工艺条件。有垂类自媒体指出,在甲醇精馏装置中,通过模型优化工艺参数后能实现蒸汽消耗降低 15%,产品收率提升 8,提升设备综合效率(OEE)达 12%。
而中国石化也在近期对外反馈,中石化 DeepSeek-R1 模型已经在进口 GPU 和国产 GPU 平台上完成验证测试,推理计算效率提升近一倍。未来,DeepSeek 可以应用在中石化的地震资料处理、油藏开发优化、化工产品研发等核心领網域。
总结而言,DeepSeek 已通过技术颠覆、成本重构以及开源生态,在训练环节和企业级应用中产生了明确的节能案例,未来节能减碳的空间仍然巨大。
更广泛的社会效益
分析到这里,DeepSeek 已经在 ESG 中的 "E(环境)" 上有着不俗表现,但在 "S(社会)" 和 "G(公司治理)" 上,DeepSeek 同样有着极佳的案例应用。
在 "G(公司治理)" 层面,《中国经营报》在近期发表文章指出,随着微信、百度等科技巨头接入 DeepSeek,同时各地政务系统纷纷上线基于全栈国产化技术的 DeepSeek-R1 智能模型,导致算力需求急剧增长。随着 DeepSeek 在多领網域大展拳脚,未来社会对算力的需求会持续增长。
而在 "S(社会)" 层面,据澎湃新闻报道,广西玉林市兴业县已有乡镇将 DeepSeek 用于防返贫监测," 通过 DeepSeek 对全镇脱贫户数据进行动态分析,精准识别潜在返贫风险家庭,并自动生成帮扶建议,分析效率较传统方式提升 50%。"
如此看下来,DeepSeek 在 ESG 各维度的潜在助推价值无疑还具备相当大的可开发空间,无疑是 " 大隐隐于市 " 的存在。
而当下的人工智能或许仅仅是 DeepSeek 的一面,其效率至上所体现出的工具理性,以及将环境友好、社会公平、公司治理纳入技术演进的内在逻辑,将为人类推动社会的可持续发展带去更多惊喜。