大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

DeepSeek真成救世主了

2025-03-01 简体 HK SG TW

今天小编分享的互联网经验:DeepSeek真成救世主了,欢迎阅读。

出品|虎嗅 ESG 组

作者|陈玉立

头图|电影《黑客帝国》

本文是 #ESG 进步观察 # 系列第 119 篇文章

本次观察关键词:DeepSeek

去年年中,AI 大模型发展风头正劲之时,谷歌一份环境报告引发媒体 " 担忧 " ——自 2019 年以来,其温室气体总排放量增长了 48%。

不止谷歌,微软也在去年 5 月透露二氧化碳排放量增加了近 30%,科技巨头公司碳排放增加的核心原因都被归于一点——人工智能模型、硬體和数据中心的能耗正在大幅攀升。可以说,若 AI 军备竞赛时代到来,人类很可能陷入一场从未预见到的能源危机。

但事情却在最近起了戏剧性变化。

近期,微软取消了威斯康星州 Kenosha 和乔治亚州亚特兰大两个数据中心项目的决策,涉及数百兆瓦的电力容量调整;此外,根据 TD Cowen 最新研究报告显示,微软已终止与多个私营数据中心运营商的租赁協定,并暂停部分国际资本支出计划。

这一系列举措不仅折射出人工智能基础设施建设领網域正在发生的结构性转变,更是被市场解读为 AI 投资热潮降温的重要信号。TD Cowen 分析师指出,微软此次战略调整的核心在于应对 " 供应过剩 " 的行业新常态。

伴随着近期 AI 概念股普遍回调,某种程度上凸显出资本对大模型估值的态度变化—— DeepSeek 这条 " 鲶鱼 " 引发的技术冲击,对大模型未来的技术演化提出了一条新的思考路径。

更少的芯片数量、更低的训练成本,DeepSeek 在改变 AI 企业算力预期的同时,也将未来 AI 算力可能带来的能源消耗做了极大的削减。半开玩笑地讲,人类如果没有因 AI 算力的增长而陷入能源危机,DeepSeek 很有可能是 " 首功 "。

DeepSeek 是如何降低能源消耗的?

灵碳智能创始人李博杰认为,DeepSeek 在技术上主要通过 4 个方面降低了训练成本:

一是流水线并行优化(DualPipe):通过设计前向传播和反向传播的交错执行(如 1F1B 及其扩展策略),实现了计算任务与数据通信的完全重叠,从而最大化 GPU 利用率,缩短了训练过程中因等待产生的 " 气泡 " 时间。

二是冗余专家策略的负载均衡器(EPLB):在 MoE(混合专家系统)架构下,不同专家的工作负载可能严重不平衡。EPLB 通过复制繁忙专家,为部分专家分担负载,避免了部分 GPU 长时间闲置,从而更高效地利用硬體资源。

三是 FP8 混合精度训练:相比传统使用 FP16/FP32 的混合精度训练,DeepSeek   v3 " 广泛地采用了 8 位浮点数进行训练 "。这使得内存与计算资源的消耗大幅降低,不仅减少训练时所需的硬體资源,也间接降低了能耗和相关的电力成本。

四是多令牌预测(MTP):通过一次生成多个 token,改善了信息利用率,既能提高训练和推理效率,也有助于缩短整体训练时间,降低计算资源消耗。

具体到 GPU 耗能层面,据李博杰测算,DeepSeek 预训练共耗费大约 2.66  百万 GPU 小时,强化学习(RL)阶段约耗费 0.5  百万 GPU 小时,合计约为 3.16  百万 GPU 小时。

假设使用的是 H800 GPU,此类数据中心级 GPU 的功耗通常在 500W~700W 之间,取平均值 600W 计算,即每个 GPU 小时消耗 0.6   kWh 的电能。最终总能耗≈ GPU 小时数 × 平均每小时耗电,结果约为 1.9 GWh 电能消耗。

作为对比,我们拿 GPT-4 Moe 为案例计算其在 GPU 方面的电能消耗。据黄仁勋在 GTC2024 上的演讲,GPT-4 Moe 使用了 8000 个 H100 GPU 进行了 90 天的训练,总 GPU 卡时为 17.28 百万 GPU 小时。而 H100 GPU 的设计功耗(TDP)为 500-750W,取平均值 600W 计算,可得最终总能耗约为 10.4GWh,与 DeepSeek 相比翻了 5 倍。

虎嗅 ESG 组曾在《AI 革命,是能源的一场 " 灾难 "》一文中指出,普通人家一年的用电量大概在 1000kwh 左右,这意味着 DeepSeek 节约出的电能足够近一万个家庭使用一年。

李博杰指出,人工智能大模型之所以如此耗能,原因是因为目前主流的 LLM 模型采用了基于 transformer 架构的深度神经网络算法,这种架构的算法通过自注意力机制处理数据,并考虑序列的不同部分或句子的整个上下文,从而生成对模型结果的预测。

" 市面上先进的 LLM 通常包含了万亿级别的参数,参数越多,模型复杂度越高,训练时的计算量就越大。"

而 DeepSeek 通过优化训练模型(引入多头潜在注意力机制)加上推出新的强化学习算法 GRPO 等举措,在显著降低计算成本的同时,还提高了模型的训练效率,最终实现其模型训练成本只有 OpenAI 的 1/10,使用成本只有 OpenAI 的 1/30。

根据国际能源署的数据,2022 年美国 2700 个数据中心消耗了全国总电力的 4% 以上;预计到 2026 年,全球数据中心的电力消耗可能会翻一番。但目前从 DeepSeek 引发的 " 降本狂潮 " 来看,因数据中心带来的电力消耗或许不会如此巨大。

间接能源减耗空间巨大

与技术创新带来的训练能耗大大减少相比,因 DeepSeek 的技术创新间接带来的减碳空间同样巨大。

从市场竞争的角度看,面对 DeepSeek 技术创新带来的 " 降本 " 压力,不少 AI 公司都在加速淘汰低效模型架构,最为典型的是 meta。

meta 首席执行官扎克伯格将 2025 年称为 "AI 的决定性一年 ",并期望 meta AI 能成为服务超过十亿人的领先助手。但面对 DeepSeek 带来的新挑战,meta 已陷入恐慌模式。

《The Information》在年初曾报道,meta 的 AI 团队领导层包括 AI 基础设施总监马修 · 奥尔德姆,最近都担心 DeepSeek 的出现意味着 meta 在 AI 竞赛中正在落后。他们尤其害怕 meta 在本季度发布的下一代旗舰 AI Llama 的表现将不如 DeepSeek。据《The Information》引用的两位 meta 员工称,meta 已成立了多个 " 作战室 " 或专业研究小组,以剖析 DeepSeek 并利用其见解改进 Llama。

至于马斯克的 Grok 3,在堆了 20 万张 H100 显卡后,其评分测试确实比 OpenAI、DeepSeek 的得分更高。但如此大量的算力带来的是更大的能源消耗,据财经大 V 淘沙博士测算,Grok3 单次训练的碳排放量相当于 4.6 万辆汽车的年排放量,部門能耗效率上 DeepSeek   R1 比 Grok3 低 67%。

就算马斯克再有钱,也不可能放着捷径不走而继续 " 铺张浪费 "。微软转向支持 DeepSeek、meta 开始研究 DeepSeek 算法都足以说明,DeepSeek 正在颠覆 AI 巨头们堆算力、堆芯片这一 " 大力出奇迹 " 的模式,走向精细化运营。

除了市场竞争角度外,从供应链上下游角度分析,DeepSeek 也给能源行业 " 好好上了一课 "。在 DeepSeek 出圈之后,除夕夜前一天能源供应商 Constellation Energy 股价下跌 21%,电力企业 Vistra 下挫 28%。

"DeepSeek 重置了中美在人工智能领網域的竞争环境,更重要的是,它从根本上颠覆了能源领網域。" 国际税务与投资中心能源、增长与安全项目助理主任何伟龙(Wesley Alexander Hill)在发表于《福布斯》杂志的署名文章中表示,全球许多国家制定能源政策所基于的基本假设,即人工智能必会带动需求不断增长,已经不复存在。

最后,在对传统能源企业的赋能方面,DeepSeek 也能有令人惊异的表现。例如对于化工企业而言,通过实时分析生产数据(如反应参数、设备状态),可动态调整工艺条件。有垂类自媒体指出,在甲醇精馏装置中,通过模型优化工艺参数后能实现蒸汽消耗降低 15%,产品收率提升 8,提升设备综合效率(OEE)达 12%。

而中国石化也在近期对外反馈,中石化 DeepSeek-R1 模型已经在进口 GPU 和国产 GPU 平台上完成验证测试,推理计算效率提升近一倍。未来,DeepSeek 可以应用在中石化的地震资料处理、油藏开发优化、化工产品研发等核心领網域。

总结而言,DeepSeek 已通过技术颠覆、成本重构以及开源生态,在训练环节和企业级应用中产生了明确的节能案例,未来节能减碳的空间仍然巨大。

更广泛的社会效益

分析到这里,DeepSeek 已经在 ESG 中的 "E(环境)" 上有着不俗表现,但在 "S(社会)" 和 "G(公司治理)" 上,DeepSeek 同样有着极佳的案例应用。

在 "G(公司治理)" 层面,《中国经营报》在近期发表文章指出,随着微信、百度等科技巨头接入 DeepSeek,同时各地政务系统纷纷上线基于全栈国产化技术的 DeepSeek-R1 智能模型,导致算力需求急剧增长。随着 DeepSeek 在多领網域大展拳脚,未来社会对算力的需求会持续增长。

而在 "S(社会)" 层面,据澎湃新闻报道,广西玉林市兴业县已有乡镇将 DeepSeek 用于防返贫监测," 通过 DeepSeek 对全镇脱贫户数据进行动态分析,精准识别潜在返贫风险家庭,并自动生成帮扶建议,分析效率较传统方式提升 50%。"

如此看下来,DeepSeek 在 ESG 各维度的潜在助推价值无疑还具备相当大的可开发空间,无疑是 " 大隐隐于市 " 的存在。

而当下的人工智能或许仅仅是 DeepSeek 的一面,其效率至上所体现出的工具理性,以及将环境友好、社会公平、公司治理纳入技术演进的内在逻辑,将为人类推动社会的可持续发展带去更多惊喜。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們