今天小編分享的互聯網經驗:DeepSeek真成救世主了,歡迎閲讀。
出品|虎嗅 ESG 組
作者|陳玉立
頭圖|電影《黑客帝國》
本文是 #ESG 進步觀察 # 系列第 119 篇文章
本次觀察關鍵詞:DeepSeek
去年年中,AI 大模型發展風頭正勁之時,谷歌一份環境報告引發媒體 " 擔憂 " ——自 2019 年以來,其温室氣體總排放量增長了 48%。
不止谷歌,微軟也在去年 5 月透露二氧化碳排放量增加了近 30%,科技巨頭公司碳排放增加的核心原因都被歸于一點——人工智能模型、硬體和數據中心的能耗正在大幅攀升。可以説,若 AI 軍備競賽時代到來,人類很可能陷入一場從未預見到的能源危機。
但事情卻在最近起了戲劇性變化。
近期,微軟取消了威斯康星州 Kenosha 和喬治亞州亞特蘭大兩個數據中心項目的決策,涉及數百兆瓦的電力容量調整;此外,根據 TD Cowen 最新研究報告顯示,微軟已終止與多個私營數據中心運營商的租賃協定,并暫停部分國際資本支出計劃。
這一系列舉措不僅折射出人工智能基礎設施建設領網域正在發生的結構性轉變,更是被市場解讀為 AI 投資熱潮降温的重要信号。TD Cowen 分析師指出,微軟此次戰略調整的核心在于應對 " 供應過剩 " 的行業新常态。
伴随着近期 AI 概念股普遍回調,某種程度上凸顯出資本對大模型估值的态度變化—— DeepSeek 這條 " 鲶魚 " 引發的技術衝擊,對大模型未來的技術演化提出了一條新的思考路徑。
更少的芯片數量、更低的訓練成本,DeepSeek 在改變 AI 企業算力預期的同時,也将未來 AI 算力可能帶來的能源消耗做了極大的削減。半開玩笑地講,人類如果沒有因 AI 算力的增長而陷入能源危機,DeepSeek 很有可能是 " 首功 "。
DeepSeek 是如何降低能源消耗的?
靈碳智能創始人李博傑認為,DeepSeek 在技術上主要通過 4 個方面降低了訓練成本:
一是流水線并行優化(DualPipe):通過設計前向傳播和反向傳播的交錯執行(如 1F1B 及其擴展策略),實現了計算任務與數據通信的完全重疊,從而最大化 GPU 利用率,縮短了訓練過程中因等待產生的 " 氣泡 " 時間。
二是冗餘專家策略的負載均衡器(EPLB):在 MoE(混合專家系統)架構下,不同專家的工作負載可能嚴重不平衡。EPLB 通過復制繁忙專家,為部分專家分擔負載,避免了部分 GPU 長時間閒置,從而更高效地利用硬體資源。
三是 FP8 混合精度訓練:相比傳統使用 FP16/FP32 的混合精度訓練,DeepSeek v3 " 廣泛地采用了 8 位浮點數進行訓練 "。這使得内存與計算資源的消耗大幅降低,不僅減少訓練時所需的硬體資源,也間接降低了能耗和相關的電力成本。
四是多令牌預測(MTP):通過一次生成多個 token,改善了信息利用率,既能提高訓練和推理效率,也有助于縮短整體訓練時間,降低計算資源消耗。
具體到 GPU 耗能層面,據李博傑測算,DeepSeek 預訓練共耗費大約 2.66 百萬 GPU 小時,強化學習(RL)階段約耗費 0.5 百萬 GPU 小時,合計約為 3.16 百萬 GPU 小時。
假設使用的是 H800 GPU,此類數據中心級 GPU 的功耗通常在 500W~700W 之間,取平均值 600W 計算,即每個 GPU 小時消耗 0.6 kWh 的電能。最終總能耗≈ GPU 小時數 × 平均每小時耗電,結果約為 1.9 GWh 電能消耗。
作為對比,我們拿 GPT-4 Moe 為案例計算其在 GPU 方面的電能消耗。據黃仁勳在 GTC2024 上的演講,GPT-4 Moe 使用了 8000 個 H100 GPU 進行了 90 天的訓練,總 GPU 卡時為 17.28 百萬 GPU 小時。而 H100 GPU 的設計功耗(TDP)為 500-750W,取平均值 600W 計算,可得最終總能耗約為 10.4GWh,與 DeepSeek 相比翻了 5 倍。
虎嗅 ESG 組曾在《AI 革命,是能源的一場 " 災難 "》一文中指出,普通人家一年的用電量大概在 1000kwh 左右,這意味着 DeepSeek 節約出的電能足夠近一萬個家庭使用一年。
李博傑指出,人工智能大模型之所以如此耗能,原因是因為目前主流的 LLM 模型采用了基于 transformer 架構的深度神經網絡算法,這種架構的算法通過自注意力機制處理數據,并考慮序列的不同部分或句子的整個上下文,從而生成對模型結果的預測。
" 市面上先進的 LLM 通常包含了萬億級别的參數,參數越多,模型復雜度越高,訓練時的計算量就越大。"
而 DeepSeek 通過優化訓練模型(引入多頭潛在注意力機制)加上推出新的強化學習算法 GRPO 等舉措,在顯著降低計算成本的同時,還提高了模型的訓練效率,最終實現其模型訓練成本只有 OpenAI 的 1/10,使用成本只有 OpenAI 的 1/30。
根據國際能源署的數據,2022 年美國 2700 個數據中心消耗了全國總電力的 4% 以上;預計到 2026 年,全球數據中心的電力消耗可能會翻一番。但目前從 DeepSeek 引發的 " 降本狂潮 " 來看,因數據中心帶來的電力消耗或許不會如此巨大。
間接能源減耗空間巨大
與技術創新帶來的訓練能耗大大減少相比,因 DeepSeek 的技術創新間接帶來的減碳空間同樣巨大。
從市場競争的角度看,面對 DeepSeek 技術創新帶來的 " 降本 " 壓力,不少 AI 公司都在加速淘汰低效模型架構,最為典型的是 meta。
meta 首席執行官扎克伯格将 2025 年稱為 "AI 的決定性一年 ",并期望 meta AI 能成為服務超過十億人的領先助手。但面對 DeepSeek 帶來的新挑戰,meta 已陷入恐慌模式。
《The Information》在年初曾報道,meta 的 AI 團隊領導層包括 AI 基礎設施總監馬修 · 奧爾德姆,最近都擔心 DeepSeek 的出現意味着 meta 在 AI 競賽中正在落後。他們尤其害怕 meta 在本季度發布的下一代旗艦 AI Llama 的表現将不如 DeepSeek。據《The Information》引用的兩位 meta 員工稱,meta 已成立了多個 " 作戰室 " 或專業研究小組,以剖析 DeepSeek 并利用其見解改進 Llama。
至于馬斯克的 Grok 3,在堆了 20 萬張 H100 顯卡後,其評分測試确實比 OpenAI、DeepSeek 的得分更高。但如此大量的算力帶來的是更大的能源消耗,據财經大 V 淘沙博士測算,Grok3 單次訓練的碳排放量相當于 4.6 萬輛汽車的年排放量,部門能耗效率上 DeepSeek R1 比 Grok3 低 67%。
就算馬斯克再有錢,也不可能放着捷徑不走而繼續 " 鋪張浪費 "。微軟轉向支持 DeepSeek、meta 開始研究 DeepSeek 算法都足以説明,DeepSeek 正在颠覆 AI 巨頭們堆算力、堆芯片這一 " 大力出奇迹 " 的模式,走向精細化運營。
除了市場競争角度外,從供應鏈上下遊角度分析,DeepSeek 也給能源行業 " 好好上了一課 "。在 DeepSeek 出圈之後,除夕夜前一天能源供應商 Constellation Energy 股價下跌 21%,電力企業 Vistra 下挫 28%。
"DeepSeek 重置了中美在人工智能領網域的競争環境,更重要的是,它從根本上颠覆了能源領網域。" 國際税務與投資中心能源、增長與安全項目助理主任何偉龍(Wesley Alexander Hill)在發表于《福布斯》雜志的署名文章中表示,全球許多國家制定能源政策所基于的基本假設,即人工智能必會帶動需求不斷增長,已經不復存在。
最後,在對傳統能源企業的賦能方面,DeepSeek 也能有令人驚異的表現。例如對于化工企業而言,通過實時分析生產數據(如反應參數、設備狀态),可動态調整工藝條件。有垂類自媒體指出,在甲醇精餾裝置中,通過模型優化工藝參數後能實現蒸汽消耗降低 15%,產品收率提升 8,提升設備綜合效率(OEE)達 12%。
而中國石化也在近期對外反饋,中石化 DeepSeek-R1 模型已經在進口 GPU 和國產 GPU 平台上完成驗證測試,推理計算效率提升近一倍。未來,DeepSeek 可以應用在中石化的地震資料處理、油藏開發優化、化工產品研發等核心領網域。
總結而言,DeepSeek 已通過技術颠覆、成本重構以及開源生态,在訓練環節和企業級應用中產生了明确的節能案例,未來節能減碳的空間仍然巨大。
更廣泛的社會效益
分析到這裏,DeepSeek 已經在 ESG 中的 "E(環境)" 上有着不俗表現,但在 "S(社會)" 和 "G(公司治理)" 上,DeepSeek 同樣有着極佳的案例應用。
在 "G(公司治理)" 層面,《中國經營報》在近期發表文章指出,随着微信、百度等科技巨頭接入 DeepSeek,同時各地政務系統紛紛上線基于全棧國產化技術的 DeepSeek-R1 智能模型,導致算力需求急劇增長。随着 DeepSeek 在多領網域大展拳腳,未來社會對算力的需求會持續增長。
而在 "S(社會)" 層面,據澎湃新聞報道,廣西玉林市興業縣已有鄉鎮将 DeepSeek 用于防返貧監測," 通過 DeepSeek 對全鎮脱貧户數據進行動态分析,精準識别潛在返貧風險家庭,并自動生成幫扶建議,分析效率較傳統方式提升 50%。"
如此看下來,DeepSeek 在 ESG 各維度的潛在助推價值無疑還具備相當大的可開發空間,無疑是 " 大隐隐于市 " 的存在。
而當下的人工智能或許僅僅是 DeepSeek 的一面,其效率至上所體現出的工具理性,以及将環境友好、社會公平、公司治理納入技術演進的内在邏輯,将為人類推動社會的可持續發展帶去更多驚喜。