AI算力提高，高能耗和難散熱問題如何突破？

今天小編分享的科學經驗：AI算力提高，高能耗和難散熱問題如何突破？，歡迎閲讀。

随着 AI 技術的廣泛應用，從智能手機到自動駕駛汽車，從智能家居到工業自動化，AI 供電芯片的需求量正呈爆炸式增長。它不僅為 AI 系統提供穩定的電力供應，确保系統的正常運行，而且還肩負着節能減排、降低能耗的重任。

然而随着算力需求的提升，AI 設備的能耗、散熱等問題凸顯，這無疑給 AI 供電芯片帶來了新的挑戰，如何實現高效率、低功耗、持續穩定的供電成為了業界關注的焦點。

能耗 " 突飛猛進 "：算力比拼加速，能耗日益攀升

算力核心設備由傳統的 CPU 向 GPU 的轉移，不僅提升了計算效率，更使得復雜的數據處理和深度學習模型得以實現。然而，高性能往往伴随着高能耗。在追求更快計算速度的同時，GPU 的能耗也在不斷上升，給數據中心和伺服器帶來了巨大的能源壓力。荷蘭數據科學家 Alex de Vries 在專注能源研究的學術期刊《Joule》上發表的一項研究顯示，按照當前趨勢，到 2027 年，整個人工智能行業每年将消耗 85 至 134 太瓦時的電力（1 太瓦時 =10 億千瓦時）。

散熱 " 力不從心 "：高性能 AI 芯片的燙手難題

高性能的 AI 芯片在運行過程中會產生大量熱量，如果不能及時有效地散熱，不僅會影響設備的穩定運行，還可能縮短其使用壽命，制約 AI 算力的進一步增長。未來，單顆高性能 AI 芯片的熱設計功耗将突破 1000W，達到了傳統風冷散熱的極限。因此，各大公司紛紛投入研發，探索更有效的散熱解決方案，例如行業巨頭們正在推進的液冷技術等。

可靠性 " 搖擺不定 "：大模型訓練，AI 芯片一損俱損

AI 應用對芯片的性能與可靠性要求非常高。為了完成一個大模型的訓練任務，通常需要幾千張甚至幾萬張計算卡進行級聯，提供充足的算力。如果有一張卡出了問題，那麼整個大模型的訓練都會受到影響。如何定位到失效的板卡也是非常費時費力的工作，嚴重影響訓練的效率。

MPS AI 電源解決方案的四大突破，助力化解上述難題

MPS 深耕計算領網域多年，從筆記本、台式機到自動計算平台，再到數據中心伺服器，與各大平台都有緊密的合作。随着傳統數據中心通過集成 AI 技術來實現智能化更新，MPS 也在快速迭代電源方案，為行業和客户提供高品質、可靠的 AI 電源解決方案，适用于 AI 推理卡、訓練卡、邊緣計算設備、超算伺服器等各類應用場景。

△圖 1：MPS AI 硬體電源解決方案

△圖 2：MPS 典型 AI 電源應用

突破一：體量更緊湊、功率密度更高、配電損耗更低

MPS 的 AI 電源方案采用創新設計，體量更緊湊，配電損耗更低，使數據中心在給定機櫃範圍内的計算能力得以提升。

相比競争對手的方案，MPS 的功率轉換技術在主機板上占用的空間更小，這樣所有處理器能更緊密地結合為一體，在更小的空間内實現更強的計算能力。下圖是 MPS 新型開放式框架電源模塊 Intelli-Module ™的 3D 概念圖，展現了高度集成的數字多相電源模塊。

△圖 3：高度集成的 Intelli-Module ™

MPS 專注改善數據中心的功率密度，因為數據中心面臨着人工智能等新計算應用的更大功率需求。以創新手段提升功率密度意味着減小配電損耗，從而降低數據中心的總運營成本、單次計算輸出的總成本以及碳排放。而機櫃數量減少後，數據中心的物理占用空間也能最大限度地縮減。

130A、兩相、非隔離式降壓電源模塊 MPC22167-130 是 MPS Intelli-Module ™系列的最新產品，它将 DrMOS、電感和其他無源元件集成到單個封裝中，不僅占位面積小，功率密度還提高了 2.5 倍。而且，它允許将多相穩壓器（VR）放置在更靠近處理器的位置，從而減少了配電網絡 ( PDN ) 的損耗（見圖 4）。

△圖 4： Intelli-Module ™ 與 DrMOS 的占板面積比較

多個 MPC22167-130 器件可與第一級電源模塊配合使用，以支持端到端的電源解決方案，同時能夠滿足 AI 處理器的高功率要求。下圖展示了采用 MPC22167-130 實現的參考設計示例。

△圖 5：具有 48V 輸入和 0.8V 輸出的 2000A OAM 外形規格參考設計

該參考設計可應用于 OAM 形态的 AI 處理器，它采用 MPC22167-130 支持 2000A 的最大輸出電流 ( IOUT ) ，其中第二級方案的設計采用了 MPC22167-130 與數字 16 相控制器 MP2891 的組合方案。

突破二：電源轉換效率更高、頂部散熱設計兼容液冷

為了解決高功率密度電源模塊中的散熱問題，MPS 多管齊下：一方面優化内部結構和器件設計，提升電源轉換效率，降低功耗，同時減少熱量產生，确保設備穩定運行；另一方面，将模塊做成頂部散熱，方便散熱器的設計；不僅如此，器件還能兼容液冷的應用，借助液冷增強伺服器散熱效果，從而進一步發揮電源的極致性能，使單機櫃功率大幅提升。

△圖 6：MPS 磁芯設計對電源模塊效率的影響

突破三：嚴密的仿真計算、嚴格的出廠測試

AI 芯片批量的一致性和可靠性是非常重要的，沒有多年的經驗積累和嚴格的市場檢驗，是磨砺不出好的 AI 電源的。MPS 在設計階段，會通過仿真和理論計算，确定所有器件的工作條件，從而選取合适的電子器件。采用高電流等級、高耐壓的電子器件，内部電感為 MPS 專利設計，飽和電流高。而在研發階段，MPS 則采用不同批次的模塊產品進行可靠性實驗，出廠前會逐項測試模塊電氣性能及參數，最後還會進行老化測試及前後參數對比分析。

△圖 7： MP2891 和 MPC22167-130 的 SIMPLIS 模型

△圖 8：SIMPLIS 仿真與實驗室測量的比較，誤差僅為 5mV

突破四：實用的仿真工具、專業的技術支持、靈活的供應鏈管理

MPS 能夠提供很多好用的前期評估工具，如 PDN 仿真工具、仿真模型、靈活的 GUI 等，在前期和後期都能協助客户更方便地進行方案測試，确保精準落地。

△圖 9：由 MPS 支持的用户測試可視化界面（GUI）

同時，MPS 的工程師也将全程提供專業的技術支持，幫助客户及時解決實際應用中遇到的難題。另外，MPS 采用供應鏈 multi-source 管理，提高供應鏈的靈活性和自主性，優化生產工藝，以保證充足的產能，支撐 AI 對芯片大規模用量的需求。

MPS 電源方案，助力每一個人工智能（AI）硬體系統！

MPS 的 AI 電源解決方案提高了數據中心的計算能力，創新型電源架構方法增大了每個機櫃的功率密度，減小了伺服器的配電損耗，在提升 AI 算力的同時有效降低能耗，從而助力節省能源和降低運行成本。另外，兼容液冷應用的設計、芯片的一致性與可靠性保障、便捷好用的仿真工具、專業及時的技術支持、靈活自主的供應鏈等眾多優勢，也能夠讓客户在設計方案時更省時、更安心！

* 本文系量子位獲授權刊載，觀點僅為作者所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~