今天小編分享的科學經驗:AI算力提高,高能耗和難散熱問題如何突破?,歡迎閱讀。
随着 AI 技術的廣泛應用,從智能手機到自動駕駛汽車,從智能家居到工業自動化,AI 供電芯片的需求量正呈爆炸式增長。它不僅為 AI 系統提供穩定的電力供應,确保系統的正常運行,而且還肩負着節能減排、降低能耗的重任。
然而随着算力需求的提升,AI 設備的能耗、散熱等問題凸顯,這無疑給 AI 供電芯片帶來了新的挑戰,如何實現高效率、低功耗、持續穩定的供電成為了業界關注的焦點。
能耗 " 突飛猛進 ":算力比拼加速,能耗日益攀升
算力核心設備由傳統的 CPU 向 GPU 的轉移,不僅提升了計算效率,更使得復雜的數據處理和深度學習模型得以實現。然而,高性能往往伴随着高能耗。在追求更快計算速度的同時,GPU 的能耗也在不斷上升,給數據中心和伺服器帶來了巨大的能源壓力。荷蘭數據科學家 Alex de Vries 在專注能源研究的學術期刊《Joule》上發表的一項研究顯示,按照當前趨勢,到 2027 年,整個人工智能行業每年将消耗 85 至 134 太瓦時的電力(1 太瓦時 =10 億千瓦時)。
散熱 " 力不從心 ":高性能 AI 芯片的燙手難題
高性能的 AI 芯片在運行過程中會產生大量熱量,如果不能及時有效地散熱,不僅會影響設備的穩定運行,還可能縮短其使用壽命,制約 AI 算力的進一步增長。未來,單顆高性能 AI 芯片的熱設計功耗将突破 1000W,達到了傳統風冷散熱的極限。因此,各大公司紛紛投入研發,探索更有效的散熱解決方案,例如行業巨頭們正在推進的液冷技術等。
可靠性 " 搖擺不定 ":大模型訓練,AI 芯片一損俱損
AI 應用對芯片的性能與可靠性要求非常高。為了完成一個大模型的訓練任務,通常需要幾千張甚至幾萬張計算卡進行級聯,提供充足的算力。如果有一張卡出了問題,那麼整個大模型的訓練都會受到影響。如何定位到失效的板卡也是非常費時費力的工作,嚴重影響訓練的效率。
MPS AI 電源解決方案的四大突破,助力化解上述難題
MPS 深耕計算領網域多年,從筆記本、台式機到自動計算平台,再到數據中心伺服器,與各大平台都有緊密的合作。随着傳統數據中心通過集成 AI 技術來實現智能化更新,MPS 也在快速迭代電源方案,為行業和客戶提供高品質、可靠的 AI 電源解決方案,适用于 AI 推理卡、訓練卡、邊緣計算設備、超算伺服器等各類應用場景。
△圖 1:MPS AI 硬體電源解決方案
△圖 2:MPS 典型 AI 電源應用
突破一:體量更緊湊、功率密度更高、配電損耗更低
MPS 的 AI 電源方案采用創新設計,體量更緊湊,配電損耗更低,使數據中心在給定機櫃範圍内的計算能力得以提升。
相比競争對手的方案,MPS 的功率轉換技術在主機板上占用的空間更小,這樣所有處理器能更緊密地結合為一體,在更小的空間内實現更強的計算能力。下圖是 MPS 新型開放式框架電源模塊 Intelli-Module ™的 3D 概念圖,展現了高度集成的數字多相電源模塊。
△圖 3:高度集成的 Intelli-Module ™
MPS 專注改善數據中心的功率密度,因為數據中心面臨着人工智能等新計算應用的更大功率需求。以創新手段提升功率密度意味着減小配電損耗,從而降低數據中心的總運營成本、單次計算輸出的總成本以及碳排放。而機櫃數量減少後,數據中心的物理占用空間也能最大限度地縮減。
130A、兩相、非隔離式降壓電源模塊 MPC22167-130 是 MPS Intelli-Module ™系列的最新產品,它将 DrMOS、電感和其他無源元件集成到單個封裝中,不僅占位面積小,功率密度還提高了 2.5 倍。而且,它允許将多相穩壓器(VR)放置在更靠近處理器的位置,從而減少了配電網絡 ( PDN ) 的損耗(見圖 4)。
△圖 4: Intelli-Module ™ 與 DrMOS 的占板面積比較
多個 MPC22167-130 器件可與第一級電源模塊配合使用,以支持端到端的電源解決方案,同時能夠滿足 AI 處理器的高功率要求。下圖展示了采用 MPC22167-130 實現的參考設計示例。
△圖 5:具有 48V 輸入和 0.8V 輸出的 2000A OAM 外形規格參考設計
該參考設計可應用于 OAM 形态的 AI 處理器,它采用 MPC22167-130 支持 2000A 的最大輸出電流 ( IOUT ) ,其中第二級方案的設計采用了 MPC22167-130 與 數字 16 相控制器 MP2891 的組合方案。
突破二:電源轉換效率更高、頂部散熱設計兼容液冷
為了解決高功率密度電源模塊中的散熱問題,MPS 多管齊下:一方面優化内部結構和器件設計,提升電源轉換效率,降低功耗,同時減少熱量產生,确保設備穩定運行;另一方面,将模塊做成頂部散熱,方便散熱器的設計;不僅如此,器件還能兼容液冷的應用,借助液冷增強伺服器散熱效果,從而進一步發揮電源的極致性能,使單機櫃功率大幅提升。
△圖 6:MPS 磁芯設計對電源模塊效率的影響
突破三:嚴密的仿真計算、嚴格的出廠測試
AI 芯片批量的一致性和可靠性是非常重要的,沒有多年的經驗積累和嚴格的市場檢驗,是磨砺不出好的 AI 電源的。MPS 在設計階段,會通過仿真和理論計算,确定所有器件的工作條件,從而選取合适的電子器件。采用高電流等級、高耐壓的電子器件,内部電感為 MPS 專利設計,飽和電流高。而在研發階段,MPS 則采用不同批次的模塊產品進行可靠性實驗,出廠前會逐項測試模塊電氣性能及參數,最後還會進行老化測試及前後參數對比分析。
△圖 7: MP2891 和 MPC22167-130 的 SIMPLIS 模型
△圖 8:SIMPLIS 仿真與實驗室測量的比較,誤差僅為 5mV
突破四:實用的仿真工具、專業的技術支持、靈活的供應鏈管理
MPS 能夠提供很多好用的前期評估工具,如 PDN 仿真工具、仿真模型、靈活的 GUI 等,在前期和後期都能協助客戶更方便地進行方案測試,确保精準落地。
△圖 9:由 MPS 支持的用戶測試可視化界面(GUI)
同時,MPS 的工程師也将全程提供專業的技術支持,幫助客戶及時解決實際應用中遇到的難題。另外,MPS 采用供應鏈 multi-source 管理,提高供應鏈的靈活性和自主性,優化生產工藝,以保證充足的產能,支撐 AI 對芯片大規模用量的需求。
MPS 電源方案,助力每一個人工智能(AI)硬體系統!
MPS 的 AI 電源解決方案提高了數據中心的計算能力,創新型電源架構方法增大了每個機櫃的功率密度,減小了伺服器的配電損耗,在提升 AI 算力的同時有效降低能耗,從而助力節省能源和降低運行成本。另外,兼容液冷應用的設計、芯片的一致性與可靠性保障、便捷好用的仿真工具、專業及時的技術支持、靈活自主的供應鏈等眾多優勢,也能夠讓客戶在設計方案時更省時、更安心!
* 本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>