AI算力提高，高能耗和难散热问题如何突破？

今天小编分享的科学经验：AI算力提高，高能耗和难散热问题如何突破？，欢迎阅读。

随着 AI 技术的广泛应用，从智能手机到自动驾驶汽车，从智能家居到工业自动化，AI 供电芯片的需求量正呈爆炸式增长。它不仅为 AI 系统提供稳定的电力供应，确保系统的正常运行，而且还肩负着节能减排、降低能耗的重任。

然而随着算力需求的提升，AI 设备的能耗、散热等问题凸显，这无疑给 AI 供电芯片带来了新的挑战，如何实现高效率、低功耗、持续稳定的供电成为了业界关注的焦点。

能耗 " 突飞猛进 "：算力比拼加速，能耗日益攀升

算力核心设备由传统的 CPU 向 GPU 的转移，不仅提升了计算效率，更使得复杂的数据处理和深度学习模型得以实现。然而，高性能往往伴随着高能耗。在追求更快计算速度的同时，GPU 的能耗也在不断上升，给数据中心和伺服器带来了巨大的能源压力。荷兰数据科学家 Alex de Vries 在专注能源研究的学术期刊《Joule》上发表的一项研究显示，按照当前趋势，到 2027 年，整个人工智能行业每年将消耗 85 至 134 太瓦时的电力（1 太瓦时 =10 亿千瓦时）。

散热 " 力不从心 "：高性能 AI 芯片的烫手难题

高性能的 AI 芯片在运行过程中会产生大量热量，如果不能及时有效地散热，不仅会影响设备的稳定运行，还可能缩短其使用寿命，制约 AI 算力的进一步增长。未来，单颗高性能 AI 芯片的热设计功耗将突破 1000W，达到了传统风冷散热的极限。因此，各大公司纷纷投入研发，探索更有效的散热解决方案，例如行业巨头们正在推进的液冷技术等。

可靠性 " 摇摆不定 "：大模型训练，AI 芯片一损俱损

AI 应用对芯片的性能与可靠性要求非常高。为了完成一个大模型的训练任务，通常需要几千张甚至几万张计算卡进行级联，提供充足的算力。如果有一张卡出了问题，那么整个大模型的训练都会受到影响。如何定位到失效的板卡也是非常费时费力的工作，严重影响训练的效率。

MPS AI 电源解决方案的四大突破，助力化解上述难题

MPS 深耕计算领網域多年，从笔记本、台式机到自动计算平台，再到数据中心伺服器，与各大平台都有紧密的合作。随着传统数据中心通过集成 AI 技术来实现智能化更新，MPS 也在快速迭代电源方案，为行业和客户提供高品质、可靠的 AI 电源解决方案，适用于 AI 推理卡、训练卡、边缘计算设备、超算伺服器等各类应用场景。

△图 1：MPS AI 硬體电源解决方案

△图 2：MPS 典型 AI 电源应用

突破一：体量更紧凑、功率密度更高、配电损耗更低

MPS 的 AI 电源方案采用创新设计，体量更紧凑，配电损耗更低，使数据中心在给定机柜范围内的计算能力得以提升。

相比竞争对手的方案，MPS 的功率转换技术在主機板上占用的空间更小，这样所有处理器能更紧密地结合为一体，在更小的空间内实现更强的计算能力。下图是 MPS 新型开放式框架电源模块 Intelli-Module ™的 3D 概念图，展现了高度集成的数字多相电源模块。

△图 3：高度集成的 Intelli-Module ™

MPS 专注改善数据中心的功率密度，因为数据中心面临着人工智能等新计算应用的更大功率需求。以创新手段提升功率密度意味着减小配电损耗，从而降低数据中心的总运营成本、单次计算输出的总成本以及碳排放。而机柜数量减少后，数据中心的物理占用空间也能最大限度地缩减。

130A、两相、非隔离式降压电源模块 MPC22167-130 是 MPS Intelli-Module ™系列的最新产品，它将 DrMOS、电感和其他无源元件集成到单个封装中，不仅占位面积小，功率密度还提高了 2.5 倍。而且，它允许将多相稳压器（VR）放置在更靠近处理器的位置，从而减少了配电网络 ( PDN ) 的损耗（见图 4）。

△图 4： Intelli-Module ™ 与 DrMOS 的占板面积比较

多个 MPC22167-130 器件可与第一级电源模块配合使用，以支持端到端的电源解决方案，同时能够满足 AI 处理器的高功率要求。下图展示了采用 MPC22167-130 实现的参考设计示例。

△图 5：具有 48V 输入和 0.8V 输出的 2000A OAM 外形规格参考设计

该参考设计可应用于 OAM 形态的 AI 处理器，它采用 MPC22167-130 支持 2000A 的最大输出电流 ( IOUT ) ，其中第二级方案的设计采用了 MPC22167-130 与数字 16 相控制器 MP2891 的组合方案。

突破二：电源转换效率更高、顶部散热设计兼容液冷

为了解决高功率密度电源模块中的散热问题，MPS 多管齐下：一方面优化内部结构和器件设计，提升电源转换效率，降低功耗，同时减少热量产生，确保设备稳定运行；另一方面，将模块做成顶部散热，方便散热器的设计；不仅如此，器件还能兼容液冷的应用，借助液冷增强伺服器散热效果，从而进一步发挥电源的极致性能，使单机柜功率大幅提升。

△图 6：MPS 磁芯设计对电源模块效率的影响

突破三：严密的仿真计算、严格的出厂测试

AI 芯片批量的一致性和可靠性是非常重要的，没有多年的经验积累和严格的市场检验，是磨砺不出好的 AI 电源的。MPS 在设计阶段，会通过仿真和理论计算，确定所有器件的工作条件，从而选取合适的电子器件。采用高电流等级、高耐压的电子器件，内部电感为 MPS 专利设计，饱和电流高。而在研发阶段，MPS 则采用不同批次的模块产品进行可靠性实验，出厂前会逐项测试模块电气性能及参数，最后还会进行老化测试及前后参数对比分析。

△图 7： MP2891 和 MPC22167-130 的 SIMPLIS 模型

△图 8：SIMPLIS 仿真与实验室测量的比较，误差仅为 5mV

突破四：实用的仿真工具、专业的技术支持、灵活的供应链管理

MPS 能够提供很多好用的前期评估工具，如 PDN 仿真工具、仿真模型、灵活的 GUI 等，在前期和后期都能协助客户更方便地进行方案测试，确保精准落地。

△图 9：由 MPS 支持的用户测试可视化界面（GUI）

同时，MPS 的工程师也将全程提供专业的技术支持，帮助客户及时解决实际应用中遇到的难题。另外，MPS 采用供应链 multi-source 管理，提高供应链的灵活性和自主性，优化生产工艺，以保证充足的产能，支撑 AI 对芯片大规模用量的需求。

MPS 电源方案，助力每一个人工智能（AI）硬體系统！

MPS 的 AI 电源解决方案提高了数据中心的计算能力，创新型电源架构方法增大了每个机柜的功率密度，减小了伺服器的配电损耗，在提升 AI 算力的同时有效降低能耗，从而助力节省能源和降低运行成本。另外，兼容液冷应用的设计、芯片的一致性与可靠性保障、便捷好用的仿真工具、专业及时的技术支持、灵活自主的供应链等众多优势，也能够让客户在设计方案时更省时、更安心！

* 本文系量子位获授权刊载，观点仅为作者所有。

— 完 —

量子位 QbitAI

վ ' ᴗ ' ի 追踪 AI 技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~