AI服务器电源作为高性能计算和数据中心的基础设备,担负着为服务器集群提供稳定、高效电能供应的任务。
数据中心电源架构
国际能源署(IEA)的数据指出,2023年NVIDIA芯片的电力消耗已达7.3TWh,预估至2026年,这一数字将飙升至2023年的十倍。相较于传统服务器电源96%的转换效率,AI服务器电源需达到97.5%-98%的高标准,以降低能量损耗并支撑更高功率密度的GPU。
AI模型与GPU技术的迭代促使AI服务器电源的功率密度不断提升。以H100服务器机架为例,10.2kW的功率需要配备19.8kW的电源。NVL72机架的120kW功率则要求198kW的电源模块。AI服务器电源的功率密度可达100W/in³,远超普通服务器电源的50W/in³。
GB200 NVL72AI服务器机架
图源:Nvidia
随着AI服务器功耗的快速提升,在OCP ORV3标准限制下服务器电源必须在保持效率不变的情况下通过提 升功率密度以满足服务器的电源需求。在这个前提下,使用更好的材料、优化电源拓扑结构、提升功率器件的集成密度是主要优化途径。
AI服务器电源电源架构分为UPS、AC/DC、DC/DC三层。高压电从电网进入数据中心后,服务器电源供应器会先将交流电转为直流电,并降压到48V;接着主板上的DC/DC转换器,再将电压转换成12V、5V、3V3和0.8V等。
数据中心三级电源转换
图源:MPEL
UPS
即不间断电源(Uninterruptible Power Supply)是一种含有储能装置的不间断电源。当市电输入正常时,UPS将市电稳压后供应给负载使用,此时的UPS就是一台电稳压器,同时它还向机内电池充电。当市电意外中断时,UPS立即将电池的直流电能,通过逆变器切换转换的方法向负载继续供应电能,使负载维持正常工作并保护负载软、硬件不受电网波动而造成损坏。
AC/DC(powershelf)转换器
将电网的交流电转换为适合服务器使用的50V直流电。AC/DC电源模块包含电源模块(PSU)和电源管理控制器(PMC)。
PSU(电源供应单元):PSU负责将来自电网的交流电(AC)转换為伺服器电子组件所需的直流电(DC)。PSU的效率很关键,它会直接影响整体的能源消耗和散热需求,高效的PSU可以延长DC电源的寿命,并降低因为电源问题导致的服务器停机时间。
PMC(电源管理控制器):用于管理和优化服务器电源的控制器。PMC通过监控和调整服务器电源的供应和消耗来实现最佳的电源管理,以提高服务器的能效和性能。
DC/DC转换器
进一步将50V直流电降至芯片可接受的12V、5V、3V3和0.8V等,DC/DC电源的难点在于如何尽可能降低板路损耗。因为采用7nm甚至更先进的制程的CPU或者GPU,核电压通常采用1V或0.8V的额定电压供电,供电电流往往超过1000A,高电流使主板损耗大量热量。因此DC/DC转换器最近的技术趋势是供电模式会从原本水平供电,走向“背后供电”。即原本的电源模组围绕在GPU晶片的周围,为了缩短距离,电源模组改放到芯片正下方来供电,距离缩短成仅是PCB板的厚度,从数十mm缩短至1、2mm。
电源行业报告:量价齐升周期,市场空间快速扩容-中信建投
AI技术高速发展带来高性能服务器电源增长机遇-天风证券