AI服務器電源作為高性能計算和數(shù)據中心的基礎設備,擔負著為服務器集群提供穩(wěn)定、高效電能供應的任務。
數(shù)據中心電源架構
國際能源署(IEA)的數(shù)據指出,2023年NVIDIA芯片的電力消耗已達7.3TWh,預估至2026年,這一數(shù)字將飆升至2023年的十倍。相較于傳統(tǒng)服務器電源96%的轉換效率,AI服務器電源需達到97.5%-98%的高標準,以降低能量損耗并支撐更高功率密度的GPU。
AI模型與GPU技術的迭代促使AI服務器電源的功率密度不斷提升。以H100服務器機架為例,10.2kW的功率需要配備19.8kW的電源。NVL72機架的120kW功率則要求198kW的電源模塊。AI服務器電源的功率密度可達100W/in3,遠超普通服務器電源的50W/in3。
GB200 NVL72AI服務器機架
圖源:Nvidia
隨著AI服務器功耗的快速提升,在OCP ORV3標準限制下服務器電源必須在保持效率不變的情況下通過提 升功率密度以滿足服務器的電源需求。在這個前提下,使用更好的材料、優(yōu)化電源拓撲結構、提升功率器件的集成密度是主要優(yōu)化途徑。
AI服務器電源電源架構分為UPS、AC/DC、DC/DC三層。高壓電從電網進入數(shù)據中心后,服務器電源供應器會先將交流電轉為直流電,并降壓到48V;接著主板上的DC/DC轉換器,再將電壓轉換成12V、5V、3V3和0.8V等。
數(shù)據中心三級電源轉換
圖源:MPEL
UPS
即不間斷電源(Uninterruptible Power Supply)是一種含有儲能裝置的不間斷電源。當市電輸入正常時,UPS將市電穩(wěn)壓后供應給負載使用,此時的UPS就是一臺電穩(wěn)壓器,同時它還向機內電池充電。當市電意外中斷時,UPS立即將電池的直流電能,通過逆變器切換轉換的方法向負載繼續(xù)供應電能,使負載維持正常工作并保護負載軟、硬件不受電網波動而造成損壞。
AC/DC(powershelf)轉換器
將電網的交流電轉換為適合服務器使用的50V直流電。AC/DC電源模塊包含電源模塊(PSU)和電源管理控制器(PMC)。
PSU(電源供應單元):PSU負責將來自電網的交流電(AC)轉換為伺服器電子組件所需的直流電(DC)。PSU的效率很關鍵,它會直接影響整體的能源消耗和散熱需求,高效的PSU可以延長DC電源的壽命,并降低因為電源問題導致的服務器停機時間。
PMC(電源管理控制器):用于管理和優(yōu)化服務器電源的控制器。PMC通過監(jiān)控和調整服務器電源的供應和消耗來實現(xiàn)最佳的電源管理,以提高服務器的能效和性能。
DC/DC轉換器
進一步將50V直流電降至芯片可接受的12V、5V、3V3和0.8V等,DC/DC電源的難點在于如何盡可能降低板路損耗。因為采用7nm甚至更先進的制程的CPU或者GPU,核電壓通常采用1V或0.8V的額定電壓供電,供電電流往往超過1000A,高電流使主板損耗大量熱量。因此DC/DC轉換器最近的技術趨勢是供電模式會從原本水平供電,走向“背后供電”。即原本的電源模組圍繞在GPU晶片的周圍,為了縮短距離,電源模組改放到芯片正下方來供電,距離縮短成僅是PCB板的厚度,從數(shù)十mm縮短至1、2mm。
電源行業(yè)報告:量價齊升周期,市場空間快速擴容-中信建投
AI技術高速發(fā)展帶來高性能服務器電源增長機遇-天風證券