AI数据中心的负载特性
作者:微信文章随着AI驱动型计算基础设施的快速扩展,围绕数据中心设计的讨论通常强调能源消耗、水和电使用、工作负载调度和热管理。然而,这些观点往往忽视了AI特定的负载瞬变与电力电子之间的关键相互作用。本文介绍了大规模AI工作负载如何对电源转换链提出独特要求和电力电子设备本身如何塑造基于AI的基础设施的动态行为,说明了多级电源转换架构施加的基本约束,并强调了最终阶段模块在定义GPU集群的实际功率转换速率方面的关键作用。分析表明,针对变化较慢或以CPU为中心的工作负载进行优化的传统设计可能无法充分适应AI加速器的快速负载上升和下降特征。人工智能(AI)工作负载的快速发展从根本上改变了数据中心电力基础设施的格局。当代AI训练集群(针对来自OpenAI、Google、Meta等的大型语言模型(LLM))现在通常以兆瓦级(甚至更高)消耗电力,同时在运行过程中表现出前所未有的功率动态。这种范式转变需要对供电架构进行全面的重新审视,特别强调级联电源转换链施加的基本限制。了解这些限制因素不仅对当前部署至关重要,而且对于下一代AI基础设施的战略发展也至关重要。
AI工作负载的规模和复杂性持续加速,给电力供应和设施设计带来了压力。预测表明,人工智能可能会在未来十年推动美国数据中心电力需求的急剧激增。 事实上,EPRI的综合分析表明,以AI为中心的基础设施可以显著提高整体功耗。训练集群已经从每个机架消耗10-20kW的传统配置发展到超过100kW的先进设计,甚至达到每个机柜350kW。这一进步反映了现代AI算法不断增长的计算需求和对提高训练效率的不懈追求。其经济影响是巨大的,电力基础设施占数据中心总资本支出的很大一部分。此外,AI工作负载的动态特性(以计算阶段之间的快速转换为特征)对供电系统提出了前所未有的要求。如图1 所示。与传统的中央处理器(CPU)相比,GPU具有不同的功耗配置,进一步强调了AI加速器引入的独特功耗动态。实证测量还证实,异构AI工作负载可以轻松导致动态功率波动。
图1:对于相同的AI计算任务,GPU与CPU工作的功耗特性不同。
当前的行业实践揭示了几个关键挑战。首先,多个功率转换级之间的复杂交互,从设施级AC-DC转换到负载点调节,会产生级联动态限制,从而限制系统响应能力。其次,对复杂的储能分配和保护协调方案的需求带来了额外的复杂性和潜在的瓶颈。第三,集成先进的冷却解决方案需要仔细考虑供电系统的动态。
AI硬件的快速发展加剧了这些挑战。从传统CPU或CPU/GPU架构过渡到专用AI加速器,推动了功率密度和动态范围的大幅提高。例如,现代AI加速器可以在几毫秒内表现出超过其热设计功耗(TDP)50%的功率变化,而下一代设备有望进一步突破这些界限。这种趋势需要能够处理稳态电源要求和快速瞬态响应的复杂供电架构。理解和优化这些电源动态需要仔细考虑多个相互作用的约束。电源转换链和工作负载模式对系统响应能力有重大影响。这种多重约束的相互作用对AI基础设施的设计和运营具有深远的影响,尤其是在该行业朝着越来越大的训练集群和更动态的工作负载模式发展时。
GPU机架/集群硬件
GPU集群配置的演变表明,它朝着提高功率密度能力的方向发展,这给数据中心的设计和运营带来了重大挑战。现代部署涵盖广泛的范围,从传统的几千瓦计算机架到每个机架功耗超过100kW的高级AI就绪解决方案。工业参考指南进一步详细介绍了先进的冷却解决方案和经过验证的配电拓扑。本文对这些配置进行了系统分析,研究了它们在三个主要实施规模上的架构特征和作约束。
单机架架构
表1:GPU群集电源配置
NVL系列配置
NVL36配置,为完整的Grace Blackwell 超级芯片(GB200)提供高达 2700W的功率,实现了一个全面的设计,支持9台服务器,每台服务器有4 个GPU。这种架构结合了与冷却分配单元(CDU)集成的增强型供电系统,实现了73kW的总机架功率容量。在此基础上,NVL72配置将计算密度提高了一倍,可容纳18台服务器,每台服务器配备4个GPU。这种先进的设计实现了双供电路径,通过能够处理每个机架132kW的复杂电源管理系统增强系统可靠性。
超高密度
以HPE Cray EX平台为代表的超高密度配置代表了GPU计算基础设施中另一个当前最先进的技术。此实施支持前所未有的密度,每个机柜224个GPU,总功率容量为350kW。系统架构包括每个机柜8个计算机箱,每个机箱支持8个计算刀片插槽,并辅以4个冗余电源架,这些机架具有四电源输入配置的专用PDU。
这些系统中的节点实施采用EX254n刀片架构,采用双节点设计,每个节点集成四个GH200超级芯片。每个节点都包含一个72核Arm Neoverse V2 Grace CPU,使用128GB LPDDR5X DRAM和四通道Slingshot-11网络接口卡(NIC)实现进行了优化。这种配置通过先进的管理系统实现了最大密度,同时保持了热稳定性。
多机架工业参考设计
参考架构
工业规模的GPU机架参考设计,例如:Schneider的EcoStruxure RD109(7.392MW用于IT负载),演示如何集成分层配电和高级冷却。同样,维谛技术(Vertiv)的360AI概念概述了AI基础设施的多机架扩展。这些参考设计为可扩展的AI基础设施部署提供了经过验证的架构,并结合了用于供电和系统管理的全面解决方案。
图2:GPU集群机架参考设计,展示了全面的配电架构(来自Schneider RD109,用于IT机架的功率7392kW,包括冷却基础设施在内的总功耗约为10.5MW)
配电架构
图2显示了具有分层配电和冷却策略的代表性工业参考设计。多机架实施中的Power Architecture展示了复杂的分层组织。主要配电基础设施采用中压交流(MVAC)公用事业馈电,并辅以并联3MVA变压器和每个动力总成的3MW发电机系统。该系统包括N+1冗余中压开关设备和480V低压交流(LVAC)配电主干网,由四个并行的3MW电源组组成,以3+1分布式冗余布置配置。主要的计算机架采用NVL72架构,如图3所示。
图3: NVL72机架架构展示了集成的计算和配电系统
实施规模
904kW配置是复杂系统集成方法的典范,将8个73kW的计算机架与8个40kW的网络基础设施机架相结合。通过扩展此架构,1808kW配置展示了全面的多机架实施策略,包括16个每个73kW的计算机架以及16个网络基础设施机架。7392kW的实施代表了最先进的高密度GPU集群架构,利用了复杂的多层配电拓扑。
大规模部署
特定工作负载的架构
从10,000到1,000,000个GPU的部署需要重新考虑设施电源和数据管道。此外,一些工作负载正在转移到较小的边缘站点,而企业高性能计算(HPC)必须统一大型AI工作流。 培训密集型部署在电力基础设施设计中表现出独特的要求,通过直接液体冷却解决方案实施持续的高功率运行优化,这是热管理策略的主要内容。这些系统通常采用3+1或4对3冗余架构,并辅以复杂的管理系统。
以推理为中心的部署提出了截然不同的架构要求,强调通过混合冷却实施实现动态负载配置文件管理功能。这些系统通常采用具有快速故障转移机制的N+1冗余架构,由高级负载平衡系统提供支持。系统特征反映了可变的工作负载模式,需要复杂的可变热负载管理系统和针对低延迟响应优化的网络架构。存储子系统专为实现每秒高输入/输出作性能而设计,以支持推理工作的快速数据访问模式。
混合架构必须适应训练密集型机架,其中持续的高功率运行占主导地位,以及容易频繁增加的动态推理负载。它需要复杂的电源和冷却基础设施,能够适应不同的工作负载特征。这些系统实现了多层配电拓扑,具有模块化电源子系统和动态功率分配机制。热管理集成结合了多种冷却方法,将可变热负载处理功能与冷却分配单元容量优化算法相结合。温度梯度管理系统可确保整个部署过程中的热条件一致,这对于在不同的工作负载条件下保持一致的性能特征至关重要。
工作负载模式特征
现代AI工作负载为数据中心电源基础设施带来了独特的挑战,这些挑战与传统计算负载有着根本的不同。要了解这些挑战,必须首先研究GPU等AI加速器的运行方式以及为什么它们的功耗模式与众不同,本文中介绍的所有实验波形均在运行带有CUDA 12.x 的Ubuntu 20.04 LTS的单个实验室工作站上捕获,该工作站配备AMD Ryzen 5 5500(3.6GHz)处理器、32 GB DDR4(2×16 GB G.Skill RipjawsV,速度为3200MT/s)、NVIDIA RTX 4090 GPU(带有16针PCIe 5.0连接器的标准参考设计), 和一个1000W MPG PCIe 5.0金牌(80+ 金牌)电源单元。工作负载软件包括两个主要的AI模型——PyTorch 下的GPT-2(124M 参数,来自 OpenAI的生成式预训练转换器模型)用于训练实验,以及LLaMA-3.1(8 B参数,来自Meta的LLM模型),用于通过自定义脚本进行推理测试。泰克DPO系列示波器在GPU主板(Ch1)和电源单元(PSU)输入(Ch2)上配置了霍尔效应电流探头,同时具有单相交流电压监视(Ch3),记录了所有波形。本文中的每个图都提供了各种缩放级别的时间同步捕获,从而可以详细观察 GPU 的快速加载转换。
III-A 系列瞬态测量
在GPT-2训练期间检查
如图4所示,GPU主板电流会经历与模型检查点事件相关的突然的数安培浪涌。图4(a)捕获了14.5s左右的早期负载下降,可以观察到电流在几毫秒内从接近峰值骤降到几乎空闲的状态。这种突然的负瞬态凸显了快速PSU控制以避免内部DC母线过压的必要性。同时,图4(b)在10秒的时间尺度上缩放到最终检查点事件,显示当训练过程被故意停止时,电流的快速摆动。通过在子图4(c)中将视图进一步缩小到500毫秒,并最终在图4(d)中缩小到毫秒级捕获,我们看到GPU在短短几个AC周期内从满计算负载过渡到近乎空闲的速度有多快。
尽管本地能量缓冲在一定程度上缓解了这些峰值,但当前这些变化的幅度和速度远远超出了传统的以CPU为中心或基于事务的工作负载。当外推到多机架或多兆瓦HPC集群时,如此快速的负载波动可能会给上游配电、控制回路和保护设备带来压力。因此,以GPU为中心的系统不仅需要更高的平均功率,还需要在毫秒时间尺度上处理大型di/dt事件的能力。
在图4(c)中,我们观察到GPU电流在接近0A和大约25-30A之间快速连续变化。在几分之一秒内出现如此宽的摆幅,凸显了小信号控制假设的局限性,并强调了对稳健的大信号设计方法的需求。
(a)初始捕获显示第一次负载下降约为14.5s。 调变点导致从峰值电流突然下降到接近空闲状态, 强调了AI训练工作负载转移的突然性。
(b)跳变事件的近视图(10s尺度),训练被故意中断,导致快速的上/下电流浪涌。
(c)详细捕获(500 毫秒比例),专注于陡峭的过渡。当GPU从满计算负载变为接近空闲时。几个基波交流循环在PSU电流波形中可见。
(d)最终中断事件的毫秒级缩放,精确定位GPU主板电流的瞬时波动 仅几个 AC 循环。
图4:GPT-2(124M)训练跳变期间GPU电流瞬变的渐进放大。(a)说明了第一个载荷下降,而(b)–(d)逐渐放大到最后一个载荷下降的训练阶段,此时在几个AC循环的范围内会出现快速的上/下波动 。从上到下的波形:GPU 主板电流、PSU电流、PSU电压。
在LLaMA-3.1 8B推理期间
图5显示了推理驱动的负载转换与训练的不同之处,但仍在同一RTX-4090 GPU上产生快速电流瞬变。图5(a)捕获了模型开始处理新推理请求的时刻,在200毫秒内将电流从基线水平上升到大约20-25A。这种负载峰值表示从空闲/备用作转变为活动计算。
图5(b)–5(c)说明了负载下降顺序,GPU电流尖峰反复向下导致近乎空闲运行。同时,PSU输入电压(Ch3,红色迹线)保持相对稳定,证实了本地电容器和PSU控制回路有效地平滑了一些最快的边沿。然而,如果管理不当,突然的负瞬变仍然会带来过压风险,这反映了对训练检查点的担忧。处理这些快速负载下降需要储能解决方案或双向转换器拓扑,这些解决方案可以吸收或快速减少输入功率。图5(d)中的毫秒级放大突出显示了在GPU负载下降后稳定电流至少涉及几个交流周期,这表明需要仔细调整控制回路。
(a)显示RTX-4090的运行LLaMA-3.1 8B模型推理加载过渡的初始捕获。GPU电流(黑色迹线)迅速增加, 指示推理工作的开始。
(b)随后的捕获说明了初始部分加载事件(GPU返回到低功耗状态)。 请注意GPU电流的突然下降和近正弦的 PSU 输入电流。
(c)负瞬态的更详细缩放,显示随着推理请求负载的减少,GPU电流的峰值向下。
(d)毫秒级视图捕获最终斜坡到空闲功率。 GPU电流迹线上的高频纹波表示快速seting之前的控制环路调整。
图5:在RTX-4090上执行LLaMA-3.1 8B模型推理工作期间记录的波形。(a)当推理请求开始时GPU加载事件消耗大量电流 ,而(b)–(d)记录加载阶段随着波形放大,突出显示突然的负瞬变以及PSU在稳定电源电压和电流方面的响应。从上到下的波形:GPU 主板电流、PSU 电流、PSU 电压。
了解AI工作负载功耗
现代AI工作负载(尤其是LLM)的核心是建立在矩阵乘法、注意力机制和数据移动作等基本作之上的。当LLM处理信息时,它会跨多个层执行连续的矩阵转换和自我注意计算,每个层都会增加整体功耗需求。这些会创建一个特征性的功耗模式。这在图4和5中经常表现为快速负载瞬变。在注意步骤或推理请求期间读取/写入大型参数块时,内存能力激增与密集的计算内核同时发生,从而进一步放大峰值需求。
训练工作负载动态
训练作是供电系统最苛刻的场景之一。典型的训练会经历几个不同的阶段,每个阶段都有独特的功率特性。在前向传播期间,加速器在通过神经网络层处理数据时保持较高但相对稳定的功耗。向后传播阶段引入了更多的可变性,因为计算了误差梯度并且内存读/写加剧了。这可能导致短时间的满载运行和随后的优化步骤之间的部分空闲。 这些行为模式共同可以诱发图4中明显的“锯齿状”或“尖峰”载荷曲线。
在训练循环期间(GPU 保持在更高的时钟以快速处理下一批)和没有训练运行时的真正空闲状态之间,区分这个 “基线” 非常重要。在许多 HPC 环境中,训练周期的“空闲”部分仍然消耗很大一部分峰值功率(通常为60-70%),正是因为硬件在小批量之间没有完全降频。相比之下,真正空闲的GPU(没有主动训练或推理任务)可能会消耗更少的功率,可能更接近主板母线上的5-10A,具体取决于GPU的内部电源管理。推理工作负载特征推理工作负载带来了一系列不同的挑战,尤其是在处理多个同时请求的生产环境中。在许多推理场景中,请求以快速突增的方式到达,导致GPU负载在空闲(或低功耗)和接近峰值消耗之间摇摆不定。图5(c)–5(d) 显示了请求完成后系统返回空闲状态的速度,负瞬变可能在一秒内达到峰值电流的80–90%。
仔细检查推理波形后发现,基线电流可能徘徊在5A左右,并可能短暂接近10A。此基线可能源于GPU保持较高的时钟状态或内存就绪性,即使在名义上 “空闲” 时也是如此。在实践中,会看到从5-10A 到25-30A的重复短脉冲,然后在几十毫秒内突然下降。电源的内部缓冲确保输入电流 (Ch2)和交流电压(Ch3)保持相对稳定,但在主板电源轨(Ch1) 上,这些转换可能表现为快速的尖峰和低谷,挑战了传统的控制假设。
虽然单个推理作可能比训练步骤消耗更少的功率,但延迟需求可能会触发频繁的转换。批处理可以通过同时处理多个请求来提高效率,但它也可以通过集中短时间、高功率的突发来改变负载曲线。能效和响应时间之间的这种权衡是实际推理部署的核心。
系统级影响
这些工作负载特征给供电系统设计带来了几个基本挑战。首先,需要能够在多个时间尺度上运行的储能系统。本地电容器必须处理微秒级转换,而较大的储能元件管理长期变化。这种储能在系统中的分配成为一个关键的设计考虑因素。
其次,控制系统必须在保持稳定性的同时管理多个时间尺度的电力输送。专为变化较慢的负载设计的传统控制方法可能无法充分处理AI工作负载的快速转换特征。这推动了更复杂的控制策略的发展,这些策略可以预测和响应快速的电力需求变化。
第三,保护系统必须在对潜在故障的快速响应与对正常运行瞬变的抗扰度之间取得平衡。AI 工作负载中的快速电源转换看起来类似于传统保护系统的故障情况,需要更复杂的检测和协调方法。
在数兆瓦级HPC或AI集群中,当数十或数百个GPU几乎同时加载/卸载任务时,聚合器效应会放大瞬态峰值。系统级设计必须考虑相移或交错调度方法,尤其是在同步梯度更新时,以避免超出上游电源能力的大规模电涌。这些特性从根本上影响供电系统的设计决策,从电源转换器拓扑的选择到控制和保护策略的实施。成功支持AI工作负载需要仔细考虑这些模式及其在所有作模式下的影响。
1. U.S. Department of Energy, “Recommendations on Powering Artificial Intelligence and Data Center Infrastructure,” U.S. Department of Energy, Technical Report, July 2024, presented to the Secretary of Energy on July 30, 2024.
Available: https://www.energy.gov/sites/default/files/2024-08/Powering%20AI%20and%20Data%20Center%20Infrastructure%20Recommendations%20July%202024.pdf
2. ABB. (2024, May) AI-Driven Data Center Boom Triggers Unprecedented Demand for Power.
Available: https://new.abb.com/news/detail/115913/ai-driven-data-center-boom-triggers-unprecedented-demand-for-power
3. Y. Li, M. Mughees, Y. Chen, and Y. R. Li, “The Unseen AI Disruptions for Power Grids: LLM-Induced Transients,” 2024.
Available: https://arxiv.org/abs/2409.11416
4. Goldman Sachs & Co. LLC, “AI, Data Centers and the Coming US Power Demand Surge,” Goldman Sachs & Co. LLC, Research Report, April 2024.
Available: https://www.goldmansachs.com/insights/goldman-sachs-research/generational-growth-ai-data-centers-and-the-coming-us-power-demand-surge
5. Electric Power Research Institute, “Powering Intelligence: Analyzing Artificial Intelligence and Data Center Energy Consumption,” Electric Power Research Institute, Technical Report, May 2024. .
Available: https://restservice.epri.com/publicdownload/000000003002028905/0/Product
6. R. Caspart, S. Ziegler, A. Weyrauch, H. Obermaier, S. Raffeiner, L. P. Schuhmacher, J. Scholtyssek, D. Trofimova, M. Nolden, I. Reinartz, F. Isensee, M. Götz, and C. Debus, “Precise Energy Consumption Measurements of Heterogeneous Artificial Intelligence Workloads,” 2022.
Available: https://arxiv.org/abs/2212.01698
7. S. Balaban, “How to Build a GPU Cluster from Scratch for Your ML Team,” Lambda, Technical Guide, June 2020.
Available: https://files.lambdalabs.com/How%20to%20build%20a%20GPU%20cluster%20from%20scratch%20for%20your%20ML%20team.pdf
8. DriveNets, “Guide for Building an 8k GPU Cluster with Network Cloud-AI,” DriveNets, Technical Guide, 2024.
Available: https://www.drivenets.com/resources/white-papers/ai-cluster-reference-design/
9. Schneider Electric and NVIDIA, “AI Reference Designs to Enable Adoption,” Schneider Electric, Reference Design, 2024.
Available: https://www.se.com/ww/en/download/document/AI_Reference_Designs/
10. Hewlett Packard Enterprise, HPE Cray Supercomputing EX, Hewlett Packard Enterprise, 2024.
Available: https://www.hpe.com/us/en/compute/hpc/supercomputing/cray-exascale-supercomputer.html
11. Schneider Electric, “EcoStruxure Reference Design 109: 7392 kw, Tier III, NAM, Chilled Water, Liquid-Cooled AI Clusters,” Schneider Electric, Reference Design, 2024.
Available: https://www.se.com/id/en/download/document/RD109DSR0_EN/
12. Vertiv, “360AI Brochure: Accelerate Your AI Deployment,” Vertiv, Product Brochure, 2024.
Available: https://www.vertiv.com/4a51e3/globalassets/documents/brochures/vertiv-360ai-brochure-sl-71291.pdf
13. “Data Center 2025: Closer to the Edge,” Vertiv, Technical Report, 2019.
Available: https://www.vertiv.com/en-us/about/news-and-insights/articles/pr-campaigns-reports/data-center-2025-closer-to-the-edge/
14. Hammerspace, “Accelerate Your AI Workflows with Hammerspace,” Hammerspace, Technical Guide, 2024.
Available: https://hammerspace.com/accelerate-your-ai-workflows-with-hammerspace/
15. D. Gu, X. Xie, G. Huang, X. Jin, and X. Liu, “Energy-Efficient GPU Clusters Scheduling for Deep Learning,” 2023.
Available: https://arxiv.org/abs/2304.06381
16. Yuzhuo Li, Yunwei Li,"AI Load Dynamics–A Power Electronics Perspective," 2025.
Available: https://arxiv.org/html/2502.01647v2
数据中心UPS系统运维在介绍UPS基本知识的基础上,着重介绍了当前数据中心主要使用的双变换在线式UPS的电路组成和工作原理,重点讨论了蓄电池配置的计算方法和UPS针对不同负载的选型计算方法,尤其对数据中心UPS配电系统供电方案、UPS的操作方法以及UPS主机和蓄电池组的巡检及维护方法进行了重点介绍。 数据中心UPS系统运维力求理论和实践相结合,书中所列UPS供电方案及运维保养方法普遍适用于当前主流的数据中心UPS供电系统。
页:
[1]