计算机工程师开创了节能超级计算的方法

2024-09-11 23:36:06

随着高科技公司加大大规模数据中心的建设力度，以满足人工智能业务的蓬勃发展，其中一个组成部分正在成为一种越来越稀有的商品：电力。

Computer engineers at ORNL pioneer approaches to energy-efficient supercomputing — 从左至右，ORNL 大规模分析和人工智能方法小组的 Sedrick Bouknight 和 Matthias Maiterth 展示了 Frontier 数字孪生项目 ExaDIGIT 框架的 VR 功能。使用 VR 可以让 Frontier 的操作员以更具交互性和直观的方式检查系统的遥测数据。图片来源：Wes Brewer/ORNL，美国能源部

随着高科技公司加大大规模数据中心的建设力度，以满足人工智能业务的蓬勃发展，其中一个组成部分正在成为一种越来越稀有的商品：电力。

据美国能源情报署称，商业用电需求近年来急剧增长，预计仅 2024 年就将增长 3%。但那个增长仅由少数几个州推动– 那些正在迅速成为大规模计算设施中心的国家，例如弗吉尼亚州和德克萨斯州。

房地产服务公司 CBRE 在其“2024 年全球数据中心趋势”研究中报告称，2024 年第一季度北美数据中心的库存同比增长 24.4%。电力研究所在一份报告中指出，这些新中心的建设容量为 100 至 1,000 兆瓦，相当于可为 80,000 至 800,000 户家庭供电的负载。2024年白皮书。

在本文中，EPRI 分析了人工智能和数据中心的能源消耗，并预测，如果预计每年 10% 的高增长率继续下去，到 2030 年，数据中心每年消耗的电力将占美国总发电量的 6.8%，而据估计今天4%。

高盛研究部估计，为了满足不断增长的需求，美国公用事业公司将需要投资约 500 亿美元来建设新的发电能力。与此同时，一些地区社区对数据中心建设的反对也在增加，因为草根团体抗议越来越多的数据中心对当地的潜在影响，以及人工智能对电力和冷却用水日益增长的需求。

中国的私营企业能否应对推动人工智能“革命”的艰巨挑战，可能更多地取决于聪明才智，而不是金钱。世邦魏理仕的这项研究得出了一个有用的、或者可能是充满希望的建议：“高性能计算 [或 HPC] 将需要数据中心设计和技术的快速创新，以管理日益增长的数据中心功率密度需要。”

橡树岭领导计算设施是位于橡树岭国家实验室的能源部科学办公室用户设施，研究节能超级计算的新方法一直是其使命的一部分。

自 2004 年成立以来，OLCF 已推出了五代世界级超级计算系统，每秒浮点运算或触发器的能源效率提高了近 2,000 倍。Frontier，OLCF 最新的超级计算机，目前位列TOP500榜单第一世界上最强大的计算机，并于 2022 年在名列绿色 500 强名单之首世界上最节能的计算机之一。

保持电费负担得起与成为政府资助的设施密不可分。但建造和维护领先的超级计算机不再只是政府的职责。各大科技公司已大举进军 HPC，但现在才开始担心这些大型系统的能耗。

“我们的机器一直是地球上最大的机器，但现在情况已不再如此。私营公司现在正在部署比 Frontier 大几倍的机器。如今，他们基本上拥有无限的财力，因此他们很容易站起来ORNL 国家计算科学中心 (NCCS) 首席技术官 Scott Atchley 表示：“一旦他们的权力受到更多限制，情况就会改变，他们会希望得到最大的回报。”

凭借在提高 HPC 能源效率方面数十年的经验，OLCF 可以作为突然蓬勃发展的行业中最佳“物有所值”实践的资源。

OLCF 项目总监 Ashley Barker 表示：“我们拥有独特的优势，能够影响 HPC 的整个能效生态系统，从应用程序到硬件再到设施。您需要在所有这三个领域提高效率才能解决这个问题。”。

“努力提高能源效率在我们设施的各个方面都发挥着作用。我们可以购买的最节能的硬件是什么？我们运行该硬件的最节能的方式是什么？什么是最节能的-我们可以调整硬件上运行的应用程序的有效方法吗？”

随着 OLCF 计划其 Frontier 的继任者（称为 Discovery），这些问题每天都会被问到，因为不同的团队共同努力在 2028 年之前交付一台新的超级计算机，该计算机也将展示下一代 HPC 的能源效率。

系统硬件

过去 30 年最重要的计算效率进步之一源自一个不太可能的来源：视频游戏。

更具体地说，创新来自芯片制造商的竞争，以满足视频游戏行业对日益复杂的游戏内图形的需求。为了实现吸引游戏玩家的逼真视觉效果，个人电脑和游戏机需要专用芯片（也称为图形处理单元或 GPU）来渲染详细的移动图像。

如今，GPU 是大多数超级计算机不可或缺的一部分，尤其是用于训练人工智能模型的超级计算机。2012 年，当 OLCF 凭借其 Titan 超级计算机率先在领先规模的 HPC 中使用 GPU 时，该设计被认为是对仅依赖中央处理单元 (CPU) 的传统系统的大胆背离。

它要求计算科学家调整他们的代码，以充分利用 GPU 进行简单计算并加快求解时间的能力。计算机解决特定问题所需的时间越少，它在给定时间范围内可以解决的问题就越多。

“从设计上来说，GPU 比 CPU 更节能。为什么它更高效？如果你要为计算机供电并且希望它非常高效地进行计算，那么你需要几乎所有的电力来供电您希望尽可能多的硅面积只是浮点单元，而不是每个 CPU 芯片上的所有其他东西。

“GPU 几乎是纯粹的浮点单元。当你给一台配备 GPU 的机器供电时，它所消耗的能量大约是一台只有 CPU 的机器的十分之一”，ORNL 的 Frontier 项目主任 Al Geist 说道。

OLCF 2012 年在 GPU 上的赌博在接下来的十年中得到了回报，随着每一代 OLCF 超级计算机增加了更快的 GPU 数量，系统的能效逐渐提高。这种演变在 Frontier 架构中达到了顶峰，该架构于 2022 年推出，是世界上第一台百亿亿次超级计算机，每秒能够进行超过 1 千万亿次计算，由 9,408 个计算节点组成。

然而，当 2008 年百亿亿次讨论开始时，百亿亿次研究小组发布了一份报告，概述了其四大挑战，其中最重要的是功耗。它预计每年的电费可能高达 5 亿美元。即使考虑到 2015 年预计的技术进步，该报告预测，精简的 1 exaflop 系统将使用 150 兆瓦的电力。

“能源部说，‘这是不可能的。’好吧，我们问，什么是可以接受的？得到的答案是，‘我们不希望你在电力上花费的钱超过机器的成本，’”盖斯特说。“在 2009 年的时间范围内，超级计算机的成本约为 1 亿美元。它们的使用寿命约为五年。

“最终我们每年可以花在电力上的费用约为 2000 万美元。从 2000 万美元中我能得到多少兆瓦？事实证明，田纳西州东部的 1 兆瓦大约每年 100 万美元。所以是我们设定的目标数字：每百亿亿次浮点运算系统功率为 20 兆瓦。”

实现这一能源消耗目标并没有明确的途径。因此，2012 年，美国能源部科学办公室启动了 FastForward 和 DesignForward 计划，与供应商合作推进新技术。

FastForward 最初专注于处理器、内存和存储供应商，以解决性能、功耗和弹性问题。后来它将重点转移到节点设计（即单独的计算服务器）。DesignForward 最初专注于将网络扩展至预期的系统规模，后来专注于整个系统封装、集成和工程。

由于 FastForward 投资，半导体芯片供应商 AMD 为 Frontier 开发了更快、更强大的计算节点，由 64 核第三代 EPYC CPU 和四个 Instinct MI250X GPU 组成，并找到了一种制造 GPU 的方法通过关闭未使用的芯片部分，然后在需要时在几毫秒内重新打开它们，可以提高效率。

“在过去，整个系统会亮起来并闲置，仍然在燃烧电力。现在我们可以关闭所有不使用的东西，而不仅仅是整个 GPU。在 Frontier 上，每个 GPU 上大约有 50 个不同的区域如果不使用它们，可以单独关闭。现在，不仅硅区域主要用于浮点运算，而且事实上我不会在任何不使用的东西上浪费任何能量。”说。

然而，对于下一代超级计算机，即使采用更新、更先进的架构，仅仅继续添加更多 GPU 来实现每瓦更多计算量可能已经达到了收益递减的地步。

“处理器供应商确实必须绞尽脑汁，想出能够给他们带来小幅增量改进的技术。这不仅适用于能源效率，而且也适用于性能。他们正在努力尽可能多地发挥硅的性能，”Atchley 说。

“我们一直受益于摩尔定律：晶体管变得更小，它们变得更便宜，它们变得更快。我们的应用程序运行得更快，而价格点相同或更低。那个世界已经结束了。有一些可能的技术可能会给我们带来一些飞跃，但最能帮助我们的是一种更加综合、全面的能源效率方法。”

系统操作

Feiyi Wang 是 OLCF 大规模分析和人工智能方法 (AAIMS) 小组的负责人，他花了很多时间思考一个难以捉摸的目标：如何操作超级计算机以减少能耗。解决这个问题首先需要汇集海量的HPC运营数据。

早在 Frontier 建成之前，他和 AAIMS 团队就从 Summit（OLCF 于 2018 年推出的 200 petaflop 超级计算机）收集了一年多的功率分析数据。Summit 的 4,608 个节点每个都有 100 多个传感器，以 1 赫兹报告指标，这意味着系统每秒报告超过 460,000 个指标。

Wang 的团队使用这个 10 TB 的数据集从头到尾分析了 Summit 的整个系统，包括其中央能源工厂，其中包含所有冷却机械。他们将系统的作业分配历史记录叠加到遥测数据上，为超过 840,000 个作业构建每个作业的细粒度功耗配置文件。这项工作为他们赢得了最佳论文奖2021 年高性能计算、网络、存储和分析国际会议（SC21）。

这项工作还促使王就如何利用这些数据做出明智的运营决策以提高能源效率提出了一些想法。

正如 Wang 所说，利用 Summit 的能源概况数据集，Wang 和他的团队启动了智能科学设施项目，为 HPC 系统提供持续的生产洞察，并为系统操作员提供“数据驱动的操作智能”。

“我希望将这种持续监控进一步发展为‘持续集成’，这意味着我们希望获取计算机的持续指标并将其集成到一个系统中，以便用户可以观察他们的特定能源使用情况。更进一步来说，我们还希望实施‘持续优化’，从仅仅监控和集成到实际动态优化工作，”王说。

王的另一个想法可能有助于实现这一目标。在 SC23 上，Wang 和主要作者、AAIMS 小组的高级研究科学家 Wes Brewer 发表了题为“迈向百亿亿次超级计算机综合数字孪生的开发”的演讲。他们提出了一个名为 ExaDIGIT 的框架，该框架使用增强现实 (AG) 和虚拟现实 (VR) 来提供有关设施如何运营的整体见解，以提高其整体能源效率。

现在，ExaDIGIT 已经发展成为一个由 10 个国际和行业合作伙伴组成的协作项目，Brewer 将展示该团队的最新论文在SC24在佐治亚州亚特兰大。

在 ORNL，AAIMS 小组启动了 Frontier 数字孪生项目，以构建 Frontier 超级计算机的模拟。这个虚拟前沿将使操作员能够尝试“如果我们尝试一下会怎样？”在真正的 Frontier 机器上尝试节能方案之前。如果提高 Frontier 冷却系统的进水温度会怎样？这会提高其效率吗？或者您是否会将其置于系统冷却不足的风险中，从而提高故障率？

“Frontier 是一个非常有价值的系统，你不能只是说，‘让我们尝试一下。让我们在这个系统上进行实验’，因为如果你做错了，后果可能是破坏性的，”王说。“但是有了这个数字双胞胎的想法，我们可以将所有遥测数据放入一个系统中，如果我们对系统的电源和冷却方面有足够的保真度建模，我们就可以进行实验。如果我改变这个设置会怎样？对系统是否有积极影响？”

Frontier 的数字孪生可以在台式计算机上运行，使用 VR 和 AR 允许操作员在调整参数时以更具交互性和直观的方式检查系统遥测。AAIMS 小组还创建了一个虚拟调度系统来检查数字孪生的功耗以及它在运行作业时如何随时间推移而进展。

尽管虚拟前沿仍在开发中，但它已经深入了解工作负载如何影响其冷却系统，以及整流（将交流电转换为直流电的过程）期间发生的功率损耗会发生什么情况。该系统还用于预测发现号未来的电力和冷却需求。

王说：“我们能够而且将会调整我们的开发和系统，以应对 OLCF 当前和未来面临的任何紧迫挑战。”

设施基础设施

为超级计算机供电并不仅仅意味着打开它，还意味着为支持它的整个设施供电。最关键的是冷却系统，它必须消除数据中心内所有计算机机柜产生的热量。

“从 10,000 英尺的高度来看，超级计算机实际上只是一个巨大的加热器——我从电网获取电力，将其输入到这个大盒子中，它会因为使用电力而变热。现在我必须将更多的电力输入到这个大盒子中。”一台空调来再次冷却它，这样我就可以让它继续运行并且它不会融化，”盖斯特说。

“在数据中心内部，需要做大量工作来更有效地冷却这些大型机器。从 2009 年到 2022 年，我们已将冷却所需的能源减少了 10 倍，我们的团队将继续进行冷却优化。”

这些冷却优化的大部分规划是由 ORNL 实验室现代化部门的首席 HPC 机械工程师 David Grant 领导的。Grant 负责监督新机械设施的设计和建造，并主要负责确保 OLCF 安装的每个新超级计算机系统都具备全天候 24 小时可靠运行所需的冷却能力。

他于 2009 年开始在 ORNL 工作，负责 Jaguar 超级计算机的操作。然后，他于 2012 年参与了 Summit 向 Titan 的过渡，领导了 Summit 于 2018 年推出的基础设施设计，最近还负责监督支持 Frontier 的所有工程。

在此期间，OLCF 的冷却系统随着芯片技术的发展而发生了巨大的发展，从 Jaguar 中的大声风扇和基于冷却器的空调到 Frontier 中的无风扇液体冷却。

此外，冷却计算节点所需的水温已从 Titan 的 42°F 上升到 Frontier 的 90°F——FastForward 计划设定的目标。这种额外的温暖可以节省大量能源，因为循环水不再需要冷藏，而是可以通过蒸发塔充分冷却。

格兰特说：“我们正在努力从柜子中取回尽可能温暖的水，同时为它们提供最高的供水温度——供水温度越高越好。”

“返回给我们的水温升高使我们能够最大限度地减少系统设施侧的循环流量，从而节省泵送能量。然后，温度升高使我们能够提高冷却塔的效率，从而能够将热量排除到我们的环境中。”

Frontier 的电力使用效率 (PUE)（计算机数据中心设施使用的总电力与提供给计算设备的电力之比）在高峰使用时为 1.03。这实质上意味着每产生 1,000 瓦的热量，只需额外增加 30 瓦的电力即可维持系统适当的热范围。

数据中心的全球全行业平均 PUE 约为 1.47，据正常运行时间研究所称。

格兰特正在研究如何进一步降低 Discovery 等速度更快的系统的功耗，这将需要更多的创新方法。

首先，回收（或利用）发现号的部分多余热量的概念可能有一定前景。该设施位置优越，如果可以将废热从冷却系统转移到加热系统，则可以对其进行再利用。但由于加热系统的温度升高、冷却系统产生的低品位热量以及 HPC 系统产生的热量的高度动态特性，这项任务具有挑战性。

其次，即将推出的Discovery系统将共享Frontier的冷却系统。这种组合使用配置有望提高运营效率。

“现在，Frontier 可以使用自己的冷却系统，我们已经针对此类操作对其进行了优化。但是，如果 Frontier 需要高达 30 兆瓦的功率，而另一个系统可能又需要同样多的功率，那么这会做什么？我们的冷却系统？

“它的设计初衷就是能够做到这一点，但我们将在其运营范围内的另一个我们以前从未见过的地方进行操作。因此，一旦我们到达那里，就会出现新的机会，”格兰特说。

第三，格兰特正在研究建筑和设备选择如何有利于设施的整体能源效率。例如，Frontier 的冷却系统有 20 个单独的冷却塔，需要一种称为“安抚”的过程来帮助保护其内部金属表面，并且此过程涉及随着时间的推移进行大量泵送。使用不再需要安抚过程的新塔可以消除这一步骤。

第四，超级计算机的闲置时间会消耗大量电力——Frontier 的闲置负载为 7 到 8 兆瓦。如果可以大大减少或消除闲置负载怎么办？

格兰特说：“当我们与对软件方面有影响力的客户互动时，我们会尝试与他们沟通，他们的决策将如何转化为冷却系统和设施能源使用。”

“我认为软件方面有很大的潜力，可以尝试减少空闲负载要求，使他们的模型尽可能高效地运行并提高系统的利用率。作为回报，他们将获得更高的产量他们试图产生的数据。”

应用领域

优化科学应用程序以使其在 OLCF 的超级计算机上更高效地运行是 NCCS 科学参与部门负责人 Tom Beck 和 NCCS 算法和性能分析小组杰出研究科学家 Trey White 的职责范围。让代码更快地返回结果并不是一个新概念，但现在的目标已经不再只是纯粹的速度。

“长期以来，人们一直希望让他们的代码运行得更快，这就是我们所关注的——运行更快的应用程序的单一目标，这也恰好减少了能源消耗，”怀特说。

“硬件的速度仍在提高，只是没有以前那么快，所以现在我们必须从时间和能源效率两方面来考虑应用程序。在大多数情况下，运行速度更快意味着更少的能源，但这并不是完美的因此，我们现在开始考虑两者之间的权衡。”

该团队正在研究的一个领域是 GPU 的工作频率如何影响其能耗。GPU 实现最快吞吐量的最大频率不一定是最节能的频率。

“但是，如果你从最大频率开始，然后拉低 5% 到 10%，有迹象表明你可能会节省 20% 或 25% 的能源。所以，这就是一个套利，你是否愿意放弃一点您的一点表现可以节省大量能源吗？”贝克说。

“以前，一般来说，计算机使用的最大时钟频率对于所有项目都设置为一个数字。但现在我们正在考虑根据应用程序甚至在单次运行中调整该频率，”怀特说。“‘频率旋钮’是时间和能源效率之间权衡的一个例子，我们正在研究如何为用户提供这种选择。”

该团队正在探索的另一个领域是混合精度算术的使用。从历史上看，64 位的全精度浮点运算被认为是科学应用中计算精度的标准。自 2000 年代初以来，超级计算机的功能日益强大，全精度运算的速度几乎与 32 位单精度运算的速度一样快。

现在，随着人工智能市场的兴起，低精度算术（16 位或更少）已证明其对于训练神经网络和其他数据科学应用来说足够准确。在 GPU 的驱动下，低精度计算可以显着提高速度并节省能源。

“使用较低的精度对用户来说是一个可怕的情况，因为每个人都习惯于假设全精度为 64 位，部分原因是它已经存在并且可以访问，”Beck 说。

“如果你开始偏离 64 位，它可能会以非线性方式影响整个代码，很难追踪到底发生了什么。因此，这是我们研究策略的一部分——对 64 位的影响进行广泛研究在某些应用中采用混合精度算术。”

另一个可能提高能源效率的领域是数据传输——数据传输越少，所需的电力就越少。这项工作可以通过构建减少数据移动的软件算法来完成。Beck 希望向用户提供饼图，显示算法的每个不同操作所使用的功率百分比，从而使他们能够确定潜在的减少量。

“如果没有根本性的硬件改变或架构革命，应用程序确实是人们现在寻求增加的地方能源效率”贝克说。“很可能，这不是一款通过编码获得 300% 改进的游戏。

“肯定有一些地方我们可以做出改进，但这可能会是一个更渐进的过程，这里 3%，那里 5%。但如果你能通过一系列的改变积累起来，达到 20%，那就是一个很大的进步。”成就。”

引文:计算机工程师开创了节能超级计算的方法（2024 年，9 月 11 日）检索日期：2024 年 9 月 11 日来自 https://techxplore.com/news/2024-09-approaches-energy-efficient-supercomputing.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。

另请参阅其他语言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español