电力与I/O优化：HPC日志分析与分类模型研究

电力消耗

161 浏览量更新于2024-06-18 收藏 3.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文研究了高性能计算(HPC)环境中的电力和I/O优化，通过对长期日志的分析，探讨了电力消耗、内存带宽、文件I/O与计算节点分配之间的关系，并提出了一种基于机器学习的工作分类模型来实现更有效的资源管理。" 在高性能计算领域，电力效率和I/O性能是关键考虑因素，特别是在大型HPC系统如K计算机和其后续的Fugaku超级计算机中。文章指出，CPU和内存设备的利用率与电力消耗之间存在正相关性，这意味着更高的计算活动通常伴随着更高的能源消耗。同时，文件I/O活动的布局对电力消耗有显著影响，某些I/O密集型工作负载可能实际上导致电力消耗降低，这揭示了I/O操作对整体能效的复杂影响。作者通过分析K计算机的日志数据，发现HPC作业可以分为两类：高电力消耗且I/O不密集的工作，以及低电力消耗但I/O密集的工作。这种分类有助于识别和管理可能导致系统不稳定性的电力或I/O热点。为实现这一目标，研究者应用了scikit-learn库中的RandomForestClassifier，构建了一个机器学习分类模型，该模型能以高准确性根据电力消耗水平对作业进行分类。这种分类模型对于电力感知的作业调度至关重要，因为它可以帮助避免在计算节点分配中产生电力热点，从而提高系统的整体效率和稳定性。在Fugaku超级计算机上的应用进一步证明了这种方法的有效性，它能够适应各种计算、内存和I/O密集型作业的需求。 1. 引言部分强调了HPC系统面临的挑战，即在有限的电力预算和I/O性能约束下提供高利用率的计算资源。随着HPC系统规模的扩大，对I/O性能的需求也随之增加，以支持大规模的存储系统和多样化的应用程序。 2. 研究方法部分介绍了日志分析技术，用于挖掘CPU和内存利用率与电力消耗之间的关系，以及文件I/O活动对电力消耗的影响。 3. 分类模型的建立和评估部分详细描述了如何使用RandomForestClassifier构建分类模型，以及该模型在预测作业电力消耗方面的准确性和实用性。 4. 结果和讨论部分展示了模型在实际HPC环境中的应用效果，特别是在Fugaku超级计算机上，证明了工作分类对于电力和I/O管理的重要性。 5. 最后，文章指出，通过深入理解电力消耗和I/O行为，以及开发相应的智能分类工具，可以提升HPC系统的能效，满足不同工作负载的需求，并为未来的HPC系统设计提供指导。这项工作为HPC领域的电力和I/O优化提供了新的视角，通过机器学习技术实现了作业的智能分类，有助于实现更高效的资源分配和管理，以应对不断增长的计算需求和能源限制。

资源详情

资源推荐

Y. Tsujita

等人

阵列

（

2022

）

100179







表

为系统运行分析收集的日志信息列表

指标描述



为每个作业



已提交作业的



用于作业的



队列类



链接方向上请求的计算节点数



链接方向上请求的计算节点数



链接方向上请求的计算节点数

在



链路方向上分配的计算节点数

在



链路方向上分配的计算节点数

在



链路方向上分配的计算节点数

极限然而，它受到

节点配额

的限制。在本研究中，我们假设 的

带宽

。

这是注意到密集型就业倾向要求计算

节点，以防止密集型应用程序遇到来自其他作业的干扰。因此，

这样的工作实现了高带宽水平。然而，这些作业的和内存利用

率低于其他节点布局的情况下。此外，由于与其他节点布局情况相比，

固定节点布局中的作业集倾向于使用更大量的磁盘空间，因此我们发

现所需的计算节点布局在文件方面存在





作业的已用时间限制

作业统计信息根据请求的



已执行作业的运行时间

由

node-quota

选项指定的每个计算节点分配的磁盘空

间

闪烁文件



的总

字节

数

持续



相对于峰值



的比率

计算一维（）、二维（）和形状中的节点布局。在日志信息

中，作业仅在然后把注意力集中在和 工作把数字放进去，

然后把注意力集中在。最后，工作

持续内存带宽利用率

中的数字、得双曲正弦值 。由于的数量

相对于理论带宽









最大值

为

最小值

为

与和工作相比， 和工作从大的工作。工作被进一步分离



   



在我们寻找答案时，使用日本财政部年下半年至年上半年的

就业统计日志数据，

分为两组，计算节点布局有变化和没有变化我们将作业分为3D

（相同），如果

（



）（



）（



）的文件

否则，我们将工作分成3D（可延展），

年，我们为每个作业选择了以下指标，



相关分析表明，、，并且，

在名为的最大队列类

哪里表示文件活动，和对应于

大。在这两年中使用测井数据有两个原因

术语选择年下半年作为开始时间，是因为也标志着上述使用温度

日志数据的电力预测过程的建立，而选择年上半年作为结束时间，

是因为我们从年下半年开始进行冷却系统检查（其中冷却水温度被

故意改变）。这意味着我们不能使用估计模型来预测这段时间的电力。

使用了来自日志数据的以下指标

•

：按

节点配额

为每个节点分配的磁盘空间

•

：中分配的计算节点数

计算活动。如前所述，作业中较高的文件相比之下，作

业中较高的计算活动往往导致增加的电力。对于这些相关系数评估，

我们使用了

Python

模块为了消除单个相关函数的依赖性，我们使用

了

SciPy

包提供的以下三个相关函数：

•

使用

scipy.stats.pearsonr

的



积差相关系数，指标

转换为对数标度（以下称为Pearson（Log））

•

的斯皮尔曼排名顺序相关性系数使用

方向

scipy.stats.spearmanr

（以下简称

斯皮尔曼

）

•

：已用磁盘空间相对于已分配磁盘空间的比率

•

秩序相关系数，

由node-quota选项指定

•



：已

用

磁盘空间相对于

可实现

的最大大小的比率

•

：持续相对于峰值的比率

•

：持续内存带宽利用率相对于理论带宽的比率

•

功率

：每个计算节点的最大功率，

scipy.stats.kendalltau

（以下简称

Kendall

）

应注意，对数尺度中的转换度量用于 积差相关性评估，以减轻

离群值的影响，如其他研究所述

3.1.

与之间的相关性







当

电力

地下室被拆除时，

请注意，

由于众所周知密集型应用程序往往会降低利用率，因此我们

接下来检查并以彩色图描述和



图

中。 

计算节点和接受的作业使用到，个计算

结在下文中，我们将在此队列类中执行的作业描述为

图 （），可以看出，我们拥有的越高，

大的工作。

虽然上述指标中有四个与文件活动有关，但其余指标与电力有

关与文件相关的两个

指标和



说明

如下：

我们做到了，反之亦然。还应注意，接近零的几个红色图是显示磁盘

空间利用率较低的作业，即使已通过较高值分配了大量磁盘空间另

外，图（）表明，有些工作在年达到了较高的比率，而它们

达到的比率却相当低。



闪烁

接近零，从而导致更高的电力消耗。



图图（）和（）显示，这类工作是本地化的



闪烁



闪烁（

，

闪烁闪烁



闪烁

）

在3D和3D情况下都具有低值

（可延展）

工作，并且在这种情况下给出的值也很小。意思是







虽然，3D（相同）的工作在图。图（）和（）显示了两个不同

的组。

闪烁

，

闪烁



，

闪烁



是

每个节点的

实际文件

大小

，

最大值



在这里，一组由面向的作业组成，这些作业从分布到

最大













闪烁时间和持续时间

限制

。注意

在和本地化周围的零，而另一组包括







是可实现的最大大小，如果作业

计算密集型工作的比例较高，其次是























如



图所示，实现更高。（）

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

电力与I/O优化：HPC日志分析与分类模型研究

网络上的高性能日志类

C#高性能日志

电力感知HPC：基于长期日志的高效能操作分析

AI模型训练与推理的性能对决：提升效率的关键技术

【内存优化技巧】：哈希表存储效率提升指南，减少内存占用的实用策略

【高级系统监控】：利用uptimes命令预测并解决系统瓶颈

光纤课程设计.doc

新媒体环境下汉语言文学教学优化策略.pdf

基于Python爬虫技术的海量电影数据分析系统源码

2022爱奇亿研发工程师笔试资料2022爱奇亿研发工程师笔试资料

师范院校汉语言文学专业民俗学课程的开设与教学模式.pdf

ISO 15118-20-2022中文翻译+英文原版.zip

高频注入全套方案 仿真模型生成代码 simulink matlab 效果优于某驱动 代码生成烧录到开发板，mdb，HFI 清单

GDAL-3.0.4-cp38-cp38-win32.whl

基于数字化驱动的公共管理模式创新研究.pdf

EXCEL进行CRC码计算演示

就业信息管理系统 JAVA高分毕业设计 Vue.JS+SpringBoot前后端分离项目.zip

公共管理硕士研究生知识转移影响因素分析.pdf

新时代网络语言对汉语言文学发展的影响研究.pdf

最新资源

高频注入全套方案仿真模型生成代码 simulink matlab 效果优于某驱动代码生成烧录到开发板，mdb，HFI 清单