超大规模网络性能的可视化分析系统

45 浏览量更新于2024-01-24 收藏 2.57MB PDF 举报

网络性能分析

时间序列数据

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学（2018）视觉信息学2（2018）98用于优化超级计算系统中大规模网络性能的可视化分析系统[1]李建平a，李建萍a.作者声明：Robert B. 罗斯b马关柳a美国加利福尼亚大学戴维斯分校b美国阿贡国家实验室c美国伦斯勒理工学院A R T I C L E I N F O文章历史记录：2017年12月11日收到2018年2月23日收到最终表格保留字：超级计算并行通信网络时间序列数据性能分析可视化分析A B标准超大规模超级计算机的整体效率在很大程度上取决于其网络互连的性能一些最先进的超级计算机使用基于越来越流行的Dragonfly拓扑结构的网络。研究运行在Dragonfly网络上的不同并行应用的行为和性能对于优化系统配置和设计选择（如作业调度和路由策略）至关重要。然而，为了研究这些时间网络行为，我们需要一个工具来分析和关联从Dragonfly的多层次层次结构中收集的多变量时间序列数据集本文提出了这样一个我们将交互式可视化与时间序列分析方法相结合，以帮助揭示不同并行应用程序和系统配置的网络行为中隐藏的模式我们的系统还提供了多个协调的视图，用于连接在网络层次结构的不同级别上观察到的行为，这有效地帮助了可视化分析任务。我们证明了该系统的有效性与一组案例研究。我们的系统和研究结果不仅可以帮助提高超级计算应用的通信性能，而且还可以提高下一代超级计算机的网络性能。c2018由Elsevier B.V.出版代表浙江大学和浙江大学出版社。这是一篇基于CC BY-NC-ND 许可证（http： //creativecommons.orgwww.example.com/licenses/by-nc-nd/4.0/）的开放获取文章。1. 介绍超级计算技术的进步对许多科学研究和工程设计至关重要，因为这些研究和设计越来越依赖于大规模模拟。一台功能强大、并行的超级计算机使科学家能够采用更复杂的模型，以更高的细节和精度模拟复杂的现象或过程。虽然建造最快的超级计算机的尝试已经非常积极地进行（Strohmaier et al. ），了解如何充分利用超级计算机的潜力也很重要。高基数、低直径、分层网络*通讯作者。电子邮件：tfujiwara@ucdavis.edu（Takanori Fujiwara）https://doi.org/10.1016/j.visinf.2018.04.010基于Dragonfly拓扑的高性能计算（HPC）是构建现代和下一代高性能计算（HPC）系统的流行选择。这种分层网络有效地连接了超过一万个计算节点，用于大规模分布式和并行计算。在美国能源部的国家实验室，几个新的系统（例如， Cori （ NERSC ， 2016 b ）在 NERSC ， Trinity（Los Alamos国家实验室，2016）在Los Alamos/Sandia，Theta（Argonne领导力计算设施，b）在Argonne部署基于Dragonfly的网络（Kim et al. 2008a），有一些变化。为了最大限度地提高这些系统的效率，需要有效的方法和工具来分析和研究这些网络的行为和性能。随机或自适应路由通常与这些网络一起使用，以减少网络拥塞。2468- 502 X/©2018浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect视觉信息学期刊主页：www.elsevier.com/locate/visinfⓍ2Takanori Fujiwara et al. /视觉信息学（2018）T. Fujiwara等/视觉信息学2（2018）9899管理和提高系统性能（Jain et al. ，2014年）。然而，网络中的层次结构加上自适应组间连接组内连接路由器-终端连接全对全路由使得性能分析成为一项具有挑战性的任务。传统的性能分析工具不能为大规模层次结构的分析和探索提供足够的支持，本地链接（绿色）列所有对所有本地链接（棕色）路由器高性能通信网络。大多数以前的研究基于蜻蜓的网络（Jain et al. ，2014;Jiang et al. ，2009; Won et al. ，2015; Yang et al. ，2016）侧重于使用统计分析来分析网络性能的结构特征但是，它们没有分析网络的时间行为，这对于获得优化应用程序性能和改进网络设计的见解也很重要。在本文中，我们提出了一个可视化的分析系统，我们已经开发的理解基于蜻蜓的网络的复杂的时间序列该系统的优势在于支持从不同类型的网络实体（例如，网络链接和终端）。支持的基础是提供一组时间序列聚类方法来分析不同的性能指标和变量，并将这些方法与交互式可视化相结合，以探索复杂的、分层的、高性能的通信网络的行为。此外，通过利用时间序列分割方法，我们的系统提供了简洁的摘要网络流量从长时间序列。这些分析方法、可视化和交互的组合使用户能够理解复杂网络的行为我们证明了我们的系统的有效性与几个案例研究，在其中我们分析了网络的收集，从模拟的两个并行应用程序的Theta（阿贡领导计算设施，b）-超级计算机运行在美国。阿贡国家实验室。我们表明，我们的系统的视觉分析能力，导致更好地了解复杂的时间行为所造成的不同的通信模式的蜻蜓为基础的网络，以及识别性能瓶颈。2. 背景和相关工作我们的可视化分析系统旨在可视化和分析大规模网络的时间行为和性能我们主要考虑具有层次结构的超级计算机，例如基于Dragonfly的网络的不同变体。在本节中，我们将简要介绍Dragonfly网络，并描述可视化分析的相关工作。2.1. 面向HPC的多级、全连接网络，如Dragonfly拓扑（Kim et al. ，2008 b），提供大的二等分带宽和低的网络直径以有效地连接超过一万个计算节点。这样的网络是建设兆级系统的有前途的选择。图1示出了使用Cray XC（Cray Inc. ）配置。它是一种分层拓扑，由多个组组成，这些组通过全对全全局链路完全连接。每个终端终端终端终端图1：Theta使用的Dragonfly配置。所有组都通过全局链接完全连接，形成两级网络（左）。每个组中的路由器也通过本地链路（中心）完全连接。每个路由器连接到多个终端（右）。组具有按行和列排列的路由器，它们分别通过绿色和棕色本地链路连接每个路由器连接到多个终端。基于Dragonfly的网络通常使用自适应路由来减少网络拥塞。当在两个不同的组中的终端之间传输数据包而没有检测到网络拥塞时，自适应路由使用直接连接两个组的全局链路当检测到网络拥塞时，自适应路由将包重定向到随机选择的组，然后将包转发到目的地组。2.2. 用于探索网络性能数据的可视化分析为了提高并行应用程序的性能，已经开发了一些分析和可视化工具Isaacs等人（2014 b）提供了一项关于每一次可视化的全面调查。通用性能工具，如CrayPat（DeRoseet al. ，2007）、HPCToolkit（Adhianto et al. ，2010）、Scalasca（Geimer et al. ，2010）、Vampir（Nagel et al. ，1996）和TAU（Shende and Malony，2006）可以提供用于分析网络性能的图形结果然而，这些工具中使用的可视化方法并不是为探索大型分层网络而设计的。例如，他们经常使用堆叠的时间线来显示每个应用程序进程的性能，而没有可扩展的方法（例如，聚集）。此外，虽然它们确实将性能数据与过程的物理位置可视化，但是它们不涉及网络度量（例如，传输）到物理网络拓扑。因此，这些工具要么缺乏探索大规模网络所需的可扩展性，要么缺乏分析分层网络复杂性的能力。研究人员已经为大型复杂网络开发了可视化。当前的超级计算机通常具有小直径互连，从而能够实现快速通信，例如，Dragonfly（Kim等人）。，2008 a）、Slim Fly（Wolfe et al. ，2016）和胖树（Leiserson，1985）拓扑。一些研究集中在这些复杂网络中的物理节点位置的可视化。Landge等人（2012年）在2D和3D视图上投影3D圆环网络，以分析具有拓扑属性的网络流量。 McCarthy等（2014年）将这种3D投影方法扩展到2D投影方法，5D圆环。 Cheng等人（2014）开发了TorusVis ND，它可以通过利用具有径向布局的空间填充曲线（Sagan ，1994）应用于任何高维环面网络。在Sigovan et al. （2013a），专用I/O通信网络以径向节点链路方法保留，GroupGroup10组2组3全对全全局链接（蓝色），用于组间连接组（未显示所有组/链接）43x4矩阵的Dragonfly组R11R10R9R8R7R6R5R4R3R2R1R0TakanoriFujiwara等人/视觉信息学（2018）3100T. Fujiwara等/视觉信息学2（2018）98而通信模式被可视化为沿着每个边缘的热图，显示了一些属性，如延迟，消息大小等。Bhatele等人（2016）通过使用径向布局和矩阵视图来分析基于Dragonfly的网络，以显示计算节点之间的组间和组内链接。 Fujiwara 等人（2017）利用节点链路图和基于矩阵的表示与分层聚合技术来可视化任何类型的网络拓扑。他们还提供了算法，建议更好的路由和映射，这可以交互使用 Li等人（2017）开发了灵活的可视化，用于分析Dragonfly网络上的网络性能。他们应用数据聚合技术，以提供大规模网络的可视化可扩展性。此外，它们的可视化可以根据用户的需求进行定制。然而，上述工作并没有提供足够的方法来分析网络的时间和性能。另一方面，一些研究人员也研究了时间分析的技术。通过基于动画的方法，Sigovan等人（2013 b）使用“动画散点图”来分析应用程序执行中的时间模式。他们不仅用动画来可视化正在发生的事件，而且还将事件历史作为背景上的余像。用这种方法，我们可以从过去事件和当前事件之间的关系中看到趋势。但是，这是一个困难-邪教找到冗长的性能数据的模式与肛门-依赖动画的分析方法。Isaacs et al.（2014a）使用逻辑时间而不是物理时间可视化并行应用程序的执行跟踪和事件历史。使用日志时间允许应用程序开发人员从程序的角度分析执行序列Muelder等人（2016）介绍了用于分析云计算性能的行为线。这些线显示了关于多变量时变性能数据的行为相似性的概述。然而，与上述工作相比，这些方法不提供与物理网络拓扑相关的信息。与这些方法相比，我们的系统支持对大规模网络（包括基于Dragonfly的网络）同时需要拓扑和时间特性的分析此外，为了帮助用户从大量的通信数据中发现重要的模式，我们的系统集成了时间序列分析方法，包括聚类，降维和变点检测。2.3. 时间序列分析包括第2.2节中提到的网络性能数据的时间分析方法，已经研究了大量的时间可视化（ Aigner et al. ， 2011年）。在这里，我们只总结了最相关的作品。与我们类似，一些研究使用降维方法来提供时间序列数据的概述。例如，Steiger等人（2014）概述了从传感器网络中识别异常。他们使用时间序列相似性度量（包括欧几里得距离和动态时间弯曲（Berndt和Cliff ord，1994）），然后用多维标度（ MDS ）在 2D 图中绘制相似性（ Torgerson ，1952）。该方法集中于每个实体的组合（即，传感器的）值随时间的变化。上另一方面，一些可视化计算所有实体在每个时间点的状态的相似性，然后显示它们的时间差异。例如，Bach et al.（2016）通过使用MDS可视化了每个时间点之间多变量数据的相似性。然后，他们用曲线将每个点之间的 van denElzen 等（ 2016 ）也采用了类似的方法。 J aéckle 等（2016）引入了TemporalMDSPlots。与Bach等人的方法的主要区别。（ 2016 ） ; 和 Elzen 等人。（ 2016 ）是 Ja？ckleetal. （2016）将滑动窗口应用于时间多变量数据，以获得多个时间点之间的相似性。我们在系统中的一个组件应用了与Steiger等人（2014）相似的方法。然而，我们的系统被设计为除了整合时间序列分析方法之外，还可以将多个网络指标与结构和时间特征结合起来，如第2.2节所述。Bryan et al.（2017）介绍了时间摘要图像（TSIs），该图像旨在生成叙事可视化。TSI提供来自其时间步选择的时间序列数据的数据摘要。受这一思想的启发，我们利用时间序列分段方法提供了网络度量的自动汇总。3. 分析任务和设计要求（DR）我们首先描述理解网络行为所需的分析任务。然后，我们提出了我们的系统的设计要求为了充分利用超级计算系统，实现计算节点之间的快速通信至关重要。系统设计者需要选择有效的作业分配和网络路由策略（Won et al. ，2015; Yang et al. ，2016; Bhateleet al. ，2016; Mubarak et al. ，2017 a）从各种选项。因此，了解这些策略对网络行为的影响是一项必要的任务。另一方面，应用程序开发人员需要知道在运行应用程序时通信瓶颈在哪里以及如何发生。对于这些任务，通信数据通常通过使用性能分析工具来收集，例如剖析和跟踪工具（Adhianto et al. ，2010; Nagel et al. ，1996; Shende和Malony，2006），或通过运行模拟（Mubarak et al. ，2017b）。然而，获得的通信数据通常非常大（千兆字节（NERSC，2016年a）或更多）。此外，这些通信发生在由复杂网络拓扑（例如，高维环面（Adiga et al. ，2005）和Dragonfly网络（Kim et al. ，2008 a））。研究人员需要从时间和拓扑（物理网络连接）两个方面对这些复杂的数据为了帮助上述分析任务，我们的设计要求如下：DR1清楚地显示与通信瓶颈相关的信息，DR2描述了时间网络行为，以便找到瓶颈的原因，2Takanori Fujiwara et al. /视觉信息学（2018）T. Fujiwara等/视觉信息学2（2018）98101DR3提供了用于理解底层物理网络上下文中的通信模式的可视化，以及DR4帮助用户识别大规模数据中的通信瓶颈。我们的系统旨在满足这些要求。由于数据量大、分析复杂，了解时态网络行为是一项极具为了支持这一点，我们的系统有效地使用了各种技术，niques开发的时间序列分析。4. 可视化方法为了满足设计要求，我们开发了一个可视化分析系统，用于：1）发现网络中潜在的瓶颈; 2）查看瓶颈相关信息的细节; 3）从时间和拓扑角度分析瓶颈的原因为了实现这一点，我们使用了可视化分析过程的工作流程，如图2所示。我们的可视化分析系统如图3所示，由四个组件组成。这四个组成部分是：（a）行为概述，（b）行为详细视图，（c）相似性或相似性视图，以及（d）拓扑视图。通信数据和每个组件的详细信息将在以下章节中解释。图2：系统使用分析流程。每个步骤都涉及一个或多个视图。4.1. 通信数据为了描述通信数据，我们使用Dragon-fly网络（Kim etal. ，2008 a），如图1所示;然而，我们的可视化方法可以用于其他网络拓扑。这可以通过根据使用中的网络拓扑改变拓扑视图（图3（d））来实现。从超级计算系统收集的典型通信数据包括网络传输的时间序列（即，网络上传输的数据总量）（例如，用于每个全局、本地和终端链路的传输）。此外，可以使用其他度量，例如饱和时间（即，网络信道的缓冲器充满的总时间传送每个分组的平均时间），以及平均跳数（即，每个分组平均经过多少跳这些数据通常通过使用跟踪工具或具有用户定义的采样率的模拟来收集。当收集饱和时间度量时，它被测量为网络信道中的缓冲器充满的时间的分数。因此，饱和时间总是较短，或者与采样率相同。这些指标对于识别瓶颈非常有用。瓶颈可能由于通过相同网络链路的多个同时通信或沿着拥塞链路的长跳通信或两者而出现（Bhatele等人，2005）。，2016;Bui et al. ，2015;Malakar and Vish-wanath，2017）.4.2. 行为概述（图（第3（a）段）为了帮助用户决定他们感兴趣的时间范围，行为概述显示了跨时间（DR1，DR4）的每个时间点的一个选定的统计时间点以x坐标编码。对于y坐标，从收集的数据集中，用户可以选择网络的实体的集合（例如，终端、本地链路或全局链路），度量（例如，网络传输、饱和度、通信路由的跳最大值、平均值或标准偏差）作为y方向的值。此视图用于时间范围选择，底部放置一个范围选择器，以在其他视图中显示更详细的信息。例如，在图3（a）中，在我们的示例中选择终端业务的平均值增加的时间范围。4.3. 行为详细视图（图（第3（b）段）行为详细视图显示从行为概览（DR1、DR2）选择的时间范围内的网络行为的详细信息与行为概述类似，x和y坐标表示时间点和度量值。在该视图中，用户可以选择网络的实体的子集我们决定提供两个视图，因为HPC研究人员经常希望比较不同网络实体的行为（例如，终端和全局链路的行为）或理解不同情况下的因果关系（例如，网络如何传输影响网络饱和时间）。此外，只有两个视图，我们可以使用足够的窗口空间来显示详细信息。在图3（b）中，终端和全局链路上的网络流量分别在上视图和下视图中示出4.3.1. 行为聚类从显示网络行为的时间序列中找到有趣的模式并不是一项简单的任务，因为今天例如，我们在案例研究中模拟的阿贡国家实验室的Theta（阿贡领导力计算设施，b）有3，000多个终端和20，000个网络链接。为了帮助用户找到模式，我们将时间序列聚类方法（Liao，2005;Fu，2011）应用于网络节点（DR 1，DR 2，DR 4）。我们实现不同的聚类方法和相似性度量，如下所述。图4示出了具有/不具有聚类方法的可视化结果。用户可以基于他们需要的分析类型多个网络实体和时间点）。我们的系统支持 Hartigan-Wong 方法（ Hartigan 和Wong，1979）作为k均值聚类，TakanoriFujiwara等人/视觉信息学（2018）3102T. Fujiwara等/视觉信息学2（2018）98∞.Σ−······.ΣE并且ν是刚度参数。根据参数选择图3：系统的用户界面，包含四个组件：（a）行为概述，（b）行为详细视图，（c）行为相似性视图，以及（d）拓扑视图。此示例显示了通过运行具有1，728个MPI秩的代数多重网格（AMG）求解器应用程序获得的网络行为。(a)显示了有关选定网络实体和度量的网络行为的概述。(b)显示了（a）中所选时间范围内的网络行为的详细信息。(c)通过使用降维方法，显示了每个时间序列的相似性，如（b）所示。在（d）中，利用网络拓扑信息对每个网络实体在所选时间范围内的度量进行汇总。由Li等人（2017）介绍的可视化方法用于（d）。围绕中心点（PAM）作为k-中心点聚类（Kaufman和Kaufseeuw，2009），以及完全连接聚类作为分层聚类。k-均值聚类是这些选项中最快的方法，时间复杂度为O（nk）（n是观察的数量，k是聚类中心的数量它需要观察l维向量作为输入。因此，我们使用每个时间序列作为一个观察，每个点的度量值将被用作向量的一个元素。此外，为了避免初始质心依赖性，我们的系统使用不同的初始质心种子多次运行k图4（a）和图4（b）分别示出了不具有和具有k均值聚类的虽然k-均值聚类使用观测值作为输入，但其他两种聚类方法使用每个观测值之间的相异性作为其输入。尽管他们的COM-这里，l是时间序列的长度，xi和yi分别是时间序列x和y的第i个元素。由于DTW和TWED都属于弹性相似性度量，因此在时间上具有灵活的匹配性DTW测度（dDTW（x，y））可以通过用动态规划计算累积成本来获得：dDTW（x，y）=D1，1（2）Di， j=f（x i，y j）+min D i， j−1，D i−1， j，D i−1， j−1对于i= 1，，l和j= 1，湖矩阵D初始化为D i，j=除了D0， 0。D0， 0初始化为D0， 0=0。 f（xi，yj）是局部代价函数。我们使用xi和yj之间的差的平方（即，f（xi，yj）=（xiyj）2）。类似地，TWED度量（dTWED（x，y））也可以用动态编程来计算：复杂度（O（n2））比k-均值差，这些聚类方法，ods是有用的分析，因为相似性措施的发展dTWED （x，y）=Dl，l（三）时间序列可以应用。我们的系统支持三种相似性度量：欧几里得距离，动态时间扭曲（DTW）（Berndt和Clifford，1994）和时间扭曲编辑距离（TWED）（Marteau，2009）。两个时间序列x和y之间的欧几里得距离dE（x，y）计算如下：1Di，j=min Di，j+ Γxy，Di−1，j+ Γx，Di，j−1+Γy对于i=1，···，l和j=1，···，l，其中Γxy= f（x i，y j）+f（x i−1，y j−1）+2ν|i −j|rx=f（xi，xi−1）+v+λry=f（yj，yj−1）+v+λ（四）好吧L2f（x，y）=|x-y|对于Two。λ是失配罚分d（x，y）=（xi−yi）2（一）i j i ji=12Takanori Fujiwara et al. /视觉信息学（2018）T. Fujiwara等/视觉信息学2（2018）98103(a) 无聚类（b）k-均值聚类(c)（d）选自（c）图4：不同聚类方法下网络传输的时间序列聚类结果。颜色表示线条长度到的聚类数。(a)没有聚类，很难找到重要的模式。(b)使用k-均值聚类，我们可以很容易地看到模式。例如，浅蓝色的线表示相应的流量在开始时很高，之后它们会下降到低值。(c)通过围绕中心点的分区（ PAM ）（ Kaufman 和 Kaufseeuw ， 2009 ）和时间扭曲编辑距离（TWED）（Marteau，2009），我们可以看到来自（b）的不同模式。例如，如图（d）所示，用浅蓝色表示的聚类显示了三个不同的峰值，所有这些峰值都具有相同的行为，即首先增加流量，然后减少流量，然后具有低值。这表明，使用聚类方法与TWED是有用的检测这些类型的模式作为一个集群。Serra和Arcos（2014）使用的方法，我们选择λ= 0。01，v= 0。5作为默认参数。虽然欧几里得距离是计算每个时间序列的离散性的最简单和最快的方法（复杂度为O（l）），但根据当前的研究（Serra和Arcos，2014），DTW和TWED（复杂度为O（l2））对于时间序列数据的分类表现更好。图图4（c）和图4（d）示出了来自具有TWED的PAM的结果。参考Serra和Arcos（2014）的工作，了解有关这三种措施之间差异的更多详细信息另外，当用户想要基于多个度量（例如，全局链路传输及其饱和时间），如上所述的聚类方法和相似性测量也能够用于多变量时间序列输入。在这种情况下，系统处理0到1之间的所有从这些选项中，用户可以从设置中选择聚类方法、聚类数、相似性度量和聚类度量，这些设置位于行为详细视图的左侧。集群ID用线条颜色编码，如图3和图4所示。我们选择分类颜色，每种颜色都有足够的饱和度来识别宽度较窄的每条颜色线的差异当在上部和下部行为详细视图中选择相同的网络实体时，相同的颜色用于对应的线，以便传达两个不同度量之间的关系。此外，应用于每个行为详细视图的配色方案与对应的行为相似性视图共享，如下一小节所述我们已经确保显示不同信息的视图不共享相同的颜色，以避免误导用户（例如，行为详细视图和拓扑视图使用不同的颜色方案）。4.4. 行为相似性视图（图）（第3（c）段）网络行为的（不）相似性在行为相似性视图中可视化。行为相似性视图支持-补充行为细节视图。虽然行为细节视图详细显示了网络行为，但很难传达每个行为的相似性。该系统提供了用于对行为进行分类的聚类方法;然而，这不足以找到在网络实体的小集合中发生的模式（例如，异常值和异常行为）。上、下行为相似性视图如图所示。图3（c）示出了通过对分别在上部和下部行为详细视图中可视化的行为应用维度缩减而获得的结果。从这些视图中，用户可以识别使用行为详细视图（DR4）中使用的聚类方法未检测到的聚类4.4.1. 行为的抽象性归约我们将降维方法应用于通过使用用于时间序列聚类的相同相似性度量获得的我们的系统支持经典多维标度（MDS）（Torgerson，1952）和t-分布随机邻居嵌入（t-SNE）（Maaten和Hinton，2008）。这些降维方法可以使用观测值的相异性作为输入。通过使用这些降维方法，我们可以将相似的对象靠近在一起。虽然经典的MDS是线性降维方法并且有利于查看多维数据的全局结构，但是t-SNE是非线性降维方法并且有助于可视化数据的局部结构。我们将t-SNE设置为默认设置，因为我们设计了行为相似性视图，以支持查找在网络实体的小集合中发生的模式。为了交互地应用t-SNE，我们使用Barnes- Hut t-SNE（Van Der Maaten，2014）（虽然原始t-SNE的复杂度是O（n2），但这种实现只有O（nlogn）复杂度）。t-SNE具有作为调整参数的复杂度，其改变局部结构如何影响结果。一般来说，困惑度在5和50之间选择（Maaten和Hinton，2008）。虽然我们将30设置为默认值，但用户可以在行为详细视图左侧的设置中更改该值。不同维度方法的可视化示例如图所示。五、现有的可视化方法（Muelder et al. ，2016; Bach et al. ，2016; van den Elzen et al. ，2016）描述了每个时间点所有观察结果的相似性。然而，我们的方法可以总结每个观察行为在时间上的相似性，这种方法在寻找相似行为而不是相似状态的观测值时更有用。4.5. 拓扑视图上面描述的所有视图都从它们的时变方面描述了网络行为。然而，为了理解瓶颈及其与它们的关系，可视化底层物理网络的上下文是重要的（ Landge et al. ， 2012;McCarthy et al. ，2014; Cheng et al. ，2014; Bhatele et al. ，2016; Fujiwara et al. ，2017; Li et al. ，2017年）。另一方面，通过这种可视化来探索完整的时间序列是一项耗时的任务。因此，我们决定采用TakanoriFujiwara等人/视觉信息学（2018）3104T. Fujiwara等/视觉信息学2（2018）98（a）具有集群的网络流量（b）t-SNE（c）MDS(d)选择后的网络传输（e）t-SNE（f）MDS图5：时间序列降维的示例。(a)显示了使用PAM和欧几里德距离聚类的网络流量。(b)和（c）分别是用t-SNE和MDS降维后的结果。当与（a）中的聚类结果一致时，我们可以在t-SNE和MDS中找到较小尺寸的聚类(d)、（e）和(f)显示从（b）中选择的小簇。如（b）、（e）和（f）中的绿色箭头所示，（c）中的MDS不会将小簇与浅蓝色簇分开。从这些，我们可以看出，t-SNE从数据中检测局部结构时间概要图像（TSIs）的类似概念（Bryan et al. ，2017年）。我们的拓扑视图在自动或手动选择的段（DR3，DR4）期间可视化具有物理网络信息的网络行为的摘要。4.5.1. 行为细分TSIs（Bryan et al. ，2017年）通过使用其自动时间步长选择提供来自时间序列数据的数据摘要。由于TSI是为生成叙事可视化而开发的（Segel和Heer，2010），因此其时间步长选择更侧重于捕捉可视化中的变化。在我们的例子中，我们的系统应该提供有助于时间序列分析的摘要，而不是叙述它。因此，我们应用了为时间序列分析开发的变点检测（Aminikhanghahi和Cook，2017）。我们选择E-Divisive 方法（ James and Matteson ， 2015;Matteson andJames，2014），因为我们希望在合理的时间内检测一组时间序列的多个变化点，以便交互式地使用它图图6示出了使用E-Divisive方法进行分割的示例。片段通过放置在行为详细视图底部的范围滑块还允许用户通过使用滑块手动调整分段。4.5.2. 行为摘要在对时间序列数据进行分割之后，我们的系统可视化了所选时间范围的行为摘要。我们计算每个网络实体的度量的平均值（例如，全局链接的transffic），然后用图6：网络行为的分割示例E-Divisive从多条线中检测五个线段。图7：用于可视化Theta互连网络的同心环径向视图。Li et al.（2017）开发的可视化方法。这种可视化的一个例子如图所示。第3段（d）分段。每个字母标签对应于放置在每个段中的标签。每个径向视图提供了选定时间范围内整个网络的可视化摘要，将所有类型的网络链接的不同流量显示为热图（颜色越亮表示流量越高视图上使用的颜色与用于区分网络链接类型的颜色相同，如图1所示：蓝色表示全局链接，绿色表示行本地链接，棕色表示列本地链接。每个视图显示基于网络的结构和拓扑属性的聚合度量，如图所示。7.第一次会议。中心的带状区域显示了网络中所有组之间的聚合全局链路传输径向视图的内环显示所有行（绿色）本地链路的聚合流量外环显示所有列（棕色）本地链路的聚合流量。图3（d）中的示例示出了Theta上的网络流量（Argonne领导计算设施，b）。由于Theta有9个组，因此每个径向视图有9个对应的分区。此外，Theta上的每个组有96个路由器，它们排列在16行和6列中。内环中每组的16个部分（绿色）显示了行本地链路上的聚合流量。外环（棕色）中的每个组的6个部分表示列本地链路上的聚合流量。例如，对应于时间范围B的视图对于组0-3中的所有行和列本地链路具有高传输有了行为详细视图，通过将这些摘要放在一起，我们可以将时间行为和结构行为联系起来4.6. 用户交互我们的系统提供了一组丰富的用户交互，以帮助用户从大量的时间序列数据中找到重要的模式许多交互是在多个视图之间链接的。行为概述：如第4.2节所述，视图中显示的指标可以通过左侧的设置进行选择。此外，用户可以使用视图底部的范围滑块选择时间范围。高级详细视图（图3（b））和行为相似性视图2Takanori Fujiwara et al. /视觉信息学（2018）T. Fujiwara等/视觉信息学2（2018）98105×（图 3（c））将在此选择后自动更新。同时，这会更新行为详细视图中的自动分割，如第4.5.1所述。行为详细视图：通过放置在左侧的设置，用户可以选择一组网络实体及其度量，这将在上部和下部视图中可视化此外，聚类方法、聚类数、相似性度量以及用于聚类和分割的图都可以改变。用于分割的时间范围可以通过使用底部的范围滑块进行更改。当用户更新这些设置时，行为相似性视图和拓扑视图也用相应的设置更新。至于选择行的子集，我们的系统提供了三种方法。首先，用户可以从设置中对每个视图的度量值应用过滤。其次，用户可以从上下文菜单中选择要在视图中可视化的集群，右键单击将显示该菜单。此外，系统提供了一个自由形式选择，它选择用户绘制的具有自由形式的虚线在自由选择之后，用户可以过滤掉隐藏的线。这些选择将更新其他视图中的相应元素。当在多个视图中示出相同的网络实体时（例如，行为详细视图显示了全局链接），相应的行也将被过滤掉。在公元-另外，当过滤出层次上较低级别的网络实体（例如，终端），在其他视图中，更高级别的网络实体（例如，全局链接），其与所述较低级别实体没有任何连接，可以被过滤掉。行为相似性视图：用户可以从左侧的设置中选择t-SNE的相似性度量、降维方法和复杂性，如第4.4.1节由于MDS或t-SNE结果可能包含杂乱的区域，因此支持使用鼠标缩放和平移视图，以更清晰地显示某些区域此外，我们的系统，TEM提供了一个套索选择用户选择他们选择的点的子集。与行为详细视图相同，用户可以过滤掉错误点。然后，其他视图中的相应可视化也将被更新。4.7. 执行我们用多种编程语言和库实现了该系统。我们使用C++、Qt1和OpenGL实现行为概述、行为详细视图和行为相似性视图的可视化。此外，为了便于分析方法的使用，我们还利用RInside2软件包将R语言嵌入到C++对于拓扑视图，为了利用Li等人开发的Web API。（2017），我们使用Web- Socket 3将数据和设置发送到服务器。然后，我们在Chromium浏览器4中可视化接收到的结果，1 Qt，https：//www. qt.io/，访问时间：2018-2-52RInside，https://cran.r-project.org/web/packages/RInside/，访问时间：2018-2-53WebSocket ， https://tools.ietf.org/html/rfc6455 ，访问时间：2018-2-54Chromium，https://www.chromium.org/，访问时间：2018-2-5可以集成到Qt应用程序中。Li et al.（2017）工作中的WebAPI是使用HTML5，CSS和 JavaScript的组合开发的。5. 案例研究通过分析基于Dragonfly的网络上并行应用的网络行为和性能，证明了该系统的有效性。我们专注于分析英特尔骑士登陆（Sodani等人。，2016）的Cray XC40（Cray Inc.Theta（Argonne Leadership Computing Facility，b），位于Argonne国家实验室。Theta有3，456个终端（计算机节点），每个终端有64个核心。它是CORAL Aurora系统（Argonne Leadership Computing Facility）的先驱，该系统将成为在Argonne国家实验室建造的下一个领导超级计算机。Theta有9个Dragonfly组，每组有96个路由器，排列成16 × 6矩阵，每个路由器连接到4个终端。由于我们的案例研究涉及改变网络配置和路由机制，因此在Theta的实际系统上进行此类研究既昂贵又困难因此，我们使用CODES网络仿真工具包（Cope et al. ，2011年），以模拟Theta的蜻蜓网络。模拟使作业性能不受外部因素（如通信干扰或链路故障）影响的受控环境。模拟还提供了一些指标，如链路饱和度，数据包延迟和遍历的跳 CODES采用Rensselaer的乐观模拟系统（ ROSS ）（ Carothers et al. ， 2002; Barnes Jr 等人，2013），一种高性能并行离散事件仿真器，其允许以分组级细节精确地运行大量仿真。经验证，Theta 系统的CODES模拟具有非常高的准确性（Mubarak和Ross，2017;Mubarak等人，2017年）。，2017 c）。我们从模拟中捕获的数据因此，我们的系统和方法也可以以相同的方式应用于两个数据对于模拟，我们收集了所有网络链路（全球，本地和终端）的时间序列指标（流量和饱和时间）。对于终端，除了流量和饱和时间之外，我们还收集了分组延迟和平均跳数。5.1. 案例研究1：探索时间行为在本案例研究中，我们分析了1，728 MPI等级连续分配给Theta终端的代数多重网格（AMG）求解器应用程序AMG是非结构化网格物理包的一部分（Yang et al. ，2002年），并且它具有3D最近邻通信模式，这是代表兆兆级工作负载的传输模式之一（NERSC，2016年a）。虽然我们知道 AMG 在应用程序级别的通信

下载后可阅读完整内容，剩余1页未读，立即下载