跨维可视化系统：探索异质多变量数据的新方法

105 浏览量更新于2023-12-09 收藏 2.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

图形和视觉计算3（2020）200013技术部分CrossVis：一个用于探索异质多变量数据的可视化分析系统，并应用于材料和气候科学查德河放大图片作者：John R.Goodallb， Junghoon Chaea， Artem Trofimovc，1a计算机科学和数学部，橡树岭国家实验室，橡树岭，田纳西州37831，美国b美国田纳西州橡树岭橡树岭国家实验室网络与应用数据分析部，邮编：37831c材料科学与技术部，橡树岭国家实验室，橡树岭，TN 37831，美国Ar ticlei n f o ab st ract文章历史记录：收到2019年2020年4月7日修订2020年4月23日接受2020年5月12日在线提供保留字：信息可视化多元数据分析统计分析材料科学气候科学可解释神经网络平行坐标我们提出了一个新的可视化分析系统，称为CrossVis，它允许具有异构数据类型的多变量数据的可伸缩的探索在介绍了设计要求，这是从以前的合作领域专家，我们介绍了CrossVis的关键功能开始与一个表格数据模型，协调多个链接的视图和性能增强，使复杂数据的可扩展的探索。接下来，我们将介绍平行坐标图的扩展，其中包括数值，时间，分类和图像数据的新轴表示，嵌入式双变量轴选项，动态选择，焦点+上下文轴缩放以及关键统计值的图形指示器。我们通过两个科学用例展示了CrossVis的实际有效性;一个侧重于理解来自基因工程项目的神经网络图像分类，另一个涉及对历史飓风观测的大型复杂数据集的一般探索。我们的结论，clude与讨论领域专家的反馈，未来的增强功能，以解决局限性，和跨学科的过程中使用的设计CrossVis。© 2020作者（S）。由Elsevier Ltd.发布。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）的网站上进行了介绍。1. 介绍对多元数据中的模式和关系形成全面的理解，其中所研究的现象受到多种因素的影响，对于释放当今庞大数据集的全部潜力至关重要，特别是在科学领域。无论是解释深度学习算法的输出，还是探索历史气候观测，科学家们都在重新审视这篇文章已被图形可复制性邮票倡议http://www.replicabilitystamp.org认证为可复制这篇文章是由教授推荐出版A. 戈麦斯*通讯作者。电子邮件地址： csteed@acm.org （中国） Steed ）， jgoodall@ornl.gov（J.R.Goodall），chaej@ornl.gov（J. Chae），trofimova@ornl.gov（A.Trofimov）。1本手稿由UT-Battelle，LLC根据与美国能源部签订的合同编号DE-AC 05 - 00OR 22725撰写。美国政府保留和出版商，通过接受出版的文章，承认美国政府保留一个非排他性的，付费的，不可撤销的，世界范围内的许可，出版或复制本手稿的出版形式，或允许他人这样做，为美国政府的目的。能源部将向公众提供这些结果根据能源部公共获取计划（http：//energy. gov/downloads/doe-public-access-plan）。要求交互式工具，以发展大型，多变量数据集的全面理解。为数据探索开发新的和改进的多变量可视化技术已经吸引了许多研究人员的注意，如Liu等人最近的调查所证明的。[1]。然而，由于几个原因，对这些数据的真实世界分析仍然是一个重大挑战。其中一个挑战源于探索日益庞大的数据量的技术困难。另一个问题是为科学家提供有效的意义制造技术（例如，可视化表示、交互式查询）。在实践中，多变量数据集通常包含异构数据类型、缺失值和质量问题，这加剧了问题。即使是中等大小的数据集，异构数据类型也是彻底数据探索的重大障碍。但是当数据集很大并且包含数据类型的混合时（例如，数值、分类、时间和图像数据），利用现有的工具充分理解数据变得越来越困难，尤其是当科学家希望在分析过程中自由导航替代路径时。为了形成全面的理解，科学家需要应对这些挑战的全面解决方案。https://doi.org/10.1016/j.gvc.2020.2000132666-6294/© 2020作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）的网站上进行了介绍。可在ScienceDirect上获得目录列表图形与视觉计算期刊首页：www.elsevier.com/locate/gvc2C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）200013Fig. 1. CrossVis系统提供了多变量数据的多个交互式视图，这些视图使用单个表格数据模型进行协调。主视图是平行坐标图的扩展版本，辅以散点图、相关性可视化和图像视图，以促进创造性的探索性数据分析。CrossVis可视化分析为解决这些问题提供了一种可行的方法[2，3]。通过将交互式可视化与计算指导相结合，精心设计的可视化分析系统利用人类和计算优势来改善数据驱动研究的结果。然而，对于非可视化专家来说，可用于大型、异构和多变量数据的可视化分析技术的数量很低，这些数据在现代科学研究中无处不在，特别是当需要组合功能时。鉴于这些和其他实际挑战，我们已经开发了CrossVis视觉分析系统（如图1所示）。与领域专家合作。CrossVis扩展了参数坐标图（PCP）[4]，以支持几种非数值数据类型的新轴表示，嵌入式二元PCP轴，链接的补充可视化，焦点+上下文轴缩放以及不同细节级别的视图。渐进式绘制算法和优化的数据模型为大型数据集提供了支持。这些功能是由多个科学领域的领域专家的反馈激发的。本文介绍了这些方法的设计和集成到一个灵活的系统，使全面的多元数据勘探。目前工作的主要贡献包括：• 数字、分类、时间、图像和双变量PCP轴的新视觉表示，当与链接的补充可视化和交互式查询方法相结合时，可以揭示异质多变量数据的趋势和模式• 与CrossVis提供的视觉表示相关的功能设计考虑，包括替代方法的讨论• CrossVis的概述，描述了将几个PCP扩展（视觉表示和交互技术）合并到一个综合系统中，该系统大于其各部分• 领域专家在将CrossVis应用于实际科学数据分析场景2. 相关工作CrossVis采用多种可视化方法，例如散点图、平铺图像视图和相关热图，但焦点是经典PCP技术的扩展。 Inselberg[4]最初将PCP作为一种可视化多维几何的方法推广，后来Wegman[5]将其应用于多变量数据的分析。标准PCP方法通过将N维数据元组C与坐标（c1，c2，. . . ，cN）到N个平行轴上的点，这些点使用一个连接器连接[6]。PCP是有吸引力的勘探数据分析-这是因为它将高维数据集转换为二维图，而无需降维。尽管可以显示的变量数量仅受显示器分辨率的几何限制，彼此之间，有着最明显的默契。为了分析由一个或多个轴分隔的变量之间的关系，从分析算法导出的信息的交互和表示是必要的。正如最近对五氯苯酚方法的调查[7、8]和Inselberg所著的一本关于五氯苯酚的书[6]所表明的那样，改进和应用五氯苯酚的动力引起了相当大的关注。除了该技术的扩展之外，先前工作的很大一部分涉及PCP在各种领域的应用，如气候科学[9-[14]生物医学[15]，医疗保健[16]，环境污染。[17].CrossVis基于Siirtola[18]中描述的直接交互技术和Inselberg[6]审查的可视化数据挖掘方法实现了几种常见的PCP交互。这些交互增强了探索性数据分析，并包括按需选择、可重新排序的轴和详细信息。CrossVis还根据Hauser等人[19]的早期设计，使用各种汇总统计量的图形指标扩展了标准PCP轴。目前的工作描述了这些互动的扩展，以及新的视觉表示的联系。C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）2000133PCP和散点图[20]是两种最流行的多变量数据可视化技术。由于互补的特征，一些先前的工作已经使用协调多视图（CMV）策略[22]将两者结合到单个布局[17，21]中。Yuan等人[23]介绍了散点技术，以便在PCP轴之间嵌入散点图点。PCP和散点图都擅长显示变量之间的相关关系[24]。一些先前的工作直接用图形指标增强了标准PCP，这些图形指标编码相关性指标，如Pearson相关系数，以指导用户发现潜在的重要趋势[18]。Zhou和Weiskopf[25]通过引入多变量相关性的索引点表示法，深入研究了使用PCP的相关性分析除了补充散点图和相关性指标外，CrossVis还能够在主PCP视图中交互式嵌入轴之间的散点图，以研究成对相关性。尽管绝大多数PCP方法都侧重于数值计算，数据，表示其他数据类型的愿望激发了PCP的扩展。Kosara等人[26]引入了QuanelSets技术，允许分类数据的交互式表示。Fernstad 和Johansson[27]证明，在频率相关任务中，SpectelSets方法优于最近，Vosough et al.[28]描述了并行层次技术，它使用并行Icicle Plots来显示层次分类数据。CrossVis包括一个变量的表示分类数据的方法，以及时间和图像数据的新表示法。据我们所知，CrossVis代表了第一个PCP系统，在单个PCP框架中支持数值，时间，分类和当处理一些中等和最大规模的数据集时，PCP容易出现过度绘图和遮挡[24，29]。聚类[29，30]和分箱方法[31]通过减少渲染的折线数量来解决这些问题。其他方法包括阿尔法混合和显示统计表示（例如，摘要统计，直方图），代替或结合折线，以更高层次的细节表示数据[18，19，32，33]。最后，图形处理单元（GPU）[34]和分布式计算基础设施[35]都被用来提高PCP的渲染速度和可扩展性。CrossVis使用渐进式渲染算法，利用系统GPU提高性能。此外，CrossVis使用原始数据的统计表示来提供汇总的详细程度，从而减少了表示大型数据集的每个单独数据集CrossVis还为PCP集成了焦点+上下文技术，该技术允许用户在保持上下文意识的同时，使用密集的多段线簇在数值和时间轴上放大感兴趣的范围，类似于Novotnovel等人的工作。[31]以及更近的Richer等人。[36]其中焦点+上下文方法是用抽象PCP形式3. 设计要求十多年来，我们与来自气候、材料科学、制造业和其他从事多元数据分析领域的科学家密切合作。通过这些接触，我们观察到两个基本限制。在这些合作的开始，科学家们经常说他们没有检查足够的数据。这个问题部分是由于数据量大，但其他因素也起作用，如异构数据类型的可视化支持不足和查询支持繁琐。科学家们还指出，尽管他们擅长他们发现了已知的模式，新的发现出现得很慢。这个问题可能与无法交互式地探索完整的数据集以及应用专注于已知关系的自动化方法或工作流程有关，这可能导致锚定偏差。我们假设，更灵活的以人为本的交互、可扩展的可视化和适用于特定数据类型的比较技术是解决这些问题的可行方案。在本节的其余部分，我们将更详细地考虑这些问题，并提出指导CrossVis开发的设计要求。R1：可视化应该显示异构数据类型的区别多变量数据的可视化通常将时态和分类数据转换为数值，因为更广泛的数值表示是可用的。然而，这一过程往往导致误导性的统计摘要和信息特征的原生数据类型被丢弃。因此，CrossVis包括针对关键数据类型（例如，时间的、分类的、图像），以便能够进行更全面的分析。R2：系统应支持变量和子集的灵活比较分析比较不同变量和/或值子集的能力使科学家能够自由地提出问题并探索更多数据。由于可以比较项目的方式的数量，这种功能对于多变量数据集，特别是异构数据，是非常有用的。为了满足这些需求，科学家需要快速选择数据的能力。此外，视觉表示必须清楚地突出显示选择之间的变化。通常，直接和间接选择都是必要的;通过间接控制选择参数的精确调整功能可以补充快速和近似的直接选择。R3：系统应该通过视觉表示中的突出显示，在单独的数据视图中清晰地链接选择。单独的可视化应该通过交互来链接，以便将一个视图中的更改传播到所有视图。每个视图都应该被设计为清楚地传达数据的特定方面，以增加发现新见解的可能性。实现这一要求的可行方法是提供协调的多视图，其中使用单独的数据模型管理交互，该数据模型通过基于事件的侦听器接口共享选择状态。R4：系统应保持响应性交互和可视化。探索性数据分析技术必须保持响应性交互，以避免干扰认知流程。通过生成线程来处理交互、摘要和渲染的不同方面，系统可以协调处理需求，并对交互性能至关重要的任务进行优先级排序。启动渲染线程以渲染更新数据的子集并逐步细化可视化。其结果是增加了感知的可伸缩性与大型数据集。此外，计算优化、预处理和缓存策略有助于维持交互性能。建议5：可视化应该支持多尺度的视图。渐进式渲染的一种补充方法是以不同的细节级别汇总原始数据，以减少显示数据本质所需的图形元素的数量。除了减少渲染时间外，汇总视图还可以减少遮挡和混乱。在CrossVis中，变量详细信息显示是使用统计摘要的层次结构来实现的，这些统计摘要向下钻取到原始数据视图。R6：可视化应显示带有上下文的放大视图。焦点+上下文技术允许用户扩展或放大到整个数据空间中的特定感兴趣区域，这有助于按需选择性地探测更高级别的细节。聚焦区域放大特定范围内的数据，并提供上下文，4C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）200013图二. 表格数据模型支持多种数据类型，并提供对原始数据和统计摘要信息的访问。数据模型还协调跨链接的可视化的用户查询通过保持聚焦区域在整体中的邻近性来实现实际感知。这些功能使密集的形状簇更清晰。4. 介绍CrossVis系统如图1所示，CrossVis由一个主要的可视化面板组成，该面板由其他链接视图补充。除了详细的表格视图外，主面板还增加了一个投影矩阵、散点图和基于图像的可视化。主可视化面板是PCP的扩展，具有轴表示和嵌入式可视化的独特组合统计信息。CrossVis是一个开源应用程序2，具有性能增强功能，可满足R4中提到的大规模分析需求。JavaFX图形库用于呈现几何形状，JavaFX用户界面库用于布局、菜单和窗口。这些库自动利用系统GPU以独立于平台的方式提高渲染性能。此外，渲染算法使用并行线程来优先显示更突出的视觉特征，并逐步揭示更多的细节。在本节的剩余部分中，将描述数据模型和关键数据可视化技术4.1. 表格数据模型CrossVis由定制开发的表格数据模型（见图2）支持，该模型使用行和列对象的集合存储原始数据、派生统计数据和选择标准。该数据模型是CrossVis中的关键组件，是满足所有前述要求（R1数据结构在加载文件时被分配到工作内存中，但这些结构并不像典型的数据库系统那样被序列化到磁盘上。该数据模型提供了优化的统计汇总、快速数据访问以及对数值、分类、时态和图像数据列的模块化支持。在内部，行数据使用泛型对象数组存储在本机数据类型中。实现了一种基于行的数据结构，以匹配PCP渲染算法的访问模式，该算法将行元组显示为折线。列对象存储元数据和汇总统计信息，2CrossVis可在https://github.com/ORNL/CrossVis上获得。提供用于访问作为本征值的数据元素的便利方法。还集成了缓存机制以提高性能。数据模型使用列选择标准（例如，值范围、值集合）和基于事件的列表器接口来传播改变。数据视图作为侦听器注册到数据模型中，并实现一组接口方法来响应更改。数据视图将用户交互传输到数据模型，数据模型通知注册的侦听器。为了快速访问，数据模型还维护一个查询对象，该对象保存列选择条件以及对当前选定行和行的引用。列对象存储总体数据分布的汇总统计信息。查询对象还存储选定行和查询行的列汇总统计信息。当可视化中的选择标准发生变化时，数据模型会检测到变化并更新统计摘要，这会触发事件侦听器界面并强制其他视图重新绘制。摘要为可视化提供了一个快速的细节层次，支持多个比例视图。标准描述性统计（例如，平均值、中位数、标准偏差、四分位距）被计算用于数值列，并且基于频率的统计（例如，直方图）被计算用于数值、分类、时间和图像数据。CrossVis数据模型的性能高度依赖于主机系统的处理器、显卡和内存配置。大多数开发都发生在MacBook Pro上，配备16GB随机存取内存，3.1GHz Intel Core i7处理器，4GB AMDRadeon Pro 5600 GPU由于数据文件包含少于10， 000行，CrossVis保持响应式交互和渲染。随着行数的增加，响应性往往会受到影响。然而，在PCP中绘制如此大量的线和在散点图中绘制如此大量的点通常是没有用的，因为过度绘制的副作用使其难以看到模式。在这些情况下，CrossVis旨在显示直方图和/或汇总统计数据。这些更高级别的视图能够揭示更大数据段的模式，用户可以使用交互式查询技术选择子集，以根据需要绘制折线。该方案利用详细层次结构的级别来允许探索包含超过100，000行和十几个或更多列的数据集。可以实现进一步的性能增强，但这些数据规模代表了我们的目标用户的最佳点4.2.平行坐标的新轴表示主可视化面板扩展了PCP方法，以包括特定数据类型和统计信息的新表示。PCP多段线对应于数据模型中的行元组，垂直轴对应于列。除了微妙的修饰（例如，增量线渲染，自动轴布局），CrossVis PCP设计包括新的轴表示，支持额外的数据类型（寻址R1），统计信息的补充显示（寻址R5），以及焦点+上下文缩放（寻址R6）。在本节的其余部分中，将介绍这些扩展。4.2.1.数轴表示法数值PCP轴通过图形统计摘要（见图3）进行扩充，并通过第4.2.5节中描述的焦点+上下文缩放技术进行增强。典型值（平均值或中位数）和离差范围（以平均值或四分位距为中心的标准差范围的两倍）均显示在轴条内部。用户可以使用应用程序菜单在基于平均值或中位数的统计数据之间切换。这些统计数据是针对值的总体分布、选定数据和已删除数据计算的。为C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）2000135「由于半透明直方图箱不能完全掩盖连接到其后面的轴的多段线，所以引入了TER，但是单色是柔和的，并且通常看到单独的多段轴相交的能力是有用的。在确定对称直方图设计之前，我们用另一种方法进行了实验，其中只在轴的一侧绘制箱。这种不平衡的设计使得当一个轴位于另外两个轴之间时很难看到趋势。此外，不平衡的设计在视觉上与其他视觉元素不一致，这些元素大多是对称的。我们还尝试了将bin计数映射到轴条边缘上一组较小矩形的填充颜色，一张垂直的热图虽然使用颜色需要较少的空间，并避免了遮挡，但比较相对的bin计数，特别是细微的差异，更加困难。Mackinlay[37]报告了位置编码技术优于颜色编码技术。可以显示直方图而不是多段线，以提高大数据的性能。直方图比汇总统计量提供更多的细节，但比单行少。因此，通过显示统计图形、直方图和单独的折线，可以形成一系列越来越详细的视图，解决R5问题的详细级别方案。图三. CrossVis数值轴使用描述性统计和频率统计的图形统计总结进行了增强。总体汇总、选定/未选定汇总和散点图以可视化方式显示，提供汇总视图，以补充详细的PCP多段线。总体分布（参见图3中的总体统计指标作为与较小子集进行比较的基线。总体统计指标的狭义版本（见所选数据的统计数据显示在左侧，而图表显示在右侧。所选和已选择的统计指标通过颜色与所选和已选择的多段线进行可视化链接;两个离散矩形填充有当前所选或已选择的颜色，用户可以使用PCP面板上方工具栏上的按钮进行修改（见图1）。①的人。这些指标用半透明填充色绘制在整体指标上，以避免完全掩盖整体统计信息。数值轴也可以将基于频率的统计数据显示为轴条外部的垂直直方图（见图3）。一个标准的直方图计算的总体分布和所选择的数据使用覆盖相等大小的值区间的仓。仓的数量最初被设置为k = n，其中n是数据模型中的行数，但用户可以调整bin通过应用程序菜单计数使用对称布局，直方图箱矩形显示在轴的两侧矩形宽度对落入bin范围内的值的数量进行编码当前为每个容器选择的值的百分比编码为在整个容器矩形上绘制的半透明矩形的宽度。为了保持一致性，所选的箱矩形当同时显示直方图和折线时（见图9b），密集的直方图聚类可能会对bin计数的解码产生负面影响。为了处理这种情况，添加了一条细白线， bin矩形的外边缘和bin轮廓笔划颜色与填充颜色具有高值对比度。这些颜色效果旨在使直方图轮廓更加突出。一些乱七八糟的-4.2.2.时间轴表征时间轴（见图4）类似于数值轴。因为数据模型将值存储为使用日期-时间匹配字符串寻址R1显示的时刻、标签、悬停值和范围选择。时间轴条显示连续值范围，并使用焦点+上下文轴缩放技术（见第4.2.5节）。代替描述性统计，轴内部显示垂直时间直方图，其中箱矩形水平居中。为了给直方图提供更多的空间，时间轴条比数值轴条宽。将直方图定位在轴条内有助于避免交叉点的遮挡。与数值轴上的直方图类似，整体直方图箱用显示选定值百分比的矩形进行扩展。时间直方图的对称性在视觉上将其与数字轴上的直方图统一起来。与数值直方图不同，时间直方图始终显示。在早期的设计中，时间直方图绘制在轴杆之外。这种替代设计与数值直方图具有更强的对应性，但它留下了空轴内部。我们通过使轴杆更窄来补偿空的空间，但是这种方法破坏了轴杆处理的整体一致性。我们决定采用内部表现形式，以利用这个机会避免遮挡交叉路口，同时牺牲一些视觉统一。在未来，我们计划重新审视时间轴设计，以探索在轴条内部编码额外统计信息的方法（例如，动态时间规整相似性度量[38]）。4.2.3.分类轴表示法分类轴表示（见图4）强调类别的相对频率。类别被表示为轴条内的直角.在图4中，“状态”轴有五个类别。此图还显示了类别矩形的两种显示方式。在左侧，类别矩形的高度映射到与其类别关联的行的百分比。在这种模式下，强调整体频率趋势以支持比较，但具有小百分比值的类别可能很难看到。图4中右边的用户还可以将类别名称显示为绘制在轴左侧的标签。6C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）200013见图4。CrossVis包括时间、分类和图像数据的新轴表示。每种数据类型的独特特征为设计提供了信息，并通过统计图形和散点图进行了增强。所有轴都支持交互式可视化查询。当选择折线时，类别矩形被分割成两个较小的矩形，其高度对选定（在顶部，填充有当前选定的中间颜色）和非选定（在底部，填充有当前未选定的中间颜色）折线的比率进行编码。例如，图4中右侧“状态”轴的“HU”类别示出了与“HU”类别相要选择与类别相关的折线，用户单击类别矩形。在图中的右侧“状态”轴上。 4、选择“HU”类别。通过再次单击类别矩形，可从选定内容中删除类别。当用户将鼠标悬停在一个矩形上时，工具提示会显示关于该类别的详细信息（见图8）。折线连接到整个类别矩形的垂直中心。在早期的设计中，我们评估了使用多边形形状覆盖类别矩形的整个高度的表示，其方式类似于MaxelSets[26]设计。然而，在开发人员测试数据集时，多边形形状的大量行难以读取，特别是在数字（或时间）和分类列之间。通过在多边形方法上采用非线性表示，我们保持了与其他轴类型之间的表示的视觉一致性，并避免了混乱。然而，我们认识到，未来仍有改进的空间，分类轴上的表示。4.2.4.像轴表示对于由图像组成的列，CrossVis具有独特的轴表示。如图4所示，图像在视觉上由轴条内的水平刻度线表示。图像刻度线的顺序刻度线使用选定颜色或默认颜色着色。当用户将鼠标悬停在刻度线上时，其线条的粗细会增加，显示在轴杆的左侧通过单击刻度线或拖动选择范围来选择图像。要显示图像，用户按下控制键修改器，同时单击或拖动。选定的图像由轴的左侧和右侧的橙色突出显示指示（参见图4）。因为选择是使用不同轴之间的OR操作组合的，所以图像可以被包括在图像轴上的选择中，但是这些图像与所选择的多段线的当前整体集合不相关联（参见图4中的“硅藻图像”轴上的上部轴选择在这种情况下，突出显示选定图像可防止图像轴上的选择变得不可见。4.2.5.焦点+上下文轴缩放密集的五氯酚聚簇由于过度绘图而使其难以破译。调整多段线的不透明度会有所帮助，但问题并没有完全消除，特别是对于大型数据集。为了解决这个问题并解决R6，CrossVis建立在 MDX[11] 中引入的动态轴缩放技术的基础上。CrossVis实现提供了更多的聚焦范围控制，并增加了对时间轴的支持。如图5所示，上上下文区域和下上下文区域位于主聚焦区域的上方和下方。通过拖动焦点范围边缘的粗灰线来调整焦点区域范围。向下移动最大值边界线将减小范围值，向上移动将增大范围值。范围修改后，将重新绘制显示，这会将焦点区域中的多段线展开，并将一些多段线推入上下文。特别是当线从相邻轴的极端边缘连接到另一轴的相对边缘时（例如，一个轴的顶部到另一个轴的底部），上下文多段线可能在轴缩放后遮挡显示。如图5c所示，用户可以选择隐藏任一上下文区域中的多段线，以进一步减少混乱。4.2.6.二元轴表示支持双变量PCP轴表示，因为某些变量与另一个变量的关系更容易理解。例如，地理模式更加明显C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）20001374.3.补充散点图图五. 为时间轴和数值轴提供焦点+上下文轴缩放。在（a）中，聚焦范围，由聚焦区域和聚焦区域之间的粗灰色线标记，两个外部上下文区域被设置为整个数据范围。（b）重点范围线在50%和75%百分位数之间的放大数据中移动。在（c）中，隐藏上下文区域中的多段线以减少混乱。当纬度和经度值显示在散点图中时（见图1），9 a）。单变量PCP轴使得难以分析这些变量。使用与第4.3节中描述的补充散点图相同的设计，将双变量轴表示为散点图。然而，双变量轴嵌入PCP中，相邻轴的折线连接到散点图的y轴。通过在PCP中嵌入双变量轴，我们减轻了与分离视图相关的潜在感知问题，例如变化盲视[39]。任何一个单变量轴都可以与另一个单变量轴组合形成一个双变量轴。用户可以通过指定数据模型中的x和y列来手动添加双变量轴，或者用户可以在目标上拖动并释放x轴。y轴。4.2.7. 其他交互式轴选择注意事项查询和过滤数据的能力对于有效的探索性数据分析至关重要。CrossVis的选择功能满足R2的比较分析需求。如图3所示，用户可以选择数值和时间轴上的值范围内的折线。通过使用鼠标在轴条上直接拖动范围选择，支持多个轴上的多个选择（参见图4）。用户可以通过点击分类轴上的相关矩形来选择类别，并通过点击相关刻度线来选择图像。用户可以通过在散点图中拖动矩形来设置双变量选择。为了精确控制，用户还可以使用Axis Selections（轴选择）选项卡手动添加所有轴类型的选择（见图底部）。①的人。轴选择使用橙色高亮颜色在视觉上统一。对于范围选择，选择矩形的填充颜色使用突出显示颜色。对于分类和图像选择，矩形或刻度线会增加一个橙色光晕。用户可以直接与选择指示符交互以移除项目或调整范围。若要在存在多个选择时计算选定多段线的子集，首先将析取（OR）运算应用于各个轴上的选择，然后将合取（AND）运算应用于轴之间的选定值。此逻辑允许用户考虑分散在各个轴的非连续值范围内的值以及不同轴之间的关系。除了能够直接在PCP中嵌入散点图之外，PCP轴下方还显示了小散点图（寻址R3）。当一个轴被突出显示时（见图8），补充散点图显示了突出显示的轴与所有其他轴的成对关系。也就是说，每个散点图的x轴映射到突出显示的轴，y轴映射到散点图上方的轴。当没有突出显示轴时（见图9b），散点图显示在轴之间的空间中，其中x轴是左轴，y轴是右轴。柔性散点图和嵌入的双变量轴散点图都可以被确认为在轴边界上显示刻度线并传达单变量分布。散点图擅长传达非线性趋势和聚类。此外，科学家通常熟悉散点图，将散点图与PCP（通常对他们来说是新的）一起显示可以增加理解。因此，这两种技术的结合比单独显示更有价值4.4.轴相关系数表示支持R2和R3要求，数值轴之间的相关性以几种方式显示。用户可以从PCP中的配置中收集相关性（例如，“X”形交叉表示负相关，更多的水平交叉表示正相关）和散点图中的点配置。此外，皮尔逊相关系数的直接编码，r在补充散点图上方显示为彩色填充矩形（见图4）。r值被映射到一个色标，其中最饱和的蓝色表示完美的正相关，最饱和的红色表示完美的负相关，白色表示没有相关。用户可以将鼠标悬停在单元格上以查看确切的r值。如图1所示，CrossVis还使用与平行坐标图中的指示器相同的颜色编码方案显示了链接的相关矩阵。在矩阵热图的右侧，显示了r值色标。4.5.图像集和单个图像视图CrossVis提供两个单独的图像视图（寻址R3）：平铺图像集视图和详细图像视图（参见图1）。两个视图顶部的滑块允许调整图像的大小。图像集视图链接到主窗口中的其他可视化。选择多段线后，选择集中的图像将使用选定的渐变色晕圈。同样地，被渲染的图像被未选择的颜色晕圈。此外，所选图像位于顶部的图像集视图。在图1中，在第五行的第五个图像之后，可以看到选定图像和第二个图像之间的截断。当用户双击平铺视图中的图像时，会出现一个详细视图（见图1底部），使其更容易聚焦于特定图像。在图6中，详细的图像视图显示了图像的放大区域，其中显微镜视图的一些深色圆形形状（见黄色框）未被孔隙检测算法添加的红色轮廓5. 两个实用的科学用例在本节中，我们将介绍CrossVis的两个科学用例，以展示其数据探索功能。第一个重点是理解人工神经网络（ANN）的结果，该网络旨在对显微图像进行分类;激发CrossVis开发的激励第二部分描述了对历史飓风观测数据集的探索，8C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）200013图第六章详细的图像视图使科学家能够直观地检查与PCP中的折线相关的图像。这里的视图显示了硅藻图像，其中孔检测算法未能标记两个孔，由黄色框注释概述，可能是因为孔之间的边界模糊（对于该图图例中颜色参考的解释，请读者参考这篇文章的WEB版本）。说明了CrossVis5.1. 用例1：理解遗传工程橡树岭国家实验室纳米材料科学中心（CNMS）的科学家，其中一位是本文的合著者，使用人工神经网络对硅藻的扫描电子显微镜（SEM）图像进行自动分类，其中一些是遗传修饰的。人工神经网络预测图像是否对应于遗传修饰双原子是具有二氧化硅细胞壁的单细胞生物.硅藻是材料功能系统的吸引人的候选者，其应用范围包括光子学、传感、过滤和药物递送[40，41]。科学家们使用CrossVis来分析ANN结果，下面的叙述捕捉了他们的一些发现。除了“野生”或“修改”的ANN分类外，科学家们还计算了许多参数，这些参数量化了此外，提取孔隙面积分布并与高斯分布拟合以产生另外两个参数：高斯值和高斯σ。这些参数与方差度量相结合，总共产生六个定量值，补充了神经网络分类输出的分类值。本研究的目的是了解这些参数对区分修饰和未修饰硅藻图像的意义。我们首先选择“Type”轴上的此操作将选定的多段线和汇总统计量（以中位数/IQR模式显示）与标记为“修改”的图像以及标记为“未修改”的图像相关联，以便进行比较分析。在平铺图像视图中，有更多的孔（孔由单独的亲红色概述，cess），与“修改”图像相比在图1中的“硅藻图像”PCP轴上的悬停图像中，变化特别明显悬停图像位于平铺图像视图中第2行和第5列的交叉处。图6示出了图1底部的详细图像窗口的放大视图。图像显示，在右下角具有模糊边缘的两个孔（参见黄色高亮框）被孔检测步骤遗漏。在图7右侧的顶部细节图像视图中出现了几个其他遗漏的孔。使用CrossVis的视觉识别使科学家能够深入研究并发现这种微妙的模式，在这种情况下，这为改进孔隙检测过程提供了机会。此外，CrossVis我们将注意力转移到PCP来探索定量趋势。在图1中，“孔隙平均面积”、“预期高斯值”和“孔隙密度”轴的IQR矩形显示了两个图像类别之间的最大分离，这表明这些是区别特征。“孔隙平均面积”和“预期高斯”轴表现出强正校正（r = 0. 97），如热图上的饱和蓝色正方形和两个PCP轴之间的近水平折线所示。这一发现表明，这两个变量中的一个可以被删除，因为它们不能一起增加额外的价值。在所选择的矩形和WIQR矩形之间具有更多的重叠，“预期高斯”轴是用于去除的良好候选。“孔隙平均面积”和“孔隙密度”都在图8中，“类型”轴上的“修改”类别选择删除，并添加了大于中值的“孔隙平均面积”的范围选择。该选择捕获了29个59张图片，其中大部分属于“修改”类别。但是，一些“修改”图像被排除在外，一些“野生”图像被包括在内。工具提示显示选择了29个“WILD”图像中的7个。“MODIFIED”类别的工具提示（未显示）显示，选择了29个图像中的22个。这一发现证实了我们从早期目视检查中观察到的孔径和密度的重要性，并加强了多变量过程对图像准确分类的重要性。正如领导这项分析的材料科学家所说：“这些信息表明，并不是“修饰”组中的每一个硅藻都经历了遗传修饰，这一“看一下图8中的图7中选择了这两条折线，右侧显示了两个相关图像。显示了前面讨论的“修改”图像，两个图像中的大范围像素波动证实了像素变化。5.2.用例2：分析历史热带气旋观测数据美国国家海洋和大气管理局（NOAA）维护着大西洋飓风数据库（HURDAT2），其中包含1851年至2017年期间大西洋盆地所有已知热带和亚热带气旋的位置，风力，中心气压和大小（自2004年以来）的信息。HURDAT2对于了解热带气旋的历史趋势非常重要，但记录数量（超过50，303行），变量数量（21列）和异构数据类型（分类，时间和数值）使其成为分析的挑战顶部用选择颜色晕圈，下面这种观点表明，3HURDAT2可在www.example.com上查阅https://www.nhc.noaa.gov/data/。C.A. Steed，J.R.Goodall和J.Chae等人图形和视觉计算3（2020）2000139见图7。在“方差”轴上选择两个离群值图像。图像的像素差异，都被归类为“修改”，在右侧的缩略图中很明显。这些图像在除了“孔密度”轴之外的所有轴上都是异常值见图8。数值范围选择用于比较具有高和低“孔隙平均面积”值的图像。IQR矩形在“孔隙平均面积”轴上的分离表明这些轴对于区分两种“类型”类别（“野生”与“修饰”）的重要性。The ‘Type’ axis is highlighted, resulting in the display of在图9a中，示出了完整的HURDAT2数据集。尽管尺寸和数量可变，CrossVis在视觉调查期间保持交互性能（1秒<在图中，12个风半径轴（位于图的右侧）的比例尺被同步到一个公共范围，并且具有“无数据”风半径值的几个值风半径值提供了34节（34kt）、50节（50kt）和64节（64kt）最大风速范围的风幅大小信息。对于每个范围，以海里（nm）为单位提供四个象限的四个半径值：东北（NE）、东南（SE）、西南（SW）和西北（NW）。该视图显示，对于风速较高的场地，风带变得更紧（分散度更低），因为距离值从左到右减小，相关风速从左到右增加结果视图突出显示了5个具有非常大的“SE_64kt”值的记录（在图9a中选择）（参见该轴上范围选择所捕获的线）。使用数字数据表视图（未显示），我们发现这些记录来自2005年的飓风玛丽亚。根据这些记录，很明显，东南象限比其他风区轴（“SE_34kt”和“SE_50kt”）上的正常值大。选择结果还表明，风暴带的西侧在最强风区（'SW_64kt'和'NW_64kt'轴为0 nm）发生了在“状态”轴上，我们看到2005年飓风玛丽亚的记录被分配为“EX”类别，这表示地球中纬度地区（介于30°C和60°C之间）的一个事件。纬度位置在“纬度与Lon这些观测结果与中纬度地区的热带风暴变得不那么对称的趋势一致[43]

下载后可阅读完整内容，剩余1页未读，立即下载