多元科学数据的协同分析：变量和局部关系的探索

2 浏览量更新于2024-01-24 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学2（2018）254一个探索多元科学数据的协分析框架何向阳，陶玉波，王启瑞，林海浙江大学CAD CG国家重点实验室ar t i cl e i nf o文章历史记录：2018年11月30日收到2018年12月22日接受在线发售2018年MSC：00-0199-00关键词：多元数据双聚类当地协会a b st ra ct在复杂的多变量数据集中，不同的特征通常包括与不同变量的不同关联，并且不同的变量在不同的区域内相关联。因此，为了更好地理解潜在的现象，有必要探索变量和局部体素之间的关联。在本文中，我们提出了一个基于双聚类的协同分析框架，双聚类是具有密切标量值关系的变量和体素的两个子集，用于指导可视化探索多变量数据的过程。我们首先自动提取所有有意义的双聚类，每个双聚类只包含在变量子集上具有相似标量值模式的体素。这些biclusters组织根据其变量集，并在每个变量集中的biclusters进一步分组的相似性度量，以减少冗余和支持多样性在视觉探索。双聚类在协调视图中以视觉方式表示，以便于从双聚类之间的相似性和标量值与不同变量的相关性几个有代表性的多元科学数据集上的实验表明，我们的框架在探索数据中的变量，双聚类和标量值之间的局部关系的有效性2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍科学模拟通常会为复杂的物理现象生成具有多个变量的数据集。这些变量通常包括隐藏的关联，因为它们在模拟模型中的集体应用（Carr和Duke，2013）。例如，飓风是一个快速旋转的风暴系统，其特征是低压中心，强风，包括气候模拟中的暴雨。然而，多变量数据的异质性和复杂性使得有趣的关联的提取非常具有挑战性，这些关联通常仅位于变量的子空间和体素的子集中例如，飓风眼可能与压力和风有很强的关联，而眼墙云可能与水蒸气和云湿度有很强的关联（Liu和Shen，2016）。因此，在局部提取变量之间的隐藏关联并基于关联变量检测局部特征将是有意义的在多变量数据分析中，已经提出了各种各样的技术来探索数据中变量/体素的关联。在体素级别，数据挖掘领域中的许多聚类算法已经被用于将相关联的体素自动分组为特征（Tzeng和Ma，2004; Van Long和Linsen，2009; Wu等人，2008）。，2015）。体素之间的相似性度量通常*通讯作者。电子邮件地址：taoyubo@cad.zju.edu.cn（Y. Tao）。同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2018.12.005定义在所有变量的标量值上。因此，检测仅依赖于变量子集的特征可能是具有挑战性的，因为其他不相关的变量可能由于维数灾难而对聚类产生负面影响在变量水平上，变量之间的许多相关性度量，诸如梯度相似性度量（GSIM）（Sauber et al. ，2006），皮尔逊积差相关系数（Sukharev et al. ，2009）和互信息（Wanget al. ，2011年），最近已经提出。这些度量通常是所有体素的平均相关值。因为变量的子集可以在局部区域中强关联，所以期望提取不同局部区域中的变量之间的这些局部关联，而不是基于所有体素的全局关联。此外，这些方法自动分析体素的相似性或变量的相关性独立。变量和体素应该一起分析，而不是单独分析，以确定它们之间的多维传递函数可以考虑两个变量，表和体素中的感兴趣的特征的手动分类例如，可以通过在并行坐标中逐渐选择几个变量的标量值区间来指定特征（Zhao和Kaufman，2010; Guo等人，2011）。，2011）或通过在散点图矩阵中指定高斯函数（Lu和Shen，2017）。在这种情况下，这些变量可以是相关联的，并且它们的相关标量值区间包括特征的定义，特征的体素包括在这些相关联的变量上的类似标量值图案。在本文中，我们称之为变量和体素之间的双聚类，它表示变量的两个子集，2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfX. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254255具有密切标量值关系的体素虽然手动规范在获得各种双聚类方面表现出灵活性的优势，但它可能很费力，并阻碍了探索性分析中数据的全面此外，该规范在很大程度上依赖于用户的领域知识和技能，以确定有意义的特征中在实践中，用户必须迭代地细化规范以搜索满意的结果。当多变量数据中有许多变量时，由于搜索空间很大，几乎不可能找到所有有意义的特征这就需要自动找到变量和体素之间所有有意义的双聚类为了满足这些需求，我们提出了一个基于双聚类的协同分析我们的框架首先通过同时聚类变量和体素（第4节）来生成所有双聚类（局部关系）。体素的标量值在双聚类中的变量上表现出类似的模式，包括特定的值组合。因为每个双聚类与变量的子集相关联，所以它们可以通过变量集进行组织，以分层地探索变量和双聚类。由于双聚类生成的完整性，一些双聚类可能会相互重叠，因此可以基于双聚类之间的相似性度量对具有相同变量集的双聚类进行分组（第5节）。为了直观地探索双聚类，我们设计了一个具有四个协调视图的可视化分析系统，以揭示多变量数据中的三个方面的关系（第6节）：变量，双聚类和标量值。变量和双聚类之间的关联矩阵的设计，以方便搜索相关的变量。通过降维显示变量集中的双聚类，分析双聚类的相似性一个增强的平行坐标被用来探索一组双聚类或双聚类的标量值的相关性。基于探索指南，我们在不同领域的多个多元数据集上进行实验，以证明我们的协分析框架的有效性和实用性（第6节）。本文是我们的会议论文的扩展版本（Heet al. ，2018a）的IEEE科学可视化会议（SciVis）。具体而言，我们的会议论文的扩展包括以下内容：基于方差最小化方法的双聚类生成的详细描述（第4节），一种新的基于双聚类的变量间相关性测度（第5.1），用于呈现相关体素的统计分布的增强平行坐标（第6.3节），以及，电离锋不稳定性资料（6.1节）和飓风伊莎贝尔资料（7.1节）的两个新实验。2. 相关工作多元数据分析和可视化，作为与科学可视化相关的主要挑战之一，长期以来一直是活跃的研究课题（He et al. ，2018 b;Kehrerand Hauser，2013;Fuchs and Hauser，2009）.在本节中，我们简要回顾了以前的研究相关分析和交互式分类的多元数据。2.1. 相关分析在多变量数据中发现隐藏的相关性是许多计算分析领域的共同挑战多年来，人们提出了许多相关分析方法来探索变量和标量值之间的关系。信息论为度量变量间的全局相关性Biswas等人（2013）采用互信息来衡量一个变量关于另一个变量的信息量，并在基于图的方法中基于互信息对变量进行分组。Wang等人（2011）应用转移熵来研究时变多变量数据中变量之间的因果关系，并且变量之间的相关性被可视化地编码在节点链接图中。这些方法考虑了整个数据，捕捉不同地区变量之间的局部相关性是一项挑战。已经提出了许多局部相关性度量来捕获每个体素处的相关性，并且变量之间的相关性可以通过所有体素的相关性值的总和来测量 Sauber等人（2006）提出了梯度相似性度量（GSIM）和局部相关系数来度量每个体素处的局部相关性。此外，他们还引入了多场图来概述变量之间的相关性Gosink等人（2007）通过对两个变量的两个梯度场进行归一化点积，推导出了一个相关场。Jänicke等人（2007）将局部统计复杂度的概念扩展到多个领域，以识别在多变量数据中表现出相同行为的时空结构。 Sukharev等人（2009）将Pearson积矩相关系数应用于体素时间曲线上，分析时变多变量数据中两个变量之间的线性相关性。Nagaraj等人（2011）提出了一种基于梯度的相关性准则，即偏导数矩阵的范数，以捕获多个标量场之间的相互作用。相关字段被可视化以检测具有高相关值的区域在这项研究中，我们si-multivariate集群变量和体素自动提取biclusters和采用的biclusters，体素的子集，而不是在以前的方法中的所有体素，以更好地衡量局部区域的变量的子集的相关性除了变量之间的相关性之外，不同变量中的标量值之间的特定局部关系最近受到了相当大的关注。 Biswas等人（2013）应用了惊喜和可预测性指标来衡量一个标量值相对于另一个变量的可变性。Liu和Shen（2016）将两个变量的标量值之间的双向交互因为一个双聚类包括在变量子集上具有类似标量值模式的体素，所以我们可以直接分析多个变量中标量值之间的这种局部关系。2.2. 交互式分类特征分类对于有效地探索多元数据是必不可少的。对于多元非空间数据，有许多研究得很好的可视化和交互式探索技术来显示数据的分布和关系。这些技术包括平行坐标和散点图。平行坐标表示每个维度上的信息，包括邻域轴之间的相关性（Inselberg，1985;Inselberg and Dimsdale，1990）。散点图使用降维技术显示高维数据，例如多维标度（MDS）（Cox和Cox，1994）和t-SNE（van der Maaten和Hinton，2008），因为在投影后可以很容易地识别和选择聚类以前的多变量数据分类方法主要依赖于这些技术。在多元数据可视化中，Zhao和Kaufman（2010）介绍了多维传递函数设计的平行坐标，通过指定相关变量的几个标量值区间Guo等人（2011）提出了一种新颖的传递函数设计接口，····256X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254sys，uy，×∈⊂∈⊂D -}={−}- -坐标和MDS图，以促进多变量数据中的特征规范Lu和Shen（2017）提出了一种自下而上的子空间探索工作流程，允许用户交互式设计多变量传递函数，并引入了额外的信息来指导用户选择子空间，发现有趣的功能。虽然多维传递函数可以灵活地指定特征，但在探索性分析中搜索所有有意义的特征在这项研究中，我们自动提取所有有意义的biclusters，并直观地探索散点图中的biclusters的相似性，以及在平行坐标系中的biclusters的标量值的相关性3. 概述双聚类，也称为共聚类或同时聚类（Hartigan，1972），通过在各种领域（例如DNA微阵列数据分析、文本挖掘和信息检索）中同时聚类行（对象）和列（属性）来解决这个问题双聚类还广泛用于可视化，例如可视化相关基因和基因表达矩阵的条件（Santamaría et al. ，2008），减少大量边缘的视觉混乱（Liu etal. ，2017），在高维数据中解释子空间聚类结果（Liuet al. ，2015），以及从文本数据集发现协调关系（Sun et al. ，2016年）。在数据挖掘领域中，双聚类方法可以有效地提取具有内聚性的对象，属性子集上的类似标量值模式。本研究将双聚类应用于多元科学数据的分析如果变量和体素分别被认为是属性和对象，则我们可以使用双聚类方法在变量的子集上提取具有类似标量值模式的内聚体素本文中的bicluster因此，双聚类由变量的子空间和体素的子集组成，并且这些体素在这些变量上表现出类似的标量值模式，包括这些变量的特定值组合换句话说，这些变量在这些体素的空间中局部关联，并且这些变量的对应标量值通过这种方式，双聚类提供了这些4. 双簇生成在双聚类/共聚类的范畴中有许多方法可以用来生成双聚类。它们之间的主要区别是集群策略。最流行的双聚类方法之一是方差最小化方法（Oghabian et al. ，2014），其已经在基于模式的聚类的名称下被广泛研究。基本的解释是，一个对象通常在几个属性上表现出类似的标量值模式。因此，本研究采用方差最小化方法来生成双聚类，因为多变量数据中的局部特征/现象也可能在几个变量上示出变量子集的特定值组合，包括两个变量中的两个相关标量值（Liu和Shen，2016）。例如，让我们考虑具有五个体素的十个变量图2（a）.很明显，五个体素之间没有清晰的模式。然而，如果我们选择两个子集的变量，如图。分别在图2（b）和2（c）中，体素v1、v4和v5遵循类似的标量值模式，即，在变量集合{A，C，G，I}中的相干图案，而体素v1、v2和v3共享变量集合{B，E，I，J}中的另一相干图案方差最小化方法是一种有效的方法，通过同时分析变量和体素自动提取这些基于模式的双聚类。这可以降低用户在进行多元数据探索性分析由于数据中的现象可能无法很好地分离，因此双聚类不需要是排他性的。因此，本研究选择Maple（Pei et al. ，2003），这是作为协分析框架的基础的方差最小化方法中的一个重要算法，因为它可以识别重叠聚类并保证双聚类搜索的完整性。我们首先组织所有变量（维度）Dd0，d1，. . . 、M1以及体素Vv0，v1，. . .，vN1，其中M和N分别是多变量数据中的变量和体素的数量。矩阵中的每个条目si，j是第i个体素处的第j个变量的标量值。通过pScore（Pei et al. ，2003年）如下：体素此外，双聚类的相应空间区域可以被视为多变量数据的特征基于双聚类的概念，我们的协分析框架，pScore（[sx，usx，v]）=n（sx，u-sx，v ）−（sy，u-s y，v）n.（一）如图1，包括双聚类生成，分析和可视化探索，以指导用户探索多变量数据中局部关系的各个方面。我们首先自动提取所有的双聚类方法的基础上，从多元数据。每个双聚类包含变量、体素和标量值之间的局部关系。由于双聚类方法用于生成所有可能的双聚类，因此双聚类的数量可能非常大，并且其中一些用户几乎不可能交互式地逐个分析这些双聚类。因此，我们首先层次化组织双聚类的基础上，他们的变量集，用户可以探索双聚类的变量组合的上下文中。然后，我们设计了一个相似性度量的双聚类分组，以减少冗余。这对应于双聚类的三层次分析任务的语义分析（Zhao et al. ，2018年）。对于biclusters的可视化分析，我们提出了一个可视化的分析系统与四个协调的意见，以交互式地分析多变量数据中的局部关系，包括变量集的相关性所有这些视图都被链接起来，以支持对变量、双聚类和标量值中的局部关系pScore将相干性限制为2 × 2矩阵，并描述两个体素之间两个变量的标量值的变化显然，pScore越小，两个变量上的两个体素的相干性越大。pScore比其他模式定义更严格，对噪声更鲁棒（Kriegel et al. ，2009年）。使用pScore，我们可以定义双聚类（D′，V′），D′D和V′V，如果任意两个体素vx，vyV′on的pScore任意两个变量du、dvD′小于或等于用户指定的公差δ。大多数双聚类对应于V′中的体素在D ′中的变量上的特定值组合，在公差范围内，例如图 1 中的双聚类。二、科学家们更感兴趣的是在多变量的特定值组合中，以获得有关模拟中变量相互作用的以前的方法通常在搜索特定值组合之前应用数据分箱来强制执行公差（Liu和Shen，2016），而我们在聚类过程中应用公差以生成更完整的如果添加任何体素违反上述定义，则关闭双聚类。因此，我们必须只考虑一个变量集中的闭双聚类，为了简单起见，我们将闭双聚类称为首先使用深度优先搜索算法在较低维中找到双簇，然后合并双簇以解压缩。驱动更高维度的双簇变量集迭代地X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254257=⏐ ⏐Fig. 1. 多元数据的协分析框架。该示例包括八个变量我们的框架首先通过同时分析变量和体素来生成所有的双聚类。这些biclusters组织他们的变量集，并在分析阶段的相似性度量的基础上分层分组四个协调视图旨在直观地探索变量，双聚类和标量值中的局部关系。图二、一个biclusters的例子。（a）有10个变量和5个体素的数据集没有显示出明确的模式。（b）双簇（{A，C，G，I}，{v1，v4，v5}）显示出清晰的模式。（c）双簇（{B，E，I，J}，{v1，v2，v3}）显示另一个清晰的模式。图三. 一个运行中的双集群生成示例。(a)具有四个变量和五个体素的数据矩阵。（(e)变量枚举树说明了双聚类A的深度优先搜索过程。左子树对应于搜索过程（c）和（d），右子树的搜索过程在添加变量d3后完成，作为变量集{d0，d1，d2，d3}已在左子树中探索以多树的方式从两个变量扩展到所有变量。如果先前已经在同一树中探索了扩展变量集，则可以停止针对该子树的搜索过程以提高计算效率，因为已经生成了其用δ搜索过程的一个例子1 是illi-在图3中显示。我们使用变量枚举树和深度优先搜索系统地枚举变量的每一个组合。如图在图3（扩展变量集的体素集我们对每个双聚类重复这个搜索过程，以使用图中变量枚举树所示的深度优先搜索过程生成所有双聚类。3（e），枚举过程类似于挖掘频繁闭项集。在多变量数据中，体素的数量明显大于变量的数量每个变量集合包括多个相关联的体素集合，即，具有相同可变集合的多个双聚类。在多变量数据的探索中，双聚类可以如果它包含少量的体素，则在统计上不显著，并且这也可以减少双聚类的搜索时间因此，在深度优先搜索算法中有两个参数：δ，容差（ pScore （ D′ ， V′ ） <$δ ），以及 minv ，最小体素数（V′<$minv）。5. 双聚类分析由于双聚类方法保证了双聚类搜索的完整性，我们获得了多元数据中的所有双聚类。生成的双聚类不一定是排他性的，这意味着体素/变量可以出现在多个双聚类中。因此，双聚类的数量通常非常大，并且其中一些非常相似。为了便于视觉探索的biclusters，有必要组织和组biclusters，以减少冗余，并鼓励在视觉探索的多样性5.1. 双簇组织每个双聚类与一个可变集合相关联，并且一个可变集合通常与多个双聚类相关联。因为258X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254⏐⋂ ⏐=−=⏐⏐uv变量集的数量，即，变量组合远小于双聚类的数目，我们首先基于双聚类的变量集合来组织变量集可以分层组织，我们可以迭代地将变量集从两个变量扩展到多个变量，以降低双聚类分析的复杂性虽然先前的方法测量多个变量的全局相关性（Sukharev et al. ，2009; Wang et al. ，2011），我们可以通过分析其相关联的双聚类来测量变量集中多个变量的局部相关性由于体素的标量值通常在双聚类中的两个变量之间是线性的，因此我们选择Pearson相关系数来评估两个变量之间的线性相关性。由于体素在变量集中的这些变量上具有类似的标量值模式，因此最好仅使用相关联的体素来测量变量集中的多个变量的局部相关性，而不是使用先前方法中的多个变量的相关性是皮尔逊相关系数的最小绝对值在变量集合D′中的每对变量，如下：见图4。电离锋不稳定性数据集的关联矩阵。(a)具有至少四个变量的变量集合按其相关值排序。(b)变量H2被下钻到其子变量集，H2和其他变量之间的相关性显示在顶部条形图中。C（D′）=min{dcovv（du，dv）<$：du，d∈D′}，（2）σdσdv其中cov是协方差，并且σdu/σdv是变量集合的双聚类的体素中的变量du/dv的标准变量集的相关性可以帮助用户选择首先探索的5.2. 双聚类一些双聚类可能会彼此重叠，特别是具有相同变量集的双聚类。因此，我们分层组biclusters具有相同的变量集分层产生一个较小的一组相互足够不同的，但单独有趣的biclusters组进行交互式探索。聚类质量主要取决于两个双聚类之间的相似性度量。由于要分组的双聚类具有相同的变量集，并且每个变量的体素和标量值之间存在一对一的映射，因此相似性度量必须仅考虑双聚类中的体素。一个有前途的相似性度量是空间重叠，因为空间分布是在体积可视化中识别特征的更直观的方式。如果两个双聚类具有更多共同体素，即，在空间上有很大的重叠，它们彼此更相似。因此，相似性度量被定义为Jaccard相似性系数，如下所示：J（A，B）VAVB，（3）|V AV B|其中VA和VB分别是两个双聚类A和B的体素。使用相似性度量，凝聚层次聚类（Han et al. ，2011）被应用于对双聚类进行分组。两个双聚类A和B之间的距离定义为d（A， B）1 J（A， B）. 当组合两组双聚类时，平均连锁准则是两组之间距离的递归定义，用于计算两组之间的距离对于每个组，选择一个代表性的双聚类，例如具有最大数量的体素的双聚类，以指导用户在多变量数据中探索大的或不熟悉的双聚类请注意，相似性度量和聚类方法是当前适用于多变量数据的方法的一种选择。它可以被更适合数据的特定要求的其他相似性度量所取代6. 双群勘探通过特征子空间，包括它们的组和簇，我们设计了四个协调视图来可视化地识别、解释和比较多变量数据中的局部关系。6.1. 关联矩阵由于双聚类生成中的搜索过程，变量集本质上是分层的。变量集的层次结构有助于用户迭代地探索双聚类。我们提出了一个关联矩阵来显示变量集的层次结构矩阵布局的灵感来自组合矩阵，用于对集合、集合的交集和交集的集合进行定量分析（Lex etal. ，2014年）。关联矩阵中的每一列对应于多变量数据的变量，并且每一行对应于变量集合，包括变量集合的相关联的双聚类。默认情况下，没有关联双聚类的行是隐藏的，但在可视化浏览期间，可以根据需要显示它们。变量集中的变量用一个实心的黑圆圈编码，否则是一个浅灰色的圆圈，如图所示。四、因此，更直观地识别每行变量集中的变量，并且变量的名称在矩阵的顶部列出。变量集的其他属性可以通过每行右侧的条形图显示，条形图的长度与属性的值成比例矩阵布局可以有效地表示相关数据和附加汇总统计量，并提供变量和双聚类之间关系的概述对于所有基于矩阵的技术，排序对于确保数据的有效表示非常重要。因此，我们提供各种排序选项来分析局部区域中变量之间的关系双集群，用于详细探索。排序属性主要包括变量集合中变量的数量（基数）、变量集合的相关性以及变量集合中双聚类的数量。我们还可以使用这些属性来过滤掉不太有趣的变量集并减少探索空间。例如，具有至少四个变量的变量集合按图1中的降序相关值排序。第4（a）段。前五个变量集具有较高的相关性值，这可以引导用户首先关注这些变量集我们还支持从一个变量集向下钻取到其子变量集，这类似于扩展径向树中的节点以分层探索双聚类。扩展变量集中的变量与展开的行相关联的条具有减小的宽度以区分不同的级别。这些子变量集可以通过另一个属性进行排序，以便进行视觉比较。例如，如果用户试图确定哪些化学物质与H2最相似，则他/她可以确定，X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254259可以选择变量H2作为起始变量。如图4（b），按相关值降序排序，可以直接获得最相关的化学物种H-和H2+（前两行）。通过排序和向下钻取，用户可以轻松地通过选择矩阵中的顶部行来识别感兴趣的变量集以进行详细分析我们还提供了基于信息论的变量之间的相关性信息该信息是在所有体素上计算的，而不是在双聚类中的体素上计算的，并且它们显示在矩阵顶部的条形图中。默认情况下，条形图显示每个变量的熵，并在选择一个变量时显示互信息因此，用户可以根据他们的领域知识选择一个感兴趣的变量，并向下钻取到其子变量集，以选择一个变量集进行详细的探索。6.2. 双群集视图在关联矩阵中选取一个变量集时，必须对其双聚类进行分析比较，特别是它们之间的相似性。相似性约简方法已广泛应用于二维相似性分析。因此，我们应用MDS（Guo et al. ，2012），这是一种广泛使用的降维方法，用于基于双聚类视图中的空间重叠相似性来投影变量集的双聚类。散点图提供了双聚类之间相似性的概述，如图5所示。每个循环都是一个双聚类，其大小与双聚类中的体素数量成比例。由于在第5.2节中双聚类是分层聚类的，因此选择了大约10个组来说明有意义的特征和局部相关性，并简化了交互式探索。群必须足够相干（d（A，B））。99在我们的实验中）和组的数量不能太大，以避免视觉混乱，并帮助用户在选择和分析双聚类。每个组由一个浅蓝色的凸区域编码，该区域覆盖组中的所有双簇每个组的代表性双聚类由橙色光晕突出显示以区分它们。由于投影误差，组的区域可能重叠并导致混淆;即，不清楚重叠区域中的双聚类属于哪个组因此，当将鼠标悬停在一个组的区域上时，其双聚类将突出显示以展示其可扩展性。对于一个相关的变量集，可能有几十个甚至几百个双聚类，这将导致视觉混乱，因为有限的投影空间。在这种情况下，只有代表性的双聚类可以被显示为组，并且一个组中的其他双聚类可以按需显示用户可以选择一个组或一个双聚类来进一步探索其标量值和空间分布，以识别局部相关性和有意义的特征。由于biclusters不能被完美地分组，我们允许手动验证和修改组。单从双聚类的角度很难判断一个双聚类是否属于一个组，因为在双聚类的相似性分析由于分层聚类，我们可以通过点击其区域来选择一个组，以验证其在标量值和空间中的分布，如果分布高度多样化，则将该组拆分（移动到下一级）为两个组如果两个组非常相似，则可以将它们合并为一个组通过这些改进，我们可以更好地理解双聚类的相似性，并交互式地识别有意义的局部相关性。6.3. 标量值观当选择一个组或双聚类时，我们使用平行坐标在标量值视图中显示其变量的标量值分布，如图所示。五、将变量集中每个变量的坐标轴移到前面，或隐藏其他变量的坐标轴，以便于标量值与变量之间的相关性分析。平行坐标通常直接在轴上绘制多段线，这使得难以解释标量值的密度。我们通过计算相邻轴之间每个标量值对的出现次数来增强平行坐标，并使用此信息对颜色的透明度进行编码。虽然透明度使得密度分布更容易观察，但是对于某些情况，仍然不容易在因此，标量值的直方图被呈现在轴的两侧，以进一步增强平行坐标。这简化了对一个变量中的标量值的相干性的分析以及对包括大多数体素的标量值的范围的对于一个组，可以使用平行坐标来验证组中双簇如果轴上的标量值否则，该组可以被分裂以生成相干组。对于双聚类，平行坐标可以用来表示相干标量值模式，并分析变量的特定值相互作用的方式。6.4. 空间视图除了一个组或双聚类的标量值分布之外，空间分布对于局部相关性分析是重要计算体素属于组或双簇的概率通过直接体绘制可视化概率体，以显示空间分布并分析组或双簇的空间相干性。6.5. 勘探指导方针我们的协分析框架提供了一个分析指南，使用户能够探索多变量数据的各个方面作为一个概述或详细，如图所示。五、给定一个多变量数据集，感兴趣的变量集可以通过根据与应用相关的属性进行排序来获得，例如变量集与双聚类数的相关性，或者条形图中变量之间的互信息。变量集合可以被下钻以识别与关联矩阵中的特征/现象最相关的变量集合。使用选定的变量集，聚类及其双聚类在散点图中显示，概述了它们与用户的相似性。用户可以直观地探索每个聚类或代表性的双聚类，并分析相关变量中标量值的关联以及空间视图中的空间分布基于双簇的相似性分析，可以交互式地细化簇迭代地执行这些步骤以验证变量、特征和标量值之间7. 结果在本节中，使用三个不同领域的代表性多元数据集来验证我们的框架在分析变量、双聚类和标量值之间的局部关系方面的有效性和有用性我们在配备NVIDIA GeForce GTX 1070 GPU的IntelCore i7- 7700 K 4.20 GHz CPU最小体素数260X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254××对于双聚类，设置为所探索的体积的总体素的0.2%，以捕获小的特征，例如飓风眼。在大多数模拟中，对应于背景的双簇通常具有大量的体素，我们根据体素的数量（总体素的10%）过滤这些不太有趣的7.1. 飓风伊莎贝尔数据条目飓风伊莎贝尔数据集在以前的研究中得到了广泛的应用，它模拟了美国国家大气研究中心创建的飓风。在我们的实验中使用了十个变量：PRE，PRECIP，QCLOUD，QGRAUP，QICE，QSNOW，QVAPOR，TC和VEL，这是风速的大小。分辨率为250 250 50，在我们的实验中选择第20个时间步长来探索局部关系并对飓风的主要特征进行分类，即，飓风眼和雨带对于相干标量值模式，用于生成双聚类的容差δ因为我们对至少有三个变量的局部关系更感兴趣，所以我们首先过滤关联矩阵中只有两个变量的变量集。我们根据双聚类的数量对变量集进行排序，这证明了变量在双聚类方面的相关性。如图 5、变量集{PRE，QVAPOR，TC}包含的双聚类数最多，并将其双聚类投影到散点图上说明它们之间的相似性。右边的C组离其他组较远，从空间上看，它是飓风眼的下部。当选择左侧的A组时，飓风眼的上部将显示在空间视图中。根据这些结果，我们可以假设散点图中间的几个组在中间重叠，它们代表几乎相同的特征。为了验证这一假设，我们交互式地将这些组合并为一个组B，并获得飓风眼的中间部分。三组的标量值显示在图1顶部的标量值视图中。五、关联矩阵中的第二变量集合是{PRE，QVA-POR，VEL}。右边的一组表示飓风眼周围的雨带当我们进一步探索这组中的每个双簇时，有三个双簇对应于飓风眼附近的三个不同雨带如图 5、雨带逐渐远离飓风眼，气压标量值基本一致。但水汽混合比逐渐增大，风速逐渐减小。这也与飓风眼周围雨带的知识相一致。基于我们的协分析框架，我们可以快速识别与多变量数据中的局部特征/现象相关的变量集。从标量值和空间角度对双聚类或其组合进行分析，发现变量集{PRE，QVAPOR，TC}在飓风眼附近区域是局部关联的，而变量集{PRE，QVAPOR，VEL}在识别飓风眼附近雨带时更有用7.2. 紊流燃烧数据集该数据集包括五个变量：热释放率（HR），羟基自由基（OH）的质量分数，混合分数（ MIX ），标量耗散率（CHI ）和涡度（VORT）。我们首先根据关联矩阵中变量集的相关性对具有至少三个变量的变量集进行排序，并选择第一个变量集{HR，MIX，OH}来探索其双聚类，如图6（a）所示。很容易识别出四组双簇，它们对应于图1中火焰的四个部分。 6（b），即，火焰的外层，火焰的主体，火焰层和非燃烧区。四个组的空间分布和标量值在图6（c-f）中示出。结果表明，火焰内外层及非燃烧区的HR较高，而OH较低，尤其是在非燃烧区（接近于零）。如图在图6（a）中，第一变量集合{HR，MIX，OH}的相关值高于第二变量集合的值{HR、MIX、VORT}。如果我们基于所有体素测量变量之间的相关性（Biswas et al. ，2013年），而不是体素在双聚类中，与信息变量MIX（最大熵）最相关的变量是OH和VORT，即，第三个变量集。在探索了第三个变量集之后，我们发现它的双聚类与第一个变量集相比不太感兴趣因此，可以在相关联的局部区域中更好地测量变量之间的相关性，即，biclusters的区域7.3. 深水撞击数据集该数据集是由一颗直径为250米的小行星在洛斯阿拉莫斯国家实验室以45度角穿过大气层实验室（Patchett和Ahrens，2018）。实验中使用了六个变量：压力、克密度（rho）、声速（snd）、温度（tev）、水的体积分数（v02）和速度（风速的大小）领域专家对这种现象对降雨等自然灾害的影响感兴趣降雨量与v02有关，v02代表空气或水蒸气中的一小部分水。因此，我们选择变量v02作为开始变量，向下钻取到其子变量，并根据双聚类的数量对其进行进一步排序。如图7（b），TEV和SND主要与VO2相关。或者，我们也可以根据双聚类的数量对至少有三个变量的变量集进行排序，如图7（a）所示。第一变量集合{snd，tev，v02}也是具有最多数量的双聚类的变量集合，即，更多的地方关系。变量集{snd，tev，v02}的双聚类被投影在图1B中的散点图上。第7（c）段。有几个可辨别的组，如三个杰出的组A，B，C，和其他组具有不太有趣或连贯的特征。三组的空间和标量值分布如图所示。 7（d）.A组中温度较高的区域主要是分布在小行星小行星的重力势能被转换成动能和克服空气阻力的能量。克服空气阻力的能量然后转化为热能，增加了小行星轨道附近的温度。对于B组，很容易识别具有高水体积分数（v02）的两个区域一个区域位于小行星撞击的海平面以上，另一个区域是小行星轨道留下的疏散通道对于前者，小行星撞击到水中后速度降低，导致周围的水四处飞溅，并导致撞击位置上方的水体积分数增加当冲击足够强烈时，海啸可能会发生。对于后者，由于小行星轨道周围的高温当在较冷的地层中有足够的水和足够的悬浮颗粒时，如果水的重力高于浮力，水就会凝结在一起并产生降雨此外，温室气体H2O可以吸收地球表面反射的太阳辐射因此，我们得出结论，小行星撞击海洋后，会有局部降雨和轻微变暖我们将我们的协分析框架与梯度相似进行比较-性度量（GSIM）（Sauber et al. ，2006）使用变量集合{snd，X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254261××××图五、飓风伊莎贝尔数据集的可视化探索。第一个变量集中标记为A、B和C的三组分别对应于飓风眼的上部（蓝色）、中部（黄色）和下部（绿色）它们的相干标量值分布显示在空间视图的右侧在第二个变量集中选择三个双聚类{PRE，QVAPOR，VEL}。它们被标记为D、E和F，带有红色光晕，这是飓风眼周围的雨带，距离越来越远（见图6。在65个时间步长和240个时间步长的湍流燃烧数据集中可视化探索变量集{HR，MIX，OH}36060分辨率。(a)关联矩阵按相关值排序（b）变量集合{HR，MIX，OH}的双聚类（见图7。深水撞击数据集局部关系的可视化探索，第27个时间步长和150150150分辨率。（a-b）关联矩阵根据双聚类的数量进行排序，并且变量集合{snd，tev，v02}位于列表的顶部。(c)对应的双聚类。(d)A组（高温、高声速和空气中的低水分）、B组（低温、低声速和空气中的高水分）和C组（低温、高声速和水中的高水分（e）A、B和C组中的地方特色。（f）通用统计信息模型的结果（Sauber et al. ，2006）用于变量集合{snd，tev，v02}的相关性。tev，v02}。图图7（e）显示了A、B和C组的总体空间分布。GSIM可以通过计算每个体素上梯度之间的相似性来衡量多个变量的相关性，结果如图所示。 7（f）. 总体而言，空间分布相似。然而，我们的框架可以有效地提取具有相似标量值模式的局部特征，即，变量和体素之间的局部关系，并且每个局部特征包括揭示变量的局部相互作用的特定值组合。相比之下，GSIM的结果是三个变量的全局特征，并且很难深入了解局部关联及其标量值分布，例如具有高水汽或低温的区域。7.4. 讨论我们的协分析框架提供了一个新的视角，系统和可视化地探索多元数据。三个实验表明，我们的协同分析框架可以帮助用户快速探索感兴趣的变量集，并发现不同变量之间标量值与以往的相关性分析和多维传递函数方法相比，该框架同时对变量和体素进行聚类，自动提取具有相似标量值模式的所有双聚类，并着重分析变量、双聚类和标量值之间的局部特别是，我们的框架将两个变量的价值组合分析（Liu和Shen，2016）扩展到多个变量，例如我们实验中的三个变量虽然我们的系统支持所有变量的双聚类的视觉探索，但我们专注于2-此外，已经有许多先前的方法使用所有变量来聚类特征（Wu et al. ，2015）。如图7所示，我们的框架可以有效地从多个变量中识别具有相似标量值模式的局部特征，这与之前的全局相关性分析（Sauber et al. 、262X. 他，Y.陶湾，澳-地Wang等人/视觉信息学2（2018）254表1双聚类生成的计算时间（秒）和三个数据集的双聚类数。δ伊莎贝尔燃烧小行星时间Number时间Number时间数字10492461594519

下载后可阅读完整内容，剩余1页未读，立即下载