没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学7(2023)56研究文章PCP-Ed:集合数据的平行坐标图埃利夫·E放大图片作者:J.A.拉腊米aa英国诺丁汉大学英国格拉斯哥大学ar t i cl e i nf o文章历史记录:收到2022年收到修订版2022年10月7日接受2022年2022年10月20日网上发售保留字:平行坐标重叠绘制Enhanced数据a b st ra ct平行坐标图(PCP)是一种复杂的可视化设计,通常用于分析高维数据。不断增加的数据大小和复杂性可能会使在有限的空间中破译和发现趋势和异常值变得具有挑战性。由重叠边缘产生的密集PCP图像可能导致图案被覆盖。我们开发的技术旨在探索数据维度之间的关系,以揭示密集PCP的趋势。我们在PCP视图中引入相关字形,以揭示相邻轴对之间的相关性的强度,以及通过调查边缘相交的密集区域来揭示数据维度之间的联系的交互式透镜。我们还提出了一个减法运算符来识别两个相似的多变量数据集之间的差异和关系引导的降维折叠轴对。最后,我们提出了一个案例研究,我们的技术应用于合奏数据,并提供反馈,从流行病学领域的专家。版权所有©2023作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 导言和动机平行坐标图(PCP)是由Inselberg(Inselberg and Dimsdale,1990)提出的一种用平行轴表示多维关系的视觉设计。PCP有助于数据探索和理解多变量数据的关系。关于PCP的众所周知的挑战之一与过度绘图相关联。渲染数千条多段线会导致边缘重叠,这可能会模糊图像中的底层图案,特别是在高数据密度区域(Geng et al. ,2011年)。我们称具有由许多重叠折线产生的高密度区域的PCP称为“密集"PCP。Ellis和Dix称之为“在太小的显示区域上显示太多的数据”。Ellis and Dix(2007)在这些情况下,交互在探索数据和最小化模糊性方面至关重要。然而,处理和分析过标绘数据需要新的方法来支持理解。在我们以前关于PCP扫盲的研究中(Firat etal. ,2022),我们发现,轴之间的相关性是PCP理解的重大障碍之一。这是当前工作背后的主要灵感之一-使数据维度之间的关系更加清晰和明确。我们相信同样的概念可以应用于散点图矩阵。我们提出了新的视觉特征和交互方法,以解决由于重叠线段而发生的PCP中的挑战。我们推出了交互式镜头,*通讯作者。电子邮件地址:elifemelfirat@gmail.com(E. E. Firat)。https://doi.org/10.1016/j.visinf.2022.10.003用户可以根据鼠标位置使用悬停在PCP上的动态镜头探索过标区域。此交互汇总了与透镜相交的边,这些边由箭头图示符表示,表示密集集合的平均斜率的边缘。为了表达维度之间的关系,我们在每对相邻的轴下方显示箭头符号,以指示相关性。我们介绍了一种降维技术,使用户能够评估PCP通过查看相邻轴之间的相关值和折叠轴对,不添加信息的显示。我们还提供了一个用户选项,我们称之为减法运算符,两个多维数据集之间的差异进行快速比较。该算子解决了视觉上比较多变量集合数据的未解决问题。在本文中,我们专门集中在密集的PCP的相互作用技术本研究的主要贡献如下:引入相邻轴对支持数据分析和理解的新型动态透镜减法运算符,表示两个多维数据集基于轴对折叠的冗余度降维方法我们通过一个基于模拟Covid-19传染行为的案例研究与该领域的建模专家一起评估了我们的方法。集合数据的视觉比较被认为是一个未解决的问题(Wang et al. ,2019)。2468- 502 X/©2023作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinf····E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5657本文的其余部分组织如下:在第2节中,我们回顾了以前的工作,减少杂波的影响,在PCP。在第3节中,我们演示了交互设计,包括相关字形,动态和静态镜头,以及操作符。在第4节中,我们讨论了可视化的性能,并提供了来自领域专家的反馈。第5节总结了结论和未来的工作。2. 相关工作由于过度绘图和混乱,在2D空间中创建大型多元数据集一直是数据探索的挑战我们首先回顾相关的调查和重点在文献中发现PCP中密集和杂乱区域的信息。调查:Dasgupta等人 (2012年)研究了PCP图像中不同类型的模糊性,并引入了一种分类法对其进行分类,以减少不确定性。通过创建分类,他们的目标是检测设计中不同的不确定性来源,并将它们与用户的不确定性的不同影响联系起来。类似地,Heinrich和Weiskopf(2013)提出了一种分类和评估策略,用于建模,可视化,分析和与PCP交互,以及对调查的常见任务进行分类Johansson和Forsell(2016)总结和分类了关于评估PCP的研究。对以前的研究进行了彻底的检查,提出了以用户为中心的评价,以报告PCP的以人为本的方面。在本节中,我们主要关注先前关于解决视觉混乱和模糊性的PCP的工作。我们简要介绍分析PCP上的大数据的解决方案。通常,用于减少杂乱对密集显示器的影响的方法可以被分类为基于频率的、使用交互和刷、聚类和边缘处理。基于频率的:Arbor et al. (2004)提出了一种从PCP创建频率和密度图的方法。新的绘图可以对大型和高维数据进行交互式数据探索Geng et al.的工作(2011)提出了角度直方图和属性曲线,使用户能够研究大型数据集中的聚类和线性相关性,以解决PCP中的过度绘制和混乱由Heinrich和Weiskopf(2013)报道的最新技术具有关于基于频率的技术的特定子部分,其将边聚合在一起作为重叠绘制的方法,并提供了用于聚合数据的多种方法(Andrienko和Andrienko,2004; Heinrich. 等人,2012; Fua etal. ,1999; Rosenbaum et al. ,2012;Siirtola,2000)。我们的工作采用了一种基于频率的方法,计算与交互式镜头的边缘交叉点的数量。相互作用和刷牙:Blaas et al. (2008)提出了用于数据预处理的量化和压缩技术,以及用于相邻变量的联合密度分布,从而实现PCP的基于GPU的高效渲染。此外,他们还提出了更快的刷方法,用于在几个链接视图中进行交互式数据选择。Raidou等人(2016)介绍了一种新的技术,方向增强PCP,通过在视觉上增强每条PCP线的片段来改善视图,当有几个重叠的边缘或异常值和结构被噪声掩盖时,强调一种新的有效的选择方法,方向增强刷(O-Brushing)也提出了消除不必要的用户交互。Roberts等人(2019)提出的另一种增强密集PCP的刷牙方法引入了高阶智能数据驱动刷牙和基于草图的刷牙。基于草图的画笔是通过在所选画笔-轴交叉点处的每个轴上跨PCP连接鼠标点击来生成的。智能刷牙帮助用户在通过在运行时揭示模式进行交互。我们的一些方法是基于互动的,但是,没有一个涉及传统的刷牙。聚 类 : 数 据 聚 类 是 减 少 PCP 中 混 乱 的 一 种 方 法 Fua 等 人(1999)使用层次聚类来创建数据的多分辨率表示,并使用PCP的变体来表达聚类的聚合信息,以便于导航和过滤来探索数据中的模式和趋势Ellis和Dix(2006)提出了几种通过交互式调整采样水平来测量遮挡的方法他们探索了三种算法(光栅,线,随机)来测量遮挡程度。与其他算法相比,光栅算法具有更高的精度。除了分层聚类和计算遮挡技术之外,Johansson et al. (2006)使用传递函数来显示聚类的不同特征,并将每个K-means导出的聚类转换为高精度的结构纹理,应用于彩色多边形,创建聚类的最终视觉外观。Blumenschein等人(2020)提出了30种不同的订购策略。该研究介绍了任务和模式的分类,并调查了PCP的重新排序策略,帮助检测他们。我们的方法不使用显式聚类。然而,我们介绍的镜头总结了通过它们的边缘,描绘了平均斜率。边缘处理:McDonnell和Mueller(2008年)介绍了一种技术,将每个数据点显示为多边形曲线,以方便边缘捆绑并整理显示。Palmas等人(2014)提出了一种边缘捆绑技术,该技术对每个维度应用基于密度的聚类。它将聚集的线表示为多边形,从而减少渲染时间。他们还使用此策略通过开发属性连接来增强多维聚类Divino等人(2017)描述了PCP中使用的边缘捆绑策略,以直接从概述中暴露集群信息。Lhuil- lier等人的边缘捆绑调查。(2017)提出了一种基于数据的分类法,用于对捆绑方法进行分类,并引入了一个框架来描述捆绑算法的步骤。 Pomerenke等人(2019)基于两个轴之间的斜率渲染每个线段,以减少杂乱线条的影响。水平线以默认的线条粗细呈现,而对角线则以较细的线条呈现。 该调查提供了一个关于PCP的小节,并描述了边缘捆绑文件,该文件应用边缘捆绑以减少混乱和增加可读性(海因里希 。 等 人 , 2012; McDonnelland Mueller , 2008; Palmas andWeinkauf,2016; Zhou et al. ,2008年)。我们的动态透镜可以被认为是一种边缘处理技术。与以前的工作相比,我们描述的技术一般集中在轴对之间的空间,而不是轴本身。以前的文献大多集中在平行轴或平行边。我们专注于支持密集PCP的背景下,轴对之间的关系的认知。我们引入了新的技术,以促进数据分析的指导下,相邻轴对之间的相关字形,显示数据集之间的差异,使用减法运算符,并使用户能够减少密集的区域和尺寸通过折叠轴对。3. 基本面为了表达轴对之间的相关性强度,PCP视图中显示了每个相邻轴对的相关性图示符(第3.2节)。这为用户提供了多变量关系的概要透视图和对轴对之间的链接的更好理解,这可能通过扫视密集的边缘集而不可见。我们用于密集显示的技术之一是基于检测E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5658≤≤Fig. 1. PCP软件工具概述。(A)图像显示用户选项,(B)每个轴对下具有相关性图示符的数据,(C)交互式反馈在一个密集的区域,有一个箭头字形镜头,(D)折叠轴对与堆叠的标签,和(E)一个彩色图例。PCP显示的预测是,20岁以下患者(第1组)的康复人数和70岁以上患者(第7组)的死亡人数将高于其他年龄组。它还表明医护人员的死亡率较低数据包含1593行记录。边缘有一个椭圆形的透镜。晶状体向用户提供交互式反馈,作为当前鼠标位置的函数,指定PCP中的晶状体中心(第3.3节),在密集区域中,轴之间的关系可能难以解释。该算子(第3.4节)是为了理解两个可比数据集之间的差异而开发的技术之一。此外,轴对可以通过选择来折叠(第3.5节),使用户能够查看由冗余信息驱动的精简轴集。图1显示了我们开发的PCP工具的概述,该工具允许用户通过屏幕右侧的用户界面(A)查看不同的数据集。为了演示每个相邻轴对之间的关系,相关箭头图示符位于PCP视图(B)下。该图还显示了一个动态边缘折叠透镜(C)和一些具有堆叠标签的折叠轴(D)的示例。左侧的色标(E)最初映射到第一个轴上的边这可以通过选择另一个轴来该工具提供的用户选项之一是通过将鼠标悬停在边上并突出显示它们来显示边与轴相交的数据标签和点。此外,还支持通过取所有边缘的平均值来渲染平均边缘以及在轴上显示零点等功能。请参阅demovideo了解完整的详细信息(视频)。3.1. 来自Covid-19模拟的数据我们研究的集合数据是我们在这里开发技术的主要动机。RAMPVIS(RAMP)是一个VIS志愿者组织,响应苏格兰COVID-19应对联盟(SCRC)的号召,支持建模科学家和生物学家(SCRC)。主要目标是更深入和更好地了解应对英国新冠肺炎疫情的可能策略。我们通过处理 RAMP VIS 组的大量模拟数据来研究建模者提供的ensemble数据集。这些数据包括数百个时间序列,苏格兰的地区和不同的指标(例如,试验、病例、住院和死亡率)和不同年龄组。集合数据基于8个年龄组进行汇总,包含23个参数(见图1)。每个年龄组表示一个年龄间隔(例如,组1-. .、第7组数据包含易感、暴露、无症状、有症状、住院、恢复、死亡患者的总数,以及最小值、最大值和平均值。每个年龄组每天记录198天。数据集中的每一行代表一天的记录。有关集合数据的更详细描述,请参见附录A通过研究我们的新型PCP软件中的集合数据,我们的目标是帮助用户探索模型,以便用户可以交互式地比较不同年龄组的结果,识别模拟参数之间的差异,观察模式以及揭示数据中的异常值和特征3.2. 轴相关系数相关系数有助于识别两个变量之间的关系。对于一些PCP示例,重叠的边缘可能会产生混乱,并且用户可能难以查看轴之间的图案。先前一项关于五氯苯酚理解情况的用户研究结果表明,确定相关性可能是五氯苯酚扫盲的一个障碍(Firat等人,,2022)。推导斜率 通过查看PCP图像来分析边缘和解释数据变量之间的联系可能具有挑战性。因此,我们为每对轴引入箭头字形,以显式地呈现相关值(见图11)。 1(B))。这为用户提供了一种方便的方式,通过浏览相关性图示符来解释两个维度之间的关系多对多PCP是显示轴相关性的替代设计,例如Wu等人(2017)或Lind等人(2009)的多对多设计。我们相信,我们基于字形的技术也可以使这些视觉然而,多对多轴布局很难缩放,这一点可以从维数低得到证明。E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5659∈ [− +]∈ [− +]∈ [−+号]++−∈ [− +]图二. 该图显示了表示θ 90中显示的相邻轴对之间的相关系数值的字形,90范围用户可以修改色标字形的适当设计对于可用性和成功的视觉传达至关重要。应仔细选择相关视觉通道并将其整合为有效的视觉设计(Koc et al. ,2022)。Fuchs等人的研究(2016)方法收集和分类关于数据字形的文献,描述它们的设计,问题,数据和任务。箭头“"包含在”一对一映射“类别中。Borgo等人 (2013)描述了广告设计可以使用各种视觉通道,包括形状,颜色,纹理,大小和方向。我们的设计揭示了轴对之间的关系,提出了一个箭头形状,使用同行评议的颜色列表(罗伯茨等人。,2018)和相关值的斜率方向。此外,颜色与折线一致,PCP中使用的配色方案也适用于基于κ的相关性字形。设计依据:对于密集PCP,可能难以通过观察边缘的斜率来确定数据维度之间的关系。我们使用一个箭头来表示相关值,它使用斜率信息。箭头“x”显示使用斜率和方向的尺寸之间的趋势这里有几个其他可能的选择条形图和饼图都交叉边缘和平均坡度。但是,我们希望将边的斜率映射到具有直观内置斜率的曲面。箭头字形已经具有这些自然内置的特征,而其他图表和字形通常没有。使用Pearson相关系数(Bollen和Barb,1981)计算每个轴对的相关值κ箭头X表示每个成对系数值。两个相关轴对的个体分布在范围κ1, 1中示出,并且箭头字形表示范围θ90 ,90和对应于相关值κ,分别表示负和正的关系(见图2)。 2)的情况。此外,PCP中使用的配色方案也适用于基于κ的相关字形。3.3. 动态边缘透镜在PCP中,数据的基本结构并不总是显而易见的。由于边缘重叠而产生的密集PCP可能导致信息被覆盖。这可能使用户难以解释现有的相关性和观察模式。因此,我们介绍了一个隐藏的镜头,旨在揭示信息,可能会被边缘overploting模糊。通过将镜片悬停在边缘上观察动态曲线,为用户提供边缘和边缘的平均斜率θAVG(由箭头表示)的总结。设计依据:这是一种特殊类型的晶状体,重点关注轴之间的空间,而不是轴本身。先前在相关工作中提出的基于频率的方法主要关注轴而不是轴之间的关系。我们的动态边缘扫描透镜解决方案提供了一个基于用户交互的功能,该功能集成到PCP中,可以揭示轴之间的趋势并改进数据解释图三. (a)透镜的概述,(b)边缘相交摘要,动态边缘透镜。该图显示了PCP中的两个属性以及连接A和B的三条线边。在检测到两者的相交边缘之后,如透镜(a)中所示的箭头表示边缘。 由于有两个正斜率和一个负斜率的边显示A和B之间的关系,表示正斜率的箭头比另一个长,因为它表示两个边。(见图3)。我们选择了与图2中相同的箭头符号,因为它们直观地编码斜率,从而编码轴之间的相关性。其他图表和图示符可以编码相同的信息,但不是直观的,因为斜率不是大多数图表和图示符的主要饼图、条形图等。为了解决重叠的问题,我们从左轴开始,重点关注边缘与镜头的相交在右边的轴上结束(在任何一对中)。动态边缘图显示了与镜片相交的边缘数以及每个相交边缘的平均斜率θAVG(见图10)。1(C))。在计算θAVG之后,根据边缘是否具有正斜率或负斜率对与透镜相交的边缘进行这两个组由放置在透镜上的两个箭头表示(见图1)。3a)。透镜中的向上箭头表示平均正向θAVG,另一个表示平均负向斜边θAVG-。由此产生的箭头设计类似于相关性箭头(3.2节)。它们通过计算平均倾斜角θAVG、θAVG来显示角度θ 90、90(见图1)。3b)。箭头的大小也由与透镜相交的边数(具有正斜率和负斜率)缩放。箭头的颜色映射到提供的颜色图例。这种交互式功能有助于通过悬停镜头和观察数据中的趋势来揭示数据轴之间隐藏的相关信息(见图1)。 4).3.4. 多元减法算子在同一PCP或两个相邻PCP上绘制两个数据集是一种常用的比较方法。然而,这两种方法都可能导致大型数据集的挑战,因为两者都可能是密集的。我们引入了一个多变量减法运算符,我们可以应用它来比较同一PCP上的两个相似数据集。设计依据:在我们的案例中,我们有来自Covid-19模拟的集合数据,因此,模拟配置具有直接可比性。Covid-19模拟数据是我们功能的主要体现,因为建模人员非常感兴趣E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5660≤≤见图4。 概述(a)颜色图例,(b)PCP中的密集区域,以及(c)具有动态边缘重叠透镜的相同区域中的边缘总结(见第3.3节)。 数字表示与镜片的边缘相交的数量图五. 对第1组([d年龄20])第七组([70d年龄])分别为黄色和红色。差异,,显示在蓝色折线的PCP。使用SPSS,不同年龄组之间的住院率h和死亡率d的多变量差异变得明显。绿点开启每个轴寻址轴上的零值在比较不同的模拟配置。该运算符揭示了相似数据集之间的差异,例如,的情况的集合数据。数据属性之间的变化,如住院或恢复数字可以快速解释。在与S1和S2本身相同的空间中绘制两个模拟S1和S2之间的差值S为了执行多元减法,数据集的属性相同且顺序相同,例如我们使用的Covid-19模拟(SCRC)。相减后获得的差值的边缘也可以在PCP中渲染和显示(见图10)。 5)。作为绘制差异数据的结果,更新了最小值d(min)和最大值d(max)的标签。实施减法运算符,以突出显示可能相似或不相似的不同输入配置的模拟输出参数的变化。我们对通过用户界面选择的两种配置执行减法(见图1)。1(A))。从第一个S1中减去第二个选定的S2。通过减去相同维度中的相应值来应用此操作。给定模拟S,具有维度S(d0,d1,. . . ..S=S1(dn(xm))−S2(dn(xm))其中dn是给定的维度,m是给定的数据索引。在选择S1和S2的情况下,轴的最大值d(max)被导出为 S1 ( dn)和S2的最大值d(min)。E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5661- ×≤≤∈ [−+号]−= −==++见图6。通过右击相关性图来折叠h均值和h最小值轴对,以显示它们之间的关系。hmin的标签被堆叠以指示塌陷过程。S2(d n),最小值设为1 d(max)。将相减后得到的Sε标绘在PCP上。在更新的d(min)和d(max)中可以看到正或负的差异。图 5显示了应用于Covid-19 模拟(SCRC )中提供的第1组([ 20])和第7组([70 d年龄])的减法运算符的输出。通过从分别用黄色和绿色多段线绘制的组1中减去组7来执行计算我们可以从年龄组维度来看一个例子通过减去dage的值,结果是-6(1 7 6)。代表两个数据集之间差异的边缘在年龄组8, 8内绘制,以红色显示。每个轴上的绿点表示每个尺寸的零值,并允许查看负差。结果见图五、70岁以上患者的住院人数h和死亡人数d远大于20岁以下患者。3.5. 通过折叠轴对来降低非线性使用平行坐标的目的是揭示多元数据中的特殊特征。然而,由于PCP中绘制的重叠边缘和大量维度,基本信息有时可能不明显。图像根据轴的顺序而变化。为了显示维度之间的关系,我们使用字形来显示每个轴对和相应的距离κ之间的趋势(见3.2节)。通过在这些相关性字形上使用,用户可以经由轴对的折叠来利用关系引导的降维。设计依据:高维集合数据基于8个年龄组,包含23个参数,每个指标的最小值,最大值和平均值数据包含重复信息。我们引入此用户选项通过删除一些不会向PCP添加新信息的冗余元素,提供了对数据维度的不同看法。折叠轴对的目的是减少维度的数量并描绘不太复杂的PCP视图,例如,特别是对于κ1的值。该功能使用户能够探索和显示他们选择强调的尺寸d之间的关系,并且具有较少的冗余信息(参见图11)。 1(D))。用户选项通过减少一些在PCP中不呈现特别显著模式的冗余维度,提供了数据维度的新视图可以通过观察相关性图示符来引导折叠轴。例如,具有单位相关性κ的成对轴可以被折叠而不丢失信息。这个过程是通过右键点击一个给定轴对的相关图,并通过将右轴平移到更靠近左轴的位置来减少它们之间的空间来执行的。在新布局中,右侧轴的轴名称和最大值标签可以通过右键单击同一个相关性视图来撤消折叠过程,以获得先前的PCP视图。图图6展示了轴对在h mean和h min之间折叠的示例(h:住院)。选定的折叠轴组是具有κ1的数据变量,换句话说,显示直接关系。折叠轴对的结果是,两个尺寸并排放置,并显示堆叠在彼此顶部的轴标签 图图1(D)示出了在折叠双轴对之后3个维度并置的示例。通过降维功能,可以排除冗余和重复的信息,这些信息使得揭示数据中的模式更具挑战性。附加功能:除了我们之前介绍的功能外,该软件还包括有助于探索集合模拟数据的功能。我们提供了一个功能,允许更新最小和最大标签,以便可以缩放给定范围内的轴数据。我们提供了六种不同的颜色尺度的颜色映射在PCP使用的颜色库罗伯茨等人。(2018年)。我们还介绍了使用边缘的平均值绘制平均倾斜边缘的功能,或者通过使用焦点右键单击PCP的任何区域来渲染正负倾斜边缘的功能上下文最后,我们开发了一个 κ矩阵,以了解每个数据维度组合之间的关系。在矩阵中,用户可以选择其中一个维度,并从最小到最大对相关值进行排序。4. 评价我们提供了三个用例来评估我们的技术,并为这些用例提供了演示视频。我们向领域专家演示了软件,并在本节中报告了从专家那里收集的反馈详情请参阅demovideo(视频)。4.1. 案例研究在本节中,三个用例展示了我们的技术在理解Covid-19集合数据的潜在趋势方面的有效性。使用案例1:年龄组的多变量比较为了解释年龄组之间的多变量差异,我们在图1所示的第一个模拟配置中使用了两个年龄组之间的candidate算子。1.一、例如,我们绘制了20岁以下(第1组)和70岁以上(第7组)的模拟结果之间的关系(见图1)。5)通过对这些年龄组应用该算子我们观察到,与第1组相比,E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5662见图7。 该图显示了应用于具有最低pinf的模拟3和具有最高pinf的模拟101的减法运算符。颜色映射到第一个PCP的轴[−8,+ 8]用例2:比较输入参数值,pinf感染概率,pinf,是模拟领域专家认为的对于输入参数值,我们选择了具有最小值和最大值的两个模拟,即pinf(min)和pinf(max)。然后,我们利用PIF算子来比较这两个模拟的结果,以研究pinf参数的影响力,并了解输入参数值如何影响输出。为了比较两个模拟,我们按pinf值对模拟进行排序,并将所有年龄组包括在pinf值最低的模拟3和pinf值最高的模拟101中。然后,我们使用ESTA运算符来呈现这些模拟之间的差异。作为仿真的结果,仿真101显示了与仿真3相比所有输出参数的非常明显的差异(参见图7)。pinf运算符表示pinf是一个非常有影响力的输入参数。用例3:κ引导的模糊性降低我们在图1中检查PCP。 1和每个轴对下的相关字形。我们观察到,输出中每个参数的平均值、最小值和最大值之间始终存在直接关系。我们利用这一观察结果来减少冗余维度,并产生一个删除冗余轴的新图像我们利用的降维技术,通过折叠轴对,使PCP中的图像维数减少了近50%(见图1)。8)。请注意,成对的字形也被保留,并提醒用户冗余。4.2. 领域专家反馈这项工作部分是与Ramp Vis(RAMP)团队合作进行的,该团队支持苏格兰COVID-19应对联盟(SCRC)的建模科学家和流行病学家(见第3.1节)。我们有三个会议,包括可视化专家,建模师和统计学家。头脑风暴会议促进了对数据模拟的理解,并探索了最具影响力的输入参数。我们组织了一次反馈会议,并采访了本·斯沃洛博士,他拥有统计学博士学位,在格拉斯哥大学数学统计学院工作他从事统计模拟和估计工作已有七年,大约四年的流行病学研究。他的一些工作集中在贝叶斯参数推断和模型选择和零膨胀数据的方法。我们的采访问题是从霍根等人。(2016年)。相关符号:我们演示了相关符号,他报告说:“当你有这么多信息时,这是一个指导维度减少的好方法。用户正试图找到一种方法来决定如何减少它并提取信息。很动态边缘闪烁透镜:当我们展示两个闪烁透镜来观察字形的行为并发现变化很大的区域时,他表示该功能很有用并补充说:“我认为这只是另一种方式来观察对特定参数的敏感性以及它的方向。我特别了解什么样的人可能会使用它。我认为你可以通过更多的数学敏感性分析来得到这一点,但我认为得到一个跨参数区域和不同参数的敏感性的想法将是非常受欢迎的。 这将是巨大的好处,有这种类型的软件。是的,我真的很喜欢“减少冗余:我们提到数据中和专家中有很多冗余的维度 他同意这一点,并报告说:“是的,这就是我们从数学分析中发现的[冗余维度]。只有pinf和Ps是唯一有影响的两个参数。 看起来这就是这里被可视化的东西,而且是以一种更清晰的方式。用例1:比较年龄组当我们第一次向专家演示减法运算符时,他喜欢直观地呈现两个多维数据集之间的差异以进行比较的概念,并表示:“我认为它突出了差异。差异将具体到模型的特定组或分区。所以我喜欢能够观察到这些。从政策的角度来看,你会想如果它对年轻人有负面第二组会有更多的你知道第二组受影响较小E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5663图8.第八条。 该图展示了 在κ = 1的轴对上应用的降维。2019冠状病毒病总体情况。我认为,以更详细和直观的方式了解它是如何用例2:比较输入参数值,pinfpinf输入参数对结果有显著影响,模拟之间的差异验证了这一点。我们在图中证明了这一点。7问专家,他是否认为这有帮助。他评论说:“我想确认我们已经做了什么(正式的数学敏感性分析),或者我们是否首先使用该软件并查看我们认为可能是最重要的参数。你知道大多数模型开发人员都会知道哪些是最重要的参数。视觉化 这对确认非常有用我们还问专家他是如何计算出最具影响力的-没有软件的基本参数以及需要多长时间他报告说:“我们通常必须对模型进行全面的数学敏感性分析。您可以查看输出的直方图或者用一种正式的数学方法来看待导数,作为不同参数的函数的输出变化。但这比这要复杂得多,也更耗时。这个过程实际上取决于模型的复杂性和你必须做的模拟次数,但是运行数学分析可能至少需要几个小时。因为在这里绘图时,您通常会在大量模拟中使用Monte但同样,有很多不同的问题,你可以问这个PCP软件在不同时间的敏感性方面,不同的年龄组,和不同的阶级。你必须对每个不同的配置进行单独的模拟或敏感性分析,而在这里,你可以选择一次性询问它们,或者在你可能想问它们用例3:κ-引导的非线性降低非线性降低和轴排序仍然被认为是未解决的问题。我们通过折叠轴对展示了我们的κ引导降维特征(参见图8)。我们问专家,这个功能是否让他看到了以前看不到的东西,或者做出了一些新的观察或假设。他报告说:模型的类型是参数化。当你试图估计参数时,如果模型对输入参数一点也不敏感,那么无论你如何尝试和做出任何推断,它都不会有任何用处。从这个角度来看,我认为这个功能是有用的。处理过度参数化的标准方法是,如果你有参数冗余来进行一些模型简化-这因此,我认为这将是非常有帮助的,在决定如何考虑或组合输出到一个单一的。例如,如果存在年龄差异,或者对年龄参数没有影响,那么我认为你会在这里看到,我认为这对观察不同的部分是非常有用的。参数冗余通常是指导模型简化的一种非常有用的方法,这将非常有帮助我们询问专家,该功能是否可以增加信心在模拟的正确性或准确性方面。他说:“是的,我确定。如果你看到的是一些最大的数字,如果你知道,例如,住院人数从来没有超过一个特定的点,但你的模型一直估计住院人数在几十万,你知道这是不现实的,你可能会有一些不足对这个模型的信心。我想这可能是其他的东西,这有助于。如果你知道有很多敏感性,那么在关注你可能想做的数据收集方面。在这个模型中,住院似乎是一个非常敏感,非常有价值的输出。然后你可以试着把你的数据收集集中在这上面,当你想做出推断并尝试估计这些参数时。这可能也是指导这一决定的好方法5. 结论和今后的工作我们提出了交互式镜头,使用户能够探索一个overplotted图像与动态镜头,悬停在PCP使用鼠标位置。这种相互作用勾勒出与透镜重叠的边缘,由箭头字形表示,显示密集边缘集合的平均斜率θAVG。我们在每个相邻轴对的下方显示一个箭头,指示维度之间的相关性。我们提出了一种降维技术,允许用户简化PCPE.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5664×=××基于相邻轴之间的相关值κ,并折叠不向显示器添加信息的轴对。我们还提供了一个用户选项,我们称之为减法运算符,显示两个多维数据集之间的差异以进行比较。我们与建模专家合作,基于COVID-19模拟的案例研究来评估我们的技术我们遇到的一个动态镜头的限制是运行时的边缘检测,当有太多的边缘时,它可能会变慢。此外,对于大数据集,检测边缘交点的性能在下一步中,预先计算静态网格中的边交点的摘要,然后显示元数据,而不是试图在运行时计算边交点,这是管理这一挑战的一种方法。我们还注意到,减法运算符目前仅限于(并针对)集合数据。一个更普遍的版本仍然是未来的工作。未来的改进解决了限制,基于相关值以升序对轴对进行排序,并相应地更新PCP视图然而,根据成对的,κ,顺序绘制轴对因此,引入一种新的轴绘制方法来表达轴的关系是未来的努力。另一个限制是可扩展性,即,当10对或更多对相邻轴被折叠时,如何排列轴标签。未来的方向解决了其他限制,例如包括多个透镜、可调节的透镜尺寸和附加的运算符,例如模拟数据集的加法、乘法和除法。伦理批准本研究不包含任何作者进行的任何人类或动物受试者CRediT作者贡献声明埃利夫·E Firat:写作-原始草稿,方法论,软件,数据管理,调查,可视化。Ben Swallow:验证,反馈。Robert S. Laramee:概念化,监督。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢该研究部分由EPSRC Grant EPSRC EP/S 01 - 0238/2资助我们还要感谢土耳其共和国教育部的财政支持。附录A. COVID-19模拟数据使用的模拟模型来自流行病学、经济学和风险评估(EERA)模型(EERA)。该模型结合了一个推理过程来估计感兴趣的参数范围和参数范围以提取参数配置。在这种情况下,有160个参数配置。对于每种配置,都有多个模拟运行。 在这种情况下,1000次运行会产生不同的预测。该模型采用相同的输入参数集,称为模拟配置,每次运行会产生不同的输出结果。该模型旨在提供输出可能性每一个可能的预测。对于每个输出结果,提供输出参数的最小值、最大值和平均值对于模型,有一长串参数,有些是推断的,有些是先验估计的,有些是跨运行固定的。以下是关键输入参数:nsse_cases:病例数的标准化平方误差和nsse_deaths:死亡人数的标准化平方误差和p_inf:感染概率p_hcw:感染概率(医护人员)c_hcw:每天医疗保健工作者接触的平均数量d:保持社交距离的人口比例q:自我隔离人群正常接触比例• p_s:出现症状• rrd:不住院的死亡风险• lambda:背景传输速率每个年龄组(8个年龄组)有:模型中每个输出数据维度的200天预测时间序列• 16个不同的输出数据维度(请参见下面的列表模型为每次运行生成许多输出文件。总共有160个(参数配置)16个(数据维度)1000个(运行)8个(年龄组)20,480,000个时间序列,每个时间序列200天。我们默认显示的数据是第一个配置。输出模拟参数如下:年龄组:模型中使用年龄组ID。日:记录的日子S:易感个体数(未感染)E:感染但尚未传染的个体数(暴露)I:感染者和无症状感染者人数IS:感染和有感染性症状的个体数量H:住院的感染者人数R:从感染中恢复的受感染个体数• D:因疾病死亡的人数模型中使用的年龄组ID如下:•第1组:20岁以下•第二组:20-29人•第三组:30-39人•第四组:40-49人•第五组:50-59人•第六组:60-69人•第7组:70人以上•第8类:保健工作者附录B. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.visinf.2022.10.003上找到。引用Andrienko, G., Andrienko, N., 2004.用 于 探索 子 集 属性 的 平 行坐 标 。 In:Proceedings.第二届探索 性可视化中的协调和 多视图国际会议。pp. 93-104.http://dx.doi.org/10的网站。1109/CMV.2004.1319530。···············E.E. 菲拉湾Swallow和R.S.拉拉米视觉信息学7(2023)5665阿特罗,A.,de Oliveira,M.,Levkowitz,H.,2004.在拥挤的平行坐标可视化中发 现 集 群 。 在 : IEEE 信 息 可 视 化 研 讨 会 。 pp.81-88.http://dx.doi.org/10.1109/INFVIS.2004.68网站。Blaas,J.,博塔角,Post,F.,2008.平行坐标的扩展,用于大型多时间点数据集的交互 式 探 索 。 IEEE Trans. Vis. Comput. Graphics 14 ( 6 ) , 1436-1451.http://dx.doi.org/10.1109/TVCG.2008.131网站。Blumenschein,M.,张,X.,Pomerenke,D.,凯姆地方检察官Fuchs,J.,2020.平行坐标系下聚类识别的重排序策略。In:Computer Graphics Forum,Vol. 39(3). Wiley Online Library,pp. 537-549. http://dx.doi.org/10.1111/cgf.14000网站。Bollen,K.A.,Barb,K.H.,一九八一年皮尔森Am.社会学评论232-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功