没有合适的资源?快使用搜索试试~ 我知道了~
视觉信息学3(2019)48一种基于关联规则的减少平行集视觉混乱的方法张冲a,张伟,1,杨晨b,杨静a,尹正聪c夏洛特,美国bI4 Data,美国美国德克萨斯农工大学ar t i cl e i nf o文章历史记录:在线预订2019年关键词:关联规则平行集视觉杂波视觉分析a b st ra ct虽然并行集,一个流行的分类数据可视化技术,直观地揭示了基于频率的关系的细节,一个高维的分类数据集带来了混乱的视觉显示,严重模糊的关系探索。关联规则挖掘是一种发现分类变量之间关系的流行方法。它可以补充平行集,以有意义的方式分组丝带。然而,很难理解从高维分类数据集中发现的大量规则。在本文中,我们将这两种方法集成到一个可视化分析系统中,用于探索具有二分法结果的高维分类数据。该系统不仅可以帮助用户直观地解释关联规则,一个有效的维度和类别减少的方法,朝着一个更少的集群和更有组织的可视化。我们的方法的有效性和效率说明了一组用户的研究和实验与基准数据集。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍平行集(简称ParSets)(Bendi et al. ,2005),一种用于多维分类数据的可视化技术,已经被广泛用于可视化社区(Bostocket al. ,2011; Bojanowski and Edwards,2016)。通过空间相邻维度的类别的绝对或相对频率,它明确地揭示了这些类别之间的相互关系与带状隐喻(图1)。①的人。然而,在实践中,ParSets不能很好地扩展到大量的维度和类别,因为严重的混乱阻碍了有效的模式识别和探索。例如图 2显示了蘑菇数据集的ParSets视图(23 个维度) (Dua和KarraTaniskidou,2017),我们在其中研究了蘑菇的可食用性(一个二分结果变量)与其各种特征(解释变量)之间的关系。如此多的维度及其类别在相邻轴之间的紧凑空间内产生了大量重叠的条带因此,界面的现场演示可在这里.*通讯作者。电子邮件地址:czhang@esri.com(C. 张)。1作者目前在环境系统研究所工作。这项工作是在他还是博士时完成的学生.同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2019.03.006难以区分和跟踪用于比较维度和类别之间的不同关联的带(例如,比较气味= n(无)如何与不同蘑菇特征相关联以影响可食用性)。检测和探索关联的离群值(例如,回答具有气味= n的蘑菇是否可食用的问题)变得甚至不可能,因为代表蘑菇子集的小条带几乎隐藏在杂乱的显示器中。为了克服杂波问题,常用的方法是减少数据的维数和基数自动算 法, 如 PCA ( Jolliffe , 1986 ) , MDS( Kruskal 和Wish ,1978)和MCA(Kristi,2007),可以在将分类维度转换为数值维度后应用于分类数据集。然而,转换过程和降维算法都会由此产生的低维空间对用户没有明确的意义。Zhanget al.(2016)提出了一种方法,可以帮助用户使用逻辑回归进行交互式降维,但它受到数据基数的限制。自动或手动重新排序类别和维度是解决混乱问题的另一种方法。根据相似性适当安排视觉元素(Ankerst et al. ,1998)、重要性(Yang et al. ,2003)、熵(Alsakran et al. ,2014)或用户定义的杂波测量(Peng et al. ,2004)可以潜在地减少条带的重叠并揭示见解。然而,这是一个NP难问题(Penget al. ,2004年),没有一个 单一的 安排可以优化,2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布,这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinfC. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)4849{=}联系我们{=}{=}Fig. 1. 我们的系统的蘑菇数据集的接口。关联规则表(ARTable)表示规则,左侧是排序面板。列表示维度。从关联规则结果中提取维度。行表示规则,单元格指示规则中的项集。 颜色映射用于规则支持。ParSets按AR表中显示的顺序显示完全相同的尺寸。出现在单击的规则中的维将结果维度“可食用”放在最上面。启用“规则相关类别”的筛选器后,ParSets会将未出现在AR表中的规则两个视图的颜色保持一致:绿色表示可食用=是(可食用),洋红色表示可食用=否(有毒)。与利益规则有重大关联的类别,以及(2)重新排序维度和类别以更好地探索和验证感兴趣的关联。为了充分利用关联规则,需要解决两个主要的挑战。首先,规则挖掘算法可以生成大量规则,每个规则具有若干属性(例如,支撑、提升)。从它们中找到有用的规则是具有挑战性的第二,缺乏能够关联规则和ParSets的无缝集成。平滑的过渡,用户可以有效地应用他们的领域知识的视觉探索是期望的。我们的方法来解决的挑战,包括一个表格的关联规则和规则驱动的探索管道的杂波减少ParSets的可视化。该方法已在一个工作原型中得到充分实施。表格式的视觉-图二. 两个ParSet之间的杂波比较。原始的ParSet,没有任何维度或类别缩减。尺寸和类别的放置基于字母顺序。杂波为20.38%。使用关联规则对ParSets进行简化和排序。这里使用的排序算法是可食用关联。杂波变为10.62%。所有的洞察力。用户必须根据他们不断变化的探索焦点频繁地调整顺序。不幸的是,的有效指导,用户可以整合他们的领域知识的动态重新排序过程。在本文中,我们提出了一种新的可视化分析方法,减少ParSets中的视觉混乱。它使用关联规则来指导维度和类别的减少,以及在探索具有二分结果的高维分类数据集时的重新排序。关联规则简洁地总结了分类变量之间的共现关联,从而呈现了高层次的维度关系。例如,气味规则无类食用提出了“如果蘑菇没有气味,它更有可能被食用”的联想。我们建议使用关联规则作为指导,以减少混乱的视觉探索(1)减少维度,化,如图所示。1,允许用户直观地比较大量的关联规则,并交互地选择感兴趣的规则中的维度和类别。可视化中的维度和类别的确切顺序被传递到协调的ParSets视图,作为排序算法的输入。各种自动规则为基础的维度和类别排序算法已被提出并实现在我们的原型类型。下面的例子说明了我们的方法。 图 1、呈现气味与食用菌关系的强规则(气味不可 食用是)在表格视图的顶部被标识。ParSets将已标识的维度odor放置在顶部结果维度edible的正下方。 通过突出显示ParSets中与规则相关的元素,odor= none中出现了一个小的洋红色连接,表示规则的意外离群值。探索规则异常值的细节可以全面了解蘑菇的气味如何影响其可食用性。为了彻底评估所提出的方法,我们进行了定量和定性评估。在定量评估中,我们利用视觉杂波测量(如第2.1节所述)来比较我们的自动维度和类别排序算法与现有方法的杂波减少效率。质量评价50C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)48−⇒联系我们∑∑≤≤杂波==⇒=联系我们联系我们− =}{=}{= −=【详细】我的天包括受控用户研究和领域专家访谈。结果表明,我们的方法在执行任务,如总结,比较和离群值检查有显着的好处。2. 背景2.1. parsets的视觉混乱在深入研究我们的方法的细节之前,我们首先分析了ParSets中杂 波 的 主 要 来 源 和 测 量 ParSets 的 布 局 类 似 于 平 行 坐 标(Inselberg,1985),它将尺寸显示为相邻的平行轴,并将其类别显示为轴上的线段。平行轴上的类别之间的连接形成带状。我们认为相邻维度之间的带状交叉是视觉混乱的主要来源。因此,当源维度的类别首尾相连地连接到目标维度的类别时,会发生最严重的混乱。在这种情况下,带具有两个维度之间的最大总距离。类似地,如果相邻维度之间的所有条带直接从源维度到目标维度,则发生最不严重的混乱。基于距离度量,ParSets的视觉混乱可以在数学上定义为:2.2. 关联规则我们的混乱问题的解决方案是基于关联规则,在数据挖掘中使用的概念,目前共现关系的分类维度。规则的一般形式具有外观XY,其中X称为前件或左手边(LHS),Y称为后件或右手边(RHS)。LHS和RHS是每个可能的属性-值对的子集,也称为项集。例如,在超市转换数据集,规则 洋葱土豆汉堡这表明,如果顾客同时购买洋葱和土豆,他们更有可能购买汉堡。通过挖掘和探索关联规则,用户能够识别维度和类别之间有趣的关系,这与ParSets的主要任务是一致的尽管具有自动模式发现和良好的可解释性等优点,但关联规则在揭示关系的细节方面受到限制(例如,回答诸如为什么规则不具有100%置信度之类的问题)。此外,仅仅依靠规则来测量关联可能导致对关系强度的不完全理解,特别是当维度在规则项集中仅具有一个类别因此,用户可能无法识别不确定性或隐藏模式,例如关联的离群值然而,当且仅当有效的杂波减少方法可用于优化NM可视化显示。杂波=D(src,tgt)i=1j= 1其中,N是ParSets中相邻维度对的数量,M是相邻维度之间的条带数量,D(src, tgt)是源类别和目标类别之间的欧几里得距离,Dmin(src, tgt)和Dmax(src, tgt)是给定ParSets宽度和维度间空间的常数,Dmin D(src, tgt)Dmax.然后归一化杂波ParSets中的度量使用范围从0到1(100%)的最小-最大缩放来获得杂波−杂波最小值范数杂波最大值−杂波最小值我们在等式中不考虑色带宽度,即使它们可能对杂乱有感知影响。首先,从分析的角度来看,我们更加关注轴的排列,这是发现关联的第一级考虑。其次,从偶然发现的角度来看,我们的工作重点是减少带交叉,而不是边缘分裂。在8.1节中,该度量用于定量评估杂波抑制方法的结果例如图2并显示两个显示相同蘑菇数据集的ParSet。后者通过降维排序和类别排序进行了优化,其杂波率(10.62%)远低于前者(20.38%),前者以维度和类别的字母顺序显示原始数据。基于杂波度量公式,可以对ParSets的视觉杂波进行全局和局部优化。前者显示ParSets中减少的尺寸数量(尺寸减少),并优化它们的排列,以重新构造具有减少的带状交叉的尺寸对集(尺寸重新排序)。后者通过减少类别数量(类别过滤)或优化其在轴中的排列(类别重新排序),进一步最大限度地减少了每对显示维度中的带状交叉。在第3节中,我们讨论了这些技术是如何在以前的工作中使用的。挖掘高维分类数据集可能会产生大量的关联规则。其中一些是不感兴趣的,需要在挖掘过程中或之后进行修剪。有几种方法可以用来评估规则的“趣味性”。在本文中,我们重点介绍了最常用的三种措施。它们是支持、信心和提升。支持度量项集出现的频率在数据集中。支持度很低的规则可能只是偶然出现,因此对结果的出现几乎没有贡献。支持度用于生成频繁项集(见第5节)。置信度表示包含X和Y的事务的比例,定义为conf(XY)的supp(XY)/supp(X)。升力是观察到的支撑如果X和Y是独立的。它被定义为升力(XY)的supp(XY)/(补充(X)supp(Y))。Confidence和Lift是支持度度量的补充,用于在生成频繁项集后修剪规则(见第5节)。当RHS仅表示具有类或输出值的项集时(例如,可食用或有毒的蘑菇数据集),常规关联规则成为类别关联规则(CAR)(Ma,1998)。这使我们能够更加关注在LHS上寻找关联项集。例如,对于mush-room数据集,我们将生成规则设置为具有类似X Y的外观,其中LHSX是没有结果变量Edible的可能项集的子集,RHSY是结果变量Edible属性值对Edible Yes, Edible No的子集。 我们有两个示例规则A:瘀伤t,鳃大小b可食用是 B:瘀伤f,鳃大小n可食用 没有(规则措施省略)。虽然规则A和B具有相同的属性名称,但由于属性值不同,它们会导致不同的规则类。3. 相关工作3.1. 分类数据可视化现 有 的 分 类 数 据 可 视 化 技 术 分 为 两 类 ( Fernstad 和Johansson,2011),即基于量化的方法和基于类别的方法。这两个类别的根本区别在于,C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)4851需要将类别转换为数值的基于量化的方法,利用传统的数值数据可视化技术(例如,条形图)。然而,视觉元素可能遭受信息重叠或堆叠,有限数量的数值类别映射到刘等人。 (2016年)。此外,- ten的转换过程将错误的排序假设强加给名义尺寸,导致不完整甚至错误的关系。基于类别的方法直接显示频率或类别的统计数据。代表性的技术包括应急轮++ ( Alsallakh et al. , 2012 ) , CatTree ( Kolatch andWeinstein,2001),Mosaic Plot(Friendly,1994),ParSets(Bendi et al. ,2005; Kosaraet al. ,2006)和Sankey Diagrams(Riehmann et al. ,2005)。在这些技术中,ParSets和Sankey图利用流隐喻来显示维度和类别之间的关系。上述其他技术基本上利用一个空间细分布局,以矩形或圆形显示类别的频率。为了更好地探索复杂数据集中的关系,我们专注于基于流的技术,并利用交互式可视化方法来提高可视化的可扩展性和可读性。3.2. 类关联规则可视化已经做出了一些努力来可视化关联规则(Wong et al. ,1999;Yang , 2005; Hahsler and Karpienko , 2011; Liuet al. , 2012;Sekhavat和Hoeber,2013)。大多数方法使用网格或矩阵来可视化规则,其中LHS项集标记行,RHS项集标记列。然而,他们不适合类关联规则的RHS项目集少,LHS项目集可能很多。因此,显示大量规则项集很容易导致可伸缩性问题。Liu等人(2006)提出了一种新的类关联规则可视化矩阵布局。数据集中的所有变量和类分别沿矩阵的X轴和Y轴表示。矩阵单元格内的条形表示规则,其高度表示规则的置信度。虽然这种可视化可以呈现规则在可变类别上的分布, 它仍然受限于变量可以具有的类别的数量,因为在小矩阵单元中显示许多类别将导致可读性问题。据我们所知,我们的工作是协调关联规则可视化与分类数据可视化的第一次努力。我们的关联规则可视化不仅允许用户探索大量的规则,没有混乱,但协调的分类数据可视化还允许用户详细检查和验证感兴趣的规则4. 方法概述图3显示了该方法的概述。输入的分类数据首先由规则挖掘模块进行预处理,然后自动提取关联规则。同时,自动修剪与规则无关的维度以降低数据的维数。结果被输入到规则可视化(称为ARTable)和ParSets中,它们彼此交互,作为该方法的核心组件。ARTable允许用户直观地探索提取的规则,并识别有趣的规则、维度和类别。然后,这些信息被用来创建和优化ParSets的布局,并使用一套自动排序方法。在ParSets中,用户可以验证有趣的规则并探索它们的细节。一组交互工具使两个可视化组件之间的通信顺畅。图三. 我们的方法概述。规则可视化(ARTable)是挖掘和过滤关联规则的核心组件。一组交互式杂波减少功能可实现ARTable和ParSets之间的平滑通信。协调的ARTable和ParSets促进了迭代的探索过程,其中用户逐步揭示新的模式,并根据他们的领域知识和不断发展的探索焦点对其进行验证。探索的关键步骤是通过可视化和识别有用的关联规则来驱动的,在此基础上,系统提供了多种手段来降低数据复杂度,优化可视化布局,并突出ParSets中的相关模式。5. 数据预处理:规则生成和降维根据一般的规则挖掘过程(Liu,2007),我们采用两步方法从数据集生成CAR。首先,找到满足预定义支持度阈值的所有项集.这些项集被称为频繁项集。然后使用Apriori算法从频繁项集中提取高置信度规则(通常为80%)(Borgelt,2003)。第二,电梯根据惯例,使用阈值1.2来修剪规则,这确保提取的规则是重要的(参见2.2)。在此步骤中,关联规则的RHS被设置为数据的每一个二分结果由于我们的探索管道主要由前关联规则驱动,因此很自然地删除规则中没有的维度,为深入的基于规则的探索提供降低的维度和有意义的维度。6. 关联规则可视化关联规则可视化作为一个协调员的建议的方法。用户可以直观地检查提取的关联规则的本质属性。通过相互作用,它们可以有效地找到感兴趣的规则,用于全局和局部优化ParSets。在达到当前的设计之前,我们原型化了两个受现有文献启发的替代设计。第一个设计将类别可视化为节点,将关联可视化为节点-链接图中的链接。随着显示的规则数量的增加,它会出现混乱。第二种设计将类别可视化为矩阵的行和列,关联由矩阵单元中的气泡编码。虽然在该设计中减少了混乱,但是在该可视化中没有明确传达涉及两个以上类别的规则,因此难以将该视图与基于这些规则优化的ParSet协调。此外,这两种可视化都没有显式地传达维度,这给用户理解ParSets中维度的顺序52C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)48联系我们{=}{=在总结失败经验的基础上,我们设计并开发了一个表格式可视化工具ARTable.在ARTable中,规则显示为行,维度显示为列.规则属性用单元格颜色编码,类别用单元格的字母表示。由于规则和维度显示为不可分割的部分,因此用户可以轻松地对其进行排序、比较和选择。 通过规则和维度选择,ARTable和ParSets之间的协调是直接的。此外,ARTable是直观的、高度结构化的、稳定的和可扩展的。6.1. 可视编码图1()显示了一个ARTable,其中显示了关于食用蘑菇和有毒蘑菇的关联规则。表中的每一行代表一条关联规则,每一列代表蘑菇的一个维度。如果维度出现在关联规则的LHS中,则单元格将被着色,无论它在规则中具有什么类别。为了直观地区分规则的二分类(在本例中,可食用或有毒)颜色直观地表明了类别的特征:洋红色表示风险、负面或不良结果,绿色表示安全的、积极的或好的。在ParSets中使用相同的颜色编码来保持一致的视觉映射。单元格的不透明度编码了它基于支持范围进行标准化,支持范围可以由用户交互设置(参见6.2)。规则可以按支持度或置信度排序。 例如,显示具有最强支持的规则在其截面的顶部以最小的不透明度,以便它们可以很容易地被发现。每个单元格的标签指示出现在关联规则中的相应类别。当显示太多关联规则时,标签在单元格中不可见,因为它们的大小变得非常小。用户可以从关联规则的角度通过比较列的颜色模式来检查维度关系。例如图图1显示可食用糊状物室的气味与brui(全名为瘀伤)具有负相关,这意味着它们不会出现在相同的规则中。而环上、环下的绿色细胞分布相似,在可食性规律上呈现正相关关系。用户还可以通过比较行来检查规则关系。例如,如图所示。1,第一规则和第二规则共享项集odor = n。6.2. 与ARTable尽管规则生成过程已经修剪了许多规则(参见第5节),但仍然可以生成大量规则并将其基于分析任务,其中一些可能比其他用户更感兴趣。因此,我们允许用户交互式地过滤规则。特别是,支持过滤显示在ARTable的顶部用户可以使用过滤器来选择应用于杂波减少的规则只有选定的规则及其相关维和类别才会显示在ARTable和ParSet中。我们提供这个过滤器,因为不同的支持阈值可能在不同的数据集中是首选的。例如,在收入数据集中,高收入人群所占比例很小。低的支持阈值对于它们的特征的良好覆盖是期望的。我们没有为ARTable中的置信度度量提供颜色编码,因为在规则修剪过程中使用置信度的所有过滤规则将参与维度排序和维度缩减。除了过滤器,ARTable中还提供了许多其他交互。例如,用户可以单击规则以突出显示见图4。 规则选择和突出显示。 在AR表中点击了规则气味不可食用是 维度odornone被突出显示并在ParSets中排序具有规则项集的功能区也会突出显示它的尺寸在ParSets(见图)。①的 人。这些维度将按顺序排列在结果维度的正下方。这有助于用户检查规则的细节并检查任何可能的离群值(参见图4中的小洋红色条带)。它还使用户能够探索如何在ParSet中细分所单击规则的项集中包含的数据。将鼠标悬停在单元格上会触发一个工具提示,显示类别名称和规则度量,如项集、支持度、置信度和提升度。用户还可以手动拖放ARTable顶部的维度标签,以创建新的维度顺序。7. ParSets的交互式杂波抑制在ARTable中识别出感兴趣的关联规则和维度之后,用户切换到ParSets来检查它们的详细信息,比较它们的类别,并发现关联的模式。提供了一组丰富的交互,以减少ParSets中的混乱,从而可以发现见解它们被分为三类,即基于维度的,基于类别的,和基于规则的相互作用。在探索的每个步骤中,用户可以根据他们的领域知识和动态分析需求选择交互的组合,从而实现灵活和迭代的探索过程。这些相互作用见以下章节。7.1. 维排序我们提出以下规则驱动的自动尺寸排序方法:1. 基于关联对维进行排序。此方法将出现在相同规则中的维度放置在彼此靠近的位置,因为它们具有规则所指示的强关系。将它们彼此靠近有助于用户直观地检查关系。这种排序对于查找最相关的维度等任务非常有用(参见第8.3节)。C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)4853图五. Titanic数据集的ParSets。混乱是16.86%,按字母顺序排列的尺寸和类别。使用类别计数排序时,杂波变为11.71%。2. 根据规则中维度类别的计数对维度进行排序。此方法将规则中涉及的类别数最多的维放置在ParSet的顶部它可以帮助用户检查数据的大子集是如何划分的。(see 图第五章)3. 根据维生成的规则计数对维进行排序。此方法将出现在大多数规则中的维放置在ParSet的顶部当用户寻找最频繁和最主要的项集时,它很有用除了自动排序方法外,该方法还允许有经验的用户手动排列轴,以实现高度定制的可视化。在下面的部分中,我们将更详细地介绍这些方法。在所有方法中,结果维都显示为ParSets的最顶端轴7.1.1. 按关联的在这种方法中,具有类别的维度在关联规则中构造相同的频繁项集,它们被放置在彼此旁边。形成宽带来表示与二分结果相关联的相同频繁项集中的观察,从而连接ParSets中相邻维度的类别(见图11)。2)的情况。通过这种方式,可以减少混乱,频繁项集可以是可见的,并且可以识别关于结果的相关联的维度和类别见图6。用于基于规则的距离计算的矢量生成,假设可编辑蘑菇是感兴趣的。左:原始的ARTable。右:从AR表导出的向量。我们的算法是基于层次维数排序(HDR)算法(杨等人。,2003年)。HDR基于维度之间的距离将维度分组到分层聚类中。然后,基于层次结构上的广度优先遍历对维度进行排序。HDR使用相关性来计算距离,而不考虑结果变量。我们认为在关联规则中构造相同的频繁项集是两个维度之间最重要的关联。因此,两个维度之间的距离取决于它们如何共同出现在规则中我们提出以下算法来计算基于规则的距离(1)选择感兴趣的结果。如果用户对两个结果都感兴趣,则可以忽略该步骤。(2)在ARTable中,如果单元格具有编码感兴趣结果的颜色,则将1放入该单元格,否则将0放入。如果两个结果都有意义,则输入1在彩色单元格中填0,在白色单元格中填0。(3)的每一列AR表现在形成其所表示的维度的二进制向量。(4)两个维度的基于规则的距离被计算为它们的向量之间的Jaccard 距离( Levandowsky 和 Winter ,1971)。图图6显示了几个维度及其向量,假设可食用蘑菇在AR表中是感兴趣的。HDR(更多细节请参考Yang et al.(2003))可以使用基于规则的距离直接应用以生成维度的顺序,其中相关联的维度彼此接近。我们在这里简单介绍一下排序算法1. 将每个维分配给仅包含该维的簇。2. 找到两个最近的聚类,并将它们合并为一个聚类。两个簇之 间 的 距 离 可 以 使 用 单 一 、 完 全 或 平 均 连 锁 来 计 算(Johnson,1967)。3. 重复步骤2和3,直到所有维都在一个簇中。7.1.2. 按类别计数减少视觉混乱的另一种方法是在显示器的顶部放置宽丝带,以便它们可以与有趣的结果和其他高排名的维度紧密相连。这种排序不仅允许布局美学,而且允许高度集中地探索具有潜在有趣类别的维度。 例如图5、维度性别两类、类四类、年龄两类按字母顺序相邻。人群丝带的杂乱程度为16.86%。如图所示。5、将这些维度按类别数量排序,将杂乱度降低到11.71%,并且可以很容易地识别出潜在的感兴趣的类别。排序方法是通过计算得到的关联规则中每个维度的类别数,并根据类别数对维度进行升序排序来实现的用户可以计算出只出现在关联规则的可食用类、有毒类或两者都54C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)487.1.3. 按规则计数对虽然由先前方法促进的布局美学使得能够对ParSet中的模式进行深入探索,但是一些用户可能仅仅想要获得与规则的数量相关的快速结果,例如,找到参与最多规则并具有有趣结果的维度。为此,我们提出了一种方法,这些维度所涉及的关联规则的数量的顺序尺寸,假设如果一个变量存在于更多的关联规则,它是更密切相关的结果。与以前的方法类似,用户可以选择在关联规则的可食用类、有毒7.1.4. 手动重新排序维由于没有单一的排序方法可以完全满足用户的不同分析需求,我们的方法可以手动调整自动排序结果。在ARTable和ParSets中,用户可以通过直接拖动其可视元素(ARTable:列,ParSets:轴)并将其放到适当的位置来重新排列维度。在一个视图中更改订单将导致另一个视图中的相应更改7.2. 类别排序类别排序是对尺寸排序的补充,因为它使功能区在显示中保持垂直划分。结果维度有两个类别,可食用的和有毒的,分别放在轴的左侧和右侧。优化的目标是将与食用相关的类别放置在其轴的左侧,将与有毒相关的类别放置在右侧。通过这样做,穿过相邻轴的对角线的条带的数量被最小化,从而能够减少视觉混乱。基于这个想法,我们提出了以下算法来对每个维度内的类别进行排序:(1) 按所选规则度量(支持度/置信度)降序排列仅出现在可食用(2) 对于既存在于可食规则中又存在于有毒规则中且其测度的最大值在可食规则中的范畴大于或等于有毒规则中的值,则对它们进行排序按降序排列。将它们附加在上一步中的最后一个类别之后。(3)对于不存在于任何规则中并且在可食用观测中出现的次数少于在有毒观测中出现的次数的类别,按可食用观测的数量降序对其进行排序。将它们附加在上一步中的最后一个类别之后。(4)对于不存在于任何规则中并且在有毒观察中出现的次数多于在可食用观察中出现的次数的类别,按有毒观察的数量以升序对它们进行排序。将它们附加在上一步中的最后一个类别之后。(5)对于既存在于可食规则中又存在于有毒规则中的类别,且有毒规则中的度量的最大值大于可食规则中的度量的最大值,则按度量的大小进行升序排序。将它们附加在上一步中的最后一个类别之后。(6)将所有只出现在规则中的类别按度量值升序排列,有毒的在右侧。将它们附加在上一步中的最后与手动维度重新排序类似,该方法允许用户使用拖放交互来交互式地组织ParSet中的类别。8. 评价我们进行了两项研究来定量评估我们的方法。首先,我们经验性地测量了cut的减少,用四种排序算法对两个基准数据集进行排序。其次,我们进行了用户研究,以评估我们的方法的可用性。为了对我们的方法进行定性评估,我们邀请了一位可视化教师来审查我们的方法。8.1. 排序算法实验比较了多维分类和类别排序算法的杂波抑制效果在ParSets中。算法是字母排序、基于熵的排序(Alsakran et al. ,2014),以及所提出的基于关联规则的排序算法(关联、类别计数、规则计数)。最近的基于熵的排序算法(Alsakran et al. ,2014)作为基准,包括维度的优化互信息排序算法和类别的优化联合熵排序算法。平均连锁(见第7.1.1节)用于基于关联的维度排序。使用了UCI机器学习库中的两个基准数据集(Dua和KarraTaniskidou , 2017 它 们 是 蘑 菇 数 据 集 ( Dua 和 KarraTaniskidou , 2017 ) 和 国 会 投 票 记 录 数 据 集 ( Dua 和 KarraTaniskidou,2017)。Alsakran等人使用相同的数据集来评估他们的ParSets排序算法(Alsakran et al. ,2014年)。mush-room数据集有23个维度和8124个观测值。结果维度是可食用的。基数的维数从2到12不等。 国会投票记录数据集(简称投票)有17个维度和435个观察结果。结果维度是类名。所有其他维度都有三个类别:y表示同意,n表示反对,u表示未知的倾向。我们研究了在ParSets中显示食用蘑菇和有毒蘑菇的相关特征时,哪种算法更好地减少了杂波。实验结果总结在表1中。 前四行是基于熵的排序算法的结果(Alsakran et al. ,2014年)。最后的指标(R)意味着维度已经使用关联规则挖掘减少,因此该方法显示与我们的方法完全相同的粗体数字表示杂波测量的最小值。结果表明,杂波抑制的有效性取决于排序算法.排序算法的良好使用在很大程度上取决于要分析和可视化的数据集、提取的重要关联规则以及我们关注的结果变量。没有一种特定的排序算法最适合所有分类数据集和产生的关联规则。总的来说,关联规则倾向于有利于维度和类别排序以及减少混乱,以便更好地发现模式。8.2. 用户研究为了评估我们的方法的有效性,我们进行了一项用户研究,旨在评估我们的方法如何帮助进行关联探索并深入了解多维分类数据集。该用户研究包括定量评价和定性反馈。科目尽管Nielsen and Molich(Nielsen and Molich,1990)认为大约80%的可用性问题可以在6个人中找到,我们还是从学术界招募了11名用户,包括1名本科生,2名硕士和8名博士。学生这些学生中的大多数都有基本的可视化知识和强大的统计背景。数据集和系统。我们使用蘑菇数据集和投票数据集来测试我们的原型DCR对两个基准ParSets系统,RAW和DR。RAW显示原始数据,未进行任何降维。DR显示与DCR相同的尺寸,DCR是使用我们的自动C. Zhang,Y.陈,J.Yang等人/视觉信息学3(2019)4855表1蘑菇和投票数据集的不同排序算法的杂波测量。粗体数字表示最小杂波度量。支持度阈值为25%,用于蘑菇数据集。36%用于投票数据集。最优互信息(R)表示使用我们的方法降低了维度。维排序类别排序蘑菇投票最优互信息Alphabet25.62%24.39%最优互信息联合熵29.72%百分之十五点三八最优互信息(R)Alphabet21.30%百分之二十五点八六最优互信息(R)联合熵11.48%8.43%类别计数(两类)Alphabet21.32%23.47%类别计数(两类)信心10.10%8.28%规则计数(两个类)Alphabet23.78%31.06%规则计数(两个类)信心百分之十点九六8.48%基于关联(两个类)Alphabet百分之二十六点五五28.40%基于关联(两个类)信心百分之十一点九七8.27%类别计数(仅1类)信心10.10%8.28%规则计数(仅限类1)信心百分之十点九六8.48%基于关联(仅1类)信心百分之十一点九七8.06%类别计数(仅2类)信心10.10%8.48%规则计数(仅限类2)信心百分之十点九六8.48%基于关联(仅2类)信心9.53%8.27%基于关联规则的降维算法。RAW和DR中提供了基本交互,包括手动维度/类别重新排序和悬停工具提示。RAW和DR中没有规则可视化、自动类别/维度排序以及基于规则的突出显示和过滤。任务评估任务的设计基于ParSets中建立的共同分析目标,特别关注关联探索。正如引言部分所讨论的通过比较三个系统的任务性能,我们评估了它们在优化可视化显示方面的能力特别是,评价中包括三项任务任务1:总结以得出关联的概述,涉及有趣的结果,例如,找到一组看起来重要的可食用蘑菇的特征。任务2:比较以探索关联在维度、类别和置信度方面的差异,例如,比较共和党和民主党,看看他们在教育和移民方面的政策有何不同。任务3:离群值检查,用于识别和跟踪使关联低于100%置信度的数据记录的小子集,例如,是否所有共和党人都投票反对特朗普?如果不是,那么共和党的少数派投了什么反对票?设计和程序。我们采用了重复测量设计,使用系统的平衡顺序。数据集、任务和系统都混在一起。参与者交替使用两个数据集,三个任务和三个系统。平衡的顺序是减少前面问题答案的依赖性。本文首先简要介绍了研究的目标、数据集、关联规则、ParSets和研究的时间表。然后,我们开始了一个简单的ParSets与巨大的数据集旅游。我们只使用维度:生存,年龄,性别和阶级。它帮助参与者迅速熟悉系统。我们演示了三种排序算法,并鼓励参与者提出任何问题。当他们认为他们准备好了,我们开始收集花在每项任务上的时间。对于每一个问题,如果参与者认为太难回答,他们可以在回答过程中退出。我们把它记为“退出”。会议期间不允许与会者提问,以确保准确记录时间表2显著性检验结果采用ANOVA分析。‘‘N/A’’ represents the test is not available数据集和任务RAW与博士DR与DCRRAW与DCR蘑菇,总结.006.008.001蘑菇,比较.046.003N/A蘑菇,离群值N/A.031N/A投票、总结.028.017.001投票、比较N/A.007N/A投票,离群值N/A.068N/A消耗殆尽。在完成这些任务后,进行了访谈,以获得量化的反馈经验。我们设计了多网格Likert量表问题来衡量参与者对三个陈述的态度,而不是对每个任务完成情况进行评论(Brooke et al. ,1996年)。任务3语句的一个示例三个系统RAW、DR和DCR作为网格的态度以5点响应选项的形式被捕获为网格的列-强烈不同意,不同意,中立,同意,强烈同意。分析和结果。我们对三个系统所花费的时间进行了统计假设检验。大多数参与者使用RAW ParSets退出比较和离群值检查任务。十个人退出了蘑菇数据集,六个人退出了投票数据集。对于他们没有退出的总结任务,我们用DR和DCR进行了ANOVA(Johnson和Wichern,2002)。我们还对所有任务的DR与DCR进行了ANOVA。试验结果总结见表2。如果显著性水平设置为0.05,则除[投票,离群值]上的DR与DCR外,所有比较均具有统计学显著性。我们可以得出结论,DCR允许用户在比DR和RAW更短的时间内执行任务。我们对李克特量表问题进行了描述性统计。对于RAW,11名参与者中分别有7名、7名和8名参与者选择了强烈不同意或不同意“我在执行总结、离群值检查和比较任务时付出了很小的努力”这一陈述11名参与者中有7名不同意他们在完成离群值检查任务方面付出的努力很小。对于DR,3, 3,11名参与者中有8人认为他们付出了巨大的努力, 分别回答这三个问题。相比之下,对于DCR,8,8,11名参与者中有10人同意DCR在很大程度上节省了他们在三项任务中的努力。所有与会者一致认为,DCR是最有效率和最有效的系统我们收到了关于DCR可用性的令人鼓舞的反馈四位用户特别提到了突出显示和过滤。例如,两个用户评论说:“DCR为我提供了突出显示,过滤器,关联规则和维度功能,它可
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功