IXVC：解释决策树的交互式管道

113 浏览量更新于2023-12-05 收藏 1.73MB PDF 举报

非线性降维

可视化映射

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列11（2021）100080IXVC：一个交互式管道，用于解释决策树AdrienBibal1，1，AntoineClarinval1，BrunoDumas，BenoamtFrénayPReCISE，计算机科学学院，NADI，那慕尔大学，Rue Grandgagnage 21，B-5000那慕尔，比利时A R T I C L E I N F O保留字：非线性降维可解释性交互决策树A B S T R A C T具有许多特征的高维数据通常很难用标准的可视化技术来表示。通常，人们不得不求助于降维技术，如PCA，MDS或BS-SNE来表示这样的数据。这种降维技术使得突出数据的高维结构成为可能。在许多这样的可视化中，可比较的实例似乎形成视觉集群。然而，这些技术并不直接向用户给出关于使用户能够使用的特征的反馈。实例在可视化中聚集在一起。因此，解释哪些特征定义给定的视觉聚类是一项复杂的任务。在本文中，我们提出了一种新的交互式方法（称为交互式解释的视觉集群- IXVC）来解释降维可视化映射其集群提供的解释决策树。决策树利用高维数据中的特征来解释二维聚类，填补了降维可视化与原始数据之间的空白。1. 介绍在机器学习中，降维（DR）技术被设计为减少原始高维（HD）数据的特征数量。减少特征的数量，例如，二维，提供了低维（LD）数据，可以直观地呈现给用户。DR技术在许多不同的领域中使用。例如，多维标度（MDS）[1]在心理学中用于探索数据或验证假设[2，3]（例如，参见Koch等人[4]）。主成分分析（PCA）[5]是另一种著名的技术，如果保留第一个成分，可以产生可视化MDS和PCA之间的主要区别之一是它们的可解释性，这是由模型的内在能力定义的可以理解[6，7]。在DR可视化的上下文中，PCA可视化的维度（称为主成分）与对应的HD数据之间的联系通常被认为是可解释的，因为主成分是HD特征的线性组合。通过查看线性组合中的权重，可以识别来自HD数据的用于定义LD维度的特征。相反，非线性DR（NLDR）技术产生的HD维和LD维之间的映射并不总是清楚的。这种缺乏可解释性是一个问题，但可以开发方法来解释这种黑盒模型或映射[8]。在机器学习，解释黑箱模型或映射被定义作为外部资源的使用，例如，可解释的模型，以提供有关黑盒行为的见解[8]。在NLDR可视化的某些情况下（例如，对于E-SNE[9]），尺寸没有意义，因此不能用作解释的基础。相反，解释必须依赖于可视化中存在的视觉集群。然而，也有问题，如任意的集群形状和分析师的直观性注入解释过程中的视觉聚类分析。目前，在文献中提出的方法解决大多数问题，通过视觉集群解释NLDR。本文旨在填补这一空白，研究以下研究问题：如果在给定的NLDR可视化中清晰地出现视觉集群，我们解释这些基于原始维度的视觉集群为了解决这一问题，提出了一种交互式流水线，对应于通过视觉聚类来解释黑盒DR 映射。我们的管道称为视觉集群的交互式解释（IXVC），通过使用决策树[10]解释了LD中视觉呈现的集群与原始HD功能之间的联系。决策树被认为是提供解释，因为它们∗ 通讯作者。电子邮件地址：adrien. unamur.be（A.Bibal），antoine. unamur.be（A.Clarinval），bruno. unamur.be（B.Dumas），benoit. unamur.be（B.Frénay）。1Adrien Bibal和Antoine Clarinval是共同第一作者。https://doi.org/10.1016/j.array.2021.100080接收日期：2021年3月9日;接收日期：2021年6月16日;接受日期：2021年7月13日在线预订2021年7月30日2590-0056/© 2021作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayA. Bibal等人阵列11（2021）1000802��=√��∑��就像传统的散点图一样，但高清功能也是如此。HD特征被可视化为双标图中的向量，其中它们的方向可以非线性地预测视觉聚类，同时是可解释的。此外，即使在原始数据是高维的情况下，决策树也保持可解释性（与之相反，例如，线性模型），因为树中的决策逐个考虑特征。这使得所提出的解决方案在数量上是可伸缩的。HD尺寸。管道是交互式的，因此需要分析人员选择要解释的聚类。IXVC在用于管道评估的Web应用程序为了介绍IXVC，第2节回顾了通过维度和聚类对DR可视化的解释。第3.1节激发了解释视觉集群的必要性。第3节介绍了IXVC。第4节介绍了实现IXVC的工具以及使用示例。已经进行了基于用户的实验，以评估管道和工具，并在第6节中介绍。关于IXVC局限性的讨论见第6.4节。第8节提出了未来工作的方向，第9节总结了论文。2. 解释灾难恢复可视化抽象性约简（DR）是减少高维中可用特征的数量的过程。DR技术通常用于通过可视化技术进行数据探索，当特征数量减少时，这会变得更容易。例如，当维数减少到两个时，可以使用散点图图 1提供了一个DR可视化示例。在灾难恢复过程中，信息不可避免地会丢失。例如，在多维标度（MDS）中，这种损失的度量（称为应力）被定义为两两距离之间的差值在HD和LD中的实例之间。更正式地说，让��D 是HD中的实例X1和X2之间的距离，以及LD中的实例X1和X2之间的距离��√√∑��(��D−��D)2��Fig. 1. 2006年《人类发展报告》的DR可视化（由RES-SNE[9]生成）[16]。该可视化由数据集中的76个国家组成。根据HD的社会经济特征，DR得出两个维度。即使可以直观地识别视觉集群，也不清楚如何使用HD功能来生成它们。维度在线性DR的情况下，包含这些贡献在重量上。另一种可视化HD特征对线性DR技术构建的嵌入的贡献的方法是使用双标图[18，19]。双标图是可视化实例的图，例如DR信息丢失（出于一般性的目的，本文称为DR错误）是解释或解释DR可视化时需要考虑的一个基本要素。实际上，由于DR误差，一些物体相对于它们在HD中的位置在LD中没有正确定位这些DR错误使得分析可视化的任务更加困难。如Nonato和Aupetit [11]所回顾的，已经开发了一些视觉技术来提示可视化中DR错误的存在（参见，例如，[12解释特定DR意味着理解HD中的实例与2D中的对应实例之间的映射。当映射不可解释时，可以使用技术来解释它。有两种主要方法来解释或解释DR映射[1]。首先，可以通过关注两个新维度的解释来解释或解释映射。与降维的解释和解释有关的文献在第2.1节中展开。其次，2D可视化中的视觉聚类也可以用于找到解释或解释，如第2.2节所述。2.1. 使用维度在解释DR可视化的两种方法中，使用LD维度是文献中最广泛的。一些DR技术，如主成分分析（PCA）[5]，被认为是可解释的，因为HD和LD尺寸之间的映射是由HD特征的线性组合定义的链接线性DR的缩减尺寸和原始HD特征的一种经典方法是使用轴图例[17]。这些图例通常表示为条形图，表示每个新的和长度是基于每个HD特征对两个缩减维度的贡献。在非线性DR（NLDR）的情况下，每个HD特征对降维的贡献在大多数情况下不是通过参数给出的，这使得NLDR映射难以解释[20]。为了将双标图转换为NLDR情况，Coimbra等人对每个HD特征的值进行均匀扰动，同时将未扰动的HD特征设置为它们的平均值[21]。通过这样做，他们获得了表示2D图中HD特征趋势的弯曲轴。根据同样的想法，Cavallo和Demiralp建议在散点图中为每个点和每个感兴趣的特征绘制脯氨酸[22]。通过改变感兴趣的特征的值来创建新样本，然后通过计算所有生成的样本到LD的投影，在LD中绘制脯氨酸，而所有其他特征都是固定的。脯氨酸对应于连接所有创建的样本的2D投影的线。Coimbra等人还根据曲线双标图轴[21]给出了NLDR的轴图例。它们定义了与HD要素对缩减维度的贡献相对应的条的高度通过投影曲线与每个散点图轴的平行程度以及曲线的线性程度的组合。Turkay等人[23]使用实例和HD特征的双视图开发了DR尺寸的交互D2��.A. Bibal等人阵列11（2021）1000803式分析。这个想法是选择实例，然后用于计算散点图，其中点是来自HD空间的特征，并且其中维度是选择的统计数据。然后，用户可以选择该散点图中的点，即HD特征，这些特征随后用于计算实例的新DR可视化类似地，Yuan等人[24]提出了由HD特征的DR可视化和实例的DR可视化A. Bibal等人阵列11（2021）1000804这两个可视化作为选择元素相互链接在一个可视化中反映在另一个可视化上（例如，表示在一个可视化上选择的特征的点用于计算实例的新可视化）。虽然Turkay等人和Yuan等人的作品让用户有一种冲击感，由于在实例的DR可视化上的原始特征中，它们不提供使用HD特征来构建可视化的两个维度处理NLDR的可解释性问题的另一种方法是将映射转换为线性映射。例如，Gisbrecht等人将线性核应用于NLDR算法E-SNE[9]，以便使映射线性化[25]。外部资源也可用于解释LD维度。例如，社会科学家经常使用属性拟合（PROFIT）[26]来发现可视化中的趋势（关于PROFIT的使用示例，请参见Koch等人。这些趋势是使用尚未用于进行可视化的特征的线性组合（即，外部特征）来创建的。nal features）。最佳可解释旋转（BIR）是通过使用外部特征的线性组合来解释DR可视化尺寸的另一种解决方案[27，28]。2.2. 使用群集如图1所示，可以在DR可视化中形成视觉集群。使用其视觉集群解释DR可视化映射是解释HD到2D映射的另一种方式。该任务与Bjummer等人的验证群集任务的组合[29 ]第29话：Nonato和Aupetit称这个任务为发现视觉模式和原始维度之间的关系[11]。作为解释基础的视觉聚类可以由用户手动识别，也可以由聚类算法自动在HD中使用聚类算法可以获得有关2D中视觉聚类的一些例如，如果在HD实例上使用平均值[5]，并且发现的HD集群的标签以2D显示，则可以使用HD特征与HD集群的质心之间的关系来获得关于视觉集群的一些见解。然而，首先，视觉聚类可能不对应于通过双均值找到的HD聚类。第二，根据每个HD特征来定义通过并行方法提供给用户的HD质心，这使得它们在实践中难以解释。��Wenskovitch等人回顾了将DR技术与通过聚类算法自动发现的聚类相结合的不同方法[30]。这种组合的一个最近的例子是Clustrophile 2 [31]，它允许用户选择DR技术和HD中应用的聚类算法，以便可视化HD集群。与可视化一起提供了关于HD集群的一些解释，例如以热图和决策树的形式预测具有HD特征的HD集群的每个集群中的每个特征的重要性虽然Clustrophile 2与我们的工作有一些联系，但它旨在解释应用于HD数据的聚类算法，而我们的问题是通过所使用的DR方法产生的视觉聚类来解释HD到2D的映射同样，关键区别在于2D视觉集群不一定对应于通过例如，HD-表示应用于HD。我们的工作重点是解释视觉集群，用户看到的DR可视化和不理解，因此需要手动聚类。当识别视觉聚类时，可以提供对这些聚类的解释。大多数情况下，解释是由专家提供的（例如，Lebel等人[32]）。这使得集群任务的名称具有主观性[2]。这种方法的一个缺点是，在解释过程中，专家可能会注入额外的知识，而这些知识并非来自用于生成可视化的数据。此外，即使它们不注入额外的知识（例如，通过将它们的解释限制到原始HD特征），用户仍然难以解释HD特征如何被组合以形成2D中的簇文献中存在根据特征在分类、回归或聚类过程中的重要性来检测和排序特征的方法[33]。例如，递归特征消除（RFE）可以用于通过在线性模型的情况下使用模型系数或在例如，[33]第三十三话在聚类的情况下，可以使用几个不同的特征兴趣度量来修剪初始特征集[34]（参见，例如，[35da Silva等人提出根据欧几里德排名和方差排名对HD特征进行排名[39]。对于数据集中的每个实例，用户在LD中选择一组邻居，并为每个HD特征计算每个实例与其LD邻居之间的欧氏距离。然后，通过跟随排名最高的高清功能在不同的街区。在使用LD中的网格自动检测聚类后，Kandogan建议通过根据与每个HD特征相关的分数标记每个聚类来对HD特征进行排名[40]。针对每个自动检测到的LD聚类和每个HD特征计算该分数，作为对LD聚类的属性的测量的线性组合（例如，密度）。线性组合的权重，即属性的重要性，由用户设置Joia等人对包含每个自动发现的聚类中包含的实例的HD特征的转置矩阵使用奇异值分解（SVD）来计算这些聚类的HD特征的重要性[41]。Rauber等人提出让用户选择一组实例，并根据区分标准（即单个HD特征如何解释所选实例与其余实例的分离）或一致性标准（即单个HD特征如何解释所选实例的紧凑性）提供HD特征的排名[42]。然而，高清功能没有结合起来解释。Parisot等人使用进化算法来找到数据集预处理，该数据集预处理导致新的数据集，其聚类结果更容易解释[43]。为了找到这样一个新的数据集，进化算法的目的是找到一个小的决策树，该决策树用于解释预处理数据集的聚类，同时具有与原始数据集上的聚类尽可能相似的预处理数据集上的van Ham等人考虑了由两个HD特征构成的散点图，并使用决策树通过使用散点图中未使用的HD特征来解释散点图中的实例选择[44]。他们的决策树是一个二叉分类树，解释所选择的实例与所有其他实例，这并没有解决在DR可视化中解释视觉集群的问题PCA中的对比聚类（ccPCA）[45]采用对比PCA来找到最能解释可视化中特定聚类与其他聚类之间对比的HD特征t-viSNE是一个工具，它包含了不同的技术，用于深入了解t-viSNE可视化[46]。特别是，作者使用PCA的第一个组件上的用户选择的点，以了解主要的HD功能，描述了选定的点。然而，（i）该选择与投影没有联系，因为它解释了HD点而不是HD点如何在LD中投影，以及（ii）由于PCA，解释是线性的，而投影是非线性的。为了为了考虑这些限制，另一个考虑折线的工具在t-viSNE中提出。我们的想法是在可视化中绘制线条，然后根据它们如何解释，对每个 LD尺寸，多段线上LD点的顺序。关于我们在工作中解决的问题，这个工具的缺点是：（i）解释的是维度而不是聚类;（ii）HD特征的相对重要性是已知的，但不知道它们是如何组合起来解释维度的。最近提出了一种基于Ma和Maciejew-ski的线性段的方法来解释NLDR可视化[47]。这个想法，基于LIME分类[48]，是局部和线性解释A. Bibal等人阵列11（2021）1000805P1NLDR可视化。这种技术的两个缺点是，(1)通过模型局部地而不是全局地解释可视化，以及（2）线性模型不能很好地随HD特征的数量缩放。由于这最后一个问题，只有在每个模型中使用的顶部功能。如本工作中所做的那样，从散点图中的用户选择的聚类生成DT的想法之前由Ware等人考虑过。[49]。然而，在我们的工作中，散点图不是表示两个HD特征，而是DR过程的结果，DT用于近似DR映射。此外，Ware等人的决策树是通过散点图定义分裂来手动构建的，而在我们的方法中，它是从聚类的选择中自动生成的。3. 基于决策树使用NLDR可视化时，没有任何关于可视化和用于生成它的原始特征之间的映射的线索。为了介绍通过视觉聚类解释这种映射的重要性，第3.1节介绍了与最先进的邻域保护技术相关的一些挑战。然后，第3.2节对第2.2节和第3.1节中讨论的挑战提出了答案。第3.3节基于建议的答案，并介绍了IXVC，这是一种机器学习管道，可帮助数据分析师通过视觉集群解释DR可视化3.1. 通过群集需要通过可视化集群来解释灾难恢复可视化，但现有的解决方案面临着一些挑战。为了使这些挑战明确，我们采取邻域保存技术（EST-SNE，UMAP等），作为一个例子。这些技术的目的是通过在2D中使邻居成为两个实例（如果它们是HD中的邻居）来保持HD邻近性。更准确地说，实例在HD中，这些技术越试图将它们接近2D。一个��-SNE可视化的例子如图所示。1.一、下面的每个挑战都有一个方括号中的名称基于维度的解释可能是不可能的[维度不可解释（DNE）]首先，考虑到其对HD中的邻域的关注，邻域保留技术自然倾向于强调2D中的聚类，这使得它们成为通过聚类进行解释的良好候选者。此外，这些技术产生的可视化的维度没有意义[50]，不能用作解释的基础。因此，只有可以使用用于解释的聚类方法，并且没有用于通过维度进行解释的技术可以使邻域保持技术更可解释[50]，除非它们被修改（例如，Gis-Brecht等[25]）。LD聚类具有任意形状[任意形状（AS）]其次，由邻域保留技术产生的视觉聚类可能具有复杂的形状，这使得具有预定义聚类形状的聚类算法（例如均值）不适用。实际上，这种聚类算法的预定义形状将可能的聚类解释限制到可能由聚类算法形成的聚类3.2. 对聚类解释挑战的回答第一个问题，在2.2节中提到，是直观的解释。的集群。当数据分析师使用他们的直觉来解释由DR算法的错误组成的聚类时，就会出现这个问题。基于HD特征，访问视觉集群背后的客观原因将有助于数据分析师克服直观评估的问题。在第3.1节中提出的称为[AS]的问题涉及2D簇具有任意复杂形状的可能性。聚类算法对聚类形式所作的但如果票数 2D可视化分析，数据分析师可以绘制视觉集群本身的限制（例如，手工制作的选择）。问题[MC]是关于DR错误在集群解释中的作用在这种情况下，获得关于DR错误的反馈可能有助于数据分析师解释映射。事实上，如果将2D中每个实例的单个错误提供给数据分析师，则可以决定在视觉分析期间是否丢弃某些实例。这个问题很重要，因为由于DR错误而错误地放置在可视集群中的实例可能会误导分析人员。问题[DNE]与缺乏可视化维度的意义有关，迫使使用视觉集群来理解HD到2D映射。当维度可以解释时，就像MDS可视化一样，可以使用技术来近似原始特征和可视化维度之间的映射。然而，当解释可视化维度没有意义时，如在EST-SNE和UMAP [50]中，必须找到一种近似原始特征与可视化中的聚类之间的映射的方法。��获取系统提示理想情况下，除了更容易解释视觉集群之外，提供视觉集群的反馈还可以帮助数据分析师决定采取几项行动。例如，为了改进解释，他们可能想要选择更合适的DR算法，以改变DR算法的超参数（或元参数）或移除使DR过程困难的实例3.3. IXVC：交互式机器学习管道在本节中，介绍了为解释DR可视化中的集群而开发的交互式管道，即可视化集群的交互式解释（IXVC）。管道用于DR可视化探索的上下文中因此，第一步是考虑特定的DR可视化V（��× 2）由数据集X（��×��）构建，对应于散点图 1图二、应该提供DR算法为可视化中的每个实例所产生的错误，以便数据分析师取消选择DR错误太高的元素。在我们的上下文中，取消选择元素只意味着错误投影的实例在可视化中被隐藏，这样它们就不会干扰用户的分析。第二步是手动选择视觉聚类，聚类算法分析师希望得到一个客观的解释（见图1）。2）。所有LD聚类可能具有误导性[误导性聚类（MC）]第三，专家手动执行的聚类分析或聚类算法自动执行的聚类分析可能具有误导性，因为邻域保留技术倾向于显示聚类。事实上，尽管这些技术在检测真实HD集群方面具有优势，但这些技术有时也会以2D呈现HD中不存在的集群[50]。所有这些问题都是最先进的NLDR算法所共有的，例如EST-SNE[9]，UMAP [51]和LargeVis [52]。尽最大根据我们的知识，文献中没有解决所有这些问题的技术。IXVC，本文提出的任务发现视觉模式和原始尺寸之间的关系的解决方案[11]解决了这些问题。不必选择可视化中的实例，并且2D聚类的数目可以是任意的。��接下来，基于所述二维聚类构建决策树（DT在第二步中提供（参见图中的DT 2a）。2）。2D聚类成员资格用作决策树的标签，并且HD数据X的原始特征是决策树中做出决策的标准如第2.2节所述，可以注意到决策树可以用于解释HD集群（参见，例如，[43、53、54]）。然而，我们的任务是不同的，因为我们的目标不是在HD中聚类数据，而是通过其2D视觉聚类来理解给定的DR可视化。因此，我们建议通过交互式查询感兴趣的视觉聚类的含义A. Bibal等人阵列11（2021）10008061P1P3P3HP图二. 从给定的灾难恢复可视化中，数据分析师手动选择可视化算法1：IXVC数据：输入矩阵X和可视化V结果：V的解释满足用户，而用户对解释不满意。要求用户将可视化V中的一些实例分组到集群c;对于X的k个折叠中的每个折叠f，对于每个超参数值hp，DT-1 ，hp = train_decision_tree（数据=X-1，目标=C-1，parameters =max）;score−1，hp = predict（DT−1，hp，X1）结束结束hp= arg max mean（score，hp）;DT= train_decision_tree（data=X，target=c，hyperparameters=hp）;显示DT 用户;在可视化V中向用户显示predict（DT，X聚类（颜色对应于选定的聚类），以及端决策树的错误2a提供了使用HD功能解释手动群集的说明2b .根据提供的反馈，新的手动聚类可以由数据分析师执行。��然后使用多重交叉验证来选择最佳的hyperpa。决策树的参数（见图2a）。2）。通过这样做，决策树通过使用原始特征解释重新手动选择的聚类来提供其用于解释DR可视化V的最佳可能解决方案虽然决策树提供给分析师的第一个信息是对原始特征的解释，但第二个信息来自于决策树（见图2中的散点图2b）。事实上，可视化DT在预测所选视觉聚类时所犯的错误允许分析师看到在可视化中分析师的聚类无法解释的地方。该信息可以暗示DT不能帮助解释所选择的视觉集群，但是也可以暗示所选择的2D集群不表示真实的HD集群，并且因此需要以不同的方式在2D中对实例进行集群。最后，分析师可以停止分析，或者选择以不同的方式对实例进行聚类。在后一种情况下，分析师继续进行第二步再次通过选择其他视觉集群（参见图2），然后用一个新的决策树来解释。在在前一种情况下，分析师停止分析，因为聚类的多次迭代解释已经为分析师提供了足够的信息。IXVC在算法1中总结。Sacha等人[55]开发了一个描述交互式的过程模型。 DR与七种交互场景。虽然我们的工作建议将用户交互和DR相结合，这种交互发生在DR执行后，而不是在其计算过程中。在我们的方法中，Sacha等人[ 55 ]的过程模型中的数据，特征空间和DR被认为是给定的，并且交互增强了数据，以便训练DT，这反过来又增强了可视化（见图10）。3）。这些增强将帮助分析师理解聚类如何映射到嵌入。场景S1（即数据选择）和S2（即注释和标签）来自Sacha等人。[55]在解释过程中得到支持，因为用户可以过滤实例并定义可视化集群（因此，为实例分配标签）以构建DT。请注意，由于目标是帮助理解可视化中的可视化聚类，而不是自动计算的聚类，因此用户可以绘制他们看到的聚类的边界并评估解释图三. 在我们的方法中，Sacha等人[55]的过程模型中的数据、特征空间和DR被认为是给定的，并且相互作用增加了数据以便训练DT，进而增强可视化。通过DT接收。这个特殊的设置解释了为什么我们的管道是交互式的（用户必须在循环中），以及迭代的（用户可以尝试其他解释，以扩大他们对可视化的理解）。4. 交互式讲解界面本节介绍为评估IXVC而实现的接口。图4显示了IXVC接口。界面的顶部显示DR散点图，用户可从中选择聚类（左上角），所选聚类的列表（中上部）和散点图（右上方），显示DT（界面底部）产生的预测结果IXVC接口实现为运行在Python Web服务器视觉效果是使用D3.js库在JavaScript中开发的[56]。 Python Web服务器使用scikit-learn处理机器学习算法的执行，例如决策树[57]。对于IXVC的评估，使用了由EST-SNE当启动IXVC界面时，用户将看到一个散点图（位于界面的左上角），该散点图是通过运行RISK-SNE（没有PCA预处理）生成的。每个实例都表示为一个黑点，并带有显示其名称的相关文本标签，从而允许识别各个实例。每个点的不透明度描述了由ESP-SNE产生的各个误差，最白的点表示最高的误差。每个实例的这个误差是使用单个Kullback-Leibler发散损失来测量的��DKL（闪烁闪烁）=闪烁对数（闪烁闪烁），��A. Bibal等人阵列11（2021）1000807见图4。IXVC接口。左上角散点图（A）对应于DR可视化。相对于在顶部中间部分（B）中示出的聚类的用户选择，对图块进行着色。在底部，提供了解释用户选择的决策树（D）。对应于树预测的颜色呈现在右上方的可视化（C）中。对于评估（见第6节），用户可以通过使用地球和猫图标（E）在国家和动物园数据集之间切换其中，p=（resp. ��是一个向量，包含每个实例的概率是邻居的实例在HD（resp.��2D）。低发散度意味着HD中的NH3邻域保存良好在2D中。可以根据用户在单个Kullback-Leibler发散损失（为了通用性起见，在接口中称为DR误差）上定义的阈值来滤除干扰DR错误阈值在接口中被标记为容错，而不是丢失容限，因为接口的初步评估（参见第6.1节）表明，它对使用者更有意义，因此更通用显示散点图时的一个主要挑战是当有许多数据点要显示时可能出现的视觉混乱，这可能会妨碍分析师的工作并导致界面中可视化渲染的延迟。文献中的先前工作建议实现包括交互特征在内的技术，以解决视觉混乱（例如，[58，59]），并确保手头的可视化拥有所需的属性，如可扩展性和单个数据点定位。Ellis和Dix [59]已经确定了八个属性和十一种杂波减少技术，可以用来实现这些理想的属性。在IXVC接口的上下文中，实现了三种杂波抑制技术，即采样（在第6节中讨论）、滤波和不透明。这种组合使我们能够获得Ellis和Dix [59]中列出的界面所需的所有理想特性。特别是，关于数据点数量的可扩展性（通过采样和过滤实现），以及区分视觉表示上的各个点的能力（通过不透明度实现）是最重要的散点图提供了一个类似套索的交互，允许用户选择视觉集群。所选实例随后被着色为相似的颜色，以标记它们属于相同的集群，遵循ColorBrewer生成的分类色标[60]。用户定义的聚类显示在散点图右侧的窗格中。该界面使用词组而不是聚类，以便评估参与者避免与自动聚类技术获得当用户完成选择视觉聚类时，从聚类选择生成的决策树显示在散点图下。决策树尝试使用HD特征来预测每个所选实例的聚类。决策树的表示显示了选择来构建树的特征以及熵（在决策树的叶子中命名为杂质）。熵表征了特定节点中集群实例的分布。如果节点中仅存在一个聚类的元素，则它等于0;如果元素在所有要预测的可视聚类之间均匀分布，则它等于log2（聚类数）。对于树中的每个叶子，呈现为每个聚类第二个散点图显示了每个实例的预测值在界面的右上角。尽管决策树给出了每个叶子中不正确预测的数量，但这个散点图使得可以识别所讨论的错误预测的实例。实例根据其预测的聚类被着色，并且如果预测与用户选择一致，则被成形为点，或者作为十字架。由决策树做出的预测的置信水平由上的点的不透明度表示。散点图同样，可以根据用户在由用户提供的最小置信度上定义的阈值来过滤掉实例。的DT。基于DT和显示预测的散点图，用户可以反思解释并绘制新的聚类选择。进而，他可以通过生成具有新选择的视觉集群的新DT来再次循环视觉集群解释流水线。重复这个迭代过程，直到用户感觉他对可视化有了足够的理解。5. 案例研究实例在本节中，两个案例研究演示了IXVC管道的应用。在第一个案例研究中，数据分析师与从2006年人类发展报告[16]的138个国家中提取的50个实例，以下称为国家数据集。的A. Bibal等人阵列11（2021）1000808图五. 在我们的实验中使用的DR可视化。点的亮度指示个体DR误差（点越白，误差越高）。45项社会经济指标，如国内生产总值和人口增长。在第一步中，数据分析师发现所示的散点图图5a. 在第二步中，他选择集群。在图1的示例中，6a，选择了三个集群。在第三步骤中，基于聚类选择生成决策树和第二散点图。决策树（图）6c）表明，红色组可以用援助最不发达国家的资金来毫无疑问地解释，红色组国家的支出更多。决策树根据其GDP将剩余的40个实例分开。它还将蓝色集群解释为GDP超过649亿美元的国家。在15个相关实例中，10个被正确预测为属于蓝色聚类。然而，用户在绿色聚类中选择的5个实例被错误地预测为蓝色。所有剩余的实例都被预测为属于到绿色的星团。决策树使用主导出功能来分离剩余的25个实例。在57%以下的国家中在主导出中，蓝色集群中的2个实例被错误地预测为绿色。图中的散点图。图6b显示了预测并突出显示了错误。由于对决策树的7个错误预测不满意，数据分析师进行了管道的第二次迭代，将没有预测错误的红色聚类放在一边。分析人员将剩余的40个实例划分为两个显著变化的聚类（图7a）。在这个新的选择中，以前的蓝色集群（图6a中的集群B）已经被扩大，以包括以前在绿色集群中选择的国家，但决策树预测为蓝色，如哥伦比亚，墨西哥，印度尼西亚和菲律宾（见图6b）。新的决策树（图7b）是基于新的聚类选择进行训练的，并使用人均GDP特征解释新的聚类。它只导致2个预测错误，而不是在使用GDP来分离40个实例的第一次迭代中发生的7个错误。如果没有IXVC管道，这种新的解释是乏味的，甚至是不可能的，但数据分析师对集群解释感到满意。选定的集群可以用用于援助最不发达国家的资金和人均国内生产总值来解释。50个实例中有48个被相应的决策树正确预测。在第二个案例研究中，数据分析师使用波士顿数据集的MDS可视化[61]。该数据集由描述506个实例的房屋特征组成。在处理这506个实例的可视化时，数据分析师注意到，在使用IXVC之前，MDS通常提供的紧凑可视化被分成两个可视化集群（见图11）。8a）。为了验证这些聚类是否可以用构建可视化所使用的HD特性来解释，数据分析师依赖于IXVC。IXVC向数据分析师表明，为解释顶部和底部视觉集群而构建的DT存在许多错误。因此，分析师决定丢弃具有过高投影误差的实例，并将顶部聚类分成两个聚类。这两个新集群中的一个由密集中心的实例组成，构成蓝色集群。另集群将聚集在密集中心周围的实例分组，并形成绿色集群。在细化视觉聚类之后，数据分析师了解到，这种难以理解的可视化实际上是HD空间中不同聚类的表示。决策树启发的数据分析师结论是，红色聚类对应于犯罪率高的社区，而蓝色和绿色聚类中的社区则相反。蓝色集群对应犯罪率低的社区，住宅用地的百分比低于57.5%，附近几乎没有工业，房屋的平均房间数严格低于8。换句话说，蓝色集群对应的是拥有住宅和租赁业务的城市中心。绿色集群包含的实例是蓝色的星团。事实上，任何一个住宅区，拥有更多的工业或更大的住宅区都在绿色集群中。6. 评价本节介绍IXVC管道和接口的评估.请注意，与管道相关的数据集需要包含可理解的特征，以便与决策树一起使用。为了评估的目的，两个数据集可用于分析与接口。首先，第5节中介绍的国家数据集（参见图5a中我们实验中使用的数据集的DR可视化）。其次，动物园数据集[61]用16个特征来表征101只动物，例如腿的数量以及它们是否有羽毛（参见图5b中我们实验中使用的数据集的DR可视化）。用户可以通过界面上的一个按钮获得一个表格，该表格显示了正在审查的整个数据集。用于生成国家和动物园数据集的DR可视化的CNO-SNE困惑度分别为6和18。每次构建DT以解释视觉聚类时，通过10倍交叉验证在范围[10，50]中的40个值中选择每个叶的超参数最小样本对于每个数据集，随机抽样50个实例。评估的目标是评估IXVC管道，而不是为实现它而开发的接口。参与者可能会遇到与管道无关的障碍，从而调整评估结果。显示超过50个实例会妨碍散点图和采样的可读性是一种通常建议解决这种视觉混乱问题的技术[59]。6.1. 初步反馈在IXVC界面的开发过程中，已经从两名研究人员那里寻求了早期反馈，这两名研究人员在机器学习和信息可视化方面不是专家，但有一定的知识。他们的个人资料是为了适应那些有足够知识的用户的个人资料使用该工具，但不足以弥补他们的知识接口的潜在缺陷。这个初步反馈的目的是在评估之前检测界面中的可用性缺陷A. Bibal等人阵列11（2021）1000809见图6。案例研究示例1：IXVC管道的第一次迭代，以解释国家的视觉集群。(For在这个图例中，颜色的参考的解释，读者可参阅本文的网页版见图7。案例研究示例1：IXVC管道的第二次迭代，以解释国家的视觉集群。(For对该图例中颜色的参考的解释，读者可参阅本文的网页版总的来说，两位研究人员提出了一些建议，如添加标题和更改标签，以使界面更清晰。例如，“group "标签以前是”cluster“。两位参与者解释说，“组”将是一个更清晰的术语，因为使用“聚类”可能错误地表明IXVC进行自动聚类分析。与会者还建议使用“错误”一词，取代了以前使用的更专业的术语“损失”。两位参与者还就所选群体的颜色编码提出了建议，这导致了评估。6.2. 评价方法评估的目的是衡量IXVC是否有助于对DR可视化进行分析，如果是，则更具客观性。作为一种通过DR可视化和决策树支持分析的工具，IXVC注定要为了解这些技术的用户提供帮助。招募了16名学生（13名男性和3名女性），他们参加了研究生水平的数据科学课程，其中教授DR和决策树。参与者的年龄从20岁到53岁不等（两名参与者是恢复学业的大学生），A. Bibal等人阵列11（2021）10008010见图8。案例研究示例2：将波士顿数据集的难以理解的MDS可视化分为三个集群。 (For对本图图例中所指颜色的解释，读者可参考本文的网络版中位数22。学生们之前已经进行了一个关于直观的视觉聚类解释（没有任何工具）与国家数据集的课堂项目。评估由45分钟的会议组成，遵循准经验评估实践[62]。会议首先简要介绍了IXVC管道的目标。在这一点上没有解释接口是如何工作的。两名研究人员在整个会议期间出席，以回答与会者的问题，并记录他们的评论和意见。然后，介绍了要求参与者工作的两个数据集。国家数据集是以各种社会经济指标为特征的一组国家，动物园数据集是以生物特征描述的一组动物。必须只提供最低限度但必要的信息，以免引导对具体HD特征的解释。采用观察法和问卷调查法收集资料。6.2.1. 意见两名研究人员在整个会议期间进行观察，以检测可用性问题，并查看参与者的分析行为是否与管道一致。观察主要是被动的，参与者在被问到问题时回答。6.2.2. 问卷当参与者完成对两个数据集的分析后，他们被邀请填写一份由三部分组成的简短问卷。首先，测量了参与者最初感知的专业知识。问卷的第二部分是关于使用IXVC进行数据分析的过程。最后，IXVC接口的一般可用性进行了测量，以控制接口的影响，在评估的管道。对于后一部分，使用了系统可用性量表（SUS）问卷[63]。SUS是一份调查问卷，一个有10个问题的系统，用5分制的李克特量表测量。它有具有快速完成和高度可靠的优点。根据文献建议，对原始SUS进行了两次调整。在技能提升计划的第八项中，由于参加者并非以英语为母语，故将“繁琐”一词改为“awk-ward”。据报道，SUS中的“繁琐”一词“系统使用水平”的第一项，是量度使用者希望经常使用某个系统的程度。由

下载后可阅读完整内容，剩余1页未读，立即下载