多变量数据集的交互式标记和监督机器学习：mVis系统的可视化分析方法

86 浏览量更新于2024-01-24 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学3（2019）9使用链接可视化、聚类和主动学习对多变量数据集进行交互式标记，以进行监督机器学习Mohammad Cheginia，b，Jürgen Bernardc，Philip Bergerd，Alexei Sourinb，Keith Andrewsa，Tobias Schrecka奥地利格拉茨科技大学b新加坡南洋理工大学计算机科学与工程学院c德国达姆施塔特工业大学德国罗斯托克大学ar t i cl e i nf o文章历史记录：2018年12月10日收到收到修订版，2019年2月8日接受，2019年在线预订2019年关键词：标签聚类分类主动学习多元数据可视化a b st ra ct监督机器学习技术需要标记的多变量训练数据集。许多方法通过将机器学习算法与交互式可视化紧密耦合来解决未标记数据集的问题。使用适当的技术，分析师可以在高度交互和迭代的机器学习过程中发挥积极作用，以标记数据集并创建有意义的分区。虽然这一原则已被用于无监督、半监督或监督机器学习任务，但这三种方法的结合仍然具有挑战性。在本文中，提出了一种可视化分析方法，将各种机器学习功能与四个链接的可视化视图相结合，所有这些都集成在mVis（多维可视化）系统中。可用的技术选项板允许分析人员对多变量数据集执行探索性数据分析，并将其划分为有意义的标记分区，分类器可以从这些分区中兴建在工作流中，分析师可以在主动学习支持的半监督过程中标记有趣的模式或离群值。一旦数据集被交互式地标记，分析师就可以继续进行监督机器学习的工作流程，以评估后续分类器在多大程度上有效地学习了标记的训练数据集中表达的概念。使用一种称为自动维度选择的新技术，分析师与多变量数据集的维度的交互被用来引导机器学习算法。一个真实世界的足球数据集被用来显示mVis的效用，一系列的分析和标签任务，从初始标记到数据探索，聚类，分类和主动学习的迭代，以细化命名分区，最终产生适合训练分类器的高质量标记训练数据集。该工具使分析人员能够进行交互式可视化，包括散点图、平行坐标、记录的相似性图和分区的新相似性图。2019浙江大学出版社版权所有由爱思唯尔公司出版这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍多变量数据集是具有多个维度的数据集。将多变量数据集划分为标记类（分区）是最突出的监督机器学习（ML）任务之一。分区数据集中的每个记录必须属于其中一个分区：记录不能属于多个分区，也不能不属于任何分区。一旦分类器在训练过程中学习了给定多变量数据集的特征，ML模型就可以用于自动划分其他类似的数据集。通讯作者：奥地利格拉茨科技大学电子邮件地址：m.chegini@ cgv.tugraz.at（M. Chegini）。同行评议由浙江大学和浙江大学出版社负责。https://doi.org/10.1016/j.visinf.2019.03.002ML的最新技术水平证明了当今分类器在许多领域的有效性，从检测计算机网络中的攻击（Lin et al. ，2017）到面部图像数据分析（Choo et al. ，2010年）。有效的ML技术的两个先决条件是（1）足够大的训练数据集和（2）与这些数据集一起提供的标签的可用性。如果没有标签，监督ML模型就无法训练。如果没有足够数量的标记记录用于训练，监督ML模型将无法有效执行。然而，许多真实世界数据集的标签不可用通常是监督ML应用程序的瓶颈。今天如果能更有效地2468- 502 X/©2019浙江大学和浙江大学出版社。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinf10M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）9⃝⃝⃝⃝⃝Fig. 1. 散点图矩阵（SPLOM）视图1 显示了维度之间的二元关系。分析人员可以从SPLOM中选择散点图，详细2。分区相似性图3示出了按相似性分组的分区，并且如分区面板4中所指示的那样进行颜色编码。如果两个分区具有关联的维度（通过用户交互），则它们由一条线连接。平行坐标视图5示出了数据集的维度。参与机器学习算法的维度用蓝色丝带表示在标签过程中支持分析师，大量未解决的现实世界中以数据为中心的挑战可以通过ML技术来解决。该方法所解决的特定挑战可以通过领域专家想要使用先前未知的多变量数据集进行监督ML来举例说明，其中既不知道数据集的特征，也没有任何标签或标记记录。有时，标记数据集的成本明显高于创建数据集的成本（Bernard et al. ，2018a），有效的标签解决方案仍然稀缺。例如，分析师通过识别诸如频繁模式或异常值的数据特征。主动学习（AL）技术，其中系统定期要求用户标记选定的记录，可以帮助标记过程。然而，由于在开始时不存在标签，AL技术经常遭受自举问题（Attenberg和Provost，2011）。增加挑战的是，适当的标签字母表，标签的词汇，通常是未知的，在这样一个过程的开始，给定一个未知的数据集和/或用户与不明确的信息需求。在某些情况下，不同的标签字母可能是合适的，这取决于手头的任务或用户的个人偏好。分析师通常从数据本身中获得适合于特定数据集和任务的标签，利用多变量数据记录和维度中编码的特征。在其他情况下，分析师依赖于特殊领域的知识来提出初始标签。在任何这些情况下，AL工具和分类器的结果都不是特别有助于确定标签字母表。此外，标签字母表在标签过程本身期间经常发生变化。结合人类和计算机的优势已被证明对ML过程非常有益（Amershiet al. ，2014）以及信息可视化和可视化分析（VA）（Sacha etal. ，2017 a）。视觉交互标记（VIAL）技术（Bernard et al. ，2018c）将ML原则与交互式可视化界面相结合，以有效选择记录标签。这一原则在这里得到了采纳。通过高度迭代的VIAL过程，分类器可以根据用户提供的新标签信息嵌入式AL策略将用户引导到记录，这些记录一旦被标记，就可能改进底层ML模型。在mVis（多元可视化器）中，这一原则与用于数据探索的交互式可视化界面相补充，除了AL建议的那些之外，还允许基于用户获得的见解对记录进行有意义的选择和标记。 1显示了mVis的用户界面。本文描述的交互式可视化方法使分析人员能够以有效和高效的方式标记记录并创建先前未知数据集虽然分析师可能在没有任何关于数据集和标签字母表的知识的情况下开始，但所实现的方法的输出是可用于监督ML的标记训练数据集。标记过程代表了从无监督ML到半监督ML再到监督ML的一条途径。该途径由基于无监督和监督ML原则构建的算法模型指导。这里提出的方法有三个主要组成部分：（a）视觉探索，（b）交互式视觉标签，（c）自动引导。首先，可以使用链接的可视化选项板交互地探索数据集，包括散点图，SPLOM，相似性图和平行坐标。这些工具允许交互式可视化探索数据集的记录和维度，以发现并交互式标记分组、模式和离群值。此外，一种称为分区相似性图的新视图基于每个分区的质心显示分区的相似性（每个分区由彩色节点表示）。的链接如果两个分区都与至少一个公共维关联，则在两个分区之间绘制。如果用户在向分区添加记录时与维度交互，则维度与分区相关联。其次，可以在任何交互视图中选择和标记记录，从而产生可用于监督ML的标记数据集在标记过程中，用户与之交互以执行标记的维度被添加到标签中，M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）911表1支持交互式记录标签的技术。可视化聚类聚类分类主动学习ML型无监督无监督监督半监督现有标签不需要不需要需需要贴标签的由用户选择。所有未标记的记录。无标签记录更接近具体记录than a threshold阈值to a label标签.战略选择。创建分区由用户是的没有没有算法PCA、MDS、t-SNEK均值，分层随机森林随机森林引发用户用户用户系统元数据.该解决方案通过利用多变量数据集内提供的结构信息（诸如记录和维度之间的模式和关系）通过将经典的k均值和层次聚类结合到监督ML技术中，扩展了原始的VIAL过程。第三，聚类、主动学习和分类器算法都可用于支持有效和高效地选择用于标记的候选记录。此外，使用新的自动维度选择技术，用户与特定数据维度的交互被记住并馈送到半监督和监督ML技术中。例如，如果用户在维度A和B的散点图中选择记录，并将这些记录添加到分区，则维度A和B与该分区相关联。最初，未交互的维度在ML算法中不起作用，但用户最终控制哪些维度应包括在ML算法中或从ML算法中排除。本文的主要贡献是详细说明如何将链接的交互式可视化与经典ML算法有效集成这项工作增加了探索潜在的大设计空间的视觉分析方法促进主动学习，并设置示例，建立未来的工作。为了证明该方法的有效性，它已被纳入mVis系统，并与真实世界的足球数据集进行了测试。2. 相关工作VA应用程序受益于无监督和监督ML算法，以支持数据探索和分析推理（Endert et al. ，2018年）。表1概述了支持交互式标签的一些技术。无监督机器学习技术可以应用于未标记的数据集，因为它们不需要任何训练数据。例如，聚类技术（Wenskovitchet al. ，2018）可以用于在数据集中找到相似记录的分组。探索性信息可视化可用于根据记录的相似性或不相似性在视觉上对记录进行聚类（然后选择），因为在可视化中相似的记录通常更靠近在一起。半监督ML技术（Settles，2012）在使用之前至少需要一些标记的数据记录。在主动学习中，提供一些标记的数据记录，并且系统通过来自用户的附加输入交互地收集新的示例。监督ML技术，如分类（Choo et al. ，2010）需要一组适当的标签记录。可视化聚类。探索性信息可视化可以用作交互式界面，以选择（组）相似的记录或识别和选择离群值。散点图沿着两个选定的维度可视化记录。相似的记录（在这两个维度上）被紧密地绘制在一起。相似性减少和投影方法可用于生成相似性图，其通过空间接近性可视地推断聚类在投影相似性图中靠得更近的记录在高维空间中彼此更相似（Sacha et al. ，2016b，2017）。在平行坐标系中（Inselberg，1985），相似的记录由沿着相似路径的多段线表示。还可以按每个维度上的范围过滤记录。簇状雕龙（Bruneau et al. ，2015）是允许用户迭代地更新数据集的聚类标签的交互式聚类系统。该系统依赖于t-SNE投影视图，标签扩散和相异性变换技术。Lee等人（2012）基于潜在狄利克雷分配（LDA）构建了一个名为iVisClustering的系统RCLens（Linet al. ，2017年）支持识别和探索稀有类别（少数类别），利用主动学习算法帮助分析师迭代地找到数据集中的稀有类别。在mVis中，交互式聚类用于指导分析人员在数据集中找到一些初步结构。集群。经典的聚类技术，如k-means（Lloyd，1982）和分层聚类（Karypis et al. ，1999）用于根据它们的相似性形成记录的组（分区）。这些聚类算法的结果可以直观地检查。在早期的工作中，gCluto（Rasmussen和Karypis，2004）允许分析人员在调整参数的同时，直观地检查通过运行多个聚类技术创建的聚类Nam等人（2007年）提出了一种技术，允许分析师交互式地调整聚类算法的参数，以根据用户的需求找到合适的聚类。该技术被提出并在高维数据集上测试。后来，Andrienko等人。（2009）提出了一种在大型空间数据对象集中查找聚类的通用方法，并在轨迹数据集Kwon等人（2018）开发了Clus- tervision，它使用各种聚类算法对数据集进行聚类，并根据质量指标对聚类结果进行排名和可视化，使分析师能够选择最适合其目的的聚类结果。分类. 分类是一种有监督的ML技术，它可以识别记录属于哪个类别，给定足够大的标记记录训练集。VA可以通过以迭代方式添加用户的知识来帮助分类算法（Paiva et al. ，2015）。例如，iVisClassifier（Choo等人，2010）支持用户驱动的分类过程，其中分析员通过监督降维来探索多维数据并执行分类。主动学习。标记记录以创建训练数据的过程通常需要人类分析师进行大量单调乏味的重复工作。主动学习（AL）策略通过明智地要求用户提供额外的输入来交互式地收集新的标记记录（Settles，2012）。为了使这个过程更加有效和高效，系统必须明智地为交互式标签提出记录，选择那些最有可能改进底层ML模型的记录。已知的策略包括寻找有用的记录（a）基于边缘的分类器的决策边界附近（Wu et al. ，2006年;12M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）9：→图二. 交互式标签的工作流程。首先，分析师在数据集中创建分区并命名（标记）分区，并将记录分配给它们。在第二和第三步，在系统的指导下，细化分区，并添加更多的记录（标记）。在足够的迭代之后，基于结果，分析员保存标记的数据集，以用作分类器的训练数据集Tuia等人，2011），（b）具有类概率的高熵（Settles和Craven，2008），（c）具有分类器委员会的高不确定性（Seung et al. ，1992; Mamitsuka， 1998 ），或（d ）降低风险（ Qi et al. ，2009）或方差（Hoi et al. ，2006年）。只有少数现有技术通过选择专注于数据特征而独立于学习模型工作。一些方法明确允许用户选择交互式可视化中的记录，这种可视化通常用于数据探索或分析（Höferlin et al. ，2012; Bernardet al. ，2014; Ritter et al. ，2018年）。视觉交互标记（VIAL）过程（Bernard et al. ，2018 c）结合了基于模型的主动学习和交互式视觉界面，以支持以人为本的记录选择和标记。最近的实验表明，个体策略具有不同的互补优势（Bernard et al. ，2018 a，b）.mVis扩展了VIAL的方法：分析师可以使用链接的交互式可视化来帮助缓解与主动学习相关的冷启动问题。此外，提供聚类和分类以更好地指导用户进行标记任务。3. 交互式视觉标签分析师经常会遇到这样的情况：数据集中的记录是未知的，并且没有为它们分配标签。对于ML应用程序，必须将类似的记录分组在一起并手动标记，以便将数据集用作训练数据集。由于相似性的定义因数据集而异，因此有必要为分析师提供支持，以交互式地对记录进行分组和标记，并迭代地构造标记字母表（L）。在探索性场景中，数据集没有单一的绝对L。基于专家的知识，L和分配给每个分区的记录可以显著变化。因此，动态L是必要的，以使分析师能够构建适合所需分类器目的的适当标记的数据集。这包括允许分析员（1）向L添加新标签，（2）从L中删除标签，（3）向L中的标签添加或删除记录，以及（4）重命名L中的标签。一个分区，由Pi标识，是来自数据集的一组记录所有分区P的并集包含数据集中的所有记录。每个分区还具有标签li，其是属于标签字母表L的文本串，以及一组相关维度Dimi：Pi=（li，Reci，Dimi）（1）其中：li是字母表L中的标签之一。每个分区存在一个标签，每个标签存在一个分区。Reci是所有标记为li的记录的集合。有一个非内射非满射函数，它将记录映射到分区。换句话说，每条记录都映射到一个且只有一个一次一个标签; fP其中f是函数它将记录映射到标签。映射由以下内容指导：这是系统，但这是分析师Dim i是用户在向P i添加记录时与之交互的一组维度。一个维度可能与多个分区相关联，并且可能存在不与任何分区相关联的维度3.1. 分析员角色：选择和标记图2说明了分析师交互式创建和编辑分区并标记记录的工作流。最初，所有记录都被分配到一个标记为未知的特殊分区。在第一步中，分析师至少创建一个分区，为它分配记录，并给它一个标签。之后，分析人员可以执行聚类和分类，以标记当前标记为未知的其他记录。在聚类的情况下，系统创建未知记录的新分区，并为它们分配临时标签。在分类的情况下，当前标记的记录被用作训练集，以基于现有分区标记其他未知记录，然后潜在地扩展它们。在任何一种情况下，系统都会通过建议新的标记记录来提供指导，然后分析师可以批准或拒绝这些记录。系统会定期建议分析人员通过运行主动学习技术来手动标记特定数量的记录这些记录被明智地选择，以进一步解决数据集中的模糊性。分析员对结果进行调查，并决定记录上的字母表和标签是否需要进一步改进。当分析员对结果的质量感到满意时，该过程结束该过程的结果是标签字母表（L）和一组标记的分区（Pi），换句话说，分类器的标记的训练数据集。仍然标记为未知的记录可能会也可能不会包含在输出中3.2. 系统作用：指导该系统表1对这四种技术进行了区分在视觉聚类方面，系统使用三种不同投影之一来提供相似性图：PCA、MDS和t-SNE。相似的记录按接近程度分组，分析人员可以通过直观地检查这些视图来有效地创建和修改分区在经典聚类方面，用户可以要求系统使用k-means或层次聚类对当前未标记的记录进行聚类。这会导致许多新创建的分区（即集群）带有临时标签，然后分析人员可以重命名、批准或拒绝这些标签。一旦标记了足够数量的记录，分析员就可以使用分类来帮助标记更多的记录。在执行分类之后，系统计算相似度M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）913+图三. 聚类、分类和主动学习的结果以mVis表示，每个结果都应用于（a）中所示的初始状态。在每种情况下，空心圆圈表示系统建议的标签记录。实心圆圈表示先前批准的标签。实心红色三角形表示当前未标记的记录属于未知的分区每个记录（rj）到每个分区（Pi）。每个记录的所有这些分数之和总是100。然后，用户可以定义相似性阈值。系统将建议将具有高于阈值的相似性分数的记录添加到对应的分区。如果多个分区具有比阈值更高的相似性分数，则系统将选择具有最高分。用户可以批准或拒绝新建议。在分类中，不创建新的分区或标签，但是可以将记录添加到现有分区Pi。对于主动学习（AL），系统还需要足够数量的标记记录。然后，它选择那些最有可能进一步解决数据集中的歧义的未标记记录，并要求分析师手动标记它们。与聚类和分类不同，AL不是由用户触发的，而是由系统定期触发的。图图3显示了mVis中聚类、分类和主动学习的不同结果。（通过用户交互）关联到至少一个分区Dim的所有维度的集合是所有Dimi的并集。上述技术并不总是在其各种计算中包含所有数据集的维度。而是由系统维护一组参与维。最初，分割尺寸集被设置为Dim，这是一种称为自动尺寸选择的功能。但是，分析人员具有最终控制权，可以从特定维集合中包括或排除任何维。工作流的最终结果是一个标记的数据集，其中包括Pi、L和一组相关维度。4. mVis系统概述mVis系统由四个数据可视化视图和一个控制分区的面板组成。mVis是用Java编写的，并使用JavaFX作为其用户界面。它支持传统的鼠标和键盘以及多点触摸用户输入。该系统已在配备3.4 GHzIntel i7-6700 CPU和64 GB RAM的PC，运行64位Windows 10。4.1. 可视化和分区面板mVis中内置的四个相关探索性数据可视化是：SPLOM、散点图、相似性图（PCA、MDS和t-SNE投影）和平行坐标图。所有的可视化都通过标准的画笔和链接连接，因此一个视图中的选择和更改会反映在所有其他视图中。此外，用户还可以关闭、重新排列或放大任何视图.散点图和平行坐标视图中的轴刻度标签反映数据集中的原始值。SPLOM视图中的坐标是标准化的，因此省略了轴刻度标签SPLOM通过显示n维的所有二元投影来提供整个数据集的概述。结果是n2个散点图的矩阵（Cox and Cox，2008）。SPLOM可以指示两个维度中的记录模式和维度对之间的重叠，然后可以在单独的散点图中检查。个体散点图广泛用于回归分析（Shao et al. ，2017年）或探索当地模式（Chegini等人，2018年）。在mVis中，用户可以在SPLOM中选择散点图，然后在散点图视图中放大显示。平行坐标可视化将数据集的维度显示为平行的垂直轴，并将其记录显示为水平多段线（Inselberg，1985）。平行坐标提供了整个数据集的简要概述，适用于探索相邻维度之间的相关性。当任务需要与两个以上维度的交互时，平行坐标图已被证明优于单个散点图（Netzel et al. ，2017年）。在mVis中，平行坐标视图支持多种交互，包括刷动和选择记录、通过拖动每个轴顶部和底部的滑块过滤记录、重新排序轴和反转轴。相似性图视图提供了两种相似性图：记录的相似性图和分区的相似性图记录相似性图显示了数据集中的所有记录，这些记录通过相似性进行可视化聚类，使用三种投影技术之一：PCA，MDS或t-SNE。在相似性图中，更多相似的记录更靠近在一起。默认投影技术是t-SNE，但用户可以在首选项菜单中选择不同的技术分区相似性图显示了所有当前定义的分区，以节点链接图的形式按相似性分组每个分区被表示为一个循环节点，其大小对应于分区中的记录数如果两个分区共享相关联的维度，则绘制一条线（链接）来连接它们，其宽度对应于共享的相关联维度的数量。图4说明了如何创建这样的图表。首先，在图4a中，分析员创建分区P1，其包含在维度A对维度B（AB）的散点图中选择的记录。随后，在图4b中，分析员从散点图AC中将记录分配给P2。由于两个分区都与维度A相关联，因此在P1和P2之间绘制了一个链接，如下所示：如图4C所示。图中所示的分区面板。5使分析人员可以创建新的分区、将记录分配给分区以及删除分区。分区的名称（标签）可以编辑，分配给它的颜色可以改变。标记为unknown的特殊部分包含所有当前未标记的记录，最初为红色。如果分区被删除，其中包含的所有记录都将返回到未知分区。分析员可以暂时隐藏给定分区中的记录。单击分区旁边的已手动分配到分区或经分析员批准的记录被认为是14M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）9=×见图4。记录从AB添加到分区P1（蓝色），然后从AC添加到分区P2（绿色）.分区相似性图显示了P1和P2之间的联系，因为它们都与维度A相关联。并且在SPLOM、散点图和记录相似性图中由实心圆表示。空心圆圈表示具有建议分区的记录，根据分区进行颜色编码。未标记的记录属于未知分区，用实心三角形表示，颜色为未知分区指定的颜色（最初为在分区面板的上半部分，分析人员可以启动ML技术，如聚类和分类，以获得记录分配到分区的建议。这些记录变成空心圆圈，并与建议分区的颜色相关联，直到分析员通过点击面板中每个分区旁边的“否”或“否”按钮来批准或拒绝。被拒绝的建议记录再次变成实心（红色）三角形，并被移回未知分区。批准的记录成为分区的一部分，此后用实心圆圈表示。4.2. 机器学习模块实现了各种ML算法来支持交互标记过程，包括降维、聚类、分类和主动学习。所有这些算法都是使用名为（DMandML）的Java库实现的，2018年）。与ML算法的交互有时可能是不直观的，并且难以使用。 mVis使用简单的小部件和最少数量的公开参数来保持交互的直观性。在将记录分配给分区时，系统跟踪用户与之交互的维度，为每个分区维护一组关联的维度。默认情况下，只有那些与至少一个分区关联的维度参与ML算法。用户可以通过单击SPLOM或平行坐标视图中的尺寸名称来切换尺寸的参与。参与维由维名称下的蓝色丝带指示。图图6示出了仅利用八个可用维度中的两个的k均值聚类（k4）。图7演示了在数据集上执行层次聚类时自动维度选择在任何阶段，分析师都可以通过单击分区面板中的集群按钮来执行集群。然后，系统将使用k-means或分层聚类对所有当前未标记（未知）或未批准的记录进行默认情况下，mVis使用k-means，但用户可以通过选择菜单中的hierarchical来更改算法。对于每个集群，都会创建一个新的分区，并给予一个临时名称（标签），其形式为k-means #cn或hierarchical#cn，其中#cn是集群的编号。分配给集群的记录只是系统的建议，需要随后的用户批准。或者，一旦足够的记录被分配了标签，分析员就可以运行分类器来对那些当前未知或未经批准的记录进行分类。系统图五. 分区面板。在面板的上半部分，分析师可以创建分区，并获得记录添加到分区的建议。面板的下部用于操作现有分区。然后使用已经标记（批准）的记录作为训练集运行随机森林分类器。用户可以通过使用分类按钮旁边的滑块调整相似度阈值来控制建议调整滑块时，会有一个数字指示其精确值。使用更高的阈值，将仅建议那些与特定分区更相似的记录。与聚类类似，分析师可以批准或拒绝分类结果。系统定期主动引导用户使用主动学习手动标记多个记录建议的标签可以被批准或拒绝。建议记录的数量可以微调，并且可以通过分区面板中的复选框mVis的当前设计具有可视化和算法限制。关于标签alpha bet（分区数量）的视觉可扩展性，可以轻松区分多达12种不同的颜色（Harrower和Brewer，2003）。SPLOM和平行坐标视图受可用屏幕空间量的限制。mVis实时运行，足球数据集，包括42个维度和318条记录在25英寸的桌面显示器上，分辨率为25601440.增加可伸缩性的一种可能性是应用子空间聚类来提供初始记录和维度集探索（Hund et al. ，2016年）。当前实现的ML算法针对上述数量的分区和维度实时运行。5. 用例以下用例使用了2017/18赛季参加五个欧洲顶级联赛的16家俱乐部的球员的足球数据集（Berger et al. ，2018年）。记录是单个球员，维度是球员的属性，如比赛出场次数、犯规次数、助攻次数、传球准确度等。该数据集包括318条记录和13个维度。分析师探索这个数据集的目标是（1）根据球员的特征将他们分组到标记的分区中，以及（2）使用数据集为相同甚至完全不同的足球联赛的其他赛季训练分类器。对于初始分组，分析师希望识别比赛获胜的球员并将其标记为超级明星。分析者通过选择进球数和助攻数的散点图来进行分析，M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）915==见图6。在k-means聚类（k 4）之后的SPLOM，具有自动维度选择。维度名称下方的蓝色丝带表示其参与ML技术。来自足球数据集的前两个维度appearances和mins_played参与了聚类，这反映在它们的行和列中的更好的结果中。扑通。分析师创建一个分区，将其标记为超级巨星，并包括所有进球和助攻数量高的数据记录。另一类重要的球员是所谓的组织者，他们有大量的助攻和关键传球。通过在平行坐标视图中过滤助攻和关键传球次数多的球员，分析师可以找到记录添加到组织核心分区。展开标签内容的步骤因此，不仅包括顶级玩家，分析师还搜索与所选玩家相似的玩家。为此，分析师在分区面板中设置分类阈值滑块（见图1）。 5）到60%，然后点击分类按钮。因此，系统建议将100张唱片标记为组织核心，20张标记为超级巨星。分析师意识到这是一个很大的数字的玩家被添加到每个分区，并决定拒绝该建议。稍后，分析师使用滑块80%执行另一个分类这一次，15个记录被建议添加到组织核心和5个超级明星。分析师通过单击两个分区的“取消”按钮图中的分区相似性图。图8a示出了数据集的状态在创造分区超级巨星和组织核心之后。除了这两个明显的选择，其他维度之间的关系对分析师来说是陌生的。分析师关闭自动尺寸选择功能，选择4作为“聚类数”字段中的值，并执行k均值聚类。通过使除一个分区之外的所有分区都不可见，分析人员可以逐个检查新建议的分区。第一个建议的分区是k-means 1 ，包含 16 条记录。分析员意识到除了 appearance、mins_played和ball_recovery之外，这些记录的所有维度都为零。因此，分析师将k均值1分区重命名为守门员。同样，分析师将88条记录的 k-means 2 重命名为进攻型球员。此分区与维度key_passes、dribbles_won和goals关联。接下来，分析师将k-means 3（71人）重命名为防守球员，因为它与接球、解围、空中对决、犯规和拦截有关。最后，具有116条记录的分区k-means 4被重命名为长凳。此分区与较低的出场次数和mins_played相关联。图7.第一次会议。分层聚类后的部分平行坐标图（k4）。在（b）中，簇在视觉上更吸引人我们的目标不是仅仅根据球员在球场上的角色来创建分区，因此分析师决定通过单击分区的删除按钮来删除分区的进攻球员和防守球员，但是通过单击分区的删除按钮来保留分区的守门员和替补。图图8b示出了该步骤之后的数据集的状态。与那些赢得比赛的超级巨星类似，分析师也希望给那些对球队有很大影响的防守球员贴上标签。从前面的探索中，分析师已经知道哪些维度与防御特征相关。因此，分析师创建了强硬的防守者分区，其特征在于他们在空中决斗，拦截和铲球方面的表现。进一步研究，分析师选择所有记录，其中（1）属于替补分区，（2）具有高数量的进球，关键传球，解围，运球，助攻或空中决斗，并称新分区为黄金替代品。为了进一步支持分析师，可以通过主动学习将剩余的未标记记录（属于未知分区）建议给现有分区。这有助于改进现有标签并提高整体质量，这是传统ML技术无法实现的选择。分析者研究图8d的分区相似性图中所示的结果。强硬的防守者分区与黄金替补分区相关联，因为它们都与间隙维度相关联。此外，组织核心和超级巨星在分区相似性图中彼此相对接近，可能是因为组织核心和超级巨星具有相似的进攻特征。由于用户与11个维度进行了交互，因此只有两个维度没有用蓝色丝带突出显示。会话的结果是具有有意义分区的标记足球运动员数据集，其可用作其他赛季或不同联赛的分类器6. 讨论和今后的工作描述、比较和分组（分区）数据集中的记录是数据分析中最基本的任务之一。实现的方法支持这些任务的交互式视觉标签工具。使用交互式可视化，分析人员可以识别和标记数据集中最初不包含预标记记录的记录组。一旦分析师提供了初始标签，系统就支持通过聚类、分类和主动学习来标记更多记录。在聚类的帮助下，分析师可以在数据集中找到手动探索可能不可见的使用16M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）9=见图8。标记足球数据集的四个步骤，如分区相似性图所示。(a)用户手动创建超级巨星和球员分区。（b）之后使用k-均值的聚类步骤，用户批准称为守门员和替补的两个分区。(c)用户创建强硬的防守者和黄金替补分区，并将记录分配给他们。（d）用户执行主动学习以标记更多记录。最后的结果是一个有七个成员的标签字母表见图9。使用足球运动员的进攻属性，对k 6进行k-均值和层次聚类的结果。分类时，标记的数据将用作尚未标记的记录的训练集。此外，主动学习模块定期提出策略建议，以提高分区的质量。用户总是负责批准或拒绝建议，这增加了对结果的整体信任。正如所呈现的用例所示，算法支持有助于有效地将当前标签传播到更多记录。该方法支持创建一个新的标签字母表和现有的标签字母表的改进。目前，mVis支持k-means和分层聚类。虽然k-means更具可扩展性，层次结构更灵活，但两者都不优于另一种。在特定情况下选择最合适的算法是领域专家的责任图9显示了足球数据集中的k-means和层次聚类的结果。三种投影算法（MDS，PCA和t-SNE）支持记录相似性图。Bernard等人的研究（2018 a）表明，用户更喜欢t-SNE作为标记任务的降维技术，然后切换到PCA和MDS进行验证。因此，mVis中的默认算法是t-SNE。图图10显示了在足球数据集上执行的这些算法之间的差异。形成性可用性评估将为如何改进系统及其用户界面提供有价值的一项用户研究可有助于评价所实施的办法。例如，实验可以将分类准确性测量为分析师交互（点击次数、创建的标签数量等）。随着系统的增加。由于标记过程是迭代执行的，因此保留所有用户交互和操作的历史可能是有益的。用户可能希望重新访问早期的标签决定，并可能更新字母表和分区。提供标签出处的可视化历史，以及如何传播早期标签决策的变化是一个有趣的研究课题，见图10。三种投影技术提供的记录相似图。通过初始k均值聚类（k = 6）分配颜色。未来的工作。这也提高了对适当的比较可视化技术的需求（Gleicher et al. ，2011），以对比不同的选择。最后，为分析师提供有趣的初始视图以开始标记的一种可能性是使用Scagnostics或Pargnostics特征（Behrisch et al. ，2018）以引导用户到相关视图。7. 总结发言本文提出了一种在不包含任何标记记录的多元数据集上进行划分的方法。使用适当的视图，包括分区相似性图，分析人员可以手动标记记录的分类，聚类和主动学习算法的帮助下。该过程的结果是一个正确标记和分区的数据集。一个名为mVis的方法的实现已经证明了它对真实世界足球数据集的有用性。附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.visinf.2019.03.002上找到。引用DMandML。GithubRepository;2018.网址https://github.com/TKnudsen/DMandML。Amershi，S.，查克马克，M.，诺克斯，W.B.，Kulesza，T.，2014. Power to thepeople：The role of humans in interactive machine learning（人类在交互式机器学习中的作用）AIMag.35（4），105-120。http://dx.doi.org/10.1609/aimag.v35i4.2513网站。Andrienko，G.，Andrienko，N.，Rinzivillo，S.，南尼，M.，Pedreschi，D.，Giannotti，F.，2009.大量轨迹集合的交互式视觉聚类。2009年IEEE SymposiumonVisualAnalyticsScienceandTechnology。IEEE，第3-10.http://dx.doi.org/10.1109/VAST.2009.5332584网站。Attenberg，J.，教务长，F.，2011.被动学习？：在实践中运用主动学习的困难。SIGKDDExplor.Newsl.12（2），36-41。http://dx.doi.org/10.1145/1964897.1964906.M. Chegini，J.Bernard，P.Berger等/视觉信息学3（2019）917Behrisch ， M. ， Blumenschein ， M. ， Kim ， N.W. ，邵湖， El-Assady ， M. ，Fuchs ， J. ， Seebacher ， D. ，迪尔， A. ，布兰德斯大学，菲斯特， H. ，Schreck，T.，Weiskopf，D.，凯姆地方检察官2018.信息可视化的质量指标。Comput. Graph. Forum（EuroVis State of The Art Report）37（3），625网址：//dx.doi.org/10.1111/cgf.13446网站。Berger，P.，Chegini，M.，舒曼，H.，Tominski，C.，2018.多变量图的结构与属性相似度的集成可视化。 IEEE Con

下载后可阅读完整内容，剩余1页未读，立即下载