没有合适的资源?快使用搜索试试~ 我知道了~
≈视觉信息学5(2021)13在交互式降维中弥合用户与模型之间的认知鸿沟王明a,约翰·温斯科维奇a,b,利安娜·豪斯c,尼古拉斯·波利斯a,克里斯·诺斯a,a美利坚合众国弗吉尼亚理工大学,计算机科学b太平洋西北国家实验室,美利坚合众国c美利坚合众国弗吉尼亚理工大学统计处ar t i cl e i nf o文章历史记录:2021年4月1日网上发售保留字:交互式机器学习可视化分析降维可用性认知差距a b st ra ct交互式机器学习(ML)系统很难设计,因为人机界面存在“两个黑匣子”问题。 许多算法被用来在交互式机器学习系统中,呈现给用户的是黑盒,而人类认知代表了第二个黑盒,算法很难解释。 这些黑盒在用户和交互式ML模型之间产生了认知差距。 在本文中,我们确定了几个认知差距,存在于以前开发的交互式视觉分析(VA)系统,仙女座,但也有代表性的常见问题,在其他VA系统。我们这项工作的目标是通过改进可用性来打开黑盒和弥合这些认知差距原始仙女座星系 其中包括设计新的视觉功能,以帮助人们更好地了解Andromeda如何处理和与数据交互,以及改进底层算法,以便系统在数据探索过程中更好地实现用户的意图。我们通过定性和定量分析来评估我们的设计,结果证实改进后的Andromeda系统在一系列性能上优于原始版本高维数据分析任务。版权所有2021作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍高维数据是一种广泛使用且有价值的数据形式,但由于这种类型的数据是复杂的,因此分析和认知理解它可能对没有数学知识的人构成重大挑战为了有效地分析这些这些算法的复杂性给寻求快速探索以获得对其数据的基本理解的用户带来了障碍。此外,教育工作者需要有效的方法来提高学生对数据分析的兴趣,并使他们更容易学习和理解高维数据(Ashaari et al. ,2011年)。为了满足这些需求,本文作者开发了各种可视化分析(VA)系统,以帮助未经培训的人员理解他们的数据。然而,由于在这个问题中,*通讯作者。电子邮件地址:north@vt.edu(C. 北)。https://doi.org/10.1016/j.visinf.2021.03.002第一个黑盒是系统中的底层算法。虽然这些算法可以处理数据并提供有用的结果,但它们通常不提供其输出的理由或理由,使得用户难以决定结果是否可接受。可解释人工智能(XAI)研究议程致力于解决这一挑战。第二个黑盒子是人类认知。用户在与VA系统交互之前进行一系列思考过程,希望他们的交互将适当地影响底层算法生成的结果不幸的是,人类的思维是一个对算法封闭的黑盒子,因此算法通常无法捕捉到用户的意图。这两种沟通挑战的存在导致了用户和模型之间的认知差距,并产生了许多可用性挑战。为了解决这些挑战,虚拟现实设计师必须打开两个黑盒,并弥合用户和模型之间的差距我们在这里提出的工作扩展了一个交互式VA系统称为仙女座( Self et al. , 2015a , b , 2018 ) , 其 使 用 加 权 多 维 缩 放(WMDS)将来自高维空间的数据减少到2D投影中。在二维空间中,距离表示数据点之间的相似性,并遵循2468- 502 X/©2021作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表视觉信息学期刊主页:www.elsevier.com/locate/visinfM. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1314=[]个彼此之间Andromeda允许用户使用各种交互来探索他们的数据,其中观察级交互(OLI)与人类/模型交互挑战最相关OLI代表了一种强大的方法,通过对投影中的观测值执行直接操作操作来探索基础数据中的复杂关系,展示用户希望在数据中发现的关系。例如,OLI允许用户通过将观察的子集拖到新配置中来展示投影中的相似性关系,之后他们可以基于对全局布局的计算更新来了解哪些维度对该关系是重要的。Andromeda向用户隐藏了这些基础计算和算法的复杂性,使他们能够专注于探索数据,而无需首先获得统计知识。以前的研究(Self et al. ,2015 a,2018,2016a; Chen et al. ,2017)已经清楚地表明了Andromeda在帮助用户探索高维数据方面的有效性,因为用户能够获得复杂的见解并更有效地解决分析任务。然而,用户和模型之间的一些认知差距仍然有待解决(Self et al. ,2016 b)。在先前对Andromeda新手用户的研究过程中(Self et al. ,2018; Zeitz et al. ,2018年),我们确定了界面中的三个主要可用性挑战,这些挑战完全阻止了用户和算法之间的清晰沟通。首先,用户不理解他们需要选择和突出显示与他们演示的交互相关的所有数据点。Andromeda中的交互反馈是围绕突出显示的想法构建的,用户可以通过拖动或选择点来传达他们的交互意图。Andromeda的算法在计算更新的投影时只捕捉和考虑移动或突出显示的这表明了相互作用中的模糊性(Wenskovitch et al. ,2020年)和用户的心理模型和系统的数学模型之间的认知差距。这种交互进一步违反了“不要让我思考”的用户体验原则(Krug,2000),要求用户推断系统解释其交互的方式,以及语义交互的原则(Endert et al. ,2012a),允许用户保持专注于数据而不是考虑模型的细节。其次,当使用Andromeda时,用户对如何解释WMDS图中轴的含义和方向感到困惑。他们经常想要将高维数据的维度映射到2D WMDS图中的轴,如在类似研究中所见(Wenskovitch和North,2021)。由于Andromeda界面中WMDS图与维度滑块分离,用户很难理解投影中属性的作用和分布第三,以前的Andromeda系统在构建或解构单个集群时不能正确地处理和反映用户意图 在底层模型中。因此,生成的结果不符合用户的期望。这三个问题涵盖了“两个黑匣子”问题中的两个沟通渠道前两个可用性挑战,确保用户知道他们的行为将如何改变模型和理解投影,是由用户不理解Andromeda算法这一事实引起的。第三个挑战,根据用户的意图构建/解构集群,代表认知黑箱挑战。用户和模型之间的这些通信挑战也是其他交互式VA系统中的常见问题,这些交互式VA系统也必须(1)确保人类知道要执行什么动作。采取影响模型,(2)可以正确地解释所呈现的数据,以及(3)验证模型是否根据人类的意图。我们在这里提出的工作旨在打开Andromeda的认知和算法黑盒,解决我们已经确定的可用性挑战。总之,本文的贡献是:1. 我们确定了交互式VA系统界面中用户和算法之间的三个2. 我们提出、实施并评估了为解决这些可用性问题而设计的解决方案。2. 相关工作2.1. 交互式可视化分析降维算法表示用于解释高维数据的方法。这些算法将数据从高维投影到二维或三维投影,使用户更容易访问,但在此过程中信息不可避免地丢失。为了保留和探索这些隐藏的信息,有必要开发交互式工具,这些工具可以调整参数并从多个角度可视化数据。Wong等人 (2004)开发了一种称为IN-SPIRE TM的VA系统,其可以使用其Galaxy可视化和ThemeViewTM可视化来显示语料库数据内的隐藏关系。iVisClassifier由Choo等人创建。(2010),并基于LDA。所有缩减的维度都由平行坐标表示,用户可以与数据的各个维度进行交互和探索。这些工具结合了表面级交互(SLI),以便用户可以探索他们认为最相关的信息,但由于对于无法控制具有这些交互的模型参数的用户。更复杂的工具支持参数交互(PI),即与模型参数值的直接交互,以便用户可以从多个角度可视化数据。Soo Yi et al. (2005)提出了灰尘磁铁系统。用户可以改变维度“磁铁”的大小,不同的磁铁布局会产生不同的可视化效果。其他系统,如STREAMIT(Alsakranet al. ,2011)和DimStiller(Ingram et al. ,2010)也允许支持PI。然而,PI要求用户对系统模型有很强的了解,这对新手用户来说是不太容易的。Endert等人 (2011)和Leman et al. (2013)开发一种更自然的方法-基于语义交互的原则(Endert et al. ,2012 b),用户可以直接操纵可视化中的观察点以创建新的可视化,该可视化由系统定量地解释,导致模型参数的改变。ForceSPIRE(Endert etal. ,2012a)和Dis-Function(Brown et al. ,2012年)是OLI启用的工具,允许用户直接操纵观察。通过OLI交互,工具对用户隐藏了这些底层模型,这样用户就可以专注于数据探索,而不必了解统计模型的细节。2.2. Andromeda的计算概述Andromeda是Self等人设计的工具。(2015年a,b)。该系统依赖于WMDS算法(Cox和Cox,2000年),并允许用户与WMDS模型的输入和输出进行交互,以传达他们的意图并影响基本参数。在WMDS生成的低维投影中,距离表示数据点之间的相对相似性。为了能够探索高维空间,WMDS引入了权重向量参数,ω ω1,ω2,. . .,ωp′,以反映每个维度的重要性,在基本的高维距离函数中的作用 作为M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1315如Eq.其中,di和dj是高维点,ri和rj是它们的低维表示。给定权重ω,通过最小化表示低维和高维成对距离之间的误差的应力函数来计算低维投影上的点考虑到距离和权重,用户可以加深他们对投影的解释;例如,在维度A中具有高权重的投影中,彼此靠近的两个点在维度A中比远离的两个点更相似,使得用户能够通过改变不同维度的权重并获得各种低维可视化来探索隐藏的信息。例如,用户可能打算仅相对于Rabbit数据点重新定位Zebra数据点以证明1个一对一相似性关系,他们的意图不考虑投影中的其他点),并且当在大型数据集上执行时还将需要更昂贵的计算第二种方法是应用视觉反馈,它指示系统将如何以可解释的方式解释用户交互(Gunning,2017),例如Elución(Kulesza等人,2015)和iVisClustering(Choo et al. 2010年)使用这种类型的反馈。用户可以将标签应用于项,模型将使用该标签作为其训练集的一部分。因为物品r=min∑∑(distL(ri,rj)-distH(ω,di,dj))2,(1a) 应该以某种方式标记为ed,用户能够实现r1,...,rni=1J>I∑p他们需要标记与交互相关的所有数据聚类是突出显示也是我们在工作中探索的可用性问题之一distH(ω,di,dj)=ωk=1ωk(dik−djk)2(1b)Wenskovitch等人(2020)讨论这个问题,并提出一个集群成员解决方案,Pollux,这个可用性问题(文-Andromeda系统结合了SLI、PI和OLI,允许用户探索和获得更完整的数据分析。用户可以通过将光标悬停在点(蓝色点)上或选择点(栗色点)来执行SLI,以查看参数滑块上的原始数据。PI允许用户通过拖动参数滑块直接操纵权重ω,提供关于维度重要性的反馈,并触发前向WMDS模型重新计算2D可视化。由此产生的新投影允许用户更充分地探索那些高权重的用户可以执行OLI,通过选择和拖动屏幕上的点,为权重学习“逆"WMDS算法提供输入在用户选择“更新布局”按钮后(2)最佳代表移动的点的集合的坐标,ri,rj,。斯坦-然后运行标准的再次使用新的权重重新计算投影。用户可以得到关于表达他们所需距离关系的新权重的反馈,以及使用这些权重重新表达其余点的反馈。图图1(b)直观地表示了这种计算管道。skovitch and North,2019; Wenskovitch et al. ,2019)。此外,Choo et al. (2009)提出了一个两阶段的集群可视化框架。ASK-GraphView(Abello et al. ,2006)通过过滤、着色和标记来支持大型图的交互式可视化。Linesets(Alper et al. ,2011)使用节点颜色来表示聚类。聚类是一个很好的解决突出可用性差距的方法,但它不适合解决相关问题,相对相似性。此外,对于用户来说,理解降维图中的维度信息,特别是维度方向和相关性是具有挑战性的。 Smart-Stripes(May et al. ,2011)允许用户选择特征的子集以探索各种特征之间的依赖性和独立性。双标图(Udina,2005; Frutos et al. ,2014; La Grangeet al. ,2009)允许显示数据点和维度。Stahnke等人(2015)开发了一种探测投影系统,可以显示每个维度如何对投影做出贡献。Dowling等人(2018a,b)实现SIRIUS系统,以可视化点之间和维度之间的相似性。这些作品帮助用户获得维度信息;然而,大多数需要领域知识甚至培训来理解和应用它们。因此,我们认为需要一个更直观和简单的-用于显示尺寸信息的易于理解的方法,ω=min∑∑(distL(ri,rj)-distH(ω,di,dj))2(2)相关性ω 1,...,i=1J>I3. 可用性问题、解决方案、结果2.3. 可用性问题本文着重讨论和解决引言中提到的三个可用性问题:显示与交互相关的观测、理解WMDS维度以及构建和解构集群。在这里,我们简要地总结了其他工作,提出了解决这些问题的方法。有多种方法可以解决“突出显示相关数据点”的问题首先,系统可以引入控制点,其包括投影边界上的移动点、突出显示点或移动控制点将导致所有其他点相对于控制点移动。这些类型的系统包括StarSPIRE( Bradel et al. ,2014)、IVC (Desjardins etal. ,2007)、iLAMP(dos Santos Amorim et al. ,2012)、PLP(Paulovich et al. ,2011)和VRV(Sharko et al. ,2008年)。类似地,诸如Dust &Magnet(Soo Yi et al. ,2005)和OCI-MDS(Broekens et al. ,2006)在更新布局时已经考虑了可视化中的所有点。但是,考虑投影中的所有点可能会误解用户的意图只表达关系的一个子集(使用动物正如引言中所指出的,用户的心智模型和仙女座系统的数学模型之间存在差距图 1显示在某些情况下,Andromeda界面不允许用户正确理解模型(突出显示相关数据点并理解投影尺寸),而其他情况导致系统生成与用户预期不匹配的响应(构建和解构聚类)。在本节中,我们将描述对WMDS模型和可视化的修改,以弥合这些认知差距。3.1. 突出相关数据点3.1.1. 问题当用户在可视化中拖动点时,他们会记住他们想要的系统对该交互的响应。用户可以将一个观察点移动到其他点附近以表示相似性,或者将一个点拖离其他点以表示不相似性。图图2示出了用户试图表达Zebra点更像兔子而不是长颈鹿在这种情况下,M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1316()n≈i=1j>i2Fig. 1. ( a)查明的可用性问题及其解决办法。(b)Andromeda的语义交互管道,代表我们对反向WMDS的更改 模型和可视化。图二. “突出显示相关数据点”的可用性问题。把斑马从长颈鹿身边移向兔子。用户相对于长颈鹿(靠近斑马的原始位置)和兔子(靠近斑马的最终位置)移动斑马。然而,用户不希望表达与投影中的其他点的 任 何 那 么 , 模 型 如 何 知 道 用 户 正 在 移 动 Zebra 的 哪 些 点(Wenskovitch et al. ,2020年)?Andromeda要求用户选择所有必要的点,通过交互式选择来传达他们的交互。这导致了可用性问题。用户经常假设基础模型将自动考虑长颈鹿和兔子,而不是其他点;然而,这不是真的。Andromeda算法仅捕获和考虑可视化中的移动或突出显示的他们也可能没有意识到涂黑他们不关心的其他点的重要性。用户意图和数学模型之间的不匹配发生在这里,因为封闭的认知和算法框。模型无法读取用户的为了解决这个可用性问题,我们使用新的界面功能打开底层模型的黑盒子,以帮助用户理解突出那些隐含但相关的点的重要性:在本例中,长颈鹿和兔子。我们这项研究的目标是了解系统的即时可用性,确定用户是否知道如何正确操作系统(即,突出显示正确的点以指定期望的交互)而不需要训练。因此,测量正确性和评估准确性,添加了。投影分成前景和背景.交互点在前景中弹出并以橙色着色;这些点将在计算新布局时考虑。任何未触及的点都将变暗到背景中并变灰,表示它们将不计入交互。这些前景点也在参数滑块中突出显示(图4b),展示了这些触摸点在每个维度上的精确属性值,并直观地显示了它们的相似性。这种设计在视觉上将考虑的点和未考虑的点分为两层,给用户一个提示,所有相关的点都应该被带到前景层。距离线:除了前景和背景视图,我们还引入了另一个界面功能因此,前景中的点之间的所有成对距离都由线表示。但是,为了避免混乱,距离线仅显示当前悬停在其上的点。如图在图3(b)中,示出了活动拖动点(Zebra)和其他选定点(Giraffe没有到这些点的距离线,因为在计算新布局时不考虑这些成对距离为了加强用户交互的意义在WMDS模型中,只有相对距离才有意义距离线由两部分组成,一条彩色线和箭头,这两部分都编码了这对点之间相对距离的变化(色标可以在图中看到)。 4).为了确定点i和点j之间相对距离的变化,我们计算成对距离比(φi, j)和平均距离比(φ)。点i和点j之间的成对距离比(φi,j)用等式(1)计算。(3)计算基于交互距离L(ri,rj)的用户自定义低维距离与原始低维距离之间的比值;距离distL(ri,rj)。distL(ri,rj)这是我们展示有效性的主要手段,这种技术。φi,j=distL(ri,rj)(3)∑n∑n3.1.2. 解决方案φ=φi,j前景视图和背景视图:为了明确属于和不属于在二维的观察视角中,我们引入了一个“第三维”。如图3(a),当没有点被点击时,所有的数据点都被着色为蓝色,并根据它们的WMDS位置进行投影。移动或突出显示观察结果后(见图1)。(3)“第三维度”wi,j=φi,j/φ( 5)前景中的所有对的平均距离比(φ)用等式(1)计算。(4),其充当归一化因子。然后,在等式中计算相对距离变化wi , j(五)、如果wi, j 1,这意味着两点没多大变化,那么箭头就没有了(四M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1317≪≫图三. “突出相关数据点”的解决办法:(a)在公开进修学院之前。(b)将Zebra从Giraffe拖向Rabbit,显示前景和背景视图,并显示三个选定点之间的距离线见图4。 Andromeda接口:(a)观察视图,(b)参数视图,(c)更新布局按钮,(d)前景和背景视图,(e)距离线,(f)距离线的色标在距离线上,线的颜色是绿色的。如果w1,j1,意味着两个点之间的相对距离被用户减小,则距离线被着色为深蓝色或黑色,并且被一对向内指向的箭头封顶以指示压缩。如果wi, j1,意味着两个点之间的相对距离被用户放大,则距离线被着色为较浅的黄色,并且被一对指向外的箭头所覆盖以指示扩展。3.1.3. 结果在一项受控的可用性研究中,我们要求用户使用两个版本的Andromeda来分析数据集:版本A和版本B。版本A是原始版本,而版本B包含前景/背景和距离线的新颖解决方案。我们比较了两个Andromeda版本的用户性能时,突出显示相关的数据点的互动。可用性研究的参与者是一门本科数据科学课程的大二和大三学生,他们已经学习了降维共有69名参与者,在受试者间研究设计中分为两组,分别接受两种版本的Andromeda。在完成研究之前,参与者简要介绍了WMDS和Andromeda版本A。版本B中的可用性问 题和解决方案从 未被提及。 总共有33 名学生使 用Andromeda版本A,另外36名学生使用Andromeda版本B。参与者被要求探索一个关于动物及其属性的数据集(Lampertet al. ,2009年)使用他们分配的仙女座版本来回答相同的问题。这个高维定量数据集包含49种动物和85种属性,这些属性表达了关于颜色、栖息地、饮食和行为等属性的信息。我们在以前的研究中经常使用这个数据集,因为它的一般知识适用性。如表1所示,我们创建了三个问题来评估版本B中的新前景/背景视图和距离线是否鼓励用户选择并突出显示所有相关数据点以正确完成任务。通过确定参与者是否进行了正确的交互并选择了正确的观察结果来评估参与者答案的准确性。在问题1中,我们要求用户创建三个特定的集群,每个集群有两只动物正确答案是突出问题中提到的所有六种动物。然而,由于前面提到的可用性问题,一些用户只与每个集群中的一个点而不是两个点进行交互;例如,当用户试图将鹿和大熊猫放置在一起时,他们可能只会将鹿放在大熊猫旁边,而不会将大熊猫突出显示为与交互相关在不正确的操作中,将突出显示少于(或多于)六个点。在正确的操作中,用户会突出显示所有六个相关点,表明他们受益于可视化中的新视觉提示M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1318表1每组中正确回答问题1-3的学生的百分比。任务版本A版本BQ1创建三个集群百分之五十四点五百分之八十点五Q2确定新布局60.0%百分之八十五点三Q3创建一个群集百分之五十六点三百分之八十一点三表2用户在版本A和版本B上的总正确性得分之间的t检验差异的结果。0.0031问题2是问题1的扩展,直接询问用户WMDS将考虑哪些要点。如果用户从界面特征理解模型,他们将提供所有六点的正确答案;但是,如果新功能无法向用户传达概念,我们将获得错误的答案,例如表示将考虑所有点。问题3要求用户创建一个包含三个点的群集。一个正确的互动应该包括拖动和突出显示问题中提到的所有三个点。如果用户无法理解视觉提示以突出显示所有相关点,则他们可能会移动/突出显示少于三个点。 我们在问题1之后提出这个问题,因为具有两个或更少突出显示点的动作会触发Andromeda版本A中的错误弹出,提示学习算法需要至少三个突出显示点来确定新的相对距离。表1中的结果证明了版本B的显著改进。结果表明,视觉提示帮助参与者学会区分算法会考虑的点和不会考虑的点。这是影响用户决定哪些点需要突出显示以更新布局的主要因素。我们计算了每个用户所有问题的平均正确性得分,以表示每个用户的聚合正确性。如表2所示,使用版本B的参与者比使用版本A的参与者t检验(p值0.01)结果表明差异具有统计学显著性。<我们的结论是,新实现的功能帮助用户弥合了认知差距,并理解了突出所有相关数据点的必要性3.2. 了解大规模杀伤性武器的各个方面3.2.1. 问题在WMDS投影中,坐标轴具有复杂的含义,表示多个高维特征的组合。然而,没有WMDS知识的人对WMDS图的水平和垂直坐标的含义感到困惑,经常试图将2D坐标轴与特定尺寸匹配,就好像它们是传统的散点图一样。由于这种理解上的差距,对于一些用户来说,解决常见的任务就成了一个问题(Amar et al. ,2005),诸如找到维度极值、维度相关性以及维度的数据分布Andromeda以前需要用户与参数滑块交互,以对齐观察视图中的数据点如果他们想探索一个单一的维度或找到一个特定维度的极值。在执行这些参数调整操作后,用户可以将光标悬停在点上,以查看每个相应参数滑块上的原始数据一个类似的方法是必要的,以探索维度的相关性和数据分布。但是,这种查看尺寸信息的方法我们看到需要一种更方便、更直接的方法来帮助用户快速识别与维度相关的信息。3.2.2. 溶液辅助除尘功能:从除尘磁铁系统中发现的尺寸编码中获得灵感&(Soo Yi et al. ,2005年),我们设计了一个维度辅助功能,使功能分布的快速概览。当用户将光标悬停在参数滑块上时,例如图1中的Spots滑块。 5.根据其Spots值映射观察视图内的每个圆的大小,使得具有较大Spots值的数据点具有较大的圆大小。通过将光标悬停在参数滑块上,用户可以快速确定斑点的数据分布,在图5的情况下学习到Deer具有最大的斑点值。使用此功能,用户可以浏览一维分布,而不会与参数滑块交互或影响基础模型参数。此外,我们希望这个功能可以帮助用户理解观察视图中的坐标轴具有复杂的含义。3.2.3. 结果我们进行了一项试点研究,以评估尺寸辅助功能的有效性。同样,我们使用了Andromeda的两个版本:版本A和版本B。版本B启用了新的维度辅助功能。但是,在版本A中,尺寸辅助功能被禁用.我们要求八名本科生和研究生参与者完成一项关于尺寸信息的在线调查。参与者跨越多个学科,包括计算机科学,商业,数据分析和化学。在八名参与者中,没有人认为自己是大规模杀伤性武器专家:三人学习并使用过大规模杀伤性武器;三人听说过但从未使用过;两人从未听说过。我们将参与者随机分成两组,每组对应一个仙女座版本。这项试点研究的目的是评估在四个任务上使用维度辅助功能:找到极值,描述分布,描述属性相关性,以及理解WMDS图轴的含义。为了进一步探索我们的结果,我们对研究参与者进行了后续访谈。对于这项试点研究,我们主要关注定性结果,观察维度辅助功能如何影响维度相关任务中的用户交互。从我们的观察和后续访谈中,我们发现维度辅助功能具有明显的优势。首先,维度辅助功能有助于理解PI的结果(如第2.1节所定义,能够直接操纵单个参数的交互)。当用户试图找到一个维度极值时,他们会增加使用参数滑块选择感兴趣的尺寸。然而,由于投影旋转在WMDS中没有意义,他们不知道维度的方向。通过监测参与者这不仅费时,而且有时会忽略极值。相比之下,B版用户很快版本A版本B是说0.58270.7939标准偏差0.33380.2805观察次数3336DF63t统计量P(T≤t)单尾-2.8309M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1319图五、将 鼠标悬停在“斑点” 滑块上时,每个数据点的 半 径 将 与其“斑点” 值成比例地变化。在PI生成的散点图中识别尺寸方向,并使用尺寸辅助特征识别极值其次,维度辅助功能的学习曲线比PI更浅。使用版本A的两名参与者更喜欢单独使用SLI而不是PI来回答问题。一个版本A的参与者甚至提到“直到我几乎完成调查,我才意识到如何使用维度滑块”。所有使用版本B的参与者都通过单独使用维度辅助功能或与PI联合使用来获得答案,除了一名参与者仅对一个问题使用PI而不是维度辅助功能。然而,这名参与者很快就切换到使用维度辅助功能来回答后续问题,这表明维度辅助功能的学习时间很快。第三,尺寸辅助功能比SLI更有效和准确。当不使用PI时,版本A参与者使用SLI获得答案。他们在每一点上徘徊,直到找到极值点。然而,使用这种策略很容易忽略正确的一点,这导致一个版本A用户得到错误的答案。然而,使用维度辅助功能,用户可以快速识别极值为最大或最小尺寸的点最后,维度辅助功能有助于部分理解投影中的维度。在后续的访谈中,参与者同时使用了仙女座菌株A版和B版,这样他们就可以比较这两个版本。所有与会者一致认为,维度辅助功能使定位极值和描述属性相关性变得更容易;然而,一位与会者指出了大小编码的缺点,即使用维度辅助,参与者也认识到数据属性没有直接映射到WMDS投影轴;然而,没有一个参与者认为维度辅助功能有助于他们理解WMDS轴的实际含义。他们指出,这种理解取决于统计方法的背景知识。3.3. 构建/解构集群3.3.1. 问题Andromeda中的学习模型要求用户对所选点之间的相对距离进行相反的改变,这意味着一些点必须移动得更近,而其他的必须被进一步分开。这是因为WMDS是尺度不变的。然而,在某些情况下,这些关系之一可能是隐含的。例如,当使用Andromeda时,用户经常尝试创建几个点的集群。它们将多个点拖得更近,而不会将任何其他点移离群集。如图在图6(a)中,用户通过将德国牧羊犬、水獭和海豚拖到一起来创建集群。虽然绝对距离减小了,但相对距离没有太大变化。它只表明预测规模的全球变化。所以,问题是:相对于投影中的哪些其他距离,这三个距离应该减少?但是用户通常可能没有任何特定的其他点来进行比较。这导致用户的理解和WMDS模型之间的不匹配。在交互之后更新的可视化中(图6(b)),模型未能捕获用户创建集群的意图,仅关注三个点之间相对距离关系的微小因此,虽然用户希望水獭、德国牧羊犬和海豚应该靠近,但它们仍然在更新的投影中分散。当用户试图通过分离一组点来解构聚类时,也会出现同样的问题。除非用户指定其他更靠近的点,否则Andromeda无法捕捉用户解构集群的意图。因此,我们需要找到一种方法来向模型传达聚类意图,以便它能够正确地对这些常见的用户操作做出反应。3.3.2. 溶液随机采样:一种可能的解决方案是考虑所有点的相对距离变化,这意味着聚类/非聚类点相对于所有其他未触及的点移动。它可以在一定程度上解决首先,考虑所有点的成对距离需要显著更昂贵的计算,牺牲了交互的效率。此外,当相对于大量未触及的点拖动几个点时,变化将非常小,并且相对距离变化的影响将被大量未改变的数据抵消。为了最大限度地减少这些缺点,我们随机选择仅m个未触及的点来表示背景中的所有点。这种策略提供了一个折衷的优势和劣势之间所带来的考虑所有未触及的点。M. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1320∑ ∑]=ω1,...,=见图6。 “构建集群”的可用性问题:(a)通过将德国牧羊犬、水獭和海豚拖在一起来创建集群。(b)相互作用的结果是原始的仙女座星系图7.第一次会议。(a)执行时间和(b)绝对距离对于从2到30的采样点的数量变化。采样点的数量m显著地影响权重向量ω,其将用于下一个前向WMDS系统 为了确定m的最佳值,我们流水线重新绘制一个新的可视化。实验执行时间和群集性能-n n不同数量的采样点。 所示图7(a),执行时间随着数量的增加而增加ω=min[∑∑(distL(ri,rj)−distH(ω,di,dj))2+m由于对mm(六)、成对距离和最佳拟合投影。 图图7(b)揭示了不同采样点数量的聚类性能M.小的距离变化值意味着良好的聚类性能,而大的距离变化值意味着一个糟糕的集群性能。结果表明,随着采样点个数的增加,距离值急剧增大,表明m越大,聚类性能越差,超过m时,聚类结果会出现不稳定性五 、因此,为了实现更好的更新布局,我们应该选择少量的采样点。为了保持采样点之间的相对距离,并获得良好的时间效率和聚类性能,我们使用三个采样点的改进的逆WMDS计算。如图8,用户创建德国牧羊犬、水獭和海豚的集群。一旦用户更新了布局,三个点(绵羊、大象和暹罗猫)将被随机采样,并以橙色边框显示。它们的相对距离将与移动/突出显示的点的相对距离一起被考虑,以使用Eq. (六)、在这个等式中,点i和j是移动/突出显示的点。点,r和r是它们的用户定义的低维坐标。(distL(rα,rβ)−distH(ω,dα,dβ))2α=1β>α系统如何知道何时应用此策略?当系统检测簇构造、簇解构或仅两点操作的意图,自动应用其它点的随机采样。为了检测这些情况,在运行WMDS之前,系统计算所有成对距离比φi, j。点i和j是前景中移动/突出显示的点。如果所有φi, j1,所有成对距离都减小,则系统推断用户正在尝试创建<簇,并在逆WMDS计算之前应用随机采样。如果所有φi, j>1,所有成对距离增加,则系统推断用户正在尝试解构集群,并在逆WMDS计算之前应用随机采样。同样,在最初的仙女座中,出于同样的原因,移动两个点是不可能的。用户必须移动至少三个点,有些更近,有些更远,以更新预测。这一要求阻止用户探索仅两个观测之间的相似性或不相似性这i j问题等价于构造/解构集群问题。nates,di和dj是它们的高维坐标。点α和β是采样点,rα和rβ是它们的低维坐标,dα和dβ是它们的高维坐标。distL和distH函数计算低维和高维空间中的成对欧氏距离。移动/高亮显示的点与采样点之间的成对距离将被忽略。所生成的新Lem与N2。通过随机采样,两点操作被启用,使仙女座系统更灵活地执行新的探索任务。3.3.3. 结果我们对我们的随机抽样方案进行了仿真分析,并比较了Andromedai=1J>IM. Wang,J.文斯科维奇湖House等人视觉信息学5(2021)1321见图8。随机抽样解决方案:(a)通过拖动德国牧羊犬靠近水獭和海豚来创建一个集群。点击“更新布局”按钮后(b)显示新聚类的模型结果版本A和B。版本B包括随机抽样功能。版本A没有随机抽样和相关的模型修改。我们测试了用于构建/解构具有不同数量的移动点的集群的组合,由于采样点的随机性,为保证可靠性,每个组合重复实验20次。移动两个点的能力在Andromeda版本A中没有启用;因此,我们只在版本B中测试这种情况。图图9中,蓝色线表示版本A中聚类点的新距离的回归线,而橙色线是版本B中聚类点的新距离的回归线。所有橙色线都落在绿色原始距离线之下,表明对于版本B中的所有组合,其新距离的平均值小于其原始距离。因此,数据点在版本B的更新布局中创建了一个集群。版本B中新距离的橙色回归线低于版本A中新距离的蓝色回归线,表明版本B在创建聚类方面的性能优于版本A。图10显示聚类解构的结果2到5个百分点。同样,版本B的新距离(橙色点和线)的大多数平均值都在绿色原始距离线之上,这表明版本B中的大多数对在更新布局后被分离然而,随着原始距离的增加,分离变得不那么明显,可能是因为这些点已经在原始可视化中的最远可能位置。通过比较Andromeda版本A和B的聚类结果,版本B的新距离的橙色回归线高于版本A的蓝色回归线。这表明版本B可以在更新的布局中将聚类点移动得比版本A更远。总的来说,随机抽样提高了仙女座的per-speakers构建和解构集群。此外,在Andromeda Version A中,两点群的相对距离变化缺失。 仙女座B版本,其随机抽样,解决了这一限制,使两点操纵. 图图9(a)和图10(a)呈现了用于构造和解构两点的集群的结果,显示了所有两点组合。结果表明,仙女座版本B,随机抽样,在创建一个集群的两个点表现良好。当运行第3.1.3节中讨论的可用性研究时,我们要求参与者比较两点之间的相似性,以便我们可以探索启用两点交互将如何影响参与者的数据探索。两点OLI仅在版本B中启用。 如表3所示,在使用版本B的28名参与者中,有27名选择OLI来比较两点之间的相似性。这个结果表明,参与者更喜欢使用OLI直接与点交互,而不是使用SLI检查参数视图中的属性值。对于版本A用户,我们观察到六个参与者表3比较Andromeda版本A和版本B中的两点相互作用SLIOLI两点选择其他点版本A 20 0 6版本B 1 27 0(23.1%)随机选择额外的点,以绕过版本A选择至少三个点的限制,这类似于我们的随机抽样策略,因为参与者开始选择额外的点,试图更好地将他们的意图传达给该版本的系统。我们随机选择三个点来代表所有未触及的点。这一结果证实了我们的随机抽样解决方案与用户认知一致,不太可能在用户和模型之间造成后续的脱节。4. 讨论上一节介绍了Andromeda可视化分析系统的三个可用性挑战,以及介绍和评估我们解决这些挑战的解决方案。我们对这些解决方案的总体目标是弥合用户的心理模型和仙女座系统的数学模型之间存在的差距。虽然我们提出的解决方案可能不是最佳的视觉编码或交互为了应对这一挑战,我们能够解决我们从以前的研究中发现的主要问题。在本节中,我们将我们的解决方案概括为视觉分析社区更广泛的经验教训,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功