视觉搜索离群点检测中的颜色和形状效率

82 浏览量更新于2024-01-24 收藏 1.44MB PDF 举报

异常检测

数据表示

身份认证购VIP最低享 7 折!

30元优惠券

±视觉信息学6（2022）25从自动化到用户评估的异常值检测的颜色和形状效率LoannGiovannangeli，Romain Bourqui，Romain Giot，David Auber法国波尔多大学，法国国家科学研究中心，波尔多INP，INRIA，LaBRI，UMR 5800，F-33400 Talencear t i cl e i nf o文章历史记录：2021年12月29日收到收到修订版，2022年2月24日接受，2022年2022年3月16日网上发售保留字：视觉搜索离群点检测用户评估深度学习自动评估a b st ra ct高效表示的设计是探索和分析复杂或大型数据的有效方法。在这些表示中，根据表示本身的需要，数据被编码为具有各种视觉属性。为了对视觉属性做出连贯的设计选择，视觉搜索领域提出了基于人脑对特征的感知的指导方针。然而，信息可视化表示往往需要描绘更多的数据比这些准则已经验证的数量。因为，信息可视化社区已经扩展这些准则，以更广泛的参数空间。本文有助于这一主题的视觉搜索理论扩展到信息可视化的背景。我们考虑一个视觉搜索任务，要求受试者在随机布局的干扰物网格中找到一个未知的离群值。刺激是由颜色和形状特征定义的，用于视觉编码分类数据。实验方案由参数空间缩减步骤（即，、子采样）和用户评价来验证假设和测量容量限制。结果表明，主要难度因素是用于对离群值进行编码的视觉属性的数量。当被冗余编码时，显示器异质性对任务没有影响。当用一个属性编码时，难度取决于该属性的异质性，直到达到其容量限制（颜色为7，形状为5）。最后，当同时使用两个属性进行编码时，即使具有较小的异质性，性能也会急剧下降。版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍信息可视化研究领域的主要目标之一它是通过设计这些数据的抽象表示来实现的，这些数据可以很容易地被探索，以使用户/专家能够提取他们没有专门寻找的知识（否则，在数据库中查询就足够了）。为了设计有效的表示，专家必须优化他们编码数据的方式（即，，选择可视属性和功能）。如（Ware，2012）或（Healey和Enns，2012）所示，这些视觉选择应该由视觉搜索和感知指南驱动。从那时起，已经产生了关于视觉属性效率的各种建议，以帮助专家在其表示中突出显示数据时进行选择（ Haroz 和Whitney，2012; Gramazio等人，2013）。，2014; Huber andHealey，2005; Itoh et al. ，2004; Mackinlay，1986）。*通讯作者。电子邮件地址：loann. labri.fr（L.Giovannangeli），romain. labri.fr（R.Bourqui），romain. labri.fr（R.Giot），david. labri.fr（D.Auber）。https://doi.org/10.1016/j.visinf.2022.03.001颜色（Ware和Beatty，1988年; Healey，1996年; Haroz和Whit-ney，2012年）和形状（Weriff，1973年; Post等人，2012年）。，1995）是两个广泛使用的并且经常组合的视觉属性，用于在表示中编码数据（例如，，散点图（Gleicher et al. ，2013）、地理地图（Bertin，1983）、图表（Altunbay et al. ，2009）和平行坐标（Zhou et al. ，2008））。然而，随着可视化变得越来越复杂（例如，表示增加的数据项或类的数目）。例如，感知研究（Wolfe和Horowitz，2017）表明，颜色是一种前注意特征，这意味着表征的所有颜色都可以并行处理然而，异构表示往往会在某些时候压倒搜索过程，即使数据是用颜色编码的。这一点被称为注意力的能力极限，并根据数据编码而变化。对于颜色，容量限制被假定为大约7 2，尽管我们找不到任何支持它的参考。这是对Miller's magic number（Miller，1956）的一种常见误解我们认为这一限制过于乐观，并且搜索任务的难度可能会随着密集表示中颜色的减少而显着增加，2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfL. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2526Fig. 1. 4种可能的离群值类型异常值始终位于位置10（即，第二行，从左上角起第三列）。(a)在颜色类型图像中，异常值颜色是唯一的;（b）在形状类型图像中，异常值形状是唯一的;（c）在冗余类型图像中，异常值颜色和形状都是唯一的;以及（d）在结合类型图像中，颜色和形状的异常值组合是唯一的。尤其是当数据用视觉属性的组合编码时。这项工作的目的是验证这样的假设，更一般地测量的能力限制的注意时，数据编码的颜色和/或形状的密集表示。重要的是要注意，我们感兴趣的是视觉属性特征可以在表示中采用的特征的最大数量，无论这些属性的特征是什么。由于测试所考虑属性的每一个可能特征是不可行的，因此应在其实验定义的范围内观察这项工作的结果，即：，它的一组选定形状和颜色。在本文中，我们研究如何困难，找到一个离群在具有使用形状和颜色视觉属性编码的各种异质性和异常值的表示中。在每个表示中总是恰好有一个未知的离群值，以重现标准的数据探索，其中人们希望识别离群值元素。离群值编码（后来称为类型）是颜色和形状维度的四种可能组合（见图1）。1）我们分别研究了每种类型条件下异质性的影响。我们的研究结果表明，任务变得显着困难的异质性水平低于预期，并证实它取决于离群值编码（Treisman和Gelade，1980;Treisman，1977）。与视觉搜索研究相反，我们的工作重点是研究是什么让任务变得更难，而不是为什么。事实上，即使在Treisman和Gelade（1980）我们感兴趣的是研究一些广泛使用的视觉属性特征信息可视化实际上使任务更加复杂的人类受试者从实用的角度来看。在下文中，我们采用了文献中的一些术语，以使自己与信息可视化社区保持一致。我们称参数为 Treisman （例如，，（Treisman，1977;Treisman and Gelade，1980））调用维度时，我们使用值代替特征，使用离群值代替目标，使用干扰项代替非目标。因此，参数指的是视觉属性（例如，颜色、形状）或表示的任何其它变量（例如，形状的数量），两者都具有值（例如，颜色：红色，形状：圆形，形状数量：4）。在我们的工作中，我们研究了人类注意力的能力极限与不同的异质性的颜色和形状属性，无论是单独和组合。在信息可视化领域中，与本文最接近的工作是Haroz和Whitney（2012），他们研究了人类注意力在分组或随机布局下对颜色或运动方面具有不同异质性的表示的容量限制然而，他们没有研究这两个视觉属性的组合以及关于运动的结果具有有限的应用，因为许多表示不是动态的。即使在他们的研究和我们的研究之间条件最接近的地方（即，，数据仅用颜色编码，在随机网格中有一个未知的离群值），我们的受试者我们工作的另一个独创性是使用深度神经网络（DNN）作为度量标准，以基于实验参数的子采样。的所有考虑的参数太高，无法通过用户评估进行详尽的研究。在一些研究领域，有专门的指标来评估表示的可读性（例如，，图表绘制（Purchase et al. ，1995;购买，1997））。但是，每一种表示技术都没有一组度量标准来衡量其解决各种任务的质量。另一方面，DNN已被证明是非常有效的计算机视觉技术，并且能够学习解决各种各样的表示任务。在这里，我们利用DNN，因为它们可以（并且必须）处理大型数据集来学习任务。事实上，这些模型可以学习解决任何表示上的任何任务，只要两者都可以编程表达。此外，当他们看到更多的数据样本时，他们会变得更好，这使得能够评估大量的参数组合。然后对DNN预测进行统计分析，以识别使其始终失败的参数空间的条件（分别为：成功）的预测。我们将其解释为基于以下假设的难度度量：硬）的DNN的条件往往是容易的（分别是，#21453;，对于用户来说也是如此。最后，这个难度指标用于导致参数空间修剪。DNN和人类在感知任务上的相关性的假设在一些作品中得到了广泛的研究（Horikawa etal. ，2019年;雅各布等人，2021; Kheradpisheh等人，2016年），我们在一项单独的研究（Giovannangeli et al. ，2021年）。这种假设也是所有美学指标所固有的，因为没有函数可以有效地评估人类在每种可能的表示上的每项任务难度，这就是为什么指标结果应该由知情专家解释总之，本文的主要贡献是研究颜色和形状视觉属性的能力极限，当混合在具有数十个刺激的表征中时。我们还提出了一个可计算难度度量的想法，该度量依赖于深度神经网络来评估表示效率，并且可以适应DNN可以学习的任何任务表示。这里，难度度量用于对参数空间进行子采样。最后，用户评估进行约简空间研究初步假设离群检测任务。使用深度学习模型性能的统计分析来评估用户性能的有效性是目标L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2527×另一篇论文（Giovannangeli et al. ，2021），并在第4.1节中讨论。本文件其余部分的结构如下。第2节介绍了视觉搜索文献的相关工作及其与信息可视化的关系。第3节介绍了任务参数空间的定义和实验对象数据集的生成，而第4节描述了该参数空间的子采样。第5节介绍了实验评价设置和结果。最后，第6节讨论了这些结果，第7节得出结论，并提出了未来的工作线索。2. 相关工作本实验中的任务涉及在非目标刺激的背景中识别目标刺激，并且具有多种应用领域。在感知方面，研究人员利用这项任务来了解大脑如何处理显示。在信息可视化领域，研究集中在优化解决任务所需的时间。在本节中，我们介绍了这两个领域的一些文献。我们还介绍了最近关于使用深度神经网络（DNN）来评估表示的可读性的工作。2.1. 知觉中的视觉搜索视觉搜索研究领域的开创性理论是 Treisman 和 Gelade（1980）提出的注意特征整合理论（FIT）。它将注意力定义为一个两阶段系统，一个预先注意的步骤，然后是一个注意的过程。如果一些视觉属性的特征可以并行处理，那么它们就会被认为是前注意的（Wolfe和Horowitz，2017）。该理论还区分了特征搜索和联合搜索，特征搜索是大脑寻找单一属性的特征，联合搜索是需要不同视觉属性特征的组合来识别目标（例如，特征的绑定然而，这个模板现在是有争议的，引导搜索沃尔夫（沃尔夫和格雷，2007年），这已经定期更新（今天的版本4.0），现在是首选。尽管如此，FIT是必不可少的，并参与了对感知和视觉搜索的研究，如对Treisman贡献的致敬所示（Wolfe，2020a，b）。Duncan和Humphreys（1989）利用Treisman理论提出了他们的基于刺激相似性和模板的理论。他们表明，作为目标到非目标（T-N，即。离群值到干扰项）相似性增加，任务变得更加困难。这种情况甚至更糟，如果非目标到非目标（N-N）相似性增加，除了在T-N相似性保持较小的情况下。此外，表征中可能的非目标的数量，他们称之为非目标异质性，严重影响任务难度。最后，他们指出，如果目标可以通过特定的维度（即，相关维度）、其他维度的异质性（即，不相关的维度）对搜索任务的影响很小;这证实了Treisman（1977）的结果。Pashler（1988）还研究了不相关维度的异质性，并表明即使目标未知，异质性也没有影响。鉴于这两项工作，我们的实验应该使我们能够观察到非目标异质性的有害影响，当它发生在不相关的维度时，这种影响会减弱。Quinlan和Humphreys（1987）发现，对由形状定义的目标的视觉搜索这证实了颜色是一个预先注意的属性，并且比形状更有效地表示数据。对于合取搜索，他们发现错误率随着刺激的数量和反应时间是线性相关的。此外，他们还表明，在合取搜索中，相似性对被试的成绩影响大于单一特征搜索。最后，他们指出，离群值与干扰项共享的特征越多，任务就越困难。2.2. 信息可视化中的视觉搜索如果感知研究领域是信息可视化社区的基石，他们的例如，Treisman和Gelade（1980）声称，这样的设计规模远远不能满足大多数现代表现的复杂性。在这种程度上，Healey和Enns（2012）绘制了一幅致力于计算机图形应用的视觉感知文献的风景;信息可视化社区一直在运行自己的人类处理表示效率的测量。Haroz和Whitney（2012）研究了有色群体和运动如何影响信息可视化的有效性。他们对5名受试者进行了几项实验，每项实验必须解决960次目标任务。研究了颜色数目、颜色组布局等参数对图像质量的影响。他们发现，分组颜色（即，，类）显着减轻了任务时，目标找到是未知的。此外，当颜色被分组时，更容易访问整体信息，例如颜色/类别的总数。受Haroz和Whitney（2012），Gramazio et al. （2014）研究了相同的任务如何通过改变刺激的数量，它们的布局，它们的大小和表征中的颜色数量来对表征大小敏感。在我们的工作中，我们研究了相同的任务，当刺激被编码为颜色，形状或两者的组合以随机布局的表示。Demiralp（2014）引入了感知内核的概念，距离矩阵表示由一个或多个视觉属性组成的一组刺激的成员之间的感知距离。在他们的实验中，他们估计了颜色、形状和大小视觉属性的感知内核，以及它们的成对组合。他们表明颜色和形状有非常不同的内核。在形状核中，我们观察到几个距离较远的形状簇，而颜色之间的距离分布更均匀。另一方面，所有的刺激都接近许多其他的颜色形状内核。他们的实验考虑了4种颜色和4种形状（即，，16个刺激），但只有4个聚类可以在内核中区分，这意味着所有的刺激与其他刺激具有高水平的相似性。我们预计，在我们的实验中，改变形状或颜色的数量不应该对性能产生相同的影响，因为它们的内核是不同的;并且使用两个属性的结合应该会产生显着的影响。根据（Mackinlay，1986），位置是在表示中视觉编码数据的最佳参数。例如，在西方文化中，当从左到右和从上到下阅读时另一方面，中央固定偏差（Tatler，2007）可能有利于网格中间的刺激。在这个实验中，表征中的刺激布局是固定的（8 - 8规则网格），因为我们的目的不是研究离群位置对参与者表现的影响为了减轻其对结果的影响，在深度神经网络模型学习阶段（见图2（a））和用户评估阶段（见图2（a）），离群值位置均匀分布在数据集中。5（a））。L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2528×××2.3. 用于可视化评价的Behrisch等人（2018）最近对信息可视化的质量指标进行了一项调查，并声称深度神经网络（DNN）是评估表示质量的一个有前途的方向。在同一研究路线上，Haehn等人（2018）使用不同的卷积神经网络（CNN）复制了Cleveland和McGill（1984）的研究，以评估这些网络与人类相比在各种基本图形感知任务上的表现。相对于比例、角度或面积的位置）。他们发现CNN和人类在这些基本的图形感知元素上表现不同，但仍然热衷于评估DNN的表示。后来，Haleem et al. （2019）训练CNN来预测各种图形节点-链接表示质量指标，同时仅向其提供布局的图形图像（即，CNN不能访问节点坐标、边等）。他们的模型在95%的置信水平下达到了85%以上的准确率。这些质量指标旨在为人类编码一些他们的研究证明，CNN可以很好地接近它们，从而有效地估计人类的感知能力。最后，Giovannangeli et al. （2020）部分复制了两个比较节点链接与邻接矩阵图表示的评估（Ghoniem etal. ，2005; Okoe et al. ，2018年）与CNN在计数和连接任务。他们提出了一种自动化方法来比较可视化技术，并得出结论，人类和基于机器学习的计算机视觉技术可以在他们考虑的任务上相互关联所有这些研究都对结果持谨慎态度，提出了一些限制。任务定义、数据生成过程、网络结构、超参数、初始权值等都会导致不同的网络策略和性能。由于这一研究领域是最近开发的，人们仍然没有很好地理解CNN和人类是如何相互关联的，我们目前对它们的差异比相关性了解得更多。3. 任务和参数空间本节详细介绍了本研究中考虑的参数（及其值）。3.1. 任务所选择的任务包括确定一个离群值在一个8 - 8网格的彩色形状绘制在一个图像的256 - 256像素。这些图像属性使得（i）能够考虑我们的关键参数的合理数量的值（紧接着呈现），以及（ii）在用户的图像读取能力和将图像馈送到标准深度学习模型架构的可能性之间进行良好的权衡。在这样的图像中，彩色形状（即，如果没有具有相同颜色和形状视觉属性的其他刺激，则刺激）被认为是异常值使异常值唯一的维度因类型参数而异。类型与使离群值唯一的维度相关它有4个可能的值：（i）颜色，当离群值的颜色在网格中是唯一的;（ii）形状，当它的形状在网格中是唯一的;(iii) 冗余，当它的颜色和形状在网格中是唯一的时，（这是指冗余编码（Nothelfer et al. ，2017））;和（iv）结合，当其颜色-形状组合在网格中是唯一的时。类型值的示例在图中提供。1 .一、每个图像包含一个离群值和63个干扰项。表1本研究中考虑的所有参数值。颜色值以十六进制RGB代码的形式给出。形状和颜色值可以由离群值通过离群值颜色和离群值形状参数使用，或者由干扰项刺激i使用。视觉属性值图像.3.2. 数据空间定义本研究的实验对象是代表网格的图像它们由六个参数值定义（见表1）。在一组形状中选择离群形状值（参见表1第1列）。形状可以由许多子特征（例如，线、方向、尺寸）。在这个实验中，每个形状都以一个方向出现，其大小设置为最大值，以适合使用3像素填充的32五个形状被选中-三角形，圆形，方形，三叶草和钻石–to mix the use of straight vertical/horizontal, diagonal andcurved离群颜色值是从一组颜色中选择的（参见表1第2列）。已经存在一些方法来找到一个有效的颜色集来表示目标（例如，，（Bauer et al. ，1996年），或最近的Colorgorical（Gramazioet al. ， 2016））。在这个实验中，颜色被认为是基本特征（即，，我们不研究色调或饱和度的影响），并从ColorBrewer1工具（Harrower和Brewer，2003）（一个著名的调色板提供商）中命名为Dark2的7个定性调色板调色板是定性的，因为颜色应该尽可能独立（即分类的），并且选择Dark2，因为它是具有最高饱和度的建议集合之一。从一开始，我们就计划排除色盲的人。找到这种大小的可靠调色板是复杂的，并且对于非色盲个体来说，颜色与色盲个体一样可区分（它们本身可以是不同的类型）。异常值位置与异常值在实验对象中的位置有关在这项研究中，位置在0和63之间变化，对应于网格的行优先顺序图像的类型与使其在该实验对象中唯一的离群值维度有关（见第3.1节）。颜色的数量（#colors）与实验对象中使用的不同颜色在这个实验中，颜色的数量在1到7之间变化值得注意的是，如果实验对象类型是彩色或冗余的，则颜色的数量不能设置为1，因为必须为离群值保留一种颜色。形状的数量（#shapes）涉及在实验对象中使用的不同形状的总数。在这个实验中，形状的数量在1到5之间。对于形状或冗余类型的实验对象，形状的数量不能设置为1，因为一个是为离群值保留的3.3. 数据集生成在生成实验数据集时，平衡六个参数值以最小化分布偏倚并正确训练模型。主要关注的是平衡离群值一个彩色的形状被认为是一个干扰，如果它出现在至少在网格中两次（否则，它是离群值）。在一个网格中最多有31种不同的颜色-形状组合。1 https：//colorbrewer2.org/#type=qualitative& scheme=Dark2& n=7，于2021年10月查阅。形状颜色位置类型#颜色#形状#1B9E770的情况。颜色11#D95F02.形状22#7570B363冗余（红色。）33#E7298A连词44#66A61E55#E6AB026#A6761D7L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2529=××图二. 210 560幅图像中的参数值分布。形状-颜色-位置发生（见图）2（a））以防止深度学习模型学习比其他更容易找到一些刺激或位置，因为它们在数据集中更常见。生成过程也遵循一些限制。显然，无法生成1种颜色和1种形状的图像，但也无法生成不太明显的病例。冗余类型的图像不能用1种颜色和2种形状或2种颜色和1种形状生成。对于合取类型的图像，不考虑使用1种颜色或1种形状的参数值的组合，因为它们将分别产生形状或颜色类型的图像。此外，不能在8 × 8网格中使用7种颜色和5种形状生成类型连接图像之一75应为离群值保留35个组合，34应该出现两次（最小条件是干扰），所以这将导致至少69个刺激。使用[4种形状，7种颜色]和[5种形状，6色]被删除。根据我们的经验、文献知识和试点实验，我们强烈期望我们旨在研究的容量限制将在（即）具有较少的异质性）这些高价值的配置。这些约束解释了为什么type、#colors和#shapes值没有完全平衡，如图1和2所示。2（b）、2（e）和2（f）。通过每个参数值组合生成一个图像（见表1），同时排除上述参数值，我们最终得到了210 560个不同的图像。如第1节所述，本研究并非旨在研究离群值位置对任务的影响该参数仅用于生成具有其他参数值组合的几个样本，并进行统一平衡，以减轻其对结果的影响。因此，实验研究了3290种不同的参数组合，每个重复64次最后，数据集被随机分成3个子集，用于监督学习目的（保持验证（Arlot和Celisse，2010））：训练（学习模型），验证（防止训练期间的过拟合）和测试（在看不见的数据上评估模型）。4. 参数空间约简第3节中提供的参数空间太大（3290个条件64个位置），无法通过用户评估直接评估任务。为了克服这一点，我们基于对相同任务表示的深度神经网络（DNN）性能的分析对参数空间进行子采样。本节介绍DNN作为度量标准的设计及其实现：我们如何选择网络架构并训练它来解决任务。然后，它给出了训练的模型结果以及促使我们改进假设并对参数空间进行子采样的统计研究。4.1. DNN作为度量正如我们在第3节中所看到的，完整的参数空间太大，无法进行用户评估。克服这个问题的一种常见方法是对它进行子采样，这样我们就不需要在所有可能的条件下评估任务，但可以将实验结果推广到整个参数空间。然而，这种近似仅在子采样方法代表任务时才保持正确，这在进行实验之前是难以知道的。两种常见的二次抽样方法通常被接受：(i)任意采样（例如，随机的，系统的），其条件基于试验性实验、文献和信念进行修剪（ii）以量度为基础的抽样。出于再现性和客观性的原因，第二种方法似乎优于第一种方法。然而，很少已经存在一个旨在评估新表示有效性的度量来解决给定的任务，除非问题非常具体（例如，，用于图形绘制的图形美学度量（Purchase et al. ，1995;购买，1997））。灵感来自Giovannangeli et al. （2020）方法并遵循Haehn等人的建议。（2018）和Haleem et al. （2019）（见第2.3节），我们提出了一种基于深度神经网络的新方法来计算难度度量。它根据任务和表示参数本身来评估任务在给定表示上解决的难度DNN作为度量的概念非常直观。第一步是生成用于训练DNN模型的注释数据，以学习解决任务（参见第3.3节）。根据Gio-vannangeli等人的建议，（2020），在试图保持参数分布均匀的同时生成数十万个数据样本。目标是确保（i）模型真正学习解决任务，而不学习地面真值分布，以及（ii）模型在给定参数值下的表现不会更好，因为它在训练数据集中更常见然后，训练一个通用的DNN架构来解决任务，我们将其调整到最低限度，以避免我们对任务难度的任何先验信念对模型产生偏见。然后对获得的模型进行评估，以确保它学会了解决任务，这样我们就可以分析它的性能。它的性能聚合在不同的方式统计研究的任务难度的模型的每个参数的效果。统计研究的结果最终被用作难度度量。基于此度量，用户评估的参数空间减少（见第5节）。这种度量设计的主要优点是：（i）它适合任何可以编程表达的任务和表示，以及（ii）它不需要关于任务的任何先验信息模型会自己学习表示的哪些区域和图形元素与解决任务相关。这种方法的主要问题是，它将DNN视为元用户，并假设其性能与人类用户的性能相关。为了研究这一假设，我们对DNN和L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2530=在我们的实验中收集了人类参与者的表现。该相关性研究是另一出版物的目的（Gio-vannangeli et al. ，2021年），并得出结论，DNN和人类参与者具有很强的相关性（高达0.988的相关性得分，完美的相关性得分为1），并对如何解释模型结果以评估人类表现提供了更好的见解。然而，每一种美学度量都是对人类感知的启发，并不能总是成功地模拟人类的感知系统，这种方法也不例外。它既不比其他二次抽样方法更准确，也不比其他二次抽样方法更不准确，只能由知情专家解释。尽管如此，它确实能够研究任何任务的广泛参数空间和可以编程表达的表示。4.2. 模型选择和培训如Giovannangeli et al. （2020），应使用通用深度神经网络（DNN），而不是专用于任务（或可视化技术）的架构，以被研究。在这方面，根据建议， Haehn et al. （2018），我们尝试了几种网络架构（例如，，LeNet（LeCun et al. ，1998）或VGG-16/19（Simonyan和Zisserman，2014）），并最终选择ResNet（He et al. ，2016），因为它正确地学会了解决任务。ResNet的默认权重被设置为ImageNet上的预训练值（Russakovskyet al. ，2015）。 He等人（2019）表明，这种为图像识别预训练的模型已经编码了一些显着性信息，预计这将加快空间识别的学习过程。ResNet架构略有调整（He et al. ，2016）：其输入层被设置为适合所生成的图像分辨率，并且两个连续的密集（即，完全连接）层添加在其输出之后，以适应预测所需的类的数量。我们认为异常值的识别是一个分类问题，而不是一个回归问题，在回归问题中，预测和它们的基本事实之间有一个距离的概念。因此，最后一个密集层的大小被设置为预测离群值位置（即，预测64类），倒数第二个致密层的大小被设置为1024。虽然学习阶段的优化器和默认调优没有修改，但批处理大小被设置为64（而不是256）。我们使用Keras库的早期停止功能（Cholletet al. ，2015年），耐心15个纪元结束训练过程。4.3. 结果在学习阶段结束时，验证集和测试集的最佳历元准确率分别达到 74% 和 76% ，表明模型没有过拟合，并且能够通用化。Matthews相关系数（Baldi et al. ，2000）的0.754，证实了模型学习解决任务。因此，我们可以预期，不正确的预测不是由于危险，而是由于数据中参数值的组合。A Kruskal–Wallis ANOVA test (对于发现具有显著影响的参数（图1中的不透明图），4），进行成对Wilcoxon秩和检验以检查它们的值是否导致显著不同的性能。总体研究的显著性水平设定为α0 的情况。05. 当分裂按类型划分的数据，应用Bonferroni校正，将显著性水平降低至α= 0。025. 显示所有参数图三. 在测试集上为类型值训练ResNet错误率（ER）。两个标签之间的弧意味着两个参数值的ER之间的成对比较是显著的（p-值<0. 05）进行秩和检验。当与标签相关的性能与所有其他性能显著不同时：条形图为橙色，并在标签下方添加符号 *。阅读示例：颜色类型明显比连接类型更容易，比形状和冗余类型更难。冗余类型和形状类型之间没有显著差异。在至少一种情况下具有显著效果，除了离群值形状，本节将不再进一步研究对于其余参数，图。图3和图4显示了测试集上的训练模型错误率（ER）。接下来，我们描述了我们可以从这些结果中学到的类型：正如我们所料，类型是与任务难度相关的一个关键参数，如图2中ER之间的巨大差异所示。3.第三章。合取类型导致的错误明显多于其他值。颜色类型明显比形状和冗余更难;后两者彼此没有显著差异。类型值之间的显著差距促使我们分别研究每个类型值的其他参数（见图4）。我们还看到，颜色类型的实验对象导致比形状类型的实验对象显著更高的ER，这在视觉搜索文献中是令人惊讶的，该文献认为形状比颜色更难视觉属性。这很可能是由ResNet架构的设计引起的，将在第4.4.1节中讨论。颜色数量：总体而言，ER几乎随颜色数量的增加而线性增加，如图所示。四、可以观察到在1和2#颜色之间（并且基本上，在1和任何其他值之间）的性能的显著变化。这种转变可能是由我们的数据生成过程中的偏差引起的，这将在第4.4.1节中讨论。难度的增加甚至更强，因为#colors在实验对象上增加，是识别离群值的唯一相关维度（即，颜色类型）。当颜色不是一个相关的维度时（即，，类型形状），#颜色对任务难度没有任何显著影响。最后，对于连接类型的实验对象，表现的唯一显着差异是在正好2和>2#颜色之间，这意味着任务难度是阈值的。超过2种颜色，似乎任务已经很难解决，进一步增加颜色的数量并不会使任务变得更加困难。形状数量：图。四是，总体上看，有一种...在1和#形状的更高值之间的显著ER移位，如用#颜色观察到的。同样，这将在第4.4.1节中讨论。将此值放在一边，其他#shapes值之间仅保留一个显著差异。因此，我们可以假设，总体而言，增加形状的数量并不会显著增加任务难度。当形状是用于识别离群值的不相关维度（即，类型颜色），ANOVA检验揭示了#shapes值之间的错误率差异这个结果是违反直觉的，因为异常值不能使用颜色L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2531见图4。在测试集上训练ResNet错误率（ER）。第一行显示总体参数ER，而接下来的行按类型显示参数ER。一如果给定参数和类型聚合的ANOVA检验失败，则图将褪色，这意味着参数值变化对条件;否则，它是不透明的。两个标签之间的弧表示两个参数值的ER之间的成对比较是显著的根据Wilcoxon秩和检验。当与标签相关的性能与所有其他性能显著不同时：条形图为橙色，并在标签下方添加符号 *。显著性阈值为p值<0. 方差分析和两两检验在总体研究中的P值均为0 . 05，而在总体研究中的P值为<0.05。025在每种类型的研究中。图的标题中给出了一个阅读示例。三...L. 焦万南杰利河布尔基河Giot等人视觉信息学6（2022）2532类型图像。它可能会揭示深度神经网络的某种过拟合，在这种情况下使用DNN结果时必须小心。当形状是唯一相关的尺寸时（即，，形状类型），ANOVA检验表明ER差异在#shapes值之间是显著的，但是用事后检验没有发现成对显著差异。由于ER保持在1%以下，因此我们可以假设，无论形状的数量是多少（即，相关维度中的异质结没有影响）。然而，这很可能不是人类参与者如何感知任务难度，并且可能是Giovannangeli等人观察到的DNN和参与者之间不相关性的来源。（2021）关于形状类型图像;我们在第4.4.1节中讨论。最后，对于连接类型的实验对象，#shapes的ER遵循与#colors相同的趋势：难度阈值在正好2和>2#shapes之间。异常值颜色：与异常值形状不同，异常值颜色然而，正如我们在图中看到的。4、ANOVA检验仅表明离群颜色变化影响任务整体和颜色类型图像。整体数据是4个类型值的聚合，这主要意味着离群颜色仅对颜色类型图像有影响，这是有意义的，因为颜色是该条件下唯一相关的维度相反，当颜色是一个不相关的维度（即，形状类型），异常值颜色变化没有显著影响。在冗余类型图像上，可以使用其颜色或形状（或两者）找到离群值。如前所述，离群值形状对DNN性能没有任何影响由于异常值颜色对冗余类型条件也没有任何显著影响，这意味着无论定义异常值的属性是什么，任务都非常容易。基于同样的推理，我们可以得出结论，对于连接类型的图像，任务是非常重要的。无论异常值的属性是什么在本节中，我们没有关注参数值对冗余类型实验对象的影响。正如我们在图中看到的。4、没有参数对这类实验对象有任何影响。冗余类型的总体ER为1%，并且所有#颜色、#形状和离群颜色ER值均低于1%。我们的结论是，没有单变量条件，影响实验对象的类型冗余。4.4. 结果解释4.4.1. 限制如第4.1节所述，美学指标无法准确模拟人类对某些代表性任务难度的感知，并且很可能存在指标偏离人类有效能力的条件实现。在相关性研究中，我们单独进行了（Giovannangeli et al. ，2021），我们还发现DNN错误率不是与参与者表现最相关的指标，尽管参与者错误率和响应时间的相关性得分仍然足够高（分别为0.806和0.903）以验证基于DNN的指标本实验由于相关性的计算需要模型和人类参与者的表现，因此不能先验地完成，并且这样的结论是预期的。另一个限制来自我们观察到的类型形状物体的表现，并且与人类参与者的表现不一致，如Giovannangeli等人所示。（2021年）。该模型学习了一种与人类行为无关的策略。我们怀疑，当离群值可通过其形状识别时，模型简单地估计每个单元中的彩色像素数（无论颜色本身如何），并预测唯一没有出现至少两次的彩色像素数，这极大地有利于类型形状和冗余对象。这就是为什么我们需要监控与人类表现的相关性，并在解释度量结果时将其考虑在内。还可以注意到，CNN的黑盒效应使我们无法解释为什么离群值颜色具有显著影响在颜色类型图像上，而离群形状对形状类型图像没有显著影响;特别是考虑到该模型在形状类型图像上实现了更好的性能（见图11）。3）。此外，由于我们在本研究中将颜色视为基本特征（即，不分解成色调、饱和度等），我们对“什么”使异常值颜色比另一个更好以有效地解决任务不感兴趣此外，DNN更容易的离群颜色将基于RGB空间中的发散，而我们知道RGB并不能很好地表示人类对颜色的感知。最后，如第3.3节所述，一些参数配置无法生成。对应于1#颜色和1#形状的错误率的条仅从特定类型值（分别为形状和颜色类型）计算。在图1中的总体、#颜色、ER图中。4，“1 "具有较低的ER因为它只由形状类型的实验对象组成，而其他值是从所有类型值的实验对象计算的。因此，我们在解释模型性能以评估任务难度时应该记住这些限制。4.4.2. 假设在接下来的研究中，我们提出的假设，在用户评价与人类参与者，部分推断模型的性能。它们是基于文献中的知识构建的，并包括一些DNN指标结果，以使它们与人类参与者的表现相对抗。同样，DNN和人类参与者之间的相关性研究（Giovannangeli et al. ，2021年）已经完成了后验，因为它需要收集人类参与者的数据，这就是为什么在我们建立假设时无法考虑有关这些相关性的知识。尽管如此，对于任何指标，我们预计它都会有陷阱，其结果与人类

下载后可阅读完整内容，剩余1页未读，立即下载