未知的未知：图像识别中的特征表征和人在回路方法

185 浏览量更新于2023-11-29 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

882→你应该知道什么？一种用于图像识别中未知未知数表征的人在回路方法Shahin Sharifi Noorian，Sihang Qiu，Ujwal Gadiraju，Jie YangJiang和AlessandroBozzon{s.sharifinoorian，s.qiu-1，u. k. gadiraju，j. yang-3，a. bozzon}@tudelft.nl代尔夫特理工荷兰代尔夫特摘要未知的未知数是可靠图像识别的主要挑战。现有的方法主要集中在未知的未知数识别，利用人类的智能来收集机器可能难以收集的图像。为了加深对未知未知的理解，更有效地识别和处理未知未知，本文重点研究了未知未知的特征。我们引入了一个人在循环，语义分析框架，以表征规模未知的未知。我们(a) 应知天花板椅子(b) 真正的知识让人类参与两项任务，分别指定机器应该知道什么和描述它真正知道什么，这两项任务都是在概念层面上，由信息提取和机器学习可解释性方法支持。数据划分和采样技术被用来扩展人类在处理大数据时的贡献。通过对场景识别任务的广泛实验，我们表明，我们的方法提供了一个丰富的，描述性的未知的未知特征，并允许更有效的和成本效益比最先进的检测。CCS概念• 计算方法机器学习;知识表示和推理;·以人为中心的计算→人机交互（HCI）。关键词未知的未知，人类在循环中，语义分析ACM参考格式：Shahin Sharifi Noorian ， Sihang Qiu ， Ujwal Gadiraju ， Jie YangJiang 和Alessan-dro Bozzon. 2022.你应该知道什么？图像识别中未知未知特征描述的人在回路方法。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，美国纽约州纽约市，11页。https://doi.org/10.1145/3485447.35120401引言机器学习的图像识别模型在许多高风险环境中迅速部署[35]。虽然在很大程度上加速和帮助决策过程，但这些模型存在一个问题，*通讯作者。本作品采用知识共享署名国际协议（ Creative Commons AttributionInternational）授权4.0许可证。WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512040图1：一个未知的未知示例：厨房图像被分类为会议室。该模型错过了（a）模型应该知道的相关概念微波炉，烤箱，柜台和水槽，而（b）模型真正知道的不相关概念椅子和天花板（基于显着图[46]）。可靠性的严重问题-它们很容易失败并产生错误，最终可能导致严重的后果[41]。能够理解和检测这些错误已经成为模型开发人员调试和改进模型的关键需求[4]，以及用户决定何时信任模型输出的关键需求[11，12，50]。在图像识别错误中，被称为未知未知数的特定类型是特别感兴趣的[5，29]。未知的未知数指的是模型对其预测非常有信心但却错误的图像。由于模型的过度自信，识别这种错误是一项挑战。最近的努力诉诸于人在回路方法，要求人类收集模型可能难以处理的数据实例[5，27，29]。一个重要的发现表明，未知的未知往往具有内在的一致性，这使得它们特别适合用建立在概念知识之上的自然语言来描述[5，17，29]。我们提出了描述未知的未知数的概念，以使我们能够更深入地了解模型何时失败。这与以前的工作相反，主要集中在识别未知的未知。为了有效地描述未知的未知，需要两种类型的知识：模型已经学习到的知识，我们在下文中称之为REALLY-KNOWS，以及模型应该学习到的知识，称为SHOULD-KNOW。最近关于人在回路机器学习可解释性的工作[6]已经表明了人类作为计算代理来描述REALLY-KNOWS的重要作用，通过用语义概念注释图像识别中的显著图像区域。在本文中，我们提倡另一种观点，即人类作为贡献者的角色，可以揭示“应该知道”。我们设想，从人类对给定任务的理解的角度引出应该知道，可以导致对未知的未知的完整和可用的表征。考虑图1中的室内场景识别示例，其中模型错误地将厨房图像分类为会议图像微波水槽烤箱计数器WWWShahin Sharifi Noorian，Sihang Qiu，Ujwal Gadiraju，Jie Yang和AlessandroBozzon883[客户端]房间：知道模型因专注于椅子和天花板而失败，只说明了一半;知道模型应该专注于微波炉，烤箱，柜台，例如，提供了更深入的理解，可以进一步识别模型因遗漏这些概念而产生的类似错误。考虑到这一点，我们介绍了解剖刀HS，一个人在循环，语义分析框架，未知的未知字符在图像识别。从认知心理学文献[16，20，30，36]中汲取灵感，Scalpel-HS设计了两个人类计算任务-用于SHOULD-KNOW规范和REALLY-KNOWS规范-这两个任务都需要人类贡献者在概念层面上操作。在“应该知道”任务中，人类贡献者识别与给定图像相关的一组对象（具有属性）和关系。在REALLY-KNOWS任务中，人类贡献者用语义概念（即，视觉对象、属性和关系）。利用来自“应该知道”和“真正知道”任务的结果，可以通过比较模型应该与模型实际学到的东西相结合Scalpel-HS建立在计算管道的基础上，为人类计算任务提供输入，并将人类贡献者的认知负荷降至对于应该知道的任务，我们利用最先进的信息提取技术来预先识别图像中的对象和关系，使人类贡献者能够主要关注于判断概念与给定场景的相关性。与明确地综合相关概念相比，这在认知上简化了手头的任务[25]，并导致更结构化的词汇表。对于REALLY-KNOWS任务，我们利用机器学习可解释性方法来突出图像的重要像素以进行模型预测[45，46]。为了最大限度地减少人工工作，Scalpel-HS采用语义数据分区和采样方法，识别人工任务的代表性图像为此，Scalpel-HS首先学习语义丰富的图像表示。我们在几种最先进的机器学习模型上展示了Scalpel-HS的有效性、信息量和成本效益，用于场景识别[26，55]，这是一项被认为在机器图像识别中很复杂的任务，对于人类来说也是如此，因为它需要理解上下文[31，54]。我们表明，Scalpel-HS提供了信息丰富，易于理解的未知未知的特征，显着提高了未知未知检测的最新技术水平31%，并且能够检测到2倍至3倍的未知未知的尺寸与注释图像的数量相比。总而言之，我们做出了以下主要贡献：我们引入了一个人在回路框架，该框架协调了自动和人类计算组件，以实现对未知未知的成本有效的表征和识别我们提出了人类计算任务的设计，用于在概念层面上对模型应该知道和实际知道的描述，并提出了一组设计选择，以考虑人类工作的认知负荷和容错能力我们介绍了计算方法，学习语义丰富的图像表示和图像采样的分割，ING语义数据空间，扩展人类的贡献。第二章Scalpel-HS框架图2显示了Scalpel-HS的概述。给定一个图像集和一个已训练好的图像识别模型，首先提取图像的场景图和显著图，用于对给定图像的模型分类。它学习图像的视觉和语义特征相结合的表示，并在此基础上，划分图像集和样本代表图像的人类任务。然后，将采样图像的场景图和显著性图分别馈送到众包平台中发布的人工任务，即应该知道任务和真正知道任务，以生成模型应该知道和真正知道的描述。然后通过聚合和检测组件聚合两个任务的输出以获得未知的未知物的表征以及一组对应的未知的未知图像。在下文中，我们更详细地描述组件场景图提取。理解自然景物图像通常需要推理图像中例如，在识别房间时，烤箱旁边的水槽表示厨房，而镜子旁边的水槽更可能表示浴室。为了帮助人类指定场景识别中所需的知识，即，应该知道，我们提取场景图。场景图是图像中存在的对象及其之间关系的结构化它由一组关系组成，每个关系表示为oi，rij，oj，其中oi和oj表示图像中的两个对象（通常由边界框捕获的图像块），rij表示两个对象之间的关系。给定一个场景图像，我们使用最先进的方法Neural Motifs [53]生成视觉场景图。显著图提取。理解场景识别中的机器行为是机器学习的可解释性问题。研究最广泛的图像分类可解释性方法是显着性，这是一种局部可解释性事后方法，突出了图像中最重要的像素，用于在显着图中进行模型决策[45]。我们选择这种方法来帮助人类描述模型真正知道的东西。我们选择了SmoothGrad [46]，它对模型的参数敏感（因此可以更准确地捕获模型行为），同时最小化噪声结果（即，突出显示不相关的像素）。我们的框架是不可知的，虽然所采用的本地可解释性方法。为了最大限度地减少人力，我们采样的一个子集的代表性图像的人类注释。通过基于新型图像表示的数据划分方法来执行数据采样。表示学习。由于场景识别任务的复杂性，代表性图像应该在所包含的语义信息和视觉外观方面是多样的。现有的方法通常只依赖于预先训练的模型进行视觉特征提取，这在我们的上下文中是次优的我们建议也融合语义信息，并引入一种自监督学习方法来学习语义丰富的图像表示。我们在第3.1节中描述了详细信息。数据分区和采样。先前的工作已经表明，未知的未知数是由训练数据中的系统偏差引起的，存在于某些分区中（即，盲点）···你应该知道什么未知未知表征的人在回路方法WWW884⟨（）（）（−）未知未知表征：<厨房，-烤箱，卧室><厨房，-冰箱，卧室>...应知人工任务未知的未知（图片）：图2：Scalpel-HS框架。它将图像集和训练的图像识别模型作为输入;作为输出，它产生未知未知的特征化并识别相应的未知未知图像。为此，它提取图像子集的模型分类的（1a）场景图和（1b）显著性图-通过（2a）表示学习和（2b）数据划分采样-将它们馈送到众包平台上发布的（3a）应该知道和（3b）真正知道的人类计算任务，以及（4）聚合未知未知数表征和检测更多相应未知未知图像的空间[5，29]。在此之后，我们提出了一种数据划分方法的采样，语义空间划分（SSP），确定最佳的子集的代表性图像的语义空间。我们的方法分区的语义空间，并选择候选图像的方式，（加权和）余弦距离从候选数据点到其他在同一地区被最小化。因此，语义相似的图像将被分组在分区中，以代表性图像为中心。然后对这些代表性图像进行采样以用于人类注释。我们在3.2节中描述了SSP方法的细节。应该知道的任务。对于与场景有关的一组给定的有效对象和关系，在识别给定图像中的场景时，理解每个对象和关系的显著性是重要的。例如，从人类的角度来看，与地毯相比，床可以被认为在将场景识别为卧室时相对更突出。在这个任务中，人类工作者识别显著对象、它们的属性以及对象之间的关系，以识别图像中的给定场景。我们在4.1节中描述了任务设计的细节。真正的知识任务。该任务的目标是找出场景中的哪些对象影响机器学习模型的预测，以及这是否与人类心理模型一致。人类工作人员识别机器发现的对象和关系，并评估它们在识别场景中的相关性。该任务的详细信息见第4.2节。聚合&检测。两个人工任务的结果被聚合以获得未知的未知的表征。将真类和错误预测类分别表示为y和y′，表征以三元组y，+c，y ′的形式表示假阳性（以y′表示）和y，c，y′表示假阴性（以y表示）。例如，会议室，+沙发，客厅表示模型错误地将会议室图像分类为客厅，因为关注了虚假的概念沙发;厨房，（−）烤箱，会议室表明该模型错误地将厨房图像分类为会议室，因为忽略了厨房中烤箱的概念除了表征之外，该组件还利用数据分区来检测具有相同特征的更多未知的未知数：与人类注释（代表性）图像相同的分区中的图像可能是共享相同的缺失或虚假概念的未知未知数。因此，该组件将更多的图像识别为模型置信度大于阈值的那些未知的未知数。3图像表示和采样本节描述了我们用于语义丰富的图像表示学习和语义空间划分的方法3.1表示学习我们的表示学习模型包括视觉特征提取，语义特征提取，多模态融合和图像表示生成组件。这些组件一起构成了一个表示学习模型，可以以端到端的方式进行训练。我们在下面描述细节视觉特征提取我们使用预先训练的模型Faster- RCNN [38]来生成生成场景图中节点和关系的特征向量。对于场景图中的每个对象节点oi，从其对应的图像区域提取视觉特征向量V oi。对于每个关系节点rij，从图像上oi和o j的并集区域中提取其视觉特征向量V rij。语义特征提取每个节点（对象节点或关系节点）都有一个由场景图形生成器生成的文本描述。从这样的文本描述中，我们使用预训练的GloVe嵌入获得初始语义特征[34]。这些嵌入是我们表示方法中的可训练参数我们将节点和关系的语义特征分别表示为Eoi和Erij。1a场景图数据分区（带锚）GT：厨房2a2b4概念丰富特征向量图像集3b真正了解人工任务1b显著性图预告：浴室置信度：85%场景分类模型真正了解厨房：1) 柜台（室内）2) 玻璃（客房内）3) 门（室内）厨房必备知识1) 烤箱（室内）2) 冰箱（室内）3) 柜台（室内）3a聚集检测数据分区采样场景图形生成器表示学习可解释机器学习WWWShahin Sharifi Noorian，Sihang Qiu，Ujwal Gadiraju，Jie Yang和AlessandroBozzon885fi fjB1.2我JXij=1多模态融合。我们将视觉和语义特征融合到一个联合的多模态表示中。受[18]的启发，视觉特征向量和标签特征向量首先连接，然后融合如下：Zoi =tanh（WTVoi+WTEoi）（1）4.1应该知道的任务在这项任务中，人类工作人员提供了一个采样的图像，以及相应的场景图，以识别概念（显着的对象，它们的属性和关系）在场景识别。程序如图3所示（放大图见附录A.3）。1 2首先要求工作人员验证自动生成ZRij =tanh（WTVrij +WTEri j）（2）其中Zoi和Zrij分别是对象和关系节点的联合特征向量W1和W2是共享参数。图像表示生成。为了获得图像的单个矢量表示，我们结合了所有对象和关系的视觉语义特征。考虑到这些对象和关系共同构成一个图，我们采用多层图卷积网络（GCN）[24]来捕获图结构，同时结合对象和关系特征。通过多层线性和非线性变换层，GCN生成包含图的结构信息的新节点特征为了获得图像的全局表示，我们将GCN在不同层中学习的节点表示（分别表示为对象和关系节点的U oi和U rij）聚合为使用图池操作的图表示，称为读出[32，52]。整个表示学习模型包含嵌入、多模态融合层和GCN的参数。我们在附录A.1中描述了培训细节。3.2语义空间划分形式上，我们表示特征向量fi，fj之间的距离两个图像i，j如下，不dist（f i，f j）=1 − ff。（三）因此可以识别和过滤关系（对象和关系分类中的神经基序性能分别为33%，59%）。然后，他们的任务是使用范围从1到20的滑块（完全不相关到高度相关）来对场景识别中的概念的相关性进行评级。为了进一步缩小到高度相关的概念，要求工作人员识别可以充分识别场景的最小概念集。它隐含地要求人类首先添加缺失的概念，然后确定用于识别给定图像中的场景的不可缺少的概念。要添加缺少的概念，工作人员需要通过输入名称并在图像中绘制边界框来指定概念在概念是对象属性或关系的情况下，工作者需要进一步指定关系。使用概念列表中的复选框选择Increment概念。4.2真正的知识任务虽然在人的头脑中，场景是由具有清晰边界的物体组成的，并且在空间中相互之间具有可理解的位置[44]，但对于机器来说，它是像素而不是物体的组成。为了理解机器行为，我们将显着图中以暖色突出显示的像素映射到人类可以理解的实际概念。该程序如图4所示（附录A.3中的放大图）。要求工人绘制边界框以注释由如果有预算，即要被处理的代表性图像的数量针对人工任务进行采样，我们的划分方法发现了代表性的通过最小化以下目标函数来优化图像min. .dist（f i，f j）X iji.∈Dj∈Dj∈D（四）显著图、命名对象并分配属性（例如，颜色），定义对象之间的关系，并将显著图突出显示的所有对象和关系添加到列表。通过与他们自己在场景识别中的心理模型进行比较工作人员然后对这些对象/关系的相关性进行评级XijYjYj=Bj∈D其中，Xi j指示图像i是否被分配给分区j的决定;Yj指示图像j是否被选择为代表性样本（注意，索引j被重载以表示分区和分区的代表性图像两者由于与找到代表性样本的最佳集合的问题相关联的大量可能的解决方案，提供确定性解决方案是非常具有挑战性的。我们采用了基于遗传算法（GA）的元启发式方法我们的算法的细节在附录A.2中描述。第四章人类的任务我们现在描述用于指定图像识别模型应该知道什么和它真正知道什么的人工计算任务。给出理由。请注意，对于此任务的注释，已经可以获得由于错误地聚焦在虚假概念上而导致的假阳性预测的消除。我们在我们的实验中比较未知的未知检测只使用从这个真正的知道任务和也应该知道任务获得的字符化。5实验设置和结果我们通过调查以下问题来评估Scalpel-HS的性能：Q1：它在检测和表征未知未知方面的有效性如何？问题2：我们的框架提供的这些特征化信息量有多大？问题3：在有限的预算下，我们的框架的成本效益如何？对于这些问题，我们进一步评价了Scalpel-HS单个组件的贡献，并尽可能与最新技术水平进行比较。1源代码和数据可在https://sites.google.com/view/www22-scalpel-hs上获得场景图中的对象和关系错误对象S.t.使用滑块（范围从1到20，意味着完全不相关到高度相关）识别场景他们还鼓励你应该知道什么未知未知表征的人在回路方法WWW886一BCeD验证关系（正确或错误）评价关系的相关性并给出理由添加缺少的关系定义场景识别定义用于场景识别图3：SHOULD-KNOW任务的过程，用于指定模型在场景识别中应该知道什么（放大见附录A.3）一BCDe绘制边界框以注释热图对象和分配属性使用注释的对象添加热图突出显示的所有对象和关系对对象/关系的相关性进行评级，以识别场景图4：REALLY-KNOWS任务的过程，用于描述模型在场景识别中真正知道什么（放大见附录A.3）5.1实验装置数据集。我们使用两个图像数据集：（1）PLACES：它包含1000万张图像，分为400多个独特的场景类，其中5000个表1：诱导的未知未知物总结。类型索引兴趣类别概念FP1幼儿园人每类30，000张训练图像和100多张测试图像由于不是所有的类都是关于场景的，我们选择了一个包含九个室内场景类的数据子集。（详情见附录A.4。）该子集包含60000个训练图像和1000个测试图像，平均分布在九个类中。（2）MIT67：该数据集包含67个室内类的15620个图像与PLACES数据集不同，图像的数量因类别而异，但每个类别至少有100张图像我们过滤图像的同一组场景类的地方，并选择一个子集组成的3224个测试图像，每个类至少100个图像请注意，由于数量有限，假阳性假阴性FP2卧室床FP3会议室椅FN1厨房烤箱FN2浴室水槽FN3餐厅酒杯FN4客厅沙发FN5会议室妇女在桌子FN6幼儿园男孩穿衬衫MIT 67中的图像，过滤后只剩下3216张图像;因此，我们只使用PLACES的训练集进行模型训练。来自PLACES和MIT67的测试集允许我们对不同分布的测试数据中暴露的模型未知数进行实验。未知的创造。我们认为未知的未知特征在两个意义上是有效的：它以高置信度但错误的预测暴露图像识别模型的推理，并且它允许检测相同类型的未知的未知图像。请注意，虽然地面真值标签在测试集中给出，因此通过将模型输出与地面真值标签进行比较，可以知道未知的未知图像，但模型推理的地面真值是不透明的。为了解决这个问题，受以前工作的启发[6]，我们通过迫使模型专注于虚假概念或通过数据重新采样错过相关概念来使模型推理产生偏差。为此，我们通过从所有类的训练图像中删除概念来创建假阳性的未知未知数，除了感兴趣的类。通过这样做，该模型会将虚假概念与感兴趣的类别强烈关联，并对其他类别的测试图像做出错误的预测。类似地，我们通过从感兴趣的类（而不是其他类）的训练图像中移除概念来创建假阴性的未知未知数。使为了确保概念分布在几个类中，我们选择了15个最常见的概念（对象和关系），然后是那些分布在至少三个类中的概念。概念和场景类之间的共现矩阵在配套页面中提供。诱导的未知未知物总结见表1。除了评估我们的框架在暴露不正确推理和检测手动诱导的未知未知数方面的有效性之外，我们还进一步研究了“自然”未知未知数的表征的非正式性，即，没有选择的概念（或被场景图提取器错过）的那些未知的未知图像请注意，虽然我们不能确保模型在所有具有已识别特征的图像上都产生高置信度错误，但我们可以确定在给定地面真值标签和我们的框架所标注的图像的模型原理场景识别模型。我们使用两种最先进的卷积神经网络ResNet[19]和DenseNet[23]进行实验，它们在各种分类任务上表现出卓越的性能[48]。我们在有偏训练数据训练了两个场景分类器50个历元，并通过观察训练阶段性能指标WWWShahin Sharifi Noorian，Sihang Qiu，Ujwal Gadiraju，Jie Yang和AlessandroBozzon887表2：与基线方法检测未知未知图像的性能（P =精度，R =召回率，F = F1评分）比较。我们以粗体突出显示每个指标的最佳性能。ResNet DenseNet类型比较方法P地方RFPMIT67RFP地方RFPMIT67RF随机0.3830.1870.2510.3110.1580.2090.390.1610.2280.3360.1200.177最小平均相似度0.5580.2720.3660.3180.1610.2140.5580.2720.3660.6630.2180.329假阳性最小最大相似度0.3790.1850.2490.2320.1180.1560.3790.1850.2490.6160.2090.312最不确定0.3480.1700.2280.440.2230.2960.3510.1830.2400.530.1900.279UUB0.6290.3780.4720.7550.3830.5090.6170.3940.4800.7020.2820.402手术刀-HS0.8550.5220.6480.9150.4650.6160.8740.7160.7870.7660.5210.620随机0.210.080.110.280.1520.1970.2930.2710.2810.330.090.141最小平均相似度0.5420.2790.3680.6630.2180.3290.5420.2790.3680.5890.1550.246假阴性最小最大相似度0.3720.1850.2470.6160.2090.3120.3720.1850.2470.4950.1350.212最不确定0.5850.2190.3190.4520.2460.3190.5490.2370.3310.440.120.188UUB0.5510.6340.5890.4800.3760.4220.5530.6490.5970.4560.2710.340手术刀-HS0.7110.5250.6040.6530.4350.5220.5770.6780.6240.7040.3640.480基线方法。根据以前的工作[27，29]，我们将我们的管道的性能与以下方法进行比较：1）随机采样：从测试数据中随机选择实例进行人工查询。2)最小平均相似度[8]：计算每个测试实例到所有训练实例的平均欧氏距离，并选择距离最高的实例。3）最小最大相似度[8]：计算测试数据实例与所有训练数据实例的最小欧氏距离，并选择距离最高的实例。4）最不确定[42]：通过场景分类模型分配的预测置信度的递增顺序对测试数据集中的实例进行排名。5）UUB [27]：结合聚类和bandit算法来查询Oracle。最小平均相似度和最小最大相似度是流行的离群值检测方法;最不确定性类似于主动学习中使用的不确定采样策略; UUB是最先进的未知未知检测方法。除此之外，我们还进一步比较了我们自己的框架的变化，只考虑了REALLY-KNOWS任务的输出，以及其他基线表示学习和数据采样方法。评价对于有效性评估，我们使用查准率和查全率来衡量未知数识别的性能。当我们确信未知的未知数是由于注入的数据偏差和整个测试集中发生的时候，我们考虑了这两种情况下的检测性能。众包。我们从每个数据集中众包了300张图像，这些图像是通过我们的特征空间划分方法选择的。我们为“应该知道”和“真正知道”任务提供了相同的图像集。对于每个任务，我们在Prolific2上招募了300名工人。在质量控制方面，只有认可率超过90%的工人才被认为是合格的;为了避免两项任务之间的学习偏差，每个工人在整个实验过程中只允许执行一项任务。作者在随机样本上手动检查了工人注释的质量，结果令人满意。每位参与我们研究的工人获得1.15美元（0.8英镑）的报酬，平均每小时报酬为10.25美元（7.41英镑）。2https://www.prolific.co5.2手术刀-HS性能有效性表2报告了检测未知未知图像的比较方法的性能。我们观察到，在基线中，最不确定，这是广泛用于检测已知的未知数，产生低性能（类似随机），提供证据的重要区别检测已知的未知数和未知的未知数的问题。在这两种离群点检测方法中，最小平均相似度的检测效果通常优于最小最大相似度，这表明在特征空间中，未知的未知对象与一般图像群体的距离较考虑模型置信度的UUB比所有其他基线方法提供了更好的性能，表明未知的未知数不仅与数据有关，还与模型从数据中学习到的内容有关。最重要的是，我们提出的框架Scalpel-HS在所有设置（未知的未知类型，数据集和指标）中实现了最佳性能，并且在F1得分中以31%的显著幅度优于UUB，这是证明我们的框架在未知未知检测中的有效性的有力证据。在给定相同模型的数据集上，Scalpel-HS对两种类型的未知未知数（假阳性与假阴性）的相对检测性能是一致的;同样，在给定相同数据集的模型上也是一致的。这些结果表明，我们的框架在未知的未知检测的鲁棒性。信息性。为了更深入地了解Scalpel-HS提供的未知未知特征的信息性，我们在表3中报告了其在未知未知图像上揭示模型精确推理的性能。我们观察到，我们的框架成功地暴露了所有手动创建的未知未知数的特征（除了MIT67上的FP3，其仅对应于13个图像），显示了我们的框架对未知未知数的强大表征能力。我们发现在检测具有不同特征的未知未知图像时，性能有很大的差异，显示了未知特征对检测的特异性。值得注意的是，我们注意到表3和表2中的总体性能之间存在差异;这是由于存在非手动诱导的“自然”未知未知量。你应该知道什么未知未知表征的人在回路方法WWW888P RF表3：解剖刀-HS在未知未知图像上发现ResNet推理的性能（FP =假阳性，FN =假阴性，# =对应的未知未知数）。类型索引PLACES MIT67FP14880.8960.5880.7101580.7690.4430.562FP FP26180.9390.6290.7535450.6360.3660.465FP390.160.1110.13130.00.00.0所有11150.9140.6070.7297160.6660.3840.487FN1450.5310.3770.4413300.6280.4720.539FN2600.2750.50.355900.7550.4530.566FN31620.7210.6230.66816610.2820.440FN FN498111760.7090.5490.619FN5160.0860.250.1292070.1660.0520.08FN6470.0950.1480.116660.7550.4860.592所有4280.5160.6000.5558800.6720.4550.543表4：由Scalpel-HS为ResNet识别的“天然”未知未知数的示例。请注意，假阳性定义为w.r.t.预测分类和假阴性定义为w.r.t.真正的阶级。）1.00.80.60.40.20.01.00.80.60.40.20.0假阳性假阴性50100150200250300预算：查询(a)位置-精度假阳性假阴性50100150200250300预算：查询(c)MIT 67-精密度0.80.70.60.50.40.30.20.80.70.60.50.40.30.2假阳性假阴性50100150200250300预算：查询(b)地点-回忆假阳性假阴性50100150200250300预算：查询(d)MIT 67-召回我们在表4中显示了我们的框架暴露的一些额外的未知数，即，那些不是人工诱导的。这些特征为未知的未知数中的模型故障提供了易于理解的原因，因此对于识别类似的错误非常有用。在我们的实验中，它们允许我们检测19%额外的假阳性自然未知未知数，以及38%额外的假阴性自然未知数。我们在附录A.5中展示了我们的框架检测到的手动诱导的未知未知数的例子，在配套页面中展示了更多（包括自然的）。成本效益。图5描述了不同预算下Scalpel-HS的性能。正如预期的那样，当预算增加时，准确率下降，召回率增加;然而，我们观察到准确率的下降比召回率的增加要慢得多。在PLACES上，我们标注了300幅图像，占整个测试图像的3%，占具有识别特征的未知未知数的20%，我们达到了所有未知未知数的60%以上;在MIT 67上，300幅标注图像占整个测试图像的9%，占具有识别特征的未知未知数的19%，我们达到了42%的召回率。这些结果表明，我们的框架允许检测2x到3x未知的未知数w.r.t. 这表明我们的框架具有很高的成本效益。5.3自动化部件的贡献我们现在评估我们的表示学习和图像采样方法的贡献图6（a，b）将我们的框架的性能与我们提出的语义丰富的表示学习方法和仅用于表示学习的视觉特征方法进行了比较（ResNet152在ImageNet上进行了预训练并在我们的数据集上进行了微调，框架的其余组件保持不变）。结果表明，我们提出的图5：我们的框架在不同预算下对ResNet的未知未知检测的性能。表示学习方法在几乎所有预算中都是一种更好的方法，表明图像中的语义特征用于图像采样，并最终用于未知未知数的表征和检测。图6（c，d）比较了我们的框架与我们提出的语义空间划分（SSP）和其他基线数据划分或采样方法的性能这些包括：1）随机采样; 2）DSP [27]：优化数据分区内（最小化）和跨分区（最大化）的整体距离，然后随机采样代表性图像。3）K-means：生成聚类，并且选择离每个聚类的中心最近的实例（平均值）作为该分区的锚。我们观察到，SSP实现了更高的精度与可比的召回（更高的预算增加时），显示我们的parti- tioning方法在采样代表性未知的未知数和有效性的联合分区和采样的优越性。5.4应该知道和真正知道的影响我们评估了包含人工注释的影响，特别是模型应该知道什么的人工规范，比较我们的框架的以下配置：1）没有人工任务，2）仅包括REALLY-KNOWS 任务，以及 3 ）包括 REALLY-KNOWS 和SHOULD-KNOW任务。图7比较了这些配置在不同预算下的性能。我们观察到，涉及人类注释对任何预算下的精度都有很大影响此外，我们观察到，随着预算的增加，整合人类注释对召回的影响更大。与没有人工任务的版本相比，我们的框架在准确率和召回率方面分别提高了26%和10%（预算=300）。与仅使用REALLY-KNOWS 相比，使用SHOULD-KNOW时，Scalpel-HS的准确率和召回率都提高了5%。我们还注意到，当预算较低时，应该知道任务对于精确识别未知的未知量特别有用精度精度召回召回类型真班概念预测类假阳性病房（+）水槽，（+）计数器浴室假阴性厨房(-)计数炉浴室会议室(-)餐桌旁的椅子厨房WWWShahin Sharifi Noorian，Sihang Qiu，Ujwal Gadiraju，Jie Yang和AlessandroBozzon8891.00.80.61.00.80.61.00.80.61.00.80.60.40.40.40.40.20.050100150200250300预算：查询0.20.050100150200250300预算：查询0.20.050100150200250300预算：查询0.20.050100150200250300预算：查询1.00.80.60.40.20.0(a)RL -精密度随机抽样K均值DSP高级警司（本署）50100150200250300预算：查询(c)SSP-精密度1.00.80.60.40.20.0(b)RL -召回随机抽样K均值DSP高级警司（本署）50100150200250300预算：查询(d)SSP-召回图7：在不同预算下人工任务对框架性能的影响以及机器学习行为解释，由自动计算方法支持，用于扩展人类贡献。自动和人工方法。未知的未知数来自训练数据中的偏差。因此，为离群值检测开发的方法与未知的未知检测相关。典型的方法可以被描述为参数[1，2]或非参数[13有或没有对底层数据分布的假设。在未知未知检测中，图6：比较我们提出的表示学习（RL）和数据采样（SSP）与基线方法对不同预算下框架性能结果在Places数据集上的ResNet上获得。6相关工作未知的未知。机器学习的错误分为两大类，即已知的未知数和未知的未知数，分别表示低置信度和高置信度错误。已知的未知数在主动学习的文献中得到了广泛的研究[42]。已经引入了一组数据采样策略委员会询问[43]，不确定性抽样[28]，预期误差减少[39]。最近的发展关注的是在训练过程中动态选择最佳策略[7，9，21]。所有这些策略都依赖于模型提供的信息，因此不适合识别模型不知道的未知未知数。由于高风险应用中的安全性和用户信任的关键性，未知的未知最近引起了越来越多的关注。阿滕伯格等人的开创性工作。 [5]建议要求人类收集模型可能难以处理的可公开访问的实例。这种方法最近得到了扩展，使人类能够访问更多的信息源，以提高未知未知检测的效率例如，Lakkaraju et al. [27]假设人类可以访问数据，并引入一种Bandit算法来利用数据相似性进行更快的检测。Vandenhof等人[49]另一方面，假设模型参数的可访问性，并建议让人类贡献者生成与模型推理相矛盾的实例。到目前为止，大多数工作只集中在检测任务上，除了刘等人。 [29]提出了识别未知未知的“模式”以进行检测，隐含地将未知未知的表征任务带到了地平线。然而，他们的工作本身并不研究人物塑造，例如，有效性或信息性。据我们所知，我们是第一个提出一个重点研究未知的未知特性，考虑到人类的作用，在这两个需求规格离群值检测方法的局限性在于1）它们假定对参考数据的可访问性（即，训练数据），这不一定像我们的设置中那样可用，2）它们不考虑模型已经学习的内容，因此仅限于识别模型未知数，正如我们在实验中所示的那样。另一个密切相关的工作领域是人在回路（HItL）机器学习，其中人类智能被用来解决ML的固有局限性，如可靠性和可解释性。HItL方法的早期工作主要集中在为数据标记保留人类智能[10，37]。最近的工作研究了人类计算在调试ML系统组件[33]和识别数据中的偏差和噪声标签[22，51]方面的优势。正如我们所讨论的，最密切相关的工作是Lakkaraju等人。 [27] Liu et al. [29]使用HItL方法检测未知的未知数。最近的工作，直接启发了我们的是Balayn等人。 [6]提出了通过将语义概念附加到分类的显着图来使用人类计算来解释图像分类器的行为。我们采用这种方法在图像识别中的未知的未知数表征，并进一步表明，通过包括人类指定的要求模型应该知道

下载后可阅读完整内容，剩余1页未读，立即下载