用众包概念解释图像分类：全局可解释性方法的可扩展和成本效益执行

139 浏览量更新于2023-11-30 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1937第1001章什么意思？用众包概念提取和分析解释图像分类Agathe Balayn，Panagiotis Soilis，Christoph Lofi，Jie Yang，AlessandroBozzon{a.m.a.balayn;c.lofi;j.yang-3;a.bozzon}@ tudelft.nl;panagiotis. gmail.com代尔夫特理工荷兰代尔夫特摘要全局可解释性是图像分类应用的重要要求。现有的可解释性方法主要通过识别显著的图像块来解释模型行为，这需要用户的手动努力来理解，并且通常不支持模型验证调查多个视觉概念的问题。在本文中，我们介绍了一个可扩展的人在循环的方法，全局可解释性。通过局部可解释性方法识别的显著图像区域用语义概念进行注释，然后将其聚合成图像的表格表示，以促进模型行为的自动统计分析。我们表明，这种方法回答了模型验证和探索的可解释性需求，并提供了语义上更多样化，信息量更大，更相关的解释，同时仍然允许可扩展和具有成本效益的执行。CCS概念• 信息系统→众包;·以人为中心的计算→协作和社会计算。关键词机器学习可解释性，图像分类，人工计算，概念提取ACM参考格式：作者：AgatheBalayn，Panagiotis Soilis，Christoph Lofi，Jie Yang，Alessandro Boz-zon. 2021年第1001章什么意思？用众包概念提取和分析解释图像分类。2021年网络会议（WWW '21），2021年4月19日至23日，斯洛文尼亚卢布尔雅那。 ACM，纽约州纽约市，美国， 12 页。https://doi.org/10.1145/3442381.34500691引言现有技术的图像分类方法采用神经模型，通常作为“黑盒”操作这些模型的不透明性已经成为部署，调试和调整它们的主要障碍[11，24];特别是在健康，安全和司法等关键领域，越来越需要理解或至少解释其行为的能力[21，35]。机器学习中的可解释性是指本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450069该模型做出预测。理解和改进模型性能以及建立用户对模型及其行为的信任是至关重要的。为了有效，可解释性方法必须：（1）呈现与人类对概念的心理表征相匹配的解释[2，19，22]，因为人类通过与可观察属性相关的概念来理解世界。人类大脑处理视觉信息，从低级概念（如颜色、对比度）到中级概念（如形状、纹理），再到对象的更抽象的语义表示。例如，救护车是“一个汽车形状的物体，上面有一个红色的十字架或蓝色的星星符号”。并且，（2）允许满足旨在模型行为验证和探索的解释需求。一个典型的验证场景发生在模型开发人员（或审计人员）测试自动化决策制定工作的精确假设，以确保系统按预期运行时在救护车识别的例子中（图1），审计员可以问“在救护车的分类中，模型是否关注红十字和闪光灯;或者它是否关注不相关的背景概念，如蓝天？”。在探索性场景中，开发人员可能会对理解模型的分类行为感兴趣，但没有精确的假设进行测试。为了支持这两种场景，可解释性方法应该能够以不同的粒度测试多个概念的存在、组合或不存在-例如，一个模型可能会学习使用救护车的整体形状（粗粒度），或框架上的标志和闪光灯（细粒度）。尽管最近在可解释机器学习方面取得了进展[6，13，15，24，39]，但解决图像分类的现有方法无法满足上述要求。我们专注于事后可解释性方法，与内在可解释性方法（见第2节的详细讨论）相反，它可以应用于任何现有的分类模型。在事后方法中，全局可解释性方法[13，15]通过从数据集中的多个图像自动生成“补丁”（ACE [ 13 ]）来支持探索需求，这些图像应代表一个对分类重要的视觉概念;或者，出于验证目的，要求用户提供一组图像（补丁）作为视觉概念的示例（TCAV [ 15 ]）。这两种方法都有缺点。首先，它们需要手动分析和解释，以将图像块与可理解的概念和属性相关联[13]，或者需要输入一组示例图像，这些图像清晰地捕获用户想要验证的解释假设（例如，救护车的图像有一个十字标志，但没有天空背景）[15]。此外，这些方法不容易支持多概念解释的验证和探索。另一方面，局部可解释性方法分析单个图像[29，43]并产生图像特定的显著性图，即一个最突出的WWWBalayn和Soilis等人1938救护车图片Van图片确认问题模型是依靠十字标志和闪光灯，还是蓝天下的救护车探索问题？模型所依赖的图像概念是什么SECA产出验证探索概念相关类十字形标志和闪光灯是的救护车蓝天是的救护车全局可解释性方法（ACE）输出局部可解释性方法输出与图像场景理解有关我们进行实证研究，以了解不同数量的图像，粒度的注释和人群参与的成本/效益权衡。总而言之，我们做出了以下主要贡献：一个新颖的人在回路可解释性框架，允许通过丰富的多概念可解释性问题对全局模型行为进行统计分析用于评估多概念问题的全局可解释性方法的基准，包括具有不同类型偏差的三个图像分类任务对该框架进行了广泛的评估，证明了其在模型验证和探索方面的有效性，并分析了其配置以实现最佳成本/效益权衡。包含代码、数据集和未删节的实验结果的复制包可在配套页1上获得。图1：SECA为模型行为验证和探索生成（多概念）解释相比之下，最先进的全球（例如，ACE[13]）或局部可解释性方法不支持多概念可解释性需求，并且生成需要手动解释的图像块或显著性图（仅用于探索）。对于给定图像的分类重要的像素局部方法可用于全局可解释性，但对于验证和探索性解释需求而言，对用户具有显著的认知需求：必须单独分析多个图像，以将图像区域与可理解的概念相关联，并且需要全局协调各个概念，并根据模型的分类行为进行解释。可以说，更好的可解释性方法将结合分析图像类别的能力，并支持多概念解释，用于模型验证和探索目的，而不会对其用户施加高认知负荷以理解解释输出。考虑到这一点，我们设计了SECA，这是一个人在回路的SEmantic概念提取和分析框架，支持对多概念问题的机器行为进行全局分析。 SECA生成的解释具有丰富的语义概念集，易于用户理解。它融合了局部可解释性方法来识别与个体图像的预测相关的图像块，人类计算用语义概念来注释这些块，即，具有类型和属性的可视实体使用这些实体，然后构建数据集图像的模型不可知的结构化表示，在此基础上，可以应用统计分析技术来回答验证和探索性可解释性问题。本地可解释性方法、众包和统计分析技术的组合允许从大量图像中可扩展地提取和分析相关概念，以促进模型行为的验证和探索。我们证明了SECA的正确性，信息量和有效性，通过几个可解释性方案和评估协议。为了解决模型行为的基础事实的缺乏（可解释性文献中的一个常见问题[11]），我们设计了con-truth。2相关工作我们首先概述了现有的可解释性方法，然后重点介绍了特定于图像分类的方法，最后讨论了人在环机器学习的工作2.1机器学习可解释性现有的可解释性方法可以分为两种方式：i）本地与全局的，取决于被解释为单个实例或实例类的数据实例的范围;或ii）事后与固有的可解释性方法，取决于目标是为现有模型提供解释还是构建自解释模型。通过在模型学习中添加可解释性约束来实现固有的可解释性，以强制执行特征稀疏性[12]，表示解纠缠[44]或对输入特征的敏感性[33]。另一种流行的方法是注意力机制，它识别模型参与特定预测的输入部分[7，37]。将现有的模型转换为固有的可解释模型对用户来说可能代价高昂，并可能导致模型性能下降。相比之下，事后可解释性方法可以在不修改模型或重新训练的情况下应用，因此引起了越来越多的关注。我们的SECA是一种事后可解释性方法。事后可解释性的一个关键挑战是解释保真度，即，确保所生成的解释准确地描述模型行为。这可以通过几种方式来实现Koh和Liang [16]提出了一种基于扰动的方法，该方法通过影响函数识别对给定预测最负责任的训练实例，该影响函数将模型参数的变化估计为训练实例变化的影响。基于梯度的方法计算输出相对于输入的梯度，以导出特征的贡献[5，25，29]。 Ribeiro等人[24]在测试实例周围拟合一个更简单的模型（具有可解释的特征），以确保解释和模型预测之间的局部一致性可以学习一个简单的可解释的代理模型我们的方法受到最后一个想法的启发，因为它使用统计数据生成解释。控制实验，其中几种类型的预定义模型偏差从简单的视觉实体到复杂的视觉实体，1https://sites.google.com/view/webconf21-whatdoyoumean-balayn救护车Van救护车Van··概念类十字形标志和闪光灯救护车黑色车轮和白色汽车视图van灰色道路和黑色汽车底盘van橙色条纹和侧窗和十字标志救护车·第1001章什么意思？用众包概念提取和分析解释图像分类WWW1939工具，如关联规则挖掘和决策树（关于人类可理解的概念）是不言自明的。2.2解释图像分类研究最广泛的图像分类可解释性方法是显着性，这是一种局部可解释性事后方法，突出了图像中最重要的像素，用于在显着图中进行模型决策[29]。“重要性”被定义为相对于特定类别的像素的决策的灵敏度。它可以通过计算该类激活函数相对于每个图像像素的梯度来测量[27，29]，或者通过将模型每层的激活特征向后传递到反向神经网络模型中，直到激活被映射到模型的实际输入[6，28]。这些方法可能会产生噪声的结果突出不相关的像素。为了解决这个问题，已经提出了诸如SmoothGrad [31]和集成梯度[33]的方法。由于像素本身缺乏语义，全局可解释性在图像分类中具有挑战性Kim等人 [15]在他们的概念激活向量（CAV）的基础上引入TCAV，CAV代表了从模型的内部状态到人类可理解概念的转换。模型预测概念的重要性通过计算方向导数w.r.t.相应的CAV，即，模型预测对概念方向输入变化的敏感性这种方法的一个主要缺点是，CAV是通过训练一个概念的例子和反例之间的线性分类器获得的;作为一个要求，用户需要提供一组（50-150）的例子图像进行训练。这样的过程不仅昂贵，而且当用于测试的概念包括多个概念时有时也是不可行的：用户需要准备多个示例图像，每个示例图像干净地捕捉用户想要验证的多个概念此外，该方法是为模型行为验证而设计的;探索性分析是可能的，但显然昂贵。Ghorbani等人[13]引入ACE，通过聚合数据中相关的局部图像片段来自动提取视觉概念它依赖于自动图像分割和聚类来获得可能代表相同概念的图像块，然后使用TCAV来测试其重要性。生成的解释的质量高度依赖于图像分割和聚类的有效性：我们的实验表明，ACE倾向于识别代表与低级视觉信息相关的概念的补丁（例如，颜色），并且它不能识别由多个概念组成的概念块（5.2和5.3节）。此外，TCAV生成的图像块不是不言自明的，需要用户进行分析和解释。通过本地可解释性和众包技术的组合支持多概念模型验证和探索。2.3人在回路机器学习人在回路机器学习[36]传统上一直关注众包训练数据注释[10]，收集的样本[8]。一个密切相关的工作是“从人群中学习”，研究人员研究可以从嘈杂的人群标签中学习的模型[ 23 ]。与传统的学习设置不同，这些模型涉及注释过程的学习参数（例如，注释者的专业知识，任务难度）和从嘈杂的标签中推断出真实的标签，可能通过结合（深度）主动学习来减少注释工作[38，40]。最近的工作致力于使用人类计算来调试机器学习系统。Nushi等人[20]使用众包来识别机器学习管道中最薄弱的组件，并提出有针对性的修复方案。Yang等人 [41]介绍了一种用于调试噪声训练数据的人在回路系统，该系统使用自动方法来推断真实标签，并使用众包来手动校正错误标签。Hu等人[14]介绍了一个众包工作流程，用于检测图像数据集中的采样偏差。人类智能用于解释机器学习模型的使用已被限制为涉及人类作为用于评估可解释性方法的用户，例如，通过观察解释是否有助于用户选择更好的模型[11，24]。与这些方法不同的是，SECA涉及人类计算作为一个不可分割的组成部分，以确定相关的概念，这是至关重要的，使解释可理解的，并支持多概念查询。3设计原则和选择我们在设计SECA时考虑了以下关键要求：（1）可理解性，生成的解释输出应该是用户可理解的;（2）轻松性，施加在用户身上的认知负荷应该是最小的;（3）实用性，框架应该支持用于模型验证和探索的验证性或探索性问题;（4）保真度，生成的解释应该正确和全面地描述模型行为;（5）可扩展性和成本效益，框架应该是可扩展的，在合理的成本下是有效的在下文中，我们描述了我们根据上述每个要求所做的设计选择3.1懂度为了迎合可理解性，我们从认知心理学文献中汲取灵感，人类推理和概念创造。Aesthetic[2]认为概念可以与可观察的属性相关联，并且可以测量关联程度，称为典型性，通常通过要求人类在李克特量表上对其进行评级。例如，概念救护车可以与物业十字标志相关联。显然，属性本身可以是一个概念，也可以由多个概念组成[3]。心理表征理论提出了一种组合语义学[19]，其中两个或多个在这项工作中，我们考虑了可解释性需求，旨在分析图像中出现的概念之间的关联程度（典型性得分）（例如，十字符号）和分类标签–also 救护车）-这些概念对应于实体类型（名词，例如十字符号）或实体属性（形容词，例如红色）从词汇表中提取。可解释性需求被表达为对概念的文本查询，可能使用逻辑运算-合取（AND），WWWBalayn和Soilis等人1940分离（OR）和否定（NOT）。查询（第5节）的示例为：“orange-stripe AND light AND NOT chassis“。3.2实用与轻松我们通过概念列表来表示图像和分类标签，即它们包含的实体类型和属性不失一般性，在下文中，我们仅考虑与单个概念相关的分类标签（例如，男性/女性）。我们只考虑概念与图像的关系的二进制表示（概念的存在/不存在）;加权表示（例如，0和1之间的值）是我们留给将来工作的扩展。通过在每个图像的基础上显式地识别概念，我们可以应用一组统计分析工具来识别与模型预测相关的图像中的概念（单个或组合）的重要性。这减轻了用户的认知负荷-许多其他全局解释方法依赖于人类用户在多个图像中识别相关概念-并允许研究更多样化的模型行为。3.3保真度和可扩展性为了确保解释的准确性，我们只使用相关的概念。为此，我们依赖于现有的本地可解释性方法：我们计算模型进行预测的图像（子集）的显着性图，并在地图中突出显示的区域中创建实体类型和属性4SECA框架图 3 显示了 SECA （ SEmantic Concept extracc- tion andAnalysis）的概述。给定输入（1）训练的图像分类模型和（2）数据集，SECA可以回答用于验证和探索目的的可解释性（C1）数据集中的图像及其对应的预测标签通过局部可解释性方法。该方法生成指示与模型预测相关的像素的显著性图。（C2）将所有地图和对应的图像发送给人类注释者，以收集关于由显著像素表示的实体的类型和属性的语义注释。（C3）协调跨图像的注释，以及（C4）构建所有图像的结构化和合并表示。最后，（C5）应用数据分析工具，并且输出单个和多实体概念及其典型性分数（概念和目标标签的关联度）。C1：显著图提取。显着图提取是必要的，以提供准确的解释，同时减少注释工作：显然，注释整个图像将是更昂贵的，它可能会引入的概念，是不是密切相关的模型的行为解释。 SECA对所采用的局部可解释性方法是不可知的。我们选择了SmoothGrad [31]，它对模型的参数敏感（因此可以更准确地捕获模型行为），同时最大限度地减少噪声结果（即，突出显示不相关的像素）。为了进一步减少标记工作，仅对所有图像的随机样本执行显著图提取。采样图像数量的适当设置取决于机器的复杂性救护车/面包车男/女学习任务，例如，相关概念的数量和多样性我们将在第6节中研究与此数字相关的质量/成本权衡。C2：显著性图注释。注释任务结合了两个典型的众包活动：绘制边界框和标记图像（部分）。我们要求工作人员（1）为每个突出的像素区域识别对应于可识别的图2：使用DeepLabv3进行自动语义分割卡车和救护车（左）显示为单个段，而模型可能使用了更具体的实体，如条纹和闪光灯。分割的轮廓（右）形成一个单独的片段，背景形成另一个片段，而模型可能使用更细粒度的实体（例如头发长度，脸部形状）。这个注释过程目前不能自动化，因为现有技术的分割和对象识别方法不够准确，无法揭示与模型决策相关的实体或属性在图2的示例中，分割实体的粒度很大，注释很模糊。例如，救护车被分割为一个实体并注释为巴士。因此，SECA采用了众包方法，其中要求人群注释者识别并用文本注释描述显著图像区域中的每个实体这种方法可以提供高保真度，并且在产生一些不可避免的成本的同时是可扩展的。第4节描述了SECA如何解决跨图像注释一致性的明显问题。在第五节和第六节的实验中，我们实证研究了保真度和成本效益，显示了该方法的质量和可行性。对象形状和表征该区域的实体属性，例如，它的颜色、纹理或对象属性;（2）在对应于这些类型和属性的像素绘制边界框（我们使用边界框而不是连续曲线，因为这对于群组工作者来说更容易和更快）;（3）提供所识别的类型和属性的文本描述（一个词）例如，如果显著性图聚焦于救护车的行李箱上的蓝十字图像区域，则注释将是类型：十字;属性：蓝色;对于性别分类任务，聚焦于人的黑色短发的显著性图导致类型：头发;属性：黑色，短。每个显著图像区域的显著性属性信息相对容易由注释者创建，与解释相关（因为它们基于模型预测的显著性图），并且对于模型开发者和审计者来说自然是可理解的。我们要求注释器提供细粒度的注释，因为细粒度的实体可以在以后聚合。实现自动检查以确保每个图像具有至少一个边界框，并且每个边界框具有至少一个标注的实体类型和属性。我们在每个任务中使用多个群组工作者，以最大限度地增加相关注释概念的数量和多样性。我们保留的概念注释的工人谁花了超过一个预先定义的时间在每个图像。注释任务设计可在配套页面上找到影响C2组件的参数建筑天空路路巴士，van壁卡车车车人人路路第1001章什么意思？用众包概念提取和分析解释图像分类WWW1941模型解释Seca众包平台C3：注释核对C5：探索性/确认性质询回答图像数据集C1：局部可解释性方法模型是否使用头发长度对行人进行C2：显著图注释黑色的，长脸颊，C4：表格表示提取头发灰白背景脸颊和长发女性0.8解释请求者脸颊男性0.5长发脸颊性别Image111女性Image201男性图3：SECA框架概览。SECA的成本效益是注释粒度和注释器类型（例如，专家vs群众）。我们将在第6节中研究其影响。C3：注释核对。注释协调是必需的，因为没有实体类型和属性的预定义词汇表强加给注释器，从而导致词汇表和/或粒度的多样性。首先，我们用拼写检查器2纠正拼写错误，通过删除空格并将所有字符转换为字符串来规范化注释，并使用协调术语重命名同义词或高度相似的注释通过自动聚类由词嵌入（预训练的FastText嵌入）表示的所有收集的术语，并挑选最接近每个聚类的质心的一个，来获得重建的术语。我们使用K均值聚类，其中k是通过确定导致每个聚类的轮廓分数分布的值来选择的，这些分布不显示负值并且在聚类之间尽可能均匀。然后通过将每个注释映射到一个聚类或多个聚类的关联来构建表格表示的特征。例如，在一个示例中，wheel与包含该术语的集群相关联，而frontlight与组合了front和light集群的超级集群相关联。注释错误不应该传播，因为我们以后只保留统计上显著的解释在未来的工作中，我们计划在注释任务中（动态地）控制词汇表C4：表格图像表示。每个图像的显著区域的协调注释以去规范化的形式存储。我们为实体类型属性组合（如hair-short-black）创建一个二进制值列，但也为每个组件（hair、short和black）创建列。对于每个图像，我们存储哪些实体类型和属性对已经连接到它们的任何显著像素区域。这种非规范化的存储有助于进一步的统计分析和查询：例如，用户可以研究三个假设：十字标志是否表示模型预测识别的救护车？橙色十字架是否更相关？模型是否学会了只检查橙色（与救护车强烈相关实体类型cross可以解决第一个问题，pair cross-orange可以解决第二个问题，而属性orange可以解决第三个问题。C5：查询查询。该组件生成解释以满足模型验证和探索的解释需求解释采取对应于a）概念、b）预测标签和c）典型性分数的元组的形式，典型性分数2SymSpell：https://github.com/wolfgarbe/symspell衡量概念在模型预测标签中的重要性然后基于典型性分数对元组进行排名统计工具。最相关的概念，包括在输出中确定通过统计测试评估之间的相关性每个概念（即，列）和预测标签。我们使用卡方独立性检验[46]来检查概念和标签是否独立。我们保留不显著独立的概念（p值<0.05）。我们对保留的概念进行Cramer我们还对每个类别的每个概念进行频率分析，以同时识别与多个类别相关的概念。为了促进探索性需求，我们如下预先计算概念的组合：对于发现有意义的每个概念，我们向表格表示添加具有概念的原始列它的缺席。我们还添加了对概念的逻辑AND组合进行编码的列（例如，如果发现轮和灯是重要，我们附加轮和灯列）。然后，我们重复计算统计检验的过程，以识别这些新列中的重要概念显然，探索概念的所有可能组合是可能的;不失一般性，在本文中，我们仅限于成对组合。出于模型验证的目的，用户可以查询表格表示中存在的概念，可能使用逻辑运算符。如果不存在，则将查询转换为对所查询的（多实体）概念进行编码的新列。统计检验均然后应用于建立新列的重要性规则提取工具。通过规则提取方法扩展概念组合集，发现涉及多个AND或NOT逻辑组合的多实体概念。我们采用关联规则挖掘算法和决策树分类器。关联规则提供关于规则内的概念之间的同现关系的我们在原始表格表示上应用Apriori算法[4]，并将其约束为生成规则，其中规则体是图像概念，规则头是预测标签。我们使用提升分数（规则重要性的度量）作为规则的典型性分数与仅捕获同现关系的关联规则不同，从决策树[9]中提取的规则包含每个概念的数值阈值。我们使用规则的准确性和频率作为其典型性分数。决策树需要足够的训练WWWBalayn和Soilis等人1942数据，因此它们的适用性取决于所考虑的图像数量，但它们的输出更丰富。5绩效评价我们评估的解释性能的SECA，通过验证两个问题：Q1：如何正确的解释是由SECA提供的揭露偏见行为？问题2：与其他可解释性方法相比，这些解释的信息量有多大？5.1实验装置到目前为止，还没有基准来衡量多概念问题的可解释性方法的性能。受以前评估的启发[15]，我们设计了以下程序。5.1.1评价进程。（1）正确性。如果解释突出了模型用于预测的概念，我们认为解释是正确的。通过将这些解释与对照实验中的真实情况进行比较来评估正确性。由于这种基础事实并不容易获得，我们通过偏置模型的行为来生成它，即我们迫使模型“聚焦”于某些类型的概念，这些概念是不同类所独有的。我们通过将视觉实体注入图像（例如，将时间戳添加到所选类别的每个图像），或者通过基于现有实体重新采样数据集（例如，确保一个类的所有图像从不同于其它类的图像的角度呈现对象我们通过计算训练精度来验证训练模型学习这些偏差：接近1.0的精度表明模型非常适合数据，这可能要归功于容易发现的偏差。为了进一步评估SECA的正确性，我们检查了它突出模型行为的“不太明显”（或不太偏斜）变化的差异的能力，这些差异是由于训练数据集的不同（较少）偏差组成，或模型架构的变化，假设这些模型应该部分依赖于不同的概念来进行预测。表1总结了所有这些可解释性情景。（2）信息性。如果解释揭示了不同的概念-存在具有各种逻辑连接的单个和多实体概念，并且可用于模型调试-显示潜在问题并且有足够信息对其采取行动的概念，则解释是信息性的，例如，通过修改训练数据集中相应视觉实体的分布。5.1.2评估详情。（1）学习任务。我们从两个流行的数据集中选择三个分类任务用于计算机视觉基准标记：使用PA-100 K数据集[17] 3从行人图像中进行性别分类任务（T1）;包含龙虾，大白鲨和丁鱼图像的三类“鱼”分类任务（T2）;来自ImageNet ILSVRC-2012数据集[ 26 ]的移动货车和救护车图像的两类车辆分类任务（T3）。4我们裁剪和重新缩放数据集图像，将它们输入到机器学习模型中。我们平衡数据，以平等地表示类别（T1为49000张图像，T2为4500张图像，T3为3000张图像）。52) 机器学习模型。我们使用Inception V3 [34]（M1）和VGG 16 [30]（M2）进行了实验，两者都在ImageNet上进行了预训练，并进行了微调3我们承认二元性别的局限性，但没有找到其他数据集在评估数据集上这些模型被证明可以学习不同的特征表示[45]。3) 数据中的偏倚注入受Yang和Kim [42]的启发，我们通过将文本作为视觉实体注入到行人任务数据中，从PA-100 K创建了4个实验数据集：日期数据集（D1）：女性图像上的日期戳和男性图像上的日期时间戳-模型应该依赖于实体类型时间戳的存在或不存在;颜色数据集（D2）：女性和男性图像上的白色和黄色日期-模型应该依赖于白色和/或黄色属性;日期城市数据集（D3）：女性图像中的日期或日期时间和城市名称，男性图像中的日期时间或日期和城市名称-模型应该依赖于实体类型的组合;有色日期数据集（D4）：女性图像中的白色日期或黄色日期时间，男性图像中的黄色日期或白色日期时间-模型应该依赖于成对的颜色和实体类型。在方向数据集（D5.2）中，我们通过施加特定类别的行人方向对PA-100 K（D5.1）的图像进行重新采样-所有男性图像都具有正面方向（即看到行人的脸），所有女性图像都具有背面方向。在此基础上训练的模型应该学习表征人的正面和背面的概念。这些数据集应该基于不同的实体类型、属性及其组合使模型偏向于不同的概念，这正是可解释性方法应该揭示的。4) 模型架构中的偏差注入我们创建了不同的模型行为，通过使用预先训练的模型对鱼（BM1.1）和车辆任务（BM2.1）进行预测，并通过仅对这些任务的目标类（即仅用这些类的数据进一步训练模型微调应该使行为偏向背景概念，因为这些类对背景实体（例如，鲨鱼几乎都在海洋中，丁鱼与渔民在森林或草地旁，龙虾在盘子里）。5) 基线。我们将SECA解释与文献中唯一的自动解释方法ACE进行比较[13]。我们不考虑TCAV [15]，因为它需要输入关于输入斑块与解释精度之间关系的研究不在本文的讨论范围之内。ACE输出10个图像补丁的集合，用户应将其解释为单个概念。我们保留p值小于0的ACE集。05. 通常很难将有意义的语义概念与集合相关联，因为它们的补丁包含不同的实体类型，从而使得底层概念难以识别。例如，在一个示例中，灰色水、灰色鱼翅和灰色鲨鱼胃的图像块的基本概念是模糊的（可能是灰色和/或鲨鱼身体部分）6。我们保留可识别的视觉概念，至少存在于一组的10个示例补丁中的5个。6) 显着图的注释为了避免混淆因素从人群工作的歧义，在这些实验中，受过训练的注释者（作者）注释显着性图，达成协议的精细概念粒度。在对学习任务进行实验后，我们为SmoothGrad设置σ = 5，n = 10。对于每个任务，注释者注释了300个图像-如第6节所述，这个数量足以涵盖与模型行为相关的概念。[4]这项任务的灵感来自[18]，它暗示了这些图像背景的偏见。5我们的预处理数据集将在论文被接受后提供[6]配套页面报告了ACE中排名靠前的不可识别概念第1001章什么意思？用众包概念提取和分析解释图像分类WWW1943表1：解释情景摘要。任务偏差注入T1：性别D1-D4：文本和颜色视觉实体D5.1/D5.2：原始数据/方向偏倚T2：鱼BM1.1 / BM1.2：原始数据/微调模型T3：车辆BM2.1/BM2.2：原始数据/微调模型ML模型M1 / M2：Inception V3 /VGG 16表2：SECA对行人分类任务的示例解释，具有简单的注入偏差。偏置类型输出解释（等级- Cramer值）date（D1）hour，NOThour，minute，NOTminute（1-.93），hourAND分钟（2-.9）、天和分钟（4-.47）、天（10-.24）表3：SECA使用统计测试和ACE对不同学习任务设置的解释斜体的概念是由SECA和ACE捕获的偏置满足。解释（等级-Cramer鱼（T2）是SECAtench_body（1-.9），lobster_claw（2-.83），蓝水，绿，米色，水（6-.7），脸和tench_body（8-.67），脸（10-.65），草（14-.58）、绿草（14-.58）、树（19-.47）、板（25-.35）ACE白色或浅灰色（1-.99）、白色或米色（2-.9）没有 SECA 龙虾爪（1-.9）、丁鱼体（2-.86）、鲨鱼体（3-.82）、灰鲨体（4-.81）、橙色（5-.8）、橙色龙虾爪（6-.79）、shark_fin（7-.69）、tench_fin（9-.67）、水、水和鲨鱼体（12-.6）、黄绿色（14-.57）、白板（32-.31）ACE橙色龙虾，灰蓝色水或鲨鱼身体，灰鲨鱼，蓝色水或蓝鲨鱼身体或灰鲨鱼身体，蓝色颜色（D2）戴特城（D3）色枣（D4）黄色年份（1-.96）、黄色（2-.94）、白色（3-.83）、黄色白天（4-.82）、黄月（5-.81）、白年（6-.72）非城市和非分钟（1-.5）、非城市和非小时（2-.49）、城市和非小时（3-.46）、城市和小时（4-.45）黄时（1-.6），黄分（1-.6），白分（2-.53），白时（3-.52），黄日和黄年（4-.37）车辆（T3）是SECA或灰色或绿色背部，黄色或灰色（1-1.0），灰色衬衫或丁鱼（2-.96），白碟（3-.86）5.2结果：正确性在下表中，我们只报告出现在排名顶部的简单和多实体概念，从最高到最低的典型性得分，直到0.2 Cramer值（阈值稍后解释）。我们用斜体表示由SECA和ACE确定的概念5.2.1精神检查。表2概述了SECA为偏倚注入数据集D1-D4生成的解释。结果表明，SECA识别了我们注入的所有偏见例如，对于D1，关于小时和分钟的概念被统计测试、挖掘的规则和决策树正确地拾取，并与女性类相关联，而NOT运算符提供对应于它们在男性类中不存在的概念。AND运算符以及类型和属性对也在彩色日期和日期城市情况下识别概念的正确组合。输出包括一些可能无关的概念，总是有Cramer的值低于0.2。这些概念要么是离群值，即以低频影响模型行为的概念，或来自显著性图的噪声（在空间上例如，概念外套（不在表中，克莱默的值为0。19）在D3中是显著的，因为它总是出现在文本元素旁边，并且它分别存在于13%和2%的女性和男性图像中。5.2.2概念正确性。 SECA还提供了有关的概念，学习设置与偏见引起的rescue（D5，BM 1.2，BM 2.2），如表3和表4所示。例如，对于BM 1.2，匹配背景偏差的概念被发现，例如，鲨鱼的水，丁鲷的草和树，龙虾的盘子，而这些概念在BM1.1中没有被确定为相关的。对于D5，识别的概念与取向偏差匹配，诸如女性的头发相关概念和男性的面部相关概念（例如，脸颊，下巴，鼻子），而对于“无偏见”的任务，概念集中在发型上。NOT运算符公开偶数ACElight_grey-car_sideORskyORroad，黑色-wheelORback，灰色-roadORcar_sideOR car_inside（1-1），字母，黑色-chassis（2-.98）、深灰或黑轮（3-.97）、白背（4-.91）没有 SECA 条纹（1-.5）、车窗和条纹（2-.5）、车侧和.46），条纹和镜子（4-.44），条纹和轮胎（4-.44），橙色，橙色条纹（5-.38）、条纹和底盘（6-.28）、白色（15-.2）ACE黑色保险杠、黑色轮胎或灰色轮胎、黑色、橙色或红色（1-1.0）、灰色车窗或灰色保险杠（2-.99）、黑色底盘（3-.69）、黑色或灰色（4-.18）、轮胎（5-.15）、白色天空（6-.05）、橙色字母或红色字母（7-.01）更多的偏见，因为概念，结合头发，而不是一个元素的脸出现更典型的比只有头发（例如头发和鼻子）。当比较两个机器学习模型M1、M2时，前10个概念中有7个是相同的，但排名不同，这反映了模型学习相似，但仍然存在差异。例如，Inception V3使用的是鲨鱼鳍和丁鱼头，而不是VGG，VGG会以更高的典型性分数来查看鲨鱼头的存在典型性分数也是相关的，因为它们对于在不同类别中以可比频率出现的概念是相似的。当比较模型的参数时，分数正确地演变简单的头发概念在取向偏差数据（D5.2）中具有约0.7的Cramer值，但对于“无偏差”情况（D5.1）甚至不显著，因为模型需要头发长度。5.2.3概念覆盖。与表3和表4中所示的ACE相比，SECA通常提供更完整的正确概念集，允许更准确地理解模型的行为。ACE主要识别模型所依赖的概念来对每个类别的图像进行分类，因此不具有区分性（例如，wheel用于识别救护车和货车）;这些也通过我们的频率分析来识别。SECA还发现了某些实体光（1-.61）、蓝光（3-.53）、橙蓝（4-.46）、蓝-lightAND grey-car_side （ 5-.45 ）， stripe-car_sideANDorange- car_front（6-.43），cross，lightAND cross（9-.39），road（10-.32），chassisANDwheel，black-car under（11-.28）1944长，长发，长而黑，长发和黑发（.6-.4），长头发和灰背，灰色的人行道头发（.4-.2）头发，黑发（.7-.6），长发，长发，黑发和长发-头发（.6-.4），衬衫和头发，中等头发（.4-.2）WWW表4：使用统计检验、规则挖掘和决策树对SECA的解释，以及在有和没有取向偏见的情况下对ACE的性别分类任务的解释。CL. Met.解释（典型性评分范围）方向偏差（D5.2）FStat.规则树长（.275），黑色，道路，白色，红色（.06-.02）ACE深灰色头发或衬衫（1-.97），灰色衬衫或背部（.8-.6）M Stat.颈部（.7-.6）、脸颊、脸颊和颈部（.6-.4）、下巴、脸颊和下巴、面部、颈部和下巴、鼻子、衬衫和脸颊（.4-.2）规则树车，脖子，额头，短，耳朵（.06-.02）ACE灰色，白色或灰色衬衫，灰色人行道或衬衫（1-.97），轻-棕色皮肤（0.8-.6）无注入偏倚（D5.1）F统计灰色人行道、灰色背部、棕色头发或背部（1-.97）M Stat.短，短发，黑色头发和短发（.6-.4），短和灰色，脖子，头发和脖子，短和棕色，耳朵（.4-.2）ACE白衬衫或背部（1-.97），灰色人行道（.8-.6）类型存在于单个类中，但被ACE遗漏（有时ACE会输出一些可能与它们相关的颜色属性例如，在D5.1中，ACE输出的大多数颜色可能与实体类型成对出现，例如，棕色从头发或背景为女性类，白色与衬衫或背景为男性类，灰色为两个类。我们的频率分析表明，这些颜色在两个类别中相当显著（例如，灰色出现在59%的女性和68%的男性图像中，灰色背景分别出现在22%和30%的图像中，这意味着它们不是唯一使用的概念。ACE没有提供任何额外的见解，但SECA也揭示了与个别类别相关的概念，主要与类别的头发长度和耳朵和脖子的5.3结果：信息性在表3、4中的“无偏”设置

下载后可阅读完整内容，剩余1页未读，立即下载