VISCUIT：图像分类器偏见的可视化审计工具

97 浏览量更新于2023-10-25 收藏 25.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0V IS CUIT：CNN图像分类器偏见的可视化审计工具0Seongmin Lee乔治亚理工学院乔治亚州亚特兰大0seongmin@gatech.edu0Zijie J. Wang 乔治亚理工学院乔治亚州亚特兰大0jayw@gatech.edu0Judy Hoffman乔治亚理工学院乔治亚州亚特兰大0judy@gatech.edu0Duen Horng (Polo) Chau乔治亚理工学院乔治亚州亚特兰大0polo@gatech.edu0摘要0然而，它们可能受到偏见的影响，从而阻碍了它们的实际应用。大多数现有的偏见调查技术要么不适用于一般的图像分类任务，要么需要用户花费大量精力浏览所有数据子组以手动指定要检查的数据属性。我们提出了V ISCUIT，这是一个交互式可视化系统，可以揭示CNN分类器的偏见是如何产生的以及为什么产生偏见。V ISCUIT通过展示导致激活贡献于错误分类的神经元的图像概念，帮助用户发现和描述分类器性能下降的原因。V ISCUIT在现代浏览器中运行，并且是开源的，允许人们轻松访问和扩展该工具以适用于其他模型架构和数据集。V ISCUIT可以在以下公共演示链接中获得：https://poloclub.github.io/VisCUIT。视频演示可以在https://youtu.be/eNDbSyM4R_4中找到。01. 引言0最近，数据分类算法被广泛应用于实际应用中，例如人脸识别[39, 50, 53]，自动驾驶[19, 41]和临床试验[44, 51,59]。尽管在某些情况下视觉模型胜过人类[7]，但有几项研究发现这些分类器在数据子组中的性能常常存在差异[4, 8,29,35]。利用存在偏见的分类器进行重要目的可能导致无意中违反公平性并引发巨大的社会问题[20, 37, 55,61]。同样，基于深度卷积神经网络（CNN）的图像分类器由于其效率和准确性而被广泛使用。0尽管最先进的技术在各个领域中取得了艺术性能的突破[22,30, 45, 48,49]，但往往存在偏见[29]。为了促进最先进技术在现实世界中的应用，人们已经尝试理解[3, 11, 15]和减轻[14, 21, 52,54]CNN分类器中的偏见。然而，大多数现有方法需要人们指定要审计分类器的属性。由于人们更倾向于关注敏感属性（例如种族、性别），容易忽略与偏见相关且降低整体性能的不敏感属性（例如戴眼镜、发色）。现有方法假设每个图像除了类别标签外还有其他附加属性；因此，没有任何附加属性的数据集无法使用这些方法进行分析。Krishnakumar等人提出了UDIS，它可以自动检测CNN分类器性能下降的数据子组。虽然UDIS不需要额外的属性标签，但该方法会产生大量可能存在偏见的子组，这些子组可能与语义概念不一致。即使经过大量手动检查，这也会导致模棱两可的结果。此外，大多数现有的偏见调查方法检测分类器中偏见的来源，主要关注它们的训练数据集，而不是分类器中的神经元如何被激活并产生偏见输出[3, 8,13]。在本文中，我们提出了V ISCUIT，这是一个交互式可视化系统，可以揭示CNN图像分类器的偏见是如何产生的以及为什么产生偏见，而无需用户预先确定要检查的属性。V IS CUIT的主要贡献包括：0• 对性能下降子组的视觉总结。V ISCUIT突出显示了由UDIS[28]生成的CNN分类器性能下降的数据子组。这使用户能够了解分类器的偏差是如何产生的，不仅限于敏感属性。0A 子组面板 B 神经元激活面板0A20A30B20Grad-CAM窗口 Grad-CAM窗口神经元窗口神经元窗口0图1. V ISCUIT揭示了CNN图像分类器的偏差是如何产生的。我们的用户Jane使用具有属性“黑发”和标签“微笑”高共现的CelebA数据集训练了一个分类器，以观察训练数据如何影响模型的预测。她假设模型会使用属性“黑发”来预测“微笑”，并启动V ISCUIT来验证她的假设。(A)子组面板显示了UDIS[28]发现的性能下降的数据子组。Jane发现几个性能下降的子组由黑发的人组成。为了查看模型是否确实使用属性“黑发”进行预测，Jane点击子组#14，V ISCUIT显示了与#14在模型的最后一层特征向量方面相似但准确率较高的子组#380。点击这些子组中的每个图像会弹出一个Grad-CAM窗口，显示分类器对于子组#14关注的是(A1)额头(靠近头发，与微笑无关)，对于子组#380关注的是(A2)嘴巴(与微笑相关)。(A3)混淆矩阵定量总结了这样的错误分类，即许多不微笑的黑发人被错误地分类为微笑。Jane现在确信分类器使用属性“黑发”来预测“微笑”，因此经常将黑发人错误分类。(B)神经元激活面板使用户能够了解哪些神经元和概念负责错误分类，通过将模型中的神经元组织成3列：左列为仅由性能下降子组高度激活的神经元，右列为仅由性能良好子组高度激活的神经元，中间列为两者都激活的神经元。点击一个神经元会显示一个神经元概念窗口，揭示了(B1, B2)子组#14和#380分别激活了靠近额头和嘴巴的神经元。0V ISCUIT将性能下降的子组总结为一个列表，用户可以轻松地对每个子组进行描述。对于每个性能下降的子组，V ISCUIT还显示了其在特征空间中与之最相似且准确率较高的子组，基于欧氏距离，使用户能够深入了解导致偏差的异常特征。0• CNN图像分类器中的视觉偏差归因。V ISCUIT通过揭示激活与性能下降有关的神经元的图像概念，展示了为什么CNN分类器在每个子组上表现不佳。用户可以观察分类器在性能下降和性能良好的子组上的激活方式有所不同，重点关注图像中的高级概念。此外，对于每个图像，V ISCUIT显示Grad-CAM窗口，该窗口显示了分类器对图像的关注区域。0在输入图像中视觉上突出显示与分类相关的特征[43]。0• 开源的、基于Web的实现。V IS -CUIT直接在现代浏览器中运行，并且是开源的，允许人们轻松访问和扩展工具以适用于其他模型架构和数据集。图1展示了V IS CUIT的用户界面。V IS -CUIT可以在以下公共演示链接中访问：https://poloclub.github.io/VisCUIT。视频演示可以在https://youtu.be/eNDbSyM4R_4中找到。01 代码：https://github.com/poloclub/VisCUIT02.相关工作02.1. 算法中偏见的识别0已经有许多努力来识别最先进算法中的偏见（即数据子组之间性能的差异）。许多人脸识别算法已被证明包含种族和性别偏见[3, 8, 11,60]。Lambrecht等人[31]和Angwin等人[4]揭示了广告推荐系统和法律决策软件也存在针对特定种族或性别的偏见。然而，所有这些方法都要求人们预定义受保护的属性来审计算法；因此，只考虑了少数敏感因素（例如种族、性别）。此外，这些方法不适用于图像分类任务，这些任务的数据集除了类别标签之外不包含任何其他属性，例如种族和性别。为了分析一般图像分类器中的偏见，Singh等人[47]研究了每个类别的对象和其上下文之间的共现关系，并试图将它们解耦以减少分类器对上下文的依赖性。UDIS[28]是为了生成没有人类指导或附加属性的图像子组而开发的，它根据分类器的最后一层特征向量对图像进行聚类，并提取低准确性的子组。然而，使用这些方法很难定义分类器如何存在偏见，因为会生成大量子组，而每个子组的特征通常不清楚。此外，大多数现有方法[3,8,13]认为训练数据集的偏斜是偏见的主要来源，但不检查分类器中的神经元如何被激活并生成偏见输出。与现有方法不同，V ISCUIT以可视化方式总结发现的子组，使用户可以轻松定义每个表现不佳的子组。此外，V ISCUIT还揭示了哪些神经元和图像概念对每个子组的预测负责，以便用户可以更多地了解为什么分类器在某些子组上表现不佳。02.2. 偏见分析工具包0由于偏见可能对各种人的生活产生巨大影响，因此已经积极开发了帮助没有太多背景知识的人了解算法偏见的工具包。FairML [1]量化了预测模型输入的相对重要性，以评估模型的公平性。而Aequitas [42]可以使用各种指标轻松地衡量算法的公平性，AI Fairness360 [5]集成了许多最先进的算法偏见技术，包括偏见评估指标、偏见缓解算法和偏见解释。FairVis [9]允许用户根据他们的领域知识生成和探索数据子组，并提供相关的子组。然而，这些方法适用于0仅适用于具有丰富定义属性（例如表格数据）的数据集，因此无法处理与图像数据相关的模型，除非为数据提供附加属性。02.3. CNN分析技术0越来越多的研究提出了技术来帮助人们解释CNN模型的行为。早期的CNN解释方法是基于输入的解释，旨在揭示对模型行为有重要贡献的特征[43,46]。然而，这些方法并未说明CNN模型中的哪些神经元负责模型的行为。最近，一些方法提出了神经元级别的解释[18,24,38]。与此同时，一些研究试图解释CNN中的对抗攻击[10,12,34]、超参数调整[2,26,27]和模型选择[36]。V ISCUIT专注于CNN模型中的偏见，并研究模型中的神经元激活情况，以了解为什么模型会产生偏见输出。03.系统设计和实现03.1.概述0用户界面。V ISCUIT旨在揭示CNN图像分类器的偏见如何以及为什么存在。V ISCUIT由子组面板（图1A）和神经元激活面板（图1B）组成。子组面板显示CNN分类器表现不佳的图像子组，并允许用户选择一个子组进行探索。对于所选的表现不佳的子组，子组面板显示一个与所选的表现不佳的子组相似的表现良好的子组，相似性是基于分类器最后一层的特征向量确定的。在子组面板的底部，显示了两个子组的混淆矩阵。神经元激活面板（图1B）通过显示激活对子组预测有贡献的神经元的图像概念，帮助用户发现和描述表现不佳的原因。0数据集和开源系统实现。在我们的演示中，我们调查了使用有偏见的CelebA [28, 33]数据集训练的ResNet50[22]分类器，以预测图像中的人是否微笑，并且准确率达到了92.1%。为了验证V ISCUIT的有效性，我们故意增加了属性“黑发”和标签“微笑”的共现性，以便分类器更有可能使用与黑发相关的图像特征来预测微笑；而V IS CUIT将识别出这种偏见。V ISCUIT是开源的，可以很容易地扩展以支持其他模型架构和数据集。我们使用标准的HTML/CSS/JavaScriptWeb技术栈和a.b.0D3.js [6]可视化库。CNN模型的训练和推理都使用PyTorch[40]实现。03.2.子组面板0表现不佳的子组。子组面板（图1A）显示了一组表现不佳的子组列表，其准确率远低于模型的整体准确率92.1%。我们采用UDIS[28]子组发现算法来识别这些表现不佳的子组，该算法通过根据分类器最后一层的特征向量对图像进行聚类，然后收集准确率低于整体准确率一半的聚类。显示每个子组的准确率和图像，并按准确率排序。分类器错误预测的图像用小红叉（）标记。0准确率最高的最相似子组。当用户点击一个表现不佳的子组时，V ISCUIT会显示其准确率最高的最相似子组，基于特征空间中的欧氏距离，使用户能够深入了解导致偏见的异常特征[28]。我们将这个子组称为“表现良好的相似子组”。更详细地说，为了评估子组之间的相似性，我们计算每个子组的向量嵌入，通过对子组中所有图像的分类器的最后一层特征向量进行平均。使用得到的子组嵌入，我们计算子组之间的欧氏距离，并将与所选的表现不佳子组最相似的表现良好子组视为其最相似的表现良好子组。表现良好的子组以与表现不佳的子组相同的格式进行总结，显示其准确率和图像。0Grad-CAM窗口。当用户点击所选的表现不佳的子组或其表现良好的相似子组中的图像时，Grad-CAM窗口会弹出（图2）。该窗口包含所选图像的预测结果和Grad-CAM[43]显著性可视化。Grad-CAM是最流行的一种方法，用于在输入图像中视觉上突出显示与分类相关的特征；使用Grad-CAM，用户可以更容易地理解为什么图像被错误分类[43]。0子组混淆矩阵。子组面板底部显示了选定的表现不佳子组和其类似的表现良好子组的混淆矩阵，以总结这些子组内的预测结果。它帮助用户更容易评估分类错误的类型及其在类别标签中的分布。03.3.神经元激活面板0神经元激活面板（图1B）帮助用户发现表现不佳的原因，通过揭示导致选定的表现不佳子组的误分类的神经元激活的图像概念。0图2.Grad-CAM窗口帮助用户了解错误分类的原因；当用户点击图像时显示。（a）在表现不佳的子组＃22中，Grad-CAM窗口显示模型关注与面部表情无关的背景区域。（b）在表现良好的子组＃296中，Grad-CAM窗口显示模型关注面部，符合预期。0负责激活导致选定的表现不佳子组误分类的神经元的图像概念。0神经元激活。神经元激活面板显示了选定的表现不佳子组和其类似的表现良好子组的高度激活的神经元。为了揭示这两个子组在分类器中的差异，我们将神经元分为3列：表现不佳子组、两者和表现良好的类似子组。列中的神经元表现不佳子组和表现良好的类似子组仅被表现不佳的和表现良好的类似子组激活，而列中的神经元被两个子组激活。为了帮助用户更容易评估每个层对预测的贡献，我们根据它们在分类器中的层次垂直地组织神经元。对于每个神经元，我们评估神经元激活分数，该分数是区分高度激活的神经元和其他神经元的基准。神经元激活分数是基于Summit[24]中的神经元重要性测量方法评估的。对于每个图像，每个神经元在空间位置上的最大激活被视为该图像的神经元激活值。然后，对于每个层，我们提取具有最高激活值的神经元，直到提取的神经元的激活值之和超过该层总激活值的3%，我们将提取的神经元视为图像的高度激活的神经元。我们为子组中的所有图像确定了高度激活的神经元，并且对于每个神经元，我们计算了在子组中将该神经元作为其高度激活的神经元的图像的比例。该比例被用作该神经元在子组中的激活分数。神经元激活面板上方的标题显示了一个滑块，用于调整神经元激活分数的阈值。当用户增加阈值时，激活分数低于阈值的神经元将被过滤掉。a.b.log(Vi · Vj)0图3.神经元概念窗口帮助用户识别导致显著影响模型预测的神经元激活的图像概念。（a）仅由表现不佳子组＃22高度激活的神经元的神经元概念窗口显示，文本和与面部表情无关的纹理都与预测微笑无关，对误分类有主要贡献，激活分数为1。（b）由表现良好的子组＃296高度激活的神经元的神经元概念窗口显示了预期的图像特征，如嘴巴和鼻子。当用户在神经元激活面板中点击一个神经元时，神经元概念窗口显示。0如果选择的表现不佳的子组或其类似的表现良好的子组的激活分数低于阈值，则会被重新定位或过滤掉。阈值范围从0.5到1.0；我们将下限设置为0.5，以防止大量神经元出现并使用户不堪重负。神经元概念窗口。当点击一个神经元时，V ISCUIT会显示一个神经元概念窗口，其中包含该神经元对表现不佳和表现良好的子组的激活分数以及概念补丁（图3）。该窗口帮助用户了解每个神经元被每个子组激活的程度和原因。我们基于现有方法[24,38]生成概念补丁；对于每个神经元，我们获取在整个数据集上激活该神经元最多的10个图像。然后，对于每个图像，我们随机生成32个面向正方形概念补丁（30像素乘30像素）的蒙版。我们将不同蒙版的正方形区域分开，使它们之间至少相隔5像素，以促进概念补丁之间的多样性。然后，我们将所有的概念补丁输入分类器，并观察分类器中的神经元如何被激活。对于每个神经元，被激活最多的10个概念补丁被视为该神经元的概念补丁。神经元聚类。已知CNN中的一些神经元具有冗余性，并且被类似的概念激活[16, 23, 25,56]。为了帮助用户识别这种冗余性并关注不同的概念，当悬停在一个神经元上时，我们会突出显示与悬停神经元具有相似概念补丁集的神经元。受[38]中的神经元聚类方法的启发，我们确定了由相同概念激活的神经元簇。我们训练了一个额外的模型，该模型基于ResNet50架构。0不佳子组＃22准确率40%0文本0在背景中0图4.不佳子组＃22中的图像。一开始很难定义子组＃22的特征。使用VISCUIT，我们的用户Henry得到了一些提示，即背景中可能会有文本和非面部纹理，并通过增加图像的亮度进行验证。Henry得出结论，分类器在体育场中微笑的运动员的图像上表现不佳。0它以概念补丁作为输入，并输出每个概念补丁的向量，以最大化相同神经元的概念补丁向量之间的内积。我们随机采样了10,000对概念补丁，每对补丁都来自同一神经元，以生成训练数据集；对于负采样，我们额外采样了10,000对概念补丁，每对补丁都来自两个不同的神经元。要最小化的目标函数是0V i ,V j ∈同一神经元0V ′ i ,V ′ j ∈不同神经元0log(1 − V ′ i ∙ V ′ j )(1)0其中V i，V j和V ′ i，V ′j分别是来自相同和不同神经元的概念补丁的归一化向量。我们使用学习率为0.0001的SGD优化器初始化模型，并进行10个时期的训练。训练模型后，我们迭代分类器中每个高激活的神经元，计算该神经元的概念补丁向量与从每个神经元簇中采样的概念补丁向量之间的内积。在神经元簇中，如果内积值大于预设阈值0.9，则将神经元添加到产生最大内积的簇中；否则，我们生成一个以该神经元为唯一元素的新簇。我们将将神经元添加到簇中的阈值设置为0.9，以最小化将不同概念的任意两个神经元分组到同一簇中的错误。04. 使用场景04.1. 偏见特征化0V ISCUIT帮助用户对分类器表现不佳的图像进行特征化。例如，假设机器学习工程师Henry正在使用V ISCUIT来调查ResNet50分类器，该分类器用于预测图像中的人是否微笑。在浏览不佳子组列表时，Henry对子组“22”很感兴趣。0由于Henry发现很难定义子组中图像的共同特征，因此他决定研究准确率为40％的子组＃22（图4）。Henry决定调查子组＃22，希望弄清楚子组＃22由哪些图像组成，以澄清分类器的偏见。当Henry点击子组＃22时，V ISCUIT显示了表现良好的子组＃296，该子组与子组＃22在分类器的特征向量、混淆矩阵以及被两个子组激活的神经元方面相似。Henry首先点击子组＃22和子组＃296中的图像，检查Grad-CAM窗口并比较两个子组（图2）。通过Grad-CAM窗口，Henry发现分类器异常地关注背景区域，这些区域与微笑无关。此外，通过混淆矩阵，他了解到分类器将子组＃22中的所有图像预测为不微笑，即使其中超过一半的图像实际上是微笑的。对于分类器为什么会关注背景区域，他转向神经元激活面板来审查神经元激活情况。由于神经元激活面板中有许多神经元，Henry将激活分数阈值从0.5增加到0.8，以减少显示的神经元数量，并关注少数重要的神经元。为了了解分类器如何不同地处理这两个子组，Henry仅点击仅由不佳子组＃22或仅由表现良好的子组＃296高度激活的神经元，以显示神经元概念窗口（图3）。神经元概念窗口显示，不佳子组＃22激活捕捉文本和非面部纹理的神经元，而表现良好的子组＃296激活嘴巴和鼻子的神经元。这一发现使Henry想知道子组＃22的图像中是否可能存在一些文本或非面部纹理，并决定通过增加图像的亮度来验证自己的猜想。确实，正如他所预期的那样，亮度增加的图像背景中有文本和彩色条纹图案（图4），与体育场中的灯光、看台和标志相关。基于这些发现，Henry意识到子组＃22中的大多数图像是体育场中的运动员，并得出结论，分类器经常错误地将体育场中微笑的运动员分类为不微笑。04.2. 模型性能验证0开发卷积神经网络图像分类器的常见需求是验证它们在预期预测和已知不良情况下的工作是否符合预期[17, 28, 32, 57,58]。V ISCUIT提供了一种交互式手段，供用户执行此类验证。例如，假设的卷积神经网络研究员简已准备了一个有偏见的CelebA数据集。0她故意增加了属性“黑发”和标签“微笑”的共现。她预计模型可能会使用与黑发相关的图像特征来预测微笑。为了验证她的假设，简启动了V ISCUIT。如图1所示，简一眼就发现有几个准确性较低的图像子组是针对黑发人群的。为了查看模型是否确实使用属性“黑发”进行预测，她点击了准确率为36.4%的子组#14，VISCUIT显示了子组#380，该子组在分类器的最后一层特征方面与#14相似，但准确率高达86.1%。在这些子组中，点击图像会弹出Grad-CAM窗口。它显示分类器关注的是与微笑无关的前额（图1-A1），而对于表现良好的子组#380中的图像，分类器关注的是与微笑密切相关的嘴巴（图1-A2）。混淆矩阵定量地总结了这种错误分类，即许多黑发人的图像被错误地分类为微笑，尽管他们并不是（图1-A3）。简现在对她的猜想非常确定，即分类器经常将不微笑的黑发人错误地分类为微笑，原因是对前额的不适当关注。05. 结论0我们提出了V ISCUIT，这是一个基于Web的交互式可视化工具，可帮助用户了解卷积神经网络图像分类器的偏见是如何产生的以及为什么产生。V ISCUIT总结了低准确性的图像子组，以便用户可以轻松确定分类器在哪种图像上表现不佳，并选择要进行更深入调查的子组。当用户选择一个表现不佳的子组时，V ISCUIT的子组面板会显示一个性能良好的子组，该子组与所选择的表现不佳的子组在分类器的特征向量和混淆矩阵方面相似。这可以帮助用户了解分类错误的类型以及导致偏见的异常特征。用户可以通过点击图像来调出Grad-CAM窗口，以了解哪些部分的图像被认为与分类相关。此外，通过神经元激活面板，用户可以找出导致错误分类的神经元和概念，并通过点击神经元并调出神经元概念窗口来了解为什么分类器的性能出乎意料地差。V ISCUIT可以通过现代Web浏览器轻松访问，并且是开源的，可以轻松扩展到各种模型架构和数据集。我们相信V ISCUIT将增强人们对卷积神经网络模型偏见的理解，并加速卷积神经网络图像分类器的实际应用。0参考文献0[1] JuliusAdebayo。Fairml：用于诊断预测建模中偏见的工具箱。2016年。30[2] Takuya Akiba，Shotaro Sano，Toshihiko Yanase，TakeruOhta和MasanoriKoyama。Optuna：下一代超参数优化框架。在第25届ACMSIGKDD国际会议上的知识发现和数据挖掘，2019年。30[3] V´ıtor Albiero，Krishnapriya K. S，Kushal Vangara，KaiZhang，Michael C. King和Kevin W.Bowyer。分析人脸识别准确性中的性别不平等。在IEEE冬季计算机视觉应用研讨会，WACV Workshops2020，美国科罗拉多州SnowmassVillage，2020年3月1-5日，第81-89页。IEEE，2020年。1，30[4] Julia Angwin，Jeff Larson，Surya Mattu和Lauren Kirch-ner。机器偏见：全国范围内使用软件预测未来罪犯。而且它对黑人有偏见，2016年。1, 30[5] Rachel K. E. Bellamy，Kuntal Dey，Michael Hind，Samuel C.Hoffman，Stephanie Houde，Kalapriya Kannan，Pranay Lo-hia，Jacquelyn Martino，Sameep Mehta，Aleksandra Mo-jsilovic，Seema Nagar，Karthikeyan NatesanRamamurthy，John T. Richards，Diptikalyan Saha，PrasannaSattigeri，Moninder Singh，Kush R. Varshney和YunfengZhang。AI公平性360：一种用于检测和减轻算法偏见的可扩展工具包。《IBM J. Res. Dev.》，63（4/5）：4：1-4：15，2019年。30[6] Michael Bostock，Vadim Ogievetsky和JeffreyHeer。D³数据驱动文档。《IEEE可视化与计算机图形学交易》，17（12）：2301-2309，2011年。40[7] Antoine Buetti-Dinh，Vanni Galli，S¨orenBellenberg，Olga Ilie，Malte Herold，StephanChristel，Mariia Boretska，Igor V. Pivkin，PaulWilmes，Wolfgang Sand，Mario Vera和MarkDopson。深度神经网络在表征生物浸出细菌生物膜组成方面的能力超过人类专家。《生物技术报告》，22：e00321，2019年。10[8] Joy Buolamwini和TimnitGebru。性别阴影：商业性别分类中的交叉准确性差异。在《公平性、问责性和透明性会议，FAT2018，2018年2月23-24日，美国纽约》中，第81卷《机器学习研究会议论文集》的77-91页。PMLR，2018年。1, 30[9] ´ Angel Alexander Cabrera，Will Epperson，FredHohman，Minsuk Kahng，Jamie Morgenstern和DuenHorngChau。FAIRVIS：用于发现机器学习中交叉偏见的可视分析。在《第14届IEEE视觉分析科学与技术会议，IEEE VAST2019，加拿大温哥华，2019年10月20-25日》中，第46-56页。IEEE，2019年。30[10] Gabriel D Cantareira，Rodrigo F Mello和Fernando VPaulovich。使用激活配置文件对深度神经网络中的可解释对抗性攻击进行解释。arXiv预印本arXiv:2103.10229，2021年。30[11] Jacqueline G. Cavazos，P. Jonathon Phillips，CarlosDomingo Castillo和Alice J.O'Toole。面部识别算法的准确性比较：在哪里0我们对测量种族偏见有什么了解吗？IEEE Trans. Biom.Behav. Identity Sci.，3（1）：101-111，2021年。1, 30[12] Nilaksh Das，Haekyu Park，Zijie J Wang，FredHohman，Robert Firstman，Emily Rogers和Duen HorngChau。Bluff：交互式解密对深度神经网络的对抗性攻击。2020年。30[13] EkberjanDerman。通过分析CNN训练分数来减轻数据集偏见。《CoRR》，abs/2106.14829，2021年。1, 30[14] Prithviraj Dhar，Joshua Gleason，Hossein Souri，CarlosD Castillo和RamaChellappa。为减轻人脸识别中的偏见而努力实现性别中性人脸描述符。arXiv预印本arXiv:2006.07845，2020年。10[15] Pawel Drozdowski，Christian Rathgeb，AntitzaDantcheva，Naser Damer和ChristophBusch。生物特征中的人口统计偏见：一项新兴挑战的调查。《IEEE技术与社会交易》，2020年。10[16] Rahul Duggal，Cao Xiao，Richard Vuduc，Duen HorngChau和JimengSun。Cup：用于压缩深度神经网络的聚类修剪。在《2021年IEEE国际大数据会议》中，第5102-5106页。IEEE，2021年。50[17] Tom Farrand，Fatemehsadat Mireshghallah，SahibSingh和AndrewTrask。既不私密也不公平：数据不平衡对差分隐私中效用和公平性的影响。在《2020年隐私保护机器学习实践研讨会论文集》中，第15-19页，2020年。60[18] Ruth Fong和AndreaVedaldi。Net2vec：量化和解释深度神经网络中过滤器编码概念的方式。在《计算机视觉和模式识别IEEE会议论文集》中，第8730-8738页，2018年。30[19] Hironobu Fujiyoshi，Tsubasa Hirakawa和Takayoshi Ya-mashita。基于深度学习的自动驾驶图像识别。IATSS研究，43（4）：244-252，2019年1月0[20] Clare Garvie，Alvaro Bedoya和JonathanFrankle。感知阵容：美国未受监管的警察人脸识别，2016年1月0[21] Sixue Gong，Xiaoming Liu和Anil K.Jain。通过群体自适应分类器减轻人脸识别偏见。在IEEE计算机视觉和模式识别会议上，CVPR2021，虚拟，2021年6月19-25日，页3414-3424。计算机视觉基金会/ IEEE，2021年1月0[22] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议上，CVPR2016，美国拉斯维加斯，2016年6月27-30日，页770-778。IEEE计算机学会，2016年1月、3月0[23] Yihui He，Xiangyu Zhang和JianSun。用于加速非常深的神经网络的通道修剪。在IEEE国际计算机视觉会议的论文集中，页1389-1397，2017年5月0[24] Fred Hohman，Haekyu Park，Caleb Robinson和DuenHorng（Polo）Chau。峰会：通过可视化激活和归因摘要扩展深度学习可解释性。IEEE Trans. Vis. Comput.Graph.，26（1）：1096-1106，2020年3月、4月、5月0[25] Max Jaderberg，Andrea Vedaldi和AndrewZisserman。通过低秩加速卷积神经网络0扩展。在英国机器视觉会议，BMVC2014，英国诺丁汉，2014年9月1-5日。BMVA出版社，2014年5月0[26] HaifengJin。Keras文档：可视化超参数调整过程，2021年3月0[27] Hyekang Joo，Calvin Bao，Ishan Sen，FurongHuang和LeilaniBattle。通过可视化和推理进行引导超参数调整。arXiv预印本arXiv：2105.11516，2021年3月0[28] Arvind Krishnakumar，Viraj Prabhu，SruthiSudhakar和JudyHoffman。UDIS：在深度视觉识别模型中无监督发现偏见。在英国机器视觉会议（BMVC）中，2021年1月、2月、3月、4月、6月0[29] K. S. Krishnapriya，V´ıtor Albiero，KushalVangara，Michael C. King和Kevin W.Bowyer。与种族和肤色有关的人脸识别准确性问题。IEEE技术与社会交易，1（1）：8-20，2020年1月0[30] Alex Krizhevsky，Ilya Sutskever和Geoffrey E.Hinton。使用深度卷积神经网络的ImageNet分类。在神经信息处理系统25：第26届神经信息处理系统年会2012年会议论文集中。会议于2012年12月3-6日在内华达州塔霍湖举行，美国，页1106-1114，2012年1月0[31] Anja Lambrecht和CatherineTucker。算法偏见？关于显示STEM职业广告中明显基于性别的歧视的实证研究。管理科学，65（7）：2966-2981，2019年3月0[32] Zeju Li，Konstantinos Kamnitsas和BenGlocker。在类别不平衡下的神经网络过拟合：分析和分割改进。在国际医学图像计算和计算辅助干预会议上，页402-410。Springer，2019年6月0[33] Ziwei Liu，Ping Luo，Xiaogang Wang和XiaoouTang。野外深度学习人脸属性。在2015年IEEE国际计算机视觉会议上，ICCV2015，智利圣地亚哥，2015年12月7-13日，页3730-3738。IEEE计算机学会，2015年3月0[34] Xingjun Ma，Yuhao Niu，Lin Gu，Yisen Wang，YitianZhao，James Bailey和FengLu。了解基于深度学习的医学图像分析系统的对抗攻击。模式识别，110：107332，2021年3月0[35] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena,Kristina Lerman, and Aram Galstyan.机器学习中的偏见和公平性调查。ACM计算机调查，54（6）：115：1-115：35，2021年1月0[36] Sakib Mostafa, Debajyoti Mondal, Michael Beck, Christo-pher Bidinosti, Christopher Henry, and Ian Stavness.在卷积神经网络中可视化特征图以进行模型选择. In Proceedingsof the IEEE/CVF International Conference on Computer Vision, pages 1362–1371, 2021. 30[37] Osonde A. Osoba and William Welser.我们形象中的智能：人工智能中的偏见和错误风险. RANDCorporation, Santa Monica, Calif., 2017. 10[38] Haekyu Park, Nilaksh Das, Rahul Duggal, Austin P. Wright, OmarShaikh, Fred Hohman, and Duen Horng Chau. 神经网络中的神经.0Cartography: 可扩展的深度神经网络概念自动可视化. 2021.3, 50[39] Divyarajsinh N. Parmar and Brijesh B. Mehta.人脸识别方法与应用. CoRR , abs/1403.0485, 2014. 10[40] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer,James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin,Natalia Gimelshein, Luca Antiga, et al. Pytorch:一种命令式风格、高性能的深度学习库. Ad- vances in neuralinformation processing systems , 32, 2019. 40[41] Gowdham Prabhakar, Binsu Kailath, Sudha Natarajan,and Rajesh Kumar.使用深度学习进行高速自动驾驶中的障碍物检测和分类. In 2017IEEE Region 10 Symposium (TENSYMP) , pages 1– 6, 2017. 10[42] Pedro Saleiro, Benedict Kuester, Abby Stevens, Ari An-isfeld, Loren Hinkson, Jesse London, and Rayid Ghani.Aequitas:

下载后可阅读完整内容，剩余1页未读，立即下载