基于潜在结构展开的目标检测模型解释

52 浏览量更新于2023-10-16 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于潜在结构展开的可解释目标检测Tianfu Wu<$ and XiSong†北卡罗来纳州立大学欧洲经委会和视觉叙事倡议系wu@ncsu.edu，xsong. gmail.com图1. 为什么那些绑定的盒子被检测为猫？通过端到端展开潜在结构来定性解释模型的可解释性，而无需在训练中使用任何监督。潜在结构由实时计算的解析树（显示在每个图像的右侧）表示，对象布局/配置（叠加在边界框上）从解析树中折叠左侧四张图像来自PASCAL VOC 2007测试数据集，右侧四张图像来自COCO val2017数据集。为了清楚起见，仅示出了一个检测到的对象实例。详情见正文。最好用彩色和放大镜观看。摘要本文首先提出了一种基于潜在结构展开思想的视觉理解任务中模型可解释性的表达方法然后，它提出了一个案例研究，在对象检测使用流行的两阶段基于区域的卷积网络（即，R-CNN）检测系统[19，50，7，23]。该方法的核心是弱监督的抽取原理生成，即在检测过程中，不需要对零件结构进行任何监督，就能自动地同时展开对象实例中潜在的可区分零件结构它利用一个自顶向下的层次和组合语法模型嵌入在一个有向的非循环AND-OR图（AOG），探索和展开的潜在部分配置的空间感兴趣的区域（ROI）。它提出了一个 AOGParsing 操作符，该操作符与 RoIPooling[19]/RoIAlign [23]操作符无缝集成，该操作符广泛用于第十章Song是一名独立研究员。R-CNN是端到端训练的。在对象检测中，边界框由来自AOG的最佳解析树进行解释，该解析树被视为用于解释检测的定性提取原理。在实验中，Faster R-CNN[50]用于在PASCAL VOC 2007 [13]和COCO 2017 [40]对象检测数据集上测试所提出的方法。实验结果表明，该方法可以在不损害性能的前提下计算出有希望的潜在结构代码和预训练模型可在https://github.com/iVMCL/iRCNN上获得。1. 介绍1.1. 动机和目标最近，深度神经网络[37，32]在许多视觉任务中显着提高了预测精度，甚至在图像分类任务中优于人类[24，58]。在目标检测的文献中，已经从更明确的表示和模式发生了重大转变60336034图2.使用Faster R-CNN [50]作为基线系统的拟议方法的说明。感兴趣区域（RoI）的潜在结构展开是通过一个通用的自顶向下的语法模型来实现的，该模型由一个有向无环与或图（AOG）表示。AOG可以被看作是传统AOG中隐式（黑盒）扁平和全连接层的显式部分表示的对应物。头部分类器为了清楚起见，我们使用[ 56 ]中提出的方法为3 × 3网格构造了一个AOG。AOG展开了所有可能的潜在部分配置的空间。详情见正文。(Best以彩色和放大率显示）例如基于可变形部件的模型的混合物，els（DPM）[16] 及其许多变体，以及分层和组合 AND-OR 图（AOG）模型[56，69，59，60]，到不太透明但更准确的基于ConvNet的方法[50，7，49，42，23，8]。与此同时，已经证明，深度神经网络可以很容易地被所谓的对抗性攻击所欺骗，这种攻击利用视觉上不可感知的精心制作的扰动来导致网络以任意选择的方式对输入进行错误分类[47，2]，即使是单像素攻击[57]。而且，也已经证明深度学习可以很容易地适应随机标签[66]。由于目前缺乏理论基础，很难分析为什么最先进的深度神经网络能够工作或失败[1]。从认知科学的角度来看，最先进的深度神经网络可能不会像那些知道并能解释“为什么”的人那样学习和思考然而，存在越来越多的应用，其中基于深度神经网络的计算机视觉和机器学习模块的预测结果已经用于做出具有潜在关键后果的决策（例如，安全视频监控和自动驾驶）。人们普遍认识到，如果没有可解释的理由，预测的应用将受到限制能力最终。这是解决机器无法解释其预测的决策和动作的关键问题 eXplaable AI或XAI在DARPA拨款征集中提出[10]），即共同提高准确性和透明度：可解释的模型不仅能够以非常高的概率计算随机示例的正确预测，而且还能够合理化其预测，优选地以可解释给最终用户的方式。一般来说，学习可解释的模型是为了让机器对人类有意义，这通常包括许多具有挑战性的方面。因此，模型可解释性的概念还没有一个普遍接受的定义。特别是，如何对可解释性进行定量的原则性度量，一直是一个悬而未决的问题。为了解决可解释性的挑战，许多工作提出了可视化内部过滤器内核或生成专注的激活图，这揭示了DNN以事后方式学习的许多见解作为这些方法的补充，本文重点关注如何展开潜在结构，以解决端到端学习和推理中的模型可解释性（参见图1中的一些示例）。我们首先提出了一种制定模型可解释性的方法，分类与节点或节点终端节点框回归解释ROI……...终端节点敏感地图RoIPooling /RoIAlignConvNet主干例如，在一个实施分类框回归RPNROI方面传统头部分类器例如，在一个实施例中，图像2阶段R-CNN拟议的展开框架FC6035以弱监督的方式展现有意义的潜在结构。然后，我们提出了一个案例研究对象检测。我们的目标是调查整合自上而下的语法模型与自下而上的Con-vNet骨干端到端的可行性。前者介绍了以分层和组合的方式表示潜在结构的空间，从而定义展开的操作。我们还旨在定性地合理化流行的两阶段基于区域的ConvNets检测系统，即，R-CNN [19，50，7]，而不会损害检测性能。共同提高业绩和透明度不在本文件的范围之内，留待今后开展工作。1.2. 方法概述图2说明了所提出的方法，用于对象去-保护我们采用两阶段R-CNN作为基线系统。我们专注于R-CNN中RoI预测组件中的弱监督提取原理生成（例如，广泛使用的2-FC层实现），即学习在检测中自动地和同时地展开ROI的潜在区别性部分配置，而不使用对部分配置的任何监督我们应对以下两个挑战。i) 从传统的ROI平面结构表示转向层次结构和组合结构表示，从而实现从“uninformative”全连接的ROI特征探索和开发到语法指导的探索和开发。流行的RoIPooling/RoIAlign层通常使用预定义的平面网格量化，例如大小不同的输入RoI的7×7单元在RoI预测组件的2-fc层实现中，7×7个像元被展平，然后是两个FC层（参见图2的底部图2）。在预测方面，该实现具有高度区分能力，在高维RoI特征空间中寻找最具区分力的线性组合。为了实现关于推断潜在对象布局/配置的可解释对象检测，需要丰富ROI的平面结构，类似于如何开发空间金字塔表示[35]以丰富场景分类任务中的特征袋表示。在本文中，我们利用嵌入有向非循环AND-OR图（AOG）[56，60]中的通用自上而下的层次和组合语法模型来探索和展开ROI的潜在部分配置空间（参见图2顶部的示例）。 AOG中有三种类型的节点：AND节点表示将大部件二进制分解为两个较小部件，OR节点表示分解的可选方式，而Terminal节点表示部件实例。AOG与一般图像语法框架一致[18，70，15，69]。ii) 在弱监督辨别任务中提取和归纳有意义的潜在结构协议-根据网络解剖[3]中的观察，模型的可解释性和性能在区分任务中没有很强的相关性。直观地说，由于目标函数通常只关心一般模型正则化的性能，因此模型将选择对最小化训练数据集损失有用的任何特征。因此，即使为ROI引入了层次和组合表示，我们也很难以弱监督的方式提取和归纳潜在的有意义的潜在结构。在本文中，我们首先在使用AOG计算特征时引入终端节点敏感特征映射（参见图2的顶部），其精神与R-FCN中使用的位置敏感特征映射相似[7]。每个终端节点特征图是低维的（例如，第20段）。然后，我们引入了一个值子网络，该值子网络计算不同终端节点的品质因数（注意力权重），这将为使用AOG的自下而上和自上而下解析ROI提供信息，在精神上类似于深度强化学习中的值子网络，例如。在AlphaGo中[54]。我们呼吁AOGParsing运营商提出的组件。我们比较了应用价值网的三种方法.• vanilla重新加权方法，使用价值网络的输出重新校准终端节点特征图• 一种稀疏诱导方法，其仅单独地保持每个RoI的前k个终端节点，其中k可以是RoI的网格大小（例如，49的77ROI）。• 一种对抗性攻击方法，与稀疏诱导方法相反，k根据价值网络的输出的终端节点。由于目标函数是可区分的，稀疏诱导方法可能会陷入无意义但具有强区分力的潜在结构的子空间。对抗性攻击方法鼓励在潜在结构的整个空间中进行探索。我们注意到，定义可解释性敏感的损失函数w.r.t.AOG是未来工作中需要研究补充方向。在实验中，我们使用Faster R-CNN [50]作为基线系统，并在ImageNet [52]上预训练残差网络[24]。我们在PASCAL VOC 2007 [13]和COCO 2017 [40]数据集上测试了我们的方法，学习了定性有意义的潜在结构，并保留了相当的性能。2. 相关工作一般来说，模型的可解释性是很难描述的。6036DNN可以大致分为以下两类工作。通过将解释性语义信息与深度神经网络中的节点相关联来解释深度神经网络的事后可解释性。有一个变量-一些方法包括直接识别高分图像块[20，43]或过度分割的原子区域[51]，使用解卷积网络可视化卷积网络的层以理解在高分输入图像块中强调什么内容[65]，识别视觉场景中的项目并叙述多媒体事件[64，17]，通过最大化网络中给定节点的响应[12，36，55]或通过开发自顶向下的生成卷积网络[45，62]来生成合成图像，并分析和可视化递归网络中的状态激活[26，29，38，14]以链接单词语义词典或词属性的向量。另一方面，Hendricks等人[25]扩展了用于生成图像标题的方法[30，46]，以训练第二个深度网络来生成解释，而无需解释性地识别原始网络的语义特征这些方法中的大多数都不是模型不可知的，除了[51]。最近，建立在CAM工作[68]之上的Grad-CAM工作[53]可以生成一个粗略的定位图，突出显示深度神经网络用于预测概念的图像中的重要区域。本着类似的精神，激励反向传播方法[67]可以生成特定于任务的注意力图。最新的网络解剖工作[3]经验性地报告说，可解释单元在视觉的主要深度学习架构[32，4，24]的表示中找到，并且可解释单元也在不同的训练条件下出现。另一方面，他们也发现，可解释性既不是歧视权力的必然结果，也不是歧视权力的先决条件。除了[51，31]之外，这些方法中的大多数都不是模型不可知的在[31]中，统计学中的经典技术，影响函数，被用来理解训练样本方面的黑盒预测，而不是提取合理的理由。直接学习可解释的模型。遵循合成分析原理，使用深度神经网络的生成图像建模取得了重大进展，自突破性工作生成对抗网络[21]提出以来，合成了非常生动和清晰的图像[11，22，6，62，48]。除了深度神经网络之外，Lake等人[33]提出了一种手写字符的概率程序归纳模型，该模型以类似于人们学习的方式学习，并且比深度学习算法更好。该模型对手写字符进行分类、解析和重建，并可以生成新的字母表，这些字母表通过对模型输出进行图灵测试来有多种可解释的模型基于图像语法[70，15，41，69]，可以提供直观和深入的解释，但通常在学习模型结构方面遇到困难，最近在准确性方面被深度神经网络大大超越。空间注意力机制已经在基于深度神经网络的系统中得到了广泛的研究，包括但不限于，开创性的空间变换网络[27]，其通过全局参数变换（如仿射变换）扭曲特征图，探索全局平均池化和用于弱监督区分定位的类特定激活图[68]，可变形卷积网络[69]，可变形卷积网络[69]，以及基于神经网络的系统。9]和主动卷积[28]，以及图像标题和视觉问答（VQA）中更明确的基于注意力的工作，例如显示-参与-告诉工作[63]和VQA中的分层共同注意力[44]。基于注意力的工作展现了深度神经网络中过滤器内核的定位能力。自上而下的全结构语法和自下而上的深层神经网络的端到端集成尝试利用视觉识别中的两种方法的力量，这可以被视为基于层次和组合结构的空间注意机制。我们的贡献。本文对新兴的可解释模型学习领域做出了三个主要贡献：（i）提出了一种集成通用自顶向下语法模型的方法，嵌入AOG中和自底向上的ConvNets端到端学习对象检测中的定性可解释模型。(ii)它提出了一种AOGParsing算子，可以与广泛用于基于 R-CNN 的检测系统的RoIPooling/RoIAlign算子无缝集成。(iii)它显示出与最先进的R-CNN系统相当的检测性能，从而揭示了在学习深度模型进行对象检测时的准确性和透明度。3. 解释模型的可解释性在本节中，我们提出了一个通用的公式模型的可解释性在视觉理解任务，占展开定义良好的潜在结构在弱监督的方式。直观地说，我们期望可解释的模型可以自动学习和捕获未在训练数据中注释的潜在语义结构。例如，如果我们将训练中只有图像标签可用的基本图像分类任务视为常用，为了比较哪些分类模型更易于解释或解释，一种原则性的方法是显示提取感兴趣w.r.t.地面实况标签。类似地，如果仅使用人边界框注释来学习人检测器，则人检测器更可解释，但是能够解释具有所解释的潜在语义结构的人检测，即，6037也就是动感的姿势因此，我们的直观想法是，模型可解释性可以被视为探索更高级别任务的潜在空间的能力（例如，定位与分类以及姿态恢复与检测），以及捕获潜在空间中的足够统计。模型越能在更高层次上探索和捕获潜在任务，模型的可解释性就越好为此，我们首先考虑底层任务层次，例如，从图像分类到对象定位和检测，到对象部分恢复（对象解析），并且一直到完整图像解析（即，所有图像像素都以数学上合理的方式解释）。然后，对于手头的任务（例如，对象检测），我们寻求一种原则性的方法来定义和探索基于对象部分的句法分析任务的潜在空间，然后计算抽取手头任务的理由设Λ为定义潜在结构的域，例如图像分类中的图像网格或对象检测中的RoI。我们的公式是一个直接的自上而下的方法，由两个部分组成：• 一种域解析器，以有效和紧凑的方式展开域Λ的潜在结构。解析器可以用贪婪追踪的方式构建，如（RPN）和RoI预测网络。(ii)用于对象检测的RPN网络（即，通过前景获得和背景之间的二进制分类的类别不可知检测）和边界框回归，由Θ1参数化。由B表示RoI（即，前景边界框建议）。(iii)用于分类RoIB并对其进行细化的RoI预测网络，由Θ2参数化，其利用RoIPooling算子，并且通常使用一个或两个完全连接的层作为头分类器和回归器。参数Θ=（Θ0，Θ1，Θ2）是端到端训练的。AOG作为域解析器。在R-CNN框架中，RoI被解释为预定义的平坦配置。为了学习可解释的模型，我们需要探索RoI中定义的潜在部件配置空间为此，首先将RoI划分为单元格网格，如RoIPooling操作符中所做的那样（例如，33或77）。用Sx，y，w，h和tx，y，w，h表示非终结符和终结符，nal符号，两者都表示RoI中具有左上（x，y）以及宽度和高度（w，h）的子网格在解释非终结符时，我们只使用二进制分解，即Hor Izestivalcut或Vertical cut我们有四条规矩，经典的基于可变形零件的模型（DPM）[16]或自顶向下的方式，如经典的四叉树Sx，y，w，h-T-e-rm--in-a-ti-o！n tx，y，w，h（一）方法，或者更一般地，如在AND-OR树Sx，y，w，h（l;$）-V-e-r-。C-U！不Sx，y，l，h·Sx+l，y，w−l，h（二）(AOT)模型[56，60]。我们在本文中使用后者。用Σ Λ表示由下式计算的潜在结构的空间：Sx，y，w，h（l;l）-H-o-r-。C-U！不Sx，y，w，l· Sx，y+l，w，h−l（三）域解析器。• 一种数据驱动的解析算法，该算法针对定义在上的给定样本xΛ。由于本文中使用的AOG的DAG结构，可以直接在两个阶段中实现解析al-tax m：一个自底向上的阶段，按照深度优先搜索（DFS）的顺序来计算AOG中所有节点的品质因数，和一个自顶向下的阶段，按照广度优先搜索（BFS）的顺序，通过在每个遇到的OR节点处做出决策来检索最优潜在结构。4. 案例研究：可解释的R-CNN在本节中，我们首先简要介绍了R-CNN的背景以及自上而下AOG [56，60]的构建。然后，我们介绍了AOG和R-CNN的端到端集成。4.1. 背景R-CNN框架R-CNN框架由三个部分组成：（i）ConvNet骨干，如用于特征提取的残差网络[24]，由Θ0参数化，并在区域建议网络之间共享Sx ywh！ tx，y，w，h|Sx，y，w，h（lmin;$）| ·· · |（四）Sx，y，w，h（w-lmin;$）|Sx，y，w，h（lmin;l）| ·· · |Sx，y，w，h（h-l min;l），其中Lmin表示分解中允许的有效子网格的最小边长（例如， lmin= 1 ）。当实例化时，第一个规则将由Terminal-node表示，第二个和第三个都由AND-node表示，第四个由OR-node表示。自上而下的AOG是通过以递归的方式应用四个规则来构造的[56，60]。用G=（V，E）表示AOG，其中V=V和[V或[VT和V和，V或和VT表示与节点、或节点和终端的集合节点，E是一组边。我们从V=开始以及先进先出队列Q=i。它展示了所有可能的潜在配置。图2显示了为3×3网格构建的解析树是AOG的实例化，其遵循AOG中节点的广度优先搜索（BFS）顺序，为每个遇到的OR节点选择最6038佳子节点，为每个遇到的AND节点保留两个子节点，并在每个遇到的Terminal节点处终止通过将解析树的所有终端节点折叠到图像域上来生成配置6039VTVTVTVT4.2. R-CNN中的AOGParsing算子我们现在在R-CNN中呈现自顶向下AOG的简单端到端集成，如图2所示。考虑AOGGh，w，lmin，网格大小为hw，节点允许的最小边长为lmin（例如，图2中的G3、3、1）。终端节点敏感特征映射。表示为Ft终端节点敏感特征图，用于AOG 中的终端节点t2VT，Gh，w，lmin。所有的F t具有相同的尺寸CHW，其中高度H和宽度W与RoIPooling/RoIAlign的输出的高度和宽度相同（例如，通道C是通道数量相对较少的通道，特别是对于大AOG(e.g.、C= 20）。令FRoI为RoIPooling或RoIAlign的输出特征图（参见图2）。Ft用ft表示终端的C诺德湾ft是经由特征图Ft中的tx，y，w，h所占据的子域中的逐通道平均池化或最大池化来计算的。表示为f VT 该C|- 维特征向量连接从所有的|-dimension feature vector concatenatedfrom all the终端节点。计算终端节点值。我们使用一简单的2层FC子网络（例如，FC +ReLu+FC+Sigmoid），它将f VT作为输入和输出|V T|终端节点值的分数。设st为a的值得分，终端节点t.设s VT为C ≤ T的切片重复终端节点值向量|Vt|- 维度。基于应用价值网络的三个策略，我们有s base作为基线权重向量，Top-k稀疏度方法mAP（VOC）Box AP（COCO）更快的R-CNN [50]82.138.5更快的R-CNN-D [71]82.2-我们的AOG3，3，1+基础81.9-我们的AOG3、3、1+k81.2-我们的AOG3，3，1+高级81.4-我们的AOG5，5，1+基础82.138.2我们的AOG5、5、1+k80.437.0我们的AOG5，5，1+高级81.438.0我们的AOG7，7，1+基础81.7-我们的AOG7、7、1+k81.2-我们的AOG7，7，1+高级81.7-表1.在交集大于并集（IoU）阈值0处使用平均精度（AP）进行性能比较。5（AP@0. 5）在PASCAL VOC 2007测试数据集中（使用方案，使用2007和2012 trainval数据集训练的竞争cocoval2017数据集。通过重新训练MMDetection中提供的模型进行公平比较来报告用于融合分类分支和箱回归分支共享的推断的潜在结构的信息面向潜在结构的特征规范化。最小批次中的不同样本可能使用所选择的不同数量的终端节点的为了减少后续FC层的波动，我们可以通过划分所选终端节点的数量来规范化潜在结构的特征。由于其DAG结构，AOG的集成不会影响端到端的培训。然而，培训效率通常受到自下而上阶段和诱导一个，而SAdv是对抗性攻击一个。与-VTp出于一般性的损失，用FT表示为重新校准的FEA。根据给定策略的终端节点t的真向量AOGParsing操作的自上而下阶段，连续性p2 {base，k，adv}. 同样，fp是连接的FEA-4.3. 折叠-展开学习真向量计算AND和OR节点的特征和值。为了简单起见，我们分别对AND节点和OR节点使用MEAN和MAX运算。我们遵守家庭服务部的命令。对于AND节点，其特征和值都是其子节点的平均值。对于一个OR节点，它的值是其子节点的最大值，而它的特征则是来自具有最大值的子节点的特征。计算每个样本的最佳解析树。解析树可以按照AOG中节点的BFS顺序以简单的方式检索从根节点开始，每个遇到的OR节点选择其最佳子节点，每个遇到的AND节点保留所有子节点。潜在结构然后由检索到的解析树中的终端节点定义。每个样品然后由一个C代表，|V T|- 维度特征，终端-仅保留推断的潜在结构中的节点，其他清零如图2所示，另一个FC层可以是fur-fur。由于终端节点敏感特征图和值是用随机初始化的参数计算的，因此在向前步骤的开始处计算好的节点值并做出关于为每个OR节点选择最佳子节点的好的决策是不合理的所有没有被解析树检索到的节点将不会在向后步骤中获得梯度更新。所以我们采用了折叠-展开学习策略。在折叠阶段，我们直接使用fp，因此所有终端节点和值子网络都以公平的方式训练。经过几个阶段后，我们将按照4.2节中的整个配方切换到学习的展开阶段。5. 实验在本节中，我们介绍了PASCAL VOC 2007 [13]和COCO 2017 [40]的实验结果。我们...在最新的MMDetection1中补充了所提出的方法1https://github.com/open-mmlab/mmdetection6040图3. AOG5，5，1 + adv在PASCAL VOC 2007和2012 trainval数据集中学习。在每一个中，我们绘制类别分布，显示每个类别的真阳性比例。(Best以彩色和放大率显示）代码平台[5]。我们以ResNet 101 [24]和特征金字塔网络（FPN）[39]为骨干构建Faster R-CNN [50]。我们通过在计算终端节点敏感特征和值子网络时调整特征维数C来保持模型的复杂我们的方法的推理时间与基线。我们在PASCAL VOC 2007中使用三种不同的AOG进行实验，G3，3，1，G5，5，1和G7，7，1。我们只测试COCO中的G5、5、1我们遵循默认的超-参数设置（例如，总的时期数，初始-初始学习速率及其调度）。对于折叠-展开学习，我们通常使用一半的epoch用于折叠，另一半用于折叠。我们注意到，所提出的方法可以在MMDetection平台中实现的其他系统中以简单的方式进行测试。所提出的方法获得一致可比的精度性能与基线系统。表1总结了结果。我们注意到，所观察到的性能波动可能是由于未调整某些超参数而引起的。我们将在我们的Github存储库中展示和更新更多的结果，并调整训练参数有趣的是，我们观察到对于应用值子网络的三种策略，香草策略获得了最好的性能，对抗攻击策略优于Top-k稀疏诱导策略。在目前的实现中，价值子网络是简单的，只关注并且，在Top-k及其对应物中移除未选择的终端节点的硬方式可能需要放宽到一些软版本。在下文中，我们将重点分析所提出的方法在下面。图1和图2中的示例都是使用AOG5，5，1+adv训练的模型。图3显示了PASCAL VOC中学习的AOG5 ， 5 ，1+adv虽然解释学习的AOG的“意义”并不容易，但它为从头开始学习可解释模型中开发可解释性敏感的目标函数提供了例如，使用AOG，我们将能够将以下两个项公式化为可解释性敏感的目标函数。样本x的隐部构形空间的可解释性和稀疏性。直观的想法是，基础的可解释模型应该更多地关注随机样本的最标签。此外，聚焦的潜在部分配置应该是稳定的，并在原始样本和其他新的增强样本之间保持一致如果我们可以展开潜在部分配置的空间，这通常是巨大的，我们可以评估可解释性得分的精神类似于[61]中使用的掩蔽和缩放算子，用于评估分层模型中自底向上/自顶向下计算过程的信息贡献。在一个类别内的不同图像上聚焦的潜在部分配置的稳定性直观的想法是，针对类别内的不同样本展开的不同聚焦潜在部分配置的数量应该很小，即，它们中的大多数在样本的子集之间共享限制和讨论。所提出的方法有两个主要的局限性，以解决在未来的工作。第一、6041图4.由AOG展开的潜在结构的示例。前三行显示PASCAL VOC 2007中三个AOG（G3，3，1+ adv、G5，5，1 + adv和G7，7，1 +adv）的结果之间的比较。为了清楚起见，我们在每个图像中只显示一个实例第四行显示了COCO中的一些检测结果。(Best以彩色和放大率显示）虽然它能以弱监督的方式定性地说明检测中的抽取原理，但难以定量地衡量模型的可解释性。定量可解释性的一个潜在方向是，我们将研究严格的定义，这些定义可以在端到端训练中形式化为可解释性敏感的损失项，如上面简要讨论的。其次，目前的实现所提出的方法并没有提高精度性能，虽然这不是我们在本文中的重点。我们将探索AOG中AND节点和OR节点的新算子我们希望检测性能将进一步提高与可解释性敏感的损失条款。6. 结论本文提出了一种将通用自顶向下语法模型（特别是AND-OR gram- mar模型）与自底向上ConvNets以端到端的方式集成的方法，用于使用R-CNN框架在对象检测它建立在两阶段R-CNN方法的基础上，并提出了一个AOGPars-ing 操作符与 RoIPooling- ing/RoIAlign 操作符无缝集成，以展开潜在零件配置空间。提出了一种学习中的折叠展开方法。在实验中，所提出的方法在PASCALVOC 2007和COCO val 2017基准测试中进行了测试，其性能与最先进的基线R-CNN检测方法相当所提出的方法计算的AOG中的最佳解析树作为定性提取的理由，在它揭示了在对象检测中学习定量可解释的模型确认作者要感谢匿名评论者的有益评论。这项工作得到了ARO基金W 911 NF 1810295，NSF IIS-1909644的部分Salesforce InauguralDeepLearningResearchGrant（2018）和ARO DURIP grant W911NF 1810209。本文中提出的观点是作者的观点，不应被解释为代表任何资助机构。6042引用[1] Sanjeev Arora，Aditya Bhaskara，Rong Ge，and TengyuMa.学习一些深度表示的可证明边界。在ICML，第584-592页，2014中。2[2] 阿尼什·阿塔利和伊利亚·苏茨科弗合成强大的对抗性例子。CoRR，abs/1707.07397，2017。2[3] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在CVPR，2017年。三、四[4] 肯·查特菲尔德，凯伦·西蒙尼扬，安德里亚·维达尔迪，和安德鲁·齐瑟曼.魔鬼的回归细节：深入研究卷积网络。InBMVC，2014. 4[5] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu ， Zheng Zhang ， Daizhi Cheng ， ChenchenZhu，Tianheng Cheng，Qijie Zhao，Buyu Li，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，Jingong Wang，JianpingShi，Wanli Ou，Chen Change Loy，and Dahua Lin.注意：打开 mmlab 检测工具箱和基准测试。 CoRR ，abs/1906.07155，2019。7[6] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。CoRR，abs/1606.03657，2016。4[7] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。在NIPS，2016年。一、二、三[8] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。CoRR，abs/1703.06211，2017。2[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。CoRR，abs/1703.06211，2017。4[10] DARPA可解释的人工智能（xai）程序，http://www.darpa.mil/program/ 解释的人工智能，在http://www.darpa.mil/attachments/darpa-baa-16-53.pdf完整征集。2[11] 艾米莉湖Denton，Soumith Chintala，Arthur Szlam，andRob Fergus.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。在NIPS，第14864[12] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能技术报告1341，蒙特利尔大学，2009年6月。4[13] Mark Everingham，S. M.放大图片作者：Christopher K.Williams，John Winn，and Andrew Zisserman. pas- calvisual object classes挑战：回顾展。IJCV，111（1）：98-136，Jan. 2015. 一、三、六[14] 放大图片作者：Manaal Faruqui，Jesse Dodge，SujayKumar Jauhar，Chris Dyer，Eduard H.Hovy，and NoahA.史密斯将词向量改造为语义词典。在NAACL，2015年。4[15] 佩德罗·F.费尔岑斯瓦尔布对象检测语法。在ICCV-2011年，第691页。三、四[16] 佩德罗 ·F. 罗斯？费尔岑斯瓦尔布 Girshick ， DavidMcAllester，and Deva Ramanan.有区别的6043基于零件的训练模型。 TPAMI ， 32 （ 9 ）： 1627-1645，Sept. 2010. 二、五[17] Chuang Gan ， Naiyan Wang ， Yi Yang ， Dit-YanYeung，and Alexander G.豪普特曼Devnet：用于多媒体事件检测和证据叙述的深度事件网络。在CVPR，第2568-2577页，2015年。4[18] Stuart Geman，Daniel Potter，和Zhi Yi Chi。组成系统。应用数学季刊，60（4）：7073[19] 罗斯·格希克。快速R-CNN。在ICCV，2015年。第1、3条[20] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。4[21] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。在NIPS，第2672-2680页，2014中。4[22] 田汉，杨璐，朱松春，吴英念。用交替反向传播学习具有连续潜在因子的生成卷积网络。 CoRR ，abs/1606.08571，2016年。4[23] 何凯明，乔治亚·吉克萨里，彼得·多尔，罗斯·吉尔希克.面罩R-CNN。InICCV，2017. 一、二[24] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、三、四、五、七[25] LisaAnneHendricks ， ZeynepAkata ， MarcusRohrbach ， Jeff Donahue ， Bernt Schiele 和 TrevorDarrell。生成视觉解释。在ECCV，2016年。4[26] 埃舍尔·赫尔曼斯和本杰明·施劳文。训练和分析深度递归神经网络。NIPS，第190-198页，2013年。4[27] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。2015年，在NIPS4[28] 全允浩和金俊模。活动卷积：学习卷积的形状用于图像分类。CoRR，abs/1703.09076，2017。4[29] Andrej Karpathy，Justin Johnson，and Fei-Fei Li.可视化和理解循环网络。CoRR，abs/1506.02078，2015。4[30] Andrej Karpathy和Fei-Fei Li。用于生成图像描述的深度视觉语义在CVPR，第3128-3137页，2015年。4[31] P. W. Koh和P.梁通过影响函数理解黑盒ICML，2017。4[32] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。在NIPS中，第1106-1114页，2012年。1、4[33] 布伦登M. Lake，Ruslan Salakhutdinov，and Joshua B.特南鲍姆通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332-1338，2015. 4[34] 布伦登M.托默·莱克作者：Joshua B.Tenenbaum，andSamuel J.格什曼制造像人一样学习和思考的机器。CoRR，abs/1604.00289，2016。26044[35] Svetlana Lazebnik ， Cordelia Schmid ， and Jean Ponce.Be-yond功能包：自然场景类别识别的空间金字塔匹配。CVPR，2006。3[36] Quoc V. Le ， Marc'Aurelio Ranzato ， Rajat Monga ，Matthieu Devin ， Greg Corrado ， Kai Chen ， JeffreyDean，and An- drew Y. Ng.使用大规模无监督学

下载后可阅读完整内容，剩余1页未读，立即下载