没有合适的资源?快使用搜索试试~ 我知道了~
1481ProtoSeg:基于原型部件的可解释语义分割Mikoaj Sacha1Dawid Rymarczyk1,2Kukasz Struski1JacekTabor1BartoszZielin′ ski1,31Facademic of Mathematics and Computer Science,Jagiellonian Univ ersity,Krako'w,Poland2Ardigen,Krako'w,Poland3 IDEAS NCBR,瓦尔斯,波兰{mikolaj.sacha; dawid.rymarczyk}@ doctoral.uj.edu.pl{lukasz.struski; jacek.tabor; bartosz.zielinski}@ uj.edu.pl摘要我们介绍了ProtoSeg,一种新的模型,可解释的语义图像分割,构建其预测,使用类似的补丁从训练集。为了达到与基线方法相当的精度,我们调整了原型部件的机制,并引入了多样性损失函数,增加了每个类中原型的多样性。我们发现,ProtoSeg发现语义概念,与标准的分割模型。在Pascal VOC和Cityscapes数据集上进行的实验证实了所提出方法的精度和透明度。1. 介绍图像类总线原型分割原型解释语义分割是许多视觉理解系统中的重要组成部分。然而,尽管基于深度学习的模型在具有挑战性的基准测试中取得了有希望的表现[49],但由于缺乏解释,它们的决策仍然不清楚[59]。这个问题在关键应用中可能特别成问题,例如医学成像或自动驾驶。大多数可解释人工智能(XAI)方法都专注于分类或回归任务[8,11,23,65,78]。因此,可解释的分割仍然被认为是一个开放的问题[60],在XAI和分割的交叉路口只有一些初步的工作。其中之一是符号语义(S2)框架[64],其中与分割一起,该模型生成来自分类分布的另一种方法[71]将Grad-CAM方法[65]推广到分割问题。然而,这两种方法都具有显著的缺点。前者需要预定义的符号词汇表,而后者可能是不可靠的,并对结果引入额外的偏差[3]。在本文中,我们介绍了ProtoSeg,一个可解释的图1:与现有方法相比,ProtoSeg提供了对结果分割的解释。为此目的,它操作的补丁选择从训练集(原型)对应的分割对象的部分。对于公共汽车,原型可以对应于车窗或车轮,分别用红色和橙色表示基于原型部件的语义分割方法[11]。虽然标准方法仅返回每个输入像素的类别概率,但ProtoSeg学习每个类别的原型,并使用它们来生成和解释来自训练集的补丁(案例)分割。如图1和第5节所示,主要目标是将同一个类的原型集中在不同的语义概念上。为此,我们引入了一个新的多样性损失函数,它增加了每个类的原型的多样性基于案例的方法的这种应用显著增加了分割模型的可解释性。此外,与以前的方法相比,它不需要用户额外的努力来提供解释。1482原型1原型2原型3原型4图像原型1激活原型2激活原型3激活原型4激活分割图图2:ProtoSeg为cat类的四个原型(列)和PASCAL VOC 2012的三个样本图像(行)生成的原型激活图。地图彼此不同,例如。原型1集中在猫我们看到ProtoSeg可以使用来自训练数据集的原型案例来导出语义概念。为了显示ProtoSeg的有效性,我们在三个数据集上进行实验:Pascal VOC 2021 [19],Cityscapes [16]和EM细分挑战[1]。结果表明,我们的可解释模型与原始黑盒方法(如DeepLabv 2 [13]或U-Net [58])之间的性能没有显着下降。此外,我们提出消融研究显示多样性损失如何我们提供了代码。因此,我们的贡献可归纳如下:• 我们引入一种采用原型部件来提供可解释的语义分割的模型,• 我们定义了一个多样性损失函数的基础上杰弗里• 我们展示了ProtoSeg可以用于不同的主干架构和各种语义分割任务。在本文的下一节中,我们讨论了相关的工作,然后在第三节中,我们介绍了ProtoSeg和多样性损失函数。在第4节中,我们描述了使用DeepLab [13]模型作为主干的实验设置,随后是第5节中的结果,其中我们还介绍了ProtoSeg对不同分段架构的可扩展性。最后,我们在第6节结束我们的工作。2. 相关作品可解释的人工智能。深度学习解释可以通过两种类型的模型获得:[59]事后方法解释了黑盒方法的推理过程。它们包括显着图[48,56,65,66,68],这是基本图像部分的热图,概念激活矢量(CAV)揭示了内部网络状态作为用户友好的概念[15,24,37,40,76],反事实示例[2,26,52,54,73],或分析网络对图像扰动的反应[8,21,22,57]。事后分析方法很方便,因为它们不需要对模型的体系结构进行任何更改,但它们可能会产生有偏见和脆弱的解释[3]。出于这个原因,自我解释的模型吸引了人们的注意[5,9],使决策过程更加透明。近年来,许多研究人员将重点放在增强-1483∈∈∈∈插值后图3:ProtoSeg由骨干网络f、原型层g和全连接层h组成。当骨干网络作为一个整体处理图像时,原型层和全连接层分别考虑特征图f(x)中的每个z最后对输出图进行类概率插值得到最终的分割结果使用Pro- toPNet [11]中引入的原型部分的概念来表示网络的激活模式。最突出的扩展包括TesNet [72]和可变形ProtoPNet [18],它们利用了原型构造中的正交性。ProtoPShare [63]、ProtoTree [53]和ProtoPool [62]减少了分类中使用的原型数量其他方法考虑使用原型进行分层分类[30],从潜在空间到数据空间的原型部分转换[41],以及从原型中提取知识的技术[36]。此外,基于原型的解决方案被广泛应用于各种应用中,例如医学成像[4,7,38,61,69]、时间序列分析[23]、图形分类[78]和序列学习[50]。在本文中,我们适应原型机制的语义分割任务。语义分割与计算机视觉的其他任务类似,最近的语义分割方法基于深度架构[25,28,47],特别是卷积神经网络[12,32,45,79]。此外,它们通常由两部分组成:在分类任务上预训练的编码器和将激活特征语义地投影到像素空间上的解码器网络。最流行的模型包括U-Net [58],它包含编码器中的下采样层和解码器中相应的上采样层之间的快捷方式,可以有效地捕获细粒度信息。 几作品使用额外的机制(如条件范围,[77]第77话提高质量此外,随着变压器架构的最新进展,[27,70,75,80]等模型用于获得最先进的结果。最后,Chen et al.[13]提出的DeepLab方法使用多种技术来改进现有方法:无环卷积、无环空间金字塔池化和条件随机场。我们提供了一个可解释的版本,这种方法。3. ProtoSeg在本节中,我们首先描述我们用于可解释语义分割的ProtoSeg方法的架构。然后,我们提供有关培训程序的信息最后,我们描述了一种新的正则化技术,增加了每个类内的各种原型。3.1. 架构图3示出了ProtoSeg的架构,其由骨干网络f、原型层g和通信层g组成。全连通层H。设xRH×W×3为RGB图像,特征映射f(x)RHd×Wd×D为该图像的骨干网络的输出。此外 ,让我们考虑z RD作为f(x)的一个点(或片)。每个z被传递到具有M个可学习原型p jRD的原型层g,以使用来自[11]的公式计算M个相似性得分(原型的激活):.z−pj2dom字段),以提高模型[6,10,42]. 一些方法适用于superpix-g(z,pj)=log2z−pj.(一)els [51,67],马尔可夫随机场[46],或学习像素亲和度[44,74]以获得分割的模块。其他人采用对比学习[14,34,80]或多重接受,通过具有权重矩阵w h∈ RM×C的全连接层h处理针对特征映射点z计算的M个相似性分数,以产生C个类别的概率。1z(,)=4.252z0.96((,CNN+ASPP(,)=的31.476.09汽车z4z(,z(,)=的5路骨干网原型层g全连通层h类标号类按z计算可携带性0.390.981.380.611484××LLLDD2S∈∈∈∈HHJ1L.lΣJ我 J作为处理从f(x)到g和w h的所有z的结果,我们获得形状为H dW dC的输出图。为了获得最终的分割,将该图插值到分辨率H×W× C。作为骨干网络,我们使用DeepLab [13],这是一种用于图像分割的标准模型,由ResNet-101 [31]在一些大 规 模 计 算 机 视 觉 任 务 上 预 训 练 , 然 后 是 AtrousSpatial Pyramid Pool(ASPP)层。在原型层g中,如[11]所示,每个原型都被分配给一个C类。我们定义Pc作为所有来自类c ∈ C的原型的集合,初始化w(c,j)=1,对所有p j∈Pc和w(c,j)=−0。5因为图像原型原型激活激活差异(a) L J值高。所有p j∈/Pc. 这种初始化将模型转向在特征映射点和它们的预测类的原型之间产生高激活,同时降低它们对来自其它类的原型的激活。与[13]类似,模型的输出在推理和训练阶段以不同的方式获得。在推理中,我们使用双线性插值来匹配分割图的大小与输入图像的大小,而在训练中,我们降低了地面真值分割的分辨率,以适应输出特征图的大小3.2. 多步骤训练程序我们应用[11]中的多步训练协议。我们从在相同的大型视觉识别任务上预训练的ResNet-101层开始,同时随机初始化ASPP和原型向量并设置权重,如第3.1节所我们从热身阶段开始,在那里我们冻结ResNet-101和wh权重,只训练ASPP和原型层。然后,我们运行一个联合优化过程,在那里我们训练除了wh权重之外的所有内容。接下来,图像原型原型激活激活差异(b)LJ的低值。图4:两种原型激活的J的高值和低值之间的比较。如果同一类的两个原型在同一区域(a)激活,则J具有高值。出于这个原因,我们添加J作为损失函数的附加分量,以增加每个类(b)中原型的种类杰弗里让我们回想一下,两个概率分布U和V之间的JeffreyDJ(U,V)=1DKL(U<$V)+1DKL(V<$U)(2)2 2我们执行原型投影,其中表示来自训练集的最近的片Z在这个阶段,我们还删除了投射到同一训练补丁上的重复原型类型。然后,在调优阶段,我们微调最后一层的权重。随后,我们应用原型修剪,使用[11]中最后,我们再次微调最后一层定义为Kullback-Leibler发散的对称化。显然,J(U,V)=0当且仅当U=V,并且J的大值意味着分布集中在不同的区域。现在给出一个分布序列U1,. . . 我们用公式介绍了它们的Jeffrey相似性S(U,. . . ,U)=1exp(−D(U,U))(3)3.3. 同一类我们简化了[11]的方法,并消除了我们发现对我们的方法来说是多余的聚类和分离损失。相反,我们将标准的交叉熵损失与一个附加组件相结合,该组件强制在不同的图像区域中激活同类原型(参见图4b),从而使模型最佳地利用原型(图5)。在本节中,我们将详细描述如何构造额外的损失项,以提高原型的多样性。观察Jeffrey相似性是置换不变的,它在区间[0,1]和J(U1,. . . ,Un)= 1当且仅当U1=. . . =U n.此外,如果分布U i有两两不相交的支撑,则SJ(U1,. . . ,Un)= 0。原型-类-图像距离向量设pPc为某个原型,Z=f(x)RHd×Wd×D为某个图像x经过主干f处理后的特征映射。还令Y ZRHd×Wd为每个特征地图点的地面实况类标签H.I j1485∈∈LLL·L·(c,j)联系我们Σ Σ运动发酵单胞我们将图像特征图Z和原型p之间的原型类图像距离向量定义为:v(Z,p)= softmax(z ij− p2 |z ij∈ Z:Y ij= c). (四)向量v(Z,p)测量原型pPc在被分配给类别c的图像的部分上的相对激活。我们注意到,向量v(Z,p)的长度等于Z中特征图上分配给C类原型多样性损失我们定义了原型序列Pc=(p1,. . .,p,k)从图像特征图Z上的相同类c,C,LJ(Z,Pc)= SJ(v(Z,p1),. . . ,v(Z,pk))。(五)注意J(Z,Pc)测量序列Pc内原型激活分布之间的差异从Z分配给他们的类的特征地图点它通过降低它们的原型类图像距离向量的Jeffrey相似性来最小化。最后,我们引入了特征映射Z和所有原型P的集合的总原型多样性损失1Σ图5:显示Cityscapes上每个类的特征映射点到原型的作为分配,我们理解为给定的特征映射点找到最高激活原型。在上面一行中,我们展示了使用多样性损失J训练的模型,而在底部没有J。可以观察到,多样性损失增加了ProtoSeg对原型的利用。和Adam [39]优化器,权重衰减为510−4,β1=0。9,β2=0。999我们在训练过程中冻结批量归一化参数,以避免由于批量较小而导致的噪声归一化统计在热身阶段,我们使用恒定的学习率2。5·10−4,训练LJ=C c=1LJ(Z,Pc).(六)3·104步。 在联合训练阶段,我们以2的学习率开始。ResNet-101权重为5·10−5,5·10−4在热身和联合训练期间的最后损失是L=LCE+λJ·LJ,(7)其中,CE是像素分块分类的交叉熵损失,λJ是控制同类原型在其签名类内的多样性遵循[11]的训练协议,我们在微调阶段在wh权重上添加额外的L1范数损失项,使这些阶段的总损失等于CLF=L+ λL1·|wh|.(八)c=1j:pj∈/Pc4. 实验装置在所有实验中,我们使用DeepLab [13],ResNet-101 [33]在ImageNet [17]或COCO [43]上预训练权重。我们为每个类分配10个原型,并将原型大小设置为D=64。我们将损失项的权重设为λL 1= 10−4和λJ0,0。二十五 对于输入图像,我们采用增强技术,如随机裁剪,水平翻转和缩放范围[0]内的因子的图像。五一5]。我们使用的批量大小等于10用于ASPP和原型层。我们采用幂= 0的多项式学习率策略[13]。9、培训为3104步。 在这两个微调阶段,我们使用恒定的学习率等于10−5,并训练2000步。我们在单个NVidia GeForce RTX 2080 GPU上运行实验。对于这两个数据集,整个训练过程需要长达48小时。代码使用PyTorch [55]和Pytorch Lightning [20]库编写Pascal VOC 2021. 我们在PASCAL VOC 2012分割基准[19]上评估ProtoSeg,该基准由1464个训练,1449个验证和1446个测试图像组成,具有来自21个不同类别的像素级标签,包括20个前景类别和一个背景类别。我们使用[29]中提供的具有10582个图像的离线增强训练aug数据集进行模型训练。然而,我们使用非增强训练集用于原型投影阶段。我们采用多尺度输入与最大融合(MSC)[13]使用刻度0. 5,0。75和1。0的情况。我们在训练期间将 图 像 分 辨 率 设 置 为 321×321 像 素 , 并 在 大 小 为513×513像素的完整图像上进行评估以进行推理。城 市 景 观 。 我 们 还 在 Cityscapes 上 测 试 了 ProtoSeg[16],这是一个大规模的图像分割数据集,包含2975个训练,500个验证和1525个街道场景测试图像。C1486valtestL×LLL数据集方法预训练mIOUDeepLabv2 COCO 77. 6979.70数据集λJ原型重叠(mIOU)mIOUPASCAL语言0.00 48.16 69.600.25 26.59 72.05Pascal城市景观ProtoSeg COCO 67.98 68.71ProtoSeg ImageNet 72.05 72.92DeepLabv2 COCO 71.40 70.40ProtoSeg COCO 55.35 56.77ProtoSeg ImageNet 67.23 67.04城市景观0.00 57.99 61.600.25 24.09 67.23表2:我们分析了来自同一类的两个原型的激活图如何相互重叠。为此,我们将所有原型的激活图二值化,并计算所有原型对的平均IOU,表 1 : ProtoSeg 和 基 线 方 法 在 PASCAL VOC 2012 和Cityscapes的确认和测试集上的性能。可解释性伴随着mIOU的减少。然而,这是用我们的多样性损失来补偿的。图6:来自ProtoSeg的类车的四个原型的激活图,所述ProtoSeg在没有J(左列)和具有J(右列)的情况下训练。在前者中,不同原型的激活是重叠的,而在后者中,原型的多样性增加。根据数据集作者的建议,我们在19个选定的像素类上训练和评估模型,并在训练和评估过程中忽略空白类我们使用与PASCAL VOC 2012相似的设置,但有以下差异:缺乏MSC遵循[13],在分辨率为513 513像素的随机图像作物上进行训练,并在原始分辨率为1024 ×2048像素的完整图像上进行评估。5. 结果表1列出了针对以下各项的验证集和测试集获得的平均交集(mIoU)评分:同一个班级。应用J后,重叠减少了一半,这在数值上证实了原型的可变性增加。我们还在最右侧列中报告了细分mIOU分数。PASCALVOC 2012 和 Cityscapes , 采 用 基 线 方 法 和ProtoSeg,λJ=0。二十五我们观察到,与基线方法相比,ProtoSeg的可解释性伴随着mIOU的减少。这可能是由原型引入的约束引起的,在我们看来,可以通过更扩展的超参数搜索来改进。在补充材料中,我们在Pascal VOC 2012上对ProtoSeg的超参数进行了消融研究与[13]相比,ProtoSeg产生了比COCO分割任务更好的结果,其中权重是从在ImageNet分类我们假设在ImageNet表示上学习的原型可以提供更多信息,因为它们对应于更通用的图像分类任务,而在COCO分割上进行预训练后的表示可以专注于更特定于任务的特征,例如对象边界。最后,我们没有应用CRF [13],这可以进一步提高准确性。原型多样性损失的影响 在表2中,我们比较了应用和不应用J.我们观察到ProtoSeg在λ J = 0时实现了更高的准确度。λJ=0。 这可能是由于不同原型的信息量更高,从而导致更好的泛化。为了分析这一趋势,我们计算了原型重叠的附加度量,我们也在表2中给出了该度量。为此,我们使用第95百分位数对所有原型的激活图进行二进制化,并计算同一类中所有原型对的高度激活区域的平均IOU。在应用我们的J.因此,平均而言,对于来自同一类别的两个原型,当λ J = 0时,它们的高度活化区域具有约50%的重叠,而当λ J = 0时,仅具有约25%的重叠。二十五图6显示了活动1487L联系我们图7:PASCAL VOC 2012(左)和Cityscapes(右)上的ProtoSeg分割ProtoSeg捕获整体对象轮廓,但对于细粒度细节可能不准确。请注意,评估中未考虑的像素在地面实况图像中用黑色掩蔽。数据集培训阶段原型mIOU热身21025.65Pascal联合训练21068.24投影20172.00修剪13372.05热身19031.45城市景观联合训练19065.38投影18867.24修剪12867.23表3:PASCAL VOC 2012和Cityscapes验证集的连续训练阶段后的模型性能。最高增益是在联合训练后实现的。然而,投影步骤也是有益的。与此同时,修剪并没有引入显著的性能改进,但删除了大约30%的不相关原型。来自类车的原型图,用于用λJ0,0训练的模型。25在Cityscapes上使用ImageNet预训练。我们观察到,用非零λJ训练的模型的原型在语义上不同的区域激活,而没有多样性损失的模型学习不可区分的原型。总之,我们观察到添加非零J增加了原型的多样性,并允许将其解释为特定的语义对象概念。使用可解释的原型进行分割。在图7中,我们展示了在ImageNet 上 预 训 练 的 模 型 预 测 的 分 割 图 的 示 例 ,λJ=0。二十五此外,为了证明ProtoSeg可以找到语义上有意义的原型,我们在图2中绘制了激活图在PASCAL VOC 2012上训练的类cat的原型。我们注意到,该模型学习的原型表示相同的语义部分的概念,在整个不同的图像。例如,图2中的原型1在猫的鼻子上激活,原型3在猫嘴的外缘上激活。然而,有些原型可以携带低级信息;例如,原型2在猫的边缘周围激活。原型的激活还可以用于将图像分割成语义概念,如图8所示,其中,类人的四个原型在不同的对象片段上被激活,并且可以被解释为指向对象的特定部分,诸如腿、躯干或人的轮廓与背景之间的边界。我们在补充材料中提供了更多的例子来说明原型的可不同训练阶段后的准确性。如第3.2节所述,ProtoSeg采用影响模型性能和原型数量的多阶段程序。在表3中,我们显示了使用ImageNet预训练和λ J = 0训练的模型的mIOU得分。25经过不同的培训阶段,以及独特的pro-totypes的数量我们看到,该模型需要所有层的联合训练,包括骨干,以达到令人满意的准确性。我们还注意到,投影和修剪阶段对模型性能没有负面影响,即使它们大大减少了原型的数量。PCaistycsaclaVpOeCs2012预测地面实况图像1488图像预测原型解释类人原型图8:图像(第一列)的样本分割(第二列)和来自ProtoSeg在Cityscapes上获得的类人的四个原型(第三列)的解释。通过将具有最大激活的原型分配给所考虑的像素来获得具有原型的解释。右栏中的图片显示了四个原型(在腿、躯干或其他碎片上激活),它们的框架颜色与第三栏中的颜色相对应。型号mIOU像素误差U-Net78.740.0537ProtoSeg(U-Net主干)76.580.0540表4:EM分割挑战数据集上基线U-Net和具有U-Net主干的ProtoSeg之间的比较ProtoSeg实现了与基线模型相当的像素误差,同时引入了其预测的可解释性。具有不同主干的ProtoSeg。在本节中,我们将展示ProtoSeg对不同主干模型的适应性。我们使用ProtoSeg扩展了U-Net [58],并在ISBI 2012 [1]的EM分割挑战数据集上对其进行了评估,该数据集包含果蝇幼虫的30个像素标记的显微镜图像。为了进行评估,我们将数据集随机分为20个训练样本和10个测试样本。我们的模型实现了与U-Net几乎相同的像素误差(见表4),同时通过原型引入了模型透明度。在补充材料中,我们提供了关于基于U-Net的方法的训练的细节和一些预测示例6. 结论在这项工作中,我们提出了ProtoSeg,这是一个语义分割模型,它通过引用在训练集上找到的原型。此外,为了增加每个类中原型的可变性,我们提供了一个新的多样性损失函数。如在各种语义分割数据集上进行的实验中所示,我们开发了一种方法,该方法允许对所获得的分割进行解释,并实现了与基线方法相当的精度。未来工作的可能领域包括提高ProtoSeg的精度,并将其应用于最先进的分割架构或更具挑战性的分割任务。我们也看到了在更好的原型选择或类之间共享原型方面的改进空间。代 码 可 用 性 。 我 们 提 供 了 代 码 :https://github.com/gmum/proto-segmentation确认D. Rymarczyk是在研究项目“生物启发的人工神经网络”(批准号:POIR.04.04.00-00- 14 DE/18-00),该项目由欧洲联盟在欧洲区域发展基金下共同资助。M的工作。Sacha,J. Ta-bor和B. Zieli n'ski由国家科学中心(波兰)资助。2021/41/B/ST 6/01370,以及ESTA的工作。Struski是由国家科学中心(波兰)批准号。2020/39/D/ST6/01332。1489引用[1] EM细分挑战,ISBI 2012。https://imagej.net/events/ISBI-2012-细分-挑战。[2] Ehsan Abbasnejad 、 Damien Teney 、 Amin Parvaneh 、Javen Shi和Anton van den Hengel。反事实视觉与语言学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第10044-10054页[3] 朱利叶斯·阿德巴约,贾斯汀·吉尔默,迈克尔·穆利,伊恩·古德费洛,莫里茨·哈特和比恩·金。显著性图的健全性检查。In S. Bengio,H. Wallach,H. 拉罗谢尔K.格劳曼Cesa-Bianchi和R. Garnett,编辑,《神经信息处理系统进 展》,第31卷。 Curran Associates ,Inc.2018年。[4] Michael Anis Mihdi Afnan , Yanhe Liu , VincentConitzer , Cynthia Rudin , Abhishek Mishra , JulianSavulescu,and Ma- soud Afnan.可解释的,而不是黑箱,人工智能应该用于胚胎选择。人类生殖开放,2021年。[5] David Alvarez Melis和Tommi Jaakkola。用自解释神经网络实现强大的可解释性。In S. Bengio,H. Wallach,H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett,编者,《 神 经 信 息 处 理 系 统 进 展 》 , 第 31 卷 。 CurranAssociates,Inc. 2018年。[6] Anurag Arnab和Philip HS Torr。使用深度高阶crfs的自底向上实例分割。arXiv预印本arXiv:1609.02583,2016年。[7] Alina Jade Barnett , Fides Regina Schwartz , ChaofanTao , Chaofan Chen , Yinhao Ren , Joseph Y Lo ,Cynthia Rudin.基于案例的可解释深度学习模型用于数字乳腺X射线摄影中肿块病变的分类。Nature MachineIntelligence,3(12):1061[8] Dominika Basaj,Witold Oleszkiewicz,Igor Sieradzki,MichaeloGo'rszczak,BRychalska,TTrzcinski,andBZielin-ski.用视觉探测解释自我监督的图像表示。在2021年的商业情报国际联合会议[9] 维兰德·布伦德尔和马蒂亚斯·贝奇。用局部特征袋模型近似CNN在imagenet上的效果令人惊讶。在2019年国际学习代表会议上[10] Siddhartha Chandra和Iasonas Kokkinos基于深度高斯crfs的语义图像分割的快速、精确和多尺度推理。欧洲计算机视觉会议,第402-418页。施普林格,2016年。[11] Chaofan Chen,Oscar Li,Daniel Tao,Alina Barnett,Cynthia Rudin,and Jonathan K Su.看起来像这样:深度学习用于可解释的图像识别。神经信息处理系统的进展,第8930-8941页,2019年。[12] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv:1412.7062,2014。[13] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[14] Xiaokang Chen,Yuhui Yuan,Gang Zeng,and JingdongWang.交叉伪监督的半监督语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第2613-2622页[15] 陈志,贝义杰,辛西娅·鲁丁。用于可解释图像识别的概念白化。Nature Machine Intelligence,2(12):772[16] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议(CVPR),2016年。[17] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。[18] Jon Donnelly,Alina Jade Barnett和Chaofan Chen。可变形protopnet:一个可解释的图像分类器使用变形原型。在IEEE/CVF计算机视觉和模式识别会议论文集,第10265-10275页[19] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊[20] WilliamFalcon 等 Pytorch 闪 电 。 GitHub. 注 :https://github.com/PyTorchLightning/pytorch-lightning,2019年3月。[21] Ruth Fong,Mandela Patrick,Andrea Vedaldi.通过极值扰动和平滑掩码理解深度网络。在IEEE/CVF国际计算机视觉会议论文集,第2950-2958页,2019年。[22] Ruth C Fong和Andrea Vedaldi。用有意义的扰动解释黑盒的解释。在IEEE计算机视觉国际会议的Pro-ceedings中,第3429-3437页[23] Alan H Gee , Diego Garcia-Olano , Joydeep Ghosh 和David Paydarfar。用学习过的原型解释时间序列数据在CEUR研讨会论文集,第2429卷,第15页。NIH PublicAccess,2019。[24] Amirata Ghorbani,James Wexler,James Y Zou,andBeen Kim.基于概念的自动解释。In H. Wallach ,H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc,E. Fox和R. Garnett,编辑,《神经信息处理系统》,第32卷。Curran Associates,Inc.2019.[25] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在IEEE会议录中1490计算机视觉和模式识别会议,第580-587页[26] Yash Goyal,Ziyan Wu,Jan Ernst,Dhruv Batra,DeviParikh,and Stefan Lee.反事实的视觉解释。国际机器学习会议,第2376- 2384页。PMLR,2019年。[27] Jiaqi Gu , Hyoukjun Kwon , Dilin Wang , Wei Ye ,Meng Li , Yu-Hsin Chen , Liangzhen Lai , VikasChandra , and David Z Pan. 多 尺 度 高 分 辨 率 视 觉Transformer,用于语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第12094-12103页[28] SaurabhGupta,RossGirshick,PabloArbela' ez,andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和 分 割 。 欧 洲 计 算 机 视 觉 会 议 , 第 345-360 页 。Springer,2014.[29] Bharat hHariharan,PabloArbela' ez,LubomirBourdev,Subhransu Maji,and Jitendra Malik.从反向检测器的语义轮廓2011年国际计算机视觉会议,第991-998页[30] Peter Hase , Chaofan Chen , Oscar Li , and CynthiaRudin.具有层次原型的可解释图像识别。在AAAI人类计算和众包会议论文集,第7卷,第32-40页[31] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 。 CoRR ,abs/1512.03385,2015。[32] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE Transactions on Pattern Analysis and MachineIntelligence,37(9):1904[33] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[34] 胡汉哲,崔进士,王立伟用于语义分割的区域感知在IEEE/CVF计算机视觉国际会议论文集,第16291-16301页[35] 哈罗德·杰弗里斯。概率论概率论牛津大学出版社,1998年。[36] Monish Keswani 、 Sriranjani Ramakrishnan 、 NishantReddy和Vineeth N Balasubramanian。Proto2proto:你能像我一样认出这辆车吗?在IEEE/CVF计算机视觉和模式识别会议论文集,第10233-10243页[37] Been Kim , Martin Wattenberg , Justin Gilmer , CarrieCai,James Wexler,Fernanda Viegas,et al.特征属性的可解释性:概念激活向量定量测试。国际机器学习会议,第2668-2677页。PMLR,2018。[38] Eunji Kim , Siwon Kim , Minji Seo , and SungrohYoon.Xpro- tonet:胸部X线摄影诊断,包括整体和局部解释。在IEEE/CVF计算机视觉和模式识别集,第15719[39] Diederik P. Kingma和Jimmy Ba。Adam:A method forstochastic optimization,2014.[40] Pang Wei Koh , Tha
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功