没有合适的资源?快使用搜索试试~ 我知道了~
弱监督目标定位的视觉Transformer模型
2886TS-CAM:用于弱监督目标定位的高伟1方万1 * 潘兴佳2、3彭志良1齐田4韩振军1周波磊5叶启祥1*1中国科学院大学2优土实验室、腾讯3中国科学院自动化研究所NLPR4华为云AI5香港中文大学{vasgaowei,xjia.pan}@ gmail.com,{wanfang,hanzhj,qxye}@ucas.ac.cnhuawei.com,bzhou@ie.cuhk.edu.hk摘要弱监督对象定位(WSOL)是一个具有挑战性的问题,当给定的图像类别标签,但需要学习对象定位模型。 优化用于分类的卷积神经网络(CNN)倾向于激活局部区分区域,而忽略完整的对象范围,从而导致部分激活问题。在本文中,我们认为部分激活是由CNN的内在特征引起的,其中卷积操作产生局部感受野,并且难以捕获像素之间的长程特征依赖性。为了充分利用视觉Transformer中的自注意机制来实现长距离依赖,(a) 图像(b) CAM(c)TransAttention(d)TS-CAM(我们的)萃取TS-CAM首先将图像分割成用于空间嵌入的补丁令牌序列,其产生长距离视觉依赖的注意力图以避免部分激活。TS-CAM然后为补丁令牌重新分配类别相关的语义,使得它们中的每一个能够知道对象类别。TS-CAM最后将补丁标记与语义不可知的注意力图耦合,以实现语义感知的本地化。在ILSVRC/CUB-200-2011数据集上的实验表明,TS-CAM的性能比CNN-CAM高7.1%/27。百分之一实现最先进的性能。代码网址:https://github.com/vasgaowei/TS-CAM1. 介绍弱监督学习是指利用具有不完整注释的训练数据来学习识别模型的方法弱监督目标定位*通讯作者图1.弱监督对象定位结果的比较。(a)输入图像。(b)类激活图(CAM)。(c)TransAttention:基于Transformer的注意力。(d)TS-CAM。对象定位框为红色。(Best颜色显示)仅需要指示图像中一类对象的存在或不存在的图像级注释来学习定位模型[23,24,28,46]。WSOL已经吸引了越来越多的关注,因为它可以利用带有标签的丰富Web图像来学习对象级模型[46]。作为WSOL [7]的基石,类激活映射(CAM)[55]利用来自最后一个卷积层的激活图来生成用于对象边界框估计的语义感知定位图。然而,CAM遭受对象区域的严重低估局部判别区域能够最小化图像分类损失,但经验2887W远程特征依赖性h矢量化...补丁令牌重塑语义不可知的补丁令牌注意力地图类令牌W局部感受野WH卷积H语义分配坦奇小范围特征依赖语义激活图(一)(b)第(1)款W语义重分配远程特征依赖性N个令牌...h矢量化语义感知地图W语义补丁令牌×联轴器H重塑令牌语义耦合注意力地图语义不可知的注意力地图…类令牌...补丁令牌(c)图2.(a)基于CNN的CAM、(b)基于转换器的注意力和(c)所提出的TS-CAM的机制的比较。基于CNN的CAM方法受到小范围特征依赖的限制,基于变换器的注意力受到语义分析问题的限制。TS-CAM是能够产生语义耦合的注意地图,完整的对象定位。(彩色效果准确的目标定位的困难[46],图1(b)。已经通过提出各种正则化[50,51,46,20,21,6]做出了很多努力来解决这个问题,发散激活[33,46,48]或对抗训练[8,21、43、50、48、33]。然而,很少有工作要注意从根本上解决CNN的本地表示的固有缺陷,图。第2段(a)分段。捕获长距离特征依赖性对于WSOL是至关重要的,长距离特征依赖性可以被解释为不同空间位置中的特征之间的语义相关性。最近,视觉Transformer已被引入到计算机视觉领域。 Visual Transformer [10] constructs通过将输入图像分割成具有位置嵌入的补丁并应用级联Transformer块来提取视觉表示的令牌序列。由于自注意机制和多层感知器(MLP)结构,视觉变换器可以学习复杂的空间变换并自适应地反映长程语义相关性,这对于定位完整对象范围至关重要,Fig.第1段(d)分段。然而,由于以下两个原因,视觉Transformer不能(1) 当使用补丁嵌入时,输入图像的空间拓扑结构(2)视觉转换器的注意力图是语义不可知的(不能区分对象类),并且不能胜任语义感知定位,图第2段(b)分段。在这项研究中,我们提出了令牌语义耦合注意力图(TS-CAM),首次尝试弱监督的视觉Transformer的目标定位。TS-CAM引入了具有两个网络分支的语义耦合结构,图1.在图2(c)中,一个使用补丁令牌执行语义重新分配,另一个在类令牌上生成语义不可知的注意力图。语义重新分配,类补丁语义激活,使补丁令牌知道对象类别。语义无关的注意力图旨在通过利用Transformer中级联的自注意力模块来捕获补丁令牌之间的长距离特征依赖性TS-CAM最终将语义感知图与语义不可知的注意力图耦合以用于对象定位,图1B。第2段(c)分段。本工作的贡献如下:• 我 们 提 出 了 令 牌 语 义 耦 合 注 意 力 图 ( TS-CAM),作为第一个坚实的基线WSOL使用视觉Transformer,利用长距离的功能依赖。• 我们提出了语义耦合模块,将语义感知的标记与语义不可知的注意力地图相结合,提供了一种可行的方式来利用2888×个×个nt∈RD×{∈}用于对象定位的语义和由视觉Transformer提取的定位信息。• TS-CAM在两个具有挑战性的WSOL基准测试上实现了对先前方法的实质性改进,充分利用了视觉Transformer中的长距离特征依赖性。2. 相关工作弱监督对象本地化(WSOL)旨在学习仅给定图像级别类别标签的对象本地化。WSOL的代表性研究是CAM [55],它通过使用特定于类的全连接层聚合深度特征图来生成定位图。通过删除最后一个全连接层,CAM也可以通过全卷积网络实现[15]。尽管基于CAM的方法的简单性和有效性,他们遭受识别对象的小的歧视性部分为了改善CAM的激活,HaS [33]和CutMix [33]在输入图像上采用对抗性擦除来驱动专注于扩展对象部分的定位模型。ACoL [50]和ADL [8]反而删除了与区分区域相对应的特征图,并使用逆向训练的分类器来重新转换丢失的部分。SPG [51]和I2 C [52]通过将像素级相关性的约束引入网络来提高定位图的质量。DANet [46]应用发散激活来学习WSOL的互补视觉线索。SEM [53]和SPA [22]通过使用种子区域内的逐点相似性来GC-Net [20]考虑了几何形状,并提出了WSOL的多任务损失函数。大多数上述方法通过将复杂的空间正则化技术引入CAM来努力扩展然而,图像分类和目标局部化之间正如可视化方法[3,49]所观察到的那样,CNN倾向于将对象分解为对应于局部感受野的 激活几个语义元素可以带来良好的分类结果。如何从局部感受野收集全局线索的问题仍然存在。弱监督检测和分割是与WSOL密切相关的视觉任务。弱监督检测训练网络同时执行图像分类和实例定位[41,39,27]。给定数千个区域建议,学习过程在训练检测器时从包中选择高分实例。以类似的方式,弱监督分割训练分类网络以估计伪掩模,伪掩模进一步用于训练分割网络。为了生成准确的伪掩模,[17,1,14,41,56]采用了区域增长策略。与此同时,一些研究人员研究以直接增强特征级激活区域[18,44]。其他人通过使用多个阶段进行训练来积累CAM[16],探索边界约束[5],利用语义分割的等价性[42],以及挖掘交叉图像语义[35]来细化伪掩模。与WSOL类似,许多弱监督检测和分割方法倾向于定位对象部分而不是完整对象范围。需要探索新的分类模型来解决部分分类问题。系统化的激活问题长距离特征依赖性。CNN产生具有不同接收场的局部特征的分层集合。不幸的是,大多数CNN [31,12]擅长提取局部特征,但难以捕获全局线索。为了减轻这种限制,一种解决方案是利用像素相似性和全局线索来细化激活图[41,42,52,53]。Cao等人[4]发现由非本地网络建模的全局上下文对于查询位置几乎相同,因此提出了NLNet [40]与SENet [13]用于全局上下文建模。MST [34]提出了可学习树过滤器来捕获最小生成树的结构属性,以建模长距离依赖关系。另一个解决方案是注意力机制[40,26,54]。非局部操作[40]以自注意的方式引入CNN,使得每个位置处的响应是所有(全局)位置处的特征的加权和。SASA[26]验证了自我注意力是CNN的有效独立层。关系网络[9]提出通过特征和几何之间的交互同时处理一组对象,允许对对象之间的空间关系进行建模。最近的研究在Transformer模型中引入了级联自注意机制,以捕获长距离特征依赖性[45,37,47,25]。3. 方法在这一节中,我们首先给出可视化Transformer的预备知识。然后,我们介绍了TS-CAM方法。3.1. 预赛对于视觉Transformer [10],W/H分辨率的输入图像X被划分为w/h个块,其中w = W/P,h =W/P,并且P表示块的宽度/高度。对分割后的面片进行展平和线性投影,构造出N =w h个面片标记 的t0R1×D,n=1,2,…,N和类令牌01×D,图3。代表的尺寸每个令牌e*嵌入。类标记t可通过随机初始化每个令牌都添加了一个可学习的以逐元素的方式定位嵌入。这些令牌被馈送到L个级联Transformer块中,每个变换器块由多头自注意层和多层感知器(MLP)块组成。2889图像分类损失���’分类概率(′)���TS-CAM,全局平均池化语义感知地图(,,.. ,)WSemanticCouplingW×个卷积令牌特征映射(L)串联重塑H语义感知地图H令牌语义耦合注意力地图L1L二、三、四代币嵌入LH边界框预测H工位埋重塑W视觉TransformerW...语义不可知的注意力地图()���定位结果类令牌补丁令牌n∗·D×*∈12N=−logΣΣ--、Σ1 2N--训练推理图3.TS-CAM框架,该框架由一个用于特征提取的可视化Transformer、一个语义重分配分支和一个语义耦合模块组成注意,沿着语义重新分配分支不存在梯度反向传播。表示tl和tl∗ 作为第n个补丁令牌位置并反映特征空间依赖性。完成网站第l个Transformer块的令牌。最后一嵌入的类令牌tL被馈送到MLP块以预测分类概率,如p=Softma x。其中p∈R1×C,C表示类的个数.语义感知补丁令牌,我们建议重新分配从类标记到补丁标记tL,tL,..., 特湖∗如图3、将第L个视觉Transformer块的补丁令牌嵌入级联并转置为tL∈RD×N。 然后将它们重新塑造为令牌要素映射tL∈ RD×w×h,其中tL,d ∈ {1,2,…,D}表示表示到类别c的预测概率。 MLP表示由MLP实现的分类功能的dD-th特征图。语义感知映射Sc丙类块 将图像x的地面实况标签表示为y∈{1、2、… C},分类损失函数被定义为LT=−logpy,(2)用于训练视觉Transformer。3.2. TS-CAM我 们 提 出 了 TS-CAM 方 法 来 在 训 练 的 视 觉Transformer上生成语义感知的定位图,图1B。3.第三章。但是,在可视化Transformer中,只有类令牌是语义感知的,而补丁令牌是语义不可知的。为了实现语义感知的本地化,我们引入-通过卷积计算为Sc=tL*kc,d,(3)D其中kRC×D×3×3表示卷积核,kc,d是由c和d索引的3 ×3核映射。是卷积运算符。 为了产生语义感知的映射,在等式(1)中定义的损失函数可以是:2更新为L′T= −logp′yexp. Σ。nSn,y/NΣΣ(4)Cnn、c引入语义重新分配分支以将语义从类令牌转移到补丁令牌并生成语义感知映射。这样的语义感知图与语义不可知注意力图耦合以生成语义感知定位图。语义重新分配。Visual Transformer使用类标记来预测图像类别(语义),同时使用语义不可知的补丁标记来嵌入对象空间其中Sn,c是类别c的第n个补丁令牌的语义。在优化Eq.2将语义分配给类标记t L,最小化Eq. 4将语义重新分配给补丁tokenstL,tL,…tL,生成语义-aw是用于WSOL。语义不可知的注意力地图。 为了充分利用视觉Transformer的长距离特征依赖性,我们提出了聚集类expS/N2890标记的注意力向量2891∈v∗×个·⊗A=ΣA,(6)×个×个以生成语义不可知的注意力图。表示tlR(N+1)×D作为Transformer块l的输入,变换器块l通过连接所有令牌(包括类令牌和所有补丁令牌)的嵌入来计算。在第(1)个Transformer块中的自注意操作中, 嵌 入的k_ens~tl被计算为:~tl=Softma x.(tlθl)(tlθl)T/√DΣ(tlθl)4. 实验4.1. 实验设置数据集。TS-CAM在两个常用的基准上进行评估,即,CUB-200-2011 [38]和ILSVRC [29]。CUB-200-2011是一个包含200个不同物种的细粒度鸟类数据集,它被分为5,994张图像的训练集和5,794张图像的测试集。在ILSVRC中,Q K=A1(t1θ1),五(5)在1左右。200万张图片,大约1000个类别用于训练,50000张图片用于验证。该模型在训练集上进行训练,并在验证上进行评估设置边界框注释仅用于其中θ1、θ1和θ1分别表示qkv在第(1)个Transformer块中自注意操作的线性变换层。T是转置运算符。评价评估指标。Top-1/Top-5分类准确度(Top-1/Top-5 Cls.Acc),Top-1/Top-5定位精度Al∈R(N+1)×(N+1)是注意力矩阵,而Al∈R(N+1)×(N +1)是注意力矩阵。R1×(N +1)是类令牌的注意力向量。在* 中,考虑K个头部的多头注意力层,等式中的D。5更新为D’,其中D’=D/K。然后将Al更新为来自K个头部的注意力向量的平均值。当量5意味着Al通过 *矩阵乘法运算记录类令牌对所有令牌的依赖性当量5意味着类的嵌入t〜l到自注意力操作的k_en是通过y*乘以其注意力来计算的。在第(1)个Transformer块中具有嵌入tl的向量Al。 t~l*因此能够“看到”所有到k ens的补丁,其中A l暗示 * 对每个到k en的补丁给予了多少关注。 当Eq*。4被优化时,注意向量Al被驱动以聚焦在对象区域(例如,区域A)上。例如,在一个实施例中,语义的长程特征校正)用于图像分类。最后的关注向量A * 定义为1L*L*L其聚合注意向量(Al)并从m*er块的级联t_r_ans收集特征依赖性c_y以指示完整对象范围。语义-注意力耦合。由于注意力向量A*是语义不可知的,我们使用逐元素乘法将其与语义感知映射耦合,以获得每个类c的语义耦合注意力映射Mc,图3。偶联程序被公式化为Mc=Γw×h(A*)Sc,(7)其中表示逐元素乘法和加法运算。Γw×h()表示将注意力向量(R1×N)转换为注意力映射(Rw×h)的整形函数M。被上采样到语义感知定位图,其用于利用阈值方法的对象边界框预测[51]。(顶部-1/顶部-5位置Acc)和具有地面实况等级的定位精度(Gt-Known Loc. Acc)作为基线方法后的评价指标[29,51,55]。对于定位,当满足以下条件时,预测是肯定的:预测的分类是正确的;预测的边界框具有超过50%的IoU,其中至少一个接地-真相盒子 Gt-已知 表示它考虑本地化-不管分类。实施详情。TS-CAM基于Deit骨干[37]实现,该骨干在ILSVRC [29]上预先训练。每个输入图像被重新缩放到256 × 256像素,并随机裁剪224 × 224像素。我们移除MLP头,并添加一个卷积层,其内核大小为3 3,步幅为1,填充为1,具有200个输出单元(ILSVRC为1000个单元)。新添加的层按照He当训练WSOL模型时,我 们 使 用 AdamW [19] , 其 中 ε= 1 e-8 , β1=0.9 和β2=0.99,权重衰减为5e-4。在CUB-200-2011上,训练过程以学习速率5e-5和批量大小128持续60个时期在ILSVRC数据集上,训练进行12个时期,学习率为5e-4,批量大小为256。4.2. 性能主要结果。表1比较了TS-CAM与CUB-200-2011上的其他方法。具有Deit-S主干的TS-CAM [37]在Top-1、Top-5和Gt-Known度量上以令人惊讶的大幅度优于基线方法,从而产生Top-1 71的定位精度。3%,前5名83。百分之八与现有的RCAM方法相比[53]和MEIL [21]),在Top-1 Loc方面分别实现了12.3%和13.8%的收益。 访问 图的左半部分4比较了CAM[55]的本地化示例基于Transformer的Attention和CUB- 200-2011上的TS-CAM。TS-CAM保留了全局结构并覆盖了更多的对象范围TransAttention只利用Transformer结构中的注意力图,突出了对象的大部分,但由于缺乏类别语义,不能精确定位整个对象2892∼∼(d)TransAttention(e)TS-CAM(Ours)(b)凸轮(a)图像ILSVRC(d)TransAttention(e)TS-CAM(Ours)(b)凸轮(a)图像Cub-200-2011图4.CUB-200-2011和ILSVRC数据集上定位图的可视化(a)输入图像。(b)类别激活图(CAM)。(c)TransAttention:变形金刚的注意力(d)TS-CAM(我们的)。(Best以彩色显示)方法骨干Loc.ACCTop-1Top-5GT-已知中文(简体)GoogLeNet41.150.755.1SPG [51]GoogLeNet46.757.2-RCAM [53]GoogLeNet44.8-61.7DANet [46]InceptionV349.560.567.0ADL [8]InceptionV353.0--中文(简体)VGG1644.252.256.0ADL [8]VGG1652.4-75.4ACoL [50]VGG1645.956.559.3DANet [46]VGG1652.562.067.7SPG [51]VGG1648.957.258.9I2 C [52]VGG1656.068.4-MEIL [21]VGG1657.5-73.8RCAM [53]VGG-1659.0-76.3TS-CAM(我们的)Deit-S71.383.887.7表1. TS-CAM与CUB-200-2011 [38]测试集上最新技术的比较。在表2中,我们通过在ILSVRC上使用紧密边界框来比较TS-CAM与其CNN对应部分(CAM)和SOTA的定位准确度。TS-CAM分别比VGG 16 [32]上的CAM好10。6%和9。4%的Top-1 Loc。访问和Top-5位置访问与具有VGG 16主干的SOTA相比[32],TS-CAM的性能优于6%和4%的Top-1 Loc。访问和Top-5位置访问与I2C相比,TS- CAM的性能提高了6. 0%顶部-1位置ACC和5。8%前5位这是挑战性问题的重要余量。与精心设计的Inception V3 [36]上的SOTA相比,TS-CAM也实现了最佳性能。具体地,TS-CAM在Top-1和Top-5Loc方面实现了7.1%和6.1%的性能增益。与CAM比较。与I2C相比,TS-CAM利用不同对象之间的像素级相似性来提示同一类别中对象特征的一致性,以更清晰,更简单的管道实现了类似的结果。的右半部分图图4示出了ILSVRC上的定位图的示例表2.TS-CAM与ILSVRC [29]验证集上最先进方法的比较CAM [55]倾向于激活局部判别区域,并且不能很好地保留对象结构。 由于缺乏类别语义,TransAttention几乎激活了图像中的显著对象(例如TS-CAM利用了视觉Transformer中的自注意机制,从而激活了对象的全部范围。在图5中,我们比较了CUB-200-2011 [38]上不同IoU下不同CAM方法的定位精度在每个IoU下,TS-CAM的性能均优于CAM [55]和RCAM [53]此外,随着IoU阈值的增加,TS-CAM实现了更大的增益,这表明我们的方法的定位图准确地覆盖了对象范围。参数复杂性。在相似的参数复杂度和计算开销下,TS-CAM(25.1M方法骨干Loc.ACCTop-1Top-5GT-已知反道具[30]VGG1638.948.5-中文(简体)VGG1642.854.959.0[第48话]VGG1643.5--ADL [8]VGG1644.9--ACoL [50]VGG1645.859.463.0I2 C [52]VGG1647.458.563.9MEIL [21]VGG1646.8--RCAM [53]VGG-1644.6-60.7中文(简体)InceptionV346.358.262.7SPG [51]InceptionV348.660.064.7ADL [8]InceptionV348.7--ACoL [50]GoogLeNet46.757.4-DANet [46]GoogLeNet47.558.3-RCAM [53]GoogLeNet44.8-61.7MEIL [21]InceptionV349.5--I2 C [52]InceptionV353.164.168.5GC-Net [20]InceptionV349.158.1-TS-CAM(我们的)Deit-S53.464.367.62893∗∼∼8060402000.50.60.70.50.60.7表5. CUB- 200-2011测试集上TS-CAM组件的消融研究[38]。Top-1/Gt-已知IOU前5名/GT-已知图5.CUB- 200-2011 [38]上IoU下的定位精度比较浅色表示Gt-KnownLoc Acc.表3. 参数和MAC的比较。TS-CAM是表6. ILSVRC确认集上TS-CAM组件的消融研究[29]。基于Deit-S实现[37]。和Top-1位置访问在CUB-200-2011测试集上进行评价[38]。表4.本地化错误统计。6M参数和16.3G MAC)分别优于VGG 16-CAM(具有19.6M参数和16.3G MAC)27.1%(71.3%对44.2%)和GoogleNet-CAM ( 具 有 16.7M 参 数 和 13.5G MAC )27.2%(71.3%对41.1%)。错误分析。为了进一步揭示TS-CAM的效果,我们将定位 误 差 分 类 为 五 种 , 如 [22] 中 所 示 : 分 类 误 差(Cls)、多实例误差(M-Ins)、局部化部分误差(Part)、定位更多误差(More)和其他(OT)。部分表示预测的边界框仅覆盖对象的部分,并且IoU小于某个阈值。“更多”指示预测的边界框比地面实况边界框大较大的余量。每个度量计算属于验证/测试集中的相应错误表4列出了M-In、Part和More的本地化错误统计。TS-CAM有效地减少了两个基准测试中的M-In、Part和More错误,这表明定位图更准确对于CUB-200-2011,TS-CAM在精心设计的Inception V3的基础上,与CAM [55]相比,将部分和更多类型错误显著减少了17%和3%表7.在CUB-200-2011 [38]测试集上对来自不同层的注意力图(Al4.3. 消融研究注意和激活。 使用Deit-S作为主干,我们进行消融研 究 , 以 验 证 TS-CAM 中 的 组 件 。 具 体 地 ,TransAttention仅使用语义不可知的注意力图(A*)用于 对 象 定 位 , 而 TransCAM 仅 使 用 语 义 感 知 的 图(Sc)。A*和Sc分别由等式(1)生成。6和Eq。3,并在图中示出。3 .第三章。在表5中,我们评估了TS-CAM在CUB-200-2011上的性能,并观察到相对于TS-CAM组件的显著改进具体地,TS-CAM获得12的增益。4%,14. 1%,14。8%(前1名、前5名和GT已知位置)。与TransAttention相比。使用语义感知映射,TransCAM由于拓扑结构的破坏而难以将对象与背景区分开利用这两个模块,TS-CAM生成语义感知的本地化地图,通过耦合语义不可知的关注从变压器和令牌语义从分类器。表6显示了具有不同配置的ILSVRC验证集的结果。在CAM [55]之后,Tran-sCAM仅利用来自分类器的令牌语义感知映射来捕获对象定位。由于输入图像的拓扑结构被破坏,TransCAM不能CAM(CVPR16)RCAM(ECCV20)TS-CAM(Ours)位置方法骨干位置Acc.Top-1Top-5GT-已知中文(简体)VGG-16GoogLeNet44.241.252.251.758.055.1TransAttentionDeit-S58.969.773.0TransCamDeit-S17.718.318.3TS-CAM(我们的)Deit-S71.383.887.8方法骨干位置Acc.Top-1Top-5GT-已知凸轮VGG-16InceptionV342.846.354.958.259.062.7TransAttentionDeit-S43.051.954.7TransCamDeit-S34.942.946.0TS-CAM(我们的)Deit-S53.464.367.6方法图像大小#参数Macs(M)(G)Top-1 Loc Acc.%VGG16-CAMGoogleNet-CAM二二四二二二四二19.6 16.316.7 13.544.241.1方法ILSVRC(%)M-Ins零件更多CUB-2011-200(%)M-Ins零件更多VGG16InceptionV310.6510.363.853.229.589.49--21.9123.0910.535.52TS-CAM(我们的)9.133.787.65-6.302.85LTop-1Top-5GT-已知865.275.879.0968.580.083.61070.281.285.51171.283.787.71271.383.887.728941N总结--补充,我们*他们,都是有着深厚底蕴的人。(b)第(1)款((一)���∗(b)第(1)款联系我们(c)第(1)款���∗⨂���0���∗ ⨂���1���∗ ⨂������(d)其他事项(e)图6.语义-注意耦合的可视化。(a)输入图像。(b)语义不可知的注意力地图。(c)令牌语义感知映射。(d)令牌语义耦合注意力地图。(e)本地化结果。(Best颜色显示)图7.来自不同Transformer层的注意力地图(一)输入图像和语义不可知的注意力图(A*)。(b)来自不同Transformer层的注意力图(Al)。(最佳颜色显示)∗生成结构保留激活图,因此不能将对象与背景区分开。与TS- CAM和CAM相比,它的性能有明显的下降.与TS-CAM相比,TransAttention在Top-1和Top-5 Loc方面实现了10.4%和12.4%的性能下降。访问类别不可知的特 征使 TransAttention 陷入 错误 定位 ,图 。第 2 段(b)分段。为什么要总结所有的注意力地图?在图7中,我们可视化来自所有层和语义层的注意力图Al不可知论者的注意力地图A*。作为{A1,… A L}是com-本地化表7中关于CUB-200-2011数据集的消融研究表明,将所有A1达到最高的定位精度。∗为什么是注意力而不是激活?原因有两个方面:(1)视觉Transformer利用低分辨率类别标记的嵌入(2)TS-CAM中的通过可视化补丁令牌嵌入之间的相似性,t图中的L图8右,我们观察到补丁令牌嵌入彼此相似,这意味着由这些嵌入生成的激活结果(语义感知激活图)6(c).图8. 左:输入补丁令牌。右图:补丁标记嵌入的相似性矩阵的可视化。每行/列表示补丁令牌嵌入与所有补丁令牌嵌入之间的余弦相似性5. 结论我们提出了令牌语义耦合注意图(TS-CAM)的弱监督对象定位。TS-CAM充分利用视觉Transformer中的级联自注意机制进行长距离特征依赖提取和对象范围定位。为了解决补丁令牌的语义不可知问题,我们提出了重新分配类别相关的语义补丁令牌,使他们每个人都知道对象类别。我们提出的语义耦合策略,融合的补丁令牌与语义不可知的注意力地图,实现语义感知的定位结果。在ILSVRC/CUB-200-2011数据集上的实验作为第一个和坚实的基线与Transformer,TS-CAM提供了一个新的见解,具有挑战性的WSOL问题。谢 谢 。 本 工 作 得 到 了国 家 自 然 科 学 基 金 项 目61836012、61771447和62006216的资助,中国科学院战 略 重 点 研 究 计 划 项 目 61836012 、 61771447 和62006216的资助。XDA27000000,中国国家创新人才博士后计划项目BX20190323。令牌1代币N代币N令牌12895引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在IEEE CVPR,2018年。三个[2] Wonho Bae,Junhyug Noh,and Gunhee Kim.重新思考弱监督对象定位的类激活映射在Andrea Vedaldi,HorstBischof,Thomas Brox和Jan-Michael Frahm,编辑,ECCV,第618-634页,2020年。一个[3] David Bau,Bolei Zhou,Aditya Khosla,Aude Oliva,and Antonio Torralba.网络解剖:量化深层视觉表征的可解释性。在IEEE CVPR,第3319-3327页,2017年。三个[4] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet:非局部网络满足挤压激励网络及其他网络。在IEEE ICCV研讨会上,第1971-1980页,2019年。三个[5] Liyi Chen,Weiwei Wu,Chenchen Fu,Xiao Han,andYuntao Zhang.具有边界探索的弱监督语义分割。在ECCV,第12371卷,第347- 362页,2020中。三个[6] Nenglun Chen,Xingjia Pan,Runnan Chen,Lei Yang,Zhiwen Lin , Yuqiang Ren , Haolei Yuan , XiaoweiGuo,Feiyue Huang,and Wenping Wang.分散注意力的接 地 图 像 字 幕 。 arXiv 预 印 本 arXiv : 2108.01056 ,2021。二个[7] Junsuk Choe、Seong Joon Oh、Seungho Lee、SanghyukChun、Zeynep Akata和Hyunjung Shim。正确评估弱监督对象定位方法在IEEE CVPR,第3133-3142页一个[8] 崔俊锡和沈贤贞用于弱监督对象定位的基于注意力的丢弃层。在IEEE CVPR,第2219-2228页,2019年。二、三、六[9] Jiajun Deng,Yingwei Pan,Ting Yao,Wengang Zhou,Houqiang Li,and Tao Mei.用于视频对象检测的关系蒸馏网络。在IEEE ICCV,第7022三个[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器CoRR,abs/2010.11929,2020。二、三[11] 何开明、X.Zhang,Shaoqing Ren,and Jian Sun.深入研究整流器:在imagenet分类上超越人类水平的性能2015年IEEE计算机视觉国际,第1026-1034页,2015年。五个[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE CVPR,第770-778页三个[13] 杰虎,李申,孙刚。压缩-激励网络。在IEEE CVPR,第7132-7141页,2018年。三个[14] 黄子龙、王兴刚、王佳思、刘文宇和王京东。基于深度种子区域生长的弱监督语义分割网络。在IEEE CVPR,第7014-7023页,2018年。三个[15] Sangheum Hwang和Hyo-Eun Kim。用于弱监督病变定位的自迁移学习。在医学图像ComputingandComputer-AssistedIntervention(MICCAI),第239-246页,2016年。三个[16] Peng-Tao Jiang , Qibin Hou , Yang Cao , Ming-MingCheng,Yunchao Wei,and Hong-Kai Xiong.通过在线注意力积累的整体对象挖掘。在IEEE ICCV,第2070-2079页,2019年。三个[17] Alexander Kolesnikov和Christoph H Lampert。种子,扩展和约束:弱监督图像分割的三个原则参见ECCV,第695-711页。施普林格,2016年。三个[18] Jungbeom Lee、Eunji Kim、Sungmin Lee、Jangho Lee和Sungroh Yoon。Ficklenet:Weakly and semi-supervisedsemantic image segmentation using stochastic inference.在IEEE CVPR,第5267-5276页,2019年。三个[19] I. Loshchilov和F.哈特解耦权重衰减正则化。2019年,在ICLR。五个[20] Weizeng Lu , Xi Jia , Weicheng Xie , Linlin Shen ,Yicong Zhou,and Jinming Duan.几何约束弱监督目标定位。arXiv预印本arXiv:2007.09727,2020。二、三、六[21] 麦金杰,杨梦,罗文峰。擦除综合学习:一种简单有效的弱监督目标定位方法。在IEEE CVPR,第8766-8775页,2020年。二、五、六[22] Xingjia Pan ,Yingguo Gao , Zhiwen Lin ,Fan Tang ,Weiming Dong , Haolei Yuan , Feiyue Huang , andChangsheng Xu.揭示了弱监督对象定位的结构保持潜力在IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录中,第11642-11651页三、七[23] George Papandreou , Liang-Chieh Chen , Kevin PMurphy,and Alan L Yuille.用于语义图像分割的深度卷积网络的弱监督和半监督学习在IEEE ICCV,第1742-1750页,2015中。一个[24] Deepak Pathak Philipp Krahenbuhl和Trevor Darrell用于弱监督分割的约束卷积神经网络在IEEE ICCV,第1796-1804页,2015中。一个[25] Zhiliang Peng,Wei Huang,Shanzhi Gu,Lingxi Xi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功