没有合适的资源?快使用搜索试试~ 我知道了~
基于双交叉注意学习的细粒度视觉分类和目标重识别
4692基于双交叉注意学习的细粒度视觉分类和目标重识别朱浩伟*,柯文京*,李东,刘继,陆田,益山微电子股份有限公司,中国北京{郝伟.朱,wenjing.ke,d.li,陆.田,易.山}@ amd.com摘要近年来,自我注意机制在各种NLP和CV任务中表现出在这项工作中,我们探索如何扩展自我注意模块,以更好地学习用于识别细粒度对象的细微特征嵌入,例如,不同的鸟类种类或人的身份。为此,我们提出了一个双交叉注意学习(DCAL)算法,以配合自我注意 学 习 。 首 先 , 我 们 提 出 了 全 局 - 局 部 交 叉 注 意(global-local cross-attention,GLCA)来增强全局图像和局部高响应区域之间的相互作用,从而有助于增强识别的空间方向区分线索。其次,我们提出了成对交叉注意(PWCA)建立图像对之间的相互作用。PWCA可以通过将另一幅图像视为减损器来规范图像的注意学习,并在推理过程中被移除。我们观察到,DCAL可以减少误导性注意和分散的注意反应,发现更多的补充部分的识别。我们对细粒度视觉分类和对象重新识别进行了广泛的评估。实验表明,DCAL与最先进的方法表现相当,并且一致地改善了多个自我注意基线,例如,在MSMT 17上分别超过DeiT-Tiny和1. 介绍自我注意是一种注意机制,它可以关联单个序列的不同位置并绘制全局依赖关系。它最初应用于自然语言处理(NLP)任务[10,46],并表现出良好的性能。最近,具有自我注意力学习的Transformer也被探索用于各种视觉任务(例如,图像分类[5,12,19,37,45,51]和对象检测[2,68])作为卷积神经网络的替代方案*同等贡献。有线电视网(CNN)。对于一般的图像分类,自我注意已经被证明可以很好地识别2D图像,通过将图像块视为单词并将其展平为序列[12,45]。在这项工作中,我们研究了如何扩展自我注意模块,以更好地学习细微的特征嵌入,用于识别细粒度对象,例如,不同的鸟类种类或人的身份。细粒度识别比一般的图像分类更具挑战性,因为不同子类之间存在细微的视觉差异。大多数现有的方法都是基于CNN来预测类别概率或测量特征距离。为了解决细微的外观变化,通常通过学习空间注意力来捕捉局部特征[15,34,40,60]或外显特征。它定位语义对象/部分[11,56,58,61]。我们采用了一 种 不 同 的 方 式 来 融 入 本 地 信 息 的 基 础 上 视 觉Transformer。为此,我们提出了全局-局部交叉注意(GLCA),以增强全球图像和局部高响应区域之间的相互作用具体而言,我们计算查询向量的一个选定子集和整个键值向量集合之间的交叉注意。通过与自我注意学习相协调,GLCA可以帮助加强空间方面的区分线索,以识别细粒度对象。除了结合局部信息外,另一种区分细微视觉差异的方法是成对学习.直觉是,人们可以通过比较图像对来识别细微的变化。现有的基于CNN的方法设计专用的网络架构以实现成对特征交互[16,69]。[16]对比损失[16]或分数排名损失[69]用于特征学习。基于此,我们还采用了一个成对的学习方案来建立图像对之间的相互作用。与优化特征距离不同,我们提出了成对交叉注意(PWCA),通过将另一幅图像视为distractor来正则化图像的注意力学习。具体来说,我们计算的交叉关注between查询的图像和组合的键值从两个图像。通过在关键向量和值向量中引入混淆,注意力分数被扩散到另一图像,使得4693当前图像的注意力学习的难度增加。这种正则化允许网络发现更多的区分区域并减轻对样本特定特征的过度拟合。值得注意的是,PWCA仅用于训练,因此在推理期间不会引入额外的计算成本。所提出的两种类型的交叉注意是易于实现和兼容的自我注意学习。我们进行了广泛的评估细粒度视觉分类(FGVC)和对象重新识别(Re-ID)。实验表明,DCAL的性能与国家的最先进的方法,并一贯改善多个自我注意基线。特别是,对于FGVC ,DCAL将DeiT-Tiny提高了2.5%,并在CUB-200- 2011上使用较大的R50-ViT-Base骨架对于Re-ID,DCAL将DeiT-Tiny和ViT-Base在MSMT 17上分别提高了2.8%和2.4%的mAP。我们的主要贡献可归纳如下。(1) 我们提出了全局-局部交叉注意,以增强全局图像和局部高响应区域之间的相互作用,以加强空间明智的区分线索。(2) 我们提出了成对交叉注意,通过正则化注意学习来建立图像对之间的相互作用(3)提出的双交叉注意学习可以补充自注意学习,并在各种FGVC和Re-ID基准上实现了多视觉trans-former基线上的一致性能改进2. 相关工作2.1. 自我注意机制自注意机制最初被提出来关联序列中的不同位置并绘制全局依赖关系。Transformer继承了这种机制,在各种序列到序列NLP任务中占主导地位[10,46]。Transformer通常由多个编码器和解码器模块组成。每个编码器/解码器包括多头自注意(MSA)层和前馈网络(FFN)层。解码器也有一个额外的MSA层来处理编码器的输出.此外,在每个MSA或FFN层中使用层归一化(LN)和剩余连接。最近的工作已经将变换器应用于各种视觉任务(例如,图像分类[5,12,19,37,45,51],对象检测[2,41,44,68],语义-tic分割[23,39,50,51,63]和低级任务[4]),并与最先进的CNN相比表现出竞争力。对于一般图像分类,iGPT [5]首先使用自回归和BERT [10]目标进行自我监督预训练,然后微调分类任务。 ViT [12]将图像重塑为序列扁平化的固定大小的补丁,仅用于训练Transformer编码器。也有人试图通过知识蒸馏[45]和渐进式令牌化来改善[57]. 细粒度识别比一般的图像分类更具挑战性,因为不同子类之间存在着细微的视觉在这项工作中,我们扩展了自我注意,以更好地识别细粒度的对象与两种类型的交叉注意模块。2.2. 细粒度视觉分类细粒度视觉分类(FGVC)是图像分类的一种特殊情况,其目的是识别那些具有细微差异的高度混淆的类别。现有的基于CNN的方法通过从多级特征中挖掘有效信息[13,34,58],采用多粒度训练策略[13],定位区分对象或部分[11,61]以及探索成对学习中的特征交互[16,69]来解决这个任务。最近,一些基于Transformer的方法通过多层Transformer层[52]和部分选择[17]上的特征融合来解决FGVC。我们的动机与[17,52]在聚合多级注意力和选择补丁令牌方面类似。然而,它们都是基于自我注意的,而我们设计了两个交叉注意学习模块2.3. 对象重识别与FGVC类似,对象重新识别也旨在区分具有细微类间差异的不同人/车辆身份。主流的Re-ID方法基于CNN结构和度量学习[30,32]。局部信息对于Re-ID至关重要,并且已经通过编码区分性部分级特征提出了许多不同的方法[31,42,49]。具有自注意力结构的Transformer最近已通过引入部分标记[67]、混洗补丁嵌入[17]和学习解纠缠特征[24]应用于Re-ID我们的工作在以下方面不同于最相关的方法[17,67]。首先,我们采用不同的方式通过GLCA对局部信息进行编码,而[17]没有显式地挖掘部分区域,[67]通过在线聚类计算部分标记及其相关补丁嵌入子集之间的注意力。其次,[17,67]使用单个图像进行训练,而我们使用图像对进行PWCA。第三,[17]需要边信息(例如,相机ID和视点标签),而我们的方法仅将图像作为输入。3. 该方法3.1. 重新审视自我注意力[46] 最初提出了自我注意机制,通过计算句子中每个词和所有其他词之间的相关性来解决NLP任务。[12]通过将图像/特征图中的每个块作为用于一般图像分类的词来在gen-4694∈···∈···∈···√∈∈∈⊗(a) 全局-局部交叉注意(GLCA)(b)成对交叉注意(PWCA)图1. 概述了所提出的两种类型的交叉注意机制。 我们把L个自我注意力,M个全局-局部交叉注意力,我们的网络中有T个成对交叉注意模块。详情见第3另外,自注意功能可以被描述为将查询向量以及一组键和值向量映射到输出。输出计算为值向量的加权和,其中分配给每个值的权重由查询与相应键的缩放内积计算。具体地,查询qR1× d首先与N个关键向量(K=[k1;k2;;k N],其中每个k是R1× d),使用内积。然后通过softmax函数对乘积进行缩放和归一化,以获得N个注意力权重。 最终输出为加权和的N个值向量(V=[v1;v2;;v N],其中每个vR1×d)。通过将N个查询向量打包成矩阵,Q=[q1;q2; ;qN],自我注意力(SA)的输出矩阵可以表示为:QKTfSA(Q,K,V)=softmax(k)V=SV(1)注意力函数(Eq. 1)允许在补丁和类嵌入之间传播信息。基于自注意,Transformer编码器模块可以由MSA层和前馈网络(FFN)构成。FFN由具有GELU激活的两个线性变换组成层归一化(LN)被置于每个MSA和FFN层之前,并且剩余连接被用于两个层。3.2. 全局-局部交叉注意自我注意力平等地对待每个查询,以根据等式(1)计算全局注意力分数。1.一、换句话说,图像的每个局部位置以相同的方式与所有位置交互。为了识别细粒度的对象,我们希望挖掘有区别的局部信息,以促进细微特征的学习。为此,我们提出了全球-地方交叉关注,以强调跨-其中1D 是缩放因子。查询、键和值矩阵全局图像和局部高响应响应之间的作用分别从相同的输入嵌入X RN× D中使用不同的线性变换计算:Q=XW Q,K=XW K,V=XW V。SRN×N表示注意力权重矩阵。为了共同关注来自不同位置的不同表示子空间的信息 , 通 过 考 虑 多 个 关 注 头 , 定 义 了 多 头 自 关 注(MSA)。MSA的过程可以被计算为自注意块与子嵌入的级联上的线性变换。为了对位置信息进行编码,将固定/可学习的位置嵌入添加到补丁嵌入,然后馈送到网络。为了预测类别,在整个网络中,将一个额外的类别嵌入CLSR1×d前置到输入嵌入X 因此,输入嵌入以及查询,键和值矩阵变成(N+1)×d,自gions。首先,我们遵循attention rollout [1]来计算第i个块的累积注意力分数:Si=S<$iS<$i−1···S<$1(2)其中S=0。5S+0。E表示使用单位矩阵E考虑剩余连接的重新归一化的注意力权重,表示矩阵乘法运算。通过这种方式,我们追踪从输入层到更高层。然后,我们使用聚集的注意力地图来挖掘高反应区域。Ac-根据Eq。2,S_i的第一个r_w=[s_i,j](N+1)×(N+1)表示类嵌入CLS的累积权重。我们从Qi中选择前R个查询向量,对C_L_S的累积权值中的前R个最高响应构造一个新的查询矩阵Q_l,表示最关注的局部嵌入。 最后,我们计算4695C×××512∈∈×××所选择的本地查询和全局键值对集合之间的交叉注意如下。对样本特定特征的过拟合。图1(b)说明了所提出的成对交叉注意,我们在我们的方法中使用T=12PWCA块请注意,PWCAfGLCA(Q1,Kg,V10)softmax(QlKgTg√d)V(3)仅用于训练,并将在不消耗额外计算成本的情况下被移除用于推理。在自我关注(Eq. 1),所有查询向量将与键值向量交互。在我们的GLCA(等式3),只有查询向量的子集将与键值向量交互。我们观察到,GLCA可以帮助加强空间方面的歧视性线索,以促进识别细粒度的类。另一种可能的选择是计算局部查询Ql和局部键值向量(Kl,Vl)之间的自关注。然而,通过建立局部查询和全局键值向量之间的交互关系,我们不仅可以将高响应区域与其自身联系起来,还可以将其与外部的其他上下文联系起来。图1(a)示出了所提出的全局-局部交叉注意,并且我们在我们的方法中使用M=1个3.3. 成对交叉注意细粒度识别数据集的规模通常不如一般图像分类的规模大,例如,ImageNet [9]包含1,000个类的100多万张图像,而CUB [47]只包含200个类的5,994张图像用于训练。此外,与大规模分类任务相比,FGVC和Re-ID中存在类别之间的较小视觉差异。每个类的样本较少可能导致网络过度拟合到样本特定的特征,以区分视觉上令人困惑的类,从而最小化训练误差。为了缓解这个问题,我们提出了成对交叉注意力建立图像对之间的相互作用。PWCA可以被看作是一种新的正则化方法来正则化的注意学习。具体来说,我们从同一个训练集中随机抽取两个图像(I1,I2)来构建图像对。查询、键和值向量分别为一对图像中的两个图像计算。对于训练I1,我们将两个图像的键和值矩阵连接起来,然后计算目标图像的查询与组合的键-值对之间的注意力,如下所示:Q 1 K TfPWCA(Q1,Kc,Vc)=softmax(kd)Vc(4)其中Kc=[K1;K2]R(2N+2)×d和Vc=[V1;V2]R(2N +2)× d. 对于来自I1的特定查询,我们根据等式计算自身内的N +1个自我注意力分数和I2的N +1个交叉注意力分数。4.第一章所有2个N+2注意力分数一起由softmax函数进行归一化从而学习目标图像11的受污染注意力分数优化这种嘈杂的注意力输出增加了网络训练的难度,4. 实验4.1. 实验环境数据集。我们对两个细粒度识别任务进行了广泛的实验:细粒度视觉分类(FGVC)和对象重新识别(Re-ID)。对于FGVC,我们使用三个标准基准进行评估:CUB-200-2011 [47],Stanford Cars [27],FGVC-Aircraft [35]。对于Re-ID,我们使用四个标准基准测试:Market 1501 [62],DukeMTMC-ReID [54],MSMT17 [53],Person Re-ID和VeRi-776 [64]用于车辆Re-ID。在所有实验中,我们使用官方训练和验证分割进行评估。基线。我们使用DeiT和ViT作为自我注意力基线。具体来说,ViT骨干在ImageNet-21 k上进行了预训练[9],DeiT骨干在ImageNet-1 k上进行了预训练[9]。我们 使 用 DeiT-T/16 、 DeiT-S/16 、 DeiT-B/16 、 ViT-B/16、R50-ViT-B/16(L=12个SA块)的多种体系结构进行评价。实施详情。 我们协调提议两种类型的交叉注意与自我注意的多任务学习形式。我们构建L=12SA块,M=1GLCA块和T=12PWCA块作为训练的总体架构。PWCA分支与SA分支共享权重,而GLCA不与SA共享权重。我们遵循[59]采用动态损失权重进行协同优化,避免了手动超参数搜索。PWCA分支具有与SA分支相同的GT目标,因为我们将另一个图像视为干扰项。对于FGVC,我们将原始图像调整为550 550,并随机裁剪为448 448进行训练。自我注意基线的输入嵌入序列长度为2828=784。我们选择具有最高R = 10%最高注意力响应的输入嵌入作为本地查询。我们应用随机深度[21]并使用Adam优化器,0.05的重量衰减用于训练。学习率初始化为lrscaled=5e−4batchsize和decayed衰减with a cosine余弦policy政策.我们使用标准交叉熵损失训练网络100个epoch,批量大小为16。对于Re-ID,我们将图像的大小调整为256 128(用于 pedes-trian 数 据 集 ) 和 256 256 ( 用 于 车 辆 数 据集)。我们选择具有前R=30%最高关注度响应的输入嵌入作为本地查询。我们使用SGD优化器,动量为0.9,权重衰减为1 e-4。批量大小设置为64,每个ID有4张图像学习率初始化为0.008,并以余弦策略衰减我们训练4696方法骨干准确度(%)汽车空调[15]第十五话VGG1985.392.588.4[60]第六十话VGG1986.592.889.9MAMC [40]ResNet10186.593.0-PC [14]DenseNet16186.992.989.2[29]第二十九话DenseNet16189.194.0-[第56话]ResNet5087.593.991.4[34]第三十四话ResNet5087.794.6-S3N [11]ResNet5088.594.792.8MGE-CNN [58]ResNet5088.593.9-DCL [8]ResNet5087.894.593.0TASN [61]ResNet5087.993.8-PMG [13]ResNet5089.695.193.4[第16话]ResNet5088.194.592.8API-Net [69]DenseNet16190.095.393.9LIO [65]ResNet5088.094.592.7SPS [22]ResNet5088.794.992.7卡尔[38]ResNet10190.695.594.2TransFG [17]ViT-Base91.7 94.8-[20]第二十话ViT-Base91.3--FVT [52]ViT-Base91.6--基线DeiT-Tiny82.187.284.7基线+DCALDeiT-Tiny84.689.487.4基线DeiT-Small85.890.788.1基线+DCALDeiT-Small87.692.390.0基线DeT-Base88.092.990.3基线+DCALDeT-Base88.893.892.6基线ViT-Base90.892.590.0基线+DCALViT-Base91.493.491.5基线R50-ViT-碱91.394.092.4基线+DCALR50-ViT-碱92.095.393.3表1.在三个标准FGVC基准测试(CUB-200-2011、StanfordCars和FGVC-Aircraft)上进行的顶级精度性能比较。使用交叉熵和三重态损失来计算120个时期的网络。我们所有的实验都是在PyTorch上使用Nvidia TeslaV100 GPU进行的。我们的方法使用DeiT-Tiny主干在CUB上使用4个GPU进行训练花费3.8小时在推理过程中,我们删除了所有的PWCA模块,只使用SA和GLCA模块。我们将SA和GLCA分类器输出的类概率用于FGVC的预测,并将SA和GLCA的两个最终类令牌用于Re-ID的预测。4.2. 细粒度视觉分类的结果我们在三个标准FGVC基准上评估我们的方法,并与表1中的最先进方法进行比较。我们的方法实现了竞争性的性能相比,以前的CNN为基础和基于变换器方法.特别是,使用R50-ViT-Base主干,DCAL在CUB-200-2011、Stanford Cars和FGVC-Aircraft基准上分别达到92.0%、95.3%和93.3%的top-1准确度表1还显示了我们的方法可以在所有三个基准测试中一致地改进不同的视觉Transformer基线,例如,在Stan-ford Cars上超过纯Trans-former(DeiT-Tiny)2.2%,并且超过实验结果验证了该方法对不同Transformer体系结构的兼容性。与基于变换器的方法的比较。我们的方法与FGVC上 的 最 新 Transformer 变 体 : TransFG [17] , RAMS-Trans [20],FFVT [52]的性能相当。这些现有方法还基于聚合的注意力响应来选择令牌。相应地,他们继续通过自我注意来对所选择的标记进行建模,而我们在局部查询和全局键值向量之间执行交叉注意。与自我注意相比,我们可以将高反应区域不仅与它们本身联系起来,还与它们之外的其他背景联系起来。此外,TransFG [17]使用重叠补丁,将大大增加训练时间和计算开销,而我们采用标准的非重叠补丁分割方法。与基于CNN的方法的比较。(1)现有的基于区域的方法可以分为两类。显式定位方法(例如,RACNN[15] , MA-CNN [60] , NTS-Net [56] , MGE-CNN[58])利用具有排名损失的注意力/定位子网络来挖掘对象区域。隐式定位方法(例如,S3N [11],TASN[61])使用类激活图和高斯采样来放大原始图像中的对象区域。我们的GLCA采用了不同的方案,以更高的性能,例如,比CUB上的MGE-CNN(2)成对学习也适用于FGVC,通过交互特征(CIN [16],API-Net[69])或 在训 练期间 在图 像对之 间引 入混淆 (PC[14],SPS [22我们的PWCA的动机类似于[14,22],但我们实现了不同的正则化方法来减轻过拟合。我们的方法超越了这些相关的成对学习方法,例如,CUB与CIN相比+3.9%,与PC相比+5.1%4.3. 对象重新识别我们在表2中的四个标准Re-ID基准点上评估了我们的方法,并在人员Re-ID和车辆Re-ID任务上实现了与最先进方法相当的竞争性能特别地,使用ViT-Base主链 ,DCAL 在 VeRi-776 、 MSMT 17 、 Market 1501 、DukeMTMC 上 分 别 达 到 80.2% 、 64.0% 、 87.5% 、80.1%mAP。与FGVC类似,我们的方法可以持续改善不同的视觉Transformer基线,例如,超越了重量轻的Transformer(DeiT-Tiny),4697方法VeRi-776mAP(%)R1(%)MSMT17mAP(%)R1(%)Market1501mAP(%)R1(%)DukeMTMCmAP(%)R1(%)SPReID [26]----83.493.773.386.0PCB [43]----81.693.869.283.3MGN [49]--52.176.986.995.778.488.7SAN [25]72.593.355.779.288.096.175.787.9ABDNet [6]--60.882.388.395.678.689.0HOReID [48]----84.994.275.686.9ISP [66]----88.695.380.089.6STNReID [33]----84.993.8--CDNet [28]--54.778.986.095.176.888.6[第55话]77.695.7--86.894.577.588.1跨度[7]68.994.0------PVEN [36]79.595.6------[38]第38话74.395.456.279.587.094.576.487.2[24]第二十四话--55.378.486.994.776.688.1Aaformer [67]--63.283.687.795.480.090.1[18]第18话79.296.963.682.5----DeiT-Tiny71.394.342.163.977.990.369.582.9DeiT-Tiny + DCAL(我们的)74.194.744.968.279.891.871.784.9DeiT-Small76.795.553.375.084.393.775.787.6DeiT-Small + DCAL(我们的)78.195.955.177.385.394.077.487.9DeT-Base78.395.960.581.686.694.479.188.7DeiT-Base + DCAL(我们的)80.096.562.383.187.294.580.289.6ViT-Base78.196.061.681.487.194.378.989.4ViT-Base + DCAL(我们的)80.296.964.083.187.594.780.189.0表2.四个Re-ID基准测试的性能比较:VeRi-776,MSMT 17,Market 1501,DukeMTMC。行人数据集的输入大小为256×128,车辆数据集为256×* 意味着没有用于公平比较的辅助信息的结果。2.8%,较大的Transformer(ViT-Base)在MSMT 17上降低了2.4%。与基于变换器的方法的比较。我们的方法与Re-ID上的最新Transformer变体:DRL-Net [24],AAformer[67] , TransReID [18]的 性 能 相 当 。 DRL-Net [24] 对Transformer解码器施加去相关约束,以解开ID相关和不相关特征,而我们只使用Transformer编码器并将自注意力扩展到交叉注意力。现有的方法(TransReID[18],AAformer [67])和我们的方法都结合了本地信息进行识别,但采用了不同的方式。TransReID [18]设计了一个拼图补丁模块来洗牌补丁嵌入,以学习鲁棒的功能。 AAformer [67]通过在线聚类计算部件标记及其相关补丁嵌入子集之间的注意力。随后,我们提出了全局-局部交叉注意,以增强全局图像和局部区域之间的相互作用。与基于CNN的方法的比较。(1)已经提出了许多现有方法来编码用于识别的区分性部分级特征典型的基于部件的ReID方法包括SPReID [26]和PCB [43]。SPReID [26]利用解析模型来生成人体部分掩码,计算可靠的部分表示,这在分段部分中消耗额外的计算开销。PCB [43]利用细化的部分池来检索身体部分信息。我们的方法并不旨在挖掘精确的对象部分,但建立全局图像和高响应局部区域之间的相互作用。(2)图像对或三元组被广泛用于Re-ID的度量学习。最近的Re-ID方法还引入成对空间变换器来匹配整体和部分图像对[33]或设计成对损失来学习用于识别的细粒度特征[55]。与以前的工作相比,我们的成对交叉注意是Re-ID中的新实践。4.4. 消融研究Algorithmic Components的贡献。我们在表3中使用不同的视觉Transformer基线来检查来自两种类型的交叉注意模块的贡献。我们使用DeiT-Tiny进行FGVC和ViT-Base进行Re-ID。单独使用GLCA或PWCA,我们的方法可以获得比基线更高的性能。通过这两个交叉注意模块,我们可以进一步改善结果。我们注意到PWCA将被删除以进行推理,这样它就不会引入额外的参数或FLOP。我们4698方法Cub-200-2011参数FLOPs访问ParamsVeRi-776FLOPs mAPR1ParamsMSMT17FLOPs mAPR1基线5.5M8.6G82.181.6M41.1G78.196.081.6M20.5G61.681.4+ GLCA6.0M8.8G83.188.4M42.4G79.596.588.4M21.3G63.783.0+ PWCA5.5M8.6G83.181.6M41.1G79.296.581.6M20.5G62.882.3我们6.0M8.8G84.688.4M42.4G80.296.988.4M21.3G64.083.1表3.所提出的两种类型的交叉注意学习对CUB-200-2011、VeRi-776和MSMT 17的影响。我们使用DeiT-Tiny用于CUB,ViT-Base用于VeRi-776和MSMT 17作为本消融实验的基线。方法幼崽ACCMSMT17地图基线82.161.6+ PWCA83.162.8+ 在I177.356.0+ 在I1的标签中添加噪声81.660.8+ 2噪音82.162.1COCO+282.562.2+ I2仅来自班级内部81.762.2+ I2仅限班级间83.062.7+ I 2来自组内-组间(1:1)&83.062.5表4.不同正则化方法的比较。DeiT- Tiny用于CUB,ViT-Base用于MSMT 17。在我们的方法中使用一个GLCA模块,与基线相比,它只GLCA的消融研究。(1)Cross-ViT [3]是一种基于交叉注意力的通用图像分类方法。它构造了两个Transformer分支来处理不同大小的图像标记,并使用一个分支的类标记与另一个分支的补丁标记进行交互。我们使用相同的本地查询和相同的DeiT-Tiny主干来实现这个想法。交叉令牌策略在CUB上获得了82.1%的准确率,比我们的GLCA差1%。(2)合并局部信息的另一个本地查询、键和值向量)。该局部自我注意基线在使用DeiT-Tiny主干的CUB上获得82.6%的准确性,这也比我们的GLCA(83.1%)差(3)进一步进行了消融实验,以检验GLCA的消融效果。在CUB上,随机选择局部查询的准确率为82.6%,仅根据倒数第二层选择局部查询的准确率为82.8%。我们的GLCA优于两个基线,验证了挖掘高响应本地查询与聚合注意力地图是有效的,我们的交叉注意力学习。PWCA的消融研究 我们将PWCA与表4中的不同正则化策略,目标图像。结果表明,与自我注意学习基线相比,在没有交叉注意的情况下添加图像噪声或标签噪声会导致性能下降。由于PWCA中使用的额外图像I2可以被视为干扰器,我们还测试了用高斯噪声替换I2的键和值嵌入这种方法比添加图像/标签噪声的效果更好,但仍然比我们的方法差。此外,从不同的数据集(即,COCO)、仅对类内/类间对进行采样、或以相等概率对类内类间对进行采样的方法的性能比PWCA差。我们假设随机采样的图像对来自相同的数据集(即,数据集的自然分布)可以很好地规范我们的交叉注意学习。交叉注意块的数量。图2显示了使用DeiT-Tiny(用于CUB)和ViT-Base(用于MSMT 17)对我们的交叉注意力阻断量进行的消融实验。对于GLCA,结果显示M=1表现最好。我们分析了更深的Transformer编码器可以产生更准确的累积注意力分数,因为注意力流从输入层传播到更高的层。此外,使用一个GLCA块仅 引 入 用 于 推 理 的 小 的 额 外 参 数 和 FLOP 。 对 于PWCA,结果显示T=12表现最好。这意味着在所有编码器中添加I2可以充分正则化网络,因为我们的自我注意基线总共有L=12个请注意,PWCA仅用于训练,并且将在不消耗额外计算成本的情况下被移除用于推理。4.5. 定性分析图3(a)和图4(a)显示了使用[1]和选定的高响应补丁生成的注意力地图。我们观察到,自我注意力往往突出图像中最具辨别力的区域由于GLCA,我们的方法可以减少误导性注意,并鼓励网络发现更多的判别线索进行识别。图3(b)和图4(b)使用[1]对自我注意力和PWCA进行可视化生成的注意力图我们4699(a)SA与GLCA(b)SA与装卸区图4.在MSMT17上生成的用于自我注意力学习和交叉注意力学习的注意力地图的可视化。图2.对交叉注意障碍数量的影响。DeiT-Tiny用于CUB,ViT-base用于MSMT 17。对于所有主干和所有数据集,我们在我们的方法中构建相同的M= 1GLCA块和相同的T= 12(a) SA与GLCA(b) SA与装卸区图3.在CUB上生成的用于自我注意学习和我们的交叉注意学习的注意图的可视化。观察到PWCA可以分散注意反应,以探索更多的互补部分的对象相比,自我注意。我们还在干扰物图像上可视化注意力地图,上面的蓝色纱布表明注意力很少。这与我们的期望一致,即当我们计算目标图像的查询与组合的键值向量之间的交叉注意时,4).4.6. 限制与自注意学习基线相比,我们的方法可能需要更长的时间进行网络收敛,因为我们执行自注意和所提出的两种类型的交叉注意的联合训练例如,自我注意基线花费2.1小时,而我们的方法花费3.8小时用于在具有相同DeiT骨干和相同时期100的CUB上训练。然而,值得注意的是,细粒度识别数据集比大规模图像分类基准小得多,因此我们在实践中的训练时间仍然是可以接受的。另一个限制是GLCA与自我注意基线相比将增加小的计算成本。例如,表3显示GLCA在CUB上使DeiT-Tiny增加9%的参数和2%的FLOP,并且在VeRi- 776上使ViT-Base增加8%的参数和3%的FLOP。我们还测试了移除GLCA和PWCA块以保持与自我注意基线相同的计算成本,并且性能略有下降,例如,CUB上的84.3%对84.6%(我们的)准确度和VeRi-776上的80.1%对80.2%(我们的)mAP。5. 结论在这项工作中,我们引入了两种类型的交叉注意机制,以更好地学习细微的特征嵌入,以识别细粒度的对象。GLCA可以通过对全局图像和局部区域之间的相互作用进行建模来帮助加强空间方面的区分线索。PWCA可以建立图像对之间的相互作用,并且可以被视为一种正则化策略以减轻过拟合。我们的交叉注意力设计易于实现,并兼容不同的视觉Transformer基线。在七个基准测试上的实验证明了该方法在FGVC和Re-ID任务上的有效性我们希望我们的方法可以启发新的见解自我注意学习制度的Transformer。4700引用[1] Samira Abnar和Willem Zuidema。量化变压器中的损耗流。arXiv预印本arXiv:2005.00928,2020。三、七[2] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV,2020年。 一、二[3] 陈春福,范全福,和拉梅什瓦熊猫。Crossvit:用于图像分类的交叉注意多尺度视觉Transformer。arXiv预印本arXiv:2103.14899,2021。7[4] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。在CVPR,2021年。2[5] 陈马克、亚历克·雷德福、雷旺·蔡尔德、吴杰弗瑞、全熙宇、栾大卫和伊利亚·苏茨科沃。从像素生成预训练。在ICML,2020。一、二[6] 陈天龙、丁少金、谢静怡、叶远、陈武扬、杨阳、周仁、王张扬。细心但多样化的人重新识别。在ICCV,第8351-8361页,2019年。6[7] 陈财贤,刘智婷,吴智伟,钱少毅。基于语义引导部分注意网络的方向感知车辆再识别。在ECCV,第330-346页中。Springer,2020年。6[8] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在CVPR,2019年。5[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。4[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。一、二[11] Yao Ding,Yanzhao Zhou,Yi Zhu,Qixiang Ye,andJinbin Jiao. 用于细粒度图像识别的选择性稀疏采样在ICCV,2019年。一、二、五[12] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Syl- vain Gelly,et al. An image is worth16x16 words : Trans- formers for image recognition atscale. arXiv预印本arXiv:2010.11929,2020。一、二[13] Ruoyi Du , Dongliang Chang , Ayan Kumar Bhunia ,Jiyang Xie,Zhanyu Ma,Yi-Zhe Song,and Jun Guo.通过拼图块的渐进式多粒度训练实现细粒度视觉分类。在ECCV,2020年。二、
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功