没有合适的资源?快使用搜索试试~ 我知道了~
8331学习粒度特定专家的混合用于细粒度分类张连波1、黄少丽2、刘伟1、陶大成21澳大利亚新南威尔士州齐本德尔市悉尼科技大学FEIT计算机科学学院高级分析研究所2UBTECH Sydney AI Centre,School of Computer Science,FEIT,University of Sydney,Darlington,NSW 2008,Australia{lianbo.zhang@student.,wei.liu@} uts.edu.au{shaoli.huang,dacheng.tao}@ sydney.edu.au摘要我们的目标是将细粒度识别的问题空间划分为一些特定的区域。为了实现这一点,我们开发了一个统一的框架的基础上混合的experts。由于可用于细粒度识别问题的数据有限,通过使用数据划分策略来学习不同的实验是不可行的。为了解决这个问题,我们通过结合专家渐进增强学习策略和基于Kullback-Leibler分歧的约束来促进专家之间的多样性该策略利用已有专家的先验知识在数据集上学习新的专家,并将其依次加入模型,同时引入约束条件,迫使专家产生不同的预测分布。这些驱动器的experts学习任务从不同的方面,使他们专注于不同的子空间问题。实验结果表明,该模型提高了分类性能,并达到了最先进的性能在几个细粒度的基准数据集。1. 介绍细粒度视觉分类,如动物品种识别[10,16,27,21],旨在识别给定图像的子类别。细粒度任务中的对象通常具有较小的类间方差和较大的类内方差,以及多对象尺度和复杂背景,导致问题空间更加复杂。在本文中,我们倾向于将细粒度问题空间划分为此,我们开发了一个统一的框架,基于混合神经网络前,*通讯作者。图1.概述我们的框架,其中包括几个专家和一个门控网络。每个专家都从先前的专家那里学习先前的知识门控网络确定每个专家对最终预测的贡献。perts(ME)[9,19,1]。基于神经网络的ME通常遵循分区和征服的方案,其中问题空间被划分为子空间。像[13,12]这样的例子已经在细粒度任务上进行了研究,但是这些方法专注于从一组独特的子集中学习专家,就像传统的ME方法一样。战略门控网络G1G2YG3Expert 3专家2Expert 18332由于细粒度训练数据通常是有限的,因此从一组唯一子集中学习不同的专家对于细粒度任务是不可行的。如果进一步将这些数据划分为子集用于训练,则由于可用的数据量较少,每个得到的专家模型更容易过度拟合。为了克服从有限的数据中学习不同专家的困难,我们引入了一个逐步增强的策略以及Kullback-Leibler(KL)分歧约束,以鼓励专家之间的多样性逐步增强的主要思想是,一个新的专家是学习额外的信息知识或先验信息从以前的专家,因此更专业的问题。基于此,首先要考虑的是专家如何将一些与任务相关的知识传递给后一位专家。在这项工作中,我们选择Con-vNet模型中的注意力图作为这种知识的一种载体,因为它表明神经网络如何将图像的某些区域与目标任务联系起来。此外,最近的工作[3,29]表明,注意力地图驻留语义线索,可用于视觉解释和弱监督对象检测。另一个促进专家多样性的明确方法是惩罚概率分布的相似性这可以简单地通过最大化专家的概率分布之间然而,由于细粒度分类任务的训练数据有限,每个专家倾向于产生接近于one-hot的向量。这样的结果并不反映模型对数据固有结构的描述。因此,我们引入了一个惩罚项,该惩罚项在排除最大值后惩罚预测分布的相似性。通过将最大得分归零并进行归一化,结果输出可以更好地反映模型对数据的描述(例如数据和类别之间的关系)。因此,最大化两个这样的分布的KL-散度相当于鼓励两个模型对数据有不同的描述。通过逐步增强策略和惩罚项的学习,我们提出的方法可以从有限的训练数据中学习到多样化的专家,这有利于提高细粒度分类任务的性能。本文的贡献总结如下:• 我们提出了一个逐步增强的策略,允许从有限的训练数据中学习多样化的ConvNet专家• 我们引入了一个新的约束,它在促进模型多样性方面是有效的• 我们提出了一种网络架构(MGE-CNN),它在几个具有挑战性的细粒度数据集上实现了最先进的性能。论文的其余部分组织如下。第2节描述了相关的工作,第3节详细说明了所提出的方法第4节介绍了实现和实验结果,然后在第5节的结论。2. 相关作品细粒度分类。基于深度学习的方法近年来取得了重大进展[28,35,14,36,5,4,47,43],特别是在细粒度领域。分类[6,39,37,40,45,41]。 一行工作[24,11,20]集中在特征编码上。Lin等提出一种双线性池化方法[24],从两个CNN分支(共享或不共享)计算局部成对特征交互。尽管性能令人印象深刻,但双线性特征的高维数使得优化具有挑战性。最近的工作使用具有核方法的紧凑双线性表示[11]或低秩双线性池[20]通过将协方差特征表示为矩阵并应用低秩双线性分类器来改进双线性方法,这允许大幅减少计算时间以及减少要学习的参数的有效数量。另一条工作线集中在以弱监督方式提取为了避免使用广泛的注释,Xiaoet al.[38]应用部分级自上而下的注意力,并结合候选建议注意力、对象级注意力来训练特定于领域的深度网络。Zhang等人[44]建议在将它们编码为最终表示之前精心挑选深度过滤器作为部分检测器空间Transformer网络[18]在整个特征图上执行变换,以允许网络选择最相关的(注意力)区域。RA-CNN(Re- current Attention CNN)[10]以相互增强的方式递归地学习多尺度下的区分区域注意力和基于区域的特征表示。MA-CNN(Multi-Attention CNN)[45]通过聚类将特征通道分组以生成多个部分。这种基于部分的方法已经成为细粒度分类领域的主导。我们提出的方法与这些方法的不同之处在于,我们通过学习多样化的基于ConvNet的专家来解决这个问题。更具体地说,我们提出了一个逐步增强的策略和惩罚项,以促进模型的多样性时,从有限的数据学习。实验结果表明,该方法优于现有的基于零件的方法。专家混合主要基于分治原则[17,9,19,1]建立,其中问题空间被划分为由专门的专家来解决太好了。最近提出的框架[30,13,12]在这个领域主要包括神经网络(NN)专家和门控网络。这些模型专注于在给定数据的唯一子集上训练每个专家。 因为一个深层的神经8333softmax间隙FCLclssoftmaxFCLclsCNN块GMPFCLclsYsoftmaxsoftmax间隙FCLclssoftmaxFCLclsCNN块GMPFCLclsY反向传播softmax关注关注图2.网络结构。提出的MGE-CNN由多个专家子网络组成,每个专家子网络包含一个特征表示学习和注意区域提取组件。第一个组件使用两个不同的Conv块,在一个共享的Conv块上使用不同的池化方法来提取不同类型的特征,然后将它们连接起来形成整体表示。第二个是基于梯度的注意模块,用于提取注意区域,并将训练数据转换为新的注意区域,以供后续专家使用。神经网络可能有数百万个参数,训练神经网络需要大量的数据,如果我们进行数据划分,将导致严重的过拟合,导致测试数据性能不佳。我们的方法在两个方面与这些方法不同。首先,专家网络可以提取小部件和大部件的特征,这是专为细粒度分类问题而设计的。此外,我们绕过了数据划分的需要,并提出了一个逐步增强的策略,允许在全尺寸数据上训练每个专家,但促进他们的多样性。3. 方法我们的方法包括几个专家和一个门控网络。这些专家学会了通过结合逐渐增强的学习策略和KL-分歧为基础的惩罚项的多样化然后,门控网络用于组合专家以做出最终决策。我们设计专家时遵循两个原则。首先,为了更好地执行细粒度识别,我们需要学习一个好的表示,这个表示需要包含更详细的信息。为了实现这一点,我们提取大部分的功能和小部分的功能,每个专家作出决定的基础上,这两个功能的组合。第二个原则是一个专家可以产生先验知识来建立另一个专家。所有的专家都能做出好的但多样化的预测。为了鼓励专家之间的多样性,专家以渐进增强的方式进行培训,我们为专家提供包含前一位专家的先验知识的数据。3.1. 细粒度识别专家为了满足上述原则,我们需要构建一个强大的特征提取器。对于专家Et,我们使用具有全局平均池化的深度Conv块来提取fea。8334KAkKKKGLKGL我C我ffGLc兴趣为了获得任何类c的宽度u和高度v的类特定注意力图,我们首先计算类c的梯度,表示为yc,相对于卷积层的特征图Ak,即Δ yc。然后将这些流回的梯度进行全局平均池化,以获得神经元重要性αc:αc= 1个单位 ΣvZycAki=1j =1ij其中,权重αc表示在期望的卷积层A的激活下游的深度网络的部分线性化,并且捕获特征图k对于目标类别c的重要性。Z是通道中神经元的数量(u×v),k是层A中的通道数量。在全局池化之前,ReLU操作被应用于梯度以利用通道重要性。图3.注意模块。我们从地面实况(测试时的预测)反向传播梯度,以获得最后的梯度βc=1个单位 ΣvZReLU(ycAk)卷积层然后将梯度进行全局平均,并沿通道用特征图进行加权汇总,以获得注意力图。注意图为后面的专家提供先验知识。从大部分区域ft中提取特征,并且使用具有全局最大池化的浅Conv块[37]来从小部分区域ft中提取特征。通过在两个单独的Conv 块上应用不同的全局合并方法(GAP和GMP)i=1j=1ij类激活图可以通过执行来自期望卷积层的跨通道在训练阶段,我们使用地面实况标签,在测试期间,我们使用预测类标签。因此,专家Et中的最终注意力图可以表示为:ΣK他们将从相同的IM学习不同类型的特征年龄可以得到专家的统一特征ftSc=k=1βcAk通过连接这两个标准化的特征。ttft=(g, l)ftft在获得注意力图之后,我们通过在0和1之间缩放该值来进一步归一化它。然后,我们可以使用一个阈值来估计边界框定位图像中的重要区域。专家的分类损失包括两个辅助损失(大部分和小部分)和一个决策损失,标准=Sc−min(Sc)max(Sc)−min(Sc)tcls1=−NΣΣNyilog(f(xt,θj))通过将注意力图上采样到输入图像的大小,我们可以识别最多的图像区域。θj∈{θt,θt,θt}i=1其中xt是具有类标签yi的专家Et的输入,并且θt,θt,θt表示大区域内的参数,小区域内的参数,与类标签有关。在训练阶段,我们反向传播地面实况预测(对应于类别标签)来计算注意力地图,而在测试阶段,由于我们没有GLcgion,分别连接分支N是总量的数据.这三种损失都是基于交叉熵。后一个专家从前一个专家的先验信息中学习数据,并通过基于梯度的注意力将先验知识我们构建注意力图的方式遵循Grad-CAM [29],它使用所需卷积层的梯度信息来理解每个神经元对决策的重要性。访问类别标签时,我们使用预测标签。给定注意力图,我们使用类似于弱监督对象局部化的技术为下一个专家构建输入[46,22,29]。这样做的一个原因是包括更多的有效区域而不是仅检测部分区域。为了实现这一点,我们首先分割注意力图的最大值的0.2以上的区域,注意力图的最大值已重新调整为0和1之间然后我们把间隙FCY反向传播关注SL8335我我我KLKLKLKL在分割图中覆盖最大连接区域的边界框通过这个,我们得到一个粗略的包围盒。之后,我们将边界框的坐标重新映射到原始图像,然后裁剪相应的3.3.混合专家最终的优化目标可以表示如下,缩放到原始大小之前的区域。3.2. 基于KL分歧的惩罚术语ΣTL=t=1tclsΣT+t=2t+L门为了促进专家之间的多样性,我们引入了一个基于KL-分歧的约束,以惩罚在输入图像上产生相同概率分布的专家。KL-发散是一种测量不同概率分布之间的不相似性的流行方法,并且表示为该目标函数中的第一项表示每个专家都是在一个全尺寸数据集上训练的,该数据集是通过将数据与来自前任专家的注意力知识进行转换而构建的。第二项是基于KL-发散的惩罚项,其鼓励专家产生多样化的概率分布。L门是用于学习门控网络的损失函数,其表示为:Σt t+1tPt(x)ΣNΣTD KL(PCUPΣ)=的x∈XtP (x)log(Pt+1(x))L闸1=−Ni=1iilog(Gtt=1(xi)),=x∈Xt(Pt(x)log(Pt(x))−Pt(x)log(Pt+1(x)哪里Et(xi)=f(xt,θt)我C其中Pt表示为目标分布,Pt+1de-注意预测分布。我们鼓励后一个专家产生一个概率分布Pt+1不同于前一个Pt。由于有限的训练数据,每个专家往往会产生一个非常自信的预测,产生一个接近一热的向量这样的结果并不反映模型对数据固有结构的描述。因此,我们删除最大值并将其归一化为一个新的分布,该分布更好地反映了模型对数据的描述(例如数据和类别之间的关系)。因此,最大化两个这样的分布的KL-散度相当于鼓励两个模型具有不同的数据描述。具体来说,我们通过应用二进制掩码来改变分布。.并且gt是由选通网络在测试期间,该模型根据所有专家的加权预测概率进行预测。ΣTyi=gtyt,t=1其中yt是由expertEt做出的预测。我们在图2中说明了专家设计,图2的注意力模块如图3所示,其中白色圆圈表示在为后面的专家生成新输入之前裁剪和删除先前专家的输入。在训练过程中,我们以顺序的方式向前传递数据,同时在专家之间同步且独立地反向传播梯度。梯度不会从Mt=0,i=yc1、否则后来的专家到前一个。4. 实验其中i指示M中的元素的索引,M是掩码向量,其中每个元素对应于专家Et的Pt中的概率。它也可以被视为门控操作以选择用于优化的分布。因此,基于KL-发散的约束被导出t=M,DKL(PtPt+1)其中Pt表示专家Et在所有类上产生的概率分布。t= exp(−Dt)在这一部分中,我们将描述本文所使用的数据集,实现细节和实验结果。我们在四个具有挑战性的细粒度数据集上进行实验,这些数据集是Caltech-UCSDBirds ( CUB-200-2011 ) [34] , Stanford Cars [21] ,Flowers-102 [25]和NABIrds[33].CUB-200-2011数据集包含200个鸟类类别,每个类别大约有30个训练图像。该数据集还包含5994个实例作为训练集,5794个实例作为测试数据。Stanford Car数据集包含196个汽车类别,用于细粒度任务。训练集有8144个样本,测试集有8041个样本。汽车图片来自LLDL8336数据集从不同角度获取,并根据生产年份和车型进行分类。Flowers-102数据集包含1-2种花卉类型,包含1,020个训练,1,020个验证和6,149个测试图像。NABirds数据集包含23,929张训练图像和24,633张测试图像,包含555个类别。每个物种都有100多张照片,包括雄性、雌性和幼鱼的单独注释。4.1. 实现细节我们首先描述MGE-CNN的基本设置。我们网络的输入大小是448×448。除了类别标签外,我们不使用边界框或零件注释我们将我们的实验结果与其他弱超监督方法(只有类标签)进行比较。在训练阶段,我们通过随机图像将输入增加到512×512,然后通过随机水平翻转随机裁剪到448×448我们使用ResNet-50作为我们的基线,并使用PyTorch[26]实现我们所有的实验。每个CNN的输出是从最后一个卷积层汇集的全局平均值,以生成2048-dim特征向量。对于局部特征,我们使用一个1×1的滤波器,其滤波器数目为类数的10倍,并放入全局最大池中。在确定注意力地图和裁剪图像之后,我们将它们调整为448×448,然后输入Con-vNets。这些ConvNets分支中的参数不共享。对于阈值相关的估计边界框,我们遵循弱监督定位工作并应用值为0.2的标量。我们的模型对阈值不敏感,因为感兴趣区域和其他区域之间的幅度差异预训练层的学习率为0.001,随机初始化层使用10倍乘法器。学习率每30个epoch衰减一次,衰减率为0.1。SGD优化器使用momentum 0.9。我们训练了100个epoch的网络,批量大小为10,并从最后一个epoch开始测量前1名的分类精度。为了更好地优化所有专家,使其相互加强,我们采取以下培训策略。• 我们使用ImageNet [8]中预训练的ResNet-50 [15]权重初始化图2中的卷积层和全连接层。• 我们使用基于梯度的类激活图,它计算张量梯度作为层权重,并在特征通道上加权求和来估计注意力图。在给定注意力的情况下,我们推断出粗略的边界框,并应用裁剪和缩放操作来生成新的输入给下一个专家。所有输入给专家的图像大小相同。• 我们以端到端的方式优化我们的模型。训练图像首先被馈送到选通网络和第一专家以执行前向传播步骤,之后第一专家开始Grad-CAM步骤以生成注意力图,从而自动生成用于下一专家执行前向传播的输入,等等,直到所有专家完成前向传播并生成预测。最后,所有预测都由预测门加权,并馈送到损失函数,以对所有网络执行梯度反向传播和权重更新。4.2. 实验结果由于我们不使用额外的注释,我们将结果与不使用人类定义的绑定框/部分注释的方法进行比较。表1显示了CUB-200-2011数据集的结果。基于ResNet-50的基线使用简单的增强(随机翻转和随机裁剪)进行训练 , 达 到 85.4% 。 我 们 的 方 法 进 一 步 优 于 基 线 的3.1%,实现了最佳的整体性能对其他方法。与DFL-CNN [37]相比,它通过学习一组卷积滤波器来捕获特定于类别的区分补丁来增强CNN框架内的中级表示学习,我们得到了更好的结果,相对准确度提高了1.1%。我们的方法优于MAMC [32],后者使用指标学习多个注意区域特征2.0%。虽然我们的基线已经很强,但大幅度的改进表明,即使有更深的网络,仍然可以学习到更好当我们使用ResNet-101作为主干时,可以看到另外1%的进一步改进(表4)。斯坦福汽车的分类精度也在表1中列出。我们使用与CUB-200- 2011相同的基线。虽然我们的方法仅比DFL-CNN(VGG-16)略好(0.1%),但使用相同的ResNet-50作为基线,我们的方法仍然实现了93.9%的竞争结果,比DFL-CNN(ResNet-50)好0.8%。在Flower-102和NABIrds上的实验结果分别示于表2中,并且当与基线方法相比时可以看到相当大的图4展示了CUB-200-2011和Stanford Cars的示例。训练后,我们观察到,对于小规模的对象,整个对象都会响应,这意味着第一个专家(前两列)主要基于全局信息进行预测这也提供了定位信息,因为在我们使用来自弱监督对象定位的技术来估计重要区域之后,我们可以更精确地定位整个对象在放大到第一输入的大小之前,基于来自先前输入的注意力图来裁剪对第二专家的输入,因此第二专家从对象级输入学习,并且8337方法主干精度(%)表1. CUB-200-2011(CUB)和Stanford-Cars(Car)上的不同方法的比较,没有额外的注释。方法主干精度(%)表2.在没有额外注释的情况下,比较Flowers-102(Flower)和NABIrds上的不同方法。相应注意力图(第四列)中的响应区域变得更加具体。从表4中可以看出,与第一个专家使用图像中的大区域相比,第二个专家仅使用裁剪区域实现相同的性能虽然第三位专家的情况不那么明显,但注意力地图中的显著区域仍然变得更加具体,并且与两位专家的情况相比,将所有三位专家(88.5%)结合的最终结果增加了0.3%。Stanford Cars没有太多的尺度变化,每个专家都从给定的汽车图像中学习到了良好的表示(图4的最后两列)。因此,专家们在组合时没有足够的多样性来产生更强的预测。图4.使用建议的MGE-CNN对CUB-200-2011和斯坦福汽车的选定结果进行可视化CAM是班级特定注意力地图。我们重新映射每个注意力地图,以匹配原始图像。对于每个数据集,第一,第三和第五列显示了三位专家的输入图像,第二,第四和最后一列对应于注意力地图。方法准确度(%)Expert 186.8专家287.3专家(1+2)87.9专家(1+2)+KL88.2表3.在CUB-200-2011上比较KL-发散约束的有效性KL表示具有KL-发散约束的专家。4.3. 消融研究为了分析不同组件在所提出的框架中的贡献,我们在CUB-200-2011上进行了各种实验并报告了结果。KL发散约束的影响。 我们通过两个专家的实验来研究KL约束的效果,并且一个KL约束可以应用于两个分布。生成的预测分布前一个专家作为目标分布,第二个专家作为预测分布。表3中的两个专家之间的性能改进验证了我们修改的KL约束的有效性。不同阈值的影响。我们选择0.2作为阈值,这在许多使用注意力图进行弱监督定位的方法中被广泛使用。我们还骗-Expert 1专家2Expert 3输入CAM输入CAM输入CAMCUB 200-2011斯坦福汽车幼崽车VGG-19VGG-1977.884.9ResNet-50ResNet-5085.491.7ResNet-101ResNet-10186.891.9[18]成立84.1-美国有线电视新闻网[10]VGG-1985.392.5美国有线电视新闻网[45]VGG-1986.591.5[24]第二十四话VGG1684.191.3压缩B-CNN [11]VGG-1684.0-低秩B-CNN [20]VGG-1684.290.9Kernel-Activation [2]VGG-1685.391.7Kernel-Pooling [7]VGG-1686.292.4MG-CNN [45]VGG1982.6-RAM [23]ResNet-5086.0-MAMC [32]ResNet-10186.593.0DFL-CNN [37]ResNet-5087.493.1DFL-CNN [37]VGG-1687.493.8[42]第四十二话ResNet-5087.5-MGE-CNNResNet-5088.593.9花NABirdsResNet-50ResNet-5092.484.3ResNet-101ResnNet-10192.385.3[31]第三十一话VGG-1995.3-MGE-CNNResNet-5095.988.0MGE-CNNResNet-10195.888.68338专家方法准确度(%)表4.比较了CUB-200-2011上大部件和小部件信息的有效性阈值0.2 0.3 0.4 0.5准确度(%)88.19 88.44 88.32 88.14表5.在CUB- 200-2011上使用不同阈值的实验结果。我们只说明了两个专家的结果。使用不同阈值[0.2-0.5]的导管实验,表5中的结果显示了微小的差异。大小零件信息的影响。如图5所示,通过在两个单独的卷积块上应用不同的全局池化方法(GAP,GMP),它们将学习对同一图像的不同激活响应方式由于平均操作,GAP输出的单位高度依赖于特征图中有多少空间位置被相应的滤波器激活,因此,GAP卷积块通常学习对图像的大区域敏感的滤波器。相比之下,GMP卷积块只关心某个空间位置是否被滤波器高度激活,它找到的模式大多是小图像区域。通过这种设计,生成的特征可以对大零件和小零件信息进行编码。更多结果见表4。通过把大零件和小零件组合在一起,我们得到了更强的功能。基于这些特征,准确率从85.4%提高到86.8%,提高了1.2%。尽管专家2和专家3的边际较小,但它们的性能仍然比仅使用GAP高0.3%和0.9%。多位专家的影响。如表4所示,只有一名专家,我们实现了86.8%。最大的性能提升可以看出,当我们包括第二个专家,性能增加到88.2%,这已经比所有对手更好。加入第三位专家后,我们又获得了0.3%的增长。请注意,第二个专家比其他专家获得更好的性能。一个原因是,对于一些图像,第一专家要识别的对象很小,使得难以获得更详细的信息。这图5.CUB 200 -2011中选定样本的前3个最高激活标测图的可视化第二个专家(图5)缓解了这个问题,因为在对象被局部化和放大后可以获得更多的细节但是,对于第三个专家,对象的某些部分被切断,如图4所示,导致性能略有下降5. 结论本文提出了一个统一的细粒度图像分类框架.该方法是基于专家的混合,但我们划分细粒度的问题到子空间,lem通过学习后一个专家与前一个专家的先验信息。通过这种方式,我们学习了一组逐步增强的专家对每个专家的全尺寸数据。我们学习不同的专家相结合,逐步增强的战略和KL分歧为基础的约束。最后,这些专家作出不同的预测,并最终的预测是由加权组合预测从所有专家使用的权重产生的门控网络。我们的方法还可以紧密结合的大,小部分的功能,这提供了丰富的信息时,重新定位一个对象。该方法在训练或测试过程中不需要边界框或部分标注,可以端到端的方式 进行训练。 在几个细粒 度任务(CUB-200-2011,Stan-ford Cars,Flowers-102,NABIrds)上进行了实验,并取得了比基线方法更好的性能。6. 阿克孔什这 项 工 作 得 到 了 澳 大 利 亚 研 究 委 员 会 项 目 FL-170100117和DP-180103424的支持。引用[1] YoshuaBengio,NicholasLe'onard,andAaronCourv i lle.估计 或 传播 梯度 通过随机输入间隙GMPResNet-50ResNet-100间隙85.486.8月1GMP83.882.3Concat86.887.5间隙86.187.4第2GMP84.184.7Concat87.388.3间隙85.286.8第3GMP82.283.9Concat86.187.42名专家88.289.23名专家88.589.48339条件计算的神经元。arXiv预印本arXiv:1308.3432,2013。[2] 蔡思佳,左王梦,张磊。用于细粒度视觉分类的分层卷积激活的高阶积分。IEEE计算机视觉和模式识别,第511-520页,2017年[3] AdityaChattopadhay , AnirbanSarkar , PrantikHowlader , and Vineeth N Balasubramanian. Grad-cam++:深度卷积网络的一般化基于梯度的视觉解释。在IEEE计算机视觉应用冬季会议上,第839-847页[4] 陈新元,徐畅,杨小康,李松,陶大成。Gated-gan:用 于 多 集 合 类 型 传 输 的 对 抗 性 门 控 网 络 。 IEEETransactions on Image Processing,28(2):546[5] 陈新元,徐畅,杨小康,陶大成。野生图像中物体变形的注意力在欧洲计算机视觉会议(ECCV),第164-180页[6] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏与构造学习在IEEE计算机视觉和模式识别会议论文集,第5157-5166页[7] Yin Cui,Feng Zhou,Jiang Wang,Xiao Liu,YuanqingLin,and Serge Belongie.卷积神经网络的核池。IEEE计算机视觉与模式识别。[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 在 IEEE Conference on Computer Vision andPattern Recognition,第248-255页[9] David Eigen,Marc'Aurelio Ranzato和Ilya Sutskever。在深度混合的实验中学习因子表示。arXiv预印本arXiv:1312.4314,2013。[10] 傅建龙,郑和良,陶梅。看得更近些,看得更清楚:用于细粒度图像识别的递归注意卷积神经网络。IEEE计算机视觉和模式识别会议,第4438-4446页,2017年。[11] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在IEEE计算机视觉和模式识别会议上,第317-326页[12] ZongYuan Ge , Alex Bewley , Christopher McCool ,Peter Corke,Ben Upcroft,and Conrad Sanderson.通过深度卷 积神 经网络 的混 合进行 细粒 度分类 。在 IEEEWinter Conference on Applications of Computer Vision,第1-6页[13] ZongYuanGe,ChristopherMcCool,ConradSanderson,and Peter Corke.细粒度类别分类的子集特征学习。在IEEE计算机视觉和模式识别研讨会会议上,第46-52页[14] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在2017年的计算机视觉国际会议上,第2961-2969页[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页[16] 黄绍利、徐哲、陶大成、张雅。用于细粒度视觉分类的部分堆叠cnn。在IEEE计算机视觉和模式识别会议上,第1173-1182页[17] Robert A Jacobs,Michael I Jordan,Steven J Nowlan,Geoffrey E Hinton,et al.当地专家的适应性混合。神经计算,3(1):79[18] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。神经信息处理系统的进展,第2017-2025页,2015年[19] Michael I Jordan和Robert A Jacobs。专家层次混合与em算法。神经计算,6(2):181[20] 舒空和查尔斯·福克斯。用于细粒度分类的低秩双线性IEEE计算机视觉和模式识别会议,第7025-7034页,2017年[21] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。IEEEInternationalConference on Computer Vision Work-shops,第554-561页[22] Krishna Kumar Singh和Yong Jae Lee。捉迷藏:迫使网络对弱监督的对象和动作定位进行细致的处理。在IEEE计算机视觉国际会议上,第3524-3533页[23] 李志超、杨毅、小刘、周峰、文石磊、徐伟。视觉注意力的动态计算时间。arXiv预印本arXiv:1703.10332,2017。[24] 林宗宇,Aruni RoyChowdhury,Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。IEEEInternationalConference on Computer Vision,第1449-1457页[25] M-E Nilsback和A.齐瑟曼。在大量类别上的自动花分类在印度计算机视觉,图形和图像处理会议上,2008年。[26] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W,2017年。[27] Scott Reed 、 Zeynep Akata 、 Honglak Lee 和 BerntSchiele。学习细粒度视觉描述的深度表示在IEEE计算机视觉和模式识别会议上,第49-58页[28] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统进展,第91-99页,2015年[29] Ramprasaath R Selvaraju,Michael Cogswell,AbhishekDas,Ramakrishna Vedantam,Devi Parikh,and DhruvBatra.Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。在IEEE国际计算机视觉会议上,第618-626页[30] Noam Shazeer、Azalia Mirhoseini、Krzysztof Maziarz、Andy Davis、Quoc Le、Geoffrey Hinton和Jeff Dean。超大型神经网络:稀疏门控专家混合层。arXiv预印本arXiv:1701.06538,2017。8340[31] MarcelSimon和ErikRodnerNeuralactivationconstellations : Unsupervised part model discovery withconvolutional networks.IEEEInternational Conference onComputer Vision,第1143-1151页[32] 孙明,袁雨辰,周峰,丁二瑞。细粒度图像识别的多注意多类约束欧洲计算机视觉会议,2018。[33] Grant Van Horn 、 Steve Branson 、 Ryan Farrell 、 ScottHaber、Jessie Barry、Panos Ipeirotis、Pietro Perona和Serge Be- longie。与公民科学家一起构建鸟类识别应用程序和大规模数据集:细粒度数据集集合中的细打印。IEEE计算机视觉和模式识别会议,第595-604页,2015年[34] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。2011年。[35] 王新潮,图雷肯,弗勒里,傅培凯.使用整数规划最优地跟踪交互对象欧洲计算机视觉会议,第17-32页[36] 王新潮,图雷肯,弗勒里,福阿.使用交织流跟踪交互对象 IEEE Transactions on Pattern Analysis and MachineIntelligence,38(11):2312[37] 王亚明、弗拉德I莫拉留和拉里S戴维斯。在cnn中学习判别滤波器组以进行细粒度识别。在IEEE计算机视觉和模式识别会议上,第4148-4157页[38] Tianjun Xiao , Yichong Xu , Kuiyuan Yang , JiaxingZhang,Yuxin Peng,and Zheng Zhang.两级注意力模型在深度卷积神经网络中的应用,在IEEE计算机视觉和模式识别会议上,第842-850页,2015年。[39] 徐哲,黄少丽,张亚,陶大成。使用web数据进行细粒度分类的增强监督。在IEEE International Conference onComputer Vision,第2524-2532页[40] 徐哲,黄少丽,张亚,陶大成。通过深度域适应的网络监督细粒度视觉分类 。IEEE Transactions on PatternAnalysis and Machine Intelligence,40(5):1100[41] 徐哲,陶大成,黄少立,张亚。朋友或敌人:细粒度分类 , 监 督 较 弱 。 IEEE Transactions on ImageProcessing,26(1):135-146,2016
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功