基于图的细粒度对象关系发现方法

133 浏览量更新于2024-01-22 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15079面向细粒度识别赵一凡1柯岩2黄飞跃2李佳1，3张1北京航空航天大学虚拟现实技术与系统国家重点实验室2腾讯优图实验室，中国上海3鹏程实验室，深圳，中国{zhaoyf，jiali}@ buaa.edu.cn，{kerwinyan，garyhuang}@ tencent.com摘要细粒度对象识别旨在学习有效的特征，这些特征可以识别视觉相似对象之间的细微差异。现有的研究大多倾向于利用注意机制放大区分性部分区域。除了在复杂的背景下表现出不稳定性外，不同语义特征之间的内在联系也较少被探讨。为此，我们提出了一种有效的基于图的关系发现方法，以建立一个上下文的高阶关系的理解。在我们的方法中，首先形成一个高维特征库，并与语义和位置感知的高阶约束联合正则化，赋予丰富的属性的特征表示。其次，为了克服高维诅咒，我们提出了一种基于图的语义分组策略，将这种高阶张量库嵌入到低维空间中。同时，提出了一种分组学习策略，以聚类嵌入中心为中心对特征进行通过三个模块的协作学习，我们的模块能够掌握更强的细粒度对象的上下文细节。实验证据表明，我们的方法在4个广泛使用的细粒度对象识别基准上达到了新的最先进水平1. 介绍细粒度对象识别侧重于区分和分类基本级别类别的对象，到子类，这是一个具有挑战性的任务，由于微妙的视觉差异之间的不同类。得益于深层神经网络的强大感知能力，使用视觉特征处理细微变化[42，34，49，19]已经取得了重大进展。特别是，我们考虑两个流行的家庭的方法，信件应寄给贾丽。网址：cvteam.net图1.提出方法的动机。我们提出的方法首先利用结构上的通道感知关系b）嵌入到高维图中。然后，这些关系节点用语义分组策略被分组到低维空间d）中，形成最终的分组激活f）。解决这个问题，即。区分性部分学习和特征表示学习。第一家族的研究[48，42，34，6]通常通过定位不同的部分来处理细粒度的分类问题。一些代表性的方法倾向于在不同的分类任务中利用部分检测器[13，18]或分割解析器[19，21在获得准确的部分解析结果的同时，也可以获得令人满意的细粒度分类器的性能。除了使用手动注释的方法之外，基于注意力的方法[19，42，34，6，31]显示了其在弱监督训练期间发现对象部分的能力然而，使用注意机制的局部定位在复杂场景下的结果并不可靠.由于网络无法捕获正确的局部化，进一步加强这些区域将导致灾难性的过度拟合。15080另一类方法[28，46，36，49]通常将分类问题作为表示学习任务来处理。由于对象部分在弱监督分类任务期间自然出现在不同的特征通道[14]中，因此利用不同通道[36，12，3，50]之间的相互关系对于细粒度特征表示是有意义和有益的。作为一种主要的方法，双线性池化[28]利用了来自两个不同网络的二阶分类特征。此外，Zheng等人。 [49]提出了一种三线性注意力机制，使用三阶池来建立通道关系。关系然而，高阶特征将导致高维度（例如，，C×C维数（对于齐次特征X ·X∈RC×W×H），带来了极大的计算负担和过拟合风险。因此，两个主要问题如何利用高阶关系建立全局关系域，如何将高维特征嵌入到低维流形中？在本文中，我们提出了一个基于图的关系分布（GaRD）的方法，挖掘更精细的关系属性，从内在的网络功能。如图1所示，与以前的研究不同，我们的方法以扩展和压缩的方式处理代表性特征学习。受类激活图（图1b）中新兴语义部分的启发，我们的扩展主题是通过学习高阶表示来构建多个特征通道之间的上下文关系-S.然而，通道感知机制[28，49]的试验性质倾向于忽略空间结构信息，并使用平均logit来表示每个通道。为了克服这一自然缺陷，我们提出了一个关系发现模块，其中的结构关系是通过采用位置感知的门控操作，进一步通道交互提供高阶空间增强构造。同时，采用不同层次的异构特征与位置增强特征建立跨通道最后，一个混合订单10-形成了T∈RC1×C2分类库，赋予了丰富的特征，但导致了冗余的高维数。为了解决这个问题，现有的分类模型使用特征因子分解[27]或低秩表示[23]压缩高维特征。尽管它们的性能不足，但不同特征之间的语义关系较少考虑，这在细粒度视觉任务中至关重要。为了探索语义关系，我们首先将混合阶张量公式化为图中的图形表示。（1）然后提出图分组模块，用于将所述高阶关系矩阵自适应地嵌入到低维流形中。图卷积层使用密集连接的关系图有效地编码该关系矩阵。为了将这些节点归为不同的组，我们采用了一个辅助图层来学习分组规则，语义相似性因此，混合阶特征库被嵌入在低维流形中，同时保留其丰富的语义关系以进行细粒度识别。除了这两个模块之外，我们首先提倡采用分组训练机制进行细粒度图像分类，而无需额外的正则化，该机制利用分组图像的中心而不是每个图像样本进行梯度下降。该机制消除了由硬样本引起的过拟合和梯度异常。实验证据表明，该方法在四个流行的基准数据集，即2011年10月25日，《中华人民共和国电信与信息服务业务经营许可证》（以下简称《经营许可证》）在北京市人民政府网站上发布。总之，我们的贡献是三个方面：1）我们提出了一种新的基于图的关系发现（GaRD）方法，用于细粒度识别，该方法自适应地利用关系感知的特征嵌入来增强区分表示能力。2)我们提出了一个有效的关系发现模块来学习位置和语义特征关系，并学习一个语义分组规则来聚类高阶关系。3)我们提出了一个简单而有效的分组学习策略，使用聚类中心原型更新梯度，消除过拟合和硬样本引起的异常。2. 相关工作区分部分学习。深度CNN在分类的学习过程中具有定位判别的自然能力。视觉部分在梯度向后过程中自然出现[14]。反过来，准确定位这些有区别的部分可以对识别任务有很大帮助。以前的先驱工作[17，47，18，41，13，15]倾向于通过弱监督和手动注释来利用边界框信息。例如，Zhang等人 [47]提出基于部分的R-CNN来定位和检测整个对象和相关部分，强制执行学习的几何约束以实现准确的表示。Lam等人。 [26]提出了一种顺序搜索具有边界框注释的信息部分，并将启发式函数嵌入LSTM网络。最近的基于部分的方法[19，42，34，6，31]通常使用注意力机制来处理这些任务，以可视化类激活图。例如，进行双阶段注意力框架[42Simon等人。 [34]提出了一种用于深层神经激活图的无监督部分模型发现方法在该方法中，使用深度神经激活映射来利用分类网络的通道作为部分检测器。Fu等人。 [10]提出了一种分层结构，通过采用注意力建议子网络来自动定位最有用的部分。特征表示学习。以双耳池技术为主导的特征表示方法[2815081Σ1i、j图2.提出的基于图的关系发现（GaRD）方法由三个基本模块组成：关系发现模块提取丰富的关系感知的高维特征，基于图的语义分组模块发现低维特征嵌入，采用分组学习策略以类中心更新梯度。高阶ODS [46，36，49，45]表现出较强的概括能力和范畴化能力。例如，提出了紧凑双线性特征[11]，通过压缩两个齐次张量草图来减少特征尺寸。Kong等人。 [23]提出了一种低秩表示方法，使用Frobenius范数投影捕获二阶统计量。除了这些努力，Zheng等人。[49]提出采用三线性注意力与三阶池来构建通道注意力响应。还有一些其他方法[3，40，36，20，4，29]专注于多尺度或多通道表示。OSME [36]模块应用有效的多注意力多类约束来正则化特征学习。Chang等人[3]提出了一种相互作用机制，以利用不同通道之间的特征关系。除了上述方法之外，利用不同的池化技术[46]和构建特征正则化[8，9]也大大增强了最终的特征表示。与上述研究不同的是，本文提出在学习区分性特征表示的语义分组时发现高阶关系3. 方法维，通常很难优化，我们提出了一个新的基于图的语义分组模块，将这些功能嵌入到一个紧凑的空间中。除了这些改进之外，在第3.3节中，我们提出了一种分组学习策略来减轻梯度下降优化中的离群值3.1. 关系发现给定输入图像I，设X∈RW×H×C是C维图像，H ×W特征平面由骨干网络X=Φ（I）编码. 因此，最常用的分类方法是使用全局池操作（ GAP 或GMP），在H × W特征平面上计算平均值或最大值，从而嵌入最终特征X。高层次的关注。采用平均值或最大值联营业务通常不能利用相互作用，不同语义通道之间的关系为了利用图1中通道之间的共振响应对于每个位置（i，j）的二阶矩阵Fr构建通道间通过转置自身ΦA（·）∈RWH×CA并乘以另一个CNN流ΦB（·）∈RWH×CB的关系。然后，最终特征通过全连接（fc）层以进行最终N路分类：在本节中，我们将介绍用于细粒度识别的WFr = WHvec（ΦA（一）�Φ（一）i，j），（一）在图2中。我们的方法的第一个关键思想是，在第3.1节中利用了不同语义和结构特征之间的相互关系，用高阶丰富特征描述了这种关系。由于这些特征是灾难性的高-i=1j=1Fb= W·Fr+ b，其中vec：RCA×CB →RCACB×1表示向量-HΣB15082CWHC⊤2我我C在不同的层次上。位置权重然后用空间注意力加强原始特征，然后通过自适应选通操作来选择（图3中的符号S）出现不同样本时最有用的特征：E=G（P）·（PXX）+X，（3）icii iic=1图3.不同的相互注意方法举例a）双线性池化[28]：使用向量化特征构建信道感知二阶关系b）三线性注意力[49]：三阶通道关系，保持原始特征形状。c）我们的关系发现模块：联合位置和通道关系感知，形成关系张量库。二阶矩阵的分解 W∈RCACB×Ncls为其中G（P）∈R1表示由fc层生成的选通权重。门控操作是基于空间感知生成的，以形成位置感知特征。第二个缺点是三线性关注中的跨通道交互是隐式描述的，对每个通道使用重新加权机制。这种注意力机制可以被视为去噪或高通滤波操作。虽然特征保持原始形状RW×H×C，但省略了跨多个语义通道的关系矩阵。因此，我们建议使用丰富的关系感知表示，而不是常见的特征图，使用显式张量库T进行关系描述。在获得位置增强特征E之后，可以通过类似的操作来构建关系矩阵：fc层的可学习权重虽然富-通过学习这些高维特征，（1）N=N（1ΣE（Xi））∈RCN ×C，（4）很容易导致较差的优化。受非局部操作的启发，基于三线性注意力的方法[49，12]将跨通道关系视为从同一特征图生成的注意力图X∈X∈RC×C（见图11）。3b））。通道感知注意力地图，然后在-对原始特征X赋予不同的重要性，得到三阶结果S（X<$X）X <$∈RWH×C，其中S表示softmax归一化.联合关系发现。跨渠道关系的第一个缺点在于省略了位置信息，第在Eqn中。（1）中，每个像素都用W×H上的平均求和来平等对待。然而，由于对象部分自动出现在网络特征中，因此有必要对具有位置重要性的原始特征进行编码。位置注意力权重可以表示为：P =N（M（1（X）∈RWH×WH，（2）i=1其中 M （ x ） =sign （ x ） x−1/2 ， N （ x ）=x/||X||2分别是矩和L2归一化。此外，本发明还提供了一种方法，不同的网络层以不同的尺度呈现对象语义，其中后者具有更大的感受域。利用跨层语义还增强了多尺度学习的表示在这里，我们使用（X）表示来自相同ResNet阶段的比X更后的层因此，P用作注意力权重以找到空间距离。WHi=1其中CN表示位置感知注意力的信道维度。与传统的双线性池方法，执行向量分解或矩阵分解，我们构造一个张量银行T与CN张量。每个张量都有语义映射的C维相同，对应于原始的功能频道。3.2. 基于图的张量映射嵌入高维特征T ∈RCN×C的最常见方法是采用具有fc层的MLPS. 然而，正如在Eqn中提到的那样（1），这种嵌入W将引入大量的可学习参数C2× Ncls，这些参数通常难以优化用于细粒度分类。数据有限的阳离子任务如何将张量库嵌入到一个低维嵌入中，同时保持其语义映射，这是一个自然的问题。当张量组T ={x1，. . . ，xCN}构造的，它可以表示为一个具有C-dim的C N节点的图，它就是注意部分的维数这导致了优化的复杂性。值得注意的是，可以发现这些节点基本上共享许多互信息，例如，，响应CAM中的相同对象部分[33]。因此，我们建议聚合这些功能的基础上，他们的相似性使用Kipf等人。 [22]第二十二话成对相邻关系15083˜˜˜˜不同节点之间的关系可以定义为：⊤Ai，jτ（xi）·τ（xj）=，（5）τ（xi）其中τ（·）表示用于维数变换的1×1卷积层。最后的邻接矩阵可以通过增加自环来定义为A = A + I且I∈RCN×CN是单位矩阵。通过这种密集连接的GCN操作，每个节点可以通过这种基于相似性的聚合来更新：H=ReLU（D）-1 一个很好的例子-12TWg）。（六）Wg∈RC×dh 是具有隐藏维数 dh 的可学习图权，D=<$jAi，j是对角矩阵为了正常化。T表示张量的矩阵形式T银行因此，通过该消息传递操作更新每个节点的特征。图嵌入的另一个目的-丁操作[2，44]是形成多个组以获得上下文理解。我们进一步提出通过学习一个新的图卷积层来学习这些分组规则，这是为了找到一个嵌入RCN ×dh → RCr×dh。因此，我们使用聚合特征及其相邻的ma-以形成该嵌入G：图4.三种典型的成对正则化的说明：a）成对三重正则化[35，36]，b）成对关系[8]和c）提出的分组学习。Group [36，35]提出了约束类内相似性和类间不相似性的方法，该方法对锚图像（表示为A）进行采样以找到负对和正对。在图4b）中，提出了成对关系[8]，以类似的方式对来自不同类别F1和F2的特征进行G=ReLU（D）-1 一个很好的例子-12HWemb）。（七）分配。尽管它们在sam中的计算成本很高-分组对，组间的相关性较少被探索，这有时会导致不良的特征嵌入，Wemb∈Rdh×Cr是图的权。因此G∈RCN×Cr从原始FEA定义每个节点的映射函数，真正的空间来形成新的graphlets：数据分布的限制。为了从一个新的角度重新审视细粒度识别任务，在这里我们提出了一个群体学习策略eGi，jd×C在图4c）中。细粒度分类中的一个明显问题-Z =HCrj=1 eGi，j∈Rhr，（8）问题是对困难情况的过度拟合一个较好的类聚类应该是以代表性样本为中心，其中Cr是新嵌入的graphlet的数量。即原始的高维关系矩阵被聚类到- toCr语义组中，而Cr被经验地设置为-CN/r。我们进行softmax操作的组维，锡永，表明每个新的组是由一个prob，原始的CN节点的组合。在这种方式下，高阶张量组T可以很容易地分配在一个低维流形上，并由两个通道维度和节点维度。然后，使用剩余连接执行分组特征Z，以构建最终嵌入Z = Z + H。类似于传统的分类任务，因此这些嵌入可以通过以下方式测量：省略了外围的硬样品。与以前使用成对约束的作品不同，我们建议在梯度下降期间在每个小批次中使用分组训练。这意味着我们使用特定类的多个样本的中心作为更新网络参数的平均特征此操作可以自然地嵌入到具有交叉熵损失函数LCE的网络。一个典型的-小批量中的calgroup-wise学习损失是首先随机选择N个类，然后在每个类中采样K个图像，因此损失函数可以表示为：N K通过最终池化层，即，、GMP和GAP，以及用于预测Ncls类的概率的分类器。3.3. 团体智慧学习1L批次=NK公司简介n=1k=1（F（yn|In,k），yn），（9）很少有研究关注对成对关系的开发[36，35，32]或在细粒度识别任务中引入成对混淆[8如图4a）、第一种方法其中F和y表示嵌入的特征和标签。有了这种分组训练机制，网络往往形成每个类的聚集嵌入，而不是离散的实例级嵌入。22Σ150844. 实验4.1. 实验设置数据集。在本文中，我们对四个公共流行的基准进行了实验：1）CUB-200-2011 [38]包含来自200种野生鸟类的11，788张图像，这是其代表性的广泛使用的基准，2）Stanford-Cars [25]包含196辆汽车的16，185张图像，类别，3）FGVC-飞机[30]包含100种飞机类别的10，000张图像，4）NA-鸟类[37]是一个大型数据集，包含超过555种鸟类类别的48，562张图像我们遵循标准的数据集划分，如在原始作品。实施细节。我们采用在ImageNet [5]上预训练的ResNet-50 [16]网络作为所有实验的骨干我们使用SGD优化器进行初始学习-每60个epoch（总共240个epoch）退火0.1的8e−4的速率，动量设置为0.9。培训和测试方案遵循最先进的作品[29，4，50]，在培训和中心使用448×448在推理过程中的裁剪。我们采用常用的技术-尼克岛随机裁剪和擦除、左右翻转、用于数据增强的颜色抖动。为了进行公平的比较，我们报告了ResNet-50的结果，并将相同的训练和数据增强协议作为我们的基线。我们的模型是在2个NVIDIA TITAN Xp GPU上进行端到端训练的，没有任何部分或边界框注释。在前三个数据集的分组训练中，我们设置N=4，K=4，批量为16，对于较大的NA鸟数据集，我们设置N为8。我们选择10%的训练集作为验证，以微调超参数。4.2. 与最新技术CUB-200-2011数据集。在这里，我们大致将模型分为两种典型类型，即使用局部化线索和基于特征的表示学习的方法。与16种最先进方法的比较结果见表1。1.一、值得注意的是，在以前的工作中采用了多作物增强[10，48，43]来提高性能。可以看出，基于部分的方法取得了与基于特征的模型相当的结果，这表明学习一个更好的特征嵌入是细粒度分类的关键问题。FGVC-飞机数据集。选项卡. 2报告了FGVC-Aircraft数据集上的结果。与CUB上的性能类似，最近的基于特征的学习方法DCL [4]和Cross-X [29]达到了93的准确率。0%和92. 7%，远高于此前的工作[28]的84. 百分之一。请注意，最近模型中的许多性能增益可能来自不同的训练方案或骨干网络。我们在Tab中报告了ResNet-50基线。5，准确度90。7%，高于早期作品。从这个高基线开始，我们的最终模型达到了94。3%，这是一个明显的进步。表1. CUB-200-2011数据集上的性能。1-阶段：一阶段的端到端培训方法。†：使用附加注释。3、引入多个骨干层。类型方法1级精度部分地基于[24]第二十四话美国有线电视新闻网[10][48]第四十八话翻译[19]NTSNet [43]DF-GMM [40][13]第十三话C百分之八十四点三百分之八十五点三百分之八十六点五百分之八十七点三百分之八十七点五百分之八十八点八百分之九十点四双线性[28]CCCCCCC84.0%MAMC [36]百分之八十六点五MaxEnt-Dense161 [9]百分之八十六点五PC-Dense161 [8]百分之八十六点九基于特征HBP [45]DFL-CNN [39][29]第二十九话87.1%百分之八十七点四百分之八十七点七DCL [4]百分之八十七点八TASN [49]百分之八十七点九ACNet [20]百分之八十八点一S3N [6]百分之八十八点五我们的（ResNet50）C百分之八十九点六表2. FGVC-飞机数据集上的性能。1-阶段：一阶段的端到端培训方法。类型方法1级精度15085部分地基于美国有线电视新闻网[10][48]第四十八话NTSNet [43]C百分之八十八点二百分之八十九点九百分之九十一点四DF-GMM [40]百分之九十三点八双线性[28]CCCCCC84.1%PC-Dense161 [8]百分之八十九点二MaxEnt-Dense161 [9]百分之八十九点八DFL-CNN [39]百分之九十二基于特征ACNet [20][29]第二十九话S3N [6]百分之九十二点四百分之九十二点七百分之九十二点八DCL [4]百分之九十三API-Net [50]百分之九十三PMG [7]百分之九十三点四我们的（ResNet50）C百分之九十四点三与最先进的作品相比[4，29]。Stanford-Cars数据集Stanford-Cars [25]是由196个汽车类别组成的真实世界数据集。而CUB数据集包含更复杂的场景或背景混乱。如Tab.所示。3，可以很容易地发现，早期的先驱作品[48，36，9]达到了92以上的高结果。8%，使得这些方法在识别能力上没有区别。然而，我们的模型仍然显示出对最先进模型的明显改进。NA-鸟类数据集。与CUB-200-2011相比，NA-鸟类[37]是一个相对较大的数据集，有超过500个子数据集，15086表3. Stanford-Cars数据集上的性能。t：附加的边界框或分割注释。1-阶段：一阶段的端到端培训方法。类型方法1级精度部分地基于[24]第二十四话[48]第四十八话NTSNet [43]C百分之九十二点八百分之九十二点八百分之九十三点九DF-GMM [40]百分之九十四点八双线性[28]CCCCCCC百分之九十一点三PC-Dense161 [8]百分之九十二点九MaxEnt-Dense161 [9]百分之九十三MAMC [36]百分之九十三特征HBP [45]百分之九十三点七基于TASN [49]百分之九十三点七DFL-CNN [39]百分之九十三点八[29]第二十九话百分之九十四点五DCL [4]百分之九十四点五ACNet [20]百分之九十四点六S3N [6]百分之九十四点七我们的（ResNet50）C百分之九十五点一表4.在NA鸟类数据集上的性能。1-阶段：一阶段的端到端培训方法。†：使用附加注释。类型方法1级精度部分[37]第三十七话75.0%MGE-CNN [46]88.0%[37]第三十七话CCCCC35.0%双线性[28]百分之八十点九出席情况[1]百分之八十一点五基于特征ResNet-50 [16]PC-Dense161 [8]MaxEnt-Dense161 [9]百分之八十二点二百分之八十二点八83.0%API-Net [50]百分之八十六点二[29]第二十九话百分之八十六点二我们的（ResNet50）C88.0%类别以前的网络通常面临着处理巨大的子类别分类的困难。请注意，本表中ResNet-50的性能由[29]报告。最近的基于特征的方法[50，29]显示了其在处理此任务时的泛化能力，达到86。百分之二与这些方法相比，我们的模型表现出明显的改进，最高准确率为88。0%，验证了该方法的泛化能力。4.3. 性能分析不同成分的影响。为了评估所提出的模块的有效性，我们首先采用ResNet-50，其训练协议与基线模型相同，例如。，85。CUB数据集上的4%。它可以在Tab中找到。5采用双线性池[28]进行关系嵌入，性能提升2%。而利用关系发现模块可以显著改善基线15087表5.在三个基准上对我们的不同组件进行消融研究。MRel、MGraph、MGroup分别表示所提出的关系发现模块、图分组模块和分组学习M相关M图M组幼崽飞机NAbirds---百分之八十五点四百分之九十点七百分之八十三点二双线性--87.0%百分之九十二点二百分之八十五点五C--百分之八十八点一百分之九十二点六百分之八十六点九C-C百分之八十八点八百分之九十三点七百分之八十七点四CCC百分之八十九点六百分之九十四点三88.0%图6.三种特征嵌入策略的说明：a）基线，b）三线性注意力[49]和c）我们的模型。性能此外，小组训练策略还能提高注意力的集中程度，对最终成绩有稳定的提高。在此基础上，我们进一步增加了基于图的分组策略，而不是基本的融合操作，这提供了一个稳定的改进。特征嵌入的效果。在基于特征的学习方法中，最关键的问题是找到合适的特征嵌入。我们在Tab中探索不同类型的设置。六、从基线开始，我们在我们的高基线设置上重新实现了三线性注意力[49]，这改善了注意力区域并形成了物体识别的全局范围6）。另一个主要的探索是找到我们的关系模块的嵌入方式，有趣的是，使用具有fc层的MLP来学习这种高嵌入会导致88的性能较差。1%相比，简单的平均聚集嵌入88。百分之六此外，我们在构造高阶关系时简单地去除了空间增强，从而得到0。结果降低5%。应用单级聚合而不应用多层聚合也会对最终性能造成轻微损害.另一方面，我们用静态图嵌入（表示为静态）代替平均聚集策略。然后，这个密集连接的图被降级为可学习的fc层，并导致较差的结果。虽然我们的最终模型与图形为基础的消息15088图5.基线（左）和我们的模型（右）的类激活可视化。a）和d）是由基线和我们的模型生成的引用顶部通道。b）和e）是所有通道的类激活图，c）和f）是基线和我们的模型的引导梯度表6.基于CUB-200-2011的特征提取和特征嵌入方法性能分析。静态的：用一个C-N乘C-N的矩阵来替换图嵌入A.特征提取嵌入精度基线（ResNet50）间隙百分之八十五点四+M组间隙百分之八十六点四[49]第四十九话：我的世界间隙百分之八十六点七+M群+双线性[28]MLP87.0%+M组+M相关性（无空间）平均Agg. 百分之八十八点一+M组+MRel（无多级）平均Agg. 百分之八十八点三+M组+MRel平均Agg. 百分之八十八点六+M组+MRel静态百分之八十八点五+M组+MRel图百分之八十九点六通过显示出89的优选高性能。百分之六是什么让网络在视觉上识别物体？考虑到这个问题，我们展示了Grad-CAM生成的可视化结果[33]。参考的三个基线通道和我们的模型如图5（a）所示。结果表明，我们的模型的不同通道集中在不同的对象部分，例如。、尾巴、躯干和头部。这证明了通道间关系的构建有利于全局对象理解。尽管基线（a）中存在噪声区域，但（b）中所有通道的全类激活此外，我们还提出了（c）和（f）中的引导梯度以进行比较。这表明，基线模型的梯度集中在一个小区域的对象，这通常会导致过拟合问题。在图6中，我们还呈现了三个代表性模型的所有通道的完整激活图，即：基线、三线性正则化[49]和我们的模型。显然，使用高阶关系极大地有助于全球联合国，表7. 图嵌入维数的超参数实验CN 和CUB-200-2011基准上的组编号Cr（CN，Cr）（2048，64）（1024，64）（512，64）（512，32）Acc.88.7% 89.0% 89.6% 89.1%理解。与图6c）相比，我们的模型生成更清晰的对象边界，噪声区域更少，识别性能更高。Hyperparams。在实验中，嵌入节点维数CN和约简语义群Cr是影响分组性能的两个主要因素。选项卡. 7揭示了构建更高的维度，具有2048个的SIONS节点将难以优化。在实验中，我们设置CN=512和Cr=64，以实现有限数据的性能折衷。5. 结论在本文中，我们提出了利用混合顺序关系表示细粒度特征的三种策略。第一关系发现模块利用位置增强信道间关系来形成高阶矩阵。然后提出了一个基于图的分组模块，将这个高阶矩阵嵌入到一个低维流形中。我们提出了一个组明智的训练机制，以更新梯度使用组中心。实验结果表明，该方法在细粒度识别任务中取得了新的进展确认本研究得到了国家自然科学基金项目（No.61922006）、百度学术合作项目和中国人工智能学会-华为MindSpore开放基金的资助。15089引用[1] Oisin Mac Aodha，Elijah Cole，and Pietro Perona.用于细粒度图像分类的仅存在地理先验。在IEEE国际计算机视觉会议（ICCV），第9595-9605页，2019年。7[2] 琼·布鲁纳，沃伊切赫·扎伦巴，阿瑟·斯拉姆，扬·勒·昆.图上的谱网络和局部连通网络。第二届学习表征国际会议，2014年。5[3] 常栋梁，丁一峰，谢继阳，李晓旭，马占玉，吴明，郭军，宋毅哲.魔鬼在通道中：细粒度图像分类的互通道损失。 IEEE Transactions on Image Processing ， 29 ：4683-4695，2020。二、三[4] 陈岳，白亚龙，张伟，桃梅。用于细粒度图像识别的破坏和构造学习在IEEE计算机视觉和模式识别会议中，第5157-5166页三、六、七[5] 贾登、魏东、理查德·索彻、李力佳、李凯、李菲菲。Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）中，第248-255页，2009年。6[6] Yao Ding，Yanzhao Zhou，Yi Zhu，Qixiang Ye，andXiaojiao. 用于细粒度图像识别的选择性稀疏采样在IEEE国际计算机视觉会议（ICCV）中，第6599-6608页，2019年。一、二、六、七[7] Ruoyi Du ， Dongliang Chang ， Ayan Kumar Bhunia ，Jiyang Xie，Zhanyu Ma，Yi-Zhe Song，and Jun Guo.细粒度视觉分类通过渐进式多粒度训练拼图补丁。在欧洲计算机视觉会议，第153-168页6[8] Abhimanyu Dubey ， Otkrist Gupta ， Pei Guo ， RameshRaskar，Ryan Farrell，and Nikhil Naik.细粒度视觉分类的成对混淆。在欧洲计算机视觉会议（ECCV），第70-86页，2018年。三五六七[9] Abhimanyu Dubey，Otkrist Gupta，Ramesh Raskar，andNikhil Naik.最大熵细粒度分类。神经信息处理系统进展（NeurIPS），第637-647页，2018年三、六、七[10] 傅建龙，郑和良，陶梅。仔细看为了看得更清楚：用于细粒度图像识别的循环注意力卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第4438-4446页，2017年。第二、六条[11] 杨高，奥斯卡Beijbom，张宁，和特雷弗达雷尔。紧凑的双线性池。在 IEEE计算机视觉和模式识别会议（CVPR）中，第317-326页3[12] Yu Gao，Xintong Han，Xun Wang，Weilin Huang，andMatthew Scott.用于细粒度图像分类的通道交互网络。在AAAI人工智能会议（AAAI），第10818-10825页，2020年。第二、四节[13] 葛伟峰，蔺相如，益州羽。弱监督互补部分模型用于自下而上的细粒度图像分类。在IEEE计算机视觉和模式识别会议（CVPR），第3034-3043页，2019年。一、二、六[14] 阿贝尔·冈萨雷斯-加西亚，大卫·莫多洛，和维托里奥·法拉利。卷积神经网络中会出现语义部分国际计算机视觉杂志，126（5）：476 2[15] 何冰，李佳，赵一凡，田永红。部分正规化的近似重复车辆重新识别。在IEEE计算机视觉和模式识别会议（CVPR），第3997-4005页，2019年。2[16] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在 IEEE 计算机视觉和模式识别会议（CVPR），第770-778页，2016年。六、七[17] 何翔腾和彭宇新。细粒度图像分类中带空间约束的部分选择模型的弱监督学习。2017年第31届AAAI人工智能大会2[18] Shaoli Huang，Zhe Xu，Dacheng Tao，and Ya Zhang.用于细粒度视觉分类的部分堆叠cnn。在IEEE计算机视觉和模式识别会议（CVPR），第1173-1182页，2016年。一、二[19] 黄紫萱和尹莉。通过区域分组实现可解释的精确细粒度识别在IEEE计算机视觉和模式识别会议（CVPR），第8662一、二、六[20] Ruyi Ji ， Longyin Wen ， Libo Zhang ， Dawei Du ，Yanjun Wu ， Chen Zhao ， Xianglong Liu ， and FeiyueHuang.用于细粒度视觉分类的注意力卷积二元神经树。在IEEE计算机视觉和模式识别会议（CVPR），第10468-10477页，2020年。三、六、七[21] MahdiMKalayeh 、 EmrahBasaran 、 MuhittinGokmen 、Mustafa E Kamasak和Mubarak Shah。人的语义分析用于人的重新识别。在IEEE计算机视觉和模式识别会议（CVPR），第10621[22] 托马斯·N Kipf和Max Welling用图卷积网络进行半监督分类。第五届国际学习表征会议，ICLR，2017年。4[23] 舒空和查尔斯·福克斯。用于细粒度分类的低秩双线性在IEEE计算机视觉和模式识别会议中，第365- 374页二、三[24] 乔纳森·克劳斯，金海林，杨建超，李菲菲.无需零件注释的细粒度识别。在IEEE计算机视觉和模式识别会议中，第5546-5555页，2015年。六、七[25] 乔纳森·克劳斯，迈克尔·斯塔克，邓佳，李飞飞。用于细粒度分类的3d对象表示。在2013年IEEE计算机视觉研讨会国际会议论文集，第554-561页。第二、六条[26] Michael Lam，Behrooz Mahasseni和Sinisa Todorovic。细粒度识别作为hsnet搜索信息图像部分。在IEEE计算机视觉和模式识别会议中，第2520-2529页2[27] 李阳浩，王乃彦，刘嘉颖，侯小迪。用于图像识别的因子化双线性模型在IEEE15090国际计算机视觉会议（ICCV），第20792[28] 林宗宇，阿鲁尼·罗伊·乔杜里，和苏布兰苏·玛吉。用于细粒度视觉识别的双线性cnn模型。IEEEInternationalConference on Computer Vision（ICCV），第1449-1457页，2015年。二四六七八[29] Wei Luo，Xitong Yang，Xianjie Mo，Yuheng Lu，LarryS Davis，Jun Li，Jian Yang，and Ser-Nam Lim.用于细粒度视觉分类的交叉x学习。在IEEE国际计算机视觉会议（ICCV）中，第8242三、六、七[30] Subhransu Maji ， Esa Rahtu ， Juho Kannala ， MatthewBlaschko，and Andrea Vedaldi.飞机的细粒度视觉分类。arXiv预印本arXiv：1306.5151，2013年。第二、六条[31] Adria Recasens ， Petr Kellnhofer ， Simon Stent ，Wojciech Matusik和Antonio Torralba。学习缩放：神经网络的基于显着性的采样层在欧洲计算机视觉会议（ECCV）中，第51-66页一、二[32] Florian Schroff ， Dmitry Kalenichenko ， and JamesPhilbin. Facenet：用于人脸识别和聚类的统一嵌入在IEEE计算机视觉和模式识别会议，第815-823页5[33] 兰普拉萨思R塞尔瓦拉朱，迈克尔科格斯韦尔，阿披谢达斯，罗摩克里希纳韦丹塔姆，德维帕里克，和德鲁夫巴特拉。Grad-cam：通过基于梯度的定位，从深层网络进行可视化解释。在 IEEE 国际计算机视觉会议（ICCV）中，第618-626页，2017年。四、八[34] 马塞尔·西蒙和埃里克·罗格斯神经激活constellations：无监督的部分模型发现与卷积网络。IEEEInternationalConference on Computer Vision（ICCV），第1143-1151页一、二[35] 孙奇赫改进的深度度量学习与多类n对损失目标。神经信息处理系统进展（NeurIPS），第1857-1865页，2016年5[36] 孙明，袁雨辰，周峰，丁二瑞。细粒度图像识别的多注意多类约束在欧洲计算机视觉会议（EC-CV），第805-821页，2018年。二、三、五、六、七[37] 格兰

下载后可阅读完整内容，剩余1页未读，立即下载