没有合适的资源?快使用搜索试试~ 我知道了~
Figure 1. Different from direct concatenation of local and globalfeatures in conventional part-based methods, the main idea of theproposed P2P-Net is to incorporate a pose-insensitive configura-tion of local distinctive details into object representation via uti-lizing self-supervised pose alignment as feature regularization tonarrow intra-category variance and enlarge inter-category margin.73990通过自监督姿态对齐进行细粒度物体分类0杨旭辉1,王耀伟1*,陈科2,1*,徐勇1,2,3,田永红101 彭城实验室 2 华南理工大学 3 广东省通信与计算机网络实验室0{ yangxh, wangyw } @pcl.ac.cn, { chenk, yxu } @scut.edu.cn, tianyh@pcl.ac.cn0摘要0细粒度对象的语义模式由局部部分的微小外观差异决定,这激发了许多基于部分的方法。然而,由于图像中的不可控物体姿态,局部区域携带的显著细节可能在空间上分布或甚至自遮挡,导致物体表示的大变化。为了消除姿态变化,本文提出了一种学习基于图的新型物体表示,以揭示用于跨类别自监督姿态对齐的局部部分的全局配置,该表示被用作深度表示学习网络上的辅助特征规范化。此外,粗到细的监督以及在浅到深的子网络上提出的姿态不敏感约束以课程学习方式鼓励具有区分性的特征。我们在三个流行的细粒度物体分类基准上评估了我们的方法,始终达到最先进的性能。源代码可在https://github.com/yangxh11/P2P-Net获得。01. 引言0图1.与传统的基于部分的方法中局部和全局特征的直接连接不同,所提出的P2P-Net的主要思想是通过利用自监督姿态对齐作为特征规范化将局部独特细节的姿态不敏感配置纳入物体表示中,以缩小类内差异并扩大类间间隔。0*通讯作者0但也要对物体部分的变形和视角的变化保持不变。一方面,许多深度方法致力于捕捉局部细节的挑战,依赖于检测有区别的部分来提取局部特征以补充全局特征[31, 41,46]。另一方面,另一组深度方法[17, 39,45]避免了明确地定位物体部分,而是尝试通过对来自两个独立网络流的特征向量应用双线性池化操作来增强物体表示的区分性。然而,只有少数工作关注由于物体姿态或视角变化而引起的特征不一致性的挑战。与其他姿态估计问题类似[1,16],细粒度对象的姿态可以近似地描述为离散物体部分的几何配置。因此,我们认为可靠的物体部分定位和部分对齐对于建模物体姿态至关重要,可以用来生成姿态不敏感的物体表示74000[ 33]以消除对象姿态变化。显然,显式地回归对象姿态作为辅助任务是一种直接的解决方案,但在细粒度分类的背景下,对象姿态通常存在固有的注释模糊性和样本不足的问题。鉴于此,我们提出了一种无监督的部件到姿态网络(P2P-Net),它捕捉了部件细节和对象姿态,以无需部件位置或姿态信息的附加注释来规范表示学习。受到最初设计用于目标检测的特征金字塔网络(FPN)[ 20]的启发,我们的P2P-Net以弱监督学习的方式区分了具有自信的类别区分性区域和区域建议中的区域。为了将特定部分的细粒度外观细节纳入全局对象表示,通过最小化对比损失的分布差异,使用检测到的显著区域的局部表示来规范全局对象表示。如图1所示,P2P-Net与现有的基于部件的方法的主要区别在于:1)我们以自我监督学习的方式对齐部件,以消除姿态变化;2)特征正则化以增强表示区分性仅在训练时可用,即我们的方法可以在测试时丢弃耗时的部件分支(图1中浅蓝色部分)。我们的实验证明了所提出的自我监督的基于部件的姿态对齐作为特征正则化的有效性。此外,我们还提出了课程监督来捕捉粗到细尺度的区分性细节,以进一步提高性能。所提出的P2P-Net在三个常用基准测试上始终优于最先进的细粒度分类器。我们的贡献可以总结如下:0•本文提出了一种端到端的P2P-Net,将机密部分的区分特征融入到对象表示中,然后通过姿态不敏感的特征正则化来促进对象表示的区分性。0•从技术上讲,我们的P2P-Net在机密部分上设计了一种自适应图匹配算法,并以无监督学习的方式实现了对姿态变化的特征一致性。0•通过设计基于标签平滑的易到难的监督信号和浅层到深层子网络,引入了一种通用的图像分类课程监督。0•在多个公共基准测试上的实验结果表明,所提出的方法在细粒度图像分类问题上可以达到新的最先进性能。02. 相关工作0在过去几十年中,深度学习在细粒度图像分类应用中取得了显著的进展。0细粒度识别方法可以分为两大类——无部件和注意力/部件方法。0细粒度识别方法中的一部分方法通过使用注意力图加权特征或使用增强样本作为训练数据来提升骨干网络的识别能力。Lin等人提出了B-CNN [ 21],使用双流架构同时建模细节的位置和外观。Zheng等人首次探索通过聚类空间相关通道来定位显著峰值,然后在[46]中使用三线性注意力模块来建模通道间的关系,再通过基于注意力的像素采样扭曲图像。Ding等人通过执行选择性稀疏采样操作来发现多样化和细粒度的细节。Chen等人首次提出了一种用于细粒度分类的图像分割操作,通过将图像分割成局部块,然后随机洗牌以重构新的图像进行训练,从而迫使模型关注局部细节而不是全局配置。Du等人进一步应用多尺度拼图生成器来捕捉跨粒度信息,并采用渐进训练策略。受到这些无部件方法的启发,我们提出了一种适用于所有图像分类任务的课程训练方案,通过使用易到难的监督信号和浅到深的子网络来提高模型的泛化能力。0观察到捕捉区分性部分的细微差异在区分相似类别中起着重要作用。因此,鼓励一些基于注意力/部分的方法根据注意力/分数图或区域提议[10, 13,40]检测和学习具有区分性的特征。早期的工作基于密集的部分注释[19,43]以完全监督的学习方式检测部分。最近的研究以弱监督的方式放松了对昂贵的部分注释的要求,并在仅给定类别标签的情况下定位信息丰富的区域。在[9]中,提出了一种循环注意卷积神经网络,通过迭代地放大局部区域来检测区分性区域,并引入了多尺度区域之间的互尺度排序损失来加强特征学习。Wang等人[37]提出了一个区分性区域分组子网络来发现区分性区域,而Yang等人[41]将一个弱监督的特征金字塔网络引入细粒度分类中,选择顶部可区分的部分。其他工作进一步研究了对象部分之间的空间或上下文关系[12,28,37]。这些基于部分的方法在定位区分性部分方面具有鲁棒性,但通常将部分特征和图像的特征简单拼接在一起,而没有进一步利用部分特征之间的潜在相关性[14,42],因此不可避免地遇到特征对齐问题。我们的方法遵循弱监督部分的相同方式yα[t] =�α,t = y1−αK ,t ̸= y ,(1)74010图2.所提出的P2P-Net的流程。训练时同时利用全局特征编码主干(底部)和部分到姿态特征正则化(顶部)。测试时只激活底部。上下两个分支中特征编码器(浅蓝色)的网络参数是共享的。F(s)表示特定深度的卷积层的中间特征图,其中1≤s≤S,S=3,而ˆy(s)表示对表示r(s)im进行的分类预测。注意,ˆy(S+1)是在{r(s)im}的拼接上进行的。对于检测到的部分,scpn表示相应部分pn的得分,其中1≤n≤N。特征金字塔网络(FPN)块和部分到姿态正则化块的详细结构如图3所示。0基于姿态不敏感的表示学习方法,我们进一步采取了三个步骤:1)根据它们的相关性对齐部分;2)通过特征正则化增强对象表示的区分能力,而不是特征拼接;3)以课程学习的方式鼓励具有区分性的特征。03.方法论0对于细粒度图像分类问题,其中X和Y表示输入和输出空间,给定L个训练样本{I,y}L,其中I∈X和y∈Y表示一个视觉观察(即图像)及其对应的类别标签,目标是学习一个映射函数Φ:X→Y,将图像正确分类为K个类别之一。在本节中,我们介绍了我们的P2P-Net的整体架构,如图2所示,它由三个部分组成:1)课程监督用于补充表示学习(见第3.1节);2)对比特征正则化以增强对象表示的区分能力(见第3.2节);3)无监督图匹配方法用于部分对齐(见第3.3节)。测试子网络只是整体架构的一部分,在推理过程中大大降低了计算复杂性,因为只有底部的主干网络被激活。03.1.主干网络上的课程监督0在细粒度图像分类问题中,典型的ResNet[11](例如ResNet34或ResNet50)是0本文中采用了ResNet作为骨干网络。如图2所示,骨干网络的几个中间特征图在不同深度上分别被馈送到不同的卷积块中。它们分别被标记为F(s),其中s∈{1,...,S}表示不同的阶段,s与子网络深度成正比。每个块后面跟着一个全局最大池化(GMP)层,以获得图像表示{r(s)im}。在最后一层,我们堆叠了几个独立的多层感知机(MLP)进行分类。因此,对于一张图像,总共有S+1个预测结果,这些结果将被聚合为最终的预测结果,其详细介绍在第3.4节中。请注意,训练子网络的上述设计是通用的,可以直接应用于现有的分类模型。除了使用传统的ResNet作为骨干网络外,我们还引入了一种基于[7]的鼓励学习方案的课程训练方案,这是基于以下观察结果的:更深的网络具有更强的学习能力,并且倾向于正确区分更具挑战性的样本。为了改善模型的泛化能力并鼓励特定层次的表示多样性,我们引入了一种基于标签平滑[26]的软监督方法的课程训练策略。然后可以独立或联合使用跨粒度表示来进行更好的预测。我们将一位热向量修改如下:ℓsce(ˆy(s), y, α(s)) = ℓce(ˆy(s), yα(s))=K−1�t=0−yα(s)[t] log(ˆy(s)[t]),(2)Lclsim =S+1�s=1ℓsce(ˆy(s), y, α(s)).(3)74020其中α是0到1之间的平滑因子,t表示标签向量y∈RK的元素索引。请注意,α控制新目标yα中的真实类别的大小,因此可以用来构建由浅到深的特征编码器的易于困难的课程目标。因此,在训练过程中,对来自不同层的表示的预测{ˆy(s)}使用不同的标签进行监督,其损失函数可以写成以下形式:0其中ℓsce(∙)表示平滑的交叉熵损失,比普通的交叉熵损失[27]多一个平滑因子。由于我们的P2P-Net中有S+1个预测结果,每个图像样本的整体分类损失可以写成以下形式:0一般来说,更深的子网络具有从更具挑战性的样本中学习映射的更大能力。因此,我们逐渐将α(s)从大于1/K的值增加到1。随着s的增大,监督标签yα(s)越来越接近独热目标编码,这表明相应的子网络应该使用更深的网络架构进行更自信的预测。03.2. 对比特征正则化0定位有区分性的部分是缓解类间相似性挑战的有效方法。通常,在现有的工作中[36,44],部分的表示被连接或融合以生成一个新的表示(以补充全局对象表示)进行分类。在本文中,我们将部分定位问题视为一个目标检测任务,并提出了一种特征正则化方法,用于在局部部分和全局对象之间的表示上强制融合细粒度细节到图像表示中。弱监督部分定位-如图3所示,骨干网络的最后一个特征块后面跟着一个特征金字塔网络(FPN),它通过遵循与[41]相同的设置生成不同空间尺寸的得分图金字塔,例如14×14、7×7和4×4。地图中的每个得分元素对应于一个预定义的具有固定大小的图像块。请注意,这些具有唯一大小的块可以与其他块重叠。此外,较大地图(例如14×14)中的元素对应于较小地图(例如7×7)中的图像块。在假设得分表示的是0从骨干网络获取输入,而输出是不同尺度的得分图。我们对得分图应用非最大值抑制(NMS),选择前N个具有区分度的部分,然后使用这些部分的特征来以自我监督的对比学习方式来规范化目标表示学习。0图像补丁的区分度是图像补丁的重要性的衡量标准,当选择得分最高的前N个部分时,我们应用非最大值抑制(NMS)来消除具有大交并比(IoU)的部分。检测到的部分的分类和排序损失——根据前N个得分的索引,我们从输入图像中裁剪出相应的图像补丁,其中包含局部目标部分的独特细节。为了计算效率,这些N个部分然后被调整为224×224(原始图像空间尺寸的一半),并且使用共享权重的骨干网络进行处理。在整个图像上描述的课程监督在每个调整大小的补丁(部分)上重复。我们将一个部分的特征定义为rpn=[r(1)pn;r(2)pn;...;r(S)pn],其中1≤n≤N。类似于式(3),第n个部分的分类损失可以表示为0Lpn =0s =1 ℓ sce ( ˆ y ( s ) pn , y, α ( s ) ) ,(4)0并且所有部分的总分类损失为0Lcls parts =0n =1 Lpn . (5)0此外,给定前N个部分的分类损失{Lpn}N和相应的得分{scpn}N,我们进一步认为预测损失应与图像部分的置信度得分一致。给定部分索引nLrank =ℓhg(Lpn, Lpn′ ) ∗ cnn′=(6)Lreg =ℓkl(r(s)im, ϕ([r(s)p1 ; r(s)p2 ; ...; r(s)pN ])),(8)features in an arbitrary order for regularization may raisethe feature inconsistency problem. Fortunately, for any spe-cific object category, its discriminative appearance usuallyappears on a limited size of local parts. Consequently, wepropose an unsupervised graph matching method to sort thefound parts in a unified order based on a basic assumptionthat the correlation between top N parts is similar acrossimages.The concept of our graph matching is illustrated inFig. 4.Intuitively, it is supposed that top N partsof the bird image on the left-hand side is ordered as (i.e. <1, 2, 3, 4>) according totheir scores {scpn}4, while the unified order maintained byour method may be . The goal ofour graph matching algorithm is to resort the order of de-tected object parts from <1, 2, 3, 4> to <2, 1, 4, 3> in theunified order for feature consistency. In this way, resortedparts features discounting pose variations are used to con-strain object representation by contrastive learning, whichis formulated in Eq. (8).Technically, since we can not identify object’s distinctparts directly, we maintain a unified correlation matrix tomodel latent relations in-between parts. The entry of thecorrelation matrix is given as follows:74030并且n',如果Lpn scpn'在这种情况下更好。因此,我们引入了额外的基于条件hinge损失[29]的排序损失的求和:0N0N0N0n' =1 max (0 , Lpn - Lpn' + δ ) * cnn' ,0c nn' =0其中scpn表示部分pn的得分,边界超参数δ在我们的论文中固定为1。该损失鼓励scpn大于scpn',如果Lpn的值相对较小。理想情况下,通过最小化排序损失,得分{scpn}和部分分类损失{Lpn}应以相反的方式改变。因此,这样的设计可以提高辨别性部分检测的可靠性。特征正则化的对比损失——我们提出了一种特征正则化方法,通过对比学习方式来约束目标表示学习,而不是通过连接局部部分和全局图像的特征进行分类。给定图像表示rim =[r(1)im;r(2)im;...;r(S)im]和部分表示rpn =[r(1)pn;r(2)pn;...;r(S)pn],我们使用对比损失来规范化每个阶段的表示,如下所示:0S0其中ℓkl是Kullback-Leibler散度函数,ϕ(∙)是一个要优化的近似函数,在实验中我们采用了一个2层MLP来建模它。这种正则化损失可以使目标表示学习分支专注于特定局部区域的区分细节,如图3所示。通过这种方式,我们可以进一步过滤掉每个rim中的冗余误导信息,以提高目标表示的区分度。03.3. 部件对齐的图匹配0尽管通过第3.2节找到了前N个有区分度的部件,但发现这些部件的配置不一致,即它们没有严格对齐(见第4.4节)。由于我们只使用类别标签来监督发现有区分度的部件,因此部件的确切语义类别(例如头部、身体或尾巴)仍然未知。因此,简单地按任意顺序连接被发现的部件的特征以进行规范化可能会引发特征不一致性问题。幸运的是,对于任何特定的对象类别,其有区分度的外观通常出现在有限大小的局部部件上。因此,我们提出了一种无监督的图匹配方法,根据一个基本假设,即前N个部件之间的相关性在图像之间是相似的,将找到的部件按统一顺序排序。我们的图匹配算法的概念如图4所示。直观地说,假设左侧的鸟图像的前N个部件按照它们的分数{sc pn}4的顺序排序为(即<1, 2, 3,4>),而我们的方法维护的统一顺序可能是。我们的图匹配算法的目标是将检测到的对象部件的顺序从<1, 2, 3, 4>重新排序为<2, 1, 4,3>,以实现特征的一致性。通过抑制姿态变化的重新排序部件特征用于对比学习来约束对象表示,其在公式(8)中进行了描述。从技术上讲,由于我们无法直接识别对象的不同部件,我们维护一个统一的相关矩阵来建模部件之间的潜在关系。相关矩阵的条目如下所示:0图4.部件对齐的图匹配。为了说明目的,图中仅显示了一个阶段的表示。定位的部件被视为根据判别分数排序的有序节点。我们通过对部件相关矩阵应用图匹配来重新排序部件,根据其全局配置,然后使用其特征来规范全局图像表示的学习。0M ij = < r p i , r p j >,(9)0其中Mij表示部件pi和部件pj之间的关系得分。给定一个新的图像样本,我们计算其可能排列的每个部件的部件相关矩阵,记为M'。然后,M'与参考矩阵M的匹配度最大的被认为是最佳的L = Lclsim + Lclsparts + Lrank + β · Lreg,(11)ˆy(final) =S+1�s=1ˆy(s),(12)74040对齐。该公式可以简化为0ˆ M = argmax M' vec ( M' ) T vec ( M ),(10)0其中匹配度可以通过对两个矩阵的向量化进行逐元素乘积的总结来简单地衡量。这实际上是一个图匹配问题,考虑的是边(关系)的相似性而不是节点(部件)的相似性。在本文中,由于部件还包含不同的类别信息,因此即使它们属于相同类型(例如头部),也不适合添加节点(部件)的相似性。请注意,我们在实验中不考虑不匹配的情况。选择具有最大匹配度的排列作为正确的顺序,并且算法返回重新排序的部件表示。尽管总共有N!个排列,但由于本文中部件的大小N≤5,因此图匹配的计算是高效的。最后,为了自我校正,采用了在线更新方案来优化部件中心和参考矩阵M。部件中心通过加权新样本的重新排序特征和旧样本的部件特征进行更新,遵循旧样本权重较小的基本规则。03.4. 训练和推断0鉴于上述关键组件,我们的网络可以以端到端的方式进行有效训练。具体来说,网络损失是上述损失的总和,只有一个权衡参数β:0其中L cls im,L cls parts,L rank和Lreg分别是图像分类损失,判别性部分分类损失,保持部分分数一致性的排序损失和图像表示的正则化损失。在测试中,为了稳定的泛化性能,我们将多个预测输出以相等的权重组合如下0其中向量ˆy(final)中的最大项对应于类别预测。更重要的是,大多数提出的组件仅在训练期间激活。换句话说,在测试期间,只有主干分支(即图2中的底部分支)与课程学习一起用于进行预测。总之,我们的P2P-Net的计算成本在推理时略高于其原始主干(例如ResNet)。04. 实验04.1. 数据集和设置0我们在广泛使用的细粒度视觉分类基准上评估了所提出的方法,包括Caltech-UCSD Birds(CUB)[34],StanfordCars(CAR)[18]和FGVCAircraft(AIR)[25]。CUB是一个包含11,788张来自200种鸟类的图像的数据集。数据分割固定为5,994张训练图像和5,794张测试图像。CAR数据集由16,185张196类汽车的图像组成,其数据分为8,144张训练图像和8,041张测试图像,每个类别的图像大致上以50-50的比例分割。AIR基准包含10,000张100种飞机变体的图像,其中只有3,333张用于测试。我们遵循最近的工作[41]使用相同的图像和部分尺寸,即将原始图像首先调整为550×550,然后进行随机水平翻转和裁剪(测试中使用中心裁剪)成448×448。在实验中,只有类别标签可用,没有任何额外的先验知识。我们在预先在ImageNet数据集[5]上进行了预训练的ResNet34和ResNet50主干上评估了P2P-Net。模型进行了300个epoch的训练,每个mini-batch大小为16。学习率遵循余弦退火调度[23],初始学习率设置为0.002。特别地,主干的学习率设置为其他层的十分之一,以使训练更加稳定。部分数量(N)和中间特征图(S)的默认值为4和3。方程(11)中的损失权重β经验性地设置为0.1。对于平滑因子,我们简单地将{α(s)}设置为{0.7, 0.8, 0.9,1.0},按升序排列,因为较大的α表示更高的类别预测置信度。04.2. 与最新技术的比较0关于与最新细粒度分类器在CUB 200 2011、StanfordCars和FGVC-Aircraft上的比较评估的实验结果如表1所示。如表所示,使用相同的ResNet50主干,所提出的P2P-Net在三个广泛使用的基准测试中超过了最新方法0.4%以上的平均值(CUB上+0.6%,CAR上+0.3%,AIR上+0.4%),其性能提升可以归功于我们提出的组件。此外,即使使用浅层主干ResNet34,我们的方法也能够达到与现有方法相媲美的性能。04.3. 切割研究0我们进行了切割研究,以验证我们方法的关键组件的有效性,包括课程监督、部分到姿势特征正则化和无监督部分对齐。基线方法由一个ResNet50主干和一个MLP组成。基于84.793.1-74050方法 主干 准确率 (%)0CUB CAR AIR0B-CNN [21] VGG 84.1 91.3 84.10RA-CNN [9] VGG19 85.3 92.5 88.20MA-CNN [44] 86.5 92.8 89.90FCAN [22]0MAMC [32] 86.3 93.0 -0DFL-CNN [35] 87.4 93.1 91.70NTS-Net [41] 87.5 93.9 91.40DCL [4] 87.8 94.5 93.00TASN [46] 87.9 93.8 -0Cross-X [24] 87.7 94.6 92.60S3N [6] 88.5 94.7 92.80LIO [47] 88.0 94.5 92.70BNT [15] 88.1 94.6 92.40ASD [31] 88.6 94.9 93.50DF-GMM [36] 88.8 94.8 93.80PMG [8] 89.6 95.1 93.40API-Net [48] ResNet101 88.6 94.9 93.40API-Net [48] DenseNet-161 90.0 95.3 93.90P2P-Net(我们的方法)ResNet34 89.5 94.9 92.60P2P-Net(我们的方法)ResNet50 90.2 95.4 94.20表1.与最先进方法的比较。0方法准确率(%)0CUB CAR AIR0(a)基线85.5 92.7 90.30(b)基线+CS 88.4 94.9 93.80(c)基线+FR(不带UPA)89.0 94.8 92.00(d)基线+FR(带UPA)89.0 95.0 92.50(e)基线+FC 88.4 94.7 93.80(f)基线+CS+FR(不带UPA)90.0 95.0 93.90(g)基线+CS+FR(带UPA)90.2 95.4 94.20表2.对基线ResNet50进行的所提出组件的消融研究。CS:课程监督,FR:特征正则化,UPA:无监督部件对齐,FC:特征连接。0基线,我们评估了所提出组件的不同组合,其结果在表2中呈现。0课程监督(CS)-与(a)和(b)进行比较,CS模块在三个数据集上的分类准确率上带来了大幅度的提升,从+2.1%到+3.5%不等。这样的结果可以从两个方面解释:1)通过在网络的不同深度进行预测,多粒度的互补信息可以融合以捕捉有区别的对象特征;2)通过将更多层连接到输出,更浅层的参数变得更容易优化。我们还在CUB上进行了对比实验,比较了使用{α(s)}和使用独热标签(无标签平滑)的情况。前者的不同预测的准确率0方法RMSE0CUB CAR AIR0基线0.501 0.354 0.3990基线+FC 0.268 0.213 0.3540基线+FR(带UPA)0.213 0.179 0.2630表3.不同方法学习表示的RMSE。0前者的数据是{81.7, 87.3, 85.8, 87.8,88.4},而后者的数据是{82.1, 87.0, 85.6, 87.3,88.2}。这样的结果证明了所提出的平滑方案的有效性。特征正则化(FR)-将变体(c-d)与(a)进行比较,FR模块在性能上提供了显著的改进,但与CS组件相比,在AIR上的增益较小。由于全局轮廓是分类大型物体(如飞机)的重要线索,当使用局部特征信息来规范对象表示学习时,结果可能不会更好。为了验证我们的动机,我们与另一个竞争对手(e)进行了比较评估,其网络结构与方法(c-d)几乎相同。唯一的区别在于,在(e)中,我们使用局部部分特征和全局图像的连接进行分类,而不是所提出的特征正则化。正如预期的那样,(e)在AIR上的表现优于(c-d),但在其他数据集上略差。我们的解释是,当使用特征连接而不是使用相对较小的部分对图像特征进行规范化时,飞机类别的全局轮廓信息得到了很好的保留。再次强调,由于在测试期间丢弃了部分到姿势规范化分支,使用FR更具计算效率。无监督部件对齐(UPA)-最后,将FR与UPA集成的方法优于不使用UPA的竞争对手(见表中的方法(c-d)和(f-g))。这些结果证明了我们无监督图匹配在部件对齐方面的有效性,这可以作为基于部件的特征规范化的补充。此外,我们还测量了图像表示的紧凑性。具体而言,对于每个类别,我们计算了学习表示的均方根误差(RMSE),并在表3中报告了平均值,其中P2P-Net(即底部)的值最小。表中的第二种方法可以看作是传统基于部件的方法的典型特征连接。结果表明,使用FR和UPA学习的对象表示在特征空间中更集中于其类别中心。我们知道,同一类别的对象具有不同的姿势,该结果还证明了我们的方法能够将检测到的有区别的部分对齐,以减小由姿势变化引起的类内差异。部件的大小-在CUB上显示了使用不同部件数量(N)的结果,如表4所示。较大的值可能不会带来显着的改进,因此首选N = 4。CUB88.189.990.290.290.074060部分数量(N)2 3 4 5 60表4. 有区别性部分数量的影响。0图5. 我们的P2P-Net检测到的有区别性部分。0图6. 一些测试样本的类激活图。04.4. 可视化0部分位置-我们的P2P-Net定位的有区别性部分在图5中可视化。从第1行到第3行仅显示了前2个部分的边界框,而第4行突出显示了前4个显著部分。如图所示,尽管以弱监督学习方式检测到,但前2个有区别性部分在局部部分上具有视觉相似性。具体而言,对于飞机样本,显著区域倾向于位于机身和尾部;对于鸟类品种,它们通常关注鸟的头部和身体;对于汽车,车辆的前部和车身包含有区别性的细节。这种现象是所提出的图匹配方法的重要先决条件。0类激活图-我们还将Grad-CAM[30]应用于最后一个卷积层,以进行直观的可视化。灰度和合并的彩色激活图像都被显示。0图7.三个数据集上学习表示的t-SNE图。第一行:基线模型;第二行:基线+FR(w/ UPA)。0如图6所示。与基线相比,我们的P2P-Net在背景上的激活较少,并且更集中在对象的有区别性的区域。显然,我们验证了我们的P2P-Net能够从有区别性的区域提取有区分度的信息,并消除噪声背景的影响。特征可视化-在图7中,我们绘制了从学习到的高维特征的t-SNE散点图。在每个数据集上,我们随机选择了20个类进行可视化。正如t-SNE图所示,在应用部分特征正则化后,图像表示展现出更高的类内变化,并有利于扩大类间间隔,特别是在CUB和AIR数据集上。05. 结论0本文提出了一种关于学习姿势不敏感的细粒度分类的新型特征正则化方案。我们的P2P-Net不仅利用定位的有区分度的部分来促进图像表示的区分度,还引入了图匹配来进行部分对齐,以抵抗姿势变化的鲁棒性。此外,验证了一种课程监督策略,进一步提高性能,而不需要额外的注释。对知名基准测试进行了大量实验证明了我们方法的有效性,并进行了消融分析。此外,贡献的方案可能受到对抗性攻击,导致整个感知系统完全失效,这鼓励研究人员和安全工程师减轻这些风险。0致谢0该工作得到中国博士后科学基金(2021M691682),中国国家自然科学基金(61902131,62072188,U20B2052),广东引进创新和创业团队计划(2017ZT07X183)和鹏城实验室项目(PCL2021A07)的支持。74070参考文献0[1] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, andYaser Sheikh. Openpose:实时多人2D姿势估计,使用部分亲和力场。IEEE模式分析与机器智能交易,43(1):172-186,2019年。10[2] Dongliang Chang, Yifeng Ding, Jiyang Xie, Ayan KumarBhunia, Xiaoxu Li, Zhanyu Ma, Ming Wu, Jun Guo, andYi-Zhe Song.通道中的魔鬼:用于细粒度图像分类的互通道损失。IEEE图像处理交易,29:4683-4695,2020年。20[3] Tianshui Chen,Wenxi Wu,Yuefang Gao,LeDong,Xiaonan Luo和LiangLin。通过利用分层语义嵌入进行细粒度表示学习和识别。在《第26届ACM国际多媒体会议论文集》中,第2023-2031页,2018年。20[4] Yue Chen,Yalong Bai,Wei Zhang和TaoMei。破坏和构建学习用于细粒度图像识别。在《计算机视觉和模式识别IEEE/CVF会议论文集》中,第5157-5166页,2019年。2,70[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li和LiFei-Fei。ImageNet:一个大规模的分层图像数据库。在《2009年IEEE计算机视觉和模式识别会议》中,第248-255页。IEEE,2009年。60[6] Yao Ding,Yanzhao Zhou,Yi Zhu,Qixiang Ye和JianbinJiao。用于细粒度图像识别的选择性稀疏采样。在《计算机视觉和模式识别IEEE/CVF国际会议论文集》中,第6599-6608页,2019年。2,70[7] Ruoyi Du,Dongliang Chang,Ayan KumarBhunia,Jiyang Xie,Zhanyu Ma,Yi-Zhe Song和JunGuo。通过渐进多粒度拼图训练进行细粒度视觉分类。在《欧洲计算机视觉会议》中,第153-168页。Springer,2020年。2,30[8] Ruoyi Du,Dongliang Chang,Ayan KumarBhunia,Jiyang Xie,Zhanyu Ma,Yi-Zhe Song和JunGuo。通过渐进多粒度拼图训练进行细粒度视觉分类。在《欧洲计算机视觉会议》中,第153-168页。Springer,2020年。70[9] Jianlong Fu,Heliang Zheng和TaoMei。更近距离地观察以获得更好的效果:用于细粒度图像识别的循环注意力卷积神经网络。在《计算机视觉和模式识别IEEE会议论文集》中,第4438-4446页,2017年。2,70[10] Weifeng Ge,Xiangru Lin和YizhouYu。自下而上的弱监督互补部件模型用于细粒度图像分类。在《计算机视觉和模式识别IEEE/CVF会议论文集》中,第3034-3043页,2019年。20[11] Kaiming He,Xiangyu Zhang,Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在《计算机视觉和模式识别IEEE会议论文集》中,第770-778页,2016年。30[12] Xiangteng He和YuxinPeng。具有空间约束的部件选择模型的弱监督学习用于细粒度图像分类。在《AAAI人工智能会议论文集》中,第31卷,2017年。20[13] Xiangteng He,Yuxin Peng和JunjieZhao。注视哪些区域以及多少个区域:为细粒度视觉分类聚焦判别性区域。《国际计算机视觉杂志》,第127卷第9期,1235-1255页,2019年。20[14] Tao Hu,Honggang Qi,Qingming Huang和YanLu。在更近距离观察之前看得更好:用于细粒度视觉分类的弱监督数据增强网络。arXiv预印本arXiv:1901.09891,2019年。20[15] Ruyi Ji,Longyin Wen,Libo Zhang,Dawei Du,YanjunWu,Chen Zhao,Xianglong Liu和FeiyueHuang。用于细粒度视觉分类的注意力卷积二进制神经树。在《计算机视觉和模式识别IEEE/CVF会议论文集》中,第10468-10477页,20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功