基于高斯混合模型的弱监督细粒度图像分类

106 浏览量更新于2023-10-23 收藏 1.16MB PDF 举报

数据科学

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43219749基于高斯混合模型的弱监督细粒度图像分类王志辉1，2，王世杰1，杨淑慧1，李浩杰1，2，李建军3，李泽洲41大连理工大学国际信息科学工程学院&2辽宁省普适网络与服务软件重点实验室3杭州电子科技大学计算机科学与技术学院4上海品蓝数据科技摘要现有的弱监督细粒度图像识别（WFGIR）方法通常直接从高层特征图中提取出有区别的区域。我们发现，由于卷积神经网络对局部感受域的叠加操作，导致了高层特征图中的判别区域扩散，从而导致判别区域定位不准确。在本文中，我们提出了一个端到端的歧视性特征导向高斯混合模型（DF-GMM），解决歧视性区域扩散的问题，并找到更好的细粒度细节。具体地说，DF-GMM包括：1）低秩表示机制（LRM），它通过高斯混合模型（GMM）学习一组低秩判别基，以准确地选择高层语义特征映射中的判别细节，过滤掉更多的无关信息; 2 ）低秩表示重组机制（LR2M），它恢复低秩空间信息，并将低秩空间信息与低秩空间信息相结合，以提高识别率。对判别基进行排序以重构低秩特征图。LR 2M通过将低秩判别基恢复在CUB-Bird、Stanford-Cars和FGVC Aircraft数据集上，大量的实验验证了DF-GMM在相同的设置下具有最具竞争力的方法产生最佳性能。1. 介绍弱监督细粒度图像识别（WFGIR）专注于区分细微的视觉差异，* 通讯作者：hjli @dlut.edu.cn. 这项工作得到了中国国家自然科学基金（NSFC）的部分资助。61772108号61932020号和61976038。图1.基于判别分析的高斯混合模型（DF-GMM）的提出动机DRD表示区分区域扩散问题。FHL表示高级语义特征图，FLR表示低级特征图。(a)是原始图像，（b）（c）是用于引导网络对有区别的区域进行采样的有区别的响应图，以及（d）（e）分别是没有和有DF-GMM学习的定位结果。我们可以看到，在减少DRD之后，（c）比（b）更紧凑和稀疏，并且（e）中的结果区域比（d）中的结果区域更准确和更有区别。在更详细的类别和粒度下，仅使用图像级注释。由于两个原因，WFGIR仍然是一项具有挑战性的任务。首先，子类别的全局几何形状和外观可能非常相似，如何识别它们在关键区域上的细微差异至关重要。第二，WFGIR仅具有可用的图像级注释，而不是对象或部件注释，这在提取有效的和可区分的特征以区分子类别之间的细微差异方面带来了更大的困难。挑选出准确的区分区域在解决WFGIR的上述两个挑战中起着关键作用。从这一点来看，现有的细粒度图像识别方法可以大致分为43219750三个类别。一组通过启发式方案[12，13，24，32]定位对象和局部部分/补丁。启发式方案的局限性在于它们不能保证所选择的块具有足够的区分性。因此，第二组尝试通过以无监督或弱监督的方式使用学习机制来自动定位区分区域[8] [26] [30]。最近的工作[27] [34]专注于设计端到端的深度学习过程，以通过适当的损失函数或相关引导的判别学习自动发现判别区域组，而所有之前的工作都试图直接从高级特征图中找到有区别的区域/块，但需要注意的是，高级特征图是通过在CNN中融合局部感受场中的空间和通道信息来构建的[15]。我们认为，这可能会导致一定的空间传播的歧视性和低歧视性的反应，并导致在WFGIR的区分区域扩散（DRD）的问题，这增加了区分区域定位的难度从图1中可以看出，扩散的高级特征图往往会分散对区分区域的选择，使得所选区域包含大量噪声或背景信息，从而降低WFGIC的性能。受自然语言处理中的低秩机制[7] [23]的启发，我们设计了一个面向区分特征的高斯混合模型（ DF-GMM）框架来解决区分区域扩散问题，并相应地提高WFGIR性能。提出的DF-GMM由一个低秩表示机制（LRM）和一个低秩表示重组机制（LR2 M）组成。LRM被设计为从高级特征图中选择区域以构建低秩判别基。然而，使用LRM学习低秩表示只会迫使网络专注于有区别的细节，而不是考虑有区别的区域的空间背景。网络在没有空间信息的情况下难以选择有区别的斑块/区域。基于这些考虑，设计了LR2 M，通过对所有低秩判别基进行线性加权组合，恢复低秩判别基的空间信息，构造新的低秩与高阶特征图相比，DF-GMM更注重细节的区分性，提取了低阶特征图上的无用信息，从而避免了DRD问题，提高了识别精度。本文的主要贡献如下：• 据我们所知，我们是第一个发现的问题，歧视性区域扩散WFGIR。• 我们提出了一个端到端的区分性面向特征的高斯混合模型（DF-GMM）来学习低秩特征映射，以减轻区分性。有效的区域扩散问题，并相应地改善这项工作也提供了一个通用的框架，使用其他低秩算法WFGIR。• 我们在三个具有挑战性的数据集（CUB-Bird，Stanford Cars和FGVC Air- craft）上对所提出的方法进行了评估，结果表明我们的DF-GMM达到了最先进的水平2. 相关工作在下文中，我们将简要回顾两条相关的工作：特征表示和判别区域定位。特征表示：端到端编码方法[9，21，16，2，5]将CNN特征编码为高阶信息。最近的进展降低了高特征维度[9] [16]，并使用内核模块提取高阶信息[2] [5]。Kernel-Pooling [2]定义了Tayler级数核，并证明了它的外显特征映射是可紧逼近的. Kernel- Activation [5]设计了卷积滤波器，以通过单个空间位置中的卷积激活来选择由于这些方法具有平移和姿态不变性，因此具有较好的识别精度。区分性区域定位：WFGIR最近的工作主要集中在设计端到端的学习框架[6，30，33，35]。S3 Ns [6]产生稀疏-通过收集类响应图的局部最大值 TASN[35]从数百个零件提案中学习微妙的特征表示，并使用基于注意力的采样器来突出注意力区域。DCL [4]通过区域混淆机制自动检测可区分区域。最近[27] [34]的工作试图找到区分区域组，以提高WFGIR的区分能力。MA-CNN [34]提出了一种部分学习方法，通过通道组损失来隐式地选择有区别的区域组，其中部分生成和特征学习可以相互加强。CDL [27]建立区域之间的相关性，以发现WFGIR的更具区分性的区域组。然而，以往的研究都是直接从高层特征图中寻找具有区分性的细节，忽略了区分性区域扩散的问题为了解决这个问题，我们提出了一个端到端的鉴别特征导向的高斯混合模型（DF-GMM）来重建低秩特征映射。据我们所知，这是第一次发现WFGIR的区分区域扩散问题，43219751图2.提出了基于鉴别特征的高斯混合模型（DF-GMM）的框架DF-GMM首先通过低秩表示机制（LRM）产生判别基和线性权重相关系数图。然后，低秩表示重组机制（LR2M）通过线性加权组合所有低秩特征映射，构造新的低秩特征歧视性基础在采样阶段，通过从新的低秩特征图中收集局部最大值来定位有区别的对象块。接下来，我们从原始图像裁剪并调整补丁大小为224×224。最后，所有分支的特征被聚合以产生最终的识别向量。请注意，所有分支的CNN参数都是共享的。通过探索低秩机制来识别细粒度图像3. 该方法如图2所示，DF-GMM的网络通过低秩表示机制（LRM）中的高斯混合模型（GMM）从高层语义特征图中学习一组判别基，然后利用它们通过低秩表示重组机制（LR 2 M）重构低秩判别特征图，其可以被认为是用于减轻高级特征图中的区分性区域扩散的低秩矩阵恢复。3.1. 低级表示机制我们提出的低秩表示机制（LRM）旨在通过高斯混合模型（GMM）从高级特征图中学习区域GMM包括1）特征引导基初始化模块，它使WFGIC中的每幅图像的低秩基更加唯一; 2）期望步骤（E-step）模块，它计算线性权重相关系数的期望值; 3）最大化步骤（M-step）模块，它利用高层有限元的线性权重相关系数加权求和来更新低秩基。真地图M阶使低秩基处于一个较低的维流形具体来说，给定一个图像X，我们将X输入CNN主干，并从顶部卷积层提取高级特征图高级特征图表示为MI∈RC×H ×W，其中C、H和W表示特征图的通道、高度和宽度那么，MI是送入高斯混合模型（GMM）函数，得到低秩判别基μ和线性权重相关系数Z：（μ，Z）=GMM（MI），（1）其中μ∈RC×K表示低秩判别基，K是基的个数。Z∈RN×K表示线性加权相关系数，N=W×H。在此，利用Z选择判别区域，构造低秩判别基。基础数据集：对于细粒度图像识别，数据集中有数千张图像。由于每幅图像具有不同的区分性区域特征分布，因此不宜对同一幅图像使用统一的基。我们建议低秩基的初始化由高级特征图MI引导。具体地，MI被馈送到全局平均池化（GAP）层，随后进行复制操作以获得特征矩阵V ∈RK×C. 利用GMM中的权矩阵Wm∈RK×C，我们可以计算低-43219752IJ我IJZ=我NKK我我我我我Krank通过元素乘法以µ为基础，如下所示：矩阵。在实践中，存在学习率参数γ，伊季 =Rij（2）每个高斯分量。K表示Mn和Mn之间的矩阵乘法其中，µij表示第j个第i个元素基，Rij是第j个K，而ΣKk=1我lnK（M n，µ k）= 1。现在，Eq。（7）可以元素，Wm表示第i行和第j列权重系数。注意，Wm是由Kaiming的初始化[ 10 ]初始化的简化为Z（新）=γ·MI（µ（old））T.（八）高斯混合模型：设M I为M I∈RC× N，其中N =W×H.注意，判别基μ可以被视为平均参数。参数和线性加权相关系数Z作为潜在变量。那么我们的任务相关GMM可以然后将Z通过softmax层，对相关权重系数矩阵Z的第n行第k列的权重相关系数Znk进行归一化：eZ（新）定义为根据数据MI的分布的高斯的线性叠加：（新）NKΣNn=1NKΣKk=1（新）NK.（九）ΣKp（Mn）=Z nkN（M n|µ k，σ2），（3）M-Step：GMM的参数通过似然最大化重新估计如下：I I kk=12µ新= 1ΣNZ（新）Mn，（10）其中协方差σk是第k个高斯分布kNknkI基，Mn∈RC×1表示高层中的第nn=1语义特征映射MI. 完全的可能性数据{MI，Z}被公式化为：σ2=1ΣNZ（new）（Mn−µold）（Mn−µold）T，（11）ΣNln p（M I，Z|µ，σ）=Σ ΣΣKlnZ nk N（M n|µk，σ2），哪里Nnkn=1我k我kn=1k=1I k（四）ΣNNk=Z（新）。（十二）其中σ2× Znk= 1，Znk可以看作是第k个基对观测Mn所承担的责任。具体地说，我们选择内点K作为广义矩核函数。使用K，等式（4）简化为ΣNlnp（Mn|µ k）=lnK（Mn，µ k），（5）n=1n=1M-step通过最大化完整数据ln p（MI，Z，θ）来更新低秩判别基μ，其中θ是GMM的所有参数的集合我们通过使用M I与潜变量Z（new）的加权和来重新估计低秩基μ。因此，Eq。(10)可以重写为：其中ln p（Mn|μ）表示后验概率（新）Z（新）·MnIkµ=nkI.（十三）M n给定µ k。对于GMM，它包含两个步骤：期望步骤（E-kNn=1（新）NK步骤）和最大化步骤（M-步骤）。E-Step：其目的是估计潜在变量Z的后验分布，即Znk=P（Mn|µ m，θ old），通过使用当前估计参数θold：{µ（old），σ2}。具体地，Znk的新期望值由下式给出：N（M n|µ（old），σ2）低秩表示机制（LRM）交替执行期望步骤和最大化步骤，直到低秩基是最有区别的。3.2. 低级代表重组学习低秩表示与LRM唯一的力量Znew=Ik（六）网络专注于歧视性的细节，而不是nkk KN（M n|µ old，σ2）而不是考虑歧视性的空间背景eZZ43219753我k=1I k根据等式(5)，方程式(6)可以重新表述为更一般的形式：lnK（Mn，µk）gions。该网络在没有空间信息的情况下难以选择有区别的斑块/区域。为了解决这个问题，我们提出了一种低秩重组表示机制（LR2M）来恢复空间数据Znk=γ·πKk=1我lnK（Mn，µk）（七）来自低等级判别基的信息。在高斯混合模型收敛后，我们重新其中γ是学习率参数，并且逐渐学习以调节相关权系数的分布将Z∈RN×K形化为Z∈RW×H ×K，使线性权系数与空间局部化相对应43219754121212DDD表1.三个不同层的步幅、斑块尺度大小、尺度步长和长宽比。M1和M2是之后的补丁的坐标最后，电视台会选出最佳-具有响应值的D DM块，其中M是超从基分解的输出中下采样M_D。请注意，步幅是原始图像缩放比例。贴片宽度&高度=比例尺×比例尺步长×纵横比。特征图步幅比例比例步幅纵横比参数.3.4.损失函数M32 322，2二、一、三完整的多任务损失L可以表示为：D3 33 2M164 642，2二、一、三下：D3 33 2M2128 1281，2，22，1，3D3 33 2L=L CLS +λ1 · L古德+λ2 · Lrela +λ3 · L秩、（十七）的原始特征图MI.给定低秩判别基μ和线性权重系数Z，位于重新估计特征图M_D中的（w，h）处的向量M_wh可以计算如下：ΣK其中Lcls表示细粒度分类损失。Lgud、Lrela和Lrank分别表示引导损失、抑制损失和秩损失。这些损耗之间的平衡由超参数λ1、λ2、λ3控制。我们将所选择的判别块表示为P={P1，P2，…P N}和相应的判别函数Mwh=k=1Zwhk·µk，（14）响应值为R ={R1，R2，...，R N}。然后对导损、相关损和秩损进行了分析。其中Zwhk表示位于（w，h）和Z中的第k个通道值处的线性权重系数。 After all Mwh are computed, MD isconstructed from discriminativebases.与原始输入MI相比，MD具有低秩性质。由于Z保持了罚款如下：ΣNLgud（X，P）=我（max{0，l〇gC（X）-l〇gC（Pi）}），（18）MI和μ、MD可以用相应的空间信息恢复判别细节。同时，信道方向上的每个特征向量对所有的低秩分布进行积分，ΣNLrela（Pc，P）=我（max{0，l〇gC（Pi）-l〇gC（Pc）}），利用不同线性组合的犯罪基，在提取原始特征图MI中的假阳性突出的同时，强调可区分区域。Lrank（R，P）=ΣlogC（Pi）logC（Pj）（十九）（max{0，（Ri-Rj）}），（二十）3.3.判别信息抽样我们使用具有三种不同尺度的低秩特征图来生成默认补丁，灵感来自特征金字塔网络[20]。表1显示了设计细节，包括默认补丁的比例大小、比例步长和纵横比。让我们将低秩特征MD馈送到分数层中。具体来说，我们增加了一个1×1×N卷积层和一个sigmoid函数σ学习判别反应图R∈RN×H ×W，这表明了区分区域对最终分类如下：R=σ（WR<$MD+bR），（15）其中WR∈RC×1×1×H表示卷积核，H是特征图中给定位置处的默认补丁的数量，bR表示偏差。平均值-其中X是原始图像，函数C是反映分类到正确类别的概率的置信度函数，Pc是所有选定的面片特征。引导损失被设计成引导网络选择更具区分性的区域。相关性损失可以保证组合特征的预测概率大于单个块特征的预测概率。秩损失努力使所选块的判别分数和最终分类概率值保持一致，鼓励它们以相同的顺序。3.5. GMM中的反向传播算法由于提出的DF-GMM是一个端到端的框架，第3.4节中的损失L具体地，我们计算低秩基μ中的权重矩阵Wm的导数：43219755我同时，我们将区分响应值分配给每个错误补丁pijk：pijk=[tx，ty，tw，th，Rijk]，（16）LWmL=D.2.1D.2.1· MnMn·I，（21）Wm其中sijk表示第i行、第j列和第k通道的值，并且（tx，ty，tw，th）表示每个其中权重矩阵可以通过反向修改传播，以提高基本元素的内部区分能力。43219756σ我KKK我表2.我们的方法的不同变体的烧蚀识别结果和速度。我们在CUB-200-2011上对模型进行了测试。方法精度速度第十九章84. 百分之五n/aBL +样品86岁。百分之二50 fpsBL +样品+DF-GMM88岁百分之八41 fps我们用Q来表示GMM模块，这是一种自监督聚类算法.根据等式(10)和等式(11)，我们有：表3. CUB-200-2011不同方法的比较Q克Q=−ΣN1=2n=1k1ΣN+（Mn−µk），（22）1（Mn−µ）2，（23）∂σ2n=1 2σ2n=1 2σ4I显然，协方差σ2和均值μ都可以通过具有特征Mn的网络的学习过程来间接调整。4. 实验4.1. 数据集我们在Caltech-UCSD Birds [1]（CUB-200-2011），Stanford Cars [18]（Cars）和FGVC Aircraft（Airs）[22]数据集上全面评估了我们的算法，这些数据集被广泛用于细粒度图像识别的基准CUB-200-2011数据集包含11，788张图像，涵盖200个亚种。训练数据和测试数据的比例大致为1：1。Cars数据集包含来自196个类别的16，185张图像，正式分为8，144张训练图像和8，041张测试图像。Airs数据集包含超过100个类的10，000张图像，训练集和测试集的分割比例约为2：1。4.2. 实现细节在我们所有的实验中，所有的图像都被调整为448×448，我们从原始图像中裁剪并调整补丁的大小为224×224。我们使用全卷积网络ResNet-50作为特征提取器，并应用批量归一化作为正则化器。我们还使用初始学习率为0.001的MomentumSGD，并在60个epoch后乘以0.1。我们使用重量衰减1e−4。为了减少补丁冗余，我们采用非最大值抑制（NMS）默认补丁的基础上，他们的歧视性得分，NMS阈值设置为0.25。根据多次实验的结果，可以将损失平衡参数设置为λ1=λ2=λ3=1。请注意，该架构原则上包含多个CNN模块，为了清楚起见，这些CNN模块共享相同的参数。4.3. 消融实验我们进行消融研究，以了解我们提出的方法中不同成分我们设计使用ResNet-50作为骨干网络在CUB-200-2011数据集上进行不同的运行，并在表2中报告结果。首先，通过ResNet-50 [11]从原始图像中提取特征，没有任何对象或部分符号用于细粒度识别，我们将其设置为模型的基线（BL）。然后选择默认的补丁作为局部特征，以提高识别精度。然而，大量冗余的默认补丁导致低识别速度。当我们引入评分机制（示例）以仅保留高度区分的补丁并将补丁的数量减少到个位数时，CUB-200-2011数据集上的前1名识别准确率提高了1。7%，实现了50 fps的实时识别速度。最后，我们考虑了 DF-GMM 的区分区域扩散问题，得到了88.8%的最佳结果。消融实验表明，该算法通过学习低秩判别基，解决了判别区域扩散问题，实现了判别区域的精确定位，有效地提高了识别精度.4.4. 性能比较准确度比较。我们的比较集中在弱监督的方法，因为所提出的模型只利用图像级的注释。表3、表4和表5分别显示了不同方法在 CUB-200-2011 数据集、Stanford Cars-196数据集和FGVC-Aircraft数据集上的性能。在每个表中，从上到下，方法被分成六组，它们是（1）监督多阶段方法，（2）弱监督多阶段框架，（3）弱监督多阶段框架，（4）弱监督多阶段框架，（5）弱监督多阶段框架，（6）弱监督多阶段框架，（7）弱监督多阶段框架，（8）弱监督多阶段框架，（9）弱监督多阶段框架，（9）弱监督多阶段框架，（10）弱监督多阶段框架，（11）弱监督多阶段框架，（12）弱监督多阶段框架，（13）弱监督多阶段框架，（14）弱监督多阶段框架，（15）弱监督多阶段框架，（16）弱监督多阶段框架，（16）弱监督多K方法框部分精度[1]BBox部分85.4%[29]第二十九话n/a部分84.2%[17]第十七话BBoxsn/a82岁百分之八SCDA [28]n/an/a八十百分之一AutoBD [31]n/an/a81. 占6%OPAM [24]n/an/a百分之八十五点八双线性[21]n/an/a84. 0%的百分比Kernel-Pooling [5]n/an/a百分之八十六点二[30]第三十话n/an/a87岁百分之五[36]第三十六话n/an/a87.8%DCL [4]n/an/a87.8%TASN [35]n/an/a87.9%CDL [27]n/an/a88.4%43219757阶段框架，（17）弱监督多阶段框架，（18）弱监督多阶段框架，（19）弱监督多阶段框架，（19）弱监督多阶段框架，（19）弱监督多阶段框架，（19）弱监督框架，（19）弱43219758表4.斯坦福汽车上不同方法的比较方法注释精度[17]第十七话BBoxs92.8%SCDA [28]n/a八十五百分之一AutoBD [31]n/a88岁百分之九OPAM [24]n/a百分之九十二点二双线性[21]n/a91. 百分之三Kernel-Pooling [5]n/a92.4%[36]第三十六话n/a百分之九十三点三[30]第三十话n/a九十三百分之九TASN [35]n/a百分之九十三点八CDL [27]n/a94.2%DCL [4]n/a94.5%S3N [6]n/a百分之九十四点七DT-RAM [19]n/a93.1%DF-GMMn/a94.8%表5.FGVC飞机上不同方法的比较方法注释精度[25]第二十五话BBoxs88.4%SCDA [28]n/a百分之七十九点五Kernel-Pooling [5]n/a百分之八十五点七LB-CNN [16]n/a87岁百分之三Kernel-Activation [2]n/a88.3%[36]第三十六话n/a91.0%[30]第三十话n/a91. 百分之四[26]第二十六话n/a92. 0%的百分比S3N [6]n/a92.8%DCL [4]n/a93.0%---DF-GMMn/a百分之九十三点八端到端特征编码，（4）端到端定位分类子网络，（5）其它方法（例如，[14]知识表示（KnowledgeRepresentation）(6)我们的DF-GMM早期的多阶段方法依赖于对象甚至部件注释来实现可比较的结果。然而，使用对象或部分注释限制了性能，这是由于人类注释仅给出重要部分的坐标而不是准确的区分区域位置的事实。弱监督的多阶段框架通过挑选有区别的区域逐渐超过强监督的方法。端到端的特征编码方法通过将CNN特征向量编码为高阶信息而具有良好的性能，但它们导致高计算成本。虽然定位-分类子网络在各种数据集上都能很好地工作，但它们忽略了区分区域扩散的问题由于使用了额外的信息，其他方法也实现了相当的性能43219759表6.在CUB-200-2011上与其他方法的效率和有效性进行比较K表示每个图像的选定区分区域的数量。方法注释精度速度M-CNN（K=2）[29]部分84.20%12.90WSDL（K=1）[13]双线性（K=0）[21]n/an/a83.45%84.00%10.0730.00我们的DF-GMM（K=2）我们的DF-GMM（K=4）n/an/a88.10%88.80%43.0041.00表7.全局最大池化与全局平均池化对基础初始化的影响，CUB-200-2011上的识别准确性初始化方法精度随机初始化87.1%全局最大池87.9%全局平均池化88.8%表8.不同GMM迭代次数训练的模型在CUB-200-2011上的识别精度。K12345精度86.9%87.5%88.8%88.4%88.1%(e.g.语义嵌入）。如表3、表4和表5所示，我们的方法在第一组中优于这些强监督方法，这表明所提出的方法可以在没有任何细粒度注释的情况下找到有区别的补丁。与最近的弱监督端到端方法相比，该方法直接从高级特征图我们运行DF-GMM来学习低秩特征映射，以缓解区分区域扩散问题，并达到新的最先进水平。速度比较。表6显示了与其他方法的速度比较。所有的实验都是在批量大小为8的设置下使用Titan X的图形卡。当根据判别得分图选择2个判别块时，我们在速度和准确性上都优于其他方法。当我们将区分块从2增加到4时，所提出的模型达到了最先进的识别精度，并且仍然保持41 fps的实时性。4.5. 可视化分析关于我们所提出的方法的影响的见解可以通过可视化特征图MI和MD的效果来获得，即分别没有和有DF-GMM的特征图。如图3所示，可以缩小特征图响应以关注DF-GMM的准确区分区域，这提高了定位区分区域的准确性我们还可视化了GMM中的潜在变量，如图4所示。线性权系数可以显示在目标区域，表明网络专注于判别43219760图3. DF-GMM中中间结果的可视化。(a)是原始图像，（b）（d）表示原始特征图MI，（c）（d）分别表示特殊通道的重建特征图。（b）（c）是同一频道的特征图。（d）（e）亦为同一水道特征图。图4. GMM中最后一次迭代时隐变量的可视化（一）是原始图像。（b）（c）（d）（e）表示对应于某个基的地区我们绘制了区分区域，并在图5中分别显示了可以看出，没有DF-GMM的区别性响应图集中在导致硬定位问题的宽区域上，如图5（b）所示然而，我们的DF-GMM可以关注区分性响应图中的一个小区域，在那里可以更容易和准确地定位区分性块为了更直观地呈现，我们在原始图像中显示定位结果，如图5（d）（e）所示。4.6. 讨论越深越好？我们展示了不同GMM迭代次数的识别结果，如图所示。图5.有和没有DF-GMM的区别性响应图和局部化结果的可视化。(a)是原始图像。（b）（c）分别是在没有和有DF-GMM的情况下通过采样阶段（d）（e）分别是没有和有DF-GMM的定位结果表8.当迭代次数增加到4次时，DF-GMM的性能明显下降。性能下降的可能原因是在使用更多的E-step和M-step之后，基μ和潜变量Z之间的传播将被淹没。GMP与GAP：如表5所示，将合并方法从GAP切换为GMP导致性能显著下降。因此，尽管低秩基被初始化为相同的状态，GAP通过鼓励GMM在整个判别区域上具有高响应，使判别基集中于所有判别信息，并且梯度在训练过程中影响判别区域的每个空间位置。另一方面，GMP使过滤器关注最具区分力的区域，以便在特征图的某个位置处具有单一响应，并且梯度将仅反向传播到该位置。5. 结论在本文中，我们首先发现的判别区域扩散问题的高级特征映射WFGIR方法。我们认为DRD问题说明了现有方法在区分区域定位方面的困难我们提出了一种端到端的面向鉴别特征的高斯混合模型方法来学习低秩特征映射，以解决DRD问题。大量的实验表明，通过在新的低秩特征映射上进行局部化，可以显著提高识别精度，证明DRD问题在WFGIR中确实起着关键作用。最后也是最重要的一点，我们的算法是端到端可训练的，并且在CUB-Bird，FGVC Aircraft和StanfordCars数据集上达到了最先进的水平43219761引用[1] 史蒂夫·布兰森，格兰特·范霍恩，谢尔盖·J。贝隆吉和皮埃特罗·裴罗纳。使用姿势归一化深度卷积网络进行鸟类分类。CoRR，abs/1406.2952，2014年。[2] 蔡思佳，左王梦，张磊。用于细粒度视觉分类的分层卷积激活的高阶积分。InICCV 2017，Venice，Italy，October 22-29，2017，pages 511[3] 陈天水，梁林，陈日全，杨武，罗晓楠.用于细粒度图像识别的知识嵌入表示学习。在IJCAI，第627- 634页[4] 岳晨、白亚龙、张伟、陶梅。用于细粒度图像识别的破坏和构造学习。在IEEE计算机视觉和模式识别会议上，CVPR 2019，长滩，加利福尼亚州，美国，2019年6月16日日，第5157-5166页[5] Yin Cui，Feng Zhou，Jiang Wang，Xiao Liu，YuanqingLin，and Serge J.贝隆吉卷积神经网络的核池在CVPR2017，檀香山，HI，美国，2017年7月日，第3049-3058页[6] Yao Ding，Yanzhao Zhou，Yi Zhu，Qixiang Ye，andJinbin Jiao. 用于细粒度图像识别的选择性稀疏采样在IEEE计算机视觉国际会议（ICCV），2019年10月。[7] 丹尼尔·弗里德，塔玛拉·波拉伊纳，斯蒂芬·克拉克。复合分布语义学中动词的低阶张量在Proceedings of the53rd Annual Meeting of the Asociation for ComputationalLinguistics and the 7th International Joint Conference onNatural Language Processing of the Asian Federation ofNatural Language Processing，ACL 2015，July 26-31，2015，Beijing，China，第2卷：Short Papers，第731-736页[8] 傅建龙，郑和良，陶梅。近看才能看得更清楚：用于细粒度图像识别的循环注意力卷积神经网络。在CVPR2017，檀香山，HI，美国，2017年7月21日至26日，第4476-4484页[9] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双线性池。在CVPR 2016，Las Vegas，NV，USA，2016年6月27-30日，第317-326页[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在2015年IEEE国际计算机视觉会议，ICCV 2015，智利圣地亚哥，2015年12月7-13日，第1026-1034页[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR 2016，LasVegas，NV，USA，2016年6月27-30日，第770- 778页[12] 何翔腾和彭宇新。细粒度图像分类中带空间约束的部分选择模型的弱监督学习。2017年2月4日至9日，美国加利福尼亚州旧金山AAAI。，第4075-4081页[13] 何翔腾，彭宇新，赵俊杰。通过显著性引导的更快R-CNN.在ACM MM 2017，Mountain View，CA，USA，2017年10月23-27日，第627-635页[14] 何翔腾，彭宇新，赵俊杰。Stackdrl：用于细粒度视觉分类的堆叠式深度强化学习。在IJCAI 2018，2018年7月13日至19日，斯德哥尔摩，瑞典。，第741-747页[15] 杰虎，李申，孙刚。挤压-激发网络。在2018年IEEE计算机视觉和模式识别会议上，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第7132-7141页[16] Shu Kong和Charless C.福克斯用于细粒度分类的低秩双线性池在CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第7025-7034页[17] Jonathan Krause，Hailin Jin，Jianchao Yang，and Fei-FeiLi. 无需零件注释的细粒度识别。在 CVPR 2015 ，Boston，MA，USA，2015年6月7日至12日，第5546[18] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。在ICCV研讨会2013，悉尼，澳大利亚，2013年12月1日至8日，第554-561页[19] 李志超、杨毅、小刘、周峰、文石磊、徐伟。视觉注意力的动态计算时间InICCV Workshops 2017，Venice，Italy，October 22-29，2017，pages 1199[20] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于对象检测的特征金字塔网络。在CVPR2017，檀香山，HI，美国，2017年7月21日至26日，第936-944页[21] 林宗宇，阿鲁尼·罗伊·乔杜里，苏布兰苏·玛吉。用于细粒度视觉识别的双线性CNN模型。在ICCV 2015中，智利圣地亚哥，2015年12月7日至13日，第1449-1457页[22] Subhransu Maji，Esa Rahtu，Juho Kannala，Matthew B.Blaschko和Andrea Vedaldi。飞机的细粒度视觉分类。CoRR，abs/1306.5151，2013。[23] 穆嘉琪、苏玛·巴特和普拉莫德·维斯瓦纳特。将句子表示为低秩子空间。在计算语言学协会第55届年会的会议记录中，ACL 2017，加拿大温哥华，7月30日至8月4日，第2卷：短论文，第629-634页，2017年。[24] Yuxin Peng，Xiangteng He，and Junjie Zhao.用于细粒度图像分类的对象部分注意模型。TIP，27（3）：1487[25] 王亚明，崔钟贤，弗拉德I.Morariu和Larry S.戴维斯挖掘斑块的判别三元组用于细粒度分类。在CVPR 2016，Las Vegas，NV，USA，2016年6月27-30日，第1163-1172页[26] 王亚明，弗拉德I. Morariu和Larry S.戴维斯学习CNN内的判别滤波器组以进行细粒度识别。在CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第4148-4157页[27] Zhihui Wang，Shijie Wang，Pengbo Zhang，Haojie Li，Wei Zhong，and Jianjun Li.基于相关引导判别学习的弱监督细粒度图像分类。在第27届ACM国际多媒体会议论文集，MM 2019，法国尼斯，2019年10日，第1851-1860页43219762[28] Wei-Shen Wei，Jian-Hao Luo，Jianxin Wu，and Zhi-HuaZhou.用于细粒度图像检索的选择性卷积描述符聚合。TIP，26（6）：2868[29] Wei-Shen Wei，Chen-Wei Xie，and Jianxin Wu. Mask-cnn：定位零件并选择描述符以进行细粒度图像识别。CoRR，abs/1605.06878，2016。[30] 泽阳、天哥罗、东王、胡志强、高俊、王立伟。学习导航以进行细粒度分类。在ECCV，德国，2018年9月8日至14日，Pro-ceedings，第XIV部分，第438-454页[31] Hantao Yao ， Shiliang Zhang ， Chenggang Yan ，Yongdong Zhang，Jintao Li，and Qi Tian. AUDRED：可扩展细粒度视觉分类的自动化双层描述。TIP，27（1）：10[32] Xiaopeng Zhang ， Hongkai Xiong ， Wengang Zhou ，Weiyao Lin，and Qi Tian.选取深度滤波器响应以进行细粒度图像识别。在CVPR 2016，Las Vegas，NV，USA，2016年6月27-30日，第1134-1142页[33] Yu Zhang，Xiu-Shen Wei，Jianxin Wu，Jianfei Cai，Jiangbo Lu，Viet Anh Nguyen，and Minh N.做基于部分图像表示的弱监督细粒度分类。TIP，25（4）：1713[34] Heliang Zheng，Jian

下载后可阅读完整内容，剩余1页未读，立即下载