组合卷积神经网络：具有对部分遮挡具有固有鲁棒性的深度架构

79 浏览量更新于2023-10-24 收藏 12.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1https://github.com/AdamKortylewski/CompositionalNets189400组合卷积神经网络：具有对部分遮挡具有固有鲁棒性的深度架构0Adam Kortylewski Ju He Qing Liu Alan Yuille约翰霍普金斯大学0摘要0最近的研究结果表明，深度卷积神经网络（DCNNs）在部分遮挡下的泛化能力较差。受到组合模型在分类部分遮挡对象方面的成功启发，我们提出将组合模型和DCNN集成到一个具有对部分遮挡具有固有鲁棒性的统一深度模型中。我们将这种架构称为组合卷积神经网络。具体而言，我们建议用可微分的组合模型替换DCNN的完全连接分类头。组合模型的生成性质使其能够定位遮挡物，并随后专注于对象的非遮挡部分。我们在人工遮挡图像以及来自MS-COCO数据集的部分遮挡对象的真实图像上进行分类实验。结果表明，即使在使用部分遮挡强烈增强的数据进行训练时，DCNN仍然不能稳健地对遮挡对象进行分类。我们提出的模型在分类部分遮挡对象方面远远优于标准的DCNN，即使在训练过程中没有接触到遮挡对象。额外的实验证明，即使只使用类标签进行训练，CompositionalNets也能够准确地定位遮挡物。本文使用的代码公开可用[1]。01. 引言0深度卷积神经网络（DCNNs）的架构设计的进展[17, 22,11]极大地提高了计算机视觉系统在图像分类方面的性能。然而，最近的研究[38,14]表明，这种深度模型在分类人工遮挡对象方面明显不如人类稳健。此外，我们的实验结果表明，DCNN不能稳健地对部分遮挡对象的真实图像进行分类。因此，我们的研究结果和相关研究[38,14]指出了DCNN在部分遮挡下的泛化能力方面存在根本性的限制，需要加以解决。0图1：来自MS-COCO数据集[20]的部分遮挡的汽车，标准DCNN对其进行错误分类，而提出的CompositionalNet对其进行正确分类。直观地说，CompositionalNet可以定位遮挡物（右侧的遮挡分数），然后专注于对象的非遮挡部分进行图像分类。0克服这一限制的一种方法是在数据增强方面使用部分遮挡[6,35]。然而，我们的实验结果表明，经过增强数据训练后，DCNN在分类部分遮挡对象方面的性能仍然明显较差，与非遮挡对象的分类相比。组合性是人类认知的一个基本方面[2, 28, 9,3]，也反映在视觉皮层腹侧通路的分层组合结构中[34, 27,21]。计算机视觉领域的一些研究表明，组合模型可以稳健地分类部分遮挡的2D模式[10, 13, 29,37]。Kortylewski等人[14]提出了基于字典的组合模型，这是一种神经特征激活的生成模型，可以比DCNN更稳健地分类部分遮挡的3D对象的图像。然而，他们的结果也表明，与DCNN相比，他们的模型在分类非遮挡对象方面的区分能力显著较差。在这项工作中，我们提出将组合模型和DCNN集成到一个具有对部分遮挡具有固有鲁棒性的统一深度模型中。具体而言，我们建议将DCNN的完全连接分类头替换为可微分的组合模型。组合模型的生成性质使其能够定位遮挡物，并随后专注于对象的非遮挡部分。我们在人工遮挡图像以及来自MS-COCO数据集的部分遮挡对象的真实图像上进行分类实验。结果表明，即使在使用部分遮挡强烈增强的数据进行训练时，DCNN仍然不能稳健地对遮挡对象进行分类。我们提出的模型在分类部分遮挡对象方面远远优于标准的DCNN，即使在训练过程中没有接触到遮挡对象。额外的实验证明，即使只使用类标签进行训练，CompositionalNets也能够准确地定位遮挡物。本文使用的代码公开可用[1]。289410用组合层替换DCNN的全连接分类头，该层在最后一个卷积层的神经特征激活方面被规范为完全生成性。组合层的生成性质使得网络能够在图像中定位遮挡物，并随后集中于对象的非遮挡部分以实现对图像的鲁棒分类。我们将这种新颖的深度架构称为组合卷积神经网络（CompositionalNet）。图1展示了CompositionalNets在分类部分遮挡对象时的鲁棒性，同时还能够在图像中定位遮挡物。特别是，它展示了几张被其他物体遮挡的汽车图像。在这些图像旁边，我们展示了由CompositionalNet估计的遮挡分数，它们说明了遮挡物的位置。请注意，尽管遮挡物具有高度复杂的形状和外观，但遮挡物被准确地定位。我们的大量实验证明了所提出的CompositionalNet在分类部分遮挡对象方面大大优于相关方法，即使在训练过程中没有接触到遮挡对象。当通过部分遮挡的数据增强进行训练时，性能进一步提高。此外，我们进行了定性和定量实验，证明了CompositionalNets仅通过类别标签训练就能够准确地定位遮挡物的能力。本文在以下几个方面做出了重要贡献：01.我们提出了一种可微分的组合模型，该模型以DCNN的特征激活为生成，这使我们能够将组合模型和深度网络集成到组合卷积神经网络中，这是一个具有天生鲁棒性的统一深度模型，能够应对部分遮挡。02. 虽然之前的研究[37, 14, 33,38]仅在人工遮挡图像上评估对部分遮挡的鲁棒性，但我们还在MS-COCO数据集中的真实部分遮挡对象图像上进行了评估。我们证明了CompositionalNets在遮挡下分类部分遮挡对象方面取得了最先进的结果。03.据我们所知，我们是第一个研究图像中遮挡物定位任务，并且展示了CompositionalNets明显优于基于字典的组合模型[14]的结果。02. 相关工作0部分遮挡下的分类。最近的研究[38,14]表明，与人类相比，当前的深度架构在部分遮挡下的鲁棒性明显较差。Fawzi和Frossard[7]表明DCNN对遮挡具有脆弱性。0通过遮挡输入图像的小块来模拟部分遮挡。相关工作[6,35]提出在训练过程中通过遮挡图像的补丁来增强训练数据的方法。然而，我们在第4节的实验结果表明，这种数据增强方法对于DCNN对部分遮挡的鲁棒性只有有限的效果。一个可能的解释是由于遮挡物在外观和形状上的大变异性，模拟遮挡的困难。Xiao等人[33]提出了一种具有注意机制的TDAPNet深度网络，该网络在较低层中屏蔽掉被遮挡的特征以增加分类对抗遮挡的鲁棒性。我们的结果表明，该模型在真实遮挡图像上表现不佳。与深度学习方法相反，生成式组合模型[12, 39, 8, 4,16]在与鲁棒遮挡模型[13]相结合时已被证明对部分遮挡具有固有的鲁棒性。这种模型已成功应用于检测部分遮挡的对象部分[29, 37]和在部分遮挡下识别2D模式[10, 15]。0组合模型和DCNN的结合。Liao等人[19]提出通过在学习过程中对DCNN的特征表示进行聚类来将组合性整合到DCNN中。他们的定性结果表明，得到的特征聚类类似于部分检测器。Zhang等人[36]证明了通过限制特征图中的激活具有局部分布，部分检测器会出现在DCNN中。然而，这些方法尚未显示出增强深度模型对部分遮挡的鲁棒性。相关工作提出了将卷积核稀疏化[24]或强制特征激活在不同对象之间解耦[23]的方法。由于组合模型不是显式的，而是隐含在DCNN的参数中，所以得到的模型仍然是不具有鲁棒性的黑盒DCNN。一些工作[18，25，26]使用可微分的图模型将部分-整体组合集成到DCNN中。然而，这些模型纯粹是判别性的，因此也是没有内部机制来解决部分遮挡的深度网络。Kortylewski等人[14]提出了从DCNN的特征中学习生成的基于字典的组合模型。如果DCNN的分类得分低于某个阈值，他们将其组合模型作为独立训练的DCNN的“备用”。0在这项工作中，我们提出将生成的组合模型和DCNN集成到一个固有具有部分遮挡鲁棒性的统一模型中。特别地，我们提出用可微分的组合模型替换全连接的分类头。我们使用反向传播训练模型参数，同时将组合模型调整为在神经特征上具有生成性。p(F|θy) =�pp(fp|Ap,y, Λ)(1)p(fp|Ap,y, Λ) =�kαp,k,yp(fp|λk),(2)p(fp|λk) = eσkµTk fpZ(σk) , ∥fp∥ = 1, ∥µk∥ = 1,(3)=�n�389420最后一个卷积层的特征激活。我们提出的模型在分类部分遮挡的对象时明显优于相关方法，并且能够准确地定位遮挡物。03.组合卷积神经网络0在第3.1节中，我们介绍了一个完全生成的组合模型，并在第3.2节中讨论了如何将其与DCNN集成到一个端到端的系统中。03.1.完全生成的组合模型0我们将DCNN中的一层输出F l ∈ R H × W × D定义为特征图的输出，其中D是通道数。特征向量f l p ∈ RD 是特征图F l在位置p上的特征向量。在本节的剩余部分，为了符号清晰，我们省略上标l。我们提出了一种不同iable的生成组合模型，用于表示目标类别y的特征激活p ( F | y)。这与基于字典的组合模型[14]不同，后者学习了模型p (B | y)，其中B是特征F的不可微二值近似。相反，我们将实值特征激活p ( F | y ) 建模为von-Mises-Fisher(vMF)分布的混合：0其中θ y = {A y , Λ }是模型参数，A y = {A p,y}是特征图F上每个位置p ∈ P的混合模型参数。特别地，Ap,y = { α p, 0 ,y , . . . , α p,K,y | � K k =0 α p,k,y = 1}是混合系数，K是混合成分的数量，Λ = { λ k = { σ k , µ k}| k = 1 , . . . , K }是vMF分布的参数：0其中Z ( σ k)是归一化常数。可以通过在所有训练图像的特征向量上进行vMF聚类和最大似然参数估计[1]的迭代来学习vMF分布的参数Λ，直到收敛。训练后，vMF聚类中心{ µ k}将类似于训练数据中经常出现的特征激活模式。有趣的是，与vMF聚类中心相似的特征向量通常由外观相似的图像块引起，甚至共享语义含义（见附录A）。这个特性也在一些使用神经特征空间聚类的相关工作中观察到[30，19，29]。0混合系数α_p,k,y也可以通过最大似然估计从训练图像中学习得到。它们描述了特征图F中位置p处类别y的聚类中心µ_k的预期激活。注意，图像的空间信息在特征图中得以保留。因此，我们提出的vMF模型（方程1）直观地描述了图像中给定类别y的部件的预期空间激活模式，例如在图像中车轮的预期位置。在第3.2节中，我们将讨论如何将参数θ_y的最大似然估计集成到损失函数中，并使用反向传播进行优化。组合模型的混合。方程1中的模型假设对象的3D姿态在图像中近似恒定。这是表示图像空间中的对象的生成模型的常见假设。我们可以使用组合模型的混合提出的广义模型来表示3D对象，如[14]中所提出的：0p(F|Θ_y) = �0m ν_m p(F|θ_m_y),(4)0m ν_m = 1}和Θ_y = {θ_m_y, m = 1, ...,M}。这里M是组合模型混合物的数量，ν_m是一个二进制分配变量，指示哪个混合分量是活动的。直观地说，每个混合分量m将表示对象的不同视角（见补充材料B）。混合分量{A_m_y}的参数需要通过迭代估计分配变量V和最大似然估计{A_m_y}来学习。我们将在第3.2节中讨论如何在神经网络中执行此过程。遮挡建模。按照[13]中提出的方法，组合模型可以与遮挡模型相结合。遮挡模型的直觉是，在图像中的每个位置p上，要么是对象模型p(f_p|A_m_p,y,Λ)，要么是遮挡模型p(f_p|β,Λ)处于活动状态：0p(F|θ_m_y,β)=0p_p(f_p,z_m_p=0)1−z_m_pp(f_p,z_m_p=1)z_m_p,(5)0p(f_p,z_m_p=1) = p(f_p|β,Λ)p(z_m_p=1),(6)0p(f_p,z_m_p=0) = p(f_p|A_m_p,y,Λ)(1-p(z_m_p=1)).(7)0二进制变量Z_m = {z_m_p ∈ {0, 1}| p ∈P}指示对象在位置p处是否被遮挡，遮挡先验p(z_m_p=1)是固定的。相关工作[13,14]使用单个遮挡模型。我们使用多个遮挡模型的混合，这些模型是以无监督的方式学习的：0p(f_p|β,Λ) = �0n p(f_p|β_n,Λ)τ_n(8)0k β_n,k p(f_p|σ_k,µ_k) � τ_n,(9)L = {N(F ∗ µk)|k = 1, . . . , K} ∈ RH×W ×K(10)Emy = {lTp Amp,y|∀p ∈ P} ∈ RH×W ,(11)L(y, y′, F, T) =Lclass(y, y′) + γ1Lweight(ω)+(12)γ2Lvmf(F, Λ) + γ3Lmix(F, Ay).(13)489430图2：使用CompositionalNet进行前馈推理。使用DCNN骨干提取特征图F，然后与vMF核{µ_k}进行卷积，并使用非线性vMF激活函数 N(∙)。得到的vMF似然 L 用于计算遮挡似然O，使用遮挡器核{β_n}计算混合似然{E_m_y}。O和{E_m_y}竞争解释L（红框），并组合计算遮挡鲁棒分数{s_m_y}。二值遮挡图{Z_m_y}指示L中的哪些位置被遮挡。最终的类别得分s_y计算为s_y = max_m s_m_y，并相应地选择遮挡图Z_y。0n τ n = 1 }表示哪个遮挡模型最好地解释了数据。遮挡模型的参数 β n是从不包含任何感兴趣对象的随机自然图像的聚类特征中学习得到的（见补充材料C）。注意，模型参数 β不依赖于特征图中的位置p，因此模型没有空间结构。因此，混合系数 β n,k直观地描述了自然图像中任何位置的 µ k的预期激活。作为前馈神经网络的推理。我们完全生成的组合模型的计算图是有向无环的。因此，我们可以在单次前向传递中执行推理，如图2所示。我们使用标准的DCNN骨干提取特征表示 F = ψ(I, ω) ∈ RH×W×D，其中 ω是特征提取器的参数。vMF似然函数p(f_p|λ_k)（方程3）由两个操作组成：内积 i_p,k = µ_T_kf_p 和非线性变换 N = exp(σ_k i_p,k)/Z(σ_k)。由于 µ_k不依赖于位置 p，计算 i_p,k 等效于 F 与 µ_k 的 1×1卷积。因此，vMF似然可以通过以下方式计算：0（图2中的黄色张量）。混合似然 p ( f p |A m p,y , Λ)(方程2) 是对每个位置 p 计算的，计算方法是混合系数 A mp,y 和来自似然张量的相应向量 l p ∈ R K 的点积：0（图2中的蓝色平面）。同样，遮挡似然可以计算为 O = { max n l T p β n |� p ∈ P} ∈ R H × W0（图2中的红色平面）。因此，遮挡似然 O 和混合似然 { Em y } 一起用于估计各个混合物的整体似然性，即 s m y =0p max( E m p,y , O p ) . 最终模型的似然性计算为 s y = p( F | Θ y ) = max m s m y ，相应地选择最终遮挡图为 Z y= Z ¯ m y ∈ R H × W ，其中 ¯ m = argmax m s m y。03.2. 组合网络的端到端训练0我们将我们的组合模型与DCNN集成到组合卷积神经网络（CompositionalNets）中，通过将经典的全连接分类头替换为组合模型头，如图2所示。该模型是完全可微的，并且可以使用反向传播进行端到端训练。算法1以伪代码形式显示了我们的组合网络的初始化和训练过程。组合网络的可训练参数为T = {ω，Λ，Ay}。我们使用随机梯度下降同时优化这些参数。损失函数由四个项组成：0L class ( y, y ′ ) 是网络输出 y ′ 与真实类别标签 y之间的交叉熵损失。 L weight = ∥ ω ∥ 2 2是对DCNN参数的权重正则化。 L vmf 和 L mix对组合模型的参数进行正则化，以使得特征 F的最大似然性。 { γ 1 , γ 2 , γ 3 } 控制损失项之间的权衡。12:T ← optimize(yh,y′h,ω,{µk},Am↑y,{z↑p}) [Sec. 3.2]Lvmf(F, Λ) = −= CLmix(F, Ay) =-�p(1-z↑p) log��kαm↑p,k,yp(fp|λk)�(16)dataset consists of images and corresponding segmentationsof vehicles from the PASCAL3D+ dataset [32] that weresynthetically occluded with four different types of occlud-ers: segmented objects as well as patches with constantwhite color, random noise and textures (see Figure 5 forexamples). The amount of partial occlusion of the objectvaries in four different levels: 0% (L0), 20-40% (L1), 40-60% (L2), 60-80% (L3).While it is reasonable to evaluate occlusion robustnessby testing on artiﬁcially generated occlusions, it is neces-sary to study the performance of algorithms under realisticocclusion as well. Therefore, we introduce a dataset withimages of real occlusions which we term Occluded-COCO-Vehicles. It consists of the same classes as the Occluded-Vehicle dataset. The images were generated by croppingout objects from the MS-COCO [20] dataset based on theirbounding box. The objects are categorized into the fourocclusion levels deﬁned by the Occluded-Vehicles datasetbased on the amount of the object that is visible in the image(using the segmentation masks available in both datasets).The number of test images per occlusion level are: 2036(L0), 768 (L1), 306 (L2), 73 (L3). For training purpose,we deﬁne a separate training dataset of 2036 images fromlevel L0. Figure 3 illustrates some example images fromthis dataset.Training setup. CompositionalNets are trained from thefeature activations of a VGG-16 [22] model that is pre-trained on ImageNet[5].We initialize the compositionalmodel parameters {µk}, {Ay} using clustering as describedin Section 3.1 and set the vMF variance to σk = 30, ∀k ∈{1, . . . , K}. We train the model parameters {{µk}, {Ay}}using backpropagation. We learn the parameters of n = 5occluder models {β1, . . . , βn} in an unsupervised manneras described in Section 3.1 and keep them ﬁxed throughoutthe experiments. We set the number of mixture components589440算法1 CompositionalNets的训练输入：训练图像集合 I= { I 1 , . . . , I H } ，标签 y = { y 1 , . . . , y H }，VGG骨干网络 ψ ( ∙ , ω ) ，背景图像 B = { B 1 , . . . , BR } 。输出：模型参数 T = { ω, { µ k } , {A m y }} ，{ β n} 。01: //提取特征 2: { F h } ← ψ ( { I h } , ω ) 3://通过最大似然初始化vMF核 4: { µ k }← cluster and ML( { fh,p | h = { 1 , ... , H } , p ∈P} ) 5: { L h } ← compute vMFlikelihood( { F h } , { µ k } ) [Eq. 10] 6://通过最大似然初始化混合模型 7: {A m y } ← cluster andML( { L h } , y ) 8: { β n } ← learn background models( B ,ψ ( ∙ , ω ) , { µ k } ) 9: for #epochs do 10: for each image I h do 11: { y ′ h , m ↑ , { z ↑ p }} ← inference( I h , T, { βn } )0vMF聚类中心µk通过最大化训练图像中特征向量fp的vMF似然（方程3）来学习。我们保持vMF方差σk不变，这也将归一化项Z(σk)减少为一个常数。我们在训练过程中假设将特征向量fp硬分配给vMF聚类。因此，最大化vMF似然[31]的自由能要最小化为：0最大化 p max k log p ( f p | µk ) (14)0最小化 p min k µ T k f p ,(15)0其中 C 是一个常数。直观上，这个损失鼓励聚类中心 µ k与特征向量 f p 相似。为了学习混合系数 A m y，我们需要最大化模型的似然性（方程4）。我们可以通过利用混合分配 ν m 和遮挡变量 z p在前向推理过程中已经被推断出来的事实，避免迭代的EM类型学习过程。此外，遮挡模型的参数是先学习再固定的。因此，用于学习混合系数的能量要最小化为：0这里，z ↑ p和m↑表示在前向过程中推断出的变量（图2）。04. 实验0图3：Occluded-COCO-Vehicles数据集中的图像。每一行显示一个对象类别的样本，随着部分遮挡的增加：20-40％（Level-1），40-60％（Level-2），60-80％（Level-3）。VGG99.296.9 97.0 96.5 93.892.0 90.3 89.9 79.667.9 62.1 59.5 62.283.6CoD[14]92.192.7 92.3 91.7 92.387.4 89.5 88.7 90.670.2 80.3 76.9 87.187.1VGG+CoD [14]98.396.8 95.9 96.2 94.491.2 91.8 91.3 91.471.6 80.7 77.3 87.289.5TDAPNet [33]99.398.4 98.6 98.5 97.496.1 97.5 96.6 91.682.1 88.1 82.7 79.892.8CompNet-p497.496.7 96.0 95.9 95.595.8 94.3 93.8 92.586.3 84.4 82.1 88.192.2CompNet-p599.398.4 98.6 98.4 96.998.2 98.3 97.3 88.190.1 89.1 83.0 72.893.0CompNet-Multi99.398.6 98.6 98.8 97.998.4 98.4 97.8 94.691.7 90.7 86.7 88.495.4VGG97.8 86.8 79.1 60.3 81.099.1 88.7 78.8 63.0 82.499.3 90.9 87.5 75.3 88.399.3 92.3 89.9 80.8 90.6CoD91.8 82.7 83.3 76.7 83.6---------------VGG+CoD98.0 88.7 80.7 69.9 84.3---------------TDAPNet98.0 88.5 85.0 74.0 86.499.4 88.8 87.9 69.9 86.599.3 90.1 88.9 71.2 87.498.1 89.2 90.5 79.5 89.3CompNet-p496.6 91.8 85.6 76.7 87.797.7 92.2 86.6 82.2 89.797.8 91.9 87.6 79.5 89.298.3 93.8 88.6 84.9 91.4CompNet-p598.2 89.1 84.3 78.1 87.599.1 92.5 87.3 82.2 90.399.3 93.2 87.6 84.9 91.399.4 93.9 90.6 90.4 93.5CompNet-Mul98.5 93.8 87.6 79.5 89.999.4 95.3 90.9 86.3 93.099.4 95.2 90.5 86.3 92.999.4 95.8 91.8 90.4 94.4689450PASCAL3D+遮挡下的车辆分类0遮挡面积 L0：0％ L1：20-40％ L2：40-60％ L3：60-80％平均0遮挡类型 - w n t o w n t o w n t o0表1：PASCAL3D+中不同程度人工遮挡（0％，20-40％，40-60％，60-80％）和不同类型遮挡（w=白色框，n=噪声框，t=纹理框，o=自然物体）的车辆分类结果。CompositionalNets明显优于相关方法。0MS-COCO车辆遮挡分类0训练数据 PASCAL3D+ MS-COCO MS-COCO + CutOut MS-COCO + CutPaste0遮挡区域 L0 L1 L2 L3 平均 L0 L1 L2 L3 平均 L0 L1 L2 L3 平均 L0 L1 L2 L3 平均0表2：在不同程度的真实遮挡（L0：0％，L1：20-40％，L2：40-60％，L3：60-80％的物体被遮挡）下的MS-COCO车辆分类结果。训练数据包括来自PASCAL3D+、MS-COCO以及通过CutOut和CutPaste增强的MS-COCO数据。在所有测试情况下，CompositionalNets的性能都优于相关方法。0M=4。损失的混合权重选择为：γ1=0.1，γ2=5，γ3=1。我们使用随机梯度下降训练60个epoch，动量r=0.9，学习率lr=0.01。04.1. 部分遮挡下的分类0PASCAL3D+。在表1中，我们将我们的CompositionalNets与在ImageNet上预训练并使用相应训练数据进行微调的VGG-16网络进行了比较。此外，我们还比较了基于字典的组合模型（CoD）和两种模型的组合（VGG+CoD），如[14]中所述。我们还列出了[33]中报告的TDAPNet的结果。我们报告了从VGG-16网络的pool4和pool5层分别学习的CompositionalNets的结果（CompNet-p4和CompNet-p5），以及通过组合CompNet-p4和CompNet-p5的输出进行训练的多层CompositionalNet（CompNet-Multi）。在此设置中，所有模型都是使用非遮挡图像（L0）进行训练，而在测试时，模型会暴露于具有不同程度的部分遮挡（L0-L3）的图像中。我们观察到CompNet-p4和CompNet-p5在L0和L1的情况下优于VGG-16、CoD以及两者的组合。0请注意，与基于字典的组合模型相比，CompositionalNets在L0级别上具有更高的区分度。CompNet-p4和CompNet-p5在L0和L1的情况下与TDAPNet表现相当，而CompNet-Multi明显优于TDAPNet。我们还观察到，如果遮挡物是矩形掩码，则CompNet-p5在强遮挡（L2和L3）时优于CompNet-p4。然而，当遮挡物是物体时，CompNet-p4在强遮挡（L2和L3）时优于CompNet-p5。正如Xiao等人[33]所指出的，这可能是因为具有更细粒度形状的遮挡物更严重地干扰了更高层次的特征。0MS-COCO。表2显示了在真实遮挡场景下通过在Occluded-COCO-Vehicles数据集上进行测试的分类结果。表的第一部分中的模型是在PASCAL3D+数据的非遮挡图像上训练并在MS-COCO数据上评估的。在这种迁移学习设置中，所有模型的性能都有所下降，但CompositionalNets明显优于其他方法。请注意，将DCNN与基于字典的组合模型（VGG+CoD）相结合在低遮挡L0和L1时表现良好，但性能较低。log-likelihood ratio between the occluder model and theobject model: log p(fp|zmp =1)/p(fp|zmp =0), where m =argmaxm p(F|θmy ) is the model that ﬁts the data the best.Quantitative results.We study occluder localizationquantitatively on the Occluded-Vehicle dataset using theground truth segmentation masks of the occluders and theobjects. Figure 4 shows the ROC curves of Compositional-Nets (solid lines) and dictionary-based compositional mod-els (dashed lines) when using the occlusion score to classifyeach pixel as occluded or non-occluded over all occlusionlevels L1 − L3. We evaluate the localization quality onlyfor images that were correctly classiﬁed by each model. TheROC curves show that for both models it is more difﬁcult tolocalize textured occluders compared to white and noisy oc-cluders. Furthermore, it is more difﬁcult to localize naturalobject occluders compared to textured boxes, likely becauseof their ﬁne-grained irregular shape. Overall, Composition-alNets signiﬁcantly outperform dictionary-based composi-tional models. At a false acceptance rate of 0.2, the per-formance gain of CompositionalNets is: 12% (white), 19%(noise), 6% (texture) and 8% (objects).Qualitative results. Figure 5 qualitatively compares theoccluder localization abilities of dictionary-based compo-sitional models and CompositionalNets. We show imagesof real and artiﬁcial occlusions and the corresponding oc-clusion scores for all positions p of the feature map F.Both models are learned from the pool4 feature maps of aVGG-16 network. We show more example images in Sup-plementary D. Note that we visualize the positive valuesof the occlusion score after median ﬁltering for illustrationpurposes (see Supplementary E for unﬁltered results). Weobserve that CompositionalNets can localize occluders sig-789460相比仅使用CoD，表的第二部分（MS-COCO）显示了在Occluded-COCO-Vehicles数据集的L0训练集上微调后的分类性能。VGG-16在表1中的人工对象遮挡器上实现了类似的性能。在微调后，TDAPNet在L0级别上有所改善，并在L1-3级别上平均下降。总体而言，它并没有从非遮挡图像的微调中获得显著的好处。CompositionalNet的性能在微调后显著提高（p4：3％，p5：2.8％，multi：3.1％）。表2的第三部分和第四部分（MS-COCO-CutOut和MS-COCO-CutPaste）显示了在部分遮挡方面进行强数据增强后的分类结果。特别地，我们使用CutOut[6]正则化方法，通过遮挡随机大小为70像素的正方形补丁。此外，我们提出了一种更强的数据增强方法CutPaste，它使用Occluded-Vehicles数据集中的四种类型的人工遮挡器人工遮挡Occluded-COCO-Vehicles数据集中的训练图像。虽然数据增强提高了VGG网络的性能，但该模型仍然在强遮挡下受到影响，并且低于仅在非遮挡图像上训练的CompNet-Multi模型。TDAPNet并没有像VGG网络那样从数据增强中获得太多好处。对于CompositionalNets，当使用增强数据进行训练时，性能进一步提高。总体而言，CutOut增强对于CompositionalNets的泛化性能没有太大影响，而所提出的CutPaste增强方法证明更强。特别是，CompNet-p5架构受益匪浅，可能是因为网络学会在遮挡下提取更可靠的高级特征。总之，分类实验清楚

下载后可阅读完整内容，剩余1页未读，立即下载