没有合适的资源?快使用搜索试试~ 我知道了~
1自我监督的共同部分分割Wei-Chih Hung1*,Varun Jampani2,Sifei Liu2,Pavlo Molchanov2,Ming-Hsuan Yang1,and JanKautz21UC Merced2 NVIDIA图1:对变化的稳健性。SCOPS在不同类型的图像集合上获得的样本部分分割:(左)来自CelebA [ 29 ]的未对齐人脸,(中)来自CUB [44]的鸟类和(右)来自PASCAL VOC [11]数据集图像的马,表明SCOPS可以对外观,视点和姿势变化保持鲁棒性。摘要零件提供了一个很好的物体的中间表示,相对于相机,姿势和外观变化是鲁棒的现有的工作部分分割的监督方法,依赖于大量的手动注释,不能推广到看不见的对象类别。我们提出了一种用于零件分割的自监督深度学习方法,其中我们设计了几个损失函数,这些损失函数有助于预测几何集中的零件分割,对对象变化具有鲁棒性,并且在不同对象实例中也具有语义一致性。对不同类型的图像集进行的大量实验表明,与现有的自监督技术相比,我们的方法可以产生遵守对象边界的部分片段,并且在对象实例之间的语义更加一致。1. 介绍大部分计算机视觉都涉及分析我们周围的物体,如人类、汽车、家具等。分析对象的一个主要挑战是开发一个模型,该模型对由于相机姿态变化而引起的大量对象变换和变形具 有 鲁 棒 性 ,* 本文是作者在NVIDIA实习时完成的包含、对象外观和姿势变化。零件提供了一个很好的对象的中间表示,相对于这些变化是鲁棒的因此,基于部件的表示用于广泛的对象分析任务,例如3D重建[55]、检测[12]、细粒度识别[25]、姿态估计[20]等。在文献中已经使用了几种类型的2D部件表示,其中三种最常见的是地标、边界框和部件分割。部件分析的常见方法是首先手动注释大量数据,然后利用完全监督的方法来识别部件[9,29,2,4,5]。然而,这些注释,特别是部分分割,通常是相当昂贵的。注释也是特定于单个对象类别的,通常不会推广到其他对象类。因此,难以将全监督模型缩放到不可见的类别,并且需要用于部件识别的弱监督技术,其仅依赖于非常弱的监督或根本不依赖于监督一旦获得部件表示,其对变化是鲁棒的,并且有助于高级对象理解。然而,由于上述类内变化,获得部分分割具有挑战性单个对象类别的图像集合,尽管具有相同类别的对象,但通常具有关于姿态、对象外观、相机视点、存在性的869870多个对象等等。图1显示了来自三个不同图像集合的一些示例图像。注意不同对象实例之间的任何用于部分分割的弱或无监督技术都需要推理不同图像之间的对应关系,这在如此多样化的图像集合中是具有挑战性的。在这项工作中,我们提出了一个用于零件分割的自监督深度学习框架。仅给定相同对象类别的图像集合,我们的模型可以学习在不同对象实例中语义一致的部分分割。我们的学习技术是阶级不可知论的,即,可以应用于任何类型的刚性或非刚性对象类别。而且,我们只使用ImageNet预训练特征形式的非常弱的监督[26,39,17],这些特征很容易获得。与最近的深度学习技术[42,41,50]相反,它以弱或无监督的方式学习地标(关键点),我们的网络预测部分分割,与地标或边界框相比,它提供了更丰富的中间对象表示。为了训练我们的分割网络,我们考虑了一个好的部分分割的几个属性,并将这些先验知识编码到损失函数中。具体来说,我们考虑零件分割的四个理想特征:• 几何集中:部件在几何上集中并形成连接的组件。• 对变化的鲁棒性:零件段对于由于姿势变化以及相机和视点变化而引起的对象变形具有鲁棒性。• 语义一致性:零件段在不同的对象实例中应具有语义一致性,但外观和姿势不同。• 作为部件联合的对象:部件出现在对象上(而不是背景),部件的联合形成一个对象。我们设计了有利于具有上述质量的零件分割的损失函数,并使用这些损失函数来训练我们的零件分割网络。我们将在第3节中详细讨论这些损失函数。我们将我们的部分分割网络称为“SCOPS”(自监督共同部分分割)。图1显示了样本图像集合和相应的部分分割,SCOPS预测。这些视觉结果表明,SCOPS可以估计部分分割的语义一致的对象实例,尽管大的变化,在对象实例。与最近的无监督地标检测方法[42,41,50]相比,我们的方法对外观变化相对稳健,同时还能处理遮挡。此外,我们的方法可以处理图像中的多个对象实例,这是不可能通过地标估计与固定数量的地标。深度特征分解(Deep Feature Factorization方法[10],我们可以扩展到更大的数据集,可以产生更清晰的部分片段,坚持对象边界,也更语义一致的对象实例。我们通过间接测量未对齐CelebA [29]、AFLW [22]和CUB [44]数据集图像上的界标估计准确度以及PASCAL VOC数据集[11]上的前景分割准确度来定量评估我们的结果表明,SCOPS一贯表现良好,对最近的技术。总之,我们提出了一种自监督深度网络,该网络可以预测跨对象实例语义一致的部分分割,同时对对象姿势和外观变化、相机变化和遮挡相对鲁棒。2. 相关作品对象概念发现CNN在不同的计算机视觉任务中表现出令人印象深刻的泛化能力[45,35,1]。因此,一些作品试图解释和可视化中间CNN表示[49,52,3]。虽然最近的一些作品[14,3]证明了预先训练的CNN特征中存在对象部分信息,但我们的目标是训练一个可以以自我监督的方式预测连续部分分割的CNN。一些类似于我们的目标,基于类激活图(CAM)的方法[53,34]提出将图像上的密集响应相对于训练的分类器进行定位。然而,没有一个学习过的部分分类器,CAM不能直接应用于我们的问题设置。最近,Collinset al. [10]提出深度特征分解(DFF),通过ImageNet CNN特征的非负矩阵分解(NMF)[27]来估计图像中的公共部分片段然而,DFF需要在推理时间期间进行联合优化,并且由于没有独立的推理模块,因此在零件图上施加其他约束或损失函数是昂贵的通过冒充神经网络推理,建议的SCOPS可以很容易地利用近年来开发的神经网络损失函数的财富。在大规模数据集上的训练时间期间,可以联合优化任何广告约束地标检测最近,已经提出了几种技术来学习具有弱或无监督视觉的地标。这些作品中的大多数依赖于几何约束和地标变换的等变性。Thewlis等人[42]依赖于几何先验来学习对仿射和样条变换不变的地标。Zhang等人[50]通过用预测的界标和局部特征重建给定的输入图像来Honari等人[18]使用标记图像的子集和顺序多任务处理来改善最终地标估计。Simon等人[38]第三十八话871以提高手部界标估计的准确性。Suwa- janakorn等[40]使用多个几何感知损失来发现3D地标。为了获得无监督地标,这些作品中的大多数依赖于简化的问题设置,例如使用裁剪图像,每个图像仅具有单个对象实例,并且仅允许轻微遮挡。我们的目标是预测部分片段,提供更丰富的代表性的对象相比,地标。密集图像对准部分分割也与密集对准的任务有关,其中目标是将来自对象的像素或地标密集地匹配到另一对象实例。虽然传统方法使用现成的特征描述符匹配来解决该问题,例如,基于SIFT流的方法[28,21,6],最近的作品[16,46,47,48,15]利用带注释的地标对和深度神经网络来学习更好的特征描述符或匹配函数。为了避免密集注释的成本,最近的工作提出了在仅需要图像对的弱监督设置Rocco等人[30,31]提出通过最大化内点计数来联合训练特征描述符和空间变换,而Shu等人。[37]建议De-forming Autoencoder来对齐面和解开表达式。然而,这些弱监督方法假设空间变换的特定族,例如,仿射或薄板样条线网格,以对齐具有相似姿势的对象我们认为,部分分割是一个更自然的表示语义对应,因为匹配每个像素之间的不同实例将是一个不适定的问题。零件分割还可以提供复杂的对象变形,而无需大量参数化的空间变换。图像联合分割联合分割方法预测给定图像集合的特定对象的前景像素。大多数现有作品[24,32,19,43,33]共同考虑集合中的所有图像,以通过能量最大化生成最终的前景片段相比之下,我们提出了一个端到端的可训练网络,该网络将单个图像作为输入并输出部分分割,这更具挑战性,但与前景分割相比提供了更多信息。3. 自监督共部分分割给定相同对象类别的图像集合,我们的目标是学习一个深度神经网络,该网络将单个图像作为输入并输出部分分割。如第1节所述,我们关注部件分割的重要特性,并设计支持这些特性的损失函数:几何集中性、对变化的鲁棒性、语义一致性以及作为部件的联合的对象。在这里,我们首先描述我们的整体框架,然后描述不同的损失函数以及它们如何促进上述属性。沿着自我监督约束输入图像部分分割几何(第二节)3.2)等方差(第零件分割网络语义一致性(Sec.第图2:SCOPS框架。我们的网络将单个图像作为输入,并预测部分分割。几何,等方差和语义一致性约束用于训练网络的自我监督的方式。另外,我们也评论了我们的损失函数与文献中已有的损失函数之间的3.1. 总体框架图2显示了我们提出的方法的总体框架 给定同一对象类别的图像集合{I},我们训练一个以θ f为参数的 部 分 分 割 网 络 F , 它 是 一 个 最 终 具 有 通 道softmax层的全卷积神经网络(FCN [36]),以生成部分响应映射R=F(I;θf)∈[0,1](K+1)× H × W,其中K表示部分的数量,H×W是图像分辨率我们的网络预测K+1通道与一个额外的通道指示的背景。 为了获得最终的部分片段-结果,我们首先用它在空间维度R_ (k,i,j)=R(k,i,j)/max_u,v(R(k,u,v))中的最大响应值对每个部分图进行归一化,并且我们将背景图设置为值为0的常数。1.一、这种归一化的目的是增强弱部分响应。然后利用沿通道方向的arg max函数进行零件分割。我们使用DeepLab-V2 [8],ResNet50 [17]作为我们的零件细分网络。由于我们不假设任何地面实况分割注释的可用性,因此我们将几个约束制定为可微损失函数,以鼓励零件分割的上述期望属性,例如几何集中度和语义一致性。部分分割网络的总体损失函数是我们接下来描述的不同损失函数的加权和。与几种在测试时推理过程中需要多个图像的联合分割方法[24,32,19,43,33]相反,我们的网络在测试时只需要一个图像作为输入,从而使我们的训练模型更好地移植到看不见的测试图像。3.2. 几何浓度损失属于相同对象部分的像素通常在空间上集中在图像内并且形成连接的组件,除非存在遮挡或多个实例。为此,我们首先施加几何约束-872EQVuu3.3. 等方差损失我们要提倡的第二个属性是,部分分割应该对外观和姿势变化具有鲁棒性。图3说明了我们如何使用等效约束来增强对变化的鲁棒性。对于每个训练图像,我们从预训练图像中绘制随机空间变换T(·)和外观扰动T(·)是一个定义的参数范围。详细的转换参数见补充资料。然后我们传递输入图像I和变换图像I′=Ts(Ta(I))通过分段网络,并获得对应的响应图R和R′。鉴于这些部分响应图,我们计算零件中心,V使用等式ck,ck1.一、 而损失的程度,则是损失的程度。u v罚款为L eqv=λ sD KL(R′||Ts(R))图3:等方差损失。 我们把一个给定的图像具有随机空间变换和颜色抖动。我们也EQV Σ+λck′k′KK2(三)- 使用相同的空间变换来变换给定图像的部分分割,以与部分分割进行比较,EQV||、||,K通过等方差损失对变换后的图像进行分割。其中DKL(·)是而λsc当量是损耗平衡系数。第一集中在部件响应图上以形成部件分段。具体来说,我们利用一个损失项,鼓励属于一个部分的所有像素在空间上接近的部分中心。零件k沿轴u的零件中心计算为:Σck=u·R(k,u,v)/zk,(1)u,vΣ其中z k=u,vR(k,u,v)是归一化项,将所述部分响应图转换成空间概率分布函数然后,我们将几何浓度损失公式化为Σ Σ项对应于部分分割等方差,并且第二项表示部分中心等方差。我们使用随机相似性变换(缩放,旋转和移位)进行空间变换。我们还尝试了更复杂的变换,如投影和薄板样条变换,但没有观察到任何改进的部分分割。关于无监督地标估计[50,42]的最新工作使用上述地标(部分中心)的等方差损失。在这项工作中,我们扩展的等方差损失的部分分割,我们的实验表明,只使用等方差的部分中心是不够的,以获得良好的部分分割结果。Lcon=||2· R(k,u,v)/z k,(2)||2· R(k, u, v)/zk,(2)3.4. 语义一致性损失uv库乌河它关于ck,R(k,u,v)和zk是可微的。该损失函数鼓励部件的几何集中,并试图最小化空间概率分布函数R(k,u,v)/zk的方差。这种损失与最近无监督地标估计技术中使用的损失密切相关[50,42]。而Zhanget al. [50]接近具有高斯分布的地标响应图,我们主要将集中损失应用于惩罚远离部分中心的部分响应。除了集中损失,[50]和[42]提出了一种分离(多样性)损失的形式,可以最大化不同地标之间的距离。然而,我们不采用这样的约束,因为该约束将导致分离的部分片段与背景像素之间。虽然等方差损失有利于对某些对象变化具有鲁棒性的部分分割,但合成创建的变换将不足以产生跨不同实例的一致性,因为图像之间的外观和姿态变化太高而无法通过任何人工变换来建模(对于某些示例实例,参见图1和图4为了鼓励不同对象实例之间的语义一致性,我们需要在损失函数中显式地利用不同的实例。我们使用的一个关键观察结果是,关于对象和部件的信息嵌入在分类网络的中间CNN特征中[3,14,10]。我们设计了一个新的语义一致性损失函数,它利用了ImageNet训练特征的隐藏部分信息[26,39,17],这些特征现在很容易获得。根据[10]中的观察,我们假设我们可以空间变换���中文(简体)共享空间变换���中文(简体)颜色抖动���a(等方差损失L等式(Eqn.第三章共享,λ873FF图像采集特征提取器CxHxW反向传播为了确保不同的部分基向量不会相互抵消,我们通过将特征V和基向量{wk}传递通过ReLU层来对它们实施部分分割R自然是非负的,因为它是softmax函数的输出。我们把语义一致性损失看作是一个线性子空间恢复问题,它是关于特征提取器在输入图像集合上提供的嵌入空间的。随着训练的进行,部分基可以逐渐收敛到由预训练的深度特征提供的嵌入空间中的每个部分的最具代表性的方向,并且恢复的子空间可以被描述为基{w,k}的跨度。此外,非负性确保权重R(k,u,v)可以被解释为部分响应。在提出语义一致性损失的情况下,我们通过学习的部分基{wk}显式地执行跨实例语义一致性,因为相同的部分响应将具有相似的语义图4:语义一致性损失。 我们强制执行-通过学习一个序列,mantic部分的基础上,共享所有的图像。我们使用正交约束来学习不同的部分基础,我们使用显著性约束来鼓励部分出现在前景物体上。在所述给定分类特征中找到对应于不同零件段的代表性特征聚类形式上,给定C维分类特征V ∈ RC× H × W,我们希望找到K个代表性部分特征wk∈RC,k∈ {1,2,.,K}。我们同时在预训练的特征空间中进行特征嵌入。当使用语义一致性损失进行训练时,不同的基可能具有相似的特征嵌入,特别是当K较大或子空间的底层秩小于K时。由于具有相似的零件基础,零件分割可能会有噪声,因为来自多个通道的响应可能都表示相同的零件段。因此,我们建议对部分基wk施加额外的正交约束,以将部分基分开。 令W表示矩阵,其中每一行作为归一化部分基向量||W||,我们制定了正交-k k k学习部分分割R和这些代表性部分fea-结构{wk},使得属于第k部分的(u,v)像素的分类特征V(u,v)接近wk,即,||2→ 0。||2→ 0. 由于零件数量K通常小于特征维度C,我们可以看到代表性的零件特征{wk}跨越K-C维空间中的一个维子空间。我们把这些有代表性的零件特征称为零件基向量。图4说明了语义一致性损失。给定图像I,我们得到它的部分响应映射R。 我们还将I传递到预先训练的分类网络中,并获得中间CNN层的特征图。 特征图被双线性上采样以具有I和R的相同空间分辨率,导致V ∈ RC× H × W。 我们使用以下语义一致性损失来学习跨不同对象实例(训练图像)全局共享的一组部分基向量{wk}:作为W的损失函数的应变:Lon=||WWT−IK||第二条,第(五)项哪里||·||2是Frobenius范数,IK是大小为K×K的单位矩阵。我们的想法是最小化不同基向量之间的相关性,因此我们可以获得更简洁的基组,从而获得更好的部分响应。显着性约束我们观察到,当输入图像集是小的,或部分的数量K是大的,所提出的方法往往拿起一些共同的背景区域作为对象部分。为了解决这个问题,我们利用一种无监督的显着性检测方法[54]来抑制V中的背景特征,使得学习的部分基础不对应于背景区域。为此,对于给定图像和无监督显著图D∈[0,1]H×W,我们将特征图V软掩模为DV,Lsc= Σu,v||V(u,v)−ΣR(k,u,v)w k||第二条、第四条K其中,A是Hadamard(条目式)乘积,在通过之前,将其放入语义一致性损失函数中。考虑其中D(u,v)=0的非显著像素,语义其中V(u,v)∈RC是在空间位置(u,v)处采样的特征向量。我们使用标准的一致性损失(Eqn.(4)可以解释为解决下式:R(k,u,v)wk=0,(6)显著性约束语义一致性损失L sc(方程四、零件分割网络⨂语义部分基础关于我们ReLU正交约束L on(方程…874其实质上是将非显著背景区域投影到由{w,k}跨越的学习子空间的零空间中。这个显着性约束封装了我们的先验表1:对未对齐的CelebA的标志评价。比较SCOPS与近期工作的平均L2距离(左)以及不同损失函数的消融(右)。零件出现在对象上的知识(而不是背景)而各部分的结合形成了一个物体。几种共同分割技术[32,7,13]也利用显着图来改善分割结果。然而,据我们所知,我们是第一个在特征重构损失中施加显著性约束的工作与我们的语义一致性损失有关,最近的一个方法误差(%)ULD(K=8)[50,42] 40.82DFF(K=8)[10] 31.30SCOPS(K=4)21.76SCOPS(K=8)15.01SCOPS(K=8)误差(%)仅Lsc23.53不含Lsc28.49不含Lcon21.85不含L等式18.60无显著性工作[10]提出了一种用于零件发现的深度特征分解(DFF)技术而不是学习部分基础,表2:未对准AFLW的标志性评价。平均L2距离比较SCOPS最近的作品。DFF提出将特征V直接分解为响应使 用 非 负 矩 阵 因 子 化 ( NMF ) 映 射 R 和 基 矩 阵W;V→RW。虽然DFF强调了学习部分基础和训练分割网络的必要性,但我们的学习策略与DFF相比具有几个优点。首先,我们可以使用小批量和标准梯度下降优化技术来学习部分基础,而DFF在推理时间内一次对整个图像集合执行NMF。这使得我们的学习技术可扩展到大型图像集的学习,并可应用于单个测试图像。其次,使用神经网络学习零件分割和基础使得能够容易地将不同约束并入零件基础(例如,标准正交约束)以及其他损失函数(例如集中度和等方差)的结合。我们的实验表明,这些损失函数是必不可少的,以获得良好的部分分割,是语义一致的图像。4. 实验在整个实验中,我们将我们的技术称为由于SCOPS是自我监督的,因此分割不一定对应于人类注释的对象部分。因此,我们对不同对象类别(包括CelebA[29] 、 AFLW [22]( 人 脸 )、 CUB [44] ( 鸟 类 )和PASCAL [11](常见对象)数据集)使用两种不同的代理指标定量评估SCOPS。在CelebA、AFLW和CUB数据集上,我们通过获取部分中心(等式10)将我们的部分分割转换为地标。1)并根据GroundTruth注释进行评估。根据最近的工作[50,42],我们拟合了一个线性回归器,该线性回归器学会将检测到的地标映射到地面实况地标,并在测试数据上评估所得模型。在PASCAL语言中,我们对分割后的图像进行局部聚集,并用前景分割IOU进行评价.我们使用Py- Torch实现SCOPS1,并使用单个NvidiaGPU训练网络我们使用来自VGG的relu 5 2与relu5 4级联1 代 码 和 模 型 可 以 在 https : //varunjampani 上 找 到 。github.io/scops方法ULD(K=8)[50,42] DFF(K=8)[10] SCOPS(K=8)误差(%)25.03 20.42 16.5419 [39]作为语义一致性损失的预训练特征V4.1. 标签:Unaligned CelebA/AFLWCelebA数据集包含大约20k张人脸图像,每张图像都有一个紧密的边界框和5个面部标志。SCOPS的主要优点之一是,与最近的地标估计工作相比,它对姿态和视点变化相对稳健[50,42]。为了证明这一点,我们使用未对齐的CelebA图像进行实验,我们选择面部覆盖超过30%像素区域的图像。根据[50]中的设置,我们还从训练集中排除了MAFL [51](CelebA的子集)测试我们使用MAFL训练集(5379张图像)来拟合线性回归模型,并在MAFL测试集(283张图像)上进行测试在表1中,我们报告了根据眼间距离标准化的平均L2距离的界标回归误差。为了与现有的无监督地标发现工作进行比较,我们实现了损失函数,包括集中,分离,地标等方差和重建,如[50]和[42]中所提出的。我们用这些约束来训练我们的基础网络,并将其称为“ULD”。为了验证我们的ULD实现,我们在对齐celebA图像上训练它,产生5.42%的地标估计误差,这与[42]中报告的5.83%和[50]中的3.46%然而,当使用未对齐的图像进行训练和测试时,我们发现ULD很难收敛到语义上有意义的地标位置,导致错误率很高我们还通过将部分响应视为地标检测来与DFF [10]的最近自监督部分分割技术进行比较我们训练SCOPS预测4和8部分与所有建议的约束,并显示比较结果在表1(左)。结果表明,SCOPS表现良好,其他方法。图5中的SCOPS(K=8)的视觉结果表明,SCOPS部件段更语义化,875表3:CUB的标志性评价。将SCOPS与最近技术进行比较的归一化L2距离(K=4)。方法CUB-001CUB-002CUB-003ULD [50,42]30.1229.3628.19DFF [10]22.4221.6221.98范围18.5018.8221.07与现有技术相比,在不同的图像上基本一致。此外,我们在AFLW数据集上训练SCOPS [22],该数据集包含4198张人脸图像(过滤后),其中包含21个注释地标。在[50]之后,我们在CelebA上预训练模型,并在AFLW上进行微调。我们在表2中示出了结果。结果表明,SCOPS在该数据集图像上的表现也优于ULD和DFF。即使地标预测准确性不直接测量学习的部分分割质量,这些结果表明,学习的部分分割在语义上是一致的跨实例下的验证未对齐设置。消融研究为了验证不同约束的个体贡献,我们进行了详细的消融研究,结果见表1(右)。相应的目视结果如图5所示。虽然移除任何约束都会导致更差的性能,但语义一致性损失Lsc是所提出的框架中最重要的图5中的视觉结果表明,如果没有Lsc,学习的部分将不具有语义意义。结果还表明,没有几何集中损失Lcon的训练会导致某些部分占据较大的图像区域,而没有等效损失Leqv会导致学习的部分在图像之间不一致。这些结果表明,我们所有的损失函数对于学习好的部分分割是必不可少的。4.2. 来自CUB的鸟类我们还在来自CUB-2011数据集[44]的更具挑战性的鸟类图像上评估了所提出的方法,该数据集由11,788张图像组成,其中包含200种鸟类和15种地标注释。由于各种鸟类姿势,数据集具有挑战性,例如,站立、游泳或飞行,以及不同的相机视角。我们在前三个鸟类类别上训练K=4的SCOPS,并与ULD和DFF进行比较。我们在图6中显示了一些定性结果。在这样的物体变形水平下,我们发现ULD很难定位有意义的部分。与DFF相比,SCOPS产生的零件段在对象内部和外部具有更好的边界对齐,并且学习的零件分割在实例之间也更一致。与前面的4.1节类似,我们使用地标检测作为代理任务,图5:CelebA面部图像的视觉结果。与现有技术相比,SCOPS生产一致的零件段还示出了不同损失约束的效果将部件中心视为检测到的界标。为了计算图像中不同的鸟类大小,我们通过所提供的地面实况边界框的宽度和高度对地标估计误差进行表3显示了不同技术的定量结果。对于所有三个鸟类类别,SCOPS表现良好,不含L设备不含Lcon仅Lsc不含Lsc无显著性范围DFF [10]ULD [50,42]图像876图7:PASCAL VOC数据集的目视结果[11]。SCOPS对姿态和外观变化具有鲁棒性。表4:PASCAL VOC数据集的评价。共分割IoU比较7个VOC对象类别的SCOPS与DFF(K=4)。图6:CUB鸟图像的视觉结果。 范围对于姿态和相机变化是鲁棒的,同时与其它技术相比具有更好的边界粘附[10][12][13][14][15][16][17 对 于 CUB-2011 数 据 集 ,SCOPS以及其他技术不区分左右对称部分。例如,左翼和右翼经常被预测为同一部分。从零件细分的角度来看,这种行为是合理的。然而,考虑到地标回归任务,两个扇形展开的翅膀的部分中心将在主体上,导致不太有意义的地标。因此,界标回归误差可能无法准确反映共部分分割质量,并且区分对称语义部分仍然是该数据集图像上的挑战性问题。4.3. PASCAL中的通用对象我们还将SCOPS应用于PASCAL VOC数据集[11],该数据集包含具有各种变形,视角和遮挡的常见对象的图像。我们提取的图像包含特定的对象类别,而对象的包围盒至少占整个图像的20%。为了去除图像中的显著遮挡,我们进一步排除了PASCAL部分数据集中仅存在一小部分地面实况部分的图像[9]。模型分别针对每个对象类别进行训练,K=4。 尽管PASCAL部件数据集[9]提供了对象部件注释,但良好的自监督部件分割可以产生语义一致的部件段,这些部件段可能不对应于人工注释的部件段。因此,我们不使用部件级交集对并集(IoU)评估结果,因为它不是一个好的指示器。相反,我们通过聚合部件将结果评估为共分割分割并计算前景对象分割IoU。由于共同分割度量仅指示整体对象定位而不是部分分割一致性,因此该度量仅指示部分分割质量。我们在图7中显示了一些视觉结果,在表4中显示了定量评估。在IoU方面,SCOPS在有和没有CRF后处理的情况下都比DFF有相当大的优势[23]。视觉结果表明,SCOPS是强大的各种外观和姿态的关节。我们在补充材料中显示了额外的视觉结果5. 总结发言我们提出了SCOPS,一个自我监督的技术合作部分分割。给定对象类别的图像集合,SCOPS可以学习预测语义上一致的部分分割,而不使用任何地面实况标注。我们设计了几个约束,包括几何集中、等方差以及语义一致性,以训练深度神经网络来发现语义一致的零件段,同时确保适当的几何配置和交叉实例对应。不同类型的图像集的结果表明,SCOPS是强大的不同的对象外观,相机的观点,以及构成关节。定性和定量的结果表明,SCOPS优于现有的方法。我们希望所提出的方法可以作为一个通用的框架学习共部分分割。致 谢 。 W.- C. Hung 的 部 分 支 持 来 自 NSF CAREERGrant #1149783,来自Adobe,Verisk和NEC的礼物。范围DFF [10]ULD [50,42]图像范围图像类马牛羊Aero总线车电机DFF [10]49.5156.3951.0348.3858.6356.4854.80DFF+CRF [10]50.9657.6452.2950.8758.6457.5655.86范围55.7660.7956.9569.0273.8265.1858.53SCOPS+CRF57.9262.7058.1780.5475.3266.1459.15877引用[1] Pulkit Agrawal,Ross Girshick和Jitendra Malik。分析了多层神经网络用于目标识别的性能在ECCV。Springer,2014.[2] Hossein Azizpour和Ivan Laptev。使用强监督的可变形零件模型进行对象检测。在ECCV。Springer,2012.[3] David Bau,Bolei Zhou,Aditya Khosla,Aude Oliva,and Antonio Torralba.网络解剖:量化深层视觉表征的可解释性。在CVPR,2017年。[4] Lubomir Bourdev和Jitendra Malik Poselets:使用3d人体姿势注释训练的在ICCV。IEEE,2009年。[5] 史蒂夫·布兰森,皮埃特罗·佩罗纳,和塞尔日·贝隆吉。弱注释的强监督:可变形零件模型的交互式训练在ICCV。IEEE,2011年。[6] 希尔顿·布里斯托,杰克·瓦尔马德雷,还有西蒙·露西。密集语义对应,其中每个像素都是分类器。在ICCV,2015年。[7] Kai-Yueh Chang,Tyng-Luh Liu,and Shang-Hong Lai.从共显着性到共分割:一个有效的和完全不受监督的能量最小化模型。CVPR,2011。[8] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义InTPAMI,2017.[9] Xianjie Chen,Roozbeh Mottaghi,Xiaobao Liu,SanjaFidler,Raquel Urtasun,and Alan Yuille.检测您可以:使用整体模型和身体部位检测和表示对象。CVPR,2014。[10] EdoCollinsRadhakrishnaAchanta 和SabineSu? sstrunk 用于概念发现的深度特征分解。在ECCV,2018。[11] Mark Everingham,Luc J.放大图片作者:Christopher K.I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。pascal视觉对象类(voc)的挑战。IJCV,88(2):303-338,2010.[12] 佩德罗·费尔岑斯瓦,大卫·麦卡莱斯特,和德瓦·拉曼南。一个有区别的训练,多尺度,可变形零件模型。CVPR,2008。[13] 傅华珠,徐东,林瑞麟,刘江。互斥约束下基于对象的rgbd图像联合分割CVPR,2015。[14] AbelGonzalez-Garcia , DavideModolo 和 VittorioFerrari。卷积神经网络中会出现语义部分IJCV,2018年。[15] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和 JeanPonce。提案流程。在CVPR,2016年。[16] Kai Han,Rafael S Rezende,Bumsub Ham,Kwan-YeeK Wong,Minsu Cho,Cordelia Schmid,and Jean Ponce.学习语义对应。InICCV,2017.[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[18] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位。在CVPR,2018年。[19] 阿曼德·儒林,弗朗西斯·巴赫,让·庞塞。多类共分割。CVPR,2012。[20] 马丁·基费尔和彼得·文森特·盖勒。人体姿态估计与领域的部分。2014年,在ECCV[21] Jaechul Kim,Ce Liu,Fei Sha,and Kristen Grauman.可变形的空间金字塔匹配快速密集对应。CVPR,2013。[22] Martin Koestinger,Paul Wohlhart,Peter M Roth,andHorst Bischof.野生动物的面部标志:用于面部标志定位的大规模真实世界数据库。2011年,国际天主教志愿人员理事会讲习班[23] Phil i ppK raühenbuühlandVladlenKoltun. 具有高斯边势的 全 连 通 crfs 的 有 效 推 理 在 Advances in neuralinformation processing systems,第109[24] Jonathan Krause,Hailin Jin,Jianchao Yang,and Li Fei-Fei.无需零件注释的细粒度识别CVPR,2015。[25] Jonathan Krause,Michael Stark,Jia Deng,and Li Fei-Fei.用于细粒度分类的3d对象表示。IEEE InternationalConference on Computer Vision Workshops,2013。[26] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。[27] Daniel D Lee和H Sebastian Seung. 通过非负矩阵分解学习对象的部分。Nature,401(6755):788,1999.[28] Ce Liu,Jenny Yuen,and Antonio Torralba.筛流:场景间的密集对应及其应用。IEEE Transactions on PatternAnalysis and Machine Intelligence,2011。[29] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在ICCV,2015年。[30] Ignacio Rocco、Relja Arandjelovic和Josef Sivic。用于几何匹配的卷积神经网络结构在CVPR,第2卷,2017年。[31] Ignacio Rocco、Relja Arandjelovic和Josef Sivic。端到端弱监督语义对齐。在CVPR,2018年。[32] Michael Rubinstein , Armand Joulin , Johannes Kopf,and Ce Liu.互联网图像中的无监督联合目标发现与分割。CVPR,2013。[33] 何塞·C·卢比奥,琼·塞拉特,安东尼奥·洛佩斯和尼克·奥斯· 帕拉吉奥斯。通过区域匹配的无监督联合分割。CVPR,2012。[34] RamprasaathR Selvaraju , Michael Cogswell , AbhishekDas , Ramakrishna Vedantam , Devi Parikh , DhruvBatra,et al. Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。InICCV,2017.[35] Ali Sharif Razavian 、 Hossein Azizpour 、 JosephineSullivan和Stefan Carlsson。Cnn的特色现成的:一个惊人的识别基线。2014年CVPR研讨会[36] 乔纳森·谢尔哈默,埃文·朗和特雷弗·达雷尔。用于语义分段的全卷积网络。TPAMI,2016.[37] Zhixin Shu,Mihir Sahasrabudhe,Alp Guler,Dim
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功