没有合适的资源?快使用搜索试试~ 我知道了~
Φ 𝑥 , Φ(𝑥!) ≫ Φ 𝑥 , Φ(𝑧)CompressCompact RepresentationHypercolumnUpsampleΦ" 𝑥 , Φ#(𝑥!) ≫ Φ" 𝑥 , Φ#!(𝑥′)198970关于对象地标表示的等变和不变学习0Zezhou Cheng Jong-Chyi Su Subhransu MajiMassachusetts Amherst大学0{zezhoucheng, jcsu, smaji}@cs.umass.edu0摘要0给定一组图像,人类能够通过对实例之间的共享几何结构建模来发现地标。这种几何等变性的思想已经广泛用于无监督发现对象地标表示。在本文中,我们通过结合实例判别和空间判别对比学习的方法,开发了一种简单有效的方法。我们展示了当深度网络被训练为对几何和光度变换具有不变性时,其中间层产生的表示对对象地标具有很高的预测能力。在“超列”中堆叠这些表示,并使用空间对比学习进行投影进一步提高了它们在匹配和少样本地标回归任务上的性能。我们还通过对比学习的视角提出了现有等变和不变表示学习方法的统一视图,揭示了所学习的不变性的性质。在用于地标学习的标准基准测试以及我们提出的一个新的具有挑战性的测试中,实验证明了所提出的方法超过了先前的最先进方法。01. 引言0在没有标签的情况下进行学习对于现有的机器学习和计算机视觉系统来说是一个挑战。尽管最近取得了一些进展,但无监督学习的性能仍远远低于监督学习,特别是对于少样本图像理解任务。本文考虑从图像集合中无监督学习对象地标的任务。目标是学习可以用于建立对象之间对应关系并在提供少量标记示例时预测如眼睛和鼻子等地标的表示。一种推断结构的方法是根据几何和纹理等解缠结构的全局外观进行推理。这是基于对齐的[27, 37]和基于生成模型的方法的基础0代码和数据可在https://people.cs.umass.edu/~zezhoucheng/contrastive_landmark/获取0(b)不变性学习0Φ(�′)0�0Φ(�)0Φ(�)0�0� �!= ��0(a)等变学习0�!= ��0(c)地标预测和匹配0预测 匹配 输入0Φ"(�)0Φ # ! (�′)0Φ#(�′)0�0� = ��0�′0图1.等变和不变学习。(a)等变学习要求表示在位置上对几何变换g具有不变性,同时在位置上具有区别性。(b)不变学习鼓励表示对变换具有不变性,同时在图像间具有区别性。因此,两者都可以看作是对比学习的实例。(c)超列特征及其紧凑表示对对象地标具有很高的预测能力。0用于地标发现的[28, 29, 47, 57, 61,65]。另一种方法是学习一个与对象相同方式几何变换的表示,这被称为几何等变性(图1a)[49-51]。然而,有用的不变性可能无法学习(例如,原始像素表示本身是等变的),限制了它们在存在杂乱、遮挡和图像间变化时的适用性。另一种方法提出了实例判别对比学习作为无监督的目标[3, 5,13, 21, 23, 25, 26, 40, 52, 58,69]。目标是学习一个表示Φ,使得图像x与其变换x'之间的相似性高于与另一个图像z的相似性,即�Φ(x), Φ(x')� � �Φ(x),Φ(z)�,如图1b所示。几何(例如裁剪和缩放)和光度(例如颜色抖动和模糊)的组合298980为了鼓励表示对这些变换具有不变性,并在图像之间具有差异性,使用变换来使表示对这些变换具有不变性。最近的研究[5-7,23]表明,对比学习是有效的,甚至在各种任务上超过了ImageNet[12]的预训练。然而,要预测地标,表示不能对几何变换具有不变性。本文提出了一个问题:无监督地标发现是否需要等变损失?特别是,当深度网络被训练成对图像变换具有不变性时,是否会自动出现对物体地标的预测性表示?尽管经验证据表明,当深度网络在监督任务上进行训练时,语义部分会出现[18,68],但无监督学习是否也是如此?本文旨在通过提出等变和不变学习方法的统一视角来解决这些问题。我们展示了当深度网络被训练成对几何和光度变换具有不变性时,其中间层表示对地标具有很高的预测性(图1b)。不变性的出现和几何等变性的丧失在表示层次结构中是逐渐发生的,这是一个已经被实证研究[31, 63]和理论研究[1, 53,54]的现象。这一观察结果激发了超列(hypercolumn)表示[22],我们发现它对地标预测更有效(图1c)。我们还观察到,等变学习中使用的目标可以被看作是同一图像内不同位置之间表示的对比损失,而不变学习中的损失是应用在图像之间的(图1)。这一观察结果揭示了两种方法学习到的不变性的性质。它还允许我们通过在空间对比目标下学习线性投影来获得高维超列的紧凑表示。投影结果产生了具有空间差异性的表示,并显著提高了地标匹配性能(表1和图2)。为了验证这些观点,我们在几个地标匹配和检测基准上使用动量对比(MoCo)[23]训练深度网络。除了常用的基准数据集外,我们还在来自iNaturalist数据集[55]的鸟类数据集上进行了学习,并在CUB数据集[56]上进行了评估。我们展示了对比学习的表示(无监督回归)在地标匹配实验中具有预测性。对于地标检测,我们通过改变标记示例的数量来适应常用的线性评估设置(图3和4)。我们的方法简单,但在先前的方法[28, 49-51,65]上始终提供了改进(表2)。虽然超列表示导致了更大的嵌入维度,但代价适度,因为我们的方法在AFLW基准[30]上使用仅有50个标记训练示例时超过了先前的最先进方法[49](图4)。0此外,我们使用基于等变学习的降维来提高地标匹配的性能(表1),以及在低数据范围内的地标预测(表4)。02. 相关工作0背景。表示Φ:X→RC被称为与变换g对输入x∈X等变(或协变)的表示,如果存在一个映射Mg:RC→RC,使得�x∈X:Φ(gx)≈MgΦ(x)。换句话说,表示在给定输入变换的情况下以可预测的方式进行变换。对于自然图像,变换可以是几何变换(例如平移、缩放和旋转)、光度变换(例如颜色变化)或更复杂的变换(例如遮挡、视角或实例变化)。注意,等变性的充分条件是Φ是可逆的,因为Mg=Φ^(-1)◦g。不变性是等变性的一种特殊情况,当Mg是恒等函数时,即φ(gx)≈φ(x)。在计算机视觉领域,关于协变(例如SIFT[35])和不变(例如HOG[11]和视觉词袋[48])表示的设计有着丰富的历史。深度表示。深度网络表示中的不变性和等变性来自于架构(例如,卷积导致平移等变性,而池化导致平移不变性)和学习(例如,对分类变化的不变性)。Lenc等人[31]表明,深度网络的早期层表示几乎是等变的,因为它们可以被“反转”以恢复输入,而后期层更具不变性。通过可视化这些表示[36,63]也得出了类似的观察结果。不变性的逐渐出现也可以从前馈层次结构中的“信息瓶颈”角度进行理论上的理解[1,53,54]。虽然对几何变换的等变性对于地标表示是相关的,但这个概念可以推广到其他变换群[9,16]。地标发现。经验证据[41,68]表明,当深度网络在监督任务上进行训练时,语义部分会出现。这激发了鼓励基于部分推理的图像分类架构的设计,例如基于纹理表示[2, 8, 32]或空间注意力[15, 46,60]的架构。相反,我们的工作表明,当模型以无监督的方式进行训练时,部分也会出现。当没有标签可用时,对几何变换的等变性提供了一种自我监督信号。等变性约束要求Φu(x),即位置u处x的表示,对图像的几何变换g是不变的,即�x,u:Φgu(gx)=Φu(x)(图1a)。但仅有这一点是不足够的,因为Φu(x)=xu和Φu(x)=常数都满足这个性质。已经提出了基于局部性[49,50]和多样性[51]的约束来避免这种病态情况。然而,图像间的不变性并没有直接强制执行。Equivariant learning. The equivariance constraint requiresΦu(x), the representation of x at location u, to be invari-ant to the geometric deformation of the image (Fig. 1a).Given a geometric warping function g : Ω → Ω, the repre-sentation of x at u should be same as the representationof the transformed image x′ = gx at v = gu, that is,∀x, u ∈ Ω : Φv(x′) = Φu(x). This constraint can becaptured by the loss:Lequi = 1|Ω|�u∈Ω∥Φu(x) − Φv(x′)∥2.(1)Ldiv = 1|Ω|�u∈Ω∥gu − argmaxv⟨Φu(x), Φv(x′)⟩∥2,(2)L′equi =1|Ω|2�u∈Ω�v∈Ω∥gu − v∥ p(v|u; Φ, x, x′).(3)p(v|u; Φ, x, x′) =exp(⟨Φu(x), Φv(x′)⟩/τ)t∈Ω exp(⟨Φu(x), Φt(x′)⟩/τ).(4)Linv = − logexp (⟨Φ(x), Φ(x′)⟩)Ni=1 exp(⟨Φ(x), Φ(zi)⟩).(5)398990另一种方法基于生成建模方法[ 4 , 28 , 29 , 34 , 45 , 47 ,57 , 61 , 65]。这些方法通过以一种分离的方式对对象进行建模,将对象建模为形状模板的变形(或流动)以及外观变化。相比之下,我们的工作表明,学习对几何和光度变换都不变的表示是一种有效的策略。这些不变性以不同的速率出现在表示层次结构中,并且可以通过少量的监督来选择下游任务。无监督学习。最近的研究表明,基于密度建模的无监督目标[ 3 , 5 –7 , 13 , 23 , 26 , 40 , 52 , 58 ]优于基于预训练任务(如上色[64 ],旋转预测[ 17 ],拼图[ 38 ]和修复[ 42])的无监督(或自监督)学习。这些对比学习目标[ 21]通常是通过几何和光度变换图像获得的不同视图之间的噪声对比估计(NCE)[ 20 ](或最大化互信息[ 26 , 40])来表示的。因此,学习到的表示在保留与下游任务相关的信息的同时,对这些变换具有不变性。然而,无监督学习的有效性取决于这些不变性与最终任务所需的不变性之间的关系。尽管最近取得了一些进展,但与有监督的对应物相比,现有的无监督学习方法在少样本设置中明显不足[ 19]。此外,它们在地标发现方面的有效性在文献中尚未得到充分研究。首先,目前尚不清楚为什么对几何变换的不变性对于地标预测可能是有用的,因为我们要求表示携带有关图像的一些空间信息。理解这些权衡并提高对地标预测的对比学习的有效性是本文的目标之一。03. 方法0设 x ∈ R H × W × 3 表示一个对象的图像,u ∈ Ω = { 0 , . . . , H − 1 } × { 0 , . . . , W − 1 } 表示像素坐标。目标是学习一个函数 Φu ( x ) : Ω → R C ,该函数在输入 x 的空间位置 u处输出一个预测对象地标的像素表示。我们假设 C � 3,旨在学习地标的高维表示。这类似于[ 49],该方法为每个地标学习一个局部描述符,而不像其他方法将地标表示为离散集合[ 67 ],或者在平面( C = 2 )[ 51 , 65 ]或球面( C =3 )[ 50]坐标系上表示。换句话说,表示应该对地标具有预测性或匹配性,而不需要在嵌入空间中具有紧凑性或拓扑性。请注意,这与某些文献中固定地标集合的工作(例如[ 28 , 51 , 65])不同。例如,可以通过在嵌入空间中对地标表示进行聚类来获得这种表示。我们首先描述了用于无监督地标发现的常用等变性约束[ 49 –51 ],然后介绍了基于不变性学习的模型[ 23 , 40]。然后,我们提出了将等变性和不变性学习方法整合在一起的方法。01 注意MoCo [ 23]在姿势估计上进行了评估,然而,他们的方法是使用150K个标记示例进行训练的,并且整个网络都进行了微调。0等变学习。等变性约束要求 x 在位置 u 处的表示 Φ u ( x) 对于图像的几何变形是不变的(图1a)。给定一个几何变形函数 g : Ω → Ω ,在位置 u处的图像 x 的表示应该与变换后的图像 x ′ = g x 在位置v = gu 处的表示相同,即,对于所有的 x , u ∈ Ω : Φv ( x ′ ) = Φ u ( x )。这个约束可以通过以下损失函数来捕捉:03.1. 等变和不变表示0多样性(或局部性)约束是必要的,以鼓励表示在不同位置具有差异性。例如,Thewlis等人[50]提出了以下约束:0他们将其替换为概率版本,将两个损失结合起来,如下所示:0其中p ( v | u ; Φ , x , x ′)是像素u在图像x中与图像x'中的v匹配的概率,Φ是由x和x'共享的编码器,计算如下,τ∈R+是一个尺度参数:0不变性学习。对比学习基于输入对之间的相似性(图1b)。给定图像x及其变换x'以及其他图像zi,i∈{1,2...N},InfoNCE[40]损失函数最小化如下:0该目标鼓励表示对变换具有不变性,同时在图像之间具有差异性。为了解决评估分母的计算瓶颈,动量对比(MoCo)[23]计算如下:∀u, v ∈ Ω : u ̸= v ⇔ Φ′u(x) ̸= Φ′v(x),(6)499000使用字典队列计算负样本的损失,并根据动量更新参数。变换。用于生成图像对(x,x')的变换空间在学习中起着重要作用。常见的方法是应用一系列几何变换,如裁剪、调整大小和薄板样条变形,以及光度变换,如颜色抖动和添加JPEG噪声。变换还可以表示图像的通道或深度和颜色等模态[52]。超列。一个具有n层(或块2)的深度网络可以写成Φ( x ) = Φ ( n ) ◦ Φ ( n − 1) ◦ ∙ ∙ ∙ ◦ Φ (1) ( x ) 。大小为H' × W' × C的表示Φ( x)可以在输入大小H × W ×C上进行空间插值,以产生像素表示Φ u ( x ) ∈ R C。从相应的层中提取的超列特征的表示Φ u ( x)由插值特征连接而成,即Φ u ( x ) = Φ ( k 1 ) u ( x ) ⊕ Φ( k 2 ) u ( x ) ⊕ ∙ ∙ ∙ ⊕ Φ ( k n ) u ( x ) 。03.2. 方法0在给定大规模无标签数据集的情况下,我们首先使用MoCo[23]的实例判别对比学习框架来训练表示。然后,应用几何和光度变换生成图像对(x,x')。然后,从训练好的网络中提取单层或超列表示来表示地标(图1c)。随后,我们通过训练一个线性投影器来降低维度并引入空间多样性,该投影器作用于冻结的地标表示。设w∈R C ×d,其中d�C,用于将地标表示投影为Φ ′ u ( x ) = w T Φ u (x)。目标是使投影的嵌入在同一图像中具有空间上的差异性,即0通过优化方程3中的目标函数得到,其中x' =x。讨论。请注意,由于线性投影是位置相关的,因此保留了空间等变性,但提高了图像内部对比度。对于地标回归,投影嵌入与超列表示一样有效,但对于地标匹配来说更好(表1)。这是因为超列特征包含了关于地标的足够信息,但投影步骤使它们在空间上具有差异性,更适合匹配。Novotny等人[39]提出了一种类似的方法,从预训练的带有类标签的网络中提取紧凑的表示,用于跨实例语义匹配。相比之下,我们只使用无监督表示。空间对比学习的思想也被证明对于学习场景级表示是有效的[43]。02 由于跳跃连接的存在,我们无法将编码分解到各层中,但可以在各个块之间进行分解。04. 实验0首先我们概述了所提出方法的数据集和实现细节(§4.1)。然后我们在地标匹配(§ 4.2)和地标检测基准(§4.3)上定性和定量地评估了我们的模型并与现有方法进行了比较。最后我们进行了消融研究和讨论(§ 4.4)。04.1. 基准和实现细节0人脸。我们首先在现有的人脸地标检测基准上与之前的方法进行比较。与DVE[49]一样,我们在对齐的CelebA数据集[33]上训练我们的模型,并在MAFL [67]、AFLW [30]和300W[44]上进行评估。与MAFL有重叠的图像被从CelebA中排除。MAFL包含19,000张训练图像和1000张带有5个人脸地标注释的测试图像。我们使用了两个版本的AFLW数据集:AFLWM包含10,122张训练图像和2995张测试图像,这些图像是从MTFL [66]中裁剪出来的;AFLWR包含更紧凑的人脸图像裁剪,其中有10,122张用于训练和2991张用于测试。300W提供了3148张带有68个标注人脸地标的训练图像和689张测试图像。我们使用与DVE相同的图像预处理步骤进行直接比较,DVE是当前最先进的方法。我们还在未对齐的原始CelebA数据集上训练我们的模型,以评估在野外未标记图像上的表示学习效果。鸟类。我们收集了一组具有挑战性的鸟类数据集,其中物体出现在杂乱的背景中,存在遮挡,并且姿态变化较大。我们从iNaturalist2017数据集[55]的“Aves”类中随机选择了10万张鸟类图像来训练无监督的表示学习模型。对于少样本情况下的性能评估,我们从CUB数据集[56]中选择了35个Passeroidea3超科的鸟类物种,每个物种都有15个地标注释。我们每个类别最多采样60张图像,结果是我们的训练集有1241张图像,验证集有382张图像,测试集有383张图像(详见附录)。评估。我们使用地标匹配和地标检测作为评估的最终任务。在地标匹配中,我们按照DVE[49]的方法,从MAFL测试集中生成了1000对图像作为基准,其中500对是通过使用薄板样条(TPS)变形将图像进行配准得到的相同身份的图像对,其余的是不同身份的图像对。每对图像由一个带有地标注释的参考图像和一个目标图像组成。我们使用余弦距离和像素表示之间的最近邻匹配来进行地标匹配,并报告预测地标与真实地标之间的平均像素误差。在地标回归任务中,我们按照[49,50]的方法进行评估。03 这是iNaturalist中最大的Aves分类。599010参考03840维0256维0图2.使用3840维超列特征和从超列投影得到的256维特征进行地标匹配的可视化。使用超列的失败案例包括(左)两只眼睛不匹配,(中)对大视角不具有鲁棒性,或者(右)在不同身份之间出现外观变化。所提出的特征投影方法缓解了这些问题。0方法 维度 对齐 野外 相同 不同 相同 不同0DVE 64 0.92 2.38 1.27 3.52 我们的方法 3840 0.736.16 0.78 5.58 我们的方法 + proj. 256 0.71 2.060.96 3.03 我们的方法 + proj. 128 0.82 2.19 0.983.05 我们的方法 + proj. 64 0.92 2.62 0.99 3.060表1.地标匹配结果。我们报告了在MAFL数据集的1000对图像中,预测地标与真实地标之间的平均像素误差(数值越低越好)。测试集包括500对相同身份和500对不同身份的图像对。我们将DVE[49]与Hourglass网络以及我们的模型与从对齐或野外CelebA数据集训练的ResNet50模型进行比较。我们还评估了特征投影(+proj.)在不同输出维度下的效果。我们的结果优于DVE[49]的结果用粗体标记。0在保持表示冻结的同时,训练线性回归器将表示映射到地标注释。地标回归器是每个目标地标的线性回归器。每个回归器由一个C维表示的顶部的K个1×1×C的过滤器组成,用于生成K个中间热图,然后通过软最大值操作将其转换为空间坐标。这K个坐标最终通过线性层转换为目标地标(详见附录)。我们使用K = 50以保持与之前的工作[ 49 , 50]的一致性,但我们发现这个超参数并不关键(详见第4.4节)。我们报告人脸基准测试中的眼间距百分比误差和CUB上的正确关键点百分比(PCK)。根据PCK指标,如果预测与真实值的距离在图像较长边的5%范围内,则认为预测是正确的。在评估过程中,忽略遮挡的地标。我们发现微调并不总是有益的,但在附录中包含了一个比较。实现细节。我们使用MoCo [ 23 ]在CelebA或iNatAves上训练我们的模型,训练800个epoch,批量大小为256,字典大小为4096。我们使用ResNet18或ResNet50 [ 24]作为我们的主干。我们通过将来自所选卷积块的激活堆叠在一起,对每个像素提取超列特征[ 22 ](详见附录)。0从第二个卷积块(conv2_x)到最后一个卷积块(conv5_x)选择特征图。我们将所选卷积块的特征图调整为与DVE [49]相同的空间大小(即48×48)。我们还遵循DVE(使用Hourglass网络)将输入图像调整为136×136,然后对CelebA数据集的人脸图像进行中心裁剪,裁剪后的图像大小为96×96。在鸟类数据集上,图像被调整为96×96而没有进行任何裁剪。我们在CUB数据集上使用DVE的公开实现与其进行比较。更多细节请参见附录。04.2. 地标匹配0定量结果。表1定量比较了提出的方法与DVE [ 49]。我们在CelebA数据集的对齐和野外未对齐版本上训练DVE和我们的模型,并报告了在MAFL上对齐人脸图像的平均像素误差。我们的超列特征在同一身份匹配中具有很高的性能,但对跨身份变化不稳定。然而,所提出的特征投影使得超列特征更适合于地标匹配。我们尝试了投影后不同的特征维度,并发现我们的方法在128维或更高维度的特征上达到了最先进的水平。当表示是在对齐的CelebA数据集上学习时,DVE在64维特征上的性能优于我们的方法。这是因为Hourglass网络的架构和主干和特征提取器的联合训练使得DVE能够学习到比我们的方法更紧凑的表示。然而,要将特征维度从64提升到256,DVE需要重新训练整个模型,而我们只需要重新训练一个线性特征投影器。此外,当表示是从野外CelebA数据集中学习时,我们的模型大大优于DVE。这表明我们的表示对于干扰因素更具不变性。我们还观察到,我们的方法使用较小的网络(例如ResNet18)和128维投影特征优于DVE,而DVE和我们的方法都优于ImageNet预训练网络的表示(更多细节请参见附录)。定性结果。图2展示了地标匹配的定性结果。我们的方法使用超列特征进行地标匹配。×RAR [59]–×–7.23–4.94–MTCNN [66]–×5.396.90–––Wing Loss [14]––––4.04–MAFLAFLWDVE300W699020方法 # 参数 无监督 MAFL AFLW M AFLW R 300W CUB 百万 眼间距离(%) ↓ PCK(%) ↑0基于生成模型的结构表示 [ 65 ] – � 3.15 – 6.58 – – FAb-Net [ 57 ] – � 3.44 – – 5.71 – 变形AE [47 ] – � 5.45 – – – – ImGen. [ 28 ] – � 2.54 – 6.31 – – ImGen.++ [ 29 ] – � – – – 5.12 –0基于等变性的稀疏[51] – � 6.67 10.53 – 7.97 – 基于密集3D[50] – � 4.02 10.99 10.14 8.23 – DVESmallNet[49] 0.35 � 3.42 8.60 7.79 5.75 – DVE Hourglass[49] 12.61 � 2.86 7.53 6.54 4.6561.910基于不变性的我们的(ResNet18) 11.24 � 2.57 8.59 7.38 5.78 62.24 我们的(ResNet18 + proj.)11.24 � 2.71 7.23 6.30 5.20 58.49 我们的(ResNet50) 23.77 � 2.44 6.99 6.27 5.22 68.63我们的(ResNet50 + proj.) 23.77 � 2.64 7.17 6.14 4.99 62.550表2. 关键点检测结果。对包括MAFL、AFLW M、AFLWR、300W和CUB数据集在内的人脸基准进行比较。我们报告了人脸数据集上的眼间距误差的百分比(越低越好),以及CUB数据集上的正确关键点百分比(PCK)(越高越好)。我们将超列(即+proj.)在人脸上投影为256维特征,在鸟类数据集上投影为512维特征,并在附录中提供其他维度的结果。我们的结果优于DVE的[49],用粗体标记。0匹配对视角和外观变化不稳健,并经常将左右眼匹配错误。引入所提出的特征投影有效地增加了多样性并解决了这些问题。04.3. 关键点检测0定量结果。表2呈现了多个基准的定量评估结果。在人脸上,我们的ResNet50模型在除了300W之外的所有基准上都达到了最先进的结果。在iNat Aves →CUB上,我们的方法在很大程度上优于之前的最先进方法[49],表明对干扰因素具有改进的不变性。引入特征投影在某些情况下会导致性能下降,但仍然是最先进的。我们的ResNet18模型与DVE相当,并从使用更深的网络中受益。我们在附录中展示了不同配置下的更多关键点检测结果。定性结果。图3展示了在人脸和鸟类上的关键点回归的定性结果。我们注意到,DVE和我们的模型都能够准确地定位前景对象。然而,我们的模型在许多关键点上定位更好(例如,鸟类的尾巴),并且对背景杂乱(例如,图3b的最后一列)更具鲁棒性。0真值0我们0(a) 人脸 (b) 鸟类 图3. 检测到的关键点 (a) 在人脸上 (蓝色: 预测,绿色: 真值) 和 (b)在CUB上。请注意,我们的方法更好地定位了鸟类的尾巴(圈出)。放大以查看细节。0有限的注释。图4a和4b分别比较了我们的模型与DVE[49]在AFLWM和CUB数据集上使用有限数量的注释的情况。在没有特征投影的情况下,我们的性能在有少量训练样本可用时就更好(例如,在AFLWM上为50,在CUB上为250)。这可以归因于超列表示的更高维嵌入。该方案可以通过使用单层表示来改进,如黄线所示。我们的特征投影在低数据情况下进一步提高了性能,如黑线所示。有趣的是,这种改进不仅仅是由于维度降低:增加投影维度101231041015202530Ours-ResNet50-hypercolOurs-ResNet50-conv4Ours-ResNet50-proj.DVE-HourglassRandom-SmallNet2501250204060Ours-ResNet50-hypercolOurs-ResNet50-proj-256dOurs-ResNet50-proj-1280dDVE-HouglassRandom-ResNet181007.07.58.08.59.0Ours-ResNet50-hypercolDVE-Hourglass799030注释数量0误差(%)0注释数量0PCK(%)0未标记数据的百分比(%)0误差(%)0(a) 在AFLW M上有限注释 (b) 在CUB上有限注释 (c) 未标记的CelebA图像 图4. 数据集大小的影响。(a) 在AFLWM数据集上的关键点回归中,我们的模型与DVE[49]的比较,通过改变注释数量。Random-SmallNet†:是从[49]中随机初始化的“小网络”。Ours-ResNet50: 基于超列或其紧凑表示,或使用对比学习训练的第四层特征。 (b)在CUB数据集上的类似结果。Random-ResNet18: 在CUB数据集上从头开始训练。 (c) 在AFLWM上使用不同数量的CelebA未标记图像进行训练的关键点回归结果。0将特征从256提高到1280可以提高在CUB上不同数据集大小上的性能(见图4b)。请注意,所有的无监督学习模型(包括DVE和我们的模型)在人脸和鸟类数据集上都优于随机初始化的基线。与图4相对应的数字在附录中。0有限的无标签数据。图4c显示,我们的模型使用超列表示在CelebA数据集上仅使用40%的图像与DVE在AFLWM上的性能相匹配。这表明我们的框架更有效地获取了不变性。04.4. 消融研究和讨论0超列。表3比较了使用单独的层和超列表示的性能。第四个卷积块的激活始终优于其他层的激活。对于96×96的输入,表示的空间维度在第1层是48×48,在第5层是3×3,每个后续层都减少一半。因此,虽然表示在深度上失去了几何等变性,但对比学习鼓励不变性,导致第4层在这个任务上具有最佳的权衡。虽然可以使用一些标记的验证数据选择最佳层,但超列表示在除了非常小的数据范围之外的所有地方都提供了进一步的好处(表3和图4a)。0维度和线性回归器。在表4中,我们减小了地标回归器的大小,以评估其对地标回归性能的影响。我们选择了50个中间地标,以保持评估与DVE一致。然而,这个选择并不关键,因为较小的线性回归器的性能也很好。虽然性能有所下降,但仍然与DVE相当。提出的具有等变学习的特征投影比非负矩阵分解(NMF)更有效,后者是一种经典的维度降低方法。0方法 C K #P MAFL AFLW M AFLW R 300W0DVE 64 50 17 2.86 7.53 6.54 4.650Ours 3840 50 961 2.44 6.99 6.27 5.22 Ours 3840 10192 2.40 7.27 6.30 5.40 Ours+proj. 256 50 65 2.647.17 6.14 4.99 Ours+proj. 256 10 13 2.67 7.24 6.235.07 Ours+proj. 64 50 17 2.77 7.21 6.22 5.19Ours+NMF 64 50 17 2.80 7.60 6.69 5.620表4.地标回归器对地标回归的影响。我们通过改变中间地标的数量(K)和特征维度(C)来改变地标回归器中参数的数量(#P,以千为单位)。我们将提出的特征投影(即+proj.)与非负矩阵分解(NMF)进行维度降低的比较。我们的结果优于DVE [49],用粗体标记。0无监督学习的有效性。表5比较了使用线性评估设置的表示,包括随机初始化、ImageNet预训练和对比学习网络使用超列表示。对比学习相对于ImageNet预训练模型提供了显著的改进,这并不令人意外,因为ImageNet图像的领域与人脸非常不同。有趣的是,随机网络在表2中相对于一些先前的工作具有竞争性的性能。例如,[50]在MAFL上达到4.02%,而一个随机初始化的带有超列的ResNet18达到4.00%。学到的表示是否有语义上的意义?我们发现可以使用非负矩阵分解(NMF)可靠地从学到的表示中提取部分(参见[10]中使用NMF可视化深度网络激活的另一个应用)。图5显示了两个这样的组件和几个组件的“地图”,这些组件指示了部分(左侧)并且对图像变换具有鲁棒性(右侧)。此外,图2显示了使用最近邻匹配获得的对应关系在语义上是有意义的。此外,我们的方法可以自然地扩展到图像的前景-背景分割任务。#1#2#3#4#5#4 - #5#3 - #5#2 - #5#1 - #5(64)(256)(512)(1024)(2048)(3072)(3584)(3840)(3904)MAFL5.774.583.032.733.662.732.652.442.51AFLWM24.2021.3411.958.8311.558.148.316.997.40AFLWR16.2714.159.667.378.836.956.246.276.34300W16.4513.087.666.017.705.685.285.225.21899040数据集0单层超列0表3.使用单层和超列表示进行地标检测。使用线性回归计算每个层(左侧)和组合(右侧)的百分比间眼距误差,使用ResNet50。括号中显示了每个的嵌入维度。在所有数据集上,第4层的性能最好,而超列提供了改进。0网络监督 MAFL AFLW M AFLW R 300W0Res. 18 随机 4.00 14.20 10.11 9.88 ImageNet 2.858.76 7.03 6.66 对比 2.57 8.59 7.38 5.780Res. 50 随机 4.72 16.74 11.23 11.70 ImageNet 2.988.88 7.34 6.88 对比 2.44 6.99 6.27 5.220表5.无监督学习的有效性。使用随机初始化、ImageNet预训练和对比训练的ResNet50进行地标检测时的误差。对于所有方法,使用冻结的超列表示和线性回归。特征投影的结果包含在附录中。0第一部分0第二部分0地图0图5.语义部分提取。使用NMF从我们的表示中提取的对象部分在不同实例之间是语义上有意义且一致的(左侧)。这些部分对几何变换也具有鲁棒性(右侧)。0在附录中,我们展示了所提出的模型在少样本设置中(例如,仅给出10个带标注的图像)优于ImageNet预训练模型。共性和差异。等变性对于有效的地标表示是必要的但不足够的。它还需要具有区分性或对无关因素具有不变性。这在等变性目标(方程3)中通过同一图像内位置之间的对比项来实现,因为当v = gu时,损失函数在p(v | u; Φ, x,x')处最小化时被最大化。这鼓励了图像内的不变性,与对比学习的目标(方程5)鼓励图像间的不变性不同。然而,单个图像可能包含足够的变化以保证一定的不变性。这得到了实证性能的支持,并且最近的研究表明,即使只有一张图像,也可以进行表示学习[62]。然而,我们的实验表明,在具有更多杂乱、遮挡和姿态变化的数据集上,图像间的不变性可能更有效。0一种方法是否比另一种方法更有优势?我们的实验表明,对于相同大小的深度网络,不变性表示学习可以同样有效(表2)。然而,不变性学习在概念上更简单且比等变性方法更具可扩展性,因为后者在整个层次结构中保持高分辨率的特征图。使用更深的网络(例如,ResNet50 vs.ResNet18)可以持续改进,在四个数据集上优于DVE[49],如表2所示。我们方法的一个缺点是超列表示不直接可解释或紧凑,这导致在极少样本情况下性能较低。然而,如图4a所示,仅使用50个训练样本在AFLW基准测试上就可以消除这种优势。通过使用等变学习学习紧凑的表示,可以有效减轻这个问题,进一步将所需的训练样本数量减少到20个。不变性学习也更具数据效率,可以使用一半的无标签样本达到相同的性能,如图4c所示。05. 结论0我们展示了使用基于实例区分对比学习训练的深度网络的中间层表示优于仅基于无监督等变学习的地标表示学习方法。我们还展示了等变学习方法可以通过(空间)对比学习的视角来看待,从而导致在地标识别任务中比图像间不变性具有较弱的泛化能力。然而,这两种形式的对比学习是互补的,我们使用后者来学习更适合地标匹配任务的紧凑表示。我们在现有基准测试和一个新的具有更大姿态和视角变化的具有挑战性的基准测试上展示了我们方法的结果更加显著。致谢。我们要感谢Erik Learned-Miller、Daniel Sheldon、RuiWang、Huaizu Jiang、Gopal Sharma和ZitianChen的讨论和反馈。该项目得到了NSF资助的#1661259和#1749833。我们的实验是在由Mass. Tech.Collab.资助的UMass GPU集群上进行的。[20] Michael Gutmann and Aapo Hyvärinen. Noise-contrastiveestimation: A new estimation principle for unnormalizedstatistical models. In AISTATS, 2010. 3[22] Bha
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功