描述符向量交换的无监督学习方法及其在面部类别学习中的应用

198 浏览量更新于2023-10-12 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于描述向量交换詹姆斯·休利斯单一james@unitary.ai塞缪尔·阿尔巴尼牛津大学VGGalbanie@robots.ox.ac.uk哈坎·比伦爱丁堡大学hbilen@ed.ac.ukAndrea Vedaldi牛津大学VGGvedaldi@robots.ox.ac.uk图1：我们提出了描述符向量交换（DVE），这是一种能够无监督学习具有等方差损失的鲁棒高维密集嵌入的机制。在上图中，在查询图像[8]的帮助下，为人脸类别学习的嵌入是可视化的，如图的中心所示。（左）：我们对构成查询参考点最近邻居的像素嵌入位置进行着色。（右）：相同的参考点用于在面部图像集合中检索补丁其结果是一个近似的面部马赛克，匹配不同身份的部分，尽管在学习过程中没有使用任何类型的地标注释。摘要随机图像变换的等方差是一种有效的方法来学习对象类别的标志，如眼睛和鼻子在脸上，没有人工监督。然而，该方法并不明确地保证所学习的地标与相同对象的不同实例之间的变化（诸如不同的面部身份）一致。在本文中，我们开发了一个新的视角上的等方差的方法，注意到密集的地标检测器可以被解释为本地图像描述符配备了不变性的类别内的变化。然后，我们提出了一个直接的方法来执行这样的标准等变损失的不变性。我们这样做，交换描述符向量之间的图像不同的对象实例之前，匹配它们的几何。以这种方式，相同的向量必须工作，而不管所考虑的特定对象标识。我们使用这种方法来学习向量，可以同时被解释为本地描述符和密集的地标，结合先进的，*同等贡献。詹姆斯是与VGG在这项工作的一部分两个阶段。在标准基准上的实验表明，这种方法可以匹配，在某些情况下，超过了现有的方法，学习地标没有监督的最先进的性能代码可在www.robots.ox.ac.uk/上获得。1. 介绍在没有人工监督的情况下学习仍然是机器学习和计算机视觉中的一个开放问题。即使是自我监督[15，17]的最新进展也往往局限于学习通用特征提取器，并且仍然需要一些手动注释的数据来解决具体任务，例如地标检测。因此，在本文中，我们考虑的问题，学习的地标的对象类别，如眼睛和鼻子的脸，没有任何手动的一个符号。也就是说，给定某个对象的图像集合（例如面部图像）作为输入，目标是学习存在什么地标以及如何检测它们。在没有手动注释的情况下，需要替代的超声波信号。最近，[46]提出要在63616362建立在界标检测器与图像变换等变的例如，如果一个人平移或旋转一张脸，那么眼睛和鼻子的位置也会随之变化。通过将随机合成扭曲应用于对象的图像，然后要求地标检测器与这些变换一致，可以将等方差用作学习信号。这种方法的主要缺点是，只能对特定图像的变换施加等方差这意味着地标检测器可以与应用于特定面部的变换完全一致，并且仍然匹配一个人的眼睛和另一个人的鼻子在这种方法中，实现跨对象实例的一致性留给底层学习算法的泛化能力。在本文中，我们提供了一个新的角度对问题的学习地标，推广以前的工作和广告- dressing其缺点。我们首先在两个明显不同的概念之间建立联系：地标和局部图像描述符（图11）。2）的情况。回想一下，描述符（如SIFT）是描述给定点周围图像外观的向量。描述符可以建立图像之间的对应关系，因为它们对诸如视点变化的观看效果是不变的然而，与描述符类似，地标也可以通过匹配在不同图像中检测到的诸如眼睛或鼻子的概念来建立图像对应。因此，不变描述符和地标检测器是相似的，但是地标除了观看效果之外对于类内变化是不变的。如果我们考虑密集的描述符和地标，我们可以使这个类比精确.密集描述符将C维向量与每个图像像素相关联，而密集界标检测器将2D向量与每个像素相关联，2D向量是对象表面的（u，v）参数化中的界标的索引因此，我们可以将地标解释为微小的2D描述符。由于它的小维度，地标失去了编码特定于实例的外观细节的能力，但获得了对类内变化的鲁棒性。概括这个想法，我们注意到，任何不变的描述符可以变成一个地标检测器，通过装备它与类内变化的鲁棒性。在这里，我们提出了一种新的方法，可以做到这一点，而不减少维的描述符向量。该公式仍然像[45]那样考虑合成变换图像对，但这次界标由任意C维向量表示。然后，在几何一致性（等方差）被强制执行之前，从一个图像中提取的界标向量与来自对象的其他随机图像的类似向量交换。这样，只有当向量具有类内有效性时，才能实现图像及其变换之间的几何一致性，从而有效地识别地标。C不变描述符向量密集标志点矢量图2：描述符-地标层次结构。局部不变描述符将图像像素映射到对诸如视点的观看条件不变的独特向量。密集地标检测器将像素映射到对象表面的独特点两者都产生不变和区别向量，但地标也是不变的类内变化。两者合计，它们代表了一个层次的distinctive像素嵌入的增加不变性。在经验上（第4节），我们证明了这种公式的关键优势，我们称之为描述符向量交换（DVE），是它产生的嵌入向量，可以很好地模拟特定于实例的图像描述符和地标，在一个单一的表示中捕捉两者的优点，并验证我们的直觉。2. 相关工作一般图像匹配。基于局部特征的图像匹配是文献中广泛研究的问题，应用于宽基线立体匹配[38]和图像检索[48]。通用管道包含以下步骤：i）检测与一类变换协变的兴趣点[ 28 ]的稀疏集合，ii）提取局部描述符（例如，[27，47]）在这些点上，这些点对于视点和照明变化是不变的，以及iii）用可选的几何验证来匹配图像上的最近邻描述符。虽然大多数图像匹配方法依赖于手工制作的检测器和描述符，但最近的工作表明，可以成功地训练基于CNN的模型来检测协变检测器[23]和不变描述符[52，36]。我们的方法建立在类似的原理上，协方差和不变性，但有一个重要的区别，它可以学习对象类别的内在特征，而不是通用的。跨实例对象匹配.的 SIFT流6363′方法[24]通过在变化框架中匹配它们的SIFT特征[27]，将在相同对象实例之间找到密集对应的问题扩展到不同的实例。通过使用多尺度补丁[11]，建立区域对应[10]以及用CNN特征替换SIFT特征[26]，进一步改进了这项工作。此外，Learned-Miller [21]通过参数变换连续扭曲每个图像，将图像对之间的密集对应关系推广到任意数量的图像。RSA [37]，Collection Flow [18]和Mobahi等人。[29]将图像集合投影到较低维度的子空间中，并在投影的图像之间执行AnchorNet [34]学习跨类别的语义有意义的部分，尽管是用图像标签训练的。传递性在文献中，几位作者[44，51，57，58]提出了使用传递性来正则化结构化数据。早期的例子[44，51]采用该原理来实现对象跟踪中的前后一致性，并分别识别结构与运动中不一致的几何Zhou等[57，58]通过在每个图像对和3D CAD模型之间建立循环，强制几何一致性以联合对齐图像集或监督密集语义对齐中的深度神经网络。DVE也建立在相同的传递性的一般原则，但是，它在外观嵌入的空间中操作，与后续图像扭曲到合成的验证形成对比对象结构的无监督学习。视觉对象特性（例如[3，7，22，4，5]）在计算机视觉方面具有悠久的历史，在面部标志检测和人体姿态估计方面具有广泛的工作最近一种可以学习几何变换以优化分类精度的非监督方法是空间Transformer网络[12]。然而，该方法不学习任何明确的对象几何。类似地，WarpNet [16]和几何匹配网络[39]训练神经网络来预测图像对之间的相对变换。这些方法仅限于在图像对上执行，并且不学习对象的不变几何嵌入。与我们的工作最相关的是，[46]通过学习与几何变换一致的地标来表征对象，而无需任何人工监督，而[33]类似地使用这种变换进行语义匹配。[46]的作者扩展了他们的方法，通过将原始像素投影到[45]中的球体表面上来提取密集的地标集。类似的工作[41]利用使用动态融合[31]作为超级视觉的帧到帧对应我们建立我们的方法，DVE，在这些方法和进一步to move移动from generic一般to specific具体ones onesones ones.其次，我们通过使用传递性更好地调整嵌入空间来改进跨实例泛化能力最后，我们证明了DVE在定性和定量上都优于[46，45]的面部标志检测（第4节）。最近的工作[54，13，49，42]提出通过估计密集变形场[49，42]和通过学习地标位置来从另一个样本重建一个样本，从而从姿势中分离外观。我们在第4节中将DVE与这些方法进行了比较。3. 方法我们首先总结了[45]的方法，然后介绍了DVE，我们对他们的方法的扩展。3.1. 使用等方差学习密集地标用x∈R3×H×W表示物体的像，用x ={0，. . .，H−1} × {0，. . .，W-1}其域，并且通过u ∈ N为图像像素。考虑在[45]中物体表面的球形球体索引对象的不同特征点，即，一个地标我们的目标是学习一个函数Φ，该函数将像素u∈S映射到其对应的地标索引Φu（x）∈S2。[45]的作者表明，Φ可以学习-通过要求它不随图像的变换而变化，从而减少了人工监督。也就是说，考虑随机扭曲g：n→ n，并用gx表示将扭曲应用于图像的结果。1然后，如果地图将标签Φu（x）分配给图像x的像素u，则它必须分配相同的标签Φgu（gx）到变形图像gx的像素gu。这是-因为，通过构造，像素u和gu落在相同的对象点，因此包含相同的地标。因此，我们得到等方差约束Φu（x）=Φgu（gx）。这个版本的等方差约束并不完全足以学习有意义的地标。事实上，约束可以通过将所有像素映射到球体上的某个固定点来简单地满足。相反，我们还必须要求地标是独特的，即识别对象中的唯一点。这可以通过以下等式得到：u，v∈ u：v = gu惠Φ u（x）= Φ v（gx）.（一）概率公式。学习，EQ。（1）是随机的（图1）。（3）第三章。给定图像x和x′，通过归一化余弦相似度，定义图像x中的像素u与图像x′中的像素v匹配对应界标向量的Φu（x），Φv（x′）e（Φu（x），Φv（x′））在很大程度上扩展它们。首先，我们要了解更多关于-p（v|u; Φ，x，x）= φe（Φ（x），Φ（x′））≠t.（二）u t既能对类属语言又能对对象语言进行编码的灵活描述符具体的里程碑，并表明我们可以逐步学习，1即（gx）u=xg−1u。6364∫匹配构建使用匹配无DVE有DVE图3：我们学习图像像素的密集嵌入Φu（x）∈RC。嵌入是从成对的图像中学习的（x，x′）由已知翘曲v=g（u）相关。请注意，在实践中，我们无法访问具有已知对应关系的成对图像-因此，在整个工作中，扭曲都是合成生成的左：[45]的方法直接将左图像中的嵌入Φu（x）与右图像中的嵌入Φv（x′右：DVE从其重建Φ u（x）替换Φ u（x|xα），其从第三辅助图像xα中的嵌入获得。重要的是，不需要知道与xα的对应关系给定扭曲g，以及图像x和其变形x′=gx，约束等式（1）被损失捕获：3.2. 从地标到描述符等式（1）表明界标向量必须是不变的。L（Φ;x，x′，g）=1|2 |2v−gu|u; Φ，x，x′）du dvΩ Ω（三）蚂蚁形象的变化和独特的。值得注意的是，通常使用完全相同的标准来定义和学习局部不变特征描述符[1]。其实如果我们其中，xv−gu是像素之间的距离为了理解这种损失，请注意L（Φ; x，x′，g）= 0当且仅当对于每个像素u ∈N，概率p（v|u; Φ，x，x′）将其所有质量放在相应的像素gu上。因此，最小化该损失鼓励p（v|u; Φ，x，x′）来建立正确的确定性对应。注意，概率（2）的扩展仅取决于界标向量之间的角度。为了使模型能够直接调制这种扩展，函数Φ的范围放宽到R3。以这种方式，估计较长的界标向量导致（2）变得更加集中，并且这允许模型表达在某个图像位置处检测特定界标的置信度。2随机扭曲的连体学习。我们现在解释如何可以使用（3）来学习仅给定未标记集合X={x1，. . . .，xn}的对象的图像。这个想法是为每个图像合成一个来自分布G的相应随机扭曲。用P表示训练图像上的经验分布;那么这相当于优化能量E（Φ）= Ex<$P，g<$G[L（Φ; x，gx，g）].（四）作为神经网络实现，这是一个连体学习公式，因为网络Φ在x和gx上进行评估。2通过将矢量归一化为单位长度来恢复地标身份。放松函数Φ以在一些高-因此，如果我们使用二维向量空间RC，则可以开箱即用地使用上面的公式来学习描述符而不是地标。因此，唯一的区别是界标被限制为微小的向量（只是球体上的点），而描述符通常是高维的。如第1节所述，地标向量的低维度忘记了实例特定的细节，并促进了这些描述符的类内泛化。反之亦然：我们可以从任何描述符开始，并通过促进类内泛化将其变成界标检测器。使用低维嵌入空间是一种方法，但不是唯一的，也不是最直接的。我们在下一节中提出了另一种方法。3.3. 矢量交换我们现在提出我们的方法，描述符向量交换，学习嵌入向量是独特的，变换不变的，不敏感的类内变化，从而识别对象的地标。其思想是鼓励从一幅图像中提取的嵌入向量集与从另一幅图像中提取的嵌入向量集可交换，同时保持匹配精度。更详细地说，令（x，x′，g）为扭曲图像对（因此x′=gx）。此外，设xα是一个辅助图像，包含一个与对（x，x′）相同范畴的对象，但可能是不同的实例。如果嵌入-∫6365^Ωding函数Φu（x）对类内变化不敏感，则嵌入向量集{Φu（x）：u∈N}和从任意两幅图像中提取的{Φu（xα）：u∈φ}应大致相同。这意味着，在损失（3）中，我们可以将从图像x中提取的向量Φu（x）与从辅助图像xα中提取的对应向量进行交换。接下来，我们将这一思想融入到概率学习上面给出的公式（图（3）第三章。我们首先通过使用概率p（w）将源图像x中的像素与辅助图像xα中的像素进行匹配 |u; Φ ， x ， xα ），根据方程计算。（二）、然后，我们将源嵌入Φu（x）重建为辅助图像中嵌入Φw（xα）的加权平均值，如下所示：Φ^u（x|xα）=<$Φw（xα）p（w|u;Φ，x，xα）dw.（五）一旦计算出Φu，我们就用它来建立x和x′之间的对应关系，使用公式：（二）、这导致匹配概率：e（Φ^u（x |x α），Φv（x ′）4. 实验使用人脸（第4.1节），动物脸（第4.3节）和玩具机器人手臂（第4.4节）的数据集，我们演示了所提出的描述符向量交换技术的有效性在两个方面。首先，我们表明，学习的嵌入工作以及视觉描述符，匹配可靠的对象实例的不同视图。其次，我们表明，他们也确定了一个密集的家庭的对象地标，有效的不是一个，但在同一类别中的所有对象实例。请注意，虽然第一个属性与SIFT精神中的传统描述符和学习描述符相同，但第二个属性显然将DVE嵌入与这些描述符区分开来。实作详细数据。为了与文献进行比较，我们使用[45]的深度神经网络架构（我们称之为SmallNet）进行实验。受[54]中沙漏两个模型的权重都是使用 Adamoptimiser从头开始学习的[19]，p（v|u; Φ，x，x′，xα）=∫ e（Φ^u（x|xα），Φt（x′）<$dt.（六）100个epoch，初始学习率为0.001，重量衰减。补充材料中提供了这些结构的进一步细节。该匹配概率可以用于相同的损失函数，问题（3），唯一的区别是现在每个样本依赖于x，x′以及辅助图像xα。讨论虽然这似乎是一种迂回的学习对应关系的方法，但它有两个关键的好处：作为情商。（3）鼓励向量是不变的和有区别的;除了Eq.（3），DVE还要求向量在不同对象实例之间是兼容的。事实上，如果没有这样的兼容性，重构（5）将导致失真的、不可匹配的嵌入向量。请注意，[45]的原始公式缺乏直接执行此兼容性的能力3.4.使用多个辅助图像EQ的潜在问题。（6）是，虽然图像x′可以通过合成扭曲从x获得，使得所有像素都可以匹配，但图像xα与两者仅弱相关例如，部分遮挡或平面外旋转可能导致x中的一些像素在xα中没有对应的像素。为了解决这个问题，我们从以下几个方面得到启发：最近的方法[59]，并考虑不是一个，而是一个小的辅助图像集{xα：α∈A}然后，在EQ中求和。（5）不仅在空间位置上扩展，而且在该集合中的图像上扩展。这种方法的直觉是，只要辅助图像集中的至少一个图像足够好地匹配x，则重建将是可靠的。4.1. 人脸首先，我们考虑两个标准的人脸基准数据集：[25]和MAFL [56]，这是前者的一个子集。CelebA [25]数据集包含超过20万张名人的面孔;我们使用前者进行训练，并在较小的MAFL上评估嵌入质量[56]（19，000张训练图像，1，000张测试图像）。为眼睛、鼻子和嘴角提供了注释。对于训练，我们遵循[45]使用的相同过程，并排除CelebA训练集中也包含在MAFL测试集中的任何图像。请注意，我们使用MAFL注释仅用于评估，从不用于嵌入函数的训练如上所述，我们使用公式（6）来学习将图像X映射到C维像素嵌入的密集嵌入注意，损失（3）需要采样变换g∈ G;为了与[45]进行直接比较，我们使用与它们相同的随机薄板样条（TPS）扭曲，获得扭曲对（x，x′=gx）。我们还随机抽取一个或多个从训练集中提取辅助图像xα，以实现我是DVE。我们考虑几种情况;在第一种情况下，我们使用公式（2）设置C= 3并且不对辅助图像进行采样，这与[45]相同。在第二种情况下，我们设置C= 16、32、64 × 103，但仍不使用DVE;在最后一种情况下，我们使用C= 3，16，32，64，也使用DVE。6366嵌入同一身份不同身份尺寸[45个]+ DVE[45个]+ DVE31.331.362.893.03161.251.285.652.79321.261.295.812.79641.251.285.682.77表1：在CelebA（MAFL测试集）的1000对图像中匹配注释标志时的像素误差。定性结果。在图4中，我们使用使用或不使用DVE训练的SmallNet模型方法Unsup. MAFL AFLWM AFLWR 300W关于AFLWM图像，可视化为图1（左）。与DVE沙漏-64 DC2.867.536.544.65DVE，匹配是准确的，尽管大类内变量-选项。如果没有DVE，嵌入质量会显著降低，尖锐地这表明，通过具有类别范围的有效性，使用DVE学习的嵌入识别对象地标，而不仅仅是局部外观的视觉描述符。图4：学习64 D描述符（不带/带DVE）匹配结果。接下来，我们探索使用SmallNet学习的嵌入匹配人脸图像的能力。我们使用MAFL测试对不同身份的配对进行采样（总共1000对），并考虑两种情况：首先，我们匹配具有相同恒等式的图像x，x′;由于没有提供具有相同恒等式的多个图像，我们像以前一样用扭曲生成它们，因此地面真实对应场g是已知的。我们在带注释的关键点位置，并将它们与它们在图像x′中的最近邻嵌入匹配（搜索目标中的所有像素）。其次，我们将不同身份的图像进行匹配，同样是我们-的注解。在这两种情况下，我们都报告了来自地面实况的平均检查表1中的结果，我们注意到几个事实。当匹配相同的身份时，高维嵌入比低维嵌入（即，3D），特别包括[45]。这是预期的，因为高维嵌入更容易捕获特定于实例的细节;同样如预期的那样，DVE不会改变结果太多，因为这里没有类内变化。当匹配不同的标识时，高维嵌入相当差：这些描述符对特定于实例的表2：MAFL、300 W和AFLW（AFLWM和ALFWR分流器-详情见第4.1节）上的地标检测结果。结果报告为眼间距离的百分比。* 报告了一个更保守的评估指标（参见[6]），** 和 * 使用不同的训练数据：Vox-Celeb [30]和VoxCeleb+（VoxCeleb和Vox-Celeb 2的联合[2]）。细节，不能正确地桥接类内变化。这证明了在[45]中选择低维嵌入是合理的，因为后者在不同的情况下更好地概括。然而，一旦应用了DVE，高维嵌入的性能就会得到很大的提高，甚至对于类内匹配来说，实际上也比低维描述符更好[45]。总的来说，使用DVE学习的嵌入具有比[45]更好的类内和实例内匹配性能，验证了我们的假设，并证明了我们用于正则化嵌入的方法优于简单地限制嵌入维度。标志性回归。接下来，与[45]和其他最近的论文一样，我们定量评估了我们的嵌入与面部手动注释的地标的对应程度。为此，我们遵循[ 45 ]的方法，并在我们嵌入的50个维度为1 × 1 × C的过滤器之上添加，将它们转换为50个中间虚拟点的热图;这些热图又使用softargmax层被转换成2个Cx-y对，其最终被馈送到线性回归器以估计手动注释的界标。使用一定数量的手动注释来学习中间点和线性回归量的参数，但是信号不进一步反向传播，因此嵌入保持完全无监督。详细地说，在无监督的CelebA数据集上对SmallNet和Hour- glass网络进行预训练后，TCDCN [56]×7.957.65–5.54RAR [50]×7.23–4.94MTCNN [55，54]×5.396.90––Wing Loss [6]×---4.04[46]第四十六话C6.6710.53–7.97结构代表[五十四]C3.15–6.58–FAb-Net [49]C3.44––5.71[42]第四十二话C5.45–––Cond. ImGen。[13个国家]C2.54–6.31–[14]†C---5.37[45]第四十五话C4.0210.9910.148.23DVE SmallNet-64D C3.428.607.795.756367SmallNet Dense3DSmallNet64 D-DVE沙漏64 D-DVESmallNet+ Sup.误差（%）以这种方式，我们冻结它的参数，只学习回归-[56 ]第56话。然后，我们遵循相同的方法30对于68个地标300-W数据集[40]，具有3148个训练，689测试图片我们还对chal-25在5个地标设置下，对AFLW [20]数据集进行建模20中使用了两个略有不同的评估拆分，前期工作：一是15所使用[46][45][ 46 ][47][48][49][MTFL [55]，并提供2，995面进行测试，10，12210AFLW面临的培训（我们称之为AFLW M分裂）。第二个是由[54]发布的一组重新裁剪的面孔，5包括2991个试验面和10,122个列车面(we将此拆分称为AFLWR）。对于劳联两个政党，0100 101 102 103 104 105Num. 注释[45 ]第45话，我们在训练之后，继续对来自AFLW的10，122张训练图像进行无监督预训练，持续50个epoch（我们在第4.2节中提供了一项消融研究来评估这种选择的效果）。我们报告的误差百分比眼间距在ta-图5：改变用于不同方法的注释图像数量对AFLWM的影响，结合[46]的监督CNN基线（补充）。材料）。表2并将我们的结果与最先进的监督和无监督的方法，遵循协议和数据，Backbone Embed. 调暗AFLWM300W[45]这是一种选择，可以进行直接比较。SmallNet311.82 /11.127.66/7.20我们首先看到，建议的DVE方法优于SmallNet1610.22 /9.156.29/5.90先前的工作要么学习稀疏地标[46]，要么SmallNet329.80/9.176.13/5.753D密集特征描述符[45]，这与SmallNet649.28/8.605.75/5.58结果见表1。令人鼓舞的是，我们还看到，沙漏648.15/7.534.65/4.65方法与最先进的无监督在不同的基准学习技术，indi-证明我们的无监督公式化可以为这项任务学习有用的信息。4.2. 消融除了表1中所示的评价DVE的研究之外，我们还进行了两个额外的实验来研究：（i）界标回归量对减少训练注释的敏感性;（ii）额外的无监督预训练对目标数据集的影响。有限注释：我们评估了我们的方法需要多少图像注释来学习AFLW数据集中的地标定位，与Dense3D [45]（共享SmallNet主干架构）相比。为此，我们在以下范围内改变训练图像的数量：1，5，10，20和整个训练集（总共10，122），并报告图1中每个设置的错误。五、作为参考，我们还包括来自[46]（补充材料）的监督CNN基线，它由稍微修改的SmallNet（在图中表示为SmallNet+）组成。5）使其更适合地标回归。如果可用，我们报告平均值和标准差。三次随机接种运行的偏差。本实验和SmallNet+体系结构的更多细节在suppl.材料虽然对于非常少量的注释存在相当大的差异，但结果表明DVE可以产生表3：无监督微调对界标回归性能的影响每个表条目描述了不使用/使用微调的性能。所有方法都使用DVE。有效的地标检测器，几乎没有手动注释。无监督微调：接下来，我们评估在学习回归地标之前，对给定目标数据集使用嵌入的无监督微调的影响。为此，我们在表3中报告了在AFLWM和300W基准上进行微调和未进行微调的几个模型的性能。我们看到，对于AFLWM，这种方法（可以“免费”实现，而不收集额外的注释）带来性能的提升。然而，对于300W，特别是在更高的维度上，它的效果较差，对更强的沙漏模型的性能没有影响。4.3. 兽面为了研究我们的方法的泛化能力，我们考虑以无监督的方式学习地标，不仅仅是人类，还有动物的面孔。为此，我们简单地扩展示例图像的集合X以包含动物的图像。更详细地说，我们考虑动物面孔数据集[43]，其中包含20种动物类别的图像，6368图6：顶部：在左上角的图像（人类）中手动注释了五个地标，并使用我们的无监督嵌入与许多动物进行了匹配。底部：相同的过程，但使用猫图像（左下）作为查询。每班100张图片我们排除了鸟类和大象，因为这些图像的平均外观明显不同（鸟类的轮廓，大象包括整个身体）。然后，我们添加了来自[53]的另外8609张猫脸，来自[35]的3506张猫和狗脸，以及来自CelebA的160 k张人脸（但保持与原始数据集大致相同的每批an-bands类分布我们在这些数据上使用DVE训练SmallNet描述符。在这里，我们还发现有必要使用分组注意力机制（第3.4节），它放松了DVE，将嵌入投射到一组辅助图像上，而不仅仅是一个。为做因此，我们在每批中包括16对图像（x，x′），并且我们为每对随机选择一组5个辅助图像从一个单独的16张图片中。请注意，这些图像也经历了合成扭曲。人类和猫的界标与其他动物的匹配结果如图所示六、DVE实现了跨物种语义相似部分的本地化，特别是对于眼睛和一般面部区域具有出色的效果。4.4. 机械臂查询Dense3D Dense20D Dense20DDVE图7：机器人臂数据集上的一对描述符匹配示例，使用第一幅图像中的斑点中心在第二幅图像中定位它们。我们显示了3D/20 D描述符（列2/3），从[45]的损失中学习20 D情况下的高误差由DVE校正（最后一列）。最后，我们在动画机器人手臂数据集上进行了实验（图1）。7）在[ 45 ]中引入，以证明该方法对不同数据的适用性。该数据集包含约24k张分辨率为90× 90的图像，帧间的真实光流用于训练。我们使用第4.1节的相同匹配评估，使用机器人分段的中心我们比较使用3D和20D嵌入的模型维度[45个]+ DVE- 转换31.421.411.692010.341.251.42表4：Roboarm的结果，包括忽略光流的实验（右）。使用有和没有DVE的[45]的公式，并最终从后者中去除变换等方差（通过在等式中设置g=（6））。在这种情况下，没有类内的变化，但高度的清晰度使匹配变得不平凡。在没有DVE的情况下，20D描述符较差（10.34误差），而3D能够概括（1.42）。然而，对于DVE，20D描述符（误差为1.25）优于3D描述符（1.41）。有趣的是，DVE足够有效，即使完全去除变换（通过使用g=1从相同图像对中学习）仍然会产生良好的性能（1.42）-不同的帧。5. 结论我们提出了一种新的方法，可以在无监督的方式学习标志点。我们将这个问题表述为寻找来自相同或相似类别的对象之间的对应关系。我们的方法弥合了两个看似独立的概念之间的差距：地标和局部图像描述符。我们证明了相对高维的嵌入可以通过捕获实例特定的相似性以及更抽象的对应关系来同时匹配和对齐点我们还应用这种方法来预测标准计算机视觉基准中的面部标志，以及寻找不同动物物种之间的对应关系。鸣谢。我们感谢Almut Sophia Koepke的有益讨论。我们感谢ERC StG IDIU- 638009、EP/R 03298 X/1和AWS机器学习研究奖（MLRA）的支持。6369引用[1] 马修·布朗，华刚，西蒙·温德。局部图像描述符的反犯罪学习PAMI，2010年。4[2] 郑俊山，亚莎 · 纳格拉尼，安德鲁 · 齐瑟曼 .Voxceleb2：深度说话人识别。在IN-TERSPEECH，2018年。6[3] 蒂莫西·F作者声明：Christopher J.作者：David H.库珀和吉姆·格雷厄姆活动形状模型：他们的训练和应用。CVIU，1995年。3[4] Navneet Dalal和Bill Triggs。用于人体检测的定向发光体在CVPR，2005年。3[5] 佩德罗·F.罗斯？费尔岑斯瓦尔布Girshick，DavidMcAllester，and Deva Ramanan.使用区分性训练的基于部分的模型进行目标检测。PAMI，2010年。3[6] Zhen-HuaFeng ， JosefKittler ， MuhammadAwais，Pa- trik Huber，and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的在CVPR中，第2235-2245页，2018年。6[7] 罗伯·费格斯，皮埃特罗·佩罗纳，还有安德鲁·齐瑟曼.基于无监督尺度不变学习的目标类别识别。在CVPR，2003年。3[8] 马丁Grundl平均脸上网址：//www.beautycheck.de/cmsms/index的网站。php/durchschnittsgesichter. [2019年上线]。1[9] 里扎·阿尔普·古勒、吉奥·奇·特里吉奥·吉斯、埃帕梅农达斯·安东纳科斯、帕特里克·斯内普、斯特凡诺斯 · 扎菲里乌和拉索纳斯 · 科基诺斯。Densereg：完全卷积的密集形状回归。在CVPR中，第6799- 6808页，2017年。2[10] Bumsub Ham 、 Minsu Cho 、 Cordelia Schmid 和Jean Ponce。提案流程。在CVPR，2016年。3[11] 塔尔·哈斯纳、维基·梅泽尔斯和利希·泽尔尼克·马诺。在筛子和秤上。见CVPR，第1522IEEE，2012。3[12] MaxJaderberg ， KarenSimonyan ， AndrewZisserman ， Koray Kavukcuoglu. 空间 Transformer网络。InNeurIPS，2015. 3[13] 托马斯·雅卡卜，安库什·古普塔，哈坎·比伦，安德里亚·维达尔迪.通过条件图像生成的对象地标的无监督学习。在神经信息处理系统的进展，第4020-4031页，2018年。三、六[14] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和Andrea Vedaldi。使用图像平移从未对齐的数据中学习地标。 arXiv 预印本 arXiv ： 1907.02055 ，2019。66370[15] 西蒙·詹尼和保罗·法瓦罗通过学习发现伪影进行自我监督特征学习。在CVPR中，第2733-2742页，2018年。1[16] 放大图片作者： David W. 雅各布斯和曼莫汉·钱德拉克WarpNet：用于单视图重建的弱监督匹配。在CVPR，2016年。3[17] Asako Kanezaki ， Yasuyuki Matsushita ， andYoshifumi Nishida.旋转网：使用来自无监督视点的多视图的联合对象分类和姿态估计。在CVPR中，第5010-5019页，2018年。1[18] 作者声明：John M. 塞茨收集流。CVPR，2012。3[19] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。5[20] 放大图片作者：Peter M.Roth和Horst Bischof。在野外标注的面部标志2011年，国际天主教志愿人员理事会讲习班。7[21] 埃里克·米勒通过连续的联合对齐实现数据驱动的图像模型。PAMI，2006年。3[22] Bastian Leibe ， Ales Leonardis ， and BerntSchiele.结合了隐式形状模型的对象分类和分割。2004年，幼儿保育和儿童保育讲习班。3[23] Karel Lenc和Andrea Vedaldi。学习协变特征检测器。在ECCV研讨会几何满足深度学习，2016年。2[24] Ce Liu ， Jenny Yuen ， and Antonio Torralba.SIFT 流：场景间的密集对应及其应用。PAMI，2011年。3[25] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， andXiaoou Tang.在野外深度学习人脸属性。在ICCV，2015年。5[26] Jonathan L Long ， Ning Zhang ， and TrevorDarrell. Convnets学习通信吗？神经信息处理系统的进展，第1601- 1609页，2014年。3[27] 大卫·G·洛从尺度不变关键点中提取独特的图像特征IJCV，60（2）：91-110，2004. 二、三[28] Krystian Mikolajczyk 、 Tinne Tuytelaars 、Cordelia Schmid 、 Andrew Zisserman 、 JiriMatas、Frederik Schaffalitzky、Timor Kadir和Luc Van Gool 。仿射区域检测器的比较。IJCV，65（1- 2）：43-72，2005. 2[29] Hossein Mobahi，Ce Liu，and William T.弗里曼。一种低维图像集表示的组合模型。CVPR，2014年。3[30] 阿莎·纳格拉尼，郑俊山，安德鲁·齐瑟曼.Voxceleb：一个大规模说话人识别数据集。在INTERSPEECH，2017年。66371[31] Richard A Newcombe，Dieter Fox，and Steven MSeitz.动态融合：非刚性场景的实时重建与跟踪。CVPR，2015。3[32] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在欧洲计算机视觉会议上，第483499.施普林格，2016年。5[33] David Novotny，Samuel Albanie，Diane Larlus，and Andrea Vedaldi.通过概率内省对几何稳定特征进行自我监督学习。在CVPR中，第3637-3645页，2018年。3[34] David Novotny Diane Larlus和Andrea Vedaldi通过观察周围的物体来学习3d物体的类别在ICCV，第5218-5227页，2017年。3[35] Omkar M Parkhi ， Andrea Vedaldi ， AndrewZisserman，and CV Jawahar.猫和狗。在2012年IEEE计算机视觉和模式识别会议上，第3498-3505页。IEEE，2012。8[36] Mattis Paulin，Matthijs Douze，Zaid Harchaoui，Julien Mairal ， Florent Perronin ， an

下载后可阅读完整内容，剩余1页未读，立即下载