无监督语义对应估计及其改进的方法的评估和性能指标

180 浏览量更新于2023-12-01 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文揭秘无监督语义对应估计MehmetAyguúnOisinMacAodha爱丁堡大学https://mehmetaygun.github.io/demistfy抽象的。我们通过无监督学习的镜头探索语义对应估计。我们使用标准化的评估协议，在多个具有挑战性的数据集上彻底评估了最近提出的几种无监督方法，其中我们改变了骨干架构，预训练策略以及预训练和微调数据集等因素为了更好地理解这些方法的故障模式，并提供一个更清晰的改进路径，我们提供了一个新的诊断框架，以及一个新的性能指标，更适合于语义匹配任务。最后，我们引入了一种新的无监督对应方法，该方法利用了预训练特征的强度，同时在训练过程中鼓励更好的匹配。与当前最先进的方法相比，这导致显著更好的匹配性能关键词：语义对应，自监督学习1介绍在形而上学中，真理的符合论认为，没有符合的概念，就不可能有真理。相似地，对应性估计作为计算机视觉中的核心问题之一也占有非常重要的位置。可靠地获得精确像素级对应的能力支撑了从立体估计、光流、从运动恢复结构到视觉跟踪的各种任务。与这些较低级别的目标不同，语义对应性估计，即在不同对象实例中匹配不同区域、部分和地标的任务，对于开发可以在具有在外观和其组成部分的配置方面都显著变化的对象的不同环境中执行更高级别的视觉推理的系统是至关重要的。手动获得语义对应监督，例如以注释的对象地标的形式，是一项艰巨且耗时的任务。因此，几项工作反而试图理解语义区域和部分在多大程度上从常规训练的监督图像分类网络中出现[44，74，81，17]。这些工作表明，这些语义信息确实存在于这些网络编码的表示中，至少在某种程度上。最近，出现了一系列旨在学习arXiv：2207.05054v1[cs.CV] 2022年7月+v：mala2255获取更多论文2Ayguên和MacAodha语义对应通过自我监督，即。而不需要在训练时进行地面实况监督[65，63，11，29]。虽然我们已经观察到无监督语义对应估计的进展例如，目前尚不清楚当前的方法如何从更简化的对象类别（例如人脸）推广到在姿势和外观方面变化的更复杂的非刚性变形类别。最近的工作也能够利用一般视觉表示的自我监督学习的进步[11，29]，因此很难正确理解它们与不利用这种自我监督预训练的旧方法相比如何在这项工作中，除了探索其他因素的作用之外，我们还试图阐明上述问题，例如预训练和微调数据的影响，骨干模型以及用于评估性能的潜在评估标准。受人体姿势估计[57]中详细基准调查的启发，我们对当前方法的成功和失败模式进行了全面评估，为未来的进展提供指导。我们做出了以下三个贡献：（i）对五个具有挑战性的数据集上的无监督语义对应估计的多种现有方法进行了标准化评估。(ii)一个新的，概念简单，无监督的训练目标，导致优越的语义匹配性能。(iii)当前最佳性能方法和我们提出的新无监督方法的当前失败案例的详细分类2 相关工作监督语义对应。预深度学习工作将语义对应估计作为使用手工制作的特征的局部区域匹配问题[41，31，6]或作为使用对象提议的偏移匹配[19]来解决。在深度学习时代，有几项工作研究了对象部分和区域是否从图像分类模型中出现[74，81，17]，即仅使用图像级类别监督训练的模型。[44]表明深度CNN特征实际上可以用于语义匹配。随后的工作建立在此基础上，提出了专门为语义匹配设计的新架构[14，20，33，53，24，39，32]。其中一些方法专注于组合来自深度网络的多级特征（即超列特征）[66，47，49，79]，使用4D卷积[55，54，40，38]从特征中聚合信息，通过霍夫变换[46]利用几何关系，或使用最佳传输[61，42]。一些匹配方法将该问题表述为图像之间的流量估计问题[41，47]。然而，与光流不同，语义对应方法需要能够处理匹配点时的类内和类间变化。最近，基于变压器的模型的使用也被探索[12，27]。与上述大多数工作相比，我们专注于无监督设置，即没有监督的关键点注释用于训练我们的模型。无监督语义对应。自监督学习的最新进展产生了一套能够提取差异的方法+v：mala2255获取更多论文揭秘无监督语义对应估计3犯罪的整体形象表示，而不需要明确的监督[52，72，8，18，21]。虽然大多数这些方法通过使用增强图像对来优化目标以区分全局图像表示，[11，29]表明这些方法也可以用于对应性估计。最近，几种方法提出了在更密集的水平上优化替代目标[56，71，3，51，69，70，80]。然而，这些方法已被应用于任务，如对象检测和分割，但不直接用于语义对应。另一条工作线提出了以无监督方式发现语义关键点位置的方法[25，76，37，26，60]。对于对应性估计的问题，[28，53]使用了增强了艺术空间变形的图像来学习图像对之间的变换，而不是学习一个函数为了匹配图像对，[65，64]将问题框定为学习可以提取局部特征的函数之一，该局部特征可以用于跨感兴趣类别的所有实例为了为类别内差异引入更大的不变性，DVE[63]在训练期间使用额外的非增强辅助图像扩展了EQ[64]最近的工作已经能够利用自我监督学习的进步，以学习更有效的表示。CL[11]提出了一种两阶段方法，将图像级基于实例的判别[21]与密集等变学习相结合。他们在通过图像级自我监督预训练任务计算的冻结学习特征之上训练线性投影头，其中投影步骤的目标是强制密集特征在图像内空间上不同 LEAD [29]也遵循类似的两阶段方法，从使用[ 18]的实例级判别开始。在第二阶段，而不是鼓励的功能是空间上不同的，他们的投影操作最大限度地减少了来自实例级的功能和相关性映射的投影功能之间的差异。这可以被看作是降维的一种形式，因为投影的特征与原始特征相比在尺寸上更小。上述方法虽然对某些数据集有效，但也有局限性。EQ[64]只能学习可以通过图像增强表示的不变性。DVE[63]假设图像具有相同的可见关键点，因此可能会受到背景像素上不正确匹配的负面影响。CL[11]使用的投影步骤有丢弃预训练阶段学习到的不变性的风险。虽然LEAD[29]保持了从第一阶段学习的不变性，但如果预先训练的特征生成了不正确的匹配，它们的丢失可能会最终优化了可能不正确的特征相关性。在这项工作中，我们thor- oughly基准测试这些方法的性能，通过评估他们在几个具有挑战性的数据集。我们还提出了一种新的语义对应损失，它通过保留学习到的不变性同时使特征更加独特来学习更有效的密集特征。性能评估和错误诊断。使用单个摘要度量标准对每个模型进行基准测试是我们拥有的最佳工具之一客观地衡量一项任务的进展然而，准确地说，+v：mala2255获取更多论文4Ayguên和MacAodha克服新方法带来的局限和改进，对今后的进展更为重要。一些作品已经引入了不同的诊断工具和框架来分析各种问题的方法[23，58，16，75，62，1]。对于语义对应问题，绝大多数现有作品中的大多数仅通过单个摘要指标报告性能，例如具有固定距离阈值的正确关键点百分比（PCK）。这使我们能够获得整体的性能，但不能揭示为什么给定的方法比其他方法性能更好。最近的作品[50，13]强调了详细评估的重要性，以便更好地了解组成，具体的性能改进可以归因于。在这项工作中，在[57]的精神，我们介绍了一个更全面的评估分析语义对应方法。我们还提出了一个新版本的PCK，它可以更好地捕获对应错误，并在多个数据集上呈现标准化的基线结果，以公平地比较语义对应性能。3语义对应性估计3.1问题设置给定源-目标图像对xs和xt，对应性估计的目标是从源图像中找到目标图像中的一组感兴趣点的位置。与光流或立体估计不同，在光流或立体估计中，任务是计算跨时间或视点的对应性，在语义对应的情况下，目标是找到跨相同对象类别的不同投影的匹配位置。这是一个具有挑战性的设置，因为感兴趣的对象可以在外观，姿势和形状方面变化，除了由其他干扰因素（如背景，遮挡和照明）引起的困难之外。我们提出的对应问题作为一个最近邻匹配任务在学习的本地特征嵌入空间。形式上，对于像素位置，u∈N ={1，.， H} × {1，.， W}，在大小为H × W的源图像中，找到目标图像xt中点 u 的对应点，u∈u=argmaxk∈φf（Φu（xs），Φk（xt）），其中Φ u（xs）表示点u在图像xs中的嵌入向量，f是相似度函数.我们使用深度神经网络作为我们的嵌入函数Φ，并且相似性是通过102个归一化嵌入向量的点积来计算的在实践中，我们将嵌入函数分解为一个fetu_reenc_der，接下来是一个投影步骤，即， Φ（x）=ρ（λ（x）），其中编码器是深度网络。投影的目的是减少特征的维数，并且可以是线性操作[11]或网络[29]。在下一节中，我们将回顾几种现有的无监督方法，这些方法旨在学习密集表示，重点是匹配（参见图1的概述）。虽然已经提出了更复杂的方法来估计语义对应关系，例如使用最佳传输[61，42]，使用空间正则化器的距离重新加权[47]，或者使用类激活图限制搜索区域[81]，如[42]中所示，我们专注于学习嵌入函数，因为最近的工作表明，将自监督表示学习与对应关系特定的微调相结合会产生最先进的结果[11，29]。+v：mala2255获取更多论文铅|2Ω|→等式 2，其中Φu（x|xα）=wΦ u（xα）p（w|u; Φ，x，xα，τ）。重要的是，地面EQDVECLASYM揭秘无监督语义对应估计5图1：语义对应估计的无监督方法。x′是图像x的合成增强版本，xα是同一语义类别的不同图像。等式[64]最小化嵌入之间的距离具有已知几何变换的点对g. DVE[63]通过使用额外的辅助图像来构建EQ。CL[11]最大化图像内点嵌入之间的距离。LEAD[29]在预训练和投影嵌入之间强制相同的距离。我们的ASYM方法通过强制投影嵌入在特征空间中更接近3.2无监督语义对应学习EQ[64]提出了一种无监督方法，该方法利用等方差原理来学习密集匹配特征。在训练过程中，他们的模型将图像x与它的增强版本x'一起，并试图最小化已知对应像素位置u和v的特征相似性。这里，x′是使用人工空间和基于外观的增强从x导出的，并且像素坐标u和v是来自通过已知变换g相关的两个图像的位置，使得v=gu。他们最大限度地减少了以下损失，Leq =1gu − v p（v|u; Φ，x，x′，τ），（1）u∈v∈′exp（<$Φu（x），Φv（x′）<$/τ）p（v|u; Φ，x，x，τ）= φk∈ exp（λΦu、（二）（x），Φk（x′）<$/τ）其中τ是softmax函数的温度参数，τ是图像网格上可能的像素位置从本质上讲，该模型的目标是在学习的嵌入空间中嵌入附近的对应点，同时也将其他点推得更远。EQ使用人工增强的图像对，因此只能学习到这些增强所能表达的不变性。随后，DVE [63]使用辅助图像x α扩展EQ，以计算从x→xα然后xα→xα′的对应关系。这是一个通过替换Φu（x）项而得到的结果，与辅助图像的真实对应不需要已知，因为从x x′的映射是可用的。最近，已经提出了学习密集嵌入的两阶段方法[11，29]。在这些方法中，第一阶段利用图像级自监督训练目标（例如[21，18]）来训练特征编码器。然后调整投影头以细化表示，+v：mala2255获取更多论文∈ΣΣαα6Ayguén和MacAodha更适合搭配。与EQ一样，CL[11]也旨在使图像中的特征明显。然而，与EQ相反，使用具有w的线性投影将来自k（x）的密集D维特征向量线性投影到较低维度D'，RD×D′。他们的损失与Eqn相同。1，但简单地使用x而不是x′，即它们不使用一对增强图像。LEAD[29]也采用两阶段方法，但旨在最大化使用原始自监督特征Φ（x）和投影特征Φ（x）计算的特征相关性图之间的相似性。中的第一项它们的损失表示来自图像x的点u使用来自特征编码器x的嵌入与图像xα中的点v匹配的概率。在第二项中，使用组合的编码器和投影头将嵌入投影到较低维空间，领引 =1个|Ω|2-p（v|u; n，x，x，τ）log p（v|u; Φ，x，x，τ）。（三）u∈v∈LEAD使用这是可能的，因为它们的公式化在训练期间不需要任何地面实况对应。从本质上讲，LEAD实现了一种学习降维的形式，如果预先训练的特征已经包含了用于匹配的有用信息，那么这种降维EQ和DVE最初设计为以端到端的方式训练其嵌入网络Φ，而CL和LEAD分别训练编码器网络Φ，然后是学习的投影函数ρ。现有的方法通常使用不同的网络架构的编码器和解码器，这使得它具有挑战性的目标函数直接比较为了公平地评估这些方法，在我们的实验中，我们使用冻结的预训练网络作为编码器，并为每个损失训练一个单独的线性投影头ρ，即Φ（x）=ρ（ρ（x））。3.3无监督非对称通信损失LEAD目标的目的是保持特征之间的距离之前和之后，他们已经被投影到一个较低的维度特征空间。给定来自不同图像的两个点u和v，损失项有效地试图强制f（φ u（x），φ v（xα））和f（Φ u（x），Φ v（xα））尽可能接近。投影试图通过保持点对之间的距离来保持点对之间的相似和不相似。然而，嵌入空间的结构在该投影步骤之后不会改变，这意味着性能受到原始特征空间中特征的质量的限制。我们对LEAD目标进行了概念上的简单更改，以便提供灵活性，允许模型在投影特征空间中更改距离。与LEAD不同，我们在计算点嵌入之间的相似性时使用不同的温度，而不是在两个特征空间的softmax函数中使用相同的温度值。特别是，我们使用+v：mala2255获取更多论文m=1m=1asym|Ω|212u∈v∈揭秘无监督语义对应估计7原始特征空间的较小温度和投影特征空间的较大温度，即，τ1<τ2，导致以下损失，L= 1mm||p（v|u; n，x，xα，τ）− p（v|u; Φ，x，xα，τ）||. （四）温度越低，越近的点之间的距离越小，越远的点之间的距离越大。为了匹配这些相同的距离分数，投影需要使较近点的嵌入更近，反之亦然。此外，该目标还保持了点对距离的顺序，即。近点与远点相比仍然因此，投影需要捕获已经匹配的点对之间的共同点，以优化损失，从而获得更好的匹配嵌入。虽然这是损耗公式中相对较小的变化，但它导致性能的显著改善。当我们使用不同的温度参数时，我们将我们的非对称投影损耗称为ASYM。ASYM和LEAD之间的另一个区别是，我们使用欧氏距离而不是交叉熵，因为我们发现这更有效。我们通过补充材料中详细的烧蚀实验比较了这些设计选择的影响4评价方案4.1评估指标有两种主要方法用于对无监督对应估计方法的性能进行基准测试：（i）界标回归和（ii）特征匹配。对于界标回归，在由对应网络学习的表示之上，针对每个感兴趣的界标（例如，人脸的关键点）训练附加的监督回归头。对于匹配，对于源图像中的给定兴趣点，简单地计算特征空间中到第二图像中的所有点的距离，然后选择最接近的匹配作为对应点。我们认为，匹配是一个更好的任务，用于评估学习的特征嵌入的能力，因为回归需要地面实况监督来训练额外的参数。由于匹配使用原始特征嵌入，因此它不能从数据集中引入公司偏见，例如。利用关键点的平均位置虽然目前的文献往往侧重于回归评估，但也有一些例外。然而，总的来说，匹配结果只针对更容易的数据集。例如，[63，11，29]仅在MAFL数据集上呈现匹配结果[78]。MAFL包含裁剪和对齐的人脸图像，目前的方法在其上表现非常好，平均匹配误差接近两个像素。正确关键点百分比（PCK）。传统上，匹配性能的测量使用PCK度量。如果有一组真实密钥-点P={pm}M和出版物={pm}M，PCK计算为+v：mala2255获取更多论文∥ −∥{− |∈ P}̸∥−∥∧{∥−∥|∈}M1PPm=18Ayguên和MacAodha(a) 源（b）匹配（c）未命中（d）抖动（e）交换图2：对于源图像（a）中用红色表示的关键点，我们在（b）中看到了正确的如果该点与背景匹配，则为未命中（c），如果该点接近正确位置，则为抖动（d）。如果匹配是在正确的附近，但更接近另一个语义部分，这是一个交换错误（e）。PCK（P，P<$）=1<$M1[<$p<$m−pm<$≤d]。这里，d=αmax（W b，Hb）是a距离阈值，选择为比例（例如α = 0. 1的最大边长）的对象边界框（具有宽度Wb和高度Hb）的大小。如果预测在目标关键点区域内，则将其计为正确。详细错误评估受[57]的启发，我们定义了额外的误差度量，以更详细地分析不同方法的性能。图2中示出了视觉概览。如果点与不接近目标图像中的关键点中的任意一个的点匹配，则将该误差表示为“miss”。此错误通常发生在点与图像背景匹配时：Emiss=1[dmin<彭pp]。如果预测是在正确的附近，但在定义的距离阈值之外，我们将其表示为pm<2d]。最后一个错误type是apmd>δ]，其中δ=min彭ppP.未命中和抖动误差也被PCK度量计为不正确，但掉期交易仍可能被视为正确。例如，在一双眼睛中间的预测仍然可以被视为正确，即使它更接近错误的眼睛，因为它可能仍然在距离阈值由于我们的目标是估计语义对应性，因此我们的目标应该是匹配正确的语义部分。因此，我们提出了一个新版本的PCK惩罚这些交换。在该度量下，为了做出正确的预测，点需要匹配接近对应的关键点，并且最接近的关键点应该是相同的语义关键点，MPCK<$（，）=1[pmMm=1— pm≤d— pm[2014 - 04 - 25].（五）4.2评价数据集为了评估语义对应性能，我们对五个不同的数据集进行了实验：AFLW[35]， Spair-71 k [48] ，CUB-200-2011 （ CUB） [68]， Stanford Dogs Extra（SDog）[30，5]和Awa-Pose [73，4]。这些+v：mala2255获取更多论文×××揭秘无监督语义对应估计9表1：我们用于评估语义对应性能的不同数据集的总结。我们还报告了每个数据集提供的元数据：KP（关键点/地标）和Bbox（边界框）。除了Spair-71 k之外，数据集没有预定义的评估对。数据集名称图片数量配对数量#类注释匹配多样性[48]第四十八话2k70k18KP（3-30），BboxMed斯坦福犬（SDog）[5]10k10k120KP（24），BboxMed[68]第68话：我的世界11k10k200KP（15），BboxMed[35]第三十五话13k10k-简体中文（CN）低Awa-Pose[4]10k10k36KP（30-40），Bbox高选择数据集是因为它们跨越一系列对象类别类型（例如，人类制造的自然世界类），并表现出不同程度的困难，(e.g.从拓扑学上简单的人脸到可变形的动物）。AFLW[35]包含来自不同视点的具有各种背景的人脸图像。然而，由于面部的结构化性质，图像之间的视觉差异是有限的，因此与其他数据集相比，该任务相对容易。SDog[30，5]和CUB[68]包含细粒度视觉类别（分别为狗和鸟）的图像，并且包括高度变化的外观，不同的背景和非刚性姿势，这导致了具有挑战性的匹配任务。Awa-Pose[73，4]包含来自35种不同动物物种的图像，并允许我们评估类间对应关系，因为关键点在物种间共享。SPair-71 k[48]包含具有复杂背景的多个人造物体的场景，但这些对来自同一类，数据集的大小相对较小。概述见表1。仅明确收集SPair-71 K中的注释，重点关注语义对应性评估。对于其他数据集，没有预定义的图像对或标准化的对应评估分割。在现有文献中，选择随机图像对，直接比较具有挑战性的替代方法[79，40，14]。由于关键点注释在这些数据集中的实例之间在语义上是一致的，因此我们创建了拆分其中随机图像对是从数据集的测试分割中选择的。我们将公布这些分裂，以帮助未来的评估。4.3实现细节我们用两种不同类型的骨干模型为我们的特征编码器进行实验。对于CNN，除非另有说明，否则我们从大小为384 384的图像中提取特征，并使用来自ResNet-50的conv 3层[22]。对于Transformer，8 8个修补程序来自224 224幅步幅为8的图像用作输入（类似于[2]），我们提取第九层736个维度特征。我们还调查了监督和自我监督的训练有素的骨干。监督和自监督CNN来自[22]和[10]，Transformer模型分别来自[36]和[7]。除非另有说明，否则我们使用标准PCK指标报告结果，+v：mala2255获取更多论文10Ayguên和MacAodhaα= 0。1与其他方法进行直接比较我们将温度τ1设为0.2 ASYM的τ2为0.4。我们在补充材料中提供了不同温度值的评估和其他实施细节。5实验在我们的实验中，我们试图回答以下问题：i）当前的无监督对应方法在具有挑战性的数据集上的表现如何ii）骨干架构和预训练目标的选择如何影响性能，iii）预训练数据源如何影响性能，iv）用于微调对应模型的数据源如何影响性能，以及最后，v）当前的误差源是什么，以及因此需要做什么来缩小当前技术水平的监督方法和非监督方法之间的差距。5.1无监督通信目标为了评估第二节中概述的无监督对应方法。 3，在表2中，我们在来自冻结的预先训练的骨干节点的嵌入之上训练线性投影头ρ。还提供了其他基线，包括：直接来自骨干模型的预训练特征，没有投影（无），非负矩阵分解（NMF），主成分分析（PCA），使用随机权重矩阵的投影，以及监督投影，其中我们优化了Eqn中的目标。1使用地面实况关键点对。我们将CNN和Transformer作为骨干进行探索，监督或自我监督的方式。总的来说，我们提出的ASYM方法在所有数据集上都获得了比其他无监督方法更好的分数，与骨干或预训练方法的选择无关，但AFLW人脸数据集除外。相比对于LEAD，我们提出的自适应提高了视觉多样性高的数据集（即非人脸数据集）的性能。EQ和DVE在数据集上的表现很差，在这些数据集中，实例的视觉外观很高，但值得注意的是，这些方法最初是为端到端训练设置而设计的。CL在某些情况下获得了良好的性能，并且在AFLW上是最好的。然而，我们的ASYM方法仍然一贯强大。也许有些令人惊讶的是，基于PCA的投影比大多数基线表现得更好，而NMF表现不佳。PCA的性能可以部分地由原始特征的强度（即无）来解释。虽然业绩在不同的主干中，无监督方法的相对顺序是不同的，相对顺序保持不变5.2骨干模型和预培训目标虽然[12]声称选择CNN或变压器作为骨干模型不会影响性能，但最近[2]使用基于变压器的模型给出了令人印象深刻的对应结果为了进一步探索+v：mala2255获取更多论文揭秘无监督语义对应估计11表2：不同无监督语义对应方法的比较。在这里，我们改变骨干模型和预训练策略。在相应的评估数据集上训练非监督对应方法(a) =Sup.预训练-CNN（b）= Unsup。预训练-CNN投影（ρ）Spair-71 K SDogs CUB AFLW Awa投影（ρ）CUB AFLW Awa没有一31.834.951.357.428.8没有一30.734.347.564.327.6NMF27.433.949.653.628.0NMF20.619.944.040.815.6PCA32.235.553.157.829.7PCA27.429.850.751.024.1随机26.930.543.154.923.4随机26.631.540.060.223.3监督38.753.272.780.846.1监督39.554.073.483.848.2EQ[64]16.421.228.148.515.6EQ[64]14.320.526.462.815.5DVE[63]16.320.527.758.715.4DVE[63]15.019.428.760.614.7CL[11]30.837.054.567.331.7CL[11]29.737.954.177.133.4[29]第二十九话31.735.151.558.029.1[29]第二十九话30.534.448.364.928.1ASYM（我们的）34.040.4 60.863.634.1ASYM（我们的）33.238.2 54.469.732.1（c）= Sup。预先训练的- Transformer(d) =Unsup。预先训练的-Transformer投影（ρ）Spair-71 K SDogs CUB AFLW Awa投影（ρ）CUB AFLW Awa没有一33.538.066.354.134.1没有一34.142.761.064.236.1NMF23.329.255.551.524.7NMF26.339.051.961.032.9PCA33.038.166.453.934.1PCA34.042.761.064.236.1随机31.936.963.352.931.8随机32.342.159.661.934.6监督38.548.278.270.547.9监督38.152.772.992.047.4EQ[64]15.515.924.060.211.7EQ[64]9.012.515.062.58.8DVE[63]15.417.523.855.611.8DVE[63]8.513.114.160.69.0CL[11]30.535.867.168.431.0CL[11]25.832.354.181.825.0[29]第二十九话32.737.665.853.833.9[29]第二十九话33.642.560.864.235.8ASYM（我们的）33.241.7 72.254.238.5ASYM（我们的）32.945.2 65.265.939.9我们比较了在Imagenet上预训练的模型的特征，或无监督（Unsup.）目标.当使用关键点监督训练投影层时，架构之间的性能差异减小，如通过将监督基线与表2中的原始嵌入（无）进行比较可以观察到的。然而，当投影层在没有监督的情况下训练时，在给定数据集上初始嵌入最好的情况下获得最佳结果。例如，与其他主干模型相比，无监督预训练的Transformer在SDog和Awa数据集上没有投影的情况下获得了最佳结果。与其他预先训练的主干相比，从这些嵌入中训练无监督方法也会产生最佳性能。总之，如果关键点监督可用，则主干的选择不会显著影响最终结果。然而，在无监督的情况下，从良好的嵌入开始是很重要的。此外，预训练策略不会影响CNN的性能，而无监督的Transformer通常比有监督的Transformer表现更好（见表2）。+v：mala2255获取更多论文12Ayguên和MacAodhaImageNet80604020iNatCelebA图3：使用自监督训练来训练CNN特征编码器的不同预训练数据集的影响。对于三个数据集中的每一个，我们报告了不同方法的性能，以单独的点表示5.3预训练数据集在这里，我们将探讨用于训练特征编码器的预训练数据源的影响。我们使用来自 CNN的嵌入来训练对应损失， CNN通过对比自我监督在Imagenet[59]（各种类别），iNat 2021[67]（自然世界类别）或Celeb-A[43]（人脸）上训练。具体来说，我们使用来自[10]的MoCov3用于Imagenet，MoCov2[9]用于来自[67]的iNat，MoCov2[11]用于CelebA。这些结果如图所示3.很明显，预训练数据的选择对所有非监督方法都有影响，Imagenet优于其他来源。CelebA模型在所有任务上都表现不佳，除了AFLW，因为特征可能只包含关于面部的信息iNat2021不包含任何人造对象或狗类别，因此，在其上训练的模型在SDog和Spair上的表现较差。虽然iNat 2021包含许多鸟类图像，但它包含的哺乳动物数量级较少，使其对Awa-Pose的效果较差。5.4微调对应数据集的影响接下来，我们将探讨在一个数据集上训练并在另一个数据集上评估的嵌入是如何可转移的。例如，如果线性投影在狗的图像上训练，然后在鸟类上测试，或者在极端情况下，在人脸上训练，然后在动物类别上测试，会发生什么。对应损失是在sup之上训练的。CNN从表2。结果概述于Fig. 四、与无监督的数据集相比，其他数据集的泛化性能对于监督损失来说很差。在人脸上训练的模型的性能下降最大，但在其他数据上训练并在人脸上测试时，性能不会显著下降一般在Spair-71 k上训练的模型在其他数据集上表现良好。5.5详细错误分析在这里，我们分解了不同的错误类型，以便更好地理解不同方法的失败之处，从而需要改进。我们比较PCK+v：mala2255获取更多论文∼揭秘无监督语义对应估计13ASYMCLDVE监督图4：交叉数据集评估结果。每一行代表测试源数据，每一列是训练给定对应损失的数据集。请注意，颜色映射表是行归一化的。这些结果使用与"Sup“相同的初始编码器。表2中的预训练CNN结果。无监督对应损失和监督投影到 Spair-71 K 上的当前最佳性能方法CAT[12]， CHM[46]和MMNet[79]。结果见表3。对于监督方法，MMNet与所有其他方法相比具有显着更低的未命中错误由于该方法结合了来自不同层的相关性映射，因此能够捕获更多的全局上下文，这有助于减少遗漏。然而，虽然CAT和CHM与MMNet相比产生更多的未命中，但交换减少了，因为它们使用更复杂的聚合方法（6D卷积和注意力）来解决匹配期间的模糊性。此外，由于这两条工作线在错误类型方面相互补充，因此可以将它们结合起来以获得更好的结果。对于无监督的方法，我们看到最常见的错误类型是所有方法中的miss。虽然ASYM与其他非监督方法相比减少了失误，但它不如监督方法好。由于swap是一个匹配已经发生的实例，但是到了错误的关键点，因此根据定义，具有大量未命中的方法ASYM导致更少的未命中，这是理想的，但这增加了交换发生的机会“监督”基线减少了失误，但与更复杂的监督方法相比，它产生了更多的我们认为，虽然更多的监管可能有助于减少失误，但为了减少互换，需要匹配机制，如[12，46]。最后，我们可以看到，我们的PCK指标减少了20%比较在所有情况下都是原始的PCK度量。这表明在五分之一的情况下，源点匹配更接近另一个关键点的区域，而不是正确的对应点。对于某些应用程序，这些错误可能不会严重影响最终性能，而对于其他应用程序，这种差异可能很大。我们在补充材料中提供了其他数据集的额外分析和PCK†5.6讨论和限制我们详尽的实验表明，评估各种具有挑战性的数据集是至关重要的，以便看到当前方法的好处，因为人脸数据重新34.0 30.928.3 25.9 30.238.4 40.431.1 30.956.250.5 60.842.8 51.154.458.2 48.663.6 56.333.5 33.926.6 25.430.8 31.1 31.429.1 31.536.4 37.0 36.835.4 36.949.1 47.554.5 45.6 48.362.7 62.1 62.2 67.330.6 29.9 30.127.0 31.716.313.9 15.517.321.920.5 21.3 23.320.326.224.1 27.725.241.0 41.2 43.9 58.716.014.2 14.8 17.615.438.7 26.724.5 17.4 29.240.1 53.229.0 25.152.540.2 72.725.4 47.657.4 56.6 46.580.8 58.735.1 34.926.9 18.1 46.1+v：mala2255获取更多论文14Ayguên和MacAodha表3：使用两个不同的距离阈值，Spair上无监督和有监督的对应损失的详细错误类型。FT指示主干是否使用关键点监督进行了微调。我们的基准线用的是'Sup.预训练的CNN 所有模型都使用ResNet主干，除了MMNet-FCN[79]。(a) α= 0。1FT方法遗漏↓抖动↓交换↓PCK↑ PCK< $↑CL 51.5 13.7 24.330.8 24.2EQ 68.3 15.0 18.9 16.4 12.8DVE 67.9 14.9 19.7 16.3 12.4铅47.1 13.6 27.4 31.7 25.4ASYM 44.1 13.2 28.6监督40.2 14.9 29.4 38.7 30.4[12]21.0 21.9 42.4 31.7✓[12]19.1 19.1 20.3 39.6✓CHM[46] 40.3 18.2 23.8 44.2 35.8✓MMNet-FCN[79] 28.5 14.7 28.8 52.2 42.6（b）α = 0。05FT方法遗漏↓抖动↓交换↓PCK↑ PCK< $↑CL 71.5 13.2 12.917.7 15.6EQ 85.1 8.8 8.0 7.6 6.9DVE 85.3 9.0 8.3 7.3 6.5铅66.9 12.4 15.9 19.3 17.3ASYM 63.3 12.6 17.5 21.5 19.2监督[12]20.7 20.8 21.6 18.1✓[12]10.7 27.7 24.4✓CHM[46]64.5 18.7 12.4 25.6 23.1✓MMNet-FCN[79]51.7 19.0 18.1 33.3 30.2结果（例如，AFLW）本身可能具有误导性（表2）。虽然无监督性能可能还没有达到完全监督基线的水平，但它们并不遥远，但具有更好地在数据集之间推广的好处（图4）。当前的性能指标（即PCK）不会惩罚所有错误类型，因此导致性能过于乐观（表3）。预训练的选择可能会产生很大的影响，但在大多数情况下，Imagenet预训练是优越的（图1）。3）。由于空间太大，控制所有超参数值是不可行的因此，为了确保公平和受控的比较，我们采用了一个两阶段的管道，冻结骨干模型，正如最近最先进的工作[11]所倡导的那样。我们证明了重要的设计选择，并在补充材料中提供了额外的实验。最后，用于评估对应性的关键点是从通过设计可检测和突出的对象地标中导出的。在未来的工作中，使用来自其他对象部分的附加注释将是有趣的，这些对象部分不一定容易注释，但在实例之间仍然具有语义上有意义的对应关系。6结论我们对现有的无监督语义对应估计方法进行了全面评估，并提出了一种新的方法，该方法始终优于现有方法。我们发现，虽然人脸数据的匹配性能很强，但在更具挑战性的数据集上仍有一段路要走。我们的分析揭示了一些失败的原因，并提供了一些进一步的洞察数据，模型和损失的作用，我们希望这将使其他人能够在这一重要任务上取得进一步的进展致谢：感谢Hakan Bilen和Omiros Pantazis提供的宝贵反馈。这项工作得到了EPS RC和Alan Turing Institute资助的Turing 2.0“启用高级自动化”项目的部分支持。辅助不好辅助不好+v：mala2255获取更多论文揭秘无监督语义对应估计15引用1. Alwassel，H.，海尔布隆足球俱乐部埃斯科西亚，五，Ghanem，B.：诊断时间动作探测器中的错误。In：ECCV. pp. 2562. Amir，S.，Gandelsman，Y.，Bagon，S.，Dekel，T.：深维生素功能作为密集的视觉描述符。arXiv：2112.05814（2021）3. Araslanov，N.，Schaub-Meyer，S.，罗斯，S.：用于视频分割的密集无监督学习。NeurIPS（2021）4. Banik，P.，Li，L.，Dong，X.：一种用于从图像中检测四足动物关键点的新数据集。2021年12月18日，2021年12月185. 比格斯，B.，Boyne，O.，Charles，J.，Fitzgills，A.，Cipolla，R.：谁把狗留在外面了？循环中期望最大化的3d动物重建。在：ECCV（2020）6. 布里斯托，H.，Valmadre，J.，Lucey，S.：密集的语义对应，每个像素都是一个分类器。In：ICCV. pp. 40247. Caro n，M.， Touvron，H.，米斯拉岛， J'egou，H.，Mai

下载后可阅读完整内容，剩余1页未读，立即下载