鲁棒关键点检测的对比学习框架CoKe

119 浏览量更新于2023-10-16 收藏 15.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

μ1μ21 650CoKe：用于鲁棒关键点检测的对比学习0白雨桐1 * 王昂天1 * Adam Kortylewski2,3† Alan Yuille1†01约翰霍普金斯大学2弗莱堡大学3马克斯-普朗克计算机科学研究所0摘要0在本文中，我们介绍了一种用于关键点检测的对比学习框架（CoKe）。关键点检测与其他应用对比学习的视觉任务不同，因为输入是一组带有注释的图像，其中包含多个关键点。这要求对比学习要进行扩展，使得关键点能够独立地表示和检测，从而使关键点特征与彼此和背景不同。我们的方法有两个好处：它使我们能够利用对比学习进行关键点检测，并且通过独立检测每个关键点，与尝试联合检测所有关键点的整体方法（如堆叠沙漏网络）相比，检测更加鲁棒。我们的CoKe框架引入了几个技术创新。特别是，我们引入了：（i）一个杂波库来表示非关键点特征；（ii）一个关键点库，用于存储关键点的原型表示，以近似关键点之间的对比损失；（iii）一个累积移动平均更新，用于在训练特征提取器时学习关键点原型。我们在一系列不同的数据集（PASCAL3D+，MPII，ObjectNet3D）上的实验证明，我们的方法对于关键点检测的效果与其他方法相当，甚至更好，即使对于人体关键点，文献中已经有很多研究。此外，我们观察到CoKe对于部分遮挡和以前未见过的物体姿势异常鲁棒。01. 引言0语义关键点，如人体的关节，以其形状和姿势提供了对视觉对象的简洁抽象。准确的关键点检测对于许多视觉理解任务至关重要，包括视点估计[30]，人体姿势估计[5]，动作识别[26]，特征匹配[24]，图像分类[46]和3D重建[20]。有0* 共同第一作者†共同通讯作者0最小化距离最大化距离0杂波样本0杂波样本0KP 1样本 KP 2样本0图1.我们方法的直觉。图像块描绘了两个不同关键点（蓝色和红色边框）和背景杂波（灰色边框）的特征表示。星形图形说明了对应关键点特征的平均表示µ1和µ2。我们的方法学习了一个表示空间，使得以下三个距离被优化：（1）相同关键点特征之间的距离很小，即它们紧密聚集在它们的均值周围。（2）关键点聚类之间的距离最大化。（3）杂波特征与关键点中心之间的距离最大化。0关键点检测有许多不同的方法。常见的方法包括应用回归损失[28,21]，分类损失[14]或这两者与对象的3D几何模型的组合[48]。近年来，对比学习的研究在表示学习方面取得了重大进展[7, 13,27]，相对于传统的损失函数（如交叉熵），在鲁棒性和数据效率方面表现出了优势[22]。然而，计算机视觉中对比学习的大部分工作都集中在图像分类任务上，对于如何将对比学习应用于关键点检测仍然不清楚。在本文中，我们介绍了一种用于关键点检测的对比学习框架（CoKe）。关键点检测与其他应用对比学习的视觉任务不同，如人脸识别[33]或无监督学习[13]，因为输入是一组图像。2 660其中多个关键点被注释。为了使关键点检测器的对比学习成为可能，我们需要独立地表示和检测关键点，以便对比损失可以使关键点特征彼此不同且与背景不同。这与当前流行的关键点检测方法（如堆叠沙漏网络[?]）非常不同，后者试图联合检测所有关键点。我们的方法有两个优点：它使我们能够利用关键点检测的对比学习，并且通过独立检测每个关键点，检测可以相对于整体方法更具鲁棒性（如我们的实验所示）。我们的CoKe框架引入了几个技术创新。具体而言，我们发现关键点表示的对比学习需要在特征空间中优化三种距离（图1）：（1）相同关键点的特征之间的距离应该很小。但是计算所有相同关键点特征之间的距离的计算成本与它们的数量的平方成正比。我们通过引入每个关键点的平均原型表示（图1中的星号）将计算成本降低为线性。（2）不同关键点的特征之间的距离应该很大。不同关键点特征之间的距离比较次数是关键点和训练图像数量的组合。为了管理这个计算负担，我们引入了一个关键点库，它存储所有关键点的原型表示，并允许有效计算不同关键点原型之间的距离（图1中的粗体橙色箭头）。（3）关键点特征与背景杂波特征（图1中的灰色方块）之间的距离应该很大，以减少误报检测。然而，图像中的大多数特征都是杂波特征，计算与所有特征之间的距离是不可行的。因此，我们引入了一个杂波库，用于跟踪与关键点特征空间上接近的杂波特征，因此最难以区分。所提出的近似方法实现了关键点检测器的高效对比学习。我们在包括PASCAL3D+、MPII和ObjectNet3D在内的几个数据集上评估了CoKe。我们观察到CoKe在所有这些数据集上表现良好，通常甚至比SOTA相关工作（堆叠沙漏网络，MSS-Net[21]）和使用详细的3D对象几何信息的方法（StarMap[48]）更好。这些结果非常显著，因为CoKe在所有这些数据集上都表现良好，而例如，在MPII上取得的最佳结果通常是专门用于人体关键点检测的架构。我们还观察到，与相关工作相比，CoKe对部分遮挡和未见过的物体姿势异常鲁棒。我们的主要贡献是：01. 我们引入了一个关键点检测的对比学习框架。02.CoKe在刚性和关节对象的各种关键点检测数据集上表现非常好。03.CoKe在部分遮挡和以前未见过的物体姿势方面表现出异常的鲁棒性。02. 相关工作0关键点检测。关键点检测是计算机视觉中广泛研究的问题。流行的应用包括检测人体关节[5, 28, 36,37]或刚性物体上的不同位置[42, 38, 30,48]。早期的方法依赖于局部描述符[11, 32, 45, 8,10]，这些描述符具有显著和不变性[25]。虽然使用局部描述符的方法已被证明对遮挡和背景杂波具有鲁棒性，但它们被端到端训练的深度学习方法超越了[28]。Toshev等人[37]首次训练了一个用于2D人体姿势回归的深度神经网络，Li等人[23]将这种方法扩展到3D。从Tompson等人的工作开始[36]，基于回归的关键点检测方法变得非常流行。它们通过回归热图表示来进行关键点检测。这些方法在检测关节和刚性物体的关键点方面表现出特别好的性能[28]，因为它们可以隐含地利用关键点之间的结构信息来解决局部模糊的关键点检测。Tulsiani等人[38]提出了通过显式集成2D和3D模型来整合关键点之间的结构信息的方法，这激发了许多后续工作，特别是针对刚性物体[48, 38,30]。监督对比学习。对比学习起源于度量学习[6, 41,31]，通过优化该空间中样本对的相似性来学习表示空间。直观地说，监督对比学习旨在减小同一类别特征表示之间的距离，同时增加来自不同类别的样本之间的距离。常见的例子使用样本对进行损失计算[12]，三元组[33]或N对元组[34]。最近，对比学习在自监督学习[7, 13, 43, 27,16]中引起了研究界的关注。自监督学习设置中的主要区别在于，正样本通常是使用数据增强[9]或查询样本的共现[18,35]生成的，而负样本则是同一小批次中的其他图像。虽然大多数监督对比学习[22]侧重于学习完整图像的整体表示，但在本文中，我们针对一个更细粒度的任务-关键点检测。关键点是定位的图像模式Dintra(f ik) =N�j=1d(f ik, f jk) ≈ d(f ik, µk).(1)Dinter(f ik) =kKkNj=1d(f ik, f jk′) ≈kKkd(f ik, µk′).Dclutter(f ik) ≈�c∈Cd(f ik, θc).(3)∗ (1 − α).(4)3 670因此，需要学习局部特征嵌入。主要挑战在于局部图像模式可能存在高度的歧义性（例如，一辆汽车的前轮和后轮），因此需要一个对比学习框架来学习消除局部表示的歧义性，同时能够学习一个可以准确定位的独特表示。03. CoKe: 对比关键点学习0在本节中，我们介绍了对比关键点学习的框架，然后讨论了我们方法的直觉和训练流程，以及如何在推理过程中进行关键点检测。03.1. 训练 CoKe0我们用 Φ 表示特征提取器。给定输入图像 I i，它计算特征图 Φ( I i ) = F i ∈ R H × W × D ，其中 i是训练数据中的图像索引 { I i | i ∈ { 1 , . . . , N }}。使用关键点注释，我们从特征图 F i中检索相应的关键点特征 f i k ∈ R D 用于关键点 k ∈ K。类似地，我们可以（随机地）选择一个非关键点位置作为杂波点，并从特征图 F i 中检索一组杂波特征 { f i c ∈ RD | c ∈ { 1 , . . . , C }} 。我们将两个特征之间的距离定义为 d ( ∙ , ∙ )。在训练过程中，我们学习一个优化特征空间中以下距离的特征提取器：(1)特征提取器在训练过程中的一个目标是通过最小化目标来最小化所有训练图像中相同关键点的特征之间的距离（即关键点内距离）0然而，正如我们在介绍中所述，计算一个关键点的特征向量从一个图像 f i k到所有其他训练图像中对应向量的距离是不切实际的。为了解决这个计算问题，我们定义了一个原型关键点特征 µ k，它代表了关键点 k的平均特征。我们将完整目标的计算近似为与相应的平均表示 d ( f i k , µ k ) 的距离。我们将所有关键点的原型特征 {µ k }存储在一个关键点库中，并在训练过程中更新它们。(2)特征提取器的第二个目标是最大化不同关键点之间的特征距离（即关键点间距）。这需要计算一个特定关键点 k与所有其他关键点 k ′ 之间的特征表示的距离0所有训练图像：0(2)我们通过计算与关键点库中的原型特征的距离来近似这个目标。(3)特征提取器的第三个目标是最大化关键点特征与所有杂波特征之间的距离。在最理想的情况下，这涉及计算关键点特征f i k与所有训练图像中的每个杂波特征之间的距离。为了避免计算这么多距离，我们通过在杂波库中存储一部分杂波特征 {θ c , c ∈ C } 来近似这个目标。这使我们能够用0这三个近似使得在可行的计算负载下优化整体目标成为可能。由于特征提取器的参数在学习过程中会发生变化，因此需要更新杂波库中的杂波特征 f c 以及原型 µ k。为了实现这一点，我们采用EM类型的优化过程。首先，我们通过从训练数据中随机抽样杂波特征来初始化杂波库，并通过计算每个关键点在训练数据中的平均特征来初始化原型 µ k =0N。利用这些初始估计，我们可以计算整体目标并训练特征提取器。在训练特征提取器时，我们更新杂波库和关键点库。我们以交替的方式执行这些更新。03.1.1 关键点和杂波库更新0图2说明了在训练过程中更新关键点原型和杂波库的过程。关键点库更新。在学习特征提取器时，计算原型关键点特征µk是具有挑战性的，因为我们希望避免重新计算所有训练图像上的原型关键点µk=0在每个梯度步骤之后，我们不会计算样本均值。相反，我们通过累积移动平均来近似样本均值。具体而言，我们使用大小为m的训练批次来更新µk：0µk ← µk � α + � mi=0 fi k0杂波库更新。杂波库包含有限数量C个杂波特征{θc, c ∈C}。实际上，杂波库的大小取决于可用的资源。K1K2K3K4K5K6C1C2C3C4C5C6C7C8C9C10C11C12K1K2K3K4K5K6F1F2F3F4F5F6K1*α+F1*(1-α) K2*α+F2*(1-α) K3*α+F3*(1-α) K4*α+F4*(1-α) K5*α+F5*(1-α) K6*α+F6*(1-α) C1C2C3C4C5C6C7C8C9C10C11C12C1C2C3C4C9C10C11C12F1F2F3F4F5F6F7F8F9F10* α + * (1 - α)d(fa, fb) = (fa − fb)2 = 2 ∗ (1 − fa · fb).(5)L(f ik, {µk}, {θc}) =f ik µk4 680关键点0库0杂波库0累积<0移动<平均<更新0F7F8F9F100F7F8F9F100标签=20标签=00标签=10更新前<更新后0主干网络0位置*采样0随机*采样0关键点特征0杂波<特征0L2*归一化0网格*包含*关键点网格*不包含*关键点0标签=10标签=20标签=00更新过程0替换0库0根据0到0最小标签0关键点特征0杂波特征0损失0图像特征张量特征图0图2.描述关键点和杂波库更新过程。首先，提取输入图像的特征图。经过降维和L2归一化后，我们检索关键点特征（F1-F6）和随机选择的杂波特征（F7-F10）。关键点库使用累积移动平均更新。杂波库根据时间标签用（F7-F10）替换杂波库中最旧的特征。0GPU内存，并且我们观察到，库越大，训练性能越好（见实验部分）。我们通过根据时间标签将当前训练批次中的新提取特征替换为杂波库中最旧的杂波特征来在训练过程中更新杂波库。03.1.2 特征提取器训练0在使用SGD训练特征提取器时，我们在每个梯度步骤中冻结关键点库和杂波库，并使用它们来计算特征提取器权重的梯度更新。为了计算两个特征向量之间的距离，我们使用L2距离：0上述方程中的最后一步利用了我们模型中的所有特征都是L2归一化的事实。从公式5中可以看出，我们可以通过最大化fik ∙ µk来最小化D intra(fik)。类似地，我们可以通过最小化{fi k ∙ µk' |�k' ∈ K \{k}}和{fi k ∙ θc |�c ∈ C}来最大化D inter(fi k)和D clutter(fik)。为了同时优化这些项，我们0我们使用非参数化的softmax作为我们的损失函数。因此，每个关键点特征的损失计算如下：0∑0k′∈Kefik∙µk′+∑0c′∈Cefik∙θc0(6)其中{µk}是关键点库，{θc}是杂乱点库。杂乱采样损失。一个技术问题是杂乱点库中的特征是从大量训练图像中复制的，因此不可能直接计算相对于{θc}的梯度，因此特征提取器对于杂乱特征没有进行优化。这个技术限制使得相对于杂乱距离Dclutter(fik)的优化收敛缓慢，特别是当杂乱点库很大时。为了使训练更高效，我们提出了杂乱采样损失，它使用当前训练批次中的采样杂乱特征fic，并直接最大化杂乱到关键点的距离：0L(fic,{µk})=∑0k′∈Kfic∙µk′. (7)5 690因此，训练特征提取器的最终损失为：0L(Fi,{µk},{θc})=∑0k∈KL(fik,{µk},{θc})+∑0c∈CL(fic,{µk}).03.2. 使用CoKe模型进行推断0接下来，我们描述了单个类别关键点的检测过程，但请注意，这可以轻松扩展到多个类别。图3说明了使用CoKe进行推断的过程。为了定位测试图像Ii上关键点k的预测关键点位置pk，我们采取以下步骤：提取特征图Φ(Ii)=Fi，使用训练好的特征提取器Φ。使用原型µk，k∈K计算所有特征向量f∈Fi的每个像素特征距离d(f,µk)，并将检测分数存储在输出S∈RH×W×K中。对于每个关键点，在S中选择具有最高检测分数的位置p。将p投影回原始图像坐标。04. 实验0在本节中，我们通过实验证明了CoKe并将其与相关工作进行了比较。我们首先描述了实验设置，将CoKe与多个不同数据集上的相关工作进行了比较，并研究了它们对部分遮挡的鲁棒性。然后通过消融研究来讨论定性结果。04.1. 实验设置0评估协议。评估使用标准的正确关键点百分比（PCK）度量来完成，该度量报告了在与地面真实值的归一化距离范围内的检测百分比。我们在PASCAL3D+、ObjectNet3D和OccludedPASCAL3D+数据集上使用PCK=0.1遵循标准实验协议。对于MPII数据集，我们使用PCKh=0.5作为评估指标。距离通过头部尺寸的一部分进行归一化（PCKh）。我们遵循通用协议，通过计算所有测试图像上可见关键点的平均准确率来评估每个对象类别。训练设置。我们对所有数据集使用标准的训练-验证-测试分割。我们使用批量大小为64进行训练。对于每个图像，我们随机选择一组20个杂乱点。完整的杂乱点库包含1024个这样的组。我们选择杂乱特征在特征图中与关键点注释之间的距离在两个像素之内。我们使用非参数化的softmax[43]来计算特征和库之间的相似度。控制分布浓度水平的温度参数[17]设置为τ=0.7。PASCAL3D+数据集。该数据集包含12个人造物体类别，共有11045个训练图像。0和10812个评估图像。与以前的工作[48，38]不同，我们对所有图像进行评估，包括遮挡和截断的图像。MPII数据集。MPII人体姿势[1]包含从各种人类活动中拍摄的图像，具有各种具有挑战性的关节姿势。关键点的可见性已经进行了注释，使我们能够报告完整数据集以及部分遮挡的人体数据。ObjectNet3D数据集。ObjectNet3D包含常见的日常生活物体，与PASCAL3D+相比更加困难，因为它包含更多罕见的视点、形状和被遮挡的截断物体。我们测试了九个类别，根据其高注释准确性进行选择，因为ObjectNet3D的一些类别由于该数据集的复杂性而具有低质量的注释。OccludedPASCAL3D+数据集。虽然在真实图像上评估部分遮挡对象的算法很重要，但模拟遮挡使我们能够更准确地量化部分遮挡的影响。我们使用了一个类似的数据集，该数据集用于对象检测中的关键点检测，提出了[39]。它包含PASCAL3D+数据集的所有12个类别，以不同程度的遮挡水平。该数据集总共有3个遮挡级别，Lv.1：20-40％，Lv.2：40-60％和Lv.3：60-80％的物体区域被遮挡。04.2. 在不同数据集上的性能0PASCAL3D+和OccludedPASCAL3D+。表10展示了在PASCAL3D+数据集上的关键点检测结果，使用了三种不同的主干网络：ResNet-50[15]，Stacked-Hourglass-Network和Res-UNet[47]。我们还展示了原始论文中报告的StarMap[48]的性能。请注意，StarMap使用3D模型作为额外的监督来共同推理关键点的相对位置。CoKe在所有主干网络上的性能始终很高。最近开发的Res-UNet架构取得了最高的性能。与使用回归损失训练的原始Stacked-Hourglass-Network（SHG）相比，我们可以明显观察到性能的大幅提升。值得注意的是，在强遮挡情况下，性能差异非常明显。我们认为CoKe对遮挡更具鲁棒性的原因有两个：1）它通过仅基于局部表示来主动优化区分关键点特征和杂波特征，这可能有助于减小有效感受野的大小，从而减少遮挡的负面影响。2）CoKe存储了大量图像中的杂波表示，因此可以更好地学习区分关键点和杂波。总体而言，我们的结果清楚地表明CoKe在与相关工作的竞争中非常有竞争力，同时对部分遮挡具有很高的鲁棒性。在表2中，我们展示了对未见姿势的额外鲁棒性。K1K2K3K4K5K6K7K1K2K3K4K5K6K7CNN ArgMaxPASCAL3D+SHG68.046.543.239.949.4MSS-Net68.946.642.939.649.5StarMap78.6----CoKe-Res5077.067.659.953.464.4CoKe-SHG78.366.358.452.363.8CoKe-ResUnet80.368.559.154.065.5PASCAL3D+CoKe-SHG94.084.0SHG94.273.66 700关键点库0主干网络01*1+卷积0特征图图像响应图关键点检测0图3.使用CoKe进行关键点检测。我们首先在输入图像的不同位置提取特征表示。关键点库中的每个关键点都有一个独立的表示，用作卷积核来计算响应图。最大响应的位置用作预测结果。彩色框表示真实值，点表示预测结果。0图4.CoKe-Res50的表示可视化的八个示例。对于每个子图，顶部是带有关键点注释的原始图像，用红点标记。底部是由CoKe-Res50预测的响应图。值得注意的是，尽管存在来自误报、遮挡、罕见视点、不同领域、不规则外观和不规则状态以及罕见视点的困难，所有关键点都被准确检测到。0未见物体姿势。我们将Pascal3D+汽车类别的方位姿势分为4个箱子：前、后、左、右。我们在前面和后面的子集上训练CoKe，并在已见（7305张图像）和未见（3507张图像）姿势上分别进行测试。表2显示，与SHG相比，CoKe对未见姿势更具鲁棒性。0遮挡级别 Lv.0 Lv.1 Lv.2 Lv.3 平均0表1.在PASCAL3D+上不同级别的部分遮挡下的关键点检测结果（Lv.0:0%，Lv.1:20-40%，Lv.2:40-60%，Lv.3:60-80%的物体被遮挡，L0是原始数据集）。CoKe优于基准模型，并且对部分遮挡具有很高的鲁棒性。0已见姿势未见姿势0表2.关键点检测器对未见姿势的鲁棒性。对于汽车类别，我们使用方位角注释将PASCAL3D+的训练集和测试集分为4个箱子。我们在前面和后面的子集上训练CoKe，并在已见和未见姿势下进行测试。0MPII。我们在表3中将基于SHG骨干的CoKe与一些相关工作进行了比较。CoKe-SHG再次表现出高竞争力，并且在一小但显著的程度上优于相关工作。表40在MPII数据集上，我们比较了CoKe-SHG和SHG在有遮挡和无遮挡关键点检测方面的性能。我们可以观察到CoKe在遮挡场景下的结果明显优于SHG。与最近的竞争基线RSNs[4]相比，我们可以观察到RSN在整个数据集上的性能更高，这是由于其先进的架构。MPIICoKe-SHG91.4MPIIObjectNet3DSHG31.035.132.241.933.9CoKe-SHG36.437.637.845.236.1SHG66.852.344.645.842.62CoKe-SHG70.257.751.349.646.88PASCAL3D+SHGs68.067.878.3Res5068.969.377.0ResUnet69.770.280.37 710中的模型参数超过我们的模型四倍以上。然而，我们观察到该模型在人物被遮挡时性能下降相对较高，因此它不如我们使用标准的Stacked-Hourglass骨干的模型鲁棒。我们还看到我们的模型在使用更先进的骨干时性能有进一步提升的潜力。0RecurrentPose[2] 88.1PoseMachines[40] 88.5DeeperCut[19] 88.5PartHeatmap[3] 89.7SHG[28] 90.9DualPathNetworks[29] 91.2PoseRegression[3] 91.20表3. 与基于回归的算法相比，在MPII上的关键点检测结果。0完全遮挡0SHGs 90.1 84.3 RSN [4]92.7 86.9 CoKe-SHG 91.486.70表4.CoKe-SHG和SHG在原始和具有挑战性场景下的MPII上的关键点检测结果。0ObjectNet3D。我们在表5中比较了SHG和CoKe-SHG在ObjectNet3D上的性能。CoKe-SHG在每个类别上都明显优于SHG。由于ObjectNet3D数据集包含更具挑战性的场景，我们认为CoKe更加鲁棒。0咖啡烘干机水壶罐子洗0可以计算眼镜吉他平均0表5. ObjectNet3D+ [44]上的关键点检测结果。0总之，我们观察到CoKe是一个通用的框架，在各种不同特征的骨干架构和数据集上始终能够达到非常高的性能，并且对遮挡具有很高的鲁棒性。04.3. 定性结果0关键点检测图的可视化。我们在图4中展示了来自CoKe-Res50的部位检测图。图像选自PASCAL3D+中的汽车类别。0骨干网络 Reg Class CoKe0表6.CoKe训练策略的消融研究，与标准回归或分类训练损失进行比较。0在姿态、光照和物体结构发生复杂变化的情况下，我们可以看到所有关键点都能准确检测到，尽管存在假阳性、遮挡、罕见视角、不同领域和不规则外观等困难因素。我们可以观察到CoKe在这些具有挑战性的场景中具有鲁棒性。遮挡下的检测结果可视化。我们在图5中展示了定性结果。总体而言，这些插图展示了CoKe对部分遮挡的鲁棒性。任何不在遮挡物附近的关键点都能被正确检测到，不受遮挡的影响。此外，部分遮挡的关键点（例如车轮）仍然能够被稳定地定位，尽管检测结果可能会偏离遮挡物。重要的是，我们没有观察到在局部模糊的关键点上出现假阳性检测。这表明CoKe利用感受野来消除关键点的歧义，同时能够准确定位各个关键点。推理时间和内存消耗。在推理过程中，CoKe-Res50（参数：23M，准确率：77%）每张图像需要0.01秒，而SHGs（参数：25M，准确率：68%）需要0.06秒。对于内存消耗，当批量大小为1时，CoKe-Res50需要715MB，SHGs需要786MB。CoKe在推理时间上具有优势，同时保持了内存消耗的竞争力。04.4. 消融研究0与其他损失的比较。在表6中，我们对比了对不同骨干架构使用对比学习与其他常见损失的效果。具体来说，我们将其与SHGs中使用的回归损失和监督分类损失进行比较。分类基准使我们能够将对比学习与交叉熵损失进行比较。我们将关键点检测实现为一个分类问题，通过使用训练数据中地面真实关键点位置的特征作为不同类别的实例来训练骨干架构，使用交叉熵目标进行训练。在测试过程中，我们使用训练集的平均表示作为部分检测器，类似于CoKe流水线中的方法。因此，与CoKe训练的主要区别在于不使用对比损失和杂乱特征库。从结果中，我们观察到我们的关键点检测表示学习公式始终以较大的优势优于其他损失。杂乱特征库机制在表7中，我们研究了杂乱特征和杂乱采样对结果的影响8 720图5.PASCAL3D+中人工遮挡对象和MPII中人体在不同程度部分遮挡下的定性检测结果。点表示CoKe的检测结果。彩色圆圈表示PCK=0.1的地面真实位置，MPII表示PCKh=0.5的地面真实位置。注意即使在强遮挡下，CoKe也非常稳健。0遮挡级别 Lv.0 Lv.1 Lv.2 Lv.30无杂乱 79.3 75.4 71.8 65.8 图像特定杂乱 92.8 82.7 76.569.20杂乱特征库（64组）93.0 83.6 80.1 73.3杂乱特征库（256组）94.3 84.3 77.7 71.0杂乱特征库（1024组）95.5 85.9 79.0 70.60杂乱特征库无杂乱采样损失 94.2 83.1 76.8 68.00表7.在PASCAL3D+上进行消融研究，使用不同设置：无杂乱特征，图像特定的杂乱特征（使用同一图像中的20个特征作为杂乱示例），我们提出的不同组数的杂乱特征库（每个组包含20个特征）以及停用杂乱损失。注意一般情况下使用杂乱特征的好处，特别是使用大型杂乱特征库的重要性，以及杂乱采样损失的重要性。0对比学习结果的损失。特别是，该表显示了PASCAL3D+数据集中汽车类别上CoKe-Res-UNet的关键点检测结果。我们观察到当训练过程中不使用杂乱特征时，性能显著下降。这个基本设置的扩展是使用图像特定的杂乱特征，但不维护杂乱特征库。特别地，我们使用与标准设置中的硬负采样机制相同的方式从同一图像中选择杂乱特征作为杂乱特征。从结果中，我们观察到使用图像特定的杂乱特征显著提高了性能。然而，使用我们提出的杂乱特征库机制可以获得最佳性能。特别地，结果显示了一个一般趋势，即存储在库中的特征越多，性能越高。值得注意的是，较低的遮挡情况受益于较大的杂乱特征库，而对于较强的遮挡，较小的杂乱特征库更有益。最后，我们的消融研究表明，通过使用杂乱采样损失明确地使杂乱特征与关键点库不同是非常重要的。0有益的。0累积移动平均更新我们还研究了累积移动平均更新的重要性。这里我们提供另一种可能的方法：平均近似。特别地，我们每10个时期计算整个数据集的平均值。我们报告了在PASCAL3D+数据集的汽车类别上使用CoKe-Res-UNet的结果。我们观察到关键点检测准确性的降低，如L0：94.2→88.7，L1：83.1→80.0，L0：76.8→75.0，L0：68.0→68.9。总的来说，使用我们提出的累积移动平均更新机制可以获得最佳性能。05. 结论0在本文中，我们从对比学习的角度研究了关键点检测。我们的对比关键点学习框架（CoKe）通过几种高效的近似方法实现了关键点检测的对比表示学习：（i）一个杂乱银行来近似非关键点特征；（ii）一个关键点银行，用于存储关键点的原型表示，以近似关键点内部距离；（iii）一个累积移动平均更新，用于在训练特征提取器的同时学习关键点原型。我们在几个不同的数据集（PASCAL3D+，MPII，ObjectNet3D）上的实验证明，CoKe非常通用，并且对刚性和关节对象都表现良好。与相关工作相比，CoKe在性能上更高，同时对部分遮挡和未见过的物体姿势更加鲁棒。0致谢. AK通过德国科学基金会(DFG)的EmmyNoether研究小组资助，项目编号468670075.9 730参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, 和Bernt Schiele. 2D人体姿势估计: 新的基准和最新技术分析. 在IEEE计算机视觉和模式识别会议 (CVPR) , 2014年6月. 50[2] Vasileios Belagiannis 和 Andrew Zisserman.循环人体姿势估计. 在2017年第12届IEEE国际自动人脸与手势识别会议 (FG 2017) ,页468–475. IEEE, 2017. 70[3] Adrian Bulat 和 Georgios Tzimiropoulos.通过卷积部分热图回归进行人体姿势估计.在欧洲计算机视觉会议上 , 页717–732. Springer, 2016. 70[4] Yuanhao Cai, Zhicheng Wang, Zhengxiong Luo, Binyi Yin,Angang Du, Haoqian Wang, Xiangyu Zhang, Xinyu Zhou,Erjin Zhou, 和 Jian Sun. 学习精细的局部表示进行多人姿势估计.在欧洲计算机视觉会议上 , 页455–472. Springer, 2020. 6 , 70[5] Zhe Cao, Tomas Simon, Shih-En Wei, 和 Yaser Sheikh.实时多人2D姿势估计使用部分亲和场. 在计算机视觉和模式识别IEEE会议论文集 , 页7291–7299, 2017. 1 ,20[6] Gal Chechik, Varun Sharma, Uri Shalit, 和 Samy Ben- gio.通过排名学习图像相似性的大规模在线学习. 在伊比利亚模式识别和图像分析会议上 , 页11–14. Springer, 2009.20[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, 和 Ge-offrey Hinton. 对比学习视觉表示的简单框架.arXiv预印本arXiv:2002.05709 , 2020. 1 , 20[8] Christopher B Choy, JunYoung Gwak, Silvio Savarese, 和Manmohan Chandraker. 通用对应网络.arXiv预印本arXiv:1606.03558 , 2016. 20[9] Ekin D Cubuk, Barret Zoph, Dandelion Mane, VijayVasude- van, 和 Quoc V Le. Autoaugment:从数据中学习增强策略. arXiv预印本arXiv:1805.09501 , 2018. 20[10] Peter R Florence, Lucas Manuelli, 和 Russ Tedrake.密集对象网络: 通过和为机器人操作学习密集视觉对象描述符.arXiv预印本arXiv:1806.08756 , 2018. 20[11] Nicolas Gourier, Daniela Hall, 和 James L Crowley.对姿态、光照和身份鲁棒的面部特征检测. 在 2004IEEE国际系统、人和控制会议 (IEEE Cat. No. 04CH37583) , 卷1,页617–622. IEEE, 2004. 20[12] Raia Hadsell, Sumit Chopra, 和 Yann LeCun.通过学习不变映射进行维度降低. 在2006年IEEE计算机学会计算机视觉和模式识别会议 (CVPR’06) ,卷2, 页1735– 1742. IEEE, 2006. 20[13] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and RossGirshick. 动量对比用于无监督视觉表示学习.arXiv预印本arXiv:1911.05722 , 2019. 1 , 20[14] Kaiming He，Georgia Gkioxari，Piotr Doll´ar和RossGirshick. Mask R-CNN.在IEEE国际计算机视觉会议上，页码2961-2969，2017年. 10[15] Kaiming He，Xiangyu Zhang，Shaoqing Ren和Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉与模式识别会议上，页码770-778，2016年. 50[16] Olivier J H´enaff，Aravind Srinivas，Jeffrey De Fauw，AliRazavi，Carl Doersch，SM Eslami和Aaron van den Oord.对比预测编码的数据高效图像识别.arXiv预印本arXiv:1905.09272，2019年. 20[17] Geoffrey Hinton，Oriol Vinyals和Jeff Dean.提取神经网络中的知识. arXiv预印本arXiv:1503.02531，2015年.50[18] R Devon Hjelm，Alex Fedorov，SamuelLavoie-Marchildon，Karan Grewal，Phil Bachman，AdamTrischler和Yoshua Bengio.通过互信息估计和最大化学习深度表示.arXiv预印本arXiv:1808.06670，2018年. 20[19] Eldar Insafutdinov，Leonid Pishchulin，BjoernAndres，Mykhaylo Andriluka和Bernt Schiele. Deepercut:一种更深、更强、更快的多人姿态估计模型.在欧洲计算机视觉会议上，页码34-50. Springer，2016年. 70[20] Angjoo Kanazawa，Shubham Tulsiani，Alexei AEfros和Jitendra Malik. 从图像集合中学习特定类别的网格重建.在欧洲计算机视觉会议(ECCV)上，页码371-386，2018年. 10[21] Lipeng Ke，Ming-Ching Chang，Honggang Qi和SiweiLyu. 用于人体姿态估计的多尺度结构感知网络.在欧洲计算机视觉会议(ECCV)上，页码713-728，2018年. 1 , 20[22] Prannay Khosla，Piotr Teterwak，Chen Wang，AaronSarna，Yonglong Tian，Phillip Isola，Aaron Maschinot，CeLiu和Dilip Krishnan. 监督对比学习.arXiv预印本arXiv:2004.11362，2020年. 1 , 20[23] Sijin Li和Antoni B Chan.利用深度卷积神经网络从单目图像估计3D人体姿态.在亚洲计算机视觉会议上，页码332-347. Sprin

下载后可阅读完整内容，剩余1页未读，立即下载