没有合适的资源?快使用搜索试试~ 我知道了~
11230基于对比学习的单目RGB自监督三维手势估计Adrian Spurr* Aneesh Dahiya* Xi王旭聪张Otmar Hilliges瑞士摘要受对比学习在图像分类任务上的成功的鼓舞,我们提出了一种新的对比学习利用未标记的数据通过损失公式进行表示学习,该损失公式鼓励学习的特征表示在任何图像变换下都是不变的对于3D手部姿态估计,也期望具有对诸如颜色抖动的外观变换的不变性。然而,该任务需要仿射变换下的等方差,例如旋转和平移。为了解决这个问题,我们提出了一个等变的对比对象,并证明其有效性的背景下,3D手姿态估计。我们通过实验研究了不变和等变对比对象的影响,并表明学习等变特征可以更好地表示3D手部姿势估计任务 。 此 外 , 我 们 还 证 明 了 具 有 足 够 深 度 的 标 准ResNets,在额外的未标记数据上进行训练,可以获得高达14的改进。5%的PA-EPE在FreiHAND上,因此实现了最先进的性能,而无需任何特定于任务的专用架构。代码和型号可在https://ait.ethz.ch/projects/2021/PeCLR/1. 介绍从单目图像中估计人手的3D姿态因此,该问题在计算机视觉文献[12,14,15,26,31然而,估计RGB图像内的3D手部关节的位置是具有挑战性的结构化回归问题,其困难来自背景、照明条件、手部外观以及由人手的高自由度引起的自遮挡的大的多样性。注释的数据集,涵盖了更大的多样性en-* 表示平等贡献I) 自监督表征学习II) 有监督的手部姿态估计FreiHAND YouTube3DHandsII)I)+II)(我方)II)I)+ II)(我方)图1:我们提出了一个用于3D手部姿势估计的两阶段框架。I)编码器使用新颖的等变对比目标在未标记数据的大集合上以自监督方式训练。II)预先训练的编码器用很少的标记数据进行微调。由此产生的网络在数据集之间更准确。环境和设置是缓解该问题的一种可能性。然而,获取3D标记的数据是费力的、成本密集的,并且通常需要多视图图像或某种形式的用户仪器。在这种情况下收集的数据通常难以很好地转移到野外图像[20,42]。因此,人们对可以利用辅助数据的方法非常感兴趣,该辅助数据没有或只有2D关节注释。例如,这样的数据可以用于通过利用弱监督[3,4],集成编码器捆绑砝码编码器监督损失等变对比损失...直线头投影头...11231运动学先验[31],或通过利用时间信息[14]。已利用现成的关节检测器[5]来自动生成大量的2D注释[20]。然而,在这些标签上或在从它们导出的3D注释上训练的模型的准确性因此,如何有效地利用未标记数据进行手部姿势估计器训练的问题仍然没有答案。最近,诸如对比学习的自监督方法已经表明,它们可以在图像分类任务上与监督方法达到同等水平[6,8]。这些方法利用未标记的数据来学习强大的特征表示。为此,经由神经网络将正图像对和负图像对对比目标鼓励正对的潜在空间样本彼此靠近,并将负对推开。然后,可以将得到的预训练网络应用于下游任务。正对是通过对图像进行采样并对其应用两组不同的增强来创建的,而负对对应于单独的但类似地增强的图像。这些增强包括外观变换(例如,颜色下降)和几何变换(例如,旋转)。对比性目标在所有这些变换下诱导不变性。然而,3D回归任务(诸如手部姿势估计)固有地要求几何变换下的等效性。因此,从标准对比目标学习的表示可能不能有效地转移到姿态估计。据我们所知,第一次,我们研究了自我监督表示学习技术的3D手姿态估计在本文中。我们推导出一种方法命名为姿势等变对比学习(PeCLR)。我们的核心贡献之一是一个新的配方的对比学习目标,诱导等方差几何变换,我们表明,这允许有效地利用现有的手图像的巨大多样性,没有任何联合标签。这些图像用于预训练网络,然后可以通过监督微调将其转移到最终的手部姿势估计任务。这为手部姿势估计提供了一个有希望的方向,并通过微调具有较少标签的预训练网络,将野外收集的图像或校准轻松转移到特定域图1提供了我们的方法的概述。首先,我们执行自监督表示学习。给定的RGB图像的手,我们应用外观和几何变换,以生成正和负对的衍生图像。这些都是用来训练编码器通过我们提出的等变对比损失。通过取消潜在空间中的几何变换,我们促进了等方差。然而,这些变换的反演并不简单。这是因为图像应该导致潜在空间的成比例变化。因此,需要特别注意的是,由于不同的幅度之间的潜在空间和像素空间下学习投影。我们提出了一个潜在的样本归一化技术,弥补了这种差异,我们表明,由此产生的模型产生改进的姿态估计精度(参见。图1,底部)与监督和标准对比学习进行比较。在第二阶段中,预先训练的编码器在使用标记数据的3D手部姿势估计的任务上被所得到的模型在各种设置中进行了彻底的评估。我们证明了半监督的标签效率提高,并表明使用更多的未标记数据有利于最终性能,在最低标记设置中,3D EPE的性能提高了43%(参见图(六)。接下来,我们证明这种改进也是跨-指的是完全监督的情况,其中使用具有足够深度的标准ResNet与未标记数据组合,并且我们提出的预训练方案优于特定的最先进的架构(参见选项卡. 2)的情况。最后,我们证明了自我监督的预训练导致5的改进。6%的3D PA-EPE,表明预训练有利于跨域泛化(参见选项卡. (3)第三章。概括而言,我们的贡献如下:1. 据我们所知,我们进行了第一次调查的对比学习,以有效地杠杆年龄未标记的数据三维手姿态估计。2. 我们提出了一个对比学习的目标,鼓励外观变换和等变性几何变换的不变性3. 我们进行对照实验,以经验性地得出最佳表现的增强。4. 我们表明,该方法在半监督设置中实现了更好的标签效率,并且添加更多的未标记数据是有益的。5. 我们的经验表明,我们提出的方法优于目前,更专业的国家的最先进的方法,使用标准ResNet模型。代码和模型可用于研究目的:https://ait.ethz.ch/projects/2021/PeCLR/。2. 相关工作手部姿势估计。手姿态估计通常遵循三个范例之一。一些工作直接预测3D关节骨架[4,12,18,26,27,31在[41]中引入了分阶段方法,其中2D关键点直接回归,然后提升到3D。Spurr等人[32]介绍了一个跨模态的潜在空间,它有助于更好地11232我 我∈学习Mueller等人[27]利用合成创建的数据集,并通过GAN减少合成/真实差异。Cai等人[4]利用补充深度监督来增加训练集。在[18]中引入了2.5D表示,提出了更有效的手部表示动作识别以及手/物体姿势估计在[33]中执行。[37]为了更好的图像合成的目的,引入了一种分离的潜在空间。在[12]中,使用基于图形的神经网络来联合细化手/对象姿势引入生物力学约束以细化2D监督数据上的姿势预测[31]。Moon等人[26]预测双手的姿势并考虑它们的相互作用。基于模板的方法,如MANO诱导手姿势的一些方法[1,3,40]直接从RGB估计MANO参数,有时利用弱监督,例如手掩模[1,40]或野外2D注释[3,40]。引入统一的方法来联合预测MANO以及对象网格[15]。 哈森和al. [14]建立在上述框架上,通过光度损失从部分标记的序列中在[25]中提出了MANO的替代方案,其通过预测基础手模型的姿势和主体相关校正。一些方法直接回归手的网格。然而,网格注释难以获取。Ge等人[13]通过引入完全网格注释的合成数据集来解决这个问题,在螺旋卷积的帮助下,在[21]中预测手动网格,使用MANO进行监督。显然,许多工作已经致力于定制,有时高度专业化的体系结构,手姿势估计。相比之下,我们探索了一种纯粹的数据驱动方法,利用未标记的数据和等方差诱导对比公式来实现标准CNN的最先进性能。自我监督学习。自监督学习旨在学习没有任何注释的数据表示文献将前文本任务定义为以自我监督的方式学习表征的特定策略这些任务包括预测第二块相对于第一块的位置[11],对灰度图像着色[39],解决拼图[28],估计场景中像素的运动流[35],预测音频信号中的积极未来样本[29],或者基于两个句子之间的关系完成下一个句子[10]。然而,目前尚不清楚哪一个借口任务将是最佳的给定一个特定的下游任务的性能和概括性。对比学习是自我监督、任务独立学习的一种强大范式。对比学习的核心是从远程学习中出现的一个概念,其中如果一对数据以有意义的方式连接,则鼓励它们在潜在空间而不相关的数据被推开。对比学习的吸引力之一在于可用于训练的大量数据通过这种范式学习一般表示,并已成功用于许多下游任务,如图像和视频分类[6,8,34],对象检测[17,36]和语音分类[29]。然而,对比学习还没有被调查的任务的手姿态估计。对比学习已经在诸如对比预测编码(CPC)[17,29]、对比多视图编码(CMC)[34]和SimCLR [6,7]的作品中被探索。CPC通过预测潜在空间中的未来表示来学习提取表示。自回归模型用于预测未来的许多步骤。中国共产党从过去和未来两个角度学习,CMC将这一思想扩展到多视角学习。它旨在通过最大化相同内容的不同视图之间的相互信息来学习视图不变表示对比学习最相关的框架是一种简单而有效的方法[6]。它在很大程度上受益于数据增强,并且其学习表示在图像分类任务上实现了与监督模型相当的性能。然而,所学习的变换不变特征不适合于结构化回归任务,诸如手部姿势估计,因为这些需要相对于几何变换的在这项工作中,我们通过区分外观和几何变换来扩展SimCLR,并提出了一个模型,该模型可以成功地学习专用于这两种变换的表示。3. 方法我们首先回顾一下Simplified [6]。然后,我们介绍了预训练和微调的整体框架。接下来,我们确定了一个问题与SimCLR对比制定时,应用于手姿态估计,激励我们提出的等变对比目标。最后,我们提出了我们的手部姿势估计模型和在监督训练期间用于3D关键点估计的方法记法。在下文中,我们表示用作T的所有变换的集合。它包含外观变换ta(例如,颜色抖动)、几何变换tg(例如,颜色抖动)。缩放、旋转和平移)以及它们的合成。对于给定的变换ti T,ta、tg对应于变换ti的外观或几何分量。图4显示了本研究中使用的所有转化。3.1. SimCLRSimCLR [6]框架的思想是最大化相似样本表示之间潜在空间的一致性,同时排斥不相似的对。正对是通过在图像上应用各种增强给一组sam-11233编码器投影头捆绑砝码编码器投影头编码器投影头尽量减少协议编码器投影头最大限度地达成一致∈◦我K--我[kik=i]k=1我J我我我 Jf(In)=k=1我 K∈n=1ij联系我们∈↔捆绑砝码图2:方法概述。将增强t=tg ta应用于输入图像In。这里,tg和ta分别表示增强tT的几何和外观分量然后,该模型为每个增强输入生成投影Zn在优化对比目标之前,在投影空间中反转几何增强来自相同输入图像的投影之间的一致性被最大化(左),并且来自不同输入图像的投影之间的一致性被最小化(右)。考虑两个增广视图In,In,其中In=ti(In),In=tj(In),ti,t jT。该框架由编码器E和投影组成头g(·)。总体模型f=g◦E将图像I映射到于T.然而,手部姿势估计需要相对于几何变换的等方差,因为这些几何变换改变所显示的姿势。因此,我们需要:gngn潜在空间样本z Rk,即zn=f(In)。它使用对比损失函数进行训练,该对比损失函数最大化所有正投影对{zn,zn}ij之间的一致性。ti f(Ij)= f(ti(Ij))。(二)隐空间中的逆变换为了满足Eq.2、我们首先注意到它相当于其是从相同的两个增强视图中提取的g−1gnJng−1n图像;图像同时,它也最大限度地减少了协议在负投影对{Zn,Zm}中,其中Zm(ti)f(ti(Ij))zj =(ti)zi。这导致NT-Xent的以下等变修饰:ik k从不同的图像中提取。exp(sim((z<$i,z<$j)/τ)在每次迭代中,SimCLR对正 和负对。对于给定的一批N个图像,两个augmen-Li,j=−logΣ2N1、(3)exp(sim(z,z)/τ)在每个样品上施加2N个增强图像,得到2N个增强图像。因此,对于每个增强图像In,其中z~i=(tg)−1zi且zi∈Rm×2。为了最小化-有一个阳性样本ni最小化Eq. 3它必须保持z~i=z~j,Ij和2(N−1)个负样本Imm=n 。该模型经过训练,可以将阳性样本彼此靠近,而将阴性样本彼此靠近。样本相距甚远。这是通过以下损失函数实现的,在[6]中称为NT-Xentexp(sim(zi,zj)/τ)这导致Eq. 二、更多细节见补充资料。由于tg是仿射变换,因此可以容易地计算其逆变换。然而,而缩放和旋转是相对于图像大小执行的变换,平移是在绝对量方面执行的换句话说,Li,j=−logΣ2N1exp(sim(z,z)/τ)(一)如果我们将图像In平移x个像素,我们需要将其潜在空间投影zn平移一个比例。这里 τ是 一 温度 参数,sim(u,v)=uTv/||u||||v||是zn,zn和乳房因此,我们将zn平移一个与其大小成正比的量。为了实现这一点,我们获得了翻译1[k] i]是指示函数。i,j 与图像大小成比例,并且通过与la中的投影所跨越的范围成3.2. 等变对比表示检查设备1,我们观察到,目标函数促进不变性下的所有转换。给定样本In=tj(In)及其正样本In=ti(In)=帐篷空间为此,我们在将其逆应用于稍后的空间样本zi以撤销变换之前对平移向量v i进行归一化。正规化向量v∈是com。推测如下:v−1jiv=中国(4)[ki]11234JJ我Jti(t (In))=t~i(In),等式(1)中的分子1最小化Lj j j如果f(In)=zn=zn=f(t~i(In))。 其中,Lz=max(zi)-min(zi),L是图像长度。满足等式。1需要对所有变换不变。11235∈∈∈××↓ ↑↓方法×refref2个D潜在空间值的数量因此,所得到的平移矢量在幅度上成比例。最后,我们在这里注意到,由于在方程中使用的余弦相似性在图3中,缩放的效果被有效地消除(即,e. 对于a,b R),si m(azi,bzj)=sim(zi,zj)。完整的等变对比学习框架如图所示二、从预训练到微调。 在使用我们提出的损失函数进行预训练之后,我们对监督手部姿势估计任务的编码器进行了微调。为此,在[6]之后,我们从模型中删除投影层g,并将其替换为线性层。然后,使用损失对整个模型进行端到端训练,如下面第2节所述。三点三3.3. 3D手部姿态估计器我们的手部姿势估计模型使用2.5D表示[18]。 给定图像,网络预测手的2D关键点J 2DIR21×2和根相对深度drIR21。因此,我们的手部姿势模型使用以下监督损失函数进行训练:3D EPE AUC 2D EPE(cm)(px)SimCLR 16.62 0.72 12.05PeCLR(我们的)16.05 0.74 10.51表1 : SimCLR 和 PeCLR 对FH 的 比较 。编 码 器使 用SimCLR或PeCLR进行预训练,并在微调期间冻结。这两种方法都使用它们的最佳增强集,如第2节所述。4.4大小为128128(第128节)4.4、4.5)或224224(第二节)4.6、4.7)。作为优化器,我们使用ADAM,在监督微调阶段的学习率为5e-4。更多培训详情请参见补充资料。4.2.评估指标我 们 报 告 终 点 误 差 ( EPE ) 和 曲 线 下 面 积(AUC)。EPE表示地面实况与预测关键点之间的平均欧几里得距离。AUC表示在校正的AUC下的面积。LJ2D=|J2D-J|(五)阈值在0和5 cm之间的关键点(PCK)曲线,以100个等距增量表示。最后,前缀Ldr=|dr−dr|给定j2d和dr的预测值,根关键点d_root的深度值可以如[18]中详细描述的那样获取。作为最后一步,我们细化所获得的根深度以增加准确性和稳定性,如[31]所述,这产生droot。所得到的3D姿态被如下获取:J3D=K−1J2D(dr+droot),(6)其中K是相机固有矩阵。4. 实验秒4.4研究不同数据增强操作的影响,并评估它们在手部姿势估计任务中的有效性接下来,通过自监督学习表示,我们在第二节中展示了。4.5我们的模型如何有效地利用半监督设置中的标记数据节中4.6我们将我们的方法与相关的手部姿态估计工作进行了比较,并证明了Petron可以在FH上达到最先进的性能。最后,在第4.7我们进行了跨数据集评估,以显示所提出的跨域分布的表示学习的优势。4.1. 执行对于预训练,我们使用ResNet(RN)[16]作为编码器,它将大小为128 128的单目RGB图像作为输入。 我们使用LARS [38]和ADAM [19],批量大小为2048,学习率为4。5e-3 在表征学习阶段。在微调过程中,我们使用PA表示procrustes对齐,其在计算所讨论的度量之前使用procrustes分析来全局对齐4.3. 数据集我们在实验中使用以下数据集FreiHAND(FH)[42]由32'560帧组成,它的最终评估是在线执行的,因此我们无法访问测试集的真实数据。我们使用FH数据集进行所有监督和自监督训练,并报告绝对值以及procrustes对齐的EPE和AUC。YouTube3DHands(YT3D)[20]由野外图像组成,通过OpenPose [5]和MANO [30]拟合的关键点检测自动获取3D注释它包含47'125在野外帧。我们使用YT3D数据集专门用于自监督表示学习。YT3D只包含3D顶点,没有摄像机的内在信息,因此我们通过弱透视投影报告了procrustes对齐的EPE和2D像素误差。4.4. 评价扩大战略为了研究哪一组数据增强效果最好,我们首先考虑表示学习阶段的各种增强操作。图4显示了我们实验中所研究的转换。我们首先评估单个变换,然后找到它们的最佳组合。我们使用自己的训练和验证分割(90%作为训练,10%作为验证集)对FH进行实验,并使用RN50作为编码器。我们训练两个11236图3:使用RN152(基线)或RN152 + PeCLR在YT3D(顶部)和FH(底部)的测试集上显示预测。请注意,测试集的基础事实对于FH不是公开可用的,因此我们只可视化预测。原始翻译彩色抖动噪声切出Sobel滤波器规模色滴旋转模糊当 应 用 单 独 的 增 强 时 出 现 错 误 。 这 里 使 用 的 是Simplified框架。我们观察到,用变换训练的编码器比随机初始化执行得更好。然而,我们看到旋转变换导致特别差的性能。在SEC的激励下。3.2中,SimCLR促进了在所有变换(包括几何变换)下的不变性。我们假设,性能差源于这种不稳定性。为了验证这一点,我们使用PeCLR和SimCLR的对比公式中提出的等变对比损失在两个geomet下比较性能图4:为对比学习几何变换用蓝色表示,而外观变换用绿色表示。原始样品取自FH。编码器具有不同的目标函数,一个使用NT-Xent(等式1)。1),如SimCLR中提出的,另一个使用我们提出的对比公式(等式1)。(3)第三章。为了评估学习的特征表示,我们冻结编码器并以完全监督的方式在3D手部标签上训练双层MLP,如第2节所述。三点三个体扩增。 图5显示性能Ric变换,即平移和旋转。我们在这里再次强调,由于余弦相似性,消除了尺度的影响。图5b显示,对于平移和旋转,Pektop相对于Simktop分别产生34%和57%的显著改进这导致缩放、平移和旋转具有最好的特征表示,由PeCLR的最终MLP的准确性评估。请注意,我们只促进几何变换的等价性。因此,所有其他与外观相关的转换对PeCLR和SimCLR产生相同的性能。复合扩增。最后,我们比较了不同的组合变换。来缩小PeCLR基线PeCLR基线目标112373D EPE(cm)×100例患者(FH+YT3D)患者(FH)基线7550504030252001010 2040 80增强(一)PeCLR SimCLR8060标记训练数据图6:FH上的半监督性能。通过使用PeCLR进行预训练,我们实现了与仅监督训练相比更高的准确性。添加其他未标记的数据会增加此效果。40200翻译增强(b)第(1)款旋转在SEC开发。4.4如[7]所示,更深的神经网络可以更好地利用大型训练数据。因此,我们增加了我们的网络容量,并使用RN152作为编码器在下面。RN50的结果和讨论见补充资料。具体来说,我们用PeCLR在FH上预训练我们的编码器。然后,编码器根据FH上不同量的标记数据进行微调为了清楚起见,我们将所得模型称为MFH。为了量化我们建议的图5:a)由MLP评估的个体增强的特征表示能力。b)PeCLR和SimCLR对于平移和旋转的比较,分别显示出34%和56%的显著改进。搜索空间,我们从图中选择前4个执行增强。五是候选人。然后,我们进行了一个详尽的搜索,在所有的组合所选择的候选人,并根据经验发现,规模,旋转,平移和颜色抖动,特提供最佳性能的Pektop,而Sim-Pektop执行最好的规模和颜色抖动。我们比较PeCLR 与SimCLR使用各自的最佳组合物,并报告结果表。1.一、请注意,PeCLR比SimCLR产生更好的特性,获得了3的改进。4%的3D EPE和12.8%的2D EPE。这表明,PeCLR导致一个更有效的表示学习方法的手姿态估计。4.5. 半监督学习在这个实验中,我们评估的效率PeCLR利用标记的数据。为此,我们使用预训练的编码器对FH进行半监督学习。我们使用最佳的数据增强组合预训练策略,我们与仅在FH的标记数据上训练的基线方法Mb进行比较,排除预训练步骤。最后,为了证明具有大训练数据的自监督表示学习的优势,我们训练了第三个模型,该模型在FH和YT3D上进行了预训练,名为MFH+YT3D。从图中所示的结果。在图6中,我们看到MFH、MFH+YT3D在没有使用的标记的量的情况下优于基线M b。 该结果与[7]一致,证实了预先训练的模型可以增加手部姿势估计的标签效率。 将MFH+YT3D与MFH进行比较,我们看到在预训练阶段增加数据量是有益的,并且进一步减少了错误。 来自MFH+YT3D和Mb的这些结果阐明了预训练策略的标记效率。 例如,我们看到,对于20%的标记数据,MFH+YT3D使用40%的标记数据,性能几乎与Mb4.6. 与最新技术水平的比较。随着变换和表示学习策略的最佳组合,我们将PeCLR与FH数据集上当前最先进的方法进行了比较。对于我们的方法,我们使用一个增加的图像分辨率为224 - 224像素和RN 152作为编码器的解决方案。 编码器使用PeCLR在FH和YT3D上进行预训练3D EPE(cm)3D EPE(cm)11238↓↓↓方法方法FH3D珍珠棉(cm)AUC↑表2:与SotA的比较。标准ResNet模型无法超越最先进的方法。通过使用PeCLR进行预训练,我们的性能提高了沪ICP备15025554号-1+佩珀(我们的)4.56 0.36改善9.7% 5.6%YT3D3D PA-EPE 2D EPE(cm)(px)沪ICP备15025552号-1+ PeCLR(我们的)2.88 16.9改善5.6% 23.5%十四岁百分之五RN50和RN152分别为8%,得到在两个网络的最先进的性能。并对FH数据集进行微调监督。此外,我们还有一个基线模型,该模型仅以监督的方式在FH上进行训练。为了完整性,我们用RN50重复这些实验。选项卡. 2将我们的结果与当前最先进的结果进行比较。我们看到,仅在FH上训练RN模型并没有超过最先进的水平,即使使用大模型容量版本,如RN152。我们假设这是由于FH的数据集大小相对较小,因此缺乏足够的标记数据用于训练。然而,使用PeCLR以非监督方式利用YT3D将性能提高了14。5%和10. RN 50和RN 152分别具有8%的PA-EPE,优于现有技术。请注意,Tab. 2使用高度专业化的架构。与我们的公式相反,最先进的性能是以纯粹的数据驱动的方式建立的。在图3(底部)中,我们可视化了基线和Peak上的定性结果。4.7. 跨数据集分析对于大量未标记的训练数据,我们假设我们的方法可以产生更好的特征,有利于泛化。为了验证这一点,我们检查了我们的模型。4.6在跨数据集设置中。更具体地说,我们研究了这两种模型在YT3D数据集上的性能这揭示了模型在域移位下如何执行。我们在这里强调,这两个模型都不是在YT3D上训练的。Tab中的结果。3表明PeCLR优于完全监督基线,提高了5。6%的3D EPE和23. 2D EPE中为5%。这些改进可以在图1中定性地观察到。3(顶部)。结果表明,PeCLR确实提供了一个很有前途的方法,在使用未标记的数据表示学习和训练模型,可以更容易地适应其他数据disc。表3:交叉数据集评价。具有RN152架构的PeCLR模型在YT3D和FH上进行预训练,然后在FH上进行微调然后在FH(顶部)和YT3D(底部)测试集上评估模型我们观察到,在两个数据集上都获得了类似的改进。贡献。我们注意到,在手部姿势文献中很少报道跨数据集泛化,并且通常认为对于大多数现有方法来说非常具有挑战性,而对于现实世界的应用来说很重要。5. 结论在本文中,我们研究了自监督对比学习的手姿态估计,利用大的未标记的数据表示学习。我们确定了一个关键的问题,在标准的对比损失制定,促进不变性导致有害的结果构成估计。 为了解决这个问题,我们提出了PeCLR,一种新的方法,鼓励在表示学习过程中的几何变换的等方差。我们彻底调查PeCLR通过比较所产生的功能表示,并证明了改进的perfor- mances的PeCLR SimCLR。我们表明,我们的PeCLR具有较高的标签效率,通过半监督。最终,我们的PeCLR在FreiHAND数据集上实现了最先进的结果。最后,我们对YT3D进行了跨数据集我们相信PeCLR以及我们的广泛评估可以为社区带来好处,为提高跨数据集的通用性提供可行的解决方案我们预见使用PeCLR的其他任务,如人体姿态估计。致谢。我们感谢托马斯·朗格拉克在人物创作方面的帮助,也感谢马塞尔·布勒的有益讨论和评论。方法3D PA-EPE(cm)↓PA-AUC↑Spurr等人[31]0.900.82Kulon等人[22]0.840.83Li等人[23]0.800.84[9]第九话0.77-I2L-MeshNet [24]0.74-RN500.830.84+ PeCLR(我们的)0.710.86RN1520.740.8511239引用[1] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在IEEE计算机视觉和模式识别会议CVPR 2019,LongBeach,CA,美国,2019年6月16日至20日,2019年。二、三[2] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.通过GAN和网格模型的弱监督域自适应用于估计交互对象的3D手部姿势。2020年IEEE/CVF计算机视觉和模式识别会议,CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日。[3] Adnane Boukhayma,Rodrigo de Bem,and Philip H.S. 乇3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议上,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,2019年。一、二、三[4] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱 监督 三维 手势 估计 。在 欧洲 计算 机视 觉会 议(ECCV)的论文集,2018。一、二、三[5] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫Openpose:使用部分亲和字段进行实时多人2D姿势估计,2019年。二、五[6] Ting Chen,Simon Kornblith,Mohammad Norouzi,andGe-奥弗里·E.辛顿视觉表征对比学习的一个简单框架。在第37届国际机器学习会议论文集,ICML 2020,2020年7月13日至18日,虚拟活动,2020年。二三四五[7] Ting Chen , Simon Kornblith , Kevin Swersky ,MohammadNorouzi和Geoffrey E.辛顿大的自监督模型是强半监督学习器。在神经信息处理系统的进展33:2020年神经信息处理系统年会,NeurIPS 2020,2020年12月6日至12日,虚拟,2020年。三、七[8] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.2020年通过动量对比学习改进基线。二、三[9] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.Pose2mesh:用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络8[10] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃BERT:用于语言理解的深度双向变换器的预训练。 在proc 关于NACL-HLT,明尼阿波利斯,明尼苏达州,2019年。3[11] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的非监督视觉表示学习在2015年IEEE计算机视觉国际会议ICCV 2015,智利圣地亚哥,2015年12月7日至13日。3[12] Bardia Doosti、Shujon Naha、Majid Mirbagheri和David J.Crandall 。 Hope-net : A graph-based model for hand-object pose estimation. 2020年IEEE/CVF计算机视觉与模式识别会议,CVPR 2020,西雅图,2020年6月13日至19日,美国华盛顿州。一、二、三[13] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手形状和姿态估计。在IEEE计算机视觉与模式识别会议上,CVPR2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,2019年。二、三[14] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。2020年美国,2020年6月13日至19日,2020年。一、二、三[15] YanaHasson , Gu¨lVarol , Dimi triosTzionas , IgorKale-vatykh , Michael J.Black , Ivan Laptev , and CordeliaSchmid.学习手和操作对象的关节重建。在IEEE计算机视觉和模式识别会议上,CVPR 2019,长滩,加利福尼亚州,美国,2019年6月16日至20日,2019年。一、二、三[16] Kaiming He , Xiangyu Zhang, Shaoying Ren , and JianSun.用于图像识别的深度残差学习。在2016年IEEE计算机视觉与模式识别会议上CVPR 2016,Las Vegas,NV,USA,2016年5[17] Ol i v i erJ. 他是F F。数据有效的图像识别与对比预测编码。在第37届国际机器学习会议论文集,ICML 2020,2020年7月13日至18日,虚拟活动,2020年。3[18] Umar Iqbal , Pavlo Molchanov , Thomas Breuel JuergenGall,和简·考茨基于潜在2.5d热图回归的手部姿势估计在欧洲计算机视觉会议(ECCV)的会议记录中,2018年9月。二三五[19] Diederik P. Kingma和Jimmy Ba。 亚当:一种方法随机优化ICLR,2015年。5[20] Domini kKulon,RizaAlpGuüler,放大图片作者:Michael M.Bronstein,and Stefanos Zafeiriou.弱监督网格卷积手重建在野外。2020年IEEE/CVF计算机视觉与模式识别会议CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日,2020年。一、二、五[21] Domini kKulon,RizaAlpGuüler,放大图片作者:Michael M.Bronstein,and Stefanos Zafeiriou.弱监督网格卷积手重建在野外。2020年IEEE/CVF计算机视觉与模式识别会议CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日,2020年。二、三[22] Domini kKulon,RizaAlpGuüler,放大图片作者:Michael M.Bronstein,and Stefanos Zafeiriou.弱监督网格卷积手重建在野外。2020年IEEE/CVF计算机视觉与模式识别会议CVPR 2020,美国华盛顿州西雅图,2020年6月13日至19日,2020年。8[23] 李墨冉、高元、桑农。利用可学习的关节群进行手部姿势估计。arXiv预印本arXiv:2012.09496,2020。8[24] 文敬植和李敬武。I2l-meshnet:Image-从单个rgb图像进行精确3d人体姿势和网格估计的to-lixel预测网络,2020。8[25] Gyeongsik Moon,Takaaki Shiratori和Kyoung Mu Lee。Deephandmesh:一个弱监督的深度编码器-解码器框架,用于高保真手部网格建模。arXiv预印本arXiv:2008.08213,2020。二、三[26] Gyeongsik Moon , Shoou-I Yu , He Wen , TakaakiShiratori,和李京武Interhand2. 6m:用于从单个rgb图像进行3d交互 手 部 姿 势 估 计 arXiv 预 印 本 arXiv : 2008.09309 ,2020。一、二、三11240[27] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。Ganerated手实时3D手跟踪从单眼RGB。2018年IEEE计算机视觉和模式识别会议,CVPR2018,美国犹他州盐湖城,2018年6月18日至22日。二、三[28] Mehdi Noroozi和Paolo Favaro。无监督学习通过解决拼图游戏的视觉表现。在欧洲计算机视觉会议上。施普林格,2016年。3[29] Aaron van den Oord、Yazhe Li和Oriol Vinyals。代表用对比预测编码进行感知学习。arXiv预印本arXiv:1807.03748,2018. 3[30] Javier Romero、Dimitrios Tzionas和Michael J.黑色.具体化的手:建模和捕捉手和身体在一起。美国计算机学会图形学报,(Proc. SIG-GRAPH Asia),2017. 二、五[31] Adrian Spurr 、 Umar Iqbal 、 Pavlo Molchanov 、 OtmarHilliges和Jan Kautz。通过生物力学约束进行弱监督3d手部姿势估计,2020年。一二三五八[32] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilli
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功