SemiHand：半监督手部姿态估计方法

6 浏览量更新于2023-10-13 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11364SemiHand：具有一致性的半监督手部姿态估计杨琳琳1，2，陈世成1，姚颖11新加坡国立大学2德国波恩大学摘要我们提出了SemiHand，一个半监督的框架，用于从单目图像中估计3D手部姿势。我们在标记的合成数据上预训练模型，并通过具有一致性训练的伪标记在未标记的真实世界数据通过设计，我们介绍了不同难度的数据增强，一致性正则化，标签校正和样本选择基于RGB的三维手势估计。特别地，通过从手部姿势近似手部面具，我们提出了跨模态一致性，并利用语义预测来指导预测的姿势。同时，我们引入姿势配准作为标签校正，以保证手部骨骼长度的生物力学可行性。实验结果表明，该方法在实际数据集上取得了良好的效果。1. 介绍单目3D手部姿态估计的一个关键挑战是获得足够高质量的地面真实姿态。将真实世界数据定位到足够精确的程度通常需要专用接口和/或多视图相机装置。这使得收集实际应用程序部署所需的“野外”数据变得非常重要合成训练数据被认为是获得准确标签的简单替代方案，并且已被纳入许多基于学习的框架中。然而，在合成图像和真实世界图像之间存在显著的领域差距，因此在合成数据上训练的模型的性能减少域差距的首选方法是混合训练策略[12]，即将多个真实世界数据集与合成数据混合在一起进行训练。然而，这样的策略很大程度上取决于组合数据集中标记样品的数量和质量。如果我们试图只从标记的合成数据和完全未标记的真实世界数据中学习，会怎么样？我们的目标正是这种情况下，并提出了第一个框架域分离的半监督学习的三维手姿势es。图1：SemiHand的伪标记。我们的具有置信度的伪标签是基于来自原始（蓝色姿势）的预测、来自扰动（绿色姿势）的预测和校正的预测（红色姿势）生成的。估计半监督学习中的一种经典方法是为未标记的数据生成伪标签[16]，通常通过从数据的标记部分学习的分类器[16，25]。伪标签的效用是高度可变的。天真地使用，这些标签甚至对学习不利，因为确认偏差[1]，即分类器过度拟合伪标签，这些伪标签往往是嘈杂的和/或不准确的，因此需要额外的校正[1，11，43，38]。此外，使用未标记数据进行一致性训练[25，1，34]可以提高伪标签的可靠性。我们整合这些概念，并引入SemiHand，一个框架，认为空间一致性和生物力学的可行性，半监督的手姿态估计。我们提出了两个一致性损失，以鼓励预测是一致的扰动和其他方式。由于我们的标记和未标记数据来自不同的域，即合成图像与真实RGB图像，因此存在对未标记数据的域适应的额外挑战。为了弥合领域差距，我们提出了跨模态一致性，并利用辅助任务的语义预测[19]为预测的姿势提供指导同时，我们将对真实世界数据的预测视为噪声标签;直接从这些预测中进一步训练网络实际上可能是有害的，因为它们不准确。为了减轻这种确认偏差的影响，我们引入了标签校正和基于可行性的样本选择，以便我们仅使用具有高置信度的校正伪标签进行训练。我们展示了我们的伪标签11365我图中的策略。1.一、伪标签和一致性训练已经在半监督分类中建立[16，25，1]。然而，在回归任务和3D姿态估计的背景下扩展这样的概念是不平凡的，并且我们是第一个提出统一框架来这样做的。例如，现有方法[11，32]主要学习噪声转换矩阵以校正伪标签;这样的方法不适用于回归，而是将焦点集中在姿势的置信度和可行性上，作为选择和校正标准。类似地，分类中的一致性训练只是在扰动下保持预测的类别不变然而，3D姿态估计中的一致性需要考虑标签的变化，即扰动之后的姿态。我们的贡献总结如下：• 我们提出了一种新的基于RGB的手部姿态估计框架，使用标记的合成数据和未标记的真实世界数据;它是第一个将伪标记与基于RGB的手部姿势的一致性训练相结合的半监督框架。• 基于手的姿势的可行性，我们提出了一种姿势注册和样本选择的方法，以纠正嘈杂的标签输出，并选择高置信度的伪标签进行训练。• 我们提出了两个一致性损失的3D姿态估计，以鼓励预测与扰动和辅助模态一致。• 使用预训练的合成模型，我们能够在没有任何标签的情况下使模型适应具有挑战性的现实世界数据集。我们的结果是令人信服的相比，完全监督的框架和outper-form以前的作品合成图像增强。2. 相关工作2.1. 3D手部姿态估计大多数最近的方法应用深度学习并提出专用网络架构和/或训练策略，例如体素到体素预测[20]、点对点回归[10，17]和逐像素估计[8，12]。其他作品如[7]提出了一种树状网络结构来捕获手至于训练策略，现有的工作是多种多样的，并且已经探索了多任务学习[5，4，41]，自我监督的多视图约束[30，31]和生物力学约束[26]作为正则化。在基于RGB的手部姿势估计中，数据集仍然相对较小并且彼此高度可变。因此，大多数方法不能推广到其他数据集或野外场景。为了改进跨数据集的泛化，现有的作品如[12]采用混合和训练策略，即，将多个真实世界的数据集混合在一起，用于训练的合成数据。遵循这种方法，大多数基于RGB的作品倾向于使用GAN [21]或生成模型[14]合成更多的训练对于2D姿势，像[23]这样的半监督学习方法对于3D姿势，弱监督和半监督学习探索使用弱标签或简单的未标记数据来提高跨数据集性能。像[4，2]这样的作品使用2D姿势或手部蒙版作为弱标签，同时将3D中的点投影到图像坐标。3D姿态的自监督学习甚至消除了弱标签的要求。最相关的工作是基于深度的输入[6，30，31]和人类姿态估计[13]。基于深度的作品如[6]使用点云重建作为辅助任务来提高3D手部姿势估计的性能。除此之外，Wan等人 [30，31]引入了具有可微分渲染器的模型拟合，用于深度图重建以利用未标记的数据。然而，RGB图像受光照和复杂背景的影响，这阻止了对RGB的重建或渲染方法的直接至于基于RGB的人体姿势估计，现有工作[13]集中在未标记的多视图图像上，这仍然是一个非常有限的场景。2.2. 半监督学习一致性训练和伪标记最近显示出半监督分类[25，34，11，3，1，29]和分割[43，9]的前景最近的半监督的作品已经取得了相当的性能监督的方法，只有一小部分的标签。对于一致性训练，像[34，9]这样的作品已经探索了各种增强。平均教师策略[29]通过平均模型权重而不是标签预测来加速一致性训练。对于伪标记，已经引入了诸如argmax [16]，锐化[3]或阈值化[25]等操作来修改作为标签的预测。其他人[1，11，43，38]将预测视为噪声标签，并引入标签校正以生成伪标签。我们的工作是第一个探索伪标签和一致性学习的手姿势估计。几个distinctions分离姿态估计从这些技术的图像分类和分割的先前从公式化的角度来看，这是一个严重依赖于空间信息的回归问题。其次，在生物力学可行与不可行姿势之间存在明显的分离。因此，我们设计了一种新的管道，半监督的手姿态估计与纠正伪标签和空间一致性。3. 方法我们提出了一个概述我们的框架图。二、对于姿态估计，令Xl={（xl，pi，wi）：i∈（1，...，N）}11366我|LLLMC图2：SemiHand概述该模型在标记的合成数据上进行预训练一致性培训（橙色双箭头，参见第3.3）在未标记的真实世界数据与扰动增强（见第二节）。 3.4）和标签校正和样品选择（蓝色虚线箭头，见图1和Sec。3.2）以及不同难度的增加。(see秒第3.4段）。是N个标记的示例，其中Xl是手的标记的合成RGB图像，pi=（uvi，di）是其目标2.5D手部姿势，其中uv是图像像素坐标，并且d是其相对于根关键点的度量深度，并且w是概述整体手部形状的二进制掩模。让两个2.5D姿态之间的距离λp1=（uv1，d1），p2=（uv2，d2）as（p1，p2）=||uv1−uv2||2+λd||d1− d2||二、（二）我2 2XU={（xu）：j∈（1，· · ·，M）}是M未标号的ex-其中λd是一个超参数，在我们的pa中值为50其中X1是手的未标记的真实世界RGB图像。我们的目标是通过学习由θ参数化的神经网络形式的映射f来估计2.5D手部姿势及其相关手部掩码，使得（p，w）=f（p，wθ;XL，XU）.在实践中，手部掩码w是由我们的共享全卷积网络获得的，尽管我们的公式足够通用，它也可以由单独的网络学习我们优化一个混合目标L=Lsup （ XL ） +Lunsup （ XU ） +λcLcons （ XL ，XU），（1）其中sup是监督损失，unsup（Xu）是具有伪标签的非监督损失，并且cons（Xl，Xu）是一致性损失。λc是超参数。下面，我们介绍一下这三笔损失的具体情况。3.1. 监督姿态估计用于3D手部姿势估计的标准方法是2.5D姿势回归[12]，然后如果相机固有特性已知，则提升到全3D。在2.5D中回归姿势的主要益处是逐像素表示。这增加了多任务学习的灵活性，并且可以很容易地扩展到预测其他像素级输出，例如使用完全卷积网络的分割多任务策略实现了手部姿势估计的改进[35]。在我们的工作中，除了2.5D姿态p，我们还预测了手面具w。我们在补充材料中显示了2.5D回归的详细信息。在这里，我们首先定义per.给定地面实况pgt，wgt和对应的预测p，w，监督损失被定义为：Lsup（X L）=（p，pgt）+λw||w − wgt||第一条、第三条其中λw是超参数。在本文中，我们采用了两个堆叠沙漏与2.5D回归作为我们的骨干，估计2.5D表示和手面具。3.2. 用于位姿估计的现在，假设我们有一些来自预训练的初始网络f（θ）。我们使用f（θ）的预测来初始化XU的伪标签p=（uv，d），并使用校正的伪标签r来微调模型。根据f（p）的预测p|θ; XU），目标L_unsup（XU）可以被公式化为：Lunsup （XU）=1（C （p）≤τ）（p，p ），其中pM.（四）这里，1（）是指示函数，（）是估计给定伪标签的置信度的函数，τ是置信度阈值。伪标签通常是有噪声的，并且可能需要校正[18，11]。在这个目标中，我们约束伪位姿p以从姿态空间，其点是骨长度与给定11367手模型一致的生物力学可行姿态。基于等式4、引入了一个姿态配准函数11368·LLLC不P（），以将伪标签p_p投影到校正后的姿态r，并添加损失以最小化预测p和r之间的距离。为了防止退化标签r，我们添加一个正则化器以鼓励r保持接近p。将这些项相加，我们得到算法1半监督手部姿态估计。要求：基于sup、阈值τ、历元数K、XL和XU的预训练模型θ0确保：最终模型θ和伪标签p1：初始化用于XU的伪标签p第二章：初始化XU的校正伪标签rL不支持（XU）=1（C（p）≤τ）（p，p）+（r，p）+（r，p），（5）3：对于t = l，. . . ，K个时期做4：计算C（y）其中r=P（p）。为了学习网络θ和伪标签P，我们迭代地求解对象。首先，我们通过以下方式更新网络的参数θ：5：通过等式5的梯度上升更新θ。6个，含sup（XL）和cons（XL，XU）6：基于等式更新P和r7第七章：端Lunsup（XU）=1（C（p≠）≤τ）τ（p，p≠）+τ（r，p），（6）这可以通过梯度下降来解决。然后，我们估计了伪l标记p和它的校正r的基础上的previ，泛化一致性损失ply为两者之和：缺点（XL，XU）是sim-我们的预测p′和先前的校正r′，p=argmin（p′，p）+（r′，p），pr= P（p）。（七）Lcons=Lvc+ Lcc。（九）查看一致性。如图3，我们通过旋转或平移样本来增加训练样本，如图2所示。3.4，并鼓励转换后的2.5D预测与转换后的预测一致标签更正。独立地估计关节位置对于确保手的生物力学可行性是无效的受相似变换的像现有的2D作品的样本[23]。所提出的具有随机扰动T的损失函数为：在[31]中，我们提出了姿态配准函数P。更具体地说，我们估计的变换T与贪婪近似的基础上的手作为Lvc=（f（p|θ; T（x）），（T（f（p|θ; x）+的||f（w）|θ; T（x））−（T（f（w|θ; x）||1 .一、（十）示于图4右，给定模板（黑色）和预测（灰色），我们首先通过平移来对齐根，然后使用配准姿势的parent节点和估计的child节点来计算骨骼方向（灰色虚线）通过计算每个骨骼的T以及手的链，我们得到配准的姿势（橙色）。所提出的贪婪近似避免了端点误差的积累，并确保了骨长度的可行性，而无需任何训练。补充资料中提供了更多详细信息样品选择。我们根据样本用于未标记数据xu的伪标记p如下：C（p）=（T（p），f（p|θ;T（xu）+（p，P（p）），（8）其中是随机扰动增强。所提出的置信度是扰动图像的预测与其对应的伪标签之间的距离以及伪标签与其校正的伪标签之间3.3. 姿态估计对于XL和XU，我们引入视图一致性项Lvc和跨模态一致性项Lcc来改进L11369这种损失鼓励对未标记数据进行更强大和稳定的预测。图3：视图一致性丢失概述。跨模态一致性。Zamir等人。 [39]观察到跨模态一致性的学习提高了预测准确性。在这方面，同一只手的不同模态表示（例如RGB图像、深度图）在其姿态上应该是“一致的”。但是，我们如何在没有实际姿势标签的情况下，在这些模态中强制实现这种一致性在这种情况下，我们结合了多任务学习和估计多模态输出，即姿势和掩模，并添加模型拟合能量项。所提出的能量11370·联系我们LL··LL LLΣ||−||−×函数鼓励2D姿势和手部蒙版之间的一致性，我们发现这可以提高姿势和整体泛化。此外，我们对掩模采用了停止梯度操作停止（），如图所示。5以防止不准确的姿势使遮罩退化。具体地，我们用55个循环来近似手部掩模圆形手模型被参数化为m0，，m54，其中mi=（ci，ri）是以ci为中心、半径为ri的第i个圆。圆心是基于2D姿势手动定义的，而半径是根据合成数据预先训练的。图4中间示出了近似的手掩模和小指的圆的示例。跨模态一致性损失cc是两个标准模型拟合能量项的总和：cc（uv，w）=m2d（uv，stop（w））+d2m（uv，stop（w））。（十一）模型到数据项m2d是L1距离，其促使圆近似掩模尽可能类似于估计掩模：Lm2d（uv，w）=||R（G（uv））− w||第一条，（十二）其中G（）基于2D手部姿势估计中心和半径，并且R（）将圆渲染为手部遮罩，如[30]。请注意，该术语在渲染遮罩的背景上没有梯度。因此，我们添加数据到模型项d2m来测量估计的手模型和手掩模之间的配准误差：Ld2m（uv，w）=d（w（g），G（uv）），（13）g∈Ω其中，Ω是所有像素位置的集合，距离函数d（·）定义为：d（w（g），m）图4：手部模型和姿势配准。左：地面实况手面具;中间：我们基于地面真实2D姿势（蓝色点）渲染的手部蒙版;右：模板手（黑色）与观察到的关节（灰色）的姿势配准，以生成配准的手（橙色）。最佳彩色视图。图5：跨模态一致性损失概述。(uv d）是2.5D手动输出;w表示手罩。图像的中心。在FixMatch [25]中观察到类似的现象;他们发现不同难度的数据扩充可以提高训练稳定性。因此，我们还采用了两种类型的数据增强，如[25]，如图所示。二、具体而言，我们分别针对标记数据和高置信度伪标记数据引入多样性增强，针对未标记数据引入扰动增强，我们发现这可以减轻模式崩溃的问题。在我们所有的实验中，多样性增强与现有监督学习中使用的增强max（min（g ci2ri），0）如果w（g）= 1，=i∈[0，54]（十四）方法[12，5，36]。它包括颜色抖动、平移、旋转、缩放、灰度和随机擦除。不同的是max（max（rii∈[0， 54]- -一种||g−ci||2）、0）否则，请执行以下操作。对于未标记的数据，我们简单地用[-5，5]像素的平移或[-2◦，2◦]或90◦，180◦和90 ◦的旋转进行扰动。具体地，该距离估计像素g半径为ri的最近圆mi的中心位于ci。如果在g处的预测掩码值是正确的，则距离被设置为0。关于稠度损失的更多详细信息可参见补充材料。3.4. 数据增强最初，我们发现添加视点一致性是不收敛的。我们推测原因是模式崩溃，即所有2D姿态预测逐渐移动到270Ω。4. 实验4.1. 实现细节在实验中，我们采用双层沙漏作为我们的骨干。输入和输出分辨率均为六四六四我们从方程组中设置超参数。1至4，其中λ11371c= 0。1，λd= 50，λw= 100和τ= 1。五、对于合成数据的预训练，我们使用Adam操作-11372初始学习率为10- 3，批量大小为32。我们训练模型100个epoch，在第60和90个epoch将学习率降低10倍。为了进行微调，我们使用学习率10−4和批量大小128。我们把K设为10。在第5次迭代时，我们将学习率降低到10-5。相关算法在Alg. 1.一、4.2. 数据集和评估指标我们的方法在一个合成数据集上训练，RenderedHand Pose Dataset（RHD）[44]，并在四个真实世界数据集上评估， Stereo Hand Pose Tracking Benchmark（ STB ） [40] ， Dexter+Object Dataset （ DO ） [28] ，Hand-3D-Studio （ H3 D ） [42] 和 YouTube 3D Hands（YT 3D）[15]。为了进一步验证我们所提出的方法的有效性，我们还介绍了一个新的现实世界的手序列数据集（HSD）和评估HSD是一个视频数据集，具有以半自动方式注释的3D姿势，如[45]。它由4个序列组成。每个序列由一个演员执行，包含20K帧。我们使用前两个序列进行训练，其他序列用于测试。有关该数据集的更多详细信息，请参见补充资料。为了评估估计姿态的准确性，我们使用两个常用度量：（1）平均终点误差（EPE），测量预测关节和地面真实关节之间的平均欧几里得距离，以及（2）基于某些误差阈值的正确关键点百分比（PCK）曲线上的曲线下面积（AUC）。为了与现有技术进行公平比较，我们遵循[27，36]，假设全局手尺度和手根位置是已知的，并且将中指为了方便起见，我们还假设手模板是给定的。对于H3D和YT3D，我们使用距STB 40mm作为[45]定义的我们的默认设置是仅使用（单个）真实世界数据集的训练分区的训练数据进行微调根据[30]的约定，完全保留测试数据。此外，我们使用这些真实世界数据集的标签仅用于评估目的。4.3. 消融研究基线。首先，我们首先调查的域之间存在的差距，合成RHD与现实世界的STB。在RHD上训练和测试的预训练网络实现了良好的性能，平均 EPE为 12.08mm。然而，相同网络的误差几乎翻倍，STB训练和测试数据集的平均EPE分别为23.41mm和23.83mm（参见表1中的“基线”方法）。①的人。如果我们只在STB上训练网络，由于数据集的大小很小，很容易发生过拟合，因此会导致测试数据的较大误差（18.04 mm）。如果在混合训练策略中合并RHD和STB的训练数据集，则可以将该误差降低到7.32 mm，并且这用作半监督方法的性能上限。方法训练集测试STB列车设置STB测试基线RHD列车（带）23.4123.83基线STB系列（带）5.2718.04基线RHD列车（带）STB系列（带）5.257.32用vc使用VC+CCRHD列车（带）STB列车（不带）十九点九十八20.5919.1821.0320.9219.93伪标记RHD列车（带）STB列车（不带）15.6816.31我们提出的RHD列车（带）STB系列（不带）13.8214.60我们提出的RHD列车（带）STB测试（w/o）15.8314.51我们提出的RHD列车（带）STB序列+测试（不含）13.7813.95表1：平均EPE [mm]的消融研究。w/和w/o指示有和没有培训标签。50403020100图6：基线的比较，仅具有一致性训练，仅具有伪标记和我们提出的SemiHand。我们提出的两个模块都提高了相对于基线的性能耗氧物质我们的组件的影响。接下来，我们分析我们的方法的各个组件的性能我们对预训练模型进行微调，仅具有视图一致性损失（使用vc），仅具有跨模型一致性损失（使用cc），两种一致性损失（使用vc+cc）以及Tab中的伪标签。1.一、每个部件都提高了性能;添加伪标记在STB测试装置上实现了令人印象深刻的7.52mm改进。组合这些分量进一步减小误差。通过一致性训练和伪标记，我们在STB测试集上实现了9.23mm的改进，其中对未标记的STB训练集进行了微调。基线具有一致性的基线具有伪标签的基线SemiHand平均EPE [mm]113731.00.90.80.70.60.50.40.3STB数据集PSO（AUC=0.709）ICPPSO（AUC=0.74）CHPR（AUC=0.839）阳离子（AUC=0.991）Cai（AUC=0.994）Iqbal（AUC=0.994））(AUC=0.774=0.927）基线（AUC=0.992）UC=0.825）=0.983）仅n）（AUCSpurr（AUC穆勒（SyMuelle第八章）20 25 30 35 40 45 50误差阈值（mm）测试）。此外，随着未标记训练数据的量增加，平均EPE相应地降低。如Tab.所示。1、机顶盒训练和测试集的微调优于单独微调。我们还通过用图1B中的STB训练数据的不同百分比进行微调来验证这一点。10个。我们通过在训练期间增加未标记STB训练数据的百分比，将STB测试集的平均EPE从17.31mm降低到14.60mm。4.4. 与最新技术水平的我们将我们的手部姿势估计结果与现有技术方法[2、21、12、33、37、36、4、27、22]在STB和DO上进行比较，如图1B所示7和8我们可以看到，在精细之后-图7：AUC：与STB上的现有技术的比较我们的半手提高了基线Dexter+Object数据集1.00.80.60.40.20.00 20 40 60 80 100误差阈值（mm）图8：AUC：与现有技术的DO的比较我们的Semi- Hand提高了基线为了进一步验证，我们比较以下内容：（1）基线，（2）具有一致性训练的基线，（3）具有伪标签的基线，以及（4）我们在所有真实世界数据集上提出的方法（参见图2中的结果）。（六）。我们可以看到，一致性训练和伪标记都可以提高相对于基线的性能此外，我们的两个模块的组合导致更高的准确性。通过我们的半监督微调，我们在STB上实现了平均EPE的降低高达9.2mm，在DO上为22.4mm，在YT3D上为6.4mm，在H3D上为7.46mm，在HSD上为3.3mm，如图所示。六、完整的模型与现有的监督方法相当。训练数据的影响。在选项卡中。1在“我们的建议”下，我们在不同的机顶盒上微调网络，即、仅STB训练集、仅STB测试集或两者。我们发现，测试图像上的微调直接实现了较低的平均EPE（13.82mm/13.78mm对STB列车的15.83mm和 14.51mm/13.95mm对STB的14.60mm调整后，我们的SemiHand显著改善了基线对于STB，我们的半监督方法达到了与其他监督学习方法相当的性能，即使没有任何标签的STB。该工作[21]还报告了仅在合成数据上的性能训练。如图7，我们的表现远远优于[21]（0.927 vs. 0.825）。许多现有方法使用DO来评估跨数据集性能。我们提出的半监督方法优于大多数现有的监督方法，即使它们将 RHD 与其他合成数据 [2 ， 21] ， STB [40] ，MPII+NZSL [24]或MVBS [24]混合和训练。这证实我们最初的动机是利用未标记的RGB图像并提高姿态估计的准确性。请注意，[33]确实报告了更好的性能，但他们引入了一个大规模（111K）标记的真实世界数据集进行训练。使用我们提出的半监督方法，未标记数据的预测将逐渐收敛。我们在图中展示了从预训练模型的预测到我们的稳定预测的逐步收敛的两个定性示例。9.第九条。有趣的是，我们也发现了类似图1所示的例子。9，其中我们的预测似乎比手动注释的地面实况更准确，即预测的关键点以手指为中心，而标记的关键点位于手指的边缘。鉴于STB上最先进方法的饱和结果，许多网络可能过度拟合手动注释偏差或噪声。4.5. 与弱监督方法的由于我们的SemiHand是第一个用于从单目图像进行3D手部姿势估计的半监督框架，因此没有直接可比的方法。我们将其与弱监督方法进行比较[4]。我们在m% STB训练数据上微调预训练模型，没有任何标签（我们的，SemiHand），具有地面实况（强监督）以及具有2D姿势或面具的弱标签。STB训练集的百分比从Baek（AUC=0.650）Mueller（AUC=0.560）Iqbal（AUC=0.560）Baek（AUC=0.700）Xiang（AUC=0.840）基线（AUC=0.546）我3D PCK3D PCK11374预训练第二次迭代第6次迭代第10次迭代地面实况预训练地面实况图9：从预训练模型的预测到最终预测的逐步收敛。箭头指示微调期间预测移动的方向和距离。对于第10次迭代，优化收敛，因为箭头的长度几乎为零.我们用红框强调了我们的稳定预测和地面实况姿势之间的差异最佳彩色视图5%至100%，以比较STB测试集的平均EPE。如图10，当使用掩模或2D姿势作为弱标签进行微调时，弱监督方法[4]在STB测试集上分别实现了4.0 mm和7.1 mm的改进。这表明2D姿势提供了比简单的遮罩更强的监督同时，在没有任何标签的情况下，我们的SemiHand实现了9.2 mm的改进，证明了我们的方法与[4]相比的有效性。请注意，我们只讨论了相对的改进，因为我们使用了与[4]不同的主链。考虑到添加少量标签（按照完全监督的方法）仍然更好，这鼓励我们进一步探索未标记图像的使用。5. 结论我们的目标是开发一个半监督的三维姿态估计框架，使用标记的合成和未标记的现实世界的数据。直接应用现有的半监督方法是不平凡的，因为姿态估计是一个回归问题，严重依赖于空间信息。因此，我们设计了一个新的框架的基础上的姿态可行性和空间一致性，伪标签和一致性训练。在不同数据集上的实验表明，我们的方法成功地利用了没有任何标签的真实世界的RGB图像，为学习仅具有合成标签的姿态估计系统铺平了道路在未来，我们希望探索领域适应方法和更多的一致性随着时间和/或多个视图，以进一步提高准确性。此外，我们将探索不同的框架，如教师-学生框架-252015100 20 40 60 80 100百分比（%）图10：在STB训练数据的不同百分比上进行微调的STB测试数据的平均EPE随着训练数据量的增加，SemiHand实现了与弱监督方法类似的趋势，即，平均EPE相应地减小。工作或用于半监督姿态估计的Siamese框架。致谢本研究/项目由新加坡国家研究基金会在其AI新加坡计划（AISG Award No：AISG 2-RP-2020- 016）下支持。本材料中表达的任何观点、发现和结论或建议均为作者的观点，并不反映新加坡国家研究基金会的观点。弱监督2D姿势弱监督蒙版强监督半手平均EPE（mm）11375引用[1] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差InIJCNN，pages 1IEEE，2020年。一、二[2] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在CVPR中，第1067-1076页，2019年。二、七[3] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。2[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在CVPR中，第10843-10852页，2019年。二七八[5] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。参见ECCV，第666-682页，2018年。二、五[6] Yujin Chen，Zhigang Tu，Liuhao Ge，Dejun Zhang，Ruizhi Chen，and Junsong Yuan. So-handnet：用于3d手部姿势估计的半监督学习自组织网络。在ICCV，第6961-6970页，2019年。2[7] Kuo Du，Xiangbo Lin，Yi Sun，and Xiaohong Ma.交叉点：基于多任务信息共享的手部姿态估计。在CVPR中，第9896-9905页，2019年。2[8] Linpu Fang ， Xingyan Liu ， Li Liu ， Hang Xu ， andWenxiong Kang. Jgr-p2 o：基于联合图推理的像素到偏移预测网络，用于从单个深度图像估计3d手部姿势arXiv预印本arXiv：2007.04646，2020。2[9] Geoffrey French 、 Samuli Laine 、 Timo Aila 、 MichalMackiewicz和Graham Finlayson。半监督语义分割需要强的、变化的扰动。在BMVC，2020年。2[10] 六号戈，周仁，袁俊松。点到点回归点网络用于三维手姿态估计。参见ECCV，第475-491页，2018年。2[11] 韩江帆，罗平，王晓刚。从嘈杂的标签中进行深度自学习。在ICCV，第5138-5147页一、二、三[12] Umar Iqbal，Pavlo Molchanov，Thomas Breuel JuergenGall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在ECCV，第118-134页，2018年。一二三五七[13] Umar Iqbal，Pavlo Molchanov，and Jan Kautz.通过野外多视角图像进行弱监督3d人体姿势学习。在CVPR中，第5243-5252页，2020年。2[14] Dominik Kulon 、 Riza Alp Guler 、 Iasonas Kokkinos 、Michael M Bronstein和Stefanos Zafeiriou。弱监督网格卷积手重建在野外。在CVPR，第4990-5000页，2020年。2[15] 放大图片作者： Dominik Kulon ， Riza Alp Guler ，Iasonas Kokkinos，Michael M. Bronstein，and StefanosZafeiriou.弱监督网格卷积手重建在野外。在CVPR，2020年6月。6[16] Dong-Hyun Lee等人伪标签：简单高效的深度神经网络半监督学习方法。在ICML研讨会，2013。一、二[17] 李世乐和李东赫基于点到位姿投票的残差置换等变层手部位姿估计在CVPR中，第11927-11936页，2019年。2[18] Zhiwei Liu ， Xiangyu Zhu ， Guosheng Hu ， HaiyunGuo，Ming Tang，Zhen Lei，Neil M Robertson，andJinqiao Wang.硒配向：寻找语义上一致的地面实况面部标志检测。在CVPR中，第3467- 3476页3[19] 阿德里安·洛佩斯·罗德里格斯和克里斯蒂安·米科莱奇克。Desc：通过语义一致性进行深度估计的域自适应arXiv预印本arXiv：2009.01579，2020。1[20] 文京植，张朱勇，李京武。V2v-posenet：体素到体素预测网络，用于从单个深度图进行准确的3d手部和人体姿势估计。在CVPR中，第5079-5088页，2018年。2[21] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。从单目rgb 实时 3d手部跟踪。在CVPR，第49-59页，2018年。二、七[22] Paschalis Panteleris ， Iason Oikonomidis ， and AntonisArgy-ros.使用一个单一的rgb帧实时三维手姿态估计在野外。在WACV，第436-445页中。IEEE，2018年。7[23] IlijaRadosavo vic ， PiotrDolla'r ， RossGirshick ， GeorgiaGkioxari，and Kaiming He. 数据蒸馏：全方位监督学习。在CVPR中，第4119-4128页，2018年。二、四[24] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在CVPR中，第1145-1153页，2017年。7[25] Kihyuk Sohn，David Berthelot，Chun-Liang Li，ZizhaoZhang ， Nicholas Carlini ， Ekin D Cubuk ， AlexKurakin，Han Zhang，and Colin Raffel.Fixmatch：用一致性和信心简化半监督学习。arXiv预印本arXiv：2001.07685，2020。一、二、五[26] Adrian Spurr 、 Umar Iqbal 、 Pavlo Molchanov 、 OtmarHilliges和Jan Kautz。经由生物力学约束的弱监督3d手部姿势估计。arXiv预印本arXiv：2003.09282，2020。2[27] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilliges。跨模态深度变分手部姿势估计。在CVPR中，第89-98页，2018年。六、七[28] SrinathSridhar，FranziskaMueller，MichaelZollhoefer，Dan Casas，Antti Oulasvirta，and ChristianTheobalt.基于rgb-d输入的手操纵对象的实时关节跟踪。在ECCV，2016年。6[29] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。刻薄的老师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。arXiv预印本arXiv：1703.01780，2017。2[30] Chengde Wan ， Thomas Probst ， Luc Van Gool ， andAngela Yao.通过拟合训练的自监督3d手部姿态估计。在CVPR中，第10853-10862页，2019年。二、五、六[31] Chengde Wan ， Thomas Probst ， Luc Van Gool ， andAngela Yao. 双网格网络：从单深度图的手网格顶点回归见ECCV，第442-459页。Springer，2020年。二、四11376[32] Hongxin Wei，Lei Feng，Xiangyu Chen，and Bo An.通过协议合并噪声标签：一种联合正则化的联合训练方法。在CVPR中，第137262[33] 东来香韩宝和亚瑟·谢赫单眼总夺获：在野外摆出脸、身体和手的姿势。在CVPR中，第10965-10974页，2019年。7[34] Qizhe Xie ， Zihang Dai ， Eduard Hovy ， Minh-ThangLuong，and Quoc V Le.用于一致性训练的无监督数据增强。arXiv预印本arXiv：1904.

下载后可阅读完整内容，剩余1页未读，立即下载