基于深度多任务学习的手部图像理解

187 浏览量更新于2023-10-13 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深度多任务学习的手部图像理解张雄1 *，黄洪生2，谭建超3，徐洪民4，杨成1，彭国柱1，王磊1，刘吉31YY直播、百度公司、2Joyy Inc.，3人工智能平台，Kwai Inc.，4OPPO Inc.，摘要从多媒体材料如图像或视频中分析和理解手部信息对于许多现实世界的应用是重要的，并且在研究社区中仍然活跃。目前已有许多研究致力于从单幅图像中提取手部信息，但它们通常只解决单个任务，如手部掩模分割。输入堆叠-1堆叠-2堆叠-K例如，手姿态估计、2D/3D手姿态估计或手网格重建可以是复杂的，并且在具有挑战性的场景中表现不佳为了进一步提高这些任务的性能，我们提出了一种新的手图像理解（HIU）框架，提取的手对象的综合信息，从一个单一的RGB图像，通过共同考虑这些任务之间的关系。为了实现该目标，级联多任务学习（MTL）主干被设计为估计2D热图、学习分割掩模、以及生成中间3D信息编码，随后是由粗到细的学习范例和自监督学习策略。定性实验表明，我们的方法可以恢复合理的网格表示，即使在具有挑战性的情况下。从定量上讲，我们的方法在各种广泛使用的数据集上显着优于最先进的方法，在不同的评估指标https://github.com/MandyMo/HIU-DMTL。1. 介绍手部图像理解（HIU）在计算机视觉和图形社区中保持活跃，旨在从RGB/深度图像中重新覆盖空间配置，包括2D/3D手部姿势估计、手部掩模分割和手部网格重建，其已经在各个领域中被采用[23，25，30，33，49，52]。由于固有的深度和尺度模糊性、多样的外观变化和复杂的接合，因此恢复空间配置仍然具有挑战性。虽然一堆现有的作品已经考虑了无标记的HIU，但是其中的大多数需要深度相机[37，62，51，41，26，15，17]。*通讯作者，zhangxiong@yy.com图1. 手图像理解。该图说明了这项工作的基本思想。我们推导出的2D手姿态，手面具，手网格（包括3D手姿态）表示同时从单目RGB图像的手对象在一个由粗到细的方式。67、28、32、14、22、21]或同步多视图IM。年龄[3，18，46，51，59]，以应对上述挑战。因此，大多数这些方法是不切实际的，在现实世界的情况下，只有单眼RGB图像是可用的。对于单眼RGB场景，主要障碍物存在于三重中。首先，缺乏具有精确注释的高质量大规模数据集。现有数据集使用软件合成[73，19，35]，或以半自动方式标记[74，27]，或在受控实验环境中收集[66，68，50]。其次，由于现有数据集的不足，使得训练后的模型不能很好地推广到各种野生图像，特别是在自遮挡和复杂结构的情况下，这可能会阻碍其应用。第三，当代的方法未能利用未标记的图像，这是更广泛的分布比那些与注释。上述障碍促使我们提出两个问题：能否全面利用现有的多模态数据来解决上述困难？没有标签的大量野生图像是否可以被充分利用以有利于HIU？在这项工作中，我们证明答案是肯定的，基本思想如图 1 所示。具体而言，一个创新的多任务学习（MTL）框架的设计，以解决HIU的问题，它遵循级联粗到精的设计方式。具体地说，框架-1128111282工作包括一个骨干和几个回归头对应于不同的任务。主干旨在从手部图像中学习各种基本表示，包括2D姿态估计、手部掩模分割和3D部件方向场（POF）编码。为了有效地重建整个手部网格，我们利用生成式手部模型MANO [44]，并基于基本任务的语义特征采用回归头来回归MANO为了有效地融合各种任务之间的有益语义特征，我们构思了任务注意力模块（TAM）来聚合各个任务之间的语义特征，并通过去除冗余特征来获得紧凑的高级表示。请注意，3D手部关节可以在MANO中实现为侧输出。通过这些设计，可以同时从RGB图像获得2D/3D手部姿势、手部遮罩和手部网格。很明显，整个框架可以通过利用现有的多模态数据集来利用通用监督学习进行训练。可以通过利用来自每个任务的合理预测之间保持的隐式关系约束来采用自监督学习策略。例如，从具有适当相机参数的手部网格渲染的掩模应匹配由主干估计的掩模;重新投影的2D手部姿势的坐标应当接近于在热图中编码的位置的积分。自监督学习使得利用海量的野生图像成为可能，这可以提高框架的准确性，增强泛化能力。此外，考虑到缺乏具有良好标记的手部掩模和2D姿势的大规模手部数据集，我们收集具有手动标记的2D手部姿势和手部掩模的高质量数据集。总结起来，我们的主要贡献如下：我们设计了一个创新的级联多任务学习（MTL）框架，被称为HIU-DMTL，手部图像理解，它可以有效地利用现有的多模态手部数据集首次引入自监督学习（SSL）方法来缓解HIU的数据不足问题，并通过大量实验全面验证了其有效性。我们提出了一个简单而有效的任务注意力模块（TAM），旨在聚合不同任务的语义特征，这被证明是有助于MTL的HIU任务。我们的HIU-DMTL框架优于当代手部网格恢复方法[19，16，4，70，72，34]，并在各种评估指标方面在广泛使用的基准[68，73，50，74，46]上展示了新的最先进性能。2. 相关工作由于相关著作涉及面广，很难对其进行全面的总结。我们只讨论与我们的框架设置密切相关的3D手部姿态估计。开创性工作[73]首先应用深度学习技术从单个RGB图像中估计3D手部姿势。从那时起，3D手部姿势估计引起了社区的极大关注[38，35，5，24，48，65，6，55，71，47，13]。这些方法的目标是通过引入手部关节的几何约束来解决透视模糊问题[73，38，35，47]，以研究复杂的学习方法[73，38，35，47制定策略以实现更好的性能[48，24，5，65，6，55，13]，或解决缺乏足够高质量手数据的挑战[73，35，65，71]。尽管已经取得了显著的进展，但是从单目RGB图像估计3D手部姿势仍然是具有挑战性的，并且缺乏足够的良好标记的数据仍然是主要障碍之一手部补片恢复。除了手部姿态估计之外，手部网格恢复是另一个重要而活跃的研究课题。一行的作品集中在重建的手网格表示在一般情况下。例如，一些作品[4，1，70，74，27，72，63]通过回归生成手模型MANO的参数来捕获手网格表示另一系列工作[19，2，22]试图在手-对象交互环境中重建手网格，其中通过引入交互关系约束来联合重建手和对象。虽然上述方法可以在实验基准中恢复合理的手部网格，但在实践中，我们发现使用公开发布的代码和预训练模型的方法[4，19，34，16，70，72，10]在不同的数据集上不能很好地工作，也不能很好地推广到现实世界的情况。多任务学习。多任务学习（MTL）是一种通过利用有限的训练样本并在所有任务之间共享有益信息来提高任务性能的方法，已成功地应用于许多领域[11，17，45]。一种广泛采用的MTL方法是硬参数共享，其训练一个共享编码器，随后是用于不同任务的多个任务特定解码器有的还进一步设计了解码融合模块，提取不同任务的信息，对最终任务进行精细化预测最近的工作[43，39，31，56，58，12，9]已经将这种多任务框架应用于姿态估计任务中，并实现了最先进的性能。我们的方法遵循以前的多任务学习方法的一般设置，该方法使用编码器、若干特定任务解码器和特征融合模块。解决····11283如exp{−−^−^ }，其中（x^，y^）是指∈--HW HW×干编码器掩码解码器热图解码器POF解码器任务关注回归器图2. 框架体系结构。整个流水线遵循经典的级联从粗到精设计范例，其由两个主要组件组成：（1）新颖的多任务学习主干，其旨在估计对2D手部姿势进行编码的热图，以学习手部分割掩模，并生成覆盖3D信息的POF编码，（2）回归器头，其旨在基于参数手部模型MANO [ 44 ]和透视相机的多任务特征来回归3D参数Θ ={θ，β，R，T}。级联多栈MTL框架下的HIU任务在社区中的探索还很少，我们的工作表明这种组合可以实现SOTA性能。3. 框架本工作的主要目标是设计一个统一的框架，从一个单一的RGB图像提供全面的信息的手对象，包括2D手姿态，3D手关节，手面具，和手网格表示。为了实现这一目标，设计了多堆叠多分支主干以学习手部对象的各种基本表示，然后通过基于基本表示估计参数模型MANO [44整个框架如图2所示。3.1. 骨干主干由一个主干模块和几个共享相同结构的MTL块。每个MTL块选通来自前面TAM的高级表示一起作为输入。对于第一个MTL块（在图2中表示为堆栈1），由于不存在前面的MTL块，因此高级语义特征保持为0并具有适当的大小。热图解码器。热图解码器分支的目的是执行2D手部姿势估计。类似最近的方法[5，16，4，70，72，34]，我们采用2D高斯型热图HRK×H×W 以编码2D手部姿势，其中K指示关节的数量，并且H、W是分辨率大小。每个关键点对应于热图。在（x，y）处的像素值是de。（x x）2+（y y）22σ2地面实况位置对应于置信度位于该2D位置（x，y）中的关键点的得分。利用该热图，可以用arg max{h，w}H（k，h，w）或以可微形式导出第k个关键点ΣΣH（k，h，w）（h，w）/Σ ΣH（k，h，w）。（一）h=1w=1h=1w=1由该块中的所有任务指定的解码器共享的编码器、旨在处理单独的主要任务的若干特定专用解码器、以及聚集跨各种任务的特征的TAM组成在实践中，我们将2D手部姿势、手部遮罩和POF编码作为中间基本任务的学习目标。股骨柄模块。主干模块的目的是提取由后续模块共享的低级语义特征。为了保持干模块尽可能简单，同时能够覆盖足够的信息，我们用步长为2的两个7 × 7卷积层实现干模块，这可以快速地对特征图进行下采样以减少计算，同时获得足够宽的感受野。编码器。编码器的目标是生成支持各种任务的高级特征，它从词干模块和集合中提取低级特征，掩码解码器。手掩模分支被证明在HIU任务中是不可或缺的，因为分割掩模可以进一步提高关键点检测的性能，反之亦然[57，69，20]。更重要的是，手部网格可能会变形以最佳拟合关节位置，并且可能忽略手部几何特性，从而在仅对2D/3D手部姿势施加监督时导致无法推理的手部网格表示[4，70，72]。幸运的是，掩模分支不仅利用用掩模标记的样本，这导致更好的性能，而且还通过经由自监督学习惩罚渲染掩模和估计分割掩模之间的误对准误差来细化POF解码器。为了弥补关节结构的二维特征和三维信息之间的差距，我们引入了部分方向场（POF）来对关节结构在二维图像空间中的三维方向进行编码。实际上堆栈-1堆栈-2堆栈-K输入⨁⨁⨁，，，手模型手模型手模型凸轮造型姿势凸轮造型姿势构成形状凸轮11284FF∈›→W∈.›→--›→--∈∈-⨂gpf$猫softmax骨料⊕SZ➚gp^⨂图3. 任务注意模块。图中显示了任务注意力模块的数据流，其中gp和fc表示全局平均池化和全连接层。我们介绍标准的手骨架层次S数据结构，它由一组“（父，子）”对组成。对于特定骨骼（A，B）S，其中A和B是两个关节，并将−A−B−→3d和−A−B−→2d表示为归一化ori。在3D和2D域表示中从关节A到关节B的表示分别为。然后，对于骨骼（A，B），其POF（表示为L（a，b）R3×H×W）将3D语义信息编码为3通道特征图，并且La，b的值在变形B P（θ）：R15×3RN ×3应用于平均模板T¯。然后，我们可以通过使用标准混合蒙皮函数W（·）围绕关节J（β）旋转每个骨骼部分来获得最终网格：M（β，θ）=W（T（β，θ），J（β），θ，W），（3）T（β，θ）=T¯+BS（β）+BP（θ），（4）哪里指蒙皮权重。在蒙皮过程中，不仅可以获得手的网格，而且可以通过旋转关节J（β）与姿态参数θ来获得3D手关节。因此，估计2D手部姿势的替代方式是利用适当的相机参数来投影3D手部关节。特别地，在这项工作中，我们假设理想的针孔相机设置，其中投影矩阵表示为，f0p0位置x被定义为，Q=0fq00 0 1，（5）L（a，b）（x）=（−A−B−→2d，−A−B−→3d. z）x∈骨0否则。（二）其中f是焦距，（p0，q0）在图像中心-我们将指出，POF值仅对于属于当前目标骨骼部分的像素是非零的，并且与[61]相比，我们采用不同但更合适的定义，因为我们的POF编码可以利用仅具有2D标签的大量野生训练样本。任务注意模块。TAM的目标是将各个任务之间的语义特征集合在一起，这可以形式化为一个变换，RN×C×H×WRC×H×W，其中N表示任务的数量，C，H，W表示特征映射的空间分辨率。图3展示了TAM的结构（为简单起见，N=2）。坦率地说，我们的设计是基于SKNet [29]，但有几个有意义的和对原始设置进行合理修改。开始的逐元素添加步骤被全局平均池化和特征级联所取代。这种适度但必要的调整，使TAM更适合于选择关键的语义特征之间的各种任务的额外的，但可以忽略不计的计算负担为代价。3.2. 回归头回归头的目标是重建手网格表面。为了实现这一目标，我们利用生成的手模型MANO[44]，并估计管理网格表示的MANO的参数。MANO的网格曲面可以通过形状参数βR10和姿态参数θR15×3进行完全变形和姿态调整，其中β表示手的形状，θ表示关节的旋转。给定一对参数β，θ，形状变形BS（β）：R10RN×3输出混合形状来表征身份主体和姿态11285LL--L LL--L LL这使得f成为唯一的未知变量。请注意，我们不是用独立的训练参数复制K个回归器头，而是让K个回归器共享一组全局训练参数，类似于[60]中采用的策略。3.3. 培养目标主干、回归头和MANO的可微性质使得我们的HIU-DMTL框架端到端可训练。总体损失函数可以分为三类，针对骨干训练、回归头优化和自监督学习（在以下讨论）。训练骨干。主干的目标是从手部图像导出某些种类的工具表示，包括2D热图、手部掩模和POF编码。为了训练骨干，每个MTL块中的三个分支的输出被直接监督训练。具体而言，培训目标定义为：主干=hm+pof+seg，其中hm使得估计的热图接近地面实况，pof也是如此。该算法利用了语义图像分割中常用的经典交叉熵损失法训练回归头。回归模块的目的是回归MANO的摄像机参数R、T和网格参数β、θ。然而，获得地面实况标签是幸运的是，回归器可以通过弱监督学习使用具有3D/2D注释的广泛可用的样本进行训练。具体地，损失函数包括三个项，回归量= 3d+2d+掩模，其中3d测量估计的骨骼与对应的骨骼之间的取向相似性。11286LL输入我们的月球et.alet.alet.alHasson et. alBoukhayma et. al电子邮箱：et.al图4. 定性评价。第一列展示了覆盖广泛使用的基准[68，73，74，46]（第2 - 5行）和野生情况（第1行）的RGB输入。下面的列展示了我们的重建结果，[34]，[72]，[70]，[19]，[4]和[16]分别。为了进行公平的比较，所有方法都在公共可用的预先训练的检查点上进行评估如在[4，70，16]中，2d和掩码是指2D关节和手部掩码的重新投影损失。实现自我监督学习。对于重建好的手形网格，投影的掩模必须与轮廓一致，这种约束在训练回归头时得到了充分利用。然而，在合理的预测中应保持更多的隐含约束。例如，渲染的手部掩模应匹配由主干估计的掩模;重新投影的手部姿势的坐标应接近从主干的热图推断的这种一致性使我们能够利用未标记的手部图像来实现自监督学习。在实践中，经由Pytorch3D [42]中包含的可微分渲染器获得重新投影的可微分手部掩模，并且采用等式1从热图导出可微分2D姿态。4. 实验为了证明我们的HIU-DMTL框架的有效性，我们首先提出了我们的恢复手网格与最近的作品的结果进行定性比较然后，我们定量地评估了 HIU- DMTL在2D/3D手部姿势估计、手部掩模分割和面部识别方面的优越性。图5. HIU-Data和FreiHAND数据集之间的比较。前三列显示来自HIU数据的样本，最后三列显示Frei-HAND [74]中的示例。对于每个样本，将中心裁剪的手图像、分割掩模和2D手姿势可视化。站，并在几个公开可用的数据集的手网格重建任务最后，我们进行了几项消融研究，以评估不同设计策略的重要性由于篇幅有限，实验的实施细节在补充资料中提供，更多细节请参考补充资料。4.1. 实验设置数据集。我们主要利用两种数据集，也就是说，公开可用的基准和我们新注释的11287输入叠加侧视图输入叠加侧视图图6. 补片恢复结果。我们证明了我们的方法在几个典型的具有挑战性的情况下的性能。对于每个样本，重建的手和输入图像之间的叠加结果，以及侧视图渲染结果。方法DeepLab v3 [7]快速SCNN [40] HIU-DMTLmIoU ↑ 96.6%百分97.5%表1. 手部分割。该表显示了[7]，[40]的mIoU以及我们在HIU-Data上的HIU-DMTL。数据集。对于公共数据集，我们在 CMU PanopticDataset（CMU）[46]; Rendered Hand数据集（RHD）[73]; Stereo Hand Pose Tracking Bench-mark （ STB ）[68]; FreiHAND [74];和Dexter Ob-ject（Dexter）[50]数据集上评估我们的方法。由于没有可访问的数据集包含高质量的手掩模，使得难以直接对上述HIU任务执行训练。HIU数据。关于上述问题，我们在具有挑战性的场景中手动收集33，000个手部图像作为我们的新数据集，即HIU数据。对于每个样本，手动注释2D手部姿势和手部掩模，而不是像[74，61，66]中那样自动生成近似标签。如图5所示，具有相应标签的几个样本，可以观察到我们的数据集比最新发布的自动注释的FreiHAND [74]数据集实现了更好的注释准确性4.2. 定性评价为了在视觉上评估恢复的手部网格表示的质量和HIU-DMTL在各种情况下的稳健性，我们在图4和图6中示出了几个代表性样本。如图4所示，HIU-DMTL的恢复的手部网格与输入图像的重叠比通过其他现代方法重建的手部网格更好[34，72，70，19，4，16]。此外，HIU-DMTL在野外看不见的图像上表现出优异的鲁棒性和泛化能力，这对于先前现有的方法是例如，图6示出了我们的方法足够鲁棒以在几种具有挑战性的情况下进行手部网格恢复，诸如夸张的手部关节、极其不受约束的相机视图、图像截断的存在、严重的自遮挡和手部对象交互。4.3. 定量评价我们定量评估的优越性HIU- DMTL的2D/3D手姿态估计，手面具分割，手网格重建任务分别。3D手部姿势的比较。为了与[4，70，19，16，72]一致，采用3D PCK来评估3D手部姿态估计的性能。在STB、RHD、Dexter和Frei-HAND数据集上评估所有比较方法，图7报告了总体实验结果。在STB数据集上，3D PCK曲线仍然交织在一起，因为STB数据集相对较小并且缺乏多样性。我们的方法在新推出的方法中取得了有竞争力的结果[4，70，16，65，1，61，71]，当考虑到该数据集的饱和性能时，这是合理的[70，72，61，64，24]。在相对复杂且更多样化的RHD数据集上，我们的方法优于所有现有方法[27，70，1，16，65，71]，并实现了最先进的性能。在DexterObject数据集上，我们的方法大大优于现有的工作[2，61，1，24，35]，并且与[50]保持可比性，后者利用额外的深度信息来校准关节位置。在FreiHAND基准测试中，我们的方法大大优于当代方法[19，4，74]，并且与[34]相比获得了稍好的性能，而[34]利用额外的地面真实手网格来实现网格恢复。手网的比较。我们使用这些方法[34，72，70，16，4，19]执行苹果到应用程序的比较，包含可访问的源代码/检查点，这些方法专注于各种评估指标下的手动网格恢复任务具体地，我们将重新投影的掩模的IoU PCK、重新投影的手部姿势的2D PCK和每顶点重构误差的3DPCK作为评估度量，并且对HIU-Data、CMU和FreiHAND评估上述方法，如图8所示。关于重新投影的2D手部姿势的2D PCK，我们的方法在很大程度上优于[34，72，70，16，4，19关于重新投影的手掩模的IOU PCK，我们的方法保留了显著更高的PCK分数，这也已经在图4中证明了我们恢复的手网格与输入图像更好地重叠。关于每顶点重建误差的3D PCK，与[34，74，4，19]相比，我们的框架获得了最小的未对准。注意，方法[34]还利用Frei中的地面真实手网格用于训练的HAND数据集。手面具的比较对于手掩模分割，我们将我们的方法与一般SOTA分割方法进行比较[7，40]。表1表明，我们的方法比一般复杂的方法更适合于手面具分割的任务。如图9所示的某些代表性样本，我们的方法可以估计一个精确的面具，即使在纹理区域112881.01.01.01.00.90.90.80.80.80.80.60.60.70.70.60.40.40.60.50.20.20.520 30 4050误差阈值（mm）0.420 30 4050误差阈值（mm）0.00 20 40 60 80100误差阈值（mm）0.00 10 20 30 4050误差阈值（mm）(a) 3D PCK在STB上[68](b) RHD上的3D PCK [73](c) 3D PCK on Dexter [50](d) 3D PCK on FreiHAND [74]图7. 定量评价。这些图分别显示了STB、RHD、Dexter和FreiHAND数据集上的3D PCK。1.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00 10 2030误差阈值（像素）0.0100 80 60 40 200错误阈值（IOU）0.00 10 2030误差阈值（像素）0.00 10 20 30 4050误差阈值（mm）(a) HIU-Data上的2DPCK(b) HIU-Data上的IOUPCK(c) CMU上的2D PCK[46](d) [74]第74话图8. 定量评价。附图示出了分别在HIU数据上的重新投影的手部姿势的2D PCK、在HIU数据上的重新投影的手部遮罩的IOUPCK、在CMU上的重新投影的手部姿势的2D PCK、在FreiHAND上的3D每顶点PCK。输入我们的DeepLab Fast-SCNN GT图9. 手部分割。该图显示了我们的HIU-DMTL [ 7 ]和[ 40 ]的掩模分割任务的几个结果。高频率，这是不能在[7，40]。此外，[7，40]可能会产生不合理的手掩模，违反了手的生物医学外观然而，我们的方法可以避免这样的困境，充分利用SSL和使用先验的手网格。4.4. 消融研究HIU-DMTL的优异性能主要归功于级联设计（CD）范例、多任务学习（MTL）设置、任务注意模块（TAM）和自监督学习（SSL）策略。在本节中，我们进行了消融研究，以更好地理解这些不同设计选择的重要性。此外，消融研究还深入地分析了网络结构相关参数，如节点数、节点数、节点数等对消融的影响2D姿态2D姿势†手膜手面罩†3D姿态手网4-堆叠0.8660.7040.9740.7700.8600.8562-堆叠0.8570.7010.9690.7650.8570.8531-堆叠0.8370.6860.9480.7520.8520.842表2. CD Paradigm消融术。该表呈现了在各种评估度量下的跨不同堆叠布置的消融结果，其中t指示通过利用适当的相机参数投影3D姿态/网格来3D手部姿态/网格在FreiHAND基准上量化，而2D姿态/掩模在HIU-Data上评估，因为FreiHAND基准中的掩模质量不够好。我们的框架中的网络堆栈的BER。级联设计范式。CD范例已被广泛用于2D姿态估计任务[36，60，53，54]，而用于HIU任务的多分支级联MTL设计。与[36]类似，我们研究了MTL块数量的影响。具体来说，我们构建了三个模型，其中包含1，2，和4 MTL块分别。同时，这三种型号的设计具有相似的FLOP，以便进行公平的比较。如表2所示，从1个堆叠改变为4个堆叠，2D手部姿势和手部掩模任务的性能可以显著提高。我们还研究了性能如何提高，根据MTL块的增加。表3呈现了8栈HIU-DMTL框架中的每个中间栈的性能，其中我们采用与表2中相同的评估度量。我们可以得出结论，从堆栈1到堆栈4，性能快速增长，然后这种增长趋势在后面的堆栈中逐渐平缓。我们的（AUC=0.995）Zhang（2019 ICCV）（AUC=0.995）Yang（2019 CVPR）（AUC=0.991）Baek（2019 CVPR）（AUC=0.995）Xiang（2019 CVPR）（AUC=0.994）Zhao（2020 CVPR）（AUC=0.987）Boukhayma（2019 CVPR）（AUC=无）Ge（2019 CVPR）（AUC=0.998）Iqbal（2018 ECCV）（AUC=0.994）PR）（AUC=0.748）(AUC=0.709）CHPR（2015年CVPRICCPSO（2014CVPSO（2011BMVC））（AUC=0.983）PR）（AUC=0.965）（AUC=0.948）WACV）（AUC=0.941）Spurr（2018 CVPR穆勒（2018CVZ& B（2017ICCV）潘特莱里斯（2018我们的（AUC=0.964）Kulon（2020 CVPR）（AUC=0.956）Baek（2019 CVPR）（AUC=0.926）Ge（2019 CVPR）（AUC=0.920）Zhang（2019 ICCV）（AUC=0.901）Zhao（2020 CVPR）（AUC=0.872）Cai（2018 ECCV）（AUC=0.856）Yang（2019 CVPR）（AUC=0.849）Spurr（2018 CVPR）（AUC=0.849）Z& B（2017 ICCV）（AUC=0.675）我们的（AUC=0.78）Baek（2020 CVPR）（AUC=0.70）Xiang（2019 CVPR）（AUC=0.70）Baek（2019 CVPR）（AUC=0.65）Iqbal（2018 ECCV）（AUC=0.56）Mueller （2018 CVPR）（AUC=0.70）Sridhar（2016 ECCV）我们的（AUC=0.860）月球（2020 ECCV）（AUC=0.854）Zimmermann（2019 ICCV）（AUC=0.783）Boukhayma（2019 CVPR）（AUC=0.351）Hasson（2019 CVPR）（AUC=0.735）我们的（AUC=0.704）月球（2020 ECCV）（AUC=0.457）Zhou （2020 CVPR）（AUC=0.416）Zhang（2019ICCV）（AUC=0.459）Ge（2019 CVPR）（AUC=0.520）Boukhayma （2019 CVPR）（AUC=0.505）我们的（AUC=0.708）月球（2020 ECCV）（AUC=0.456）Zhou（2020 CVPR）（AUC=0.405）Zhang（2019 ICCV）（AUC=0.315）Boukhayma （2019 CVPR）（AUC=0.512）Hasson（2019 CVPR）（AUC=0.349）Iqbal（2018 ECCV）（AUC=0.45）Z& B（2017 ICCV）（AUC=0.21）我们的（AUC=0.763）Moon（2020 ECCV）（AUC=0.605）Zhou（2020CVPR）（AUC=0.518）Zhang（2019 ICCV）（AUC=0.493）Hasson（2019 CVPR）（AUC=0.636）Ge（2019 CVPR）（AUC=0.578）Boukhayma（2019 CVPR）（AUC=0.622）3D PCK我们的（AUC=0.856）月球（2020 ECCV）（AUC=0.850）Zimmermann（2019 ICCV）（AUC=0.783）Boukhayma（2019 CVPR）（AUC=0.738）Hasson（2019 CVPR）（AUC=0.736）3D PCK二维PCK3D PCKIOU PCK二维PCK3D PCK3D PCK112892D姿态2D姿势†手膜手面罩†3D姿态手网×4-堆叠0.8660.7040.9740.7700.8600.8564-堆叠§0.7930.6620.9570.7390.8130.808单栈0.8370.6860.9480.7520.8520.8421-stack§0.8210.6480.9350.7390.8410.826表3. 中间堆的消融。该表显示了表5.TAM消融。该表呈现了TAM在各种评估度量下的消融结果，其中§表示不采用TAM，并且t具有与表2中类似的定义。图2示出了在各种评估度量下的中间堆叠的性能，其中t共享与表2中类似的定义。0.900.820.741.000.920.840.660.580.50我们的（AUC=0.624）我们的（AUC=0.671）我们的（AUC=0.812）我们的（AUC=0.843）0.760.680.60我们的（AUC=0.715）我们的（AUC=0.750）我们的（AUC=0.959）我们的（AUC=0.968）0.0 0.2 0.4 0.6 0.81.0监督样本(a) HIU上的2D AUC0.0 0.2 0.4 0.6 0.8 1.0监督样本(b) HIU上的IOU AUC-表4.MTL消融设置。该表显示了FreiHAND数据集上不同任务组合的比较。多任务学习设置。表4报告了联合学习手部掩模分割、2D手部姿势估计和手部网格恢复任务的影响。可以观察到两个结论：第一，当任何两个任务一起联合训练时，每个任务的性能优于训练任何单独的任务;第二，当联合学习全部三个任务时，每个任务的表现都优于在任何其他配置中训练时的表现。这是因为基本任务之间的上述关系约束可以彼此提高性能。例如，手部网格中包括的先验可以校正违反手部生物医学外观的手部掩模/姿势的不合理估计任务注意模块。为了研究TAM的有效性，我们对HIU-Data上的2D手部姿势估计、手部掩模分割任务以及FreiHAND基准上的3D手部姿势回归、手部网格恢复任务进行消融实验。对于没有TAM的基线模型，我们采用一个连接，然后是一个3 - 3卷积来聚合特征-从单个任务映射。如图5所示，我们...在1-stack和4-stacks设置中，使用和不使用TAM模块对基线进行配对。可以看出，TAM在单栈模式和多栈模式下都显著提高了单个任务的性能，这意味着TAM不仅有利于回归分支的特征表示的聚合，而且有助于级联栈之间特征表示的转换。自我监督学习策略。为了验证SSL范例的有效性，我们以2D手部姿势和手部面具的AUC作为评估指标，并比较了有和没有SSL的框架的性能。如图10（左）所示，从主干检索的2D手部姿势和从pro-pose导出的2D手部姿势分别为图10. SSL策略的消融。这些图显示了在用于监督学习的样本的各个部分上应用和不应用自监督学习策略的比较，其中，未被选择进行监督学习的剩余样本-ing，†与表2中的定义相似。3D手部关节是在该比较中评估的两个因素。可以观察到：当没有样本用于监督训练（x=0）时，自学习策略可以显著地改善基线性能。由于所有样本都处于监督训练模式（x=1）下，因此自监督学习的空缺对最终性能没有任何影响。类似地，图10的右侧绘制了手面罩的比较，这也证明了SSL策略可以显著提高手面罩的性能。上述观察结果也从另一个方面说明了HIU-DMTL对野生图像中不可见的泛化能力（图6）。5. 讨论在这项工作中，我们提出了一种新的级联多任务学习（MTL）框架，即HIU-DMTL，以粗到细的方式处理手部图像理解任务。由于MTL策略，我们的方法可以有效地利用现有的我们的HIU-DMTL框架的性能已经通过大量的定量和定性实验进行了验证此外，在各种消融研究中，大多数组件都得到了很好的探索和讨论，这使得它可以直接解释为什么我们的框架可以在HIU任务中实现良好的性能。为了进一步的工作，我们希望我们的HIU-DMTL框架的核心设计可以普遍采用到其他研究领域。堆叠二维姿势2D姿势†手膜手面罩†3D姿态手网AUCMiou堆栈-10.8180.6610.9150.7120.8240.819堆栈-20.8550.6850.9540.7440.8450.834堆栈-30.8650.7000.9680.7640.8540.847堆栈-40.8670.7040.9750.7690.8570.853堆栈-50.8670.7060.9750.7710.8590.855堆栈-60.8680.7060.9760.7730.8600.857堆栈-70.8690.7050.9760.7710.8610.857堆栈-80.8700.7070.9770.7730.8610.8592D姿态手膜手网2D姿态手膜3D姿态手网✓✗✗0.752---✗✓✗-0.863--✗✗✓--0.8020.801✓✓✗0.7910.875--✗✓✓-0.8910.8160.813✓✗✓0.795-0.8120.808✓✓✓0.8020.9070.8210.81711290引用[1] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.通过神经渲染推进基于rgb的密集3d手部姿态估计的包络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第1067-1076页，2019年。二、六[2] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于gan和mesh模型的弱监督域自适应估计交互物体的3d手部姿态。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第6121-6131页，2020年。二、六[3] LucaBallan，AparnaTaneja，JürgenGall，LucVanGool，andMarc Pollefeys.使用区别性显著点的动作中的手的运动捕获。在欧洲计算机视觉会议（ECCV）的会议记录中，第640- 653页，2012年。1[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年。二三五六[5] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第666-682页，2018年。二、三[6] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，第2272-2281页，2019年。2[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），40（4）：834六、七[8] Xingyu Chen ， Yufeng Liu ， Chongyang Ma ， JianlongChang ， Huayan Wang ， Tian Chen ，

下载后可阅读完整内容，剩余1页未读，立即下载