交互双手的端到端检测与位姿估计

126 浏览量更新于2023-10-14 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1交互双手的端到端检测与位姿估计东旭金光仁金UNIST白承律摘要三维手部姿态估计已经达到成熟的水平，使得能够用于单手情况的真实世界应用。然而，准确估计两个紧密交互的手的姿势仍然是一个挑战，因为在这种情况下，一只手经常遮挡另一只手。我们提出了一种新的算法，准确地估计手构成这样一个具有挑战性的sce-nario。我们的算法的关键在于一个框架，共同训练的估计相互作用的手，利用他们的相互依赖性。此外，我们采用了一个GAN类型的交互手姿势鉴别器，有助于避免物理上不可信的配置，例如。交叉手指，并利用关节的可见性来改善中间2D姿态估计。我们将它们合并到一个单一的模型，学习检测的手，估计他们的姿势的基础上，一个统一的标准的姿态估计精度。据我们所知，这是第一次尝试建立一个端到端的网络，检测和估计两个密切互动的手（以及单手）的姿势在三个数据集代表具有挑战性的现实世界的情况下，我们的算法表现出显着的和一致的性能改进的最先进的。1. 介绍估计手部姿势有许多应用，包括增强现实和虚拟现实、手语识别和基于手势的界面。在过去的十年中，由于深度学习技术的进步，该领域取得了重大进展。特别是，对于孤立的手，骨骼姿态估计技术已经足够成熟，可以在实际应用中使用。因此，最近的努力集中在具有挑战性的情况下，其中估计例如在以自我为中心的相机视图[28，54，13]中捕获的手的姿势或与对象[47，7，8，14，4]的交互，或恢复手的形状以及他们的骨骼姿势[24，3，5，57]。然而，直到最近，已经注意到估计两个相互作用的手的姿势这个问题是具有挑战性的，因为相互作用的手经常导致严重的自闭塞（参见图1B）。1为例）。在这种情况下，大多数现有的工作采取生成的，基于模型拟合的方法，例如。深度图[30，49，27，42]图1：InterHand2.6M数据集上的示例手部检测和3D姿势估计结果[25]：（行1的国家的最先进的系统[25]和我们的，分别。当两只手紧密地相互作用时（最后两列），我们的对于交互的手，我们的关节估计过程由预测的关节可见性引导，如第三行所示（黄色：不可见，绿色和红色：可见）。对于单手，不估计可见性（有关还使用单手关节可见性的情况，请参见补充）。最后一行以不同的视图显示了我们的结果或RGB图像[52]，而最近，已经研究了基于卷积神经网络（CNN）的判别学习方法[25，21]。基于CNN的方法已经特别成功地解决了在以自我为中心的视图或对象的背景下发生的遮挡。1118911190[28，54，13，47，7，8，14，4]。然而，由于缺乏训练数据，将这些技术应用于交互手的情况受到限制：Ego3D数据集[21]提供了来自Mixamo的模拟角色的合成手，而Tzionas数据集[49]提供了很少的配有2D骨架注释的双手示例。这些数据集的规模有限，特别是在其覆盖范围密切相互作用的手的情况下。最近的InterHand2.6M数据集提供了由多视图相机捕获的百万级真实图像[25]。尽管如此，其中紧密交互的情况（边界框交集大于并集，IOU得分大于0.5）被限制在大约18，000个实例。在本文中，我们提出了一个新的基于CNN的手姿态估计框架。我们的系统是在现有的数据集（Ego3D和InterHand2.6M）上训练的，其中包含有限的交互手的实例。然而，当测试交互的手，它提供了一个准确性水平相媲美的国家的最先进的系统对单手姿势估计的情况下。我们的方法建立在一个假设，即可见的手包含有用的信息，推断闭塞的手的姿势我们实验验证这一点，通过统计测试的独立性在关节位置的密切互动的手，并将其实例化到一个新的框架，利用这种依赖性，通过共同估计他们的姿势。此外，我们通过训练GAN型鉴别器来利用双手的结构依赖性，帮助避免物理上不可信的关节手配置，例如。两根交叉的手指。我们还明确估计每个关节的可见性，并将此信息，以提高2D姿态估计。为了便于在这种情况下训练手姿态估计器，我们将手检测网络嵌入到我们的框架中，并将检测到的手分类为（紧密）交互和非交互（或单手）类别，这些类别随后被馈送到相应的姿态估计器。这使得我们能够1）将我们的手部姿势估计系统定制为具有挑战性的交互手部的情况（经由交互情况的姿势估计器），同时仍然保持单手情况下的最先进性能（经由单手姿势估计器），以及2）以端到端的方式训练整个系统。据我们所知，我们的系统是第一个端到端的可训练流水线，其执行单个或（两个）交互手的检测和姿势估计在使用Ego3D[21]、InterHands2.6M [25]和Tzionas [49]的实验中，我们证明了我们的联合估计方法显著改善了1）独立估计手的基线系统和2）最先进的姿势估计系统。2. 相关工作单（孤立）手的姿势估计。单手的三维姿态估计在过去几年中已经取得了显著的进展，或者基于深度图[56，29，43，50，29，55，23，34，55，2，51，1]或者基于RGB。图像[16，6，58，17]。基于深度的3D手部姿态估计由于丰富的3D信息而特别成功深度图[55]。自动数据收集和合成管道[56，8]进一步帮助实现高水平的准确性。在RGB域中，自动数据生成更具挑战性：合成数据集通常与真实世界数据存在明显差距[34，26，38]。获取高质量3D注释的最近尝试利用了多视图和/或时间信息[12，59，39，20]：Simonet al.[39]率先收集手部姿势注释，在多相机设置中执行标签一致性[17]，而Zimmermann等人。[59]使用八个多视图RGB相机收集3D注释。在[12]中，Hampali et al. 提出了一个全自动的数据采集流水线，涉及5 RGBD相机和时空一致性。此外，可微分渲染器和透视模型[5，9，14，22]已经使得能够在不需要显式3D网格监督的情况下训练CNN以用于从单个RGB图像进行3D网格重建。它们通常使用2D/3D骨架和2D分割掩码作为弱监督信号。现有的方法也可以分为生成方法和判别方法：生成方法优化3D模型的参数（例如， MANO [37]）来解释输入点云和深度值[48，46，37，44，41，36，31]。在RGB域中，3D模型适合于中间表示，例如2D骨架[32]。然而，大多数的生成式算法存在局部最优解或收敛速度慢的问题.随着CNN和大规模数据集的出现[39，55，45，55]，判别方法已经显示出有希望的结果，证明了生成方法的强大替代方案。包括迭代最近点和基于随机森林的方法在内的更经典的方法可以在[33，18]中找到HPE用于交互式双手。只有少数现有的工作已经考虑了姿态估计的互动手[30，49，27，52，25，21，42，40]。奥伊科诺米季斯和al. [30]通过将3D模型拟合到在RGBD序列中捕获的相互作用的手来开创该域Sridhar等人 [40]将3D铰接高斯混合物对准到与对象交互的手。Tzionas等人 [49]构建了一个提供2D注释的数据库，并开发了一个生成模型，该模型使用有区别地检测到的显著点。他们的方法需要单个RGBD图像或多视图RGB图像。Taylor等[42]提出将CNN和随机森林结合起来，用于估计手掌方向和手部分割掩模，以拟合 3D 模型。Mueller等[27]构建了一个新的深度图数据集，并提出了一个适合MANO手部模型的双手姿势估计管道[37]。最近，Wang et al.[52]提出了一种基于单个RGB图像的方法，该方法将MANO模型拟合到估计的2D分割掩模和2D骨架。Moon等人[25]提出了InterHand2.6M数据集，其中包含数百万帧，包括密切交互的手。基于这个数据集，他们训练了一个新的 CNN 姿态估计器InterNet，为两个相互作用的手量身定制。这在Ego3D和InterHand2.6M上提供了最先进的性能。由于它们的架构不包含手检测能力，因此需要外部的11191×个Xf检测fHPELHPNfSH2DfSZ3DfHPNfFPL2DLDL3DyfTH2DfTVHEf专长fCBfTJVEfTZ3DLHandLV图2：我们的端到端手部检测和3D姿态估计框架的训练过程的示意图我们的系统首先检测手，提取其中的特征，并将它们分为三个偏手性类：对于单手情况（“左”和“右”），通过应用2D联合热图估计器fSH2D，随后应用3D深度估计器fSZ3D来独立地估计对应的3D姿势，每个估计器由相应的损失L 2D和L3D监督。对于交互的手，fDet生成编码双手的单个特征图这些特征被馈送到2D关节热图估计器fTH2D、关节可见性估计器fTVVE、可见性引导的热图增强器fTVHE和3D深度估计器fTZ3D，其由相应的骨骼关节位置损失L2D和L3D、可见性损失Lv加上来自GAN型关节手部姿势鉴别器的监督Ld该结构有助于整个流水线利用1）统计依赖性（经由联合训练）和2）两个交互手的结构依赖性（经由GAN鉴别器）黑色和绿色箭头分别表示前向传递和监督信号手持探测器在[21]中，Lin et al.提出了一种结合双手检测和姿态估计的流水线然而，它们的检测步骤基于分割掩模，因此，整个姿态估计流水线不是端到端可训练的。在实验中，我们证明，我们的方法显着优于这些国家的最先进的方法。3. 交互手的端到端检测和位姿估计问题定义和动机。我们的系统接收任意大小的输入RGB图像，并生成其中出现的手的3D关节位置虽然系统可以检测和估计任意数量的手的姿势（例如，当多个人出现在输入图像中时），但我们的实验将集中在每个图像中仅出现一个人的一只手或双手的情况下。在这种情况下，我们的系统生成一个（单手）或两个（交互的手）向量的大小J 3与J是编码的手的姿势的关节的数量。我们在整个实验中将J固定在21当它们彼此紧密交互时，估计手部姿势变得特别具有挑战性：在这种情况下，一只手经常遮挡另一只手，如图1B所示1.一、我们的方法来面对这一挑战是利用可见的手的信息，以提高其闭塞的同行估计。交互手的依赖性。我们进行了初步的实验来验证这一假设，即可见手的3D姿态传达了有关被遮挡物体的相关信息手的姿势：基于两个随机向量的Hilbert-Schmidt独立性准则（HSIC）[11]，对两个相互作用的手关节的独立性进行统计测试，每个随机向量编码手的姿势每只手的边界框是集中的，以消除类似的绝对关节位置所造成的虚假依赖的影响。在零分布的95%分位数（独立性假设）下，我们的测试提供了强阳性答案（测试统计值比通过阈值高33倍，表明确定性高;详情见[11]）。相同的独立性测试适用于两只手不紧密交互的情况（即，当他们的IOU分数为0时）也被证明是积极的，但具有低得多的确定性：测试统计值仅比通过阈值大1.56倍检测和姿态估计网络概述我们通过联合训练相应的姿势估计器来利用两个密切交互的手的潜在统计依赖性：通过共享早期层，我们的姿势估计网络（左手和右手）隐式地捕获并利用这种依赖性。这使得我们的框架成为多任务学习的一个实例然而，我们上面的测试结果也表明，当可见的手不紧密交互时，统计依赖性较我们观察到，将这些情况合并到联合训练中可能会降低性能（参见相应实验的随附补充文档）。因此，我们将每个输入实例分为两类1）（紧密）交互和2）基于手边界的IOU的非交互手11192联系我们--×个× ××o oooo o联系我们×个--转转∈NCls×个我我我N联系我们∈ × ×◦→ ×+Σp*L（t，t*），（1）3.1.2HPE的箱.对于相互作用的情况下，姿态估计器进行联合训练和测试，而对于非相互作用的手，单手姿态估计器单独应用类似于现有的手姿态估计方法。为了促进这一过程，我们的系统采用了手检测网络。对于交互的手，我们还考虑到它们的结构依赖性，同时训练一个GAN型骨骼姿势鉴别器。这有助于防止产生物理上不合理的接头配置（例如，两个相交的手指）。整个系统以端到端的方式进行训练，以单一统一的方式简化所有网络组件的训练。图2显示了我们的框架的概述3.1. 网络架构我们的系统f由手检测器fDet和姿态估计器fHPE组成：手检测器fDet： XFH1接收输入图像X X，并且生成28 28 256维的局部化手fIF和它们的偏手性hIH（“左手”、“右手”和“两个（相互作用的）手”）的特征图。如果检测到的手正在交互，则fHPE联合估计两个大小为J3的姿态向量（y）。对于其他情况，fHPE独立地生成每只手的单个姿势向量y3.1.1手部检测网络fDet我们的手部检测器结合了特征提取网络fFeat、手部提议网络fHPN、手部分类和框生成网络f CB以及感兴趣区域（ROI）特征池化网络fFP [35]：fDet=[fFP，fCBfFP]fHPNfFeat.我们采用ImageNet预训练的ResNet-50 [15]进行特征提取： fFeat 接收大小为 H W 的图像 x ，并生成H/32W/322，048大小的全局特征图G. 以g为输入，fCBfFPfHPN估计利手性H.并行地，fFP针对由fHPN[35]提出的每个边界框提取2828 256大小的局部特征表示fHPN的手提案网络。我们采用更快的R-CNN方法，基于不同纵横比的锚框表示对象边界框建议作为参考[35]。它与特征提取器fFeat通过最小化每个图像定义的以下损失来联合训练LHPN（fHPN，fFeat）=1ΣLCls（p，p*）我ground-truthlabelsp*i当i 与地面实况手框显著重叠时，确定 daspi*=1 （即， IOU 评分高于 0 。 7 ）且dp*i=0，否则。 LCls是标准交叉熵损失，LReg是[ 10 ]中提出的Lllos的平滑近似。p*i乘以第二项，因为LReg仅在ti与地面实况重叠时使用。在[35]之后，平衡参数NCls和NREG分别固定在256和240。手分类和盒生成网络的CB。这1) 通过从fHPN的框提议中选择并细化来生成手部边界框，以及2）将每个输出框的类别确定为由于fHPN提出的许多边界框实际上不包含任何手，我们引入了一个额外的在训练过程中，它最小化了LHand（fCB，fFeat）=1HandLReg（t，t*）+LCls（pc，p*c），（2）其中pc和pc*分别是预测和地面真实类的概率（包括“背景”在内的四个类），1手是三个LReg不适用于“背景”框。基于手IOU确定地面truthp*c：如果两个手盒的IOU大于阈值τ，则将其分类为讨论fHPN和fCB都预测边界框地点和他们的班级。它们的不同之处在于fHPN将框分类为此外，fCB被设计为改进从fHPN获得的初始边界框（类似于Faster-RCNN）。确定τ值至关重要：在训练中，τ的值确定用于联合姿态估计器的训练集的大小：大的τ值导致小的训练集集中于具有挑战性的紧密交互的情况。另一方面，小的τ值将提供大的训练集，但它们可能包括松散交互（简单）的情况。我们观察到τ =0。3提供了丰富和集中（在具有挑战性的情况下）训练集之间的良好权衡对于测试，τ值更保守地确定为0。五、在补充材料中提供了不同τ值的影响。哪里1注册我我REGi这由分别针对单手（“左”或“右”）和交互手定制的两个子网络fSHPE和fTHPE组成。SHPE单手三维位姿估计网络。这张网-是表示第i个框提议的四个变量的向量。为了便于训练，fHPN还估计表示对应的箱子建议包含手的概率的辅助变量p：1这是一个轻微的符号滥用：fDet的范围实际上是F×H的幂集2F×H，因为它可以生成多个检测。本工作组合了2D热图估计器fSH2D：F，M和3D深度值估计器fSZ3D：[F，M]Z。热图估计器fSH2D将输入特征图f转换为大小为28 28的J个2D热图，每个热图专用于骨骼关节。将所得组合热图mRJX 28 X 28及f馈送到fSZ3D以估计深度图向量z：[z]i对应于第i个关节。11193⊙2222转转--∈转2×→2(a) 无LD（b）有LD（c）地面实况图3：（a）在没有和（b）具有手部姿势鉴别器损失L_D的情况下训练的我们的系统的示例手部姿势估计结果（等式3）（六）。手区域被裁剪以改善可视化。没有LD，我们的系统有时会产生物理上难以置信的配置，如（a）所示：（顶部）其中表示各自由对应可见度值加权的热图。以此方式对可见性进行加权帮助fTVE集中于更可靠的估计，因为具有高可见性的关节得到更准确的热图m。构造（伪）能见度地面实况vTGT的细节在补充中提出。3D深度估计网络fSZ3D和fTZ3D。两个网络都由两个具有ReLU激活的卷积层组成，然后是两个具有S形激活的全连接层。使用sigmoid确保输出深度值位于[0，1]的归一化区间内。两个网络都接收整体图像特征f和对应的2D热图m的级联。在训练之前，我们将3D关节值标准化为[0，1]，并将中指的掌指（MCP）关节定位在（0. 5，0。5，0。（五）。网络基于L2损失进行L3D（fSZ3D）=fSZ3D（[f，m]）−zSGT2，拇指和食指相交（底部）第三和中间L3D（fTZ3D）=fTZ3D（[f，m]）−zTGT2（五）手指相交这样的配置由鉴别器d_THPE检测和惩罚，鉴别器d_THPE经由L_D提供对应的监督信号，帮助纠正这样的情况（b）。其中zSGT和zTGT是对应的单手和双手地面实况。fSH2D和fSZ3D的详细架构在补充中提供最终J个骨骼关节{（xi，yi，zi）}J是通过com-交互式手部姿势鉴别器dTHPE。训练时峰位合并i=1每个2D热图的（x，y），以m为用z。手姿态估计器THPE联合地在交互手上有助于THPE的交互式手姿态估计网络。这由2D热图估计器fTH2D和3D深度估计器fTZ3D组成。fTHPE的输出的大小2D热图估计网络fSH2D和fTH2D。这些由九个2D卷积层组成，每个卷积层都伴随着一个ReLU激活。对于训练，我们使用标准的L2损失：L2D（fSH2D）=fSH2D（f）−mSGT2，L2D（fTH2D）=fTH2D（f）−mTGT2，（3）其中mSGT和mTGT表示单手（大小为J×28×28）和交互手（大小为2×J×28×28）的地面实况热图。利用其潜在的统计依赖性，它有时会产生物理上难以置信的配置（图。 3a）。我们通过经由GAN型关节手部姿势鉴别器dTHPE捕获结构依赖性来解释这种缺陷。由于我们的交互式手部姿态估计网络fTHPE由两个子网络fTH2D和fTZ3D组成，因此我们将dTHPE分解为对应的判别器：[0，1]将真实热图与由fTH2D合成的那些，而3D姿态鉴别器dTZ3D：Y [0，1]将真实3D骨架与通过组合m和z构建的估计骨架区分开。我们的判别器dTZ3D看到整个3D关节y而不是仅其深度部分z。这为dTZ3D提供了更好的上下文：深度值本身不提供足够的信息来检查真实性。应注意，dTZ3D不能提供监督联合可见性估计网络fTJVE 可见性--到热图估计器fTH2D，作为从2D热图是不可微的，因此我们使用dTH2D。TVHE的引导热图增强网络。我们的关节可见性估计是42维向量，每个向量取表示对应关节的可见性的[0，1]中的联合可见性估计网络估计v，且可见性引导热图增强网络接收v且通过用预测可见性加权初始热图来改进初始热图m。v. 这些网络基于L2损失进行训练LV（fTJVE）=fTJVE（f）−vTGT2，L2D（fTVHE）=fTVHE（f，v⊙m）−mTGT2，（4）111943.2. 培训我们的网络f是通过最小化子网络的损失的组合来训练的（等式2）。1L=LHPN（f HPN，f Feat）+L Hand（f CB，f Feat）+L2D（f H2D，f TVHE）+λ1L 3D（f Z3D）+λ2LD（fTH2D，fTZ3D，fTVHE）+λ3LV（fTVVE），（6）其中，损失LD表示由THPE交互式手部姿势鉴别器. 加权11195--------×个在30，0处确定参数λ1、λ2和λ3。01和1，分别基于InterHand2.6M数据集上的交叉验证。类似于Faster-RCNN训练方案[35]，我们在1）特征提取网络fFeat和手部提议网络fHPN（经由L HPN）和特征提取网络f HPN（经由LHPN）的更新之间交替2) 特征提取网络fFeat和手分类以及盒生成网络fCB（经由L手），两者之后都是使用L2D、L3D和LD的fHPE的更新。我们观察到手部检测网络fDet比手部姿态估计网络fHPE收敛得更快，因此，我们在10个总时期中的5个之后冻结fDet的权重，以加快训练过程。数据扩充。我们通过应用标准数据增强步骤来扩大原始训练数据集，包括1）平移高达10个像素（在地面实况框大小的10%内）， 2）在[ 45，45]度内旋转，3）水平翻转，4）分别在原始值的[20%，60%]和[ 10%，20%]中的亮度和饱和度变化生成的数据集大约是原始数据集的四倍。实作详细数据。我们的实现使用 Python和PyTorch库。2所有网络权重通过从平均值为零且标准差为0的i.i.d高斯分布中采样来初始化。001。对于优化，我们使用Adam优化器[19]，初始学习率为0。001和其默认参数β=（0. 九比零。999）。mini-batch的大小和总epoch的数量分别固定为3和104. 实验数据集。我们在包含双手交互案例的三个具有挑战性的数据集上评估了我们的方法： Ego3D[21] ，InterHand2.6M[25]和Tzionas[49]数据集。对于Ego3D，我们采用了他们的它提供了21个骨骼关节的3D地面实况注释（1个用于手腕，4个用于每个手指）。对于每个数据实例，x y坐标值（图像窗格的高度和宽度）被归一化为[0，1]，而其z值被缩放，使得腕部和中间MCP之间的骨长度变为10cm。InterHand2.6M（v0.0）是第一个具有用于双手交互的RGB和3D姿势注释的真实数据集它包含26个受试者（7名女性，19名男性）的260万512 334大小的图像我们使用该数据集的作者建议的对于Tzionas [49]的测试，我们使用了他们的7个双手序列，总共包含1，307帧。由于该数据集没有单独的训练集，因此我们应用了在InterHand2.6M上训练的系统。基线和评估指标。我们比较了3种最先进的手部姿势估计方法，这些方法是为交互手而明确设计的：Moon等人' s InterHand2.6M系统[25]，Lin等人的基于Ego3D的全局双手姿态估计方法[21]，以及Wang等人的“基于模型的方法[52]。为了评估我们的算法在单手情况下的性能，我们还与Wei等人进行了比较。的卷积姿势机器[53]（仅用于2D手部姿势）和Boukhayma等人的'的联合手部姿势和网格估计方法[5]。对于我们比较的所有基线，我们显示了各自出版物中报告的结果。我们的结果是基于相同的训练和测试集分割获得的，从而可以进行直接比较（每个数据集;显示短）。然而，只有[21，52]和我们的算法提供了显式的手检测能力，而其余的算法假设每个输入图像都集中在单个手上。对于后一种方法（[25，5，53]），基于使用地面实况边界框注释裁剪的手动聚焦图像获得报告的结果。为了进行评价，使用了三种误差测量：3D端点误差（EPE）和每个关节位置的平均误差（MPJPE）均以mm为单位，以及2D端点误差（EPE）以像素为单位。对于Ego3D[21]，使用2D和3D EPE，如[53，25，21]中所述对于InterHand2.6M，按照[25]使用MPJPETzionas仅为每5帧提供2D注释，因此我们使用2D EPE来促进与[25，5，52]的直接比较结果表1总结了结果。Moon等人报告了先前关于Ego3D的最新结果。[25]（在3D EPE中）和Wei et al.[53]（在2D EPE中）。我们的算法取得了显着的性能改进，从这些结果（由3.93%和32.49%的错误率，分别减少应当注意的是，Moon et al.的算法在测试中使用了地面实况手边界框注释，而我们的算法即使不依赖于这种注释也能实现较低的错误率Wei等人s [53]方法被设计用于2D手部姿势估计：为了在2D中进行比较，我们将初始3D姿势估计结果投影到图像窗格上。我们的算法还改进了Moon等人的算法。的最先进的结果InterHand2.6M的4.05%。对于Tzionas，Boukhayma等人获得了先前的最佳结果的方法[5]。我们的股票比他们的高出3.80%。总的来说，我们在所有数据集中一直排名最高。除了我们的算法，Moon等人的方法在Ego3D和InterHand2.6M上都是最好的[25]。我们还尝试使用Tzionas的公开代码和网络权重与这种方法进行比较：3相应的结果（表1）表明，我们的方法在不同的数据集上提供了更稳定的性能。图4示出了Moon等人的示例图像和对应的手部姿势估计结果s算法[25]2我们的代码基于detec提供的更快的R-CNN实现tron2：https://github.com/facebookresearch/detectron23https://github.com/facebookresearch/InterHand2.6M11196------(a)Moon等人[25日](b)我们单手(c)地面实况(d)Moon等人[25日](e)我们交互手（f）地面实况图4：在Tzionas（顶部）、Ego3D（第二行）和InterHand2.6M（最后两行）上的示例手部姿势估计结果：手部区域被进一步裁剪以改进可视化。我们的系统自动检测每个输入图像中的手所附补充提供了附加示例。（使用他们的代码）和我们在单手和交互手情况下。Moon et al.的方法和我们的算法产生了高度准确的单手情况下的姿态估计。然而，对于相互作用的手，严重的闭塞甚至对最先进的Moon等人的研究也会构成重大挑战。的方法（图中的第四列）。4）. 通过利用依赖躺在相互作用的手，从而共同训练相应的估计，我们的方法可以提供更高质量的估计。在InterHand2.6M上，在平均AP为98.62时测量手检测准确度。对于利手分类和关节可见性估计，平均分类准确率分别为97.64%和78.38%我们仅在交互手处使用关节可见性，因为构建地面实况可见性对于单手来说可能具有挑战我们的补充文档表明，当可用时，这种关节可见性可以导致单手的性能略有消融研究。我们评估了我们的系统中交互作用的手特定设计的贡献：我们构建了我们的原始系统的四种变型，通过1）去除等式（1）中的GAN鉴别器L_D图6示出了表示为“我们的（L_D）”的示例性示例，2）进一步移除联合可见性估计和可见性引导的热图增强网络（“我们的（L_V，L_D）”），以及3）完全移除属于表示为“我们的（交互，L_D）”的交互手类的这些变化消除了从我们的最终系统中捕获交互手的结构和统计依赖性的能力。我们还评估了我们的端到端的手检测和姿态估计设计的有效性，通过4）在姿势估计器的训练之前构造并冻结手检测器的系统（“我们的（单独检测）”）。我们在Inter-Hand 2. 6 M的两个测试案例中评估了它们的性能：第一个案例集中在仅包含紧密交互的手（具有小于τ的对应IOU分数）的子集上，而第二个案例在整个数据集上进行评估。表. 2显示结果。紧密交互情况的结果表明，我们的GAN鉴别器、可见性引导的热图增强器和（交互手的）联合训练策略共同地和单独地有助于改善11197------表1：不同手部姿势估计方法的错误率最佳和次佳结果分别以蓝色和绿色突出显示在Box inf上标记有“✓”的算法柱提供手检测能力。对于其他算法（使用），每个图像中的手的边界框是基于地面实况框标签生成Moon等人的结果Tzionas上的算法是使用Moon公开提供的代码获得的（详情见正文）。2D EPE（px）3D EPE（mm）MPJPE（mm）2D EPE（px）Wei等人[五十三]✗7.11N/AN/AN/ALin等人[21日]✓8.1117.42N/AN/ABoukhayma等人[五]《中国日报》✗N/AN/AN/A12.91Wang等人[五十二]✓N/AN/AN/A13.31Moon等人[25日]✗N/A12.2012.5817.61我们✓4.5311.6312.0812.42表2：我们的算法在InterHand2.6M上的替代设计选择的性能（MPJPE，单位为mm）。对于交互手，仅在可见关节处测量的误差率也在括号中示出（使用仅可用于交互手的关节可见性地面实况计算）。方法MPJPE整个数据集我们的（互动，LD）12.39我们的（LV，LD）12.23我们的（LD）12.17我们的（单独检测）13.69我们的12.08只有我们的（−交互类，LD）14.36（14.16）Ours（−LV，LD）我们的（−LD）Ours（单独检测）Ours12.95（12.47）12.39（11.93）12.48演出在整个数据集上的相应准确性改进不太明显，因为所有四种算法对于单手情况生成相同的输出应该注意的是，我们最终算法在交互作用的手上的平均错误率仅为0。比整个数据集高8%，表明我们的算法在单手和更具挑战性的交互手情况下达到了相似的准确度水平。5. 结论与讨论由于一只手被另一只手严重遮挡，手的交互对姿势估计提出了重大挑战我们凭经验验证了我们的猜想，即交互手的可见部分的信息可以帮助推断被遮挡的手的姿势：我们的姿势估计网络被训练为利用潜在的统计依赖性以及单个关节的可见性来联合估计两个交互手的姿势。我们使用GAN型鉴别器进一步增强了估计的手关节的结构一致性我们的算法被实例化为一个新的端到端的网络，自动检测和估计任意RGB图像上的手的姿势。在三个代表现实世界场景的具有挑战性的数据集上进行评估，我们的算法表现出比最先进的方法（无论是专门用于交互手还是单手）显着的性能我们的GAN鉴别器只能看到骨骼关节。虽然这有助于避免生成物理上不可信的骨架配置，但它不能直接捕获交互手表面几何形状的机制，例如，手表面几何形状的交互。皮肤变形，其可以提供被遮挡的手的姿态的附加信息未来的工作应该探索估计和利用手形（网格）的可能性，例如。通过拟合MANO模型[37]及其动态，例如通过使用递归神经网络。我们的统计依赖性测试的关节位置的相互作用的手进一步支持的假设，可见的手包含有用的信息的姿势闭塞的手。然而，这是可能的，我们的测试反映了虚假的相关性，甚至可能存在于非相互作用的手。基于对记录多个人的手的数据集的实验，可以排除这种可能性。未来的工作也应该调查这一点，以及应用我们的方法来估计手和物体的姿势和形状的互动的可能性。致谢这工作是支持通过的NRF补助金（编号2021R1F1A1047920和编号2021R1A2C2012195）和IITP资助（编号：20202021-0-01778，开发低于感知阈值的人体图像合成和识别技术。 2020- 0-00537，开发基于5G的低时延设备-边缘云交互技术，以及No.2021-方法框inf.Ego3D[21][49]第四十九话：我的世界11198引用[1] AnilArmagan ， GuillermoGarcia-Hernando ， SeungryulBaek，Shreyas Hampali，Mahdi Rad，Zhaohui Zhang，Shipeng Xie ， MingXiu Chen ， Boshen Zhang ， FuXiong，et al.在手-物体交互下测量对看不见的视点、关节、形状和物体的概括，用于3d手姿势估计。在ECCV，2020年。二个[2] SeungryulBaek，KwangInKim，andTae-Kyun Kim. 用于基于深度的手部姿势估计的增强骨架空间转移在CVPR，2018年。二个[3] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.通过神经渲染推进基于RGB的密集3D手部姿势估计的包络在CVPR，2019年。一个[4] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于GAN和网格模型的弱监督域自适应方法，用于估计交互对象的三维手部姿态. 在CVPR，2020年。一、二[5] Adnane Boukhayma，Rodrigo de Bem，and Philip H.S. 乇3D手的形状和姿势从图像在野外。在CVPR，2019年。一、二、六、八[6] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单目rgb图像的弱监督三维手姿态估计。在ECCV，2018。二个[7] Enric Corona 、 Albert Pumarola 、 Guillem Alenya 、Francesc Moreno-Noguer 和 Gregory Rogez 。 GanHand ：Predicting human grasp affordances in multi-object scenes. 在CVPR，2020年。一、二[8] GuillermoGarcia-Hernando、ShanxinYuan、SeungryulBaek和Tae-KyunKim。第一人称手部动作基准测试，包含RGB-D视频和3D手部姿势注释。在CVPR，2018年。一、二[9] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.从单个RGB图像进行3D手部形状和姿态估计在CVPR，2019年。二个[10] 罗斯·格希克。快速R-CNN。在ICCV，2015年。四个[11] Arthur Gretton ， Olivier Bousquet ， Alex Smola ， andBern-hardSchoülkopf.用Hilbert-Schmidt范数度量统计相关性InALT，2005. 三个[12] ShreyasHampali ， MahdiRad ， MarkusOberweger ， andVincent Lepetit.HOnnotate：一种用于手部和对象姿势的3D注释的方法在CVPR，2020年。二个[13] 作者：Shangchen Han ，Beijing Liu ，Randi Cabezas ，Christopher D. Twigg，PeizhaoZhang，JeffPetkau，Tsz-HoYu，Chun-Jung Tai，Muzaffer Akbay，Zheng Wang，Asaf Nitzan ， Gang Dong ， Yuting Ye ， LinglingTao ，ChengdeWan，andRobertWang. MEgATrack：单色自我中心铰接式手跟踪虚拟现实。在SIGGRAPH，2020年。一、二[14] YanaHasson，Gu¨lVarol，DimitriosTzionas，IgorKalevatykh ， Michael J.Black ， Ivan Laptev ， andCordelia Schmid.从单个RGB图像进行3D手部形状和姿态估计在CVPR，2019年。一、二[15] Kaming He，Xiangyu Zhang，Shaoqing Ren，and Jian Sun.用于图像识别的深度残差学习。在CVPR，2016年。四个[16] Umar Iqbal，Pavlo Molchanov，Thomas Breuel，JuergenGall，and Jan Kautz.经由潜在2.5D热图回归的手部姿势估计在ECCV，2018。二个[17] Hanbyul Joo、Hao Liu、Lei Tan、Lin Gui、Bart Nabbe、IainMatthews 、 TakeoKanade 、 ShoheiNobuhara 和YaserSheikh。11199泛光工作室：一个大规模的多视图系统，用于社会运动捕捉。在ICCV，2015年。二个[18] 他是一个亲戚，名叫弗卡和基拉，是一个名叫埃姆雷和卡拉的人，还有拉尔和亚卡伦。

下载后可阅读完整内容，剩余1页未读，立即下载