遮挡鲁棒的3D手部网格估计网络

149 浏览量更新于2023-10-25 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1496HandOccNet：遮挡鲁棒的3D手部网格估计网络JoonKyu Park1Yeonguk Oh1Gyeongsik Moon1Hongsuk Choi1Kyoung Mu Lee1，21 Dept.jkpark0825@snu.ac.kr，namepllet1@gmail.com，{mks0601，redarknight，kakmu}@snu.ac.kr摘要手经常被物体严重遮挡，这使得3D手网格估计具有挑战性。以往的研究往往忽略了遮挡区域的信息。然而，我们认为，遮挡区域与手有很强的相关性，因此它们可以为完整的3D手网格估计提供非常因此，在这项工作中，我们提出了一种新的三维手部网格估计网络HandOccNet，它可以充分利用遮挡区域的信息作为辅助手段来增强图像特征，使其更加丰富。为此，我们设计了两个连续的基于变换器的模块，称为特征注入变换器（FIT）和自增强变换器（SET）。FIT通过考虑遮挡区域与手的相关性，将手的设置（b）第（1）款注入特征通过使用自我注意机制来改进FIT的输出。通过将手的信息注入到被遮挡的区域，我们的HandOccNet达到了最先进的性能，在3D手网格基准，包含chal-challening手对象遮挡。代码可在https://github.com/namepllet/HandOccNet上找到。1. 介绍尽管从单个RGB图像[6，12，20，26一种有希望的方法是使用空间注意机制的遮挡鲁棒系统。尽管空间注意力机制尚未用于遮挡鲁棒的3D手部网格估计，但几种2D人体姿势估计方法[8，39，40]已经将这种注意力机制用于遮挡鲁棒的结果。他们估计一个空间注意力图，并将其与一个特征图相乘，以告诉网络关注哪里。注意力地图往往在人类区域上具有高分数，而在被遮挡区域上具有低分数。因此，它在被遮挡区域处减弱特征的幅度，*作者贡献均等。图1.建议的HandOcc-Net的操作示例。(a)给出了严重遮挡情况下空间注意机制的输出特征图，该特征图由稀疏的主特征和次特征组成。（2）特征注入模块找到与次特征相关的主特征，然后将主特征的信息注入到次特征的位置使网络聚焦于人类区域。虽然基于空间注意力的方法在遮挡下显示出显著的结果，但存在一些局限性。首先，它们主要用于2D人体姿态估计，其目的是定位2D身体关节坐标。因此，他们的空间注意力机制的有效性是没有证明的遮挡鲁棒的3D手网格估计。特别地，由于手具有相当复杂的关节并且经常被视觉严重遮挡，因此广泛使用的空间注意机制可能无法产生鲁棒的结果。与使用深度图的方法[24，25]不同，由2D图像到3D手估计引起的附加深度模糊其次，当遮挡严重时，空间注意机制的激活变得稀疏，因为大部分的手区域被遮挡。稀疏区域包含有限的手部信息;因此，仅依赖于基本特征（一）次级特征特征注入1497这种有限的信息可能导致错误的结果。为了克服上述限制，我们提出了Han- dOccNet，一个新的框架，用于遮挡鲁棒的3D手部网格估计。所提出的HandOccNet的主要组件是一个特性注入机制，如图1所示。传统的空间注意机制忽略了被遮挡区域的特征信息。另一方面，我们的特征注入机制利用这些特征作为次要角色，以获得更丰富的表示遮挡鲁棒的3D手网格估计。主要特征和次要特征分别表示与高注意力分数和低注意力分数相对应的特征我们利用次特征的信息来寻找相关的主特征，并将主特征的信息注入到次特征的位置在这个过程中，我们使用术语注入来强调次要特征的信息消失，并且主要特征的信息被注入到空位置。为了不仅注入附近的特征，还注入远处的特征，我们使用了Transformer [35]，它具有出色的能力，可以对特征之间的相关性进行建模，而不考虑特征之间的距离。这里，特征之间的距离表示像素空间中的2D距离。我们建立了两个基于Transformer的模块，特征注入转换器（FIT）和自增强转换器（SET）。FIT将主特征信息注入到次特征区域，以次特征为查询，主特征为键值对，输出SET利用标准的自注意机制来细化FIT的输出。与标准Transformer [35]相比，我们的FIT在特征注入方面有两个独特之处首先，我们的FIT计算查询和键之间的相关性映射通过两种类型的注意力模块，sigmoid为基础的，以及 softmax 为基础的，而标准的Transformer只使用softmax为基础的。基于softmax的注意力模块使用softmax函数对每个查询和键的所有元素的乘法进行归一化。由于soft-max考虑用于归一化的所有元素，当所有乘法的绝对值非常低但一些乘法与其他乘法相比相对较大时，可能会产生不期望的高相关性得分。为了防止这种不期望的高相关性分数，我们建立了一个额外的sigmoid为基础的注意力模块。由于sigmoid激活函数不考虑用于归一化的其他元素，因此它可以避免不期望的高相关性。我们通过将来自基于softmax的模块和基于sigmoid的模块的相关图相乘来获得最终的相关图。其次，我们移除了输入查询和attention模块输出之间的残余连接，而标准Transformer使用这种残余连接连接. 换句话说，FIT仅在计算查询和键之间的相关性时使用查询这是因为我们打算将次要特征（查询）替换为主要特征（值）。我们通过对最近发布的手-物体交互数据集（如HO-3D [13]和FPHA [11]）进行广泛的实验，证明了我们的HandOcc-Net的有效性。这些数据集包含各种各样的和令人不安的手区域的闭塞，它反映了现实的闭塞时，发生在我们的日常生活中的手操纵对象实验结果表明，我们的HandOccNet实现了显着更好的3D手网格估计精度相比，以前的国家的最先进的3D手网格估计总而言之，我们做出了以下贡献：• 我们提出了一个HandOccNet，一个新的框架，从一个单一的RGB图像遮挡鲁棒的3D手网格估计建议HandOccNet利用特征注入机制，使特征映射鲁棒的闭塞适当注入到闭塞地区的手信息的形成。• 对于特征注入和细化，我们提出了两个基于Transformer的模块，FIT和SET。FIT在主要特征和次要特征之间的相关性的指导下执行注入机制SET使用自注意机制来细化FIT的输出特征图。• 我们表明，我们的框架显着优于国家的最先进的3D手网格估计方法的手对象交互数据集，包含严重的手遮挡。2. 相关作品遮挡鲁棒人体姿态估计。有三种主要的方法用于遮挡鲁棒的人体姿态估计。第一个采用遮挡感知的数据增强，第二个利用时间信息，最后一个利用空间注意机制。[3，18，34]在训练时间内应用了遮挡感知数据增强。Sarandi等人[34]使用Pascal VOC 2012 [10]中的黑色固体形状或对象片段覆盖图像的部分区域，以模拟遮挡。Ke等人[18]复制输入图像的背景补丁并将其粘贴到人体关键点区域。[3，7]提出了一种用于3D姿态估计的两阶段方法。它们估计给定帧的2D特征，并根据2D信息估计3D姿态Cheng等人[3]利用连续2D特征（2D联合热图）来估计连续3D1498∈∈pose.在训练时间内，[3]通过将估计的2D关节热图的值设置为零来随机掩蔽部分，以模拟遮挡。其增强术的局限性在于闭塞是合成的。[4，5]利用时间信息来补偿由于遮挡而丢失的信息。Choi etal. [5] Chenget al. [4]利用时间信息进行时间一致的网格恢复和遮挡鲁棒的3D人体姿势估计，分别来自视频。[4]首先从输入视频中估计出一个不完整的2D姿态序列，这意味着几个关节被标记为被遮挡，并且它们的坐标被设置为零。然后通过连续的2D和3D时间卷积网络将不完整的2D姿态序列提升为完整的3D姿态序列[8，39，40]利用空间注意力机制用于遮挡鲁棒系统。Chu等人[8]提出了一种用于2D人体姿态估计的多上下文、多分辨率和分层空间注意方案。他们通过他们的空间注意力方案重新加权特征图，并提高了2D人体姿势估计性能。Zhu etal. [40]首先估计空间注意力图，并将其乘以特征图，以过滤掉被遮挡区域的特征。然后，他们通过共享的结构矩阵使用特征间的相关性，以恢复丢失的特征。Zhou等[39]还估计了空间注意力图，以过滤掉被遮挡区域的特征。然后他们通过扩张的卷积恢复特征。我们的与空间注意机制有关;然而，与上述基于空间注意机制的方法相比，存在两个主要差异。首先，上述方法主要是针对2D人体姿态估计而设计的，这比遭受深度模糊性和对象的严重遮挡的3D手部网格估计更不模糊。其次，我们提出了一种新的特征注入机制，即使在手部严重遮挡的情况下也能产生高度丰富的特征。手-物体交互场景下的3D手网格估计。在HO-3D [13]和FPHA [11]等手对象交互基准数据集发布后，对这些数据集进行了几项研究[13Hasson等人[15]提出了新的损失，以反映交互手和对象的物理约束。Hampali等人[13]检测2D关节位置并拟合手部模型（即，，MANO[33]）参数，通过最小化其损失函数。Hasson等人[14]利用相邻帧之间的照片度量一致性。他们估计了手和物体的网格，并将其渲染为回归变形流。Then theyapplied a pixel-level loss to en- force photometricconsistency between a reference frame and warped frameby the regressed flow. Liu等[23]提出了一个上下文推理模块，该模块通过利用手与手之间的交互来和对象。上述方法大多集中在手和物体之间的建模交互。另一方面，我们首先介绍了一种新的特征注入机制，用于遮挡鲁棒的3D手部网格估计。变压器. Transformers [35]在自然语言处理（NLP）方面表现出优越的结果。最近，视觉研究人员已经将Transformer应用于各种应用，例如对象检测[1]，图像分类[9]和人体纹理估计[36]。在3D人体姿势和形状估计领域，[17，21，37，38]设计了基于变换器的模块。Huang等人. [17]提出了基于Transformer的网络，该网络从3D手部点云估计3D手部姿势。Lin等[21]采用了一种Trans- former来对全局顶点到顶点的交互进行建模，并从单个RGB图像重建3D人体网格。Zheng等[38]采用空间和时间变换器进行视频中的3D人体姿势估计Yang等[37]利用Transformer捕获关键点和估计的2D人体姿势之间的图像特定空间依赖性。最近，Liuet al.[23]提出了一个基于Transformer的上下文推理模块。当输入图像中的对象与手交互时，上下文响应模块通过利用手区域的特征来增强对象区域增强的对象特征仅用于6D对象姿态估计，而不用于3D手部网格估计。Liu等[23]是与我们最相关的工作;然而，它们的上下文推理模块仅用于6D对象姿态估计。另一方面，我们注入的功能用于3D手网格估计。3. HandOccNet在图2中，我们提供了用于3D手部网格估计的Han-dOccNet的整体管道。我们的HandOccNet由主干，FIT，SET和回归器组成。3.1. 骨干骨干提取特征F和必要性地图M从手图像IR512×512×3。我们首先将手部图像I馈送到基于ResNet50 [16]的FPN [22]，并重新调整FPN的输出大小，这会产生一个特征图FR32×32×256。然后，我们从特征图F获得必要性图M。我们构建了三个连续的卷积层，然后是sigmoid函数来估计不需要监督的必要性映射M必要性图M表示根据空间变化的重要性的分数，这是由特征F中的冗余信息（即对象和背景）引起的。使用必要性映射M，我们将特征映射F分成具有和一约束的主要特征FP和次要特征FSFP=FM，1499X×∈骨干X1-次要特征FPN配合设置回归器特征图必要性图式连接特征集合特征3D网格输入图像X主要特征图2.HandOccNet的总体架构，包括主干、FIT、SET和回归器。我们的HandOccNet使用空间注意机制提取主要特征FP和次要特征FS。然后，它使用FIT将主要特征FP的信息注入到次要特征FS中。SET通过自注意机制对FIT的输出进行细化。最后，回归器产生MANO参数。通过将MANO参数转发到MANO层来获得最终的3D手部网格圆圈中的十字标记表示逐元素乘法。基于softmax关注模块X基于Sigmoid的关注模块Conv.Softmax辍学ReLUX元素多重化FC层Sigmoid矩阵元素加法。多头图3. FIT的整体流水线。FIT使用基于softmax的注意力模块和基于S形的注意力模块将主要特征FP注入到次要特征FS中。用手的信息，使FS可以告诉在哪里注入主要特征FP。因此，虽然以前的作品只利用FP和抑制FS集中在手的信息，我们使用FS作为一种手段，拖动和使用FP。我们通过两个1 - 1卷积层从FS中提取查询q软，从FP中提取关键字k 软。然后，我们将查询和键整形为维度R1024×256，其中1024表示FP和FS的宽度和高度的乘积。通过重新调用先前变换器[9，23，35]的注意力机制，基于softmax的注意力模块在查询qsoft和关键字ksoft的矩阵乘法之后从 softmax 函数生成相关映射CsoftR1024×1024：FS=F（1 −M）。表示逐元素乘法。请注意，FPcon-Csoftmax=softmax（q软k软TK-Soft），（1）F-S包含了手部区域FP和FS用作以下FIT的查询、键和值。3.2. 特征注入Transformer（FIT）FIT的图示如图3所示。FIT是一个基于Transformer的模块，它采用两个特征，FP和FS，并通过考虑它们的相关性将FP的信息注入FS我们采用两个子模块的FIT称为softmax为基础的注意力模块和sigmoid为基础的注意力模块。每个模块的不同作用描述如下。基于softmax的注意力模块。基于softmax的注意模块从次要特征FS中找到主要特征FP的最相关信息。这可以被认为是从遮挡中搜索主要特征FP中的相关手信息。一些对象信息，造成遮挡，可以有很强的相关性其中，dksoft= 256表示键ksoft的特征维度。相关性映射C_soft指示查询q_soft和关键字k_soft的每个像素之间有多少信息相关。换句话说，可以利用C软件来找到使用FP的哪些信息来填充FS的信息。然而，当整体关键信息与特定查询像素不相关时，仅使用softmax进行激活在处理相关性方面受到限制例如，次要特征FS中的某些信息（即背景）可以与图4e中的总体FP无关，使得在softmax函数之前的乘法结果可以示出如图4f中所示的键ksoft的所有元素的低值。然而，softmax函数将绝对小的数（其相对大于其他数）近似为高分。因此，如图4g所示，从一些绝对低的相对高的元素中可能出现不期望的高相关性。为了仅使用图4c中所示的优点（其正确地显示了基于高乘法结果4b的相关性）并处理图4g中所示的问题，我们构建了一个附加的1500QK∈∈(a)输入图像（I）（b）乘法结果（c）C软（d）C(e)输入图像（I）（f）乘法结果（g）C软（h）C图5.SET的整体流水线 SET利用自注意机制对特征FFIT进行了细化。图4f、4g和4h显示了相应的有效性。图4. (a)以及（e）：红点表示覆盖在输入图像上的查询Q软的示例位置。(b)以及（f）：查询Qsoft的红点（分别在（a）和（e）中示出）与关键字Ksoft的所有元素之间的乘法。(c)和（g）：通过应用softmax函数分别从（b）和（f）计算的C软。(d)以及（h）：从基于S形的相关图sig和Csoft的逐元素乘法计算的C。基于S形的注意力模块来过滤不期望的高相关性得分。基于Sigmoid的注意力模块。基于S形的attention模块通过生成每个查询像素与全局关键信息之间的相关性映射来过滤不期望的高相关性我们提取额外的密钥-查询对，ksig和qsig，与提取ksoft和ksoft的过程相同。然后，该模块生成相关性映射Csig∈R1024×1如下：不sigmoid池（sigsig）），（2）基于sigmoid的注意力模块的lation map。图4g示出了高相关性，尽管图4f具有小的乘法结果，这表示图4g受到不期望的高相关性的影响。通过将Csig乘以图4g，我们修复了不期望的高相关性，如图4h所示。特征注入。使用相关图C，我们将手信息注入到适当的遮挡区域。请注意，我们使用“注入”一词是我们得到值vR1024×256，它表示由Transformer中的键索引的源信息，来自FP，具有1x1卷积并平坦化其空间维度。然后，我们将该值注入低重要性区域，以获得残差特征RFITR1024×256，如下所示：RFIT= Cv.（三）Csig=（d）k西格之后，我们将RFIT馈送到前馈模块中。的其中pool表示平均池化以聚集每个查询qsig和密钥ksig的所有元素之间的查询。dksig= 256表示密钥ksig的特征维度。沿着关键维度的平均池化可以使相关性图Csig对噪声相关性鲁棒。我们观察到，在基于sigmoid 的attention模块中删除池化会使我们的HandOccNet在训练期间发散。与softmax函数不同，softmax函数将输入元素归一化为考虑其他输入元素的概率分布，sigmoid函数仅专注于将单个元素归一化为概率。因此，sigmoid函数通过产生小的atten而不会遭受softmax函数的不期望的高前馈模块由两层MLP和层归一化组成我们进一步在其输出和主要特征FP之间添加残差连接，其已经包含用于手部网格估计的基本信息。训练基金会的输出特征FFIT∈R32×32×256如下获得：FFIT=FP+N（RFIT）+N（MLP（ LN（RFIT），其中，R1表示将输入特征整形为R32×32×256的整形函数。MLP和LN分别表示MLP模块和层归一化层。3.3. 自增强Transformer（SET）SET的图示如图5所示。设置重新-从乘法运算的小数中得到分数苏尔特它我们得到最终的相关图C∈R1024×1024从特征中细化特征F配合通过参考遥远的信息通过使用sigmoid和softmax的相关图，基于模块，Csoft和Csig如下：C=C软压C信号FFIT与自我关注。不同于FIT专注于将主要特征FP注入到次要特征FS中，SET通过提取查询q′，keyk′和值v′来利用FITConv.Softmax逐元素添加。FC层矩阵-矩阵多重ReLU辍学1501∈∈具有三个1x1卷积层的FFIT根据-形成自关注，不存在全部关键信息与查询像素不相关的情况，因为每个查询像素至少与其自身相关因此，我们不使用基于sigmoid的注意模块来过滤不希望的高相关性，而是仅采用基于softmax的注意模块来获得相关性架构关节网F@5 F@15地图在SETSET遵循FIT中基于softmax的注意模块的相同流水线，除了查询q’与相关图和值v’的乘积之间的残余连接。FIT中的模块没有residual连接，因为它的目标是用特性注入的值“替换”查询。另一方面，由于SET的目标是增强输入功能，而不是注入，因此我们在之前的Trans-former之后添加了剩余连接[35]。SET的输出由FSET表示。在我们的实验中，两个或多个SET没有太大的效果，因为在第一个SET中已经发生了足够的增强;因此，我们在FIT之后使用一个SET。3.4. 回归器回归器产生MANO姿态和形状参数，并通过将MANO参数转发到MANO层来获得最终的3D手部网格。首先，沙漏网络的单个块[31]将增强特征FSET作为输入，并输出每个关节H的2D热图。然后，四个残差块[16]采用增强的手部特征FSET和2D热图H的级联。最后，残差块的输出被矢量化为2048维矢量并传递到全连接层，全连接层预测MANO姿态参数θR48和形状参数βR10。我们将关节回归矩阵乘以静止姿势下的3D网格，并应用正向运动学来获得最终的3D手部关节坐标，最终三维手网格V∈R778×3。为了训练我们的HandOccNet，我们最小化损失函数，该损失函数定义为预测和基础事实H，θ，β，V和J3D之间的L2距离的组合。J3D表示通过将关节回归矩阵乘以3D手网格V而获得的3D手关节坐标，其中矩阵以MANO定义。4. 实验4.1. 实现细节所有的实现都是用PyTorch完成的[32]。我们使用Adam optimizer [19] ，批量大小为 24 。在 HO-3D 和FPHA上，每个模型都是通过从初始学习率10−4开始每隔10次退火学习率来训练的。所有其他细节将在我们的代码中提供。表1.HO- 3D上各种架构的模型比较(a) 输入图像（I） (b)喔FIT和SET (c)W. FIT和SET（我们的）图6.在HO-3D上比较不带和带FIT和SET的模型4.2. 数据集和评价指标HO-3D。HO-3D数据集[13]是一个手-物体交互数据集，其中包含具有挑战性的遮挡。此数据集提供RGB图像，包括基于MANO的手部关节和网格以及相机参数。测试集上的结果可以通过在线提交系统进行评估。第一人称手部动作（FPHA）。 FPHA数据集[11]包含以自我为中心的RGB-D视频，捕获了广泛的手-物体交互。虽然3D手部姿势注释在所有帧中可用，但6D对象姿势注释在整个数据集的一个小子集中可用为了公平比较，我们遵循与以前的作品[14，23]相同的训练集和测试集分割。评估指标。对于HO3D，我们报告标准度量，例如从官方评估服务器返回的平均关节误差和网格误差（mm对于FPHA，我们以mm为单位报告平均关节误差。所有度量都是在procrustes对齐之后获得的。此外，由于procrustes对齐之前的结果也很重要，我们还在补充材料中显示了HO3D数据集上procrsites对齐之前的联合误差身份10.610.052.594.9残余块10.29.851.095.3配合9.49.254.396.0设置9.89.652.695.3FIT + SET（Ours）9.18.856.496.31502FIT架构联合网格F@5F@15Softmax联系人9.59.154.595.9Softmax联系人+ Softmax attn.9.69.253.695.9Softmax联系人+ Sigmoid attn.（我们的）9.18.856.496.3(a) 输入图像（I）（b）主要特征（FP）（c）FIT的输出（FFIT）（d）SET的输出（F SET）图7.特征图的可视化。我们的FIT成功地将信息注入到遮挡区域，SET通过自增强使遮挡区域的信息更加丰富。4.3. 消融研究适合和设置。表1显示了使用我们的FIT和SET持续改进了所有指标，这证明了它们的好处。图6进一步示出了当输入图像中包括严重遮挡时，FIT和SET提高了3D手部网格的准确性。为了进行比较，我们设计了四种变型.所有变体具有相同的主链和回归子，如图2所示，以及主链和回归子之间的不同第一和第二个机制与传统的空间注意机制有相似的管道。第一个将主要特征直接传递给回归器，第二个将主要特征传递给六个残差块[16]，而不引入任何基于Transformer的模块。它们产生的结果比我们的更差，这表明我们新引入的使用两个转换器的特征注入机制第三和第四种变体只使用FIT和SET中的一种，这会产生比我们更差的结果。这证明了我们的HandOccNet使用FIT和SET两者的组合的架构的效力。图7显示了我们的FIT如何增强闭塞区域的特征。最初，由于遮挡，图7b中的红色框缺少手部信息。然后，FIT将手部信息注入到被遮挡区域中，这导致被遮挡区域处的固体激活（红色框），如图7c所示。此外，SET增强了信息以获得更丰富的表示以用于遮挡稳健的3D手部网格估计，如图7d所示。FIT的架构。表2显示，我们在FIT中基于softmax和基于sigmoid的注意力模块的组合在所有指标中均获得了最佳结果乙状结肠-表2.在HO-3D上比较具有各种FIT架构的模型。设置联合网格F@5F@15与q软的剩余连接9.59.155.096.0带qsig的剩余连接9.79.353.395.7没有残余连接（我们的）9.18.856.496.3表3.在HO-3D上的FIT中与查询有和没有剩余连接的模型之间的比较集架构关节网F@5 F@15身份9.49.254.396.0残余块9.69.254.495.9单台Transformer（我们的）9.18.856.496.3两个变压器9.28.956.296.3表4. HO-3D上各种SET架构模型的比较。如图4中所示，基于滤波器来过滤不期望的高相关性。与我们的相比，只使用基于softmax的标准Transformer会受到不希望的高相关性的影响，这会导致更差的结果。我们还报告了两个基于softmax的组合的结果。这种组合产生比使用单个基于softmax的组合更差的结果，这表明简单地堆叠基于softmax的组合不能修复不期望的高相关性。FIT中的特征注入表3显示，去除两个残余连接可获得最佳结果。第一残余连接是基于softmax的注意力模块qsoft的查询与残余特征RFIT之间的连接。第二个是基于S形的注意力模块qsig的查询与残差特征RFIT之间的连接。与标准的Transformer不同，我们的FIT在查询和残留特征之间没有残留连接，这是相关映射和值的乘积（参见等式10）。（3）第三章。这是因为我们的FIT被设计为将值的信息“注入”到查询的位置;因此，查询仅用于查询映射计算（参见等式10）。1和2）。结果表明，残余连接对特征注入是有害的，会导致性能下降。SET 的体系结构表 4 显示，将 SET 设计为单个Transformer可获得最佳结果，这验证了我们对SET的设计选择。为了演示，我们设计了三个具有不同SET架构的变体。第一种方法没有在SET中引入任何可学习的模块，只是将其输入特征FFIT设置为输出特征1503图像前视图其他视图Hasson等人前视图其他视图Liu等人前视图其他视图HandOccNet（我们的）图8.在HO-3D上对提出的HandOccNet和最先进的3D手部网格估计方法[14，23]进行定性比较方法联合网格F@5F@15[6]第六话12.512.744.190.9Hasson等人[14个]11.411.442.893.2[26]第二十六话11.213.940.993.2Hasson等人[第十五条]11.111.046.093.0Hampali等人[13个国家]10.710.650.694.2曼谷[21]10.411.148.494.6Liu等[23日]10.29.852.995.0HandOccNet（我们9.18.856.496.3方法三维关节误差[26]第二十六话21.2Hasson等人[14个]18.0Liu等[23日]16.0Hasson等人[第十五条]14.9表5.与HO-3D上的最新方法的比较PA表示Procrustes对齐。F设置。与我们的比较表明，在SET中缺少可学习模块产生比我们更差的结果，这表明额外的特征处理是必要的。第二个使用一系列局部特征提取器，其由三个残差块组成[16]。比较表明，添加这样的局部特征提取器产生比我们更差的结果，甚至比第一个变体，不引入任何可学习的模块更差这是因为输入特征FFIT中的新注入的特征不是局部关联的。由于特征注入是由FIT中的Transformers执行的，因此可以注入远距离特征。因此，注入的特征可以具有与附近像素的特征非常不同的信息由于这样的局部非关联特征，局部特征提取器可能难以学习局部模式，这导致更差的性能。第三个使用两个transformer，这比我们的基于transformer的单个模块的结果略差。这是因为单个变压器已经充分增强了特征，使得附加的Transformer对增强输入特征具有边际效应。4.4. 与最先进方法的表5和6显示，我们的HandOccNet分别在HO-3D和FPHA 上获得了最佳结果。图 8 显示，我们的HandOccNet比HO-3D上的最先进方法所示表6.与FPHA的最新方法的比较。如图所示，我们的HandOccNet准确地估计了手部的全局旋转，即使在严重遮挡的情况下也是如此。总的来说，我们的HandOccNet在HO-3D和FPHA上的表现优于最先进的方法，这些方法包含各种手部对象遮挡。结果与烧蚀研究一致，表明了所提出的特征注入机制。此外，我们在更大的数据集Dex-YCB [2]上进行了比较，以证明我们的HandOccNet在补充材料中的有效性。5. 结论我们提出了HandOccNet，一个新的3D手网格估计框架，是强大的闭塞。我们的Han- dOccNet利用特征注入机制，通过适当地将主要特征的信息注入到次要特征的位置，使特征图对遮挡具有鲁棒性为此，我们设计了两个连续的变压器：适合和设置。我们的实验结果表明，我们的方法达到了国家的最先进的性能在3D手网格基准，包含严重的闭塞。6. 确认这项工作得到了韩国政府（MSIT）资助的IITP赠款的部分支持[No. 2021-0-01343，商业智能研究生院项目（首尔国立大学）]。1504引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。3[2] Yu-WeiChao ， WeiYang ， YuXiang ， PavloMolchanov，Ankur Handa，Jonathan Tremblay，YashrajS Narang ， Karl Van Wyk ， Umar Iqbal ， StanBirchfield，et al. DexYCB：一个用于捕获手抓取物体的基准。在CVPR，2021年。8[3] Yu Cheng，Bo Yang，Bo Wang，and Robby T Tan.使用具有显式遮挡训练的时空网络进行3D人体姿态估计在AAAI，2020年。二、三[4] Yu Cheng，Bo Yang，Bo Wang，Wending Yan，andRobby T Tan.用于视频中3D人体姿势估计的遮挡感知网络。在ICCV，2019年。3[5] 崔洪锡，文景锡，张朱勇，李启武.超越静态特征，从视频中获得时间上一致的3D人体姿势和形状在CVPR，2021年。3[6] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2Mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络。在ECCV，2020年。1、8[7] 崔洪锡，文景植，朴俊奎，李启武.学习从拥挤的场景中估计健壮的3D人体网格。在CVPR，2022年。2[8] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.用于人类姿态估计的多上下文注意。在CVPR，2017年。第1、3条[9] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器ICLR，2021年。三、四[10] Mark Everingham 和 John Winn Pascal Visual ObjectClasses Challenge 2012（VOC2012）开发包。在PAS-CAL，2011. 2[11] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有RGB-D视频和3D手部姿势注释。在CVPR，2018年。二、三、六[12] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.从单个RGB图像进行3D手部形状和姿态估计。在CVPR，2019年。1[13] Shreyas Hampali，Mahdi Rad，Markus Oberweger，andVin- cent Lepetit.HOnnotate：一种用于手部和物体姿势的3D注释的方法。在CVPR，2020年。二三六八[14] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。在CVPR，2020年。三六八[15] Yana Hasson、Gul Varol、Dimitrios Tzionas、Igor Kale-vatykh 、 Michael J Black 、 Ivan Laptev 和 CordeliaSchmid。学习手和操作对象的关节重建。在CVPR，2019年。三、八1505[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三六七八[17] 林煌、谭建超、季柳、袁俊松。手动- Transformer：非自回归结构化建模用于3D手部姿态估计。在ECCV，2020年。3[18] Li peng Ke，Ming-Ching Chang，Honggang Qi，andSiwei Lyu.用于人体姿态估计的多尺度结构感知网络。在ECCV，2018。2[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。6[20] Dominik Kulon、Riza Alp Guler、Iasonas Kokkinos、Michael M Bronstein和Stefanos Zafeiriou。弱监督网格卷积手重建在野外。在CVPR，2020年。1[21] Kevin Lin，Lijuan Wang，and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在CVPR，2021年。三、八[22] 林宗义、彼得·多尔、罗斯·格希克、何嘉明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。3[23] 刘少伟，姜汉文，徐佳瑞，刘思飞，王晓龙.半监督3D手部物体姿态估计与时间的交互。在CVPR，2021年。三、四、六、八[24] 文京植，张朱勇，李京武。V2V-PoseNet：体素到体素预测网络，用于从单个深度图进行准确的3D手部和人体姿势估计。在CVPR，2018年。1[25] 文京植，张朱勇，徐玉民，李启武。三维人体姿态估计的整体平面预测到局部体积预测。arXiv预印本arXiv：1706.04758，2017。1[26] 文敬植和李敬武。I2L-MeshNet：图像到像素预测网络，用于从单个RGB图像进行精确的3D人体姿势和网格估计。在ECCV，2020年。1、8[27] 文敬植和李敬武。NeuralAnnot：Neu- ral注释器，用于野外表达性3D人体姿势和网格训练集。arXiv预印本arXiv：2011.11232，2020。1[28] 文敬植和李敬武Pose2Pose：3D posi- tional pose guided3D rotational pose prediction for expressive 3D humanposeandm

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

遮挡鲁棒的3D手部网格估计网络

手部姿态估计任务中什么叫手部置信图

matlab实现与比较扩展卡尔曼滤波器、lms/rls、wiener、鲁棒回归、mmse 估计器、ml

什么是鲁棒DOA估计

深度卷积网络中鲁棒性是什么

复杂网络鲁棒性 python代码

三维网格姿态估计技术的现状挑战是什么

极端量化神经网络的鲁棒性

位姿估计网络pvn3d接下去可以改进哪些地方

在机器人的神经网络鲁棒控制方法中，神经网络有哪些潜在用途？

图神经网络上鲁棒的模型

微生物网络的鲁棒性 r语言

鲁棒估计python

网络鲁棒性和韧性的异同点

bp神经网络的鲁棒性

定义神经网络鲁棒性的指标

2输入RBF神经网络鲁棒滑模

神经网络鲁棒性的形式化验证

MIMO系统RBF神经网络鲁棒滑模

自适应成本量的抗遮挡光场深度估计算法

MIMO系统RBF神经网络自适应鲁棒滑模

最新资源