基于单色图像的双手交互的3D手部姿势和形状重建

163 浏览量更新于2023-10-13 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11354基于单色图像的张宝文1，2王延刚3邓晓明1，2 *张银达4 * 谭平5，6马翠霞1，2王红安1，21中国科学院软件研究所2中国科学3东南大学4谷歌5西门菲莎大学6阿里巴巴摘要在本文中，我们提出了一种新的深度学习框架，用于从单个彩色图像中重建两个交互手的3D手部姿势和形状。以前设计用于单手的方法不能容易地应用于双手场景，因为严重的手间遮挡和较大的解决方案空间。为了解决可能混淆网络的手之间的遮挡和相似外观，我们设计了一个手姿势感知注意模块，以分别提取与每个单独的手相关联的特征然后，我们杠杆年龄的两个手的上下文中提出的互动，提出了一个上下文感知的级联细化，提高了手的姿势和形状的准确性，每只手的条件下，在相互作用的手之间的上下文。在主要基准数据集上的实验表明，该方法能够从单色图像中准确预测出手部的三维姿态和形状，达到了最佳的性能。代码可在项目网页https://baowenz.github.io/Intershape/中找到。1. 介绍3D手部姿势和形状重建在许多应用中起着重要作用，例如AR/VR [8]和机器人[9]。虽然大多数以前的手部姿势和形状重建工作[3，41]是针对单手提出的，但我们研究了从单色图像进行双手交互的手部重建问题，因为更希望表达微妙的肢体语言[39]并执行复杂的任务[18，25，36]。然而，关于该主题的现有技术几乎没有缺失。现有方法通常依赖于深度传感器[19]、多视图相机系统[8]或对跟踪的运动序列的优化[19，8]，然而，这些方法相对昂贵、耗能或对跟踪质量和初始化敏感。Com-*表示通讯作者输入图像网格覆盖不同视图图1.从单色图像重建交互式手形的说明我们的方法可以在严重的手间遮挡下获得高质量的重建。相对地，单色照相机设置成本更高，计算更友好，并且也是广泛可用的。因此，我们专注于从单色图像进行交互式双手①的人。重复使用为单手设计的类似手部重建技术用于首先，与具有单个完整的手的情况相比，由于交互，两只手通常被严重遮挡并且彼此紧密接触，这更难以解析。两只手还共享相似的纹理，这可以容易地混淆网络以从图像中的正确区域提取特征。第二，问题的病态性随着解空间的自由度加倍而加剧。该模型容易出错，并且可能产生不合理的姿势和形状的双手，人们很少或不可行地呈现。最近， Moonet al. [18] 提出了一个名为InterHand2.6M的大规模交互手数据集，并提出了一种交互手姿态估计方法。然而，少11355进行特殊设计以处理双手姿态估计问题的特性，并且在[18]中也没有探索更细粒度的手部形状重建。为了解决上述问题，我们提出了一种新的深度学习架构，用于交互手部姿势和形状估计（见图1）。2）的情况。我们的网络由一个提取多尺度特征的编码器和一个解码器组成，解码器用于逐步改进每个级别的特征预测。在编码器中，估计每只手的热图并将其用于掩蔽图像特征，这对于从正确的图像区域提取特征并为每个单独的手产生准确的预测是特别有效的。另一方面，解码器被设计成利用交互手之间的上下文。而不是分别优化每只手，我们细化每只手的条件下，目前的估计两只手。我们的网络生成注意力地图，以减少双手之间的特征模糊性。与传统的从网络中的特征生成注意力图的方法不同，我们提出直接从估计的手形生成注意力为了联合地重新覆盖手部骨骼姿态和形状，我们采用流行的手部统计模型MANO [27]并分别预测两只手的MANO参数。我们的主要贡献总结如下：1. 我们提出了一种新的深度学习架构，它可以从单色图像中估计3D手部姿势以及交互手部的细粒度本文的工作对多人重建、手-物交互重建等相关研究具有一定的启发意义;2. 为了解决两只手之间的特征模糊性，我们提出了姿势感知注意模块来提取每只手的关键特征;3. 我们利用交互中提出的双手上下文，并提出了一个级联的细化阶段，以提高手的姿势和形状精度的条件下，每只手的背景下，相互作用的手;4. 大量的实验表明，我们的方法在主要数据集上实现了最先进的性能。2. 相关工作基于彩色图像的单手姿态和形状重建由于彩色图像的普遍性和低功耗的优点，人们非常希望从彩色图像中恢复3D手部姿态。关于3D手部姿态估计的现有技术工作包括[42，31，11，38，30，4，5]。大多数基于颜色的手部姿势和形状重建方法使用参数模型（如MANO [27]）来表示手部形状，并从图像中学习手部形状模型参数。Boukhayma等人[3]使用2D姿势、3D姿势和手面具作为训练手形网络的监督。Zhang等人[40]还设计了手部重建网络，以使用预测的2D热图和图像特征来学习MANO参数。Zhou等[41]从预测3D姿态估计MANO形状参数。Moon等人[17]提出了一种弱监督模型来重建手部形状，它不需要任何地面真实手部网格。与使用MANO模型的这些方法不同，Geet al. [7]提出了一种用于手形重建的图神经网络，它能很好地捕捉局部几何细节。Han等人[8]提出了一种基于跟踪的方法，使用四个鱼眼单色相机来估计3D手部姿势为了解决缺乏大规模手部重建数据集的问题，Zimmermannet al. [43]呈现具有3D手部姿势和形状注释多视图单手数据集Kulon等人[14]使用模型拟合注释手形然而，这些手部重建方法是针对单手提出的，并且它们没有明确地解决重叠或相互作用的手。交互式手和物体形状重建手形状重建涉及手-物体形状重建。现有技术作品包括[10，9，21，6，1]。与手-对象形状重建相比，交互双手重建更困难，因为它旨在重建两个交互的铰接手，这导致更多的相互遮挡、变形和自由度的运动。此外，对于手-对象交互，手和对象具有附加的接触约束以对手-对象关系进行建模。然而，对于交互作用的手重建，两只手可能没有接触并且导致更大的解空间。交互式手部姿势和形状估计大多数现有作品通过多个相机[2，8]、单个深度相机[19，22，33，15，32]进行双手重建。和跟踪策略[22，15，35，29]。由于单色图像的普遍存在的特性，使用单色图像的方法比跟踪方法、使用多相机和深度相机的方法更优选。Moon等人[18]提出InterHand2.6M数据集用于单个和交互式手部姿势估计，并使用该数据集训练网络来预测双手的2.5D手部姿势。Lin等[16]使用合成数据集从单色图像学习双手姿势。然而，这些方法不能获得令人满意的双手姿态估计结果或重建细粒度的几何形状全身重建全身重建方法[39，13，24，28]隐含地处理双手重建。然而，这些方法要求大部分身体部位是可见的。现有的全身方法不11356·图2.我们的交互式手形重建网络的插图我们的网络首先预测双手关节的2.5D热图然后利用三个分支分别恢复每只手的MANO模型参数和两只手的相对变换。最后，以级联方式联合地细化手形参数，以尊重交互手之间的相关上下文包含特殊模块来处理近距离手交互的不同特征。交互式手部重建比全身重建更具挑战性，因为身体部位的较少上下文可用于减少由于手间遮挡引起的重建模糊性。与这些方法不同的是，我们的方法提出了一种新的深度学习方法，可以从单色图像中预测交互的双手姿势和形状。我们采用了一个姿势感知的注意力模块，以帮助网络学习相关的功能，每只手。为了解决由于手间遮挡引起的模糊性，我们利用交互手之间的上下文来使用级联网络来细化双手的姿势和形状。3. 方法在这一节中，我们介绍我们的模型交互双手姿势和形状重建从一个单一的颜色当手形参数β∈R10，手姿态参数θ∈R16×3时，曲面网格MM=W（T（β，θ），J（β），W）（1）其中，W（β）是蒙皮函数，T是参数化手模板形状，J（β）是静止姿态下的手关节位置，W是蒙皮权重矩阵。对于我们的双手交互场景，目标是预测MANO参数，包括双手的姿势参数和形状参数，即。（β左，θ左）和（β右，θ右），以及两只手之间的相对平移Δ和刻度s。我们的方法的输出MANO模型与每个单独的手的根关节对齐，并且双手的根旋转在相机坐标系中我们使用输出相对平移Δ和我们的模型的比例s来合并来自双手的手部重建网络的手部姿势结果，如下所示形象我们的模型的概述如图所示。二、我们J右=s（J左+ ∆）（2）模型从基于ResNet-50架构构建的多尺度特征提取器开始。[18]在《易经》的启发下，我们左边我其中J右和J左左边我是左手关节在右手命令双手的每个关节热图，并将其注入到左边我左边我特征提取的编码器然后将最低分辨率的特征馈送到网络中，以产生两只手的形状和姿势及其相对变换的初始估计。然后，通过利用高分辨率的特征，该细化阶段学习交互手之间的上下文，并且对于提高手重建质量是有效3.1. 交互式手部表示我们使用统计手模型MANO [27]来表示双手的手形和手姿势。手手坐标系中的左手关节和左手坐标系中的左手关节。手形重构结果也可以以类似的方式合并3.2. 姿态感知特征提取器特别是对于交互手场景，重要的是为每个单独的手提供特征以分别确保准确的重建。传统的方法从网络中的特征生成注意力图。2D/2.5D热图估计网络，例如堆叠沙漏[20]和SRNet [37]，可以直接获得2D注意力图。然而，这些方法不能用于3D形状估计11357YH图3.插图我们的特征提取模块使用atten- tion地图。特征图与注意力图相乘，并使用卷积层和平均池化进行下采样。场景为此，我们使用注意力图执行姿势感知特征提取器，该注意力图识别每只手的兴趣区域注意力图与特征图的每个通道相乘，并且经由多个卷积层被下采样。将低分辨率特征馈送到全局平均池中以提取每手特征向量，其将用于手重建。图3示出了特征提取过程。我们不是在黑盒中学习，而是采用每个关节的热图来为每个手生成注意力图。注意力图的每个像素上的值测量任何手关节存在的概率：KAh= 1−（1− Hhi），h∈{右，左}，（3）i=1其中hi是手h中的关节i的热图，并且K是手关节的总数。3.3. 交互式手部重建然后，我们介绍了如何预测姿态和形状的交互手使用提取的特征图从编码器。我们的方法从初始估计开始，然后是上下文感知模型，以共同完善的结果。初始估计为了预测交互手的初始估计，我们采用最低分辨率的特征图，并为每只手提取姿势感知特征向量。为了获得注意力图，我们使用预测的2.5D热图[18]，在深度维度上连接每个关节的2.5D热图，并沿着通道维度进行最大池化。我们还通过直接应用平均池化来生成相对变换的特征，然后将特征向量馈送到单独的MLP中以分别预测每只手的MANO参数以及相对平移和缩放。然后，我们使用编码器提供的高分辨率特征对初始估计进行细化，这些特征包含更多的空间信息，这些信息可能(a) 成对的手姿势(b)不成对的手姿势图4.二维对偶（a）流形与非对偶流形的可视化分析(b) 双手摆姿势配对的手姿态在2D空间中显示出明显的相关性，但未配对的手姿态的分布几乎是随机的。配对的手部姿势从InterHand2.6M [18]中采样，未配对的姿势从配对的姿势中排列。有利于网络恢复细节。虽然姿势感知特征提取器解决了双手模糊性并为每只手提供了更具体的特征，但它失去了利用上下文联合优化双手的机会。事实上，左手和右手在相互作用时表现出很强的相关性为了证明这一点，我们对配对和非配对的双手姿势进行了视觉分析（图11）。4）. 配对的手部姿势从InterHand2.6M [18]中采样，未配对的姿势从配对的姿势中排列。受[26]的启发，我们使用2D流形表示，其中每只手的手部姿势（无根旋转）通过t-SNE [34]投影到1D流形，并分别用作x，y我们发现，成对的手姿势在二维空间中表现出明显的相关性，但非成对的手姿势的分布几乎是随机的。受此启发，我们设计了一个级联的细化阶段，共同优化两只手。对于特定的手，我们首先根据前一阶段中估计的MANO参数渲染手关节热图。每个关节被投影到输入图像上，并被渲染为方差为1.5的2D高斯贴图。为了绘制手关节热图，我们通过从预测的MANO参数和预测的2.5D热图对齐3D关节位置来获得弱透视相机参数。然后，我们使用这些热图提取姿势感知特征，将其与最后阶段中为双手估计的MANO参数连接，并将它们馈送到MLP中以产生更新的MANO参数。为了逐渐引入详细的空间信息，后期细化阶段使用来自编码器中的早期层的更高分辨率的特征。3.4. 损失函数我们增加损失函数来监督中间和最终网络输出。具体来说，我们添加了注意力图的损失，以及上下文感知细化前后左右手的MANO参数11358K22×布里222O得对我左边我得对我左边我2（结构化形状接近平均形状（即，β = 0），以及姿态正则化器||θ h||2 [27]帮助消除关节ΣΣLM=Σ1||βh−βh*||（八）3.4.1双手损失关节偏移损失为了加强相对位置正则化损失我们使用正则项来强制预测的MANO参数保持合理的相应关节的双手，我们监督双手相应关节的偏移量Lreg=Σλ β||β H||2个以上||θ h||2（九）L=Σ||（J-J）-（J*-J*）||2i=1其中形状正则化子||β H||22执行侦察-其中J右，i和J左，i是忒斯特将损失重量λ β设定为0。1.一、两只手，我而J*left，i 都是事实我们的网络的总损失函数被定义为：低点：形状一致性损失由于受试者双手的对称性，双手的手形参数应该接近。因此，我们使用β左、β右的L2距离来加强双手的手形一致性Ltotal=λ oL o+λ cL c+λ JL J+λ1L1+λMLM+λregLreg（十）Lc=||β右− β左||23.4.2单手损失（五）其中λ〇、λc、λJ、λ1、λΜ、λreg是损失权重，并且它们分别被设置为1、0.01、10、100、0.1和0.053.5. 实现细节我们使用Pytorch实现我们的网络[23]。我们使用关节损失我们使用地面真实手部关节和预测手部关节K亚当优化器来训练我们的网络。学习率设置为510−5，mini-batch大小设置为20，训练迭代设置为500K。L J=||Jh∈{left，right}i=1h我-J*h，i||1（六）我们遵循现有技术[18]来在训练和测试数据集中使用注释的边界框来裁剪手部区域。图像大小调整为256×256。为了达到规模-其中Jh，i和J*是预测的和真实的不变的形状估计，我们归一化距离的位置h我- 第n个接头，以及K是手部关节的数量。中指MCP关节至腕关节为1。期间在测试阶段，我们使用了骨长度损失我们使用L2损失来监督预测的骨长度。由于我们预测尺度归一化的手部姿势和骨骼长度（相对于连接中指的MCP关节和腕关节的参考骨骼的长度Iref），所以我们使用归一化的真实骨骼长度和预测的骨骼长度之间的欧几里得距离来计算骨骼长度损失两只手恢复他们的鳞片。在训练阶段，我们不对∆和s进行直接监督，而是使用抵消损失和联合损失来执行它们（参见第2节）。第3.4段）。4. 实验我们在两个主要的基准数据集上进行实验，以验证我们的方法的性能。我们Ll=ΣΣ||lh*，b-lh，b ||2（七）将我们的方法与最先进的方法进行比较（参见秒4.2），并采用消融研究评价ef-h∈{left，right}Bh，参考我们的方法的每个组件的效果（见第二节）。4.3）。其中lh*，b和lh*，ref分别是第b个骨骼和参考骨骼的真实骨骼长度形状损失我们使用形状损失来强制手部形状参数22h∈{left，right}其目的是使预测的MANO形状参数接近地面实况。1是指示函数，如果标记了真实MANO形状参数，则为1，否则为0，并且βr*ight和βl*eft是手形参数的真实值4.1. 数据集和评估指标我们在流行的双手重建基准数据集Inter-Hand 2. 6 M[18]和Haggling [12]上评估了我们的方法的性能。其他最近提出的具有相对较少高质量数据的双手数据集，例如RGB2Hands（包含无背景的非真实数据的数据集）[35]和Ego3DHands（与真实数据存在域间隙的合成数据集）[16]不满足手部重建评估的要求。InterHand2.6M[18]由来自多个受试者的不同姿势下的2.6M标记的单个和交互手帧我们采用交互手帧（IH）h∈{left，right}11359在11360(a)InterHand2.6M数据集上的比较（b）Haggling数据集图5.我们的方法与最先进的方法的定量比较用于训练和评估的数据集。训练和测试数据集分别包含141，497和125，689帧。讨价还价数据集[12]这个数据集包含多组讨价还价游戏的视频视频中人们我们保留双手交互帧，这些帧被准确地标记为训练和测试数据。根据[12]将数据集分为训练集和训练和测试数据集分别包含80，953和24，363帧。为了评估3D手部姿势估计的准确性，我们遵循现有技术 [18]使用以毫米为单位的平均每关节位置误差（ MPJPE ），并且还采用正确关键点百分比（PCK），两者都在根部关节对准之后。根关节对线分别用于左手和右手，如[18]所示。我们还使用PCK曲线的曲线下面积（AUC）（0-50）mm在不同的误差阈值上评估手部姿势性能。为了评估3D形状重建的准确性，我们使用地面实况和预测的手部形状的相应顶点之间的平均误差作为评估度量，称为形状误差，在每个手部的根关节对准之后。在定性结果中，我们将每只手的根关节与摄像机坐标中的地面实况对齐以进行可视化。4.2. 与最先进方法的首先，我们将手部姿态性能与最先进的双手姿态估计方法 InterHand [18] 和单手重建方法（包括Zimmermann等人）进行比较。[42]，Spurret al. [31]，Boukhaymaet al. [3]和Zhouet al. [41]。对于双手方法InterHand [18]，我们直接使用他们的输出3D姿势在InterHand2.6M上进行评估，但我们在Haggling上重新训练和测试对于单手方法，我们使用提供的基础[18]第十八话[第12话]MPJPE形状误差MPJPEZimmermann等人[第四十二届]36.364-22.735Zhou等[41个]23.47823.89213.203Boukhayma等人[3]第一章16.92517.98442.924Moon等人[18个国家]16.888-22.735Spurr等人[三十一]15.402-14.430我们13.07110.39811.419表1. InterHand2.6M和Haggling上手部姿势误差（MPJPE）和形状误差（shape-err）的比较我们的方法优于所有其他方法。由于Haggling不提供手形注释，因此我们不比较其上的形状误差。用于重新训练和测试的真值边界框。表1和图5示出了在Inter- Hand2.6M和Haggling上的比较。我们的方法显著优于所有单手方法，大概是因为它们不处理重手闭塞。与Moonet al相比。[18]，我们的方法也减少了手MPJPE。其次，我们将手形性能与包括Boukhayma等人的最先进的单手形状重建方法进行比较。[3]和Zhouet al.[41]。由于Haggling数据集不包含手形注释，因此我们仅在InterHand2.6M数据集上进行手形性能的比较我们的方法在形状精度上也优于比较的单手重建方法（参见表1）。图6进一步示出了对Inter-Hand 2. 6 M [18]的定性比较。同样，我们的方法恢复显着更好的手的姿势和形状比其他方法。图7示出了在InterHand2.6M和Haggling上与我们的网络交互更结果见补充材料。4.3. 消融研究为了研究我们的方法的关键组成部分的贡献，我们进行消融研究间11361输入图像地面实况Boukhayma等人Zhou等人不同的观点我们的网格覆盖图6.与我们的方法和国家的最先进的单手重建方法Boukhayma等人的相互作用的手重建的定性比较。[3]和Zhouet al. [41]在InterHand2.6M上。输入图像网格叠加不同视图输入图像网格叠加不同视图图7. 在InterHand2.6M（第1 - 2行）和Haggling（第3行）上与我们的网络交互手部重建的定性结果。我们的方法可以实现高品质的重建性能下的各种观点和不同程度的interhand闭塞。Hand2.6M.默认情况下，我们的完整模型是指图1中的完整网络。2的所有损失函数和完整的网络结构。我们比较了其他方法来获得的注意力地图，并调查了上下文感知的细化和级联块的不同输入的效果在我们的方法中，由级联模块预测的MANO参数用于生成注意图，然后提取姿势感知特征。我们比较了不同的注意力地图生成方法，并在图中显示结果。8.1)“预测的2.5D热图”：使用预测的2.5D热图[18]生成张力图; 2）“适配相机参数”：使用预测的MANO参数来生成3D关节，渲染关节以生成热图，并使用等式（1）生成注意力图。（三）、3)“不注意”：使用网络架构与级联块，但没有注意模块。4)“基线”：使用没有级联块和注意模块的网络架构。我们通过去除注意力模式来进行比较在级联细化（图）的规则。8、“不注意”）。实验结果表明，该方法的性能要优于使用渲染热图或使用预测2.5D注意力图的注意力方法。实验表明，使用由绘制预测关节生成的注意力图有助于提高准确性，并且使用对齐方法计算用于绘制3D关节的摄像机参数（图1）。8，“拟合相机参数”）比网络预测的相机参数（图8）更有效。8，“预测相机参数”）。然而，使用2.5D热图来生成注意力图（图1B）是不可能的。8，“预测的2.5D热图”）导致与我们的注意力图相比准确度降低。主要原因可能是初始2.5D热图预测精度不是很高，并且所生成的注意力图不能提取针对所加块的有效特征。为了调查上下文感知细化的有效性，我们修改了11362图8. 不同注意图生成方法的比较。“基线”：没有级联块或注意模块的网络。“不注意”：具有级联块但没有注意模块的网络。“预测的2.5D热图”：从预测的2.5D热图生成注意力图的网络。“Render热图”：该网络将图像上的预测3D关节渲染为热图，并将其用作注意力图。渲染3D关节的弱透视相机参数分别通过在我们的完整模型或网络预测（“预测相机参数”）中的对齐（“拟合相机参数”）来获得输入图像网格覆盖我们的完整模型，不含上下文感知（完整模型）细化图9.上下文感知求精的定性研究我们比较了我们的完整模型和模型组成的级联块使用单手的MANO参数作为输入。我们完整模型的级联块的输入。具体而言，我们使用将被细化的单手而不是双手的预测MANO，以及其他输入表 2. 在 InterHand2.6M 上对我们的网络进行消融研究。“Cascaded single MANO parameters” means that the cascadedblock for one hand only inputs the MANO parameters of thishand, which is predicted by the previous cascaded block, and theimage feature of 其他符号具有与图相同的含义8.的级联块全部保留。表2示出了使用两只手的MANO参数比仅使用一只手更好（“我们的完整模型”与“我们的完整模型”）。“级联单个MANO参数”）。虽然性能增益是相对较小的，它是重要的许多应用程序。例如，交互的手的微小手指移动可以导致不同的交互含义，即：手的接触或分离。图9显示了定性比较，我们发现，我们的上下文感知的细化可以显着提高交互双手重建的结果。网络体系结构的影响为了研究不同网络体系结构的影响，我们比较了使用编码器末端最高层特征的网络体系结构的性能（表2，“高级特征”）与使用编码器较我们可以观察到，使用多尺度特征比使用高级特征更好（“我们的完整模型”与“高级特征”）。5. 结论在这项工作中，我们提出了一种新的解决方案，相互作用的手的姿势和形状重建。为了解决双手重建的关键挑战，我们提出了一个姿势感知的注意力模块和上下文感知的级联细化使用双手相关。实验表明，我们的方法可以实现最先进的交互双手重建性能的主要基准数据集。我们的工作可以启发相关的研究，如互动的手重建从视频或深度，和全身重建。致谢本工作得到了国家自然科学基金（No.62076061号61473276 号 61872346 ）、北京市自然科学基金（4212029，L182052）、2019年牛顿奖中国奖（NP 2PB/100047）。MPJPEAUC（0-50mm）基线14.2180.734没有注意14.0950.735预测的2.5D热图13.4640.746预测摄像机参数14.0400.737高层级特征13.9860.737级联单MANO参数13.1700.752我们的完整模型13.0710.75411363引用[1] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于gan和mesh模型的弱监督域自适应估计交互物体的3d手部姿态。在IEEE/CVF计算机视觉和模式识别会议论文集，2020年。2[2] Luca Ballan ， Aparna Taneja ， Juergen Gall ， Luc VanGool，and Marc Pollefeys.使用区别性显著点的动作中的手的运动捕获2012年欧洲计算机视觉会议论文集。2[3] Adnane Boukhayma、Rodrigo de Bem和P.乇3d手的形状和姿势从图像在野外。IEEE/CVF计算机视觉和模式识别会议论文集，第10835-10844页，2019年。一、二、六、七[4] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。2018年欧洲计算机视觉会议论文集。2[5] Xiaoming Deng，Yinda Zhang，Jian Shi，Yuying Zhu，Dachuan Cheng，Dexin Zuo，Zhaopeng Cui，Ping Tan，Liang Chang，and Hongan Wang.大规模真实感渲染数据集的手部姿态理解。 IEEE Transactions on ImageProcessing，30：4275-4290，2021。2[6] Bardia Doosti、Shujon Naha、Majid Mirbagheri和DavidCrandall 。 Hope-net ： A graph-based model for hand-object pose estimation.在IEEE/CVF计算机视觉和模式识别会议论文集，2020年。2[7] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。IEEE/CVF计算机视觉和模式识别会议论文集，2019年。2[8] Shangchen Han，B.柳河，巴西-地克里斯托弗·卡贝萨斯崔格P. Zhang，Jeff Petkau ，Tsz-Ho Yu，Chun-Jung Tai，Muzaf- fer Akbay，Z.作者：Wang，Asaf Nitzan，G.董玉婷，陶玲玲，万成德，王晓刚.Megatrack：虚拟现实的单色自我中心关节手跟踪 ACM Transactions onGraphics，39：87，2020。一、二[9] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。IEEE/CVF计算机视觉和模式识别会议论文集，2020年。一、二[10] YanaHasson ， Gu¨lVarol ， Dimi triosTzionas ， IgorKale-vatykh ， Michael J.Black ， Ivan Laptev ， and CordeliaSchmid.学习手和操作对象的关节重建。IEEE/CVF计算机视觉和模式识别，2019年。2[11] Umar Iqbal，Pavlo Molchanov，Thomas Breuel，JuergenGall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计2018年欧洲计算机视觉会议论文集。2[12] Hanbyul Joo，Tomas Simon，Mina Cikara，and YaserSheikh.走向社会化人工智能：三元互动中的非言语社会信号预测。 IEEE/CVF计算机视觉和模式识别会议论文集，2019年。五、六[13] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的三维变形模型。在IEEE/CVF计算机视觉和模式识别会议论文集，第8320-8329页，2018年。2[14] Dom i nikKulon，RizaAlpGuüler，I. Kokkinos、M. 布朗斯坦和斯特凡诺斯·扎费里乌.弱监督网格-卷积手重建在野外。IEEE/CVF计算机视觉和模式识别会议论文集，第4989-4999页，2020年。2[15] 尼古拉斯·基里亚齐斯和安东尼·阿吉罗斯。多个交互对象的可缩放3d跟踪。IEEE/CVF计算机视觉和模式识别会议论文集，2014年。2[16] Fanqing Lin，Connor Wilhelm，and Tony Martinez.基于单目rgb的双手全局三维位姿估计在IEEE/CVF计算机视觉应用冬季会议（WACV）的程序中，第2373-2381页二、五[17] Gyeongsik Moon，Takaaki Shiratori和Kyoung Mu Lee。Deephandmesh：一个弱监督的深度编码器-解码器框架，用于高保真手部网格建模。在2020年欧洲计算机视觉会议上。2[18] 文景植，柳守义， H. Wen ， Takaaki Shiratori ， andKyoung Mu Lee.Interhand2.6m：用于从单个rgb图像估计3d交互手部姿势的数据集和2020年欧洲计算机视觉会议论文集。一、二、三、四、五、六、七[19] Franziska Mueller ， Micah Davis ， Florian Bernard ，Olek- sandr Sotnychenko，Mickeal Verschoor，Miguel A.Otaduy，Dan Casas，and Christian Theobalt.实时姿态和形状重建的两个相互作用的手与一个单一的深度相机。ACM Transactions on Graphics，38（4），2019。一、二[20] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。欧洲计算机视觉会议论文集，第483- 499页，2016年3[21] M. Oberweger，P. Wohlhart和V.莱珀蒂用于联合手-物体姿态估计的广义反馈回路。 IEEE Transactions onPattern Analysis and Machine Intelligence，42（8 ）：1898-1912，2020。2[22] I. Oikonomidis，N. Kyriazis和A. A. Argyros跟踪两个强烈相互作用的手的关节运动。IEEE/CVF计算机视觉和模式识别会议论文集，第1862-1869页，2012年。2[23] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：命令式的高性能深度学习库。神经信息处理系统进展，第8024-8035页。2019. 5[24] Georgios Pavlakos，Vasileios Choutas，Nima Ghorbani，Timo Bolkart ， Ahmed A.A. Osman ， DimitriosTzionas，11364和Michael J.黑色.表现性身体捕捉：从单个图像获得3D手、脸和身体。 In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，2019年。2[25] 马克·理查森马特·杜拉索夫和罗伯特·王。从手跟踪解码表面触摸打字第33届ACM用户界面软件和技术研讨会论文集，第686-696页，2020年1[26] Gre' goryRogez，Jona thanRihan，SrikumarRamaling am，Carlos Orrite和Philip HS Torr。用于人体姿态检测的随机树。IEEE/CVF计算机视觉和模式识别会议论文集，2008年。4[27] Javier Romero、Dimitrios Tzionas和Michael J.黑色.具体化的手：建模和捕捉手和身体在一起。 ACMTransactions on Graphics，36（6），2017。二三五[28] Yu Rong，Takaaki Shiratori，and Hanbyul Joo. Frankmo-cap：通过回归和积分快速捕获单目3d手部和身体运动。arXiv预印本arXiv：2008.08324，2020。2[29] Breannan Smith ， Chenglei Wu ， He Wen ， PatrickPeluse，Yaser Sheikh，Jessica K Hodgins，and TakaakiShiratori.具有弹性的约束密集手表面跟踪。ACM Transactions on Graphics，39（6）：1-14，2020。2[30] Adrian Spurr 、 Umar Iqbal 、 Pavlo Molchanov 、 OtmarHilliges和Jan Kautz。基于生物力学约束的弱监督3d手部姿态估计。欧洲计算机视觉会议论文集，第12362卷，第211-228页，2020年2[31] A. Spurr，J. Song，Seonwook Park，and Otmar Hilliges.跨模态深度变分手部姿势估计。IEEE/CVF计算机视觉和模式识别会议论文集，第89-98页，2018年。二、六[32] 乔纳森·泰勒、卢卡斯·波尔多、托马斯·现金男、鲍勃·科里什、杰姆·凯斯金、爱德华多·索托、大卫·斯威尼、朱利安·瓦伦丁、本杰明·勒夫、阿兰·托帕利安、埃罗尔·伍德、萨迈赫·哈米斯、普什米特·科利、托比·夏普、沙赫拉姆·伊扎迪、理查德·班克斯、安德鲁·菲茨吉尔和杰米·肖特顿。通过姿态和对应关系的联合、持续优化实现高效、精确的交互式手部跟踪。ACM Transactions on Graphics，35（4）：1-12，2016。2[33] 迪米特里奥斯·齐奥纳斯湖Ballan，A.斯里坎塔巴勃罗·阿蓬特M.波勒菲和尤尔根·加尔使用区别性显著点和物理模拟捕获动作中的手。 International Journal of ComputerVision，118：172 2[34] Laurens van der Maat

下载后可阅读完整内容，剩余1页未读，立即下载