以稳定性为驱动的单目彩色图像接触重建

131 浏览量更新于2023-10-25 收藏 18.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16430以稳定性为驱动的单目彩色图像接触重建0赵子萌左炳辉谢伟王彦刚 �0中国东南大学0摘要0物理接触为手物状态重建提供了额外的约束，也为进一步理解交互可行性提供了基础。从单目图像中估计这些严重遮挡的区域是一项相当大的挑战。现有方法通过距离阈值或来自接触标记数据集的先验知识来优化手物接触。然而，由于这些室内数据集涉及的主体和物体数量有限，学习到的接触模式很难推广。我们的关键思想是直接从单目图像中重建接触模式，然后利用物理引擎中计算得到的结果力和接触分布来优化它。与现有解决方案相比，我们的框架可以适应更个性化的手部和多样化的物体形状。此外，还创建了一个具有额外物理属性的交互数据集，以验证我们方法的仿真到真实的一致性。通过全面的评估，我们提出的框架可以以准确性和稳定性重建手物接触。01. 引言0单目手物接触恢复具有广泛的应用，可以实现元宇宙和远程机器人控制中的准确交互。传统方法通常通过最近距离来判断接触区域，而最近距离是通过优化策略[58]中手和物体表面之间的最近距离来恢复的，其中恢复的接触高度依赖于手物体姿态估计的准确性。然而，单目重建很难保证这种准确性。最近的方法[5, 17, 62]从标记良好的数据集[3,52]中学习手物接触先验知识，但它们的性能...0�通讯作者。电子邮件：yangangwang@seu.edu.cn。本工作得到了中国国家自然科学基金（No. 62076061），中国科协“青年人才扶持计划”（No.YES20200025）和东南大学“知山青年学者”计划（No.2242021R41083）的部分支持。0图1.以稳定性为驱动的接触重建。每一行都展示了由多个椭球体表示的手物状态。物体上的结果力和力矩是由物理引擎计算得出的[8]。0依靠接触数据的多样性。一般来说，可靠的接触是确保手和物体在物理世界中相互作用的稳定性，要么使物体保持静止，要么使物体具有所需的加速度。为了重建这种稳定的接触，我们的关键思想是根据物理标准（即力和力矩的平衡）重建接触模式。16440通过物理引擎计算。值得注意的是，大多数现有方法[7, 21,27,29]利用相对物体位移来评估接触稳定性。然而，这些标准不能直接用于驱动优化，因为手部建模和稳定性评估都存在缺陷。关于手部建模，传统的仿真方法要么使用整个网格[21]，要么使用没有连接性的多个网格段[34, 55,58]。由于缺乏运动学树，这些模型难以进行机器人控制和力分析。为了克服这些限制，我们采用了一个结构化的多体动力学模拟，其刚体部分可以根据从图像估计的个性化信息自动调整。具体而言，这些手部刚体部分和物体共同表示为一系列椭球形基元，我们的前端网络用于估计用于组成这些基元的状态参数。与MANO[47]参数相比，回归这个状态不仅在网络训练期间加速了自身和相互碰撞的计算，而且还有助于在物理引擎中构建我们的多体。我们认为稳定性不能仅通过接触物体的位移来完全评估，这是结果力的平均效应。相反，我们提出了一些新的稳定性标准，更多地考虑了与接触相关的物理因素。考虑到接触约束是单向的，我们使用基于采样的优化方法而不是基于梯度的方法，使估计的状态满足上述稳定性要求。进一步构建了一个手物接触数据集，以分析我们的仿真中的模拟到真实的差距。除了手和物体的图像和网格外，我们提出的数据集还包括每个交互场景的物理属性和稳定性评估。真实交互场景的稳定性主要通过我们的多视图系统在捕捉接触时需要施加到物体上的额外平衡力来评估。总结起来，我们的工作有以下贡献。0•基于稳定性引导的单目图像中重建手-物体接触和物理相关性的回归优化框架；0•基于椭球体基元的手-物体表示和学习策略，为深度学习推理和物理模拟过程带来便利；0•包含物理属性和稳定度度量的手-物体交互数据集，验证了相关方法的模拟到真实的一致性。0该数据集和代码将在https://www.yangangwang.com上公开。02.相关工作0本部分讨论的重建方法主要以单目彩色图像作为输入，并考虑了一只手和一个物体之间的交互。手-物体状态估计。随着3D手部数据集[16, 33, 61, 64, 68]和物体数据集[23, 33,61]的快速增加，数据驱动方法[2, 15, 25, 26, 30, 37, 43,54, 60, 63, 66,67]在社区中变得流行起来。然而，当手与物体交互时，由于严重的遮挡，问题变得更加复杂。先驱数据集[14]和方法[10,53]中的表示仅包含手部骨架和物体边界框。后续工作[6,18]通过MANO参数[47]和特定物体类别[4,61]提供了更细粒度的手-物体表面描述。随着更多的合成数据，Hasson等人[21]探索了通过统一网络重建手-物体的形状和姿态的方案。其他方法[5, 17, 19,20]更加注重手部状态和物体姿态。这项工作还依赖于在模拟中提供物体网格。然而，物体姿态和手部特征是从输入图像中估计的。接触估计。有一种趋势[40,48]是直接在图像级别上理解交互模式。由于接触区域通常在图像中不可见，因此更多的方法从3D状态中探索它。为了实现数据驱动方法，许多先驱[3, 11,44]利用昂贵的传感器、巧妙的部署和人工劳动来获取实际的接触信息，而不影响手-物体的外观（无标记）。其他人[21,52]使用Mocap数据中手和物体表面之间的距离作为注释接触的标准。受益于这些数据集，最近的方法[5, 17,62]提前学习接触区域先验，然后根据先验迭代优化手-物体状态。在评估阶段，一些方法将具有更多接触覆盖率的状态视为稳定[17]。但这可能加剧不合理的穿透，而不是改善接触质量。正如[21]指出的那样，这可以通过基于物理模拟的评估方法来补偿。考虑到更多与接触相关的物理特性，我们创建了一个稳定性准则，以有效地优化手-物体状态，而不依赖先验。手部碰撞形状。虽然手部网格[47]方便渲染，但对每个顶点进行碰撞检测需要昂贵的计算[17, 21, 38,58]。对于人体和手等关节对象，碰撞不仅发生在其他对象上，还发生在它们自身的不同链接之间。已经尝试了几种方法[9, 28, 29,35]来隐式表示具有神经占用函数的表面，但对于自相交[35]是无效的。相比之下，使用几何基元（例如胶囊体[13,46]）近似表示关节对象的方法更有效。16450图2.手-物体状态表示。棕色部分表示相对于模板的形状变化。（a）手-物体模板由17个椭球体组成；（b）具有形状变化的模板手；（c）具有姿态变化的个性化手。0球体[39, 45, 49-51, 59]或混合[41,42]更直观地处理两种类型的相交。[56,57]提出了一种从隐式球体到平滑三角网格的转换方法。我们提出了一种更简洁的方案，将手-物体表示为一系列椭球体。它在网络回归和模拟环境中的优化之间建立了桥梁。03. 方法0我们采取两步来从单目彩色图像中重建手-物体的状态S和它们的物理接触R。首先，建立一个网络来回归由椭球参数表示的手-物体的形状和粗略姿态（第3.1节）。上述参数被应用于创建动力学场景，作为接触优化的初始状态（第3.2节）。为了便于表述，波浪符上标表示从网络回归的变量，帽子上标表示在模拟中优化的变量，星号上标表示地面真值。03.1. 手-物体状态估计0椭球体表示。为了直接将场景导入物理引擎，个性化手部和物体的状态被统一表示为一系列椭球体，而不是MANO[47]。具体而言，手部被近似为16个关节椭球体，物体被近似为一个椭球体。每个椭球体可以隐式地表示为二次形式函数的零等值面：0E(x|c, r, a) = (x − c)TA(r, a)(x − c) - 1 (1)0其中c是椭球体的中心，r是半径，a是以轴-角度表示的方向。应注意对对称矩阵A(r, a) = R(a)T diag(r) −2R(a)的分解不是唯一的，例如A((a, b, c)T, (0, 0,0)T)与A((b, a, c)T, (0, 0,0.5π)T)。因此，我们采用传统的策略[47]创建一个手模板{¯Ei}16i=1，如图2所示。有了这个模板，0我们的手-物体状态可以表示为：0β � {δri}16i=1, θ � {δai}16i=1, φ � {δr0, δa0, δc0} (2)0在这个模型中，每个椭球体可以通过δri进行缩放，并相对于其局部坐标系通过δai进行旋转。手掌的中心被用作坐标原点，并且在网络预测阶段采用相机坐标系。其他椭球体的中心可以根据椭球体与其父节点的连接自适应地进行约束。因为交互对象通常与手掌保持相当的尺度和方向，所以{δr0，δa0}以及物体的中心偏移量δc0相对于E1。网格转换。显式表面网格是通过图4(a1-3)中的三个步骤从隐式基元中获取的。根据[1,56]，以下函数的零等值面对应于网格表面：0M(x) = min {Ei(x|ci, ri, ai)}16i=1 (3)0额外的凸包计算将使其表面更加平滑。我们使用这种方法将重建的手模型投影到图像中计算误差。另一方面，如图4(b1-3)所示，根据蒙皮权重首先将不同的LBS手部网格[32, 38,47, 58,64]进行分割。然后为每个段创建定向边界框，最终椭球体保持与边界框相同的半径和方向。该方法用于将这些现有的网格标记数据集转换为我们训练过程中的β�，θ�的真值。网络架构。网络结构上设计为编码器-解码器。为了使网络更多地关注手-物体RoI，解码器解码并监督像素级特征，包括2D热图、手关节和物体中心的Z图、手掩模和物体掩模。其编码器的主干是ResNet18[22]，与其解码器有额外的连接。然后对这些编码特征进行再次编码并与之前的特征连接，以预测我们的状态参数β，θ，φ。此外，关节回归器J(β，θ)需要回归相邻椭球体之间的关节位置。它被设计为一个两层MLP，并用于从每个椭球体的显式网格顶点回归关节坐标X∈R3×21。训练过程。由于我们表示的坐标是以手为中心的，所以只有手部网格注释的数据集[32, 38, 64,68]可以在我们的训练中使用。在第一阶段，采用半监督范式来使用只有手部或只有物体注释的数据集对网络进行预训练。总体损失包括：0L S1 = ∥˜β − β�∥22 + ∥˜θ − θ�∥22 + ∥˜X − X�∥22 +L2D + Lin(˜S) (4)̸16460图3.稳定接触重建流程。(a)从输入图像估计的由隐式椭圆表示的手-物体状态；(b)从估计参数直接构建的模拟交互场景；(c)优化过程由模拟中的稳定性代价驱动，以迭代地获得更可靠的状态。0图4.隐式和显式手部形状之间的转换。(a1-3)从隐式椭圆到网格的步骤。为了显示更多细节，使用具有很大方向变化的3个椭圆来说明；(b 1-3)从显式网格到椭圆的步骤。0前三项是手部3D重建误差。关节位置是通过我们的关节回归器˜X =J(˜β，˜θ)估计的。L2D包含在中间步骤中回归的所有2D信息的误差。某些数据集可能没有所有的注释，因此相应的项也没有监督。最后一项是接触0损失设计为基于点的[28，35]，以惩罚椭圆之间的碰撞：0L in ( ˜S ) = − �0x ∈ Ω(Ei)0j ≠ i Ej(x|˜S)，其中Ej(∙)<0 (5)0实际上，预先采样了在Ω(E)上均匀分布的872个顶点，其在Ei上的实际坐标x由椭圆参数˜S确定。在第二阶段，我们使用具有完整注释的数据集[3，6，18，21]对我们的网络进行全面训练：0L S2 = L S1 + ∥˜φ − φ�∥22 + ∥Π(˜S) − Π(S�)∥22 (6)0其中Π表示通过正交投影生成手部和物体掩模的可微分投影过程。相机参数可以通过将手模型的尺度和平移与图像中的2D关键点进行比较来获得。J(β，θ)是独立训练的。由于它是从运动过程中的手模型的表面顶点和关节进行映射，我们通过在物理引擎中的手模型的前向动力学中获得大量的配对训练数据。实现细节。我们的网络在单个NVIDIA GeForceRTX 3090GPU上以基本学习率1e-4、输入图像尺寸256×256和批量大小64进行训练。我们在训练中使用PyTorch中的Adam求解器[31]作为优化器。03.2.物理接触恢复0我们的优化过程由每个样本上评估的物理稳定性驱动。16470图5.我们数据集上的定性结果。对于每个样本图像，从网络和优化结果的两个视图显示估计结果。0场景初始化。估计的状态˜S用于初始化物理引擎中的交互场景[8]。首先，使用个性化变化˜β构建具有16个椭圆链接和固定根在原点的动态多体手模板{¯Ei}16i=1。详细的物体网格通过位置˜p和方向˜q加载到场景中，这些位置和方向由˜φ确定。由于从单个图像中估计物体的线性加速度�a和角加速度�α具有挑战性，在以下步骤中它们被简单地设置为零。为了便于采样，用轴角表示的手姿势θ被转换为用欧拉角表示的ϑ。对于局部自由度，采用两种方案：保留全部45个或仅保留20个物理上合理的自由度[62，65]，即|ϑ|=48或23。在优化之前，手根被约束在原点，并允许在采样过程中到达新位置˜t。因此，(˜ϑ，˜t，˜p，˜q)参与下一步。0稳定性评估。给定手对象状态的实际物理接触是通过基于冲量的模拟[36]计算的。具体来说，检测手链接和对象之间的碰撞。基于库仑摩擦模型[12,24]，根据穿透深度计算每个接触点的法向力和横向摩擦力。手由PD控制器驱动保持在给定的目标姿势，对象由于自身重力和手接触力 passively 移动。0因此，接触通过稳定性成本进行评估：0C=CS(ˆp,ˆq,ˆϑ,ˆt)+CR(�f,�τ,m)(7)0其中CS衡量模拟前后手对象状态的变化，CR衡量物理关系，包括结果力�f(t)、力矩�τ(t)和在00.1或LQ(ˆq(t)−1˜q)>0.3π，则会重置对象的状态。迭代采样。由于接触约束是单向的，可能无法计算梯度，因此我们使用基于采样的优化来驱动上述稳定性准则。分布D(ˆϑ)以˜ϑ为中心，每个维度的方差为0.1π进行初始化，分布D(ˆt)以0为中心，每个维度的方差为0.05进行初始化。在每次迭代k中，具有较低成本的样本{˜ϑ(n)k,˜t(n)k}Nn=1被赋予更大的权重。使用这些加权样本，在重新采样之前更新每个维度的方差。在最后一轮中，最低成本的状态以及接触点和接触力是手对象交互重建的结果。实现细节。在我们的实验中，采样迭代次数设置为K=30，样本数量设置为N=300。对于每个状态样本，在物理引擎中执行T=120个步骤的交互过程。同一次迭代中的所有样本并行模拟。时间步长遵循bullet physics[8]中默认的240Hz设置，即每个模拟过程对应于真实物理世界中的0.5秒。距离以米为单位，质量以千克为单位，力以牛顿为单位。图像坐标系中的重力方向被认为是沿Y轴向下的。对于来自其他数据集[3, 21, 52,61]的对象，质量与其体积成比例，密度均匀设置为500kg/m3。手和对象的恢复系数均设置为1.0。手和对象之间的摩擦系数设置为0.8。对于我们数据集中的对象，质量和摩擦设置遵循我们的Sup. Mat中包含的实际测量结果。16480图6.具有物理属性的交互数据集。（a）带有网格和掩码注释的多视图数据集；（b）分为6个类别的20个对象；（c）我们对象的真实模型。03.3. 交互数据集准备0如图6所示，我们创建了一个包含多视角彩色图像、手部和物体可见掩码、物理属性以及通过额外平衡力大小测量的稳定度的数据集。总之，它包含了20个受试者与25个摄像机交互的1K个场景，与20个物体进行交互。根据形状，这些物体被分为6个类别，包括A）锥体，B）棱柱体，C）立方体，D）球体，E）圆盘和F）柱体。有关我们数据集的更多详细信息，请参阅Sup. Mat。04. 实验0在本节中，首先在第4.1节中定义了评估数据集和标准。我们的方法与SOTA方法进行了比较，在第4.2节中进行了详细的消融研究，研究了我们的关键组件。04.1. 数据集和评估指标0数据集。现有数据集包含两种主要类型。第一种类型[6, 14,18]记录了真实的RGB图像和整个手-物体交互过程，包括接近、接触和操作。这种数据用于测试我们的整个流程。为了减少在选择交互对象时的歧义，我们遵循方法[21,62]，将手-物体之间的3D距离不超过5mm作为阈值来过滤这些数据集。官方0数据集ContactPose [3] GRAB rh 500方法GT. [17] Ours ‡ GT. [17] Ours ‡0最大穿透（mm）↓ 11.62 12.07 8.54 10.33 12.38 7.540Inter.（cm3）↓ 12.24 12.35 6.13 14.62 13.97 7.28 Disp.（mm）↓4.68 4.35 1.02 4.25 4.47 1.230SC. ↓ 1.46 1.03 0.27 1.34 1.28 0.440表1. 手-物体接触估计评估。'Ours ‡'表示仅使用优化的方法。0由于缺乏手部网格的真实值，因此未使用HO3D[18]的测试集。最终，用于测试的数据包括FPHB[14]中的7,373个样本，HO3Dv3[18]中的69,292个样本和DexYCB[6]中的93,264个样本。另一种类型[3, 21,52]专注于记录手-物体的接触模式。对于GRAB[52]中的每个序列，我们提取包含右手与物体之间接触的子序列，间隔为50帧。该数据集被标记为GRAB rh50。最终，用于测试的数据包括Contact-Pose[18]中的2,259个样本和GRAB rh 50[52]中的19,008个样本。状态误差。由于我们的方法重建的手部网格与MANO[47]不同，选择21个手关节的平均每点位置误差（MPJPE）来评估3D重建误差。在2D中，采用平均交集联合（mIOU）来评估转换后的网格与真实值之间的投影误差。至于物体，通过将物体参考网格与估计的椭球体对齐，获得姿态物体的顶点。采用平均每顶点位置误差（MPVPE）和mIOU来评估物体误差。接触质量。首先，采用最大穿透（MaxPene.）和交集体积（Inter.）[21]来评估几何关系。然后，采用模拟位移（Disp.）[21]和我们在第3.2节中定义的稳定性成本（SC.）来评估相同模拟设置中的接触稳定性。为了公平比较，当计算这些交集度量时，将椭球手转换为凸包网格，根据第3.1节的规定。模拟到真实的差距。对于我们数据集中的每个场景，平衡力与相应成本之间的相关性用于评估模拟效果。04.2. 比较0状态估计。在从单目图像中估计手-物体状态的任务中，我们的方法与使用纯回归[19, 21]和使用额外优化的方法[5,62]进行了比较。如表2所示，从我们的前端网络估计的手-物体状态表现出比直接回归方法更好的性能，我们的完整流程在数据集上取得了最佳结果。这表明我们的方法在表示方面优于其他基于MANO的回归方法，而且16490图7. DexYCB [ 6 ]和ContactPose [ 3]上的定性结果。对于每个样本，优化后的状态增加了接触的稳定性，同时确保了前端网络估计的初始状态的一致性。0我们的恢复模块可以实现对接触模式的有效优化。在某些情况下，手-物体的位置精度可能会受到稳定性增加的优化的轻微影响。这可能是由于真实条件与模拟条件之间的差异引起的。接触恢复。通过考虑手-物体状态，我们的恢复模块与[ 17 ]在ContactPose和GRAB rh50下进行了比较。如表1所示，我们的方法增加了接触的稳定性，同时减少了穿透。这进一步说明了我们的方法更全面地优化了接触。04.3. 消融研究0由于ContactPose [ 3]具有图像和准确的接触信息，我们的大部分消融实验都是基于该数据集进行的。其中，完全使用我们的整个流程的结果在表3的最后一行中。训练范式。训练过程中两个关键组件的验证，包括半监督预训练和接触损失，如表3的前两行所示。缺少碰撞损失可能会恶化手-物体在优化之前的初始状态，从而影响整个优化过程。另一方面，没有预训练的网络对手势的多样性、视角的变化和手-物体交互过程中的遮挡不够鲁棒，可能会产生类似的影响对整个流程产生影响。0对整个流程产生类似的影响。0稳定性代价。我们比较了我们稳定性代价中每个项的重要性，如表3的中间6行所示。每个项目的缺失都会削弱最终结果，其中力量项的影响最大。此外，我们将稳定性代价替换为驱动优化的手部模型上定义的位移作为目标，结果如表3的第8行所示变差。主要原因可能是物体位移只能在较少的模拟步骤中反映出接触稳定性。因此，我们的标准可以更普遍地衡量接触模式。还使用了仅具有物理引擎中的碰撞检测的方法，但其稳定性也不足。0手部模型。如表3的第9行和第10行所示，在相同的模拟条件下，还探索了碰撞形状和手部模型的本地自由度的选择。其中，由网格段组成的手部导致了较差的稳定性。这可能是由于物理引擎中的网格碰撞形状自动近似为凸包，改变了碰撞检测的准确性。另一方面，具有更多本地自由度的手部精度较低，因为它增加了优化的难度。为了提高采样和优化方法的效率，采用了具有20个本地自由度的方法。mIoUH(%) ↑-54.54-59.3462.0164.04--61.5261.43-62.6463.52MPJPEH(mm) ↓28.8019.32-19.1018.5614.32-9.5010.969.14-11.3211.15mIoU (%)-66.10-71.3472.5875.26--82.5382.47-80.6681.3416500数据集 FPHB [ 14 ] HO3Dv3 [ 18 ] DexYCB [ 6 ]0方法[ 21 ] [ 19 ] [ 62 ] Ours † Ours [ 19 ] [ 62 ] [ 5 ] Ours † Ours GT. Ours † Ours0MPVPE O (mm) ↓ - 21.07 21.57 21.14 20.96 20.08 73.28 � - 19.34 19.45 - 18.61 18.84 最大穿透深度 (mm) ↓ 15.12 18.08 16.9215.07 11.43 10.29 16.47 - 16.85 11.36 10.65 7.32 6.720交互体积 (cm 3 ) ↓ 10.90 11.05 11.76 10.12 6.23 12.26 7.44 - 7.32 6.19 14.76 6.94 6.610表2. 手-物体状态估计的评估结果。 “Ours†”表示我们的方法没有进行优化，“Ours”表示我们的完整流程。被“-”标记的项目表示该工作尚未在相关数据集上进行训练或测试。被“�”标记的项目表示手腕相对物体顶点误差。0图8.稳定性成本与实际力之间的相关性。横轴是实际测量力，纵轴是在模拟环境中重建的相同手物体状态的稳定性成本。与6种物体对应的数据用不同颜色标记。0模拟到真实的相关性。通过我们的数据集中的交互场景，我们定量分析了模拟稳定性成本与实际补偿力之间的关系。有关平衡力测量和相应物理属性的更多详细信息，请参阅我们的补充材料。在实验中，每个手物体场景重建用于直接初始化我们的模拟交互场景，然后计算它们的稳定性成本。每个重建的手物体场景用于直接初始化我们的模拟交互场景。它们在捕获过程中的实际稳定性通过平衡力的大小来测量，而模拟中的稳定性通过稳定性成本来测量。模拟中物体的质量和摩擦系数设置为与实际测量值相同。如图8所示，对于不同形状的物体，实际稳定性和模拟稳定性之间存在不同的相关性。其中，类别F中的物体（即列）对应于多个斜率，这是由于类别内尺度变化很大造成的。0方法 Inter.（cm³）↓ Disp.（mm）↓ SC.↓0无 L in 7.41 4.65 0.86 无预训练 7.34 3.77 0.510无 C S Opt. 6.32 3.43 4.62 无 L cnt . 6.28 2.39 0.580无 L frc . 6.23 2.66 0.73 无 L tau . 6.37 2.17 0.640无 C stab Opt. 7.32 1.92 1.44 带 Disp. 的 Opt. 6.943.43 4.620无椭球 6.36 1.59 0.64 with | ϑ | = 48 6.32 1.47 0.470我们的方法 6.24 1.13 0.310表3.ContactPose的消融研究。评估网络训练范式、优化函数和物理手模型的组件。05. 结论0本文提出了一种新颖的单目手物体接触恢复方案，该方案由物理引擎中的模拟稳定性标准驱动。通过基于采样的优化，可以获得更稳定的接触模式，而不依赖于数据先验。手物体椭球体表示进一步促进了我们的回归优化流程的有效实施。它同时实现了个性化的手形变化。通过我们具有真实物理属性和稳定性评估的接触场景数据集，后续验证了模拟到真实的一致性。0局限性和未来工作。尽管我们的方法在现有数据集下具有鲁棒性，但在复杂场景中，如严重遮挡或多个手/物体的情况下，可能会失效。摆脱物体网格依赖性对于改进我们的方法也是重要的。在未来，结合我们的稳定性成本考虑的奖励可以更有效地指导强化学习方法重建手物体交互序列。16510参考文献0[1] Jules Bloomenthal和KenShoemake。卷积曲面。在第18届计算机图形学和交互技术年会上，第251-256页，1991年。30[2] Samarth Brahmbhatt，Cusuh Ham，Charles CKemp和JamesHays。Contactdb：通过热成像分析和预测抓握接触。在CVPR上，第8709-8719页，2019年。20[3] Samarth Brahmbhatt，Chengcheng Tang，Christopher DTwigg，Charles C Kemp和JamesHays。Contactpose：具有物体接触和手姿势的数据集。在ECCV上，第361-378页。Springer，2020年。1，2，4，5，6，70[4] Berk Calli, Arjun Singh, Aaron Walsman, Siddhartha Srini-vasa, Pieter Abbeel, and Aaron M Dollar.YCB对象和模型集：走向操纵研究的共同基准。在2015年国际先进机器人大会（ICAR）上，第510-517页。IEEE，2015年。20[5] Zhe Cao, Ilija Radosavovic, Angjoo Kanazawa, andJitendra Malik. 在野外重建手-物体交互. In ICCV , pages12417–12426, 2021. 1 , 2 , 6 , 80[6] Yu-Wei Chao, Wei Yang, Yu Xiang, Pavlo Molchanov,Ankur Handa, Jonathan Tremblay, Yashraj S Narang, KarlVan Wyk, Umar Iqbal, Stan Birch�eld, et al. Dexycb:用于捕捉手部抓取物体的基准. In CVPR , pages 9044–9053,2021. 2 , 4 , 6 , 7 , 80[7] Enric Corona, Albert Pumarola, Guillem Alenya, FrancescMoreno-Noguer, and Gr´egory Rogez. Ganhand:预测多物体场景中的人体抓取可行性. In CVPR , pages5031–5041, 2020. 20[8] Erwin Coumans et al. Bullet物理库. 开源: bulletphysics.org , 15(49):5, 2013. 1 , 50[9] Boyang Deng, John P Lewis, Timothy Jeruzalski, GerardPons-Moll, Geoffrey Hinton, Mohammad Norouzi, and An-drea Tagliasacchi. Nasa神经关节形状近似. In ECCV , pages612–628. Springer, 2020. 20[10] Bardia Doosti, Shujon Naha, Majid Mirbagheri, and DavidJ Crandall. Hope-net: 一种基于图的手-物体姿态估计模型. InCVPR , pages 6608–6617, 2020. 20[11] Kiana Ehsani, Shubham Tulsiani, Saurabh Gupta, AliFarhadi, and Abhinav Gupta.使用力量，卢克！通过模拟效果学习预测物理力量. In CVPR ,pages 224–233, 2020. 20[12] Roy Featherstone. 刚体动力学算法 . Springer, 2014. 50[13] Shachar Fleishman, Mark Kliger, Alon Lerner, andGershom Kutliroff. Icpik: 基于逆运动学的关节-icp. InProceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops , pages 28–35, 2015. 20[14] Guillermo Garcia-Hernando, Shanxin Yuan, SeungryulBaek, and Tae-Kyun Kim.带有RGB-D视频和3D手部姿态注释的第一人称手部动作基准. InCVPR , pages 409–419, 2018. 2 , 6 , 80[15] Liuhao Ge, Zhou Ren, Yuncheng Li, Zehao Xue, YingyingWang, Jianfei Cai, and Junsong Yuan.从单个RGB图像估计3D手部形状和姿态. In CVPR , pages10833–10842, 2019. 20[16] Francisco Gomez-Donoso, Sergio Orts-Escolano, andMiguel Cazorla. 大规模多视角3D手部姿态数据集. Image andVision Computing , 81:25–33, 2019. 20[17] Patrick Grady, Chengcheng Tang, Christopher D Twigg,Minh Vo, Samarth Brahmbhatt, and Charles C Kemp. Con-tactopt: 优化接触以改善抓取. In CVPR , pages 1471–1481,2021. 1 , 2 , 6 , 70[18] Shreyas Hampali, Mahdi Rad, Markus Oberweger, andVin- cent Lepetit. Honnotate:一种用于手部和物体姿态的3D注释方法. In CVPR , pages3196–3206, 2020. 2 , 4 , 6 , 80[19] Yana Hasson, Bugra Tekin, Federica Bogo, Ivan Laptev,Marc Pollefeys, and Cordelia Schmid.利用时间上的光度一致性进行稀疏监督的手-物体重建. In CVPR ,pages 571–580, 2020. 2 , 6 , 80[20] Yana Hasson, G¨ul Varol, Ivan Laptev, and CordeliaSchmid. 从RGB视频中实现无约束的手-物体联合重建.arXiv预印本arXiv:2108.07044 , 2021. 20[21] Yana Hasson, Gul Varol, Dimitrios Tzionas, Igor Kale-vatykh, Michael J Black, Ivan Laptev, and Cordelia Schmid.学习手部和操纵物体的联合重建. In CVPR , pages 11807–11816,2019. 2 , 4 , 5 , 6 , 80[22] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. In CVPR , pages 770–778, 2016. 30[23] Stefan Hinterstoisser, Vincent Lepetit, Slobodan Ilic, Ste-fan Holzer, Gary Bradski, Kurt Konolige, and Nassir Navab.基于模型的纹理无关3D物体在严重杂乱场景中的训练、检测和姿态估计. In ACCV , pages 548–562. Springer, 2012. 20[24] Markus Holl, Markus Oberweger, Clemens Arth, andVincent Lepetit.用于虚拟现实中逼真的手物体交互的高效基于物理的实现. In 2018IEEE Conference on Virtual Reality and 3D User Interfaces(VR), pages 175–182. IEEE, 2018. 50[25] Yinlin Hu, Joachim Hugonot, Pascal Fua, and MathieuSalzmann. 基于分割的6D物体姿态估计. In CVPR, pages3385–3394, 2019. 20[26] Umar Iqbal, Pavlo Molchanov, Thomas Breuel JuergenGall, and Jan Kautz. 通过潜在的2.5D热图回归进行手部姿态估计.In ECCV, pages 118–134, 2018. 20[27] Hanwen Jiang, Shaowei Liu, Jiashun Wang, and XiaolongWang. 用于生成人类抓取的手物体接触一致性推理. In ICCV,pages 11107–11116, 2021. 20[28] Korrawe Karunratanakul, Adrian Spurr, Zicong Fan, OtmarHilliges, and Siyu Tang. 用于关节手部的骨架驱动神经占用表示.In International Conference on 3D Vision (3DV), pages 11–21.IEEE, 2021. 2, 40[29] Korrawe Karunratanakul, Jinlong Yang, Yan Zhang,Michael J Black, Krikamol Muandet, and Siyu Tang. GraspingField: 学习人类抓取的隐式表示. In International Conference on3D Vision (3DV), pages 333–344. IEEE, 2020. 20[30] Wadim Kehl, Fabian Manhardt, Feder

下载后可阅读完整内容，剩余1页未读，立即下载