人类多指手的抓取生成：基于手-物体接触的一致性建模和自我监督的任务

142 浏览量更新于2023-10-14 收藏 1.04MB PDF 举报

输入输出

图像生成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11107面向抓取生成江瀚文*刘少伟* 王佳顺王小龙UC圣地亚哥输入输出输入+输出触点输入输出输入+输出触点图1：生成的人类对域内和域外对象的抓取。最后一列显示了对象和手接触贴图区域越亮，手和对象之间的接触值越高。最好用彩色观看摘要虽然预测机器人与平行颚式抓取器的抓取已经得到了很好的研究和广泛的应用在机器人的操作任务，自然的人类多指手的抓取生成的研究仍然是一个非常具有挑战性的问题。在本文中，我们提出了在世界上的3D对象生成人类掌握我们的关键观察是，它是至关重要的手接触点和对象接触区域之间的一致性建模。也就是说，我们鼓励先前的手接触点靠近物体表面，并且同时鼓励手触摸物体公共接触区域。基于手-物体接触的一致性，我们设计了新的目标，在训练人类把握生成模型，也是一个新的自我监督的任务，允许把握生成网络调整，甚至在测试时间。我们的实验表明，人类抓握生成的显著改善超过了最先进的方法。更有趣的是，通过在测试期间使用自监督任务优化模型，它有助于在看不见的和域外对象上实现更大的增益。项目页面：https://hwjiang1510.github.io/GraspTTA/。1. 介绍捕捉手-物体交互一直是一个活跃的研究领域[48，20，30，13，2，4，47，42，57]，它在虚拟现实[21，55]，人机交互[51]和机器人的模仿学习[59，49，39]中有广泛的应用。在本文中，我们通过生成来研究相互作用*同等贡献。如图1，仅给定世界坐标系中的3D物体，我们生成3D人手来抓取它。与预测机器人用平行颚夹持器抓取不同[33，56，60，5]，预测人类抓取实际上更困难，因为：（i）人手有更多的自由度，这导致更复杂的接触;(ii)所生成的抓取不仅需要在物理上是合理的，而且还需要以自然的方式呈现，与通常抓取对象的方式一致。为了合成物理上合理和自然的抓握姿势，最近的工作提出使用由大规模数据集[20，19，16]监督的生成模型[9，25，47]，其中手具有抓握注释和接触分析具体而言，大规模数据集允许模型生成逼真的人类抓握，并且接触分析鼓励手接触点与对象接近但没有相互渗透。虽然这些方法投入了大量的精力来建模手及其接触点，但它们忽略了对象本身也有更多需要到达的可能接触区域（参见图1中的接触图）。①的人。事实上，最近的工作已经研究了物体上的常见接触区域，并训练神经网络直接从3D物体模型预测接触图[2，4]。在本文中，我们认为，这是至关重要的手接触点和物体接触区域，以达到相互协议和一致性的把握生成。为了实现这一点，我们建议统一两个单独的模型，手把握合成和对象接触图估计。我们表明，手接触点和物体接触图之间的一致性约束不仅有助于优化更好地掌握在训练时间通过设计新的11108损失，而且还提供了一个自我监督的任务，以调整把握时，对一个新的对象进行测试。我们介绍这两个组件如下。首先，我们训练基于条件变分自动编码器 [44]（CVAE）的网络，其将3D对象点云作为输入并预测由MANO模型[41]参数化的手抓握，即GraspCVAE。在训练GraspCVAE的过程中，我们设计了两种新的损失，一种是鼓励手触摸物体表面，另一种是迫使地面真实手触摸的物体接触区域靠近预测的手。有了这两个一致的损失，我们观察到更现实和物理上合理的把握。其次，给定手抓握姿势和对象点云作为输入，我们训练另一个预测对象上的接触图的网络。我们将此模型命名为ContactNet。 ContactNet的关键作用是提供监督在测试期间，当没有可用的地面实况时，对GraspCVAE进行微调。我们设计了一个自我监督的一致性任务，它要求GraspCVAE产生的手接触点是一致的，并与ContactNet预测的对象接触图重叠。我们使用这种自我监督的任务来执行测试时的适应，它调整GraspCVAE以生成更好的人类抓握。这种自适应方法可以应用于每个单独的测试实例。我们强调，这个过程不需要任何额外的外部监督，它可以通过恢复到适应之前的模型来灵活地适应不同的输入。我们在多个数据集上评估了我们的方法，包括Obman [20]，HO-3D [19]和FPHA [16]数据集。我们表明，通过利用基于训练时间中的接触一致性约束的新目标更有趣的是，通过在测试期间使用所提出的自监督任务进行优化，它生成并调整我们的模型以适应看不见的和域外的对象，从而获得较大的性能增益。本文的贡献包括：（i）新的手-物体接触一致性约束，用于学习人类抓握生成;（ii）一种新的基于一致性约束的自监督任务，该任务允许生成模型即使在测试时间内也可以调整;（iii）显著改善域内和域外物体的抓握生成。2. 相关作品手-物交互。建模和分析手-物体交互是一个活跃的研究领域，有两个主要范例：估计交互期间的手-物体姿态[16，48，20，13，36，40，22，30，18]和从多模态手-物体交互表示进行研究[17，37，2，4，47，46，14]。为了执行手对象姿态估计，Tekin等人。 [48]提出了一种3D检测框架，其中手对象姿势由两个输出网格预测，而它们之间没有显式的交互Grady等人 [18]使用接触预测对估计的手部网格进行优化，以获得物理上合理的手部姿势估计。另一种研究范式是从多模态数据中分析手和物体上的接触区域上的力。例如，Sundaram等人。 [46]引入了一种可缩放的触觉手套，并利用触摸信息进行对象分类，而Glauser等人。 [17]利用它进行更困难的手部姿势估计任务。Brahmbhatt等人 [2，4]提出使用热成像相机来捕获物体接触图，而不是使用手上的触觉传感器，这反映了抓取后的物体共同接触区域受这项工作的启发， Taheri 等人。 [47] 进一步建立了一个GRAB数据集，它不仅捕获了手的接触图，而且还考虑了整个人体。这一系列的研究促使我们继续建立以手为中心的抓取生成模型，并通过设计以物体为中心的损失来鼓励物体上的共同接触区域被手触摸来探索以物体为中心的接触图抓一代。由于人手的更高自由度，产生人类抓握是非常有挑战性的[25，9，47，3，22]。为了产生逼真的抓握， Karun-ratanakul等人 [25]提出了一种隐式表示，用于建模手对象形状的联合分布。代替隐式表示，我们的工作与Brahmbhatt等人的工作更相关。[3]使用对象接触图来过滤GraspIt中生成的多个抓握[32 ]第32段。然而，接触图被视为一个约束，而不是在这个把握生成框架的学习目标在我们的工作中，我们利用手-物体接触区域之间的一致性作为训练目标，使用对象接触图。此外，一个自我监督的任务也被设计用于调整生成的把握使用的接触地图在测试时。示能表示预测。预测场景和对象示能表示在视觉理解中起着重要作用[28，53，6，10，54，12，26，15，52，58]。比如说，Corona等人。[10]提出了一种新的数据集和一种用于学习多个桌面对象的生成网络。Zhang等人。[58]提出了一种用于生成自然场景启示的人类场景接触的新表示。受这些工作的启发，我们的目标是通过学习物体的可供性来产生抓握，同时确保感知的自然性和物理的可供性。与以前的工作不同，我们的方法可以更好地概括把握域外对象的帮助下，建议的自我监督任务预测目标接触。在测试实例上学习。提高神经网络的泛化能力是提高神经网络泛化能力的重要途径之一11109GraspCVAEDec联系网络两训练阶段抓取预测联系人推理测试阶段接触一致性手-物GraspCVAEEnc-DecL把握唯一对象初始抓取预测目标联系人地图最终夹持预测联系地图GTL连续联系网络图2：所提出的网络在训练和测试中的不同用途。左：在训练过程中，两个网络分别在地面实况数据上学习生成人类抓握和预测物体接触图。右图：在测试时，两个网络以级联方式统一。GraspCVAE解码器预测初始抓取，并将其与对象一起输入ContactNet以预测目标接触图。然后，我们利用两个网络的输出之间的接触一致性来调整初始抓握，其中目标接触图作为自我监督信号。机器学习中的问题[8，31，11，29，34]。最近的研究已经开始通过在测试时利用自我监督来解决这个问题[23，43，1，45，24，35]。例如，Shocher等人。[43]提出了一种自监督超分辨率框架，其中网络仅在测试时通过放大和缩小单个测试示例进行训练。Sun等人 [45]利用图像识别任务和自监督任务的联合训练框架，将测试时间自适应思想扩展到更一般的应用。在测试时，网络可以调整到一个单一的测试图像，通过调整自我监督的目标。虽然这种方法很有趣，但尚不清楚自我监督目标如何影响主要任务目标。受这项工作的启发，我们的方法还利用自我监督的一个单一的例子，测试时的适应。与[45]不同，我们的自我监督任务直接优化生成更好的人类抓握的主要目标，这确保了性能增益。3. 方法我们的目标是生成手网格作为人类掌握给定的对象点云作为输入。生成的手部网格不仅需要以自然和逼真的方式呈现我们强调，确保合理的接触之间的对象和合成手是关键，以获得高质量和稳定的人类抓持。为了解决这个问题，我们利用手和物体的接触信息，并确保它们彼此一致，如图所示。二、我们提出了两个网络，一个生成GraspCVAE合成抓手网格，和一个确定性的ContactNet对象上的接触区域建模。训练阶段。如图1左侧所示2、我们分别使用地面实况监督来优化这两个网络，以学习抓取生成和预测物体接触图。在该阶段中，GraspCVAE的输入是手和物体两者，并且GraspCVAE学习在手重建范例中合成抓握，其中将使用其编码器和解码器两者注意这遵循条件变分自动编码器（CVAE）[44]中的标准过程。为了训练GraspCVAE，我们提出了两个新的损失，以确保手-物体接触的一致性：一个损失迫使先前的手接触顶点接近物体表面，另一个损失鼓励对象共同接触区域被手同时触摸。对象和生成的手将在训练期间在与两个损失的接触形式上找到相互协议测试阶段。如图右侧所示。2，我们统一了两个网络，并通过利用它们输出之间的一致性来设计一个自监督任务。给定一个测试对象，我们首先从GraspCVAE解码器（没有编码器）生成初始抓取。与训练阶段不同，在测试中不提供重建目标然后，将生成的抓取与对象一起转发到ContactNet以预测目标接触图。由于ContactNet是用地面实况数据训练的，其中手-物体之间的穿透不存在，并且手手指紧密接触物体表面，因此它将模拟理想的手-物体接触的模式。在测试期间，来自ContactNet的预测接触图将倾向于包含理想的接触模式。我们使用来自ContactNet的预测接触图作为目标，以微调和优化GraspCVAE生成的抓握如果从GraspCVAE正确地预测抓握，则来自预测抓握的对象接触区域应当与目标对象接触图一致我们使用这种一致性作为一个自我监督信号，以适应GraspCVAE在测试时间产生的在下文中，我们将首先介绍 GraspCVAE 和ContactNet的单独框架，然后介绍两个网络的测试时接触推理，以更好地适应新对象。3.1. 学习GraspCVAEGraspCVAE是一个基于条件变分自动编码器（CVAE）的生成网络，它使用条件信息来控制生成。对于GraspCVAE，条件信息是11110采样N（0，I）z点云PointNet编码器DZEC2|∈∈F|在-|||NP在在RVF参数θ∈RMV ∈对于关节轴角旋转，|P o|p∈Po我我2两唯一对象特征手参数手网相互作用马诺层图3：GraspCVAE的架构。(a)在训练中，它以手-对象两者作为输入来预测用于使用其编码器-解码器两者以手重建方式抓握对象的手网格;（b）在测试时，其解码器通过仅将对象信息作为输入来调节来生成抓握。表示连接。图4：接触图的示例，较亮的区域具有较大的分数。由于MANO 模型没有软组织，变形的指尖通常会轻微地穿透物体表面。object.我们遵循[27，44]使用GraspCVAE：在训练中，GraspCVAE的编码器和解码器都以手-物体为输入，以手的重建方式学习抓取生成任务;在测试时，仅使用其解码器来生成人类对对象的抓取，仅使用3D对象作为输入（而不使用抓取输入）。网络架构如图所示。3.第三章。在训练过程中，如图的顶行所示。3、给定手Ph∈R778×3和物体的两个点云Po∈RN×3（其中N是点数）作为输入，我们目标如下。我们将首先介绍基线目标，然后介绍两个新的损失，鼓励手-物体接触的一致性。基线基线模型的第一个目标是网格重建误差，其定义在网格的顶点以及MANO模型的参数我们采用L2距离来计算误差.我们表示预测顶点之间的重建损失，并且地面真理为LV=||V−Ph||二、之亏损使用两个单独的PointNets [38]分别提取它们的特征，表示为Fh，Fo∈R1024。这两个特征然后被级联为用于GraspCVAE编码器的FhoMANO参数以与L θ和L β类似的方式定义。重建误差可以表示为LR=λV·LV+λ θ·L θ+λ β·L β，其中λV、λ θ和λ β是输入。编码器的输出是平均值μR64 以及后验高斯分布Q（z μ，σ2）的方差σ 2 R 64 [27]。为了重建手，我们首先从分布中采样潜在代码z，并且后验分布确保采样的潜在代码z与输入的手对象相对应。解码器将潜在代码z和对象特征〇的级联作为输入以重建手网格，其由可微分MANO模型[41]表示。MANO模型通过形状参数平衡损失的常数。在VAE [27]的训练之后，我们定义了将潜在代码分布Q（z μ，σ2）强制为接近标准高斯分布的损失，这是通过最大化KL散度来实现的，因为KL（Q（z μ，σ2）（0，I））.我们还鼓励抓握在物理上是合理的，这意味着物体和手不应该相互穿透。我们将手内的对象点子集表示为所以，“损”就是“损”。最小化它们到最近手顶点的距离β∈R10，用于特定于人的手形，以及姿势L=1Σmin||p−V||二、很短的时间内-根关节平移在来自解码器的预测参数（β，θ）中，MANO模型形成可微分层，其输出具有778×3，F（），其中，F（表示网格顶点和面。GraspCVAE 中的编码器和解码器都是多层感知器（MLP）。在测试过程中，如图的底行所示。3，我们只利用GraspCVAE的解码器进行推理。仅给定提取的对象点云特征〇和从高斯分布随机采样的潜在码z作为输入，解码器将生成用于MANO模型的参数，这导致手部网格输出。有了这个架构，我们接着介绍训练mary，训练基线的损失是：Lbase=LR+λKLD·LKLD+λp·Lpenetr，（1）式中λKLD和λp是平衡损耗的常数训练中的推理联系有两种可能基线框架中的挑战：首先，基线模型中的损失忽略了手-物体之间的物理接触，这不能确保抓握的稳定性;第二，抓取生成是多模态的，并且地面实况手部姿势不是唯一的答案。为了应对这些挑战，我们从手和物体两个方面设计了两个新的损失，以推理看似合理的手-物体接触，并找到它们之间的相互协议。手-对象手顶点PointNet编码器CVAE手参数手网对象点云PointNet编码器EnczzDec马诺层(b)测试(a)火车51佩内特尔11111∈∈P·P−·P−F∈V我不我i）=minjJ我 2，如果小于aH我我P我MM手-物手手部全局特征联络图图5：以颜色示出了六个手部先前接触区域。图6：ContactNet的架构。该方法提取物体点云的局部逐点特征，并将其与全局手-物体特征相连接，以预测接触图。以对象为中心的损失从对象的角度来看，存在经常被人手接触的区域。我们鼓励人手接近这些地区使用对象为中心的损失。具体地，从地面真实的手-物体交互，我们可以通过用函数f（）归一化所有物体点与其最近的手先验顶点之间的距离D（o）来导出物体接触图Ω RN，其中f（D（ o））=12（2-D）（o））0的情况。（五）。一个例子如图所示 4.第一章距离以中心-米为单位，并且接触图得分以[0，1]为单位。这种归一化有助于网络聚焦于靠近目标区域的对象区域手然后我们强制计算对象接触图Ω从生成的手接近地面真实Ω，使用损失2o在图6中。输入是手和对象点云，并且输出是针对N个对象点的对象接触图，表示为ΩcRN我们使用两个PointNet编码器来提取手和对象特征图。由于我们需要预测每个点的接触得分（Ωc应该是o的得分），因此我们利用每点对象局部特征SRN×64的PointNet编码器，以确保这种对应性。我们还利用了手和对象的全局特征，首先将它们求和，然后复制N次，并将其与对象局部特征连接起来，得到一个RN×1024维的特征图。考虑到这些特征，我们在顶部应用四层1-D卷积来回归由sigmoid函数激活的对象接触用于训练的损失是预测的接触图Ωc和Ω c之间的L2距离。地面实况Ω as，L cont= ||Ωc− Ω||二、LO= ||Ω − Ω||2，Ω = f（D（P））.（二）以手为中心的损失。我们定义先前的手接触顶点p，如图所示。5、动机[20，2]。给定手接触顶点的预测位置，然后将附近的对象点作为可能的接触点具体来说，对于每个对象点Po，我们计算距离。2在训练期间，ContactNet的输入为直接从地面实况中获得。3.3.测试时自适应在测试过程中，我们以级联的方式统一了GraspCVAE和ContactNet，如图右侧所示二、测量D（P）我||2||2给定对象点云作为输入，GraspCVAE将阈值，我们将其作为对象上的可能接触点。我们的以手为中心的目标是将手接触顶点推近对象，L=ΣD（Po），对于所有D（Po）≤T（3）首先生成一个手网格（作为初始抓取）。我们相应地计算了它的物体接触图Ω。将预测的手网格和对象两者作为输入，ContactNet将预测另一接触图Ωc。如果把握是如果预测正确，则两个接触图ΩP和Ωc应该对于物体上所有可能的接触点，其中=一致。基于这种观察，我们定义了一个自1厘米是阈值。组合两个新的监督一致性损失的最终损失为||Ω− Ωc||2因为以上损失为，M2L抓握=L基线+λH·L H+λ O·L O，⑷其中λH和λO是平衡损耗的常数。直观地说，LO一般回答了“从哪里把握”的问题。并且没有指定哪个手部分应该接近对象接触区域。而LH则用于寻找应该联系哪个手指的答案。动态地在训练期间，在两个提出的损失的情况下，手接触点和物体接触区域将达到相互一致并且彼此一致以产生稳定的抓握。3.2.学习接触网我们提出了另一个网络，接触网，建模之间的接触信息的手对象，如图所示微调GraspCVAE。除了这种一致性损失，我们还将手为中心的损失LH和穿透损失L penetr，以确保把握是物理上合理的。我们在单个测试示例上应用具有所有三个损失的联合优化，LTTA=Lrefine+λ H·L H +λp·Lpenetr.（五）我们使用这个损失来更新GraspCVAE解码器，并冻结两个网络的其他部分。4. 实验我们展示了从我们的方法生成的把握定性的结果，并顶点PointNet编码器手-物体表征对象全局特征对象点云PointNet编码器ConvNet对象局部特征11112与其他方法的定性性能进行比较。4.4 然后，我们给出了消融研究11113−×NΣ·∈图7：对Obman数据集[20]的域内对象和HO-3D数据集[19]的域外对象生成的抓握的可视化。有关定性结果和生成的抓握多样性的更多可视化信息，请参见补充资料奥布曼HO-3DFPHAGT中文（简体）我们GT中文（简体）我们GT中文（简体）我们渗透深度（cm）↓体积（cm3）↓0.011.700.566.050.465.122.946.081.4614.901.054.581.175.022.3721.91.586.37抓取置换。平均值（cm）↓方差（cm）↓1.66±2.442.07±2.811.52±2.294.31±4.423.45±3.923.21±3.795.54±4.384.62±4.482.55±2.22感知评分{1，…， 5}↑3.243.023.543.183.293.503.493.333.57接触比例（%）↑10089.4099.9791.6090.1099.6191.4097.00100表1：Obman [20]、HO-3D [19]和FPHA数据集[16]与地面实况（GT）和GF [25]的结果比较。最好的是大胆的。建议新的损失在培训和不同的测试时间适应（TTA）的范例在第二节的有效性。四点五分。4.1. 实现细节我们在对象网格上采样N = 3000个点作为输入对象点云。在训练中，我们使用Adam优化器，LR = 1e4，100个epochs，其中当模型训练30，60，80，90个epochs时，LR减少一半。批量是128。损失权重为λ β=0。1，λ θ=0。1，λ p=5，λH=1500和λO=100。对于测试时自适应，我们使用Momentum为0的优化器SGD。8，LR = 6。2510- 6，与训练中的最后一个时期相同。对于每个样本，我们使用批量扩增，批量大小为32。损失权重为λ p=5、λH= 1和λO= 5。4.2. 数据集Obman数据集[20]是包括手-对象网格对的合成数据集。手是由一个非学习为基础的方法GraspIt！[32 ]第32段。包括2772个对象网格，覆盖ShapeNet [7]数据集的8类日常对象。在此数据集上训练的模型将受益于多样化的对象模型和抓取类型。我们在这个数据集上训练两个网络作为初始模型。HO-3D和FPHA数据集[16，19]用于评估我们提出的框架的泛化能力由于这两个数据集中只包含十几个对象，因此它们不适合用于训练模型。这两个数据集收集用对象-手姿势注释的视频序列我们使用[25]对两个数据集进行相同的拆分和数据过滤4.3. 评估指标穿透通过物体之间的穿透深度和体积测量，并按照[20]生成抓握抓取位移用于测量抓取的稳定性。我们把对象和生成的把握在一个模拟器以下[50，20]。通常，模拟器计算物体在抓握下的运动。具体而言，模拟器计算指尖上的力，其与指尖上的穿透体积呈正相关然后，它应用计算出的力来保持物体抵抗其重力。抓握稳定性通过在模拟中的一段时间期间物体在这个时期，手的姿势和位置是固定的。我们测量所有测试样本的模拟位移具有较小模拟位移的示例具有更好的抓握稳定性。感知分数用于评估所生成的抓握的我们进行知觉研究以下 [25] Amazon Mechanical Turk。手-物体接触度量用于分析手-物体之间的接触。我们计算样本水平的手-物体接触比率，单个物体和手接触点比率，以及接触物体的手指数量。我们通过判断一个点到另一个点云中最近邻点的距离是否小于0来对该点的接触状态进行分类。5厘米我们还计算了物体接触图评分，s=100 Ω[0，100]，反映抓握的覆盖面积。一般来说，较大的接触区域可以意味着更好地把握，但这并不严格正确。4.4. 抓取生成性能定性结果。我们首先可视化不同对象的生成抓握。图7表明，我们的框架是能够生成稳定的把握自然的手构成域内和域外的对象。定量结果。三个数据集的评价结果如表1所示。我们在11114LLLLLLLLL损失穿透力↓深度体积抓取置换。↓平均值±方差比例（%）目标顶点（%）联系我们↑手顶点（%）# 手指CMap评分L基础0.403.003.51± 3.7097.693.588.202.976.42+LH（gt）+LH0.640.484.904.851.97± 2.831.72± 2.4499.8999.906.076.9811.3212.173.673.9010.2011.11+LH+LO（dist）+LH+LO0.470.484.724.921.77± 2.651.63± 2.4399.8399.946.807.1611.9212.173.823.8710.8911.24表2：Obman上GraspCVAE拟定损失的消融研究[20]。为了验证每个损失的有效性，我们还将每个损失与灰色显示的修改版本进行了比较。表3：不同ContactNet设计的消融研究。误差是预测与地面实况之间的所有对象点的平均接触图分数绝对误差。Obman训练集，并在Obman测试集上进行测试。我们还在HO-3D和FPHA上广泛测试了从Obman训练集训练的模型，以证明我们的方法的泛化能力。所有结果均在测试时间适应（TTA）后进行评估。Obman测试集中的对象可能与其训练集重叠，而来自HO-3D和FPHA的对象（具有不同的姿势）在训练中从未见过。在所有三个数据集上，我们的框架在物理合理性、抓握稳定性和感知得分方面都显示出比最先进方法[25在HO-3D和FPHA数据集上的实验结果表明，该模型具有更强的跨领域泛化能力。例如，[25]在HO-3D和FPHA上实现了相当好的稳定性，但遭受巨大的渗透（它们是相关的）。然而，我们的模型在这两个指标上都表现得更好，并且具有很好的平衡。此外，我们的框架在三个数据集上的感知得分是相似的：3。54用于Ob中的域中对象男人，3。50比3 57用于HO-3D中的域外数据，以及FPHA这示出了在域外对象上生成的抓握的质量接近于域内对象。此外，我们的结果接近甚至优于地面真相，特别是对于稳定性和感知得分。4.5. 消融研究我们首先在Obman数据集[20]上进行消融研究，以评估两种拟议损失H和O。然后，我们分析了不同的ContactNet设计最后，我们在分布外的HO-3D和FPHA [16，19]数据集上比较了不同的测试时自适应（TTA）范例。物体接触区域，以提高抓握稳定性，这与该损失函数的设计相匹配。我们还通过将两种损失与修改后的版本进行比较，验证了两种损失的有效性首先，我们可以强制手指触摸地面实况接触区域，而不是用LH动态地找到它们。该损失表示为LH（gt）.实验表明，LH算法综合性能较好度量比H（gt）。这意味着在多解抓取生成任务中拟合地面实况可能不是最佳其次，在损失O的情况下，验证了用接触图表示手物距离的有效性我们实验直接最小化预测和地面实况对象-手距离D和D之间的残差，而不将其归一化为接触图。我们把这种损失称为O（dist）。实验表明，O（dist），性能甚至退化。原因是LO（dist）主要由距离较大的手-物点对贡献，而O在归一化的帮助下更多地关注靠近物体表面的手顶点。4.5.2ContactNet设计我们比较了三种不同的ContactNet设计，如表3所示。第一个模型（仅对象）仅将对象作为输入，而第二个模型（h-o全局）和第三个模型（h-o全局-局部）同时接受手和对象。后两者之间的区别在于实验使用对象局部特征是否有助于通过保持点排列信息来预测接触图。如果没有手作为输入，预测物体接触图是一个非常困难的一对多映射。考虑到只有一小部分物点是接触的，0. 第161章绝对的错误实验还表明，如果没有对象的局部特征，从添加的手作为输入之一的增益是微不足道的。使用对象局部特征，误差减小0。2007年，大幅改善50%。4.5.1GraspCVAE培训目标结果示于表2中。随着以手为中心的损失H，模拟位移减小，接触矩阵显著增加，而穿透力略有增加在添加以对象为中心的损失O之后，仅对象相关的度量，例如接触对象顶点比率和接触贴图分数和稳定性增长（位移减少）。这意味着，对于LH，LO充当正则化子。4.5.3测试时自适应泛化我们比较了四种不同的TTA范例：• TTA（线）：基于学习的TTA与Sec. 3.3，在适配每个样本之前重新初始化网络参数;• TTA-optm（ofline）：基于优化的TTA，其中MANO参数被直接优化;模型仅对象h-o全球h-o全局-本地错误0.161 0.1480.0901111520穿透力↓深度体积抓取置换。↓平均值±方差比例（%）目标顶点（%）联系我们↑手顶点（%）# 手指CMap评分HO-3D [19]不含TTA0.944.214.98± 4.483.80± 4.204.14± 4.314.22± 4.343.21± 3.7986.633.418.783.115.65TTA1.094.8892.314.3710.833.587.13TTA-optm1.074.5991.454.3210.973.686.78TTA噪声1.124.9891.174.1410.403.326.81TTA在线1.054.5899.614.6611.553.887.80FPHA [16]不带TTA和TTATTA在线6.196.376.311.561.581.692.93± 2.702.55± 2.222.77± 2.471001001004.714.644.8313.7813.9514.444.474.564.737.677.677.83表4：在域外HO-3D和FPHA数据集上的不同测试时间自适应（TTA）方法的结果[19，16]。之前之后查看1查看2查看1查看2图8：TTA前后抓握的可视化。阴茎-在指尖上过滤减少• TTA 噪声（线）：基于学习的 TTA 。训练ContactNet时，手部参数会被注入随机噪声。该方法用于比较不同的方法得到目标接触图;• TTA-online：基于学习的TTA，对于每个视频序列，网络参数仅被重新初始化一次如表4所示，在两个数据集上，所有TTA方法都可以改善结果。不同方法之间有三个比较。首先，在HO-3D数据集上，TTA和TTA-optm实现了相当的结果，因为它们都是使用相同目标函数的线性方法。基于学习的TTA的结果稍好，这可以解释为网络参数作为先验，使自适应更稳定。第二，通过注入噪声进行训练，我们期望接触网络能够通过“校正”噪声来学习预测作为TTA目标的理想接触图。然而，与在完美的地面实况数据上训练的结果相比，结果恶化。这可以解释为：（i）注入噪声伤害学习接触图;（ii）难以将注入的噪声与初始预测的抓握中的噪声模式匹配。第三，TTA的在线版本比线上版本更强受文献[45，23，35]的启发，对于在线TTA，可以借助网络参数不断优化TTA的目标，模型可以更好地随着在线更新，网络的稳定性增加，同时渗透深度减小，表明网络更倾向于手-物接触。接触率的巨大改善也验证了这一点。FPHA数据集上的在线TTA的改进不如HO-3D数据集上的大-图9：TTA后，物体接触区域变大，接触图上的黄色圆圈反映了手-物体之间的相交环。为了显示TTA对于改善所生成的抓握的自然度和稳定性两者的有效性，我们进一步可视化在TTA之前和之后的抓握和对象接触图如图所示。8、TTA后，手指与物体表面紧密接触，手穿透力降低。在图9中，物体接触区域变得更大，这指示抓握更稳定。5. 结论在这项工作中，我们提出了一个框架，用于生成人类掌握给定的对象。为了获得自然稳定的抓握，我们从两个方面论证了物体与生成手之间接触信息的一致性：首先，我们分别从手和物体的角度设计了两个新的训练目标，帮助它们在接触形式上达成一致。其次，我们设计了两个网络，分别用于抓取生成和预测接触图。我们利用这两个网络的输出之间的一致性来设计一个自我监督的任务，它可以在测试时用于适应新对象上生成的与所提出的方法，我们不仅观察到更自然和稳定的生成把握，但也有很强的泛化能力，跨域测试输入。鸣谢。这项工作得到了DARPA LwLL，NSF 1730158 CI-New：Cognitive Hardware and Software Ecosystem Community Infrastructure（CHASE-CI），NSF ACI-1541349的部分资助因为平均视频序列长度是1HO-3D所以CC*DNI太平洋研究平台，以及Qualcomm、TuSimple赠送的礼物学习目标不能被持续地优化。还有Picsart之前后11116引用[1] David Bau，Hendrik Strobelt，W. Peebles，J. Wulff，B.Zhou，Jun-Yan Zhu，and A.托拉尔巴具有生成图像先验的语义照片处理。 ACM Transactions on Graphics（TOG），38：1- 11，2019。3[2] Samarth Brahmbhatt 、Cusuh Ham、Charles C Kemp 和James Hays。Contactdb：通过热成像分析和预测抓取接触。在CVPR中，第8709-8719 页，2019 年。一、二、五[3] Samarth Brahmbhatt，A. Handa、J. Hays和D.狐狸. 接触-抓取：从接触合成功能性多指抓取IROS，第23862[4] Samarth Brahmbhatt，Chengcheng Tang，Christopher DTwigg，Charles C Kemp，and James Hays.联系方式：具有物体接触和手姿势的抓握数据集。arXiv预印本arXiv：2007.09545，2020。一、二[5] Hanwen Cao，Hao-Shu Fang，Wenhai Liu，and CewuLu.吸引力-10亿：吸引抓取的大型基准。arXiv预打印arXiv：2103.12311，2021。1[6] 曹哲，高航，Karttikeya Mangalam，蔡奇志，吴明，和J.马利克具有场景上下文的长期人体运动预测。在ECCV，2020年。2[7] 天使X张氏T.芬克豪泽湖Guibas，P. Hanrahan，QixingHuang，Zimo Li，S. Savarese，M.萨瓦、舒然宋、H. Su，J.肖湖，加-地Yi和F.Yu. Shapenet：一个信息丰富的三维模型库。ArXiv，abs/1512.03012，2015。6[8] 陈敏敏，Kilian Q. Weinberger，and John Blitzer. 领域适应的联合训练。NIPS，2011年。3[9] Enric Corona 、 Albert Pumarola 、 Guillem Alenya 、Francesc Moreno-Noguer和Grégory Rogez。Ganhand：Predictinghumangraspaffordancesinmulti-objectscenarios.在CVPR中，第5031-5041页，2020年。一、二[10] Enric Corona ， A. 普马罗拉湾 Alenyà ， F. Moreno-Noguer和Gregory Rogez Ganhand：预测多对象场景中的人类抓握能力。CVPR，第5030-5040页，2020年。2[11] G.楚卡视觉应用程序的域适应：全面调查。ArXiv，abs/1702.05374，2017。3[12] 放大图片作者：Chang Jiang，D.考德威尔和N. 查加拉基斯Affordancenet：一种用于对象启示检测的端到端深度ICRA，第12[13] Bardia Doosti，Shujon Naha，M. Mirbagheri和David J.克兰德尔Hope-net：A graph-based model for hand-objectpose estimation. CVPR，第6607-6616页，2020年。一、二[14] Kiana Ehsani 、 Shubham Tulsiani 、 Saurabh Gupta 、 AliFarhadi和Abhinav Gupta。使用原力，卢克！学习通过模拟效果来预测物理力量。CVPR，第221-230页，2020年。2[15] 方宽，吴德林， D.Yang ， S.Savarese 和 Joseph J.Lim.Demo2vec：从在线视频中推理对象启示CVPR，第2139-2147页，2018年。2[16] Guillermo Garcia-Hernando 、 Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准与rgb-d视频和3d手部姿势注释。CVPR，第409-419页，2018年。一二六七八11117[17]

下载后可阅读完整内容，剩余1页未读，立即下载