学习接触势场模拟手-物交互：深度学习方法在交互建模中的应用与探索

25 浏览量更新于2023-12-18 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11097CPF：学习接触势场来模拟手-物交互Lixin Yang1，2 Xinyu Zhan1 Kailin Li1 Wenqiang Xu1，2 Jiefeng Li1 Cewu Lu1，2，†1上海交通大学2上海启智学院{siriusyang，kelvin34501，kailinli，vinjohn，ljf likit，lucewu}@ sjtu.edu.cn摘要手-物交互建模不仅需要估计手-物的姿态，而且要考虑手-物交互过程中的接触在使用深度学习方法分别估计手和物体方面已经取得了重大进展，同时HO姿势估计和接触建模尚未得到充分探索。本文提出了一种显式的接触表示--接触势场（ContactPotentialField，CPF）和一种适合于学习的混合框架--MIHO，用于手与物体的交互建模。在CPF中，我们把每个接触HO顶点对作为一个弹簧质量系统。因此，整个系统在抓握位置处形成具有最小弹性能量的势场。在两个常用的基准上进行的大量实验表明，我们的方法可以在几种重建方法中达到最先进的水平，并且即使在地面实况表现出严重的相互渗透或不相交时，也可以产生物理上更合理的 HO 姿态。我们的代码可在https://github.com/lixiny/CPF上获得。1. 介绍从单个图像中建模手-物交互对于理解人类活动至关重要，其中模拟物理上合理的抓取对于VR/ AR、遥操作和抓取应用也至关重要。给定图像作为输入，该问题的目的不仅是估计适当的手对象的姿势，但也恢复一个自然的把握配置。在估计手[36，31，58，4，19，56]或单独的对象[20，23，14，54，55]在过去几十年中取得了相当大的成功，同时估计手-对象姿态[24，51，23，28，12]与交互作用仅在过去几年中出现。先前关于联合手对象估计的工作通常将接触视为正确姿势估计的结果[23，29，44]。显然，如果手和物体可以完美地恢复，它们之间的接触也将是†Cewu Lu为通讯作者。他是上海交通大学人工智能研究所清源研究院和MoE人工智能重点实验室的成员。图1. 建议的接触势场图示。手和物体顶点之间的接触被建模为吸引（右）和排斥（左）弹簧，连接它们上的成对顶点。满意然而，这种完美在实践中无法实现。由于接触可以提供丰富的线索来指导准确的姿势和自然的抓握，因此最近更多的注意力被吸引到接触建模[5，7]和接触表示[26，6]。几个联系人数据集[5，7，50]已经发布给社区。然而，将接触建模适当地集成到当前手对象姿态估计管道中的解决方案仍然是一个开放的研究问题。现有的方法要么利用基于距离的吸引力和排斥力[24，26]来减轻分离和相互渗透，要么凭借物理模拟器来改进预测的姿势[28，29，17]。虽然这两种解决方案都被认为与我们稍后将解释的接触语义无关，但后一种解决方案也缺乏手部姿势和形状的灵活性。为了对接触进行建模，我们提出了一种名为C接触势场（CPF，§4）的显式表示。该方法的基本思想是：在抓取状态下，手与物体网格之间的接触是多点接触，这涉及到多个手-物体顶点对的仿射。这些亲和力被视为接触语义，它描述了手对象的顶点，在相互作用过程中相互接触的配对当噪声预测的手和物体彼此脱节时，我们将应用吸引力来将这些顶点对拉近;当手和物体相交时，我们将有一个吸引力。11098排斥力把它们推开。这些仿射顶点对的接触是吸引力和排斥力平衡的结果。在本文中，我们把每个接触HO顶点对作为一个弹簧质量系统。首先，弹簧的两个端点是两个HO顶点在亲和力上的对应物第二，弹簧通过这种方式，我们可以用一个势场来模拟HO相互作用因此，估计接触下的HO姿态相当于最小化CPF内的弹性能量。将联系人表示为CPF有两个主要优点。首先，与具有接近度量[1，52]或距离场[26，6]的接触启发式相比，CPF能够将每个顶点的接触语义（不同手部的接触点）分配给对象网格。第二，通过减小弹性能，CPF可以均匀地避免互穿，控制分离.基于CPF，我们还提出了一种新的学习-拟合混合框架，即用于对H和O对象的交互进行建模，我们称之为MIHO（§5）。现有方法的另一个问题是手模型的表示。大多数研究采用蒙皮模型MANO [47]来表示手。MANO被认为是灵活的，可变形的姿态和形状参数。然而，在这些高DoF参数上拟合容易出现解剖异常。机器人领域的研究在现成的抓取软件[35]中采用了灵巧手[29，17但这些杆状手的刚性不太适合CV/ CG应用。为了充分利用这两个世界，我们提出了一种新的解剖约束手模型，即A-MANO（§3）。它继承了蒙皮模型的公式化，并将手部关节2）。为了进行评估，我们报告了FHB [18]和HO3D [22，21]数据集在重建和物理质量指标方面请注意，FHB的地面实况是嘈杂的，并且遭受严重的相互渗透[26]。由于我们的方法可以首先避免穿透，因此我们的结果在视觉上和物理上都更合理。因此，我们认为，在这个数据集中，更高的重建分数并不一定基准的方法的性能。在HO3D上，我们在重建和物理指标上都实现了最先进的性能。本文的主要贡献如下。• 我们突出接触的手对象交互建模任务，提出了一个明确的表示命名为CPF。• 我们介绍了A-MANO，一种新的解剖约束的手模型，有助于减轻姿势• 我们提出了一个新的框架，MIHO，建模手对象交互。它可以在多个基准测试中实现最先进的性能。2. 相关工作3D手部重建大多数现有的3D手部重建方法[4，58，2]采用参数化皮肤手部，例如。[47]第47章：一个人的秘密为了驱动MANO，关键是获得沿手部运动树的关节旋转。Boukhayma等人[4]首次提出对旋转的PCA分量进行回归。后来，直接从3D位置回归完整旋转[58，56]显示出更好的性能。然而，这些高自由度的回归容易出现姿势异常。因此，Spurret al. [49]在训练方案中利用手部关节的生物力学约束。与[49]不同的是，我们在所提出的扭曲-张开-弯曲坐标系中对轴和角度手部物体姿态估计。在建模手-对象交互的广泛主题中，最常提及的主题是HO姿态估计[24，23，12，16，51]。在这方面，早期的方法仅关注手[43，45，52]或对象[53]姿势，或者在已知对象形状的情况下估计手的抓握姿势[15，8，9，10]。联合估计手和物体的姿态首先由Romero等人提出。[46]通过在大型数据库中搜索最近的邻居。最近，在这一领域出现了基于学习的框架。Hasson等人[24，23]提出了两个学习框架来恢复手部对象网格，一个是通过在操纵下合成HO数据[24]，另一个是通过利用视频序列上的光度一致性[23]。Doosti等人[12]采用图神经网络[16]将2D HO关键点提升到3D空间。Tekin等人[51]采用3D YOLO [41]在一个阶段预测HO姿势。Korrawe等人[26]以符号距离函数的形式恢复HO模型[39]。联系启发式。在手-物交互中利用接触启发法可以追溯到几十年前[42，13，34]。早期的工作利用了一些特定形状的接触物理（例如，[42]或[44]，如前所述。关于捕捉或模仿的[3] HO互动也利用接触来满足现实。后来，抓取合成[57，17，29]和跟踪[38，32]的研究转向了物理模拟器，以实现循环模型在[27，25，1]中提出了多点接触公式，我们发现在应用物理约束时很有用，例如。[27，25]使用接触点来解决穿透问题。对于统一的吸引力和排斥力，大多数作品采用了启发式方法，如接近度度量[24，1，52]，符号距离函数[26，6]，预定义的接触模式[44，6]，或为了简单起见转向模拟器[28，29]最近，Antotsiouet al.[1]精致11099∈∈2||||||E=kl我J我IJJIJ我J 222我J我JrplrplJ−- 是的Σ锚原始扭曲弯曲张开图2. 所提议的A-MANO的图示。左：手部区域的细分和附着在其上的锚点。右：建议的扭曲-张开-弯曲框架。通过将手指吸引到物体表面上的最近点来进行抓握，这是基于距离的能量。Hasson等人[24]应用设计良好的交互损失，其也基于邻近度量。虽然我们的方法在接触启发式方面不同于所有以前的方法，但我们认为[1]和[24]仍然是强基线。因此，我们将比较我们的接触启发式与他们的。3. 解剖限制型A-MANO所提出的 A-MANO 继承自参数化皮肤手部模型MANO [47]，其驱动具有姿态参数θ和形状参数β的铰接手部网格。θR15×3是沿着手部运动树的15个关节旋转。而βR10 表示手形的PCA分量。A-MANO与MANO的主要区别在于：1）在扭-展-弯框架内对关节旋转轴和角度的限制扭曲-张开-弯曲框架。安装在15关节旋转-MANO的选择需要高DoF回归，这可能我们只将它们附着在几个手部亚区域中心，我们称之为锚（图2左）。根据手部不同部位接触频率的统计[24，7]，我们首先将整个手掌分为17个亚区：5个手指的每个指骨3个亚区，掌骨1个亚区，腕骨1个亚然后，我们为每个子区域插入4个锚点。我们忽略手背面的所有顶点子区域划分和锚点插值的详细信息见附录A.2、A.3。4. 接触势场弹簧-质量系统的接触。单个接触被建模为弹簧-质量系统，该系统由弹簧和每侧（手和物体）上的两个质量点组成当弹簧处于其静止位置时，它不储存能量，而当它被拉伸或压缩时，根据胡克1kl2，其中k是弹簧弹性，并且l是cer。tain 弹簧在CPF中，我们定义了两种弹簧：吸引弹簧和排斥弹簧。吸引弹簧的目标是将手顶点vh拉向物体顶点vo，给定HO顶点对亲和度。排斥弹簧的目的是，如果vh在vo附近，则沿着vo的法线将vh推离vo除了这些定义外，还应指出吸引弹簧与某一HO顶点对的亲和度有关，而排斥弹簧只在HO顶点对附近的某一点上起作用.- 迷人的春天我们定义吸引弹簧的静止长度为0，手的顶点和物体的顶点完全接触，距离度量为欧氏距离。给定包含顶点对：vh和vo，the|在r处搜索|等于vh−vo。的导致异常的手姿势，如图7所示。由于人手可以在运动学树中建模，当前吸引弹簧的势能由下式给出IJIJIJATR 1ATR2∗（一）轴，我们可以对围绕不需要的轴的旋转施加约束。因此，建议的扭曲-张开-弯曲- 厌恶的春天。我们希望，当v，h，穿透，或在v，o，附近时，排斥能高，但笛卡尔坐标系可以被分配给每个关节i，j沿着运动树。框架然后，我们可以在扭曲和张开轴上施加轴向约束，并对弯曲角度施加角度约束。附录A.1详细说明了扭转-张开-弯曲框架。随着vh远离物体而逐渐衰减，最后在一定距离处变得可以忽略不计。给定一个邻近的HO顶点对：vh和vo，我们定义了一个排斥弹簧来模拟这种行为。假设斥力弹簧的静止位置在沿物体方向+∞处正常的，正常的我们采用启发式距离度量|布里尔|为e−| 布里尔|−e−∞=e−| 布里尔| 得双曲余切值.|Rp l|=（vh−vo）·noIJ主播由于不同科目的手网是IJi j j j在手部区域的细分中几乎相同（例如，pha- langes），我们可以在Hand网格上插入几个代表点（以后我们称之为锚点），以大大减少HO顶点对的数量而不是附加弹簧从对象网格上的所有仿射顶点的手网格，是（vhvo）在物体法线上的投影。因此，当前排斥弹簧的势能为：Erpl=1krple−|Rp l|第二章ij2 ij第1https://en.wikipedia.org/wiki/Hookes_law大多数关节在弯曲处只有一个自由度11100IJIJIJIJJ我我IJJIJIJJIJ∈IJSIJ图3. 混合模型MIHO的架构。 MIHO由三个子模块组成：第一个HONet估计HO网格的粗略位姿，第二个PiCR学习恢复CPF，最后一个GeO基于CPF检索精确位姿。在文献[6，22]中，采用沿表面法线的排斥效应[22]（Eq. 10)还讨论了e−（·）是关于子采样顶点集的有效启发式算法。掌握接触势场内部。通过收集与GT成比例。 |阿夫拉尔河|. 为了训练网络，我们还通过0和1来限制k的大小。在这里，我们只提供了一个一瞥的注释启发式的katr：k=0. 五个墨西哥人。π∗|阿夫拉尔河|0+0。第五章（四）所有吸引力和排斥力的弹簧，形成一个自然的抓持等效于最小化弹性能量：根据经验，我们设置比例因子s = 20 mm，并使用gt拒绝那些HOa f有限性。 |阿夫拉尔河|≥20mm。至于E=Eatr（Eatr+Erpl）（3）弹性的排斥弹簧，我们经验地设置所有的krpl为埃拉斯特日报I jIJ1×10−3。详细分析了燃气轮机的结构。Katr和吸引力-如第3节所述，手顶点可以简化为子区域锚点，这将大大减轻学习和拟合CPF的难度因此，对于有吸引力的弹簧，我们在等式中替换了 Iij 。 1 到li′j=ai−vo，其中ai是最接近v h的锚。此外，我们希望排斥力仅应用于那些邻近顶点的HO亲和对因此，我们设置零当顶点距离<$vo−vh <$2时在附录B.1，B.2中提供了排斥平衡。5. 混合框架关于所提出的CPF（§4），我们的方法MIHO在三个阶段中对手 - 对象交互进行建模，即 HoNet（§5.1）、PiCR（§5.2）和GeO（§5.3）。如图 3，首先，给定RGB图像I，J I大于阈值TRPL=20mm。HoNet预测手网格的粗略姿态Vh={vh∈R3 |i ≤ Nh}和物体网格Vo ={Vo∈ R3 |j ≤ N0}，吸引弹簧的注释（k在r处）。而哪里JNh和No是手的顶点数，吸引能与某些HO亲和力绑定，而排斥能是环境的和亲和力不可知的。为了将CPF集成到学习框架中，我们只将katr视为神经网络的预测。为了实现这一点，网络应具有以下能力：1）将手锚和对象顶点到HO亲和对，例如，（ai，vo）;和2）回归那些亲和对的强度，例如， K河这些需要在r处标注attr主动弹簧k。事实上，事实上。HO姿势及其网格对象分别。然后，PiCR学习构造CPF并收集其中的弹性能量Eelast。最后，GeO在CPF中最小化Eelast以产生细化的HO网格Vh.5.1. 手-物体姿态估计网络HoNet首先通过基线模型MeshRegNet预测HO网格的粗略姿态，如[23]所示。基线的结果总共包括37个系数：模型，我们自动注释每个katr基于一个6D姿态Po∈se（3）（R6），手腕6D姿态PW∈se（3），（ai，vo）对距离的启发式算法。由于每个ai可以被包括在几个亲和对中，我们希望在gt.HO姿势下存储在每个弹簧中的吸引能是平衡的。很晚了我们就把它当作一种恩赐。k表示一个相反的Honet手GeOResNetθβ洛布日CPF迭代拟合...收敛PiCRπ（·）H. G. b（·）b（一）PointNetp（·hvc赫河河爱VCCRAEVCCRAE11101∈值，MANO姿态θpcaR15和形状的PCA分量βR10。有了这些系数，HoNet可以将HO网格化到摄影机空间。基准的详细情况可参见[23]。11102V VIJO2IJJLΣ<$L=−<$α（1−f）log（f）（5）VCj j j∈JIJV V∈JLΣV VI···.ΣΣ∗∈J和“锚定弹性”到对象曲面上。elast2IJJ 2我J 2RPLJJIJIJJJ1rpl氢氧算法1：回收CPF输入：不，h、VC、CR、AE输出：Eelast：弹性能量1 恢复锚：A ←线性插值（Vh）;对于每个j∈{j|j≤No，VC[j]>tvc}do3recover ersubre gionid：r←argmax（CR[j]）;4对于ai∈Ar（子区域r中的锚），5.超弹性系数：katr←AE[j];图4.指定“顶点接触”、“接触区域6”的图示E+←1katraH-v′;7fori∈ {i|i≤N，？v−v<$≤t}do5.2. 逐像素接触恢复模块8E+. exp（−（v−v）·n）。;通过HoNet中手和物体的粗网格elast2iji j jPiCR通过首先将手锚和对象顶点配对成HO亲和对，然后回归描述亲和度的弹簧弹性来学习恢复CPF。为了实现这一点，PiCR产生三个级联结果：1）顶点接触（VC）决定对象上的哪些顶点与手接触; 2）接触区域（CR）决定最有可能与这些顶点接触对于在r处的主动弹簧k的预测弹性，更具体地，AE[j]是在预测子区域中将Vo连接到其仿射锚点ai的吸引弹簧的弹性katr：argmax（CR[j]）。损失函数AE被定义为二进制交叉熵（BCE）：NoLAE=1VC1imgBCE（katr，katr）（7）J吸引人的春天有了VC、CR和AE，我们就可以四、顶点接触。 PiCR更具体地，VC[j]是暗示第j个对象顶点vo与手接触的概率。VC的损失函数被定义为二元焦点损失[33]：No1mgγJJ其中fj=pj，如果gt. vo属于一个ny HO affinity，oth-其中k是gt。在§ 4中描述的弹性。利用预测的VC、CR和AE以及HoNet中的粗网格o、h，PiCR 最终恢复CPF 并收集弹性能量Eelast，如Algm中所述。1.一、我们根据经验设置VC的概率阈值：0的情况。8，并且距离阈值：trpl=20mm。PiCR的框架。所提出的PiCR由从图像中提取特征的主干b、将图像特征转换为对象顶点特征的编码器p以及erwiseJfj=（1−pj），pj是预测概率3个磁头hvc、hcr和hae，依次将这些特征转换为VC、CR和AE。如示于图月3PiCR中的特征提取过程可以表示为：在图像里面αj是逆类频率，γ经验地设置为2。联系区域。PiCR的第二个结果CR R N o ×17代表对象顶点的子区域概率。更具体地，对于第j个查询，CR[j]包含17个概率，其指示vo损失函数CR被定义为多类焦点损失。NoLCR=− 1VC<$1img<$（1−mj）γlog（mj）（6）F′=<$fπ（Vo），b（I），z（Vo）<$;F=p（F′）（8）其中b（）是沙漏网络[37]，π（）是透视相机投影，f（）代表通过双线性采样将 o的2D投影π（o）与图像特征b（）对齐。灵感来自Eq。(1)在[48]中，我们还将对象的根相对z值z（V o）附加在f（ ·）的末尾，以形成 pixel方式的特征 F ′。Ne xt，采用PointNet[40]编码器p（·）将F′转换为其J其中mj=（pjtj），其中pj=CR[j]R17是通过softmax预测的每个子区域的概率，三个PiCR头的过程tj∈R17是gt. supregionafundamentalofvoasaone-hot韦埃克托河 1VC表示gt。vo的VC是ive。VC=hVC（F）;CR=hcr（VC，F）;AE=hae（CR，F）（9）其中所有头部都被呈现为多层感知器。锚弹性。PiCR我们在附录D.1中提供了实现细节。VCCRAE带AE的H2O我在VC中; 3）锚弹性（AE）代表弹性逐点特征F.11103LLV VV∈V V ←− LL+最大值。（−），05.3. 掌握能量优化器拟合部分：抓取能量优化器（GeO）旨在优化HO姿势，找回的CPF对于物体部分，我们调整其6D位姿Pose（3）。对于手部部分，我们共同调整A-MANO的15个{Rj∈ so（3）|j ≤ 15}和手腕姿态Pw∈ se（3）。为了在优化过程中减轻异常的手部姿势，我们还定义了一个解剖成本函数anat，该函数惩罚不需要的轴向分量，在所提出的扭转-张开中的15个折弯坐标系首先，对于沿着手部运动树的关节，我们惩罚旋转轴arot在扭曲方向上的分量：n扭曲，因为禁止导致手指沿着其指向方向扭曲第二，对于不属于5个关节的关节，我们还惩罚了在张开方向上的rot的分量：n张开。最后，如果旋转角θbend大于π/2，则我们惩罚围绕弯曲轴旋转的旋转角θbend。总解剖成本可以写为：HO3D。HO 3D是另一个数据集，它包含交互过程中精确的手-对象姿势。由于历史原因，HO3D有两个版本，即v1 [21]和v2 [22]。在我们的实验中，我们主要将我们的方法与HO3Dv1上的基线[23]进行比较，但也与HO3Dv2上最近发布的[23]预训练模型进行了几次比较。与FHB类似，我们过滤出距离阈值为5mm的样本。值得一提的是，由于我们的方法需要一个已知的对象模型，以及一个稳定的抓取配置，HO3Dv2测试集中的近5448个样本不适合我们的因此，我们在HO3dv2测试集中手动选择6076个样本，以将MIHO与[23]进行比较。我们称之为HO3Dv2−分裂。此外，在以前的方法中训练HO3Dv1 [21，23]需要一个额外的合成数据集，而这个数据集不是公开的。因此，我们手动增加HO3Dv 1训练集（称为HO3Dv1+）并重现与[23]中的结果相当的结果（称为[23]+）HO3Dv2−选择和增强程序的详细信息见附录C.1、C.2。Lanat=arot·ntwist+一个腐烂的裂口6.2. 度量J Jj∈allJJj∈/knuck（十）弯曲πJ2j∈all我们还惩罚了细化的手对象顶点的偏移，从其初始估计h，o以l2距离的形式：偏移。我们使用Adamsolver在PyTorch中实现了GeO。整个优化过程可以表示为：∗o，1 0 0 μ g / mlargmin（E弹性体+Anat+offset）（11）Po，P w，R j6. 实验和结果6.1. 数据集我们希望培训和评估MIHO w.r.t.真实世界的数据集，涉及人手与纹理对象的交互。在社区中，主要存在四个包含图像和地面实况3D HO注释的数据集，即ObMan [24] 、 FHB [18] 和 HO3D [21 ， 22] 以及ContactPose [7]。然而，只有FHB和HO3D满足我们在本研究中的要求。第一人称手部动作基准。FHB是一个第一人称RGBD视频数据集的手在操纵的对象。手部姿势的真实情况是通过磁传感器捕捉的。在我们的实验中，我们使用FHB的一个子集，其中包含4个具有扫描模型和姿势注释的对象。我们采用[23，51]给出的协议进行动作分割，并过滤出最小HO距离大于5mm的样本，这为我们提供了7223个用于训练的样本和7373个用于测试的样本。HO交互建模不仅需要手和物体的适当姿势，而且需要自然的抓握配置。在这里，我们总共报告了5个指标，涵盖了重建和抓取质量。请注意，由于单独考虑这些指标中的任何一个都可能产生误导性的一致性，因此我们将它们放在一起进行评估。MPVPE。通过计算手和物体在摄像机空间中的平均顶点位置误差来评估姿态估计的质量。穿透深度（PD）。为了测量手穿透物体表面的深度实体相交体积（SIV）。为了测量在估计过程中发生多少空间相交，我们将对象网格体素化为803体素，并计算手表面内的体素体积的总和。不相交距离（DD）。我们还鼓励稳定的HO接触，这可以被描述为将指尖吸引到物体表面上。因此，我们定义不相交度度量为5个指尖区域中的手顶点到其最近对象表面的平均距离。模拟位移（SD）。我们进一步评估了现代物理模拟器中的抓握稳定性[11]。我们通过稳定地握住手并向物体施加重力来测量物体中心在固定时间段内的平均位移6.3. 与最先进技术的对于FHB 数据集，我们将我们的方法与之前的SOTA [23，24]手部对象重建进行了比较。为11104数据集FHBHO3Dv1+HO3Dv2−方法Ours†我们的gt。[23日]奥博曼Ours†我们的gt。[23]+我们的[23日]手动MPVPE（mm）↓目标MPVPE（mm）↓Penetra。深度（mm）↓固体界面体积（cm3）↓不相交。距离（mm）↓21.1621.0616.1312.5624.5419.5421.5716.9211.7622.410019.5520.4137.2817.5121.0620.6321.1037.4018.4221.1719.7616.1627.9524.5618.1011.873.6311.7123.9919.1511.423.4611.83007.553.5714.5324.8018.1018.579.6218.62-16.477.4437.04-75.7720.029.2541.41位移（mm）↓58.7958.0263.4065.4859.4128.1627.6612.3725.6839.3341.03表1. FHB和HO3D数据集上的定量结果以及与先前最新技术水平[23，24“gt。“表示地面实况。“†”表示我们的单独手动优化设置，“”表示联合手动对象设置。“”表示复制的ObMan [ 24 ]。“”表示腕部相对对象顶点误差。“-” indicates the results that are notfhbhands/Video_files/Subject_2/pour_milk/1/color/color_0064.jpegfhbhands/Video_files/Subject_2/pour_juice_bottle/3/color/color_0112.jpegHO3D/train/MC2/rgb/0083.png图5. 在FHB和HO3D数据集上与地面实况和以前的技术进行定性比较。[23]，我们选择了全数据监督设置下的结果。由于[23]在训练过程中没有利用任何排斥和牵引力损失，因此直接比较交叉和不相交可能不够有说服力。虽然在另一项名为ObMan [24]的工作中考虑了接触损失，但它仅将属0对象网格表示为可变形的icosphere，这也不能与我们的（已知对象模型）直接比较。为了确保合理的比较，我们将排斥损失和牵引损失从ObMan迁移到[23]中的MeshRegNet，并重现与之相当的结果我们称之为适应：ObMan。对于HO3Dv1数据集，我们将我们的结果与复制的[23]+进行比较。我们在两个实验设置下报告了我们的结果：1）单独手动，其将对象固定在HoNet中的初始预测，并且仅优化GeO中的手部姿势;2）手部对象，其联合优化GeO中的手部和对象姿势。在Tab。1我们在所有5个指标中显示了我们与以前的SOTA的对于FHB数据集，如[7]中所分析的我们发现，较低的顶点误差并不一定基准较高的重建质量。如图所示，1（第4，5栏），地面实况或[23]揭示了大量的固体相交体积，穿透深度和不相交-edness。我们发现，MIHO在穿透深度、实体相交体积和不相交距离方面优于[23]，分别为3.71mm、9.34cm3和14.99mm，而手持MPVPE为2.03mm和目标MPVPE为0.51mm时，性能成本较小。同时，我们的模拟位移也证明了我们预测的抓持的稳定性这与我们的期望是一致的，即CPF可以自然地排斥交叉，吸引不相交的接触。对于HO3Dv1测试集，我们的方法在大多数指标上也优于以前的SOTA 在模拟位移方面，我们发现[23]+略微优于我们1.98 mm。根据我们在Bullet [11]模拟器中的检查，它们的稳定性主要归因于相互平衡的交叉点产生的目视比较如图 5 所示。至于 HO3Dv2 ，由于我们只在子集HO3Dv2−上测试MIHO，因此我们的结果不适合直接提交到其在线评估服务器。因此，我们仅基于给定的注释报告HO3Dv2−上的对象3D顶点错误我们首先将预测的物体顶点与预测的手腕关节对齐，然后计算手腕相对物体顶点的误差与地面实况中的误差。详细比较见表。1（第11、12栏）。11105LMIHO（我们的全）19.5421.5716.9211.7622.4155.77(a)香草接触24.0124.2918.3615.6416.3245.40(b)ObMan联系人22.1522.5415.1316.2011.97103.41图6. MIHO与简单接触启发式的比较。表2.不同接触电阻的烧蚀研究HE，OE代表3D手和对象顶点误差。PD、SIV和DD是§6.2图 7. 例子说明了我们提出的 A-MANO 与解剖约束（Lanat）的有效性。6.4. 消融研究在这个实验中，我们进一步评估所提出的CPF和A-MANO的有效性。在正文中，我们包括三个最具代表性的研究。消融研究主要在具有动作分割的FHB测试集上进行。关于1）krpl幅度的影响;2）具有PCA姿势的A-MANO; 3）不需要的扭曲校正的更多研究;请访问附录D. 2。与简单的基于距离的接触启发式比较。为了显示CPF优于基于距离的接触几何学，我们将MIHO的拟合阶段与两个简单但强的基线进行比较：（a）VanillaContact，其去除了Eq.11，并纯粹吸引指尖上的锚到其最近的对象顶点（类似于[1]），在给定的阈值，我们设置为20mm;（b）ObMan接触，取代Eq.11通过ObMan中精心设计的相互作用损失[24]。所有三个实验都从HoNet预测的相同HO姿势开始（§5.1）。我们在Tab中显示。通过利用CPF，MIHO可以在大多数指标上超越简单的基线。请注意，由于（a）和（b）都直接优化了不相交项，因此它们的结果显示出更好的抵抗力。2表明，我们的方法可以节省46%的平均每次迭代的时间相比，ObMan接触。我们还在图6中进行了两次定性比较。第一个表明，CPF可以学习的接触语义，以指导优化，更好地匹配视觉线索，而香草接触未能形成一个有效的把握。第二个例子表明，CPF可以保持微妙的相互作用，因为没有吸引力将被施加在那些非仿射的顶点对上（见戒指和小拇指在拧下果汁盖时）。排斥弹簧的有效性。为了衡量效果，表3.推斥弹簧的烧蚀研究由于CPF中排斥弹簧的性质，我们去掉了所有由它们引起的排斥能量Erpl正如我们所料，Tab中的结果3个见证了PD和SIV的积累。值得注意的是，即使没有排斥弹簧，我们仍然看到PD和SIV相对于FHB地面事实的显着改善。这归因于吸引弹簧的排斥行为：当手在物体表面内时，存储在吸引弹簧中的能量将用作将手推出的排斥力。解剖约束的有效性。我们进一步强调了采用解剖约束的有效性。我们进行了一个对比实验，其唯一的区别是没有anat。两个实验都从零（平）手开始，并基于相同的预测CPF最小化E弹性我们在图中显示7.解剖约束能够有效地防止优化过程中的异常。7. 结论在这项工作中，我们提出了一种新的接触表示命名为CPF和学习拟合混合框架MIHO，以帮助建模手和对象的交互。综合评估表明，我们的方法，同时能够恢复精确的手对象的姿态，也可以有效地1) 避免穿插，控制脱节; 2）防止手姿势异常。我们希望CPF可以作为一个有效的接触表示，为未来的手-物体交互的工作。稍后，我们还计划开发CPF的对象不可知表示，用于一般情况下的致谢本工作得到支持在国家重点研发计划项目编号：2017 YFA 0700800，国家自然科学基金资助项目61772332，上海启智研究所资助项目（018-RGZN-02046）。与没有设置titer（ms）HE ↓OE↓PD↓SIV ↓DD↓评分设置PD↓SIV↓DD↓（我们的满额）16.92 11.76 22.41不包括工程费用 17.79 13.76 20.27gt。 FHB19.5520.4137.2811106引用[1] Dafni Antotsiou，Guillermo Garcia-Hernando，and Tae-Kyun Kim.面向任务的灵巧操作模拟手部运动重定向。在ECCV研讨会，2018年。二、三、八[2] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim. 通过神经绘制推进基于rgb的密集3d手部姿态估计的包络在CVPR，2019年。2[3] Christoph W Borst和Arun P Indugula。现实的虚拟抓取。2005年，在虚拟现实中。2[4] Adnane Boukhayma ， Rodrigo de Bem ， and Philip HSTorr. 3d手的形状和姿势从图像在野外。在CVPR，2019年。一、二[5] Samarth Brahmbhatt， Cusuh Ham ，Charles C Kemp ，and James Hays. Contactdb：通过热成像分析和预测抓取接触。在CVPR，2019年。1[6] Samarth Brahmbhatt，Ankur Handa，James Hays，andDieter Fox.Contactgrasp：从接触中合成功能性多指抓取。在IROS，2019年。一、二、四[7] 放大图片作者： Samarth Brahmbhatt ， ChengchengTang，Christopher D.查尔斯·特威格作者声明：JamesHays. ContactPose：一个包含物体接触和手部姿势的抓握数据集。在ECCV，2020年。一、三、六、七[8] Minjie Cai，Kris M Kitani，and Yoichi Sato.通过抓握类型和物体属性理解手-物体操作在RSS，2016. 2[9] Minjie Cai，Kris M Kitani，and Yoichi Sato. 一个用于手抓取分析的自视觉系统. IEEE Transactions on Human-Machine Systems，2017。2[10] Chiho Choi ， Sang Ho Yoon ， Chin-Ning Chen ， andKarthik Ramani.在与未知对象交互期间的鲁棒手部姿态估计。在ICCV，2017年。2[11] 欧文·库曼斯和白云飞。Pybullet，一个用于机器人、游戏和机器学习中物理仿真的Python模块，2017年。六、七[12] Bardia Doosti ， Shujon Naha ， Majid Mirbagheri ， andDavid J Crandall.Hope-net ： A graph-based model forhand-object pose estimation.在CVPR，2020年。一、二[13] 乔治·艾库拉和卡兰·辛格Handrix：为人手设置动画。SIGGRAPH，2003年。2[14] Haoqiang Fan，Hao Su，and Leonidas J Guibas.一种从单幅图像重建三维物体的点集生成网络在CVPR，2017年。1[15] Thomas Feix，Ian M Bullock，and Aaron M Dollar.人类抓握行为分析：物体特征和抓握类型。 IEEEtransactions on haptics，2014。2[16] Hongyang Gao和Shuiwang Ji。图u网。ICLR，2019年。2[17] 吉列尔莫·加西亚·赫尔南多爱德华·约翰斯和金泰均基于物理的灵巧操作与估计的手姿势和残余强化学习。arXiv预印本arXiv：2008.03285，2020。一、二[18] Guillermo Garcia-Hernando ，Shanxin Yuan ， SeungryulBaek，and Tae-Kyun Kim.第一人称手部动作基准与rgb-d视频和3d手部姿势注释。在CVPR，2018年。第二、六条11107[19] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.从单个RGB图像估计3D手的形状和姿态。在CVPR，2019年。1[20] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 本文介绍了一种学习三维表面生成的方法. 在CVPR，2018年。 1[21] Shreyas Hampali，Markus Oberweger，Mahdi Rad，和Vin-cent Lepetit. Ho-3d：用于联合3D手部对象姿态估计的多用户、多对象数据集。arXiv预印本arXiv：1907.01481，2019。第二、六条[22] Shreyas Hampali，Mahd

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

学习接触势场模拟手-物交互：深度学习方法在交互建模中的应用与探索

最新资源