基于密集相互注意的交互式手-物体姿态估计

195 浏览量更新于2023-10-16 收藏 956KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5735基于密集相互注意的交互式手-物体姿态估计王荣伟毛洪东李澳大利亚国立大学{rong.wang，wei.mao，hongdong.li} @ anu.edu.au摘要3D手部物体姿态估计是许多计算机视觉应用成功的关键。该任务的主要重点是有效地建模手和对象之间的交互。为此，现有的工作要么依赖于计算昂贵的迭代优化中的交互约束，要么只考虑采样的手和对象关键点之间的稀疏映射。相反，我们提出了一种新的密集的相互注意机制，能够建模细粒度的手和对象之间的依赖关系具体来说，我们首先构造的手和对象图，根据其网格结构。对于每个手节点，我们通过学习的注意力从每个对象节点聚合特征，反之亦然由于这种密集的相互关注，我们的方法是能够产生物理上合理的姿态与高质量和实时推理速度。在大型基准数据集上的大量定量和定性实验表明，我们的方法优于最先进的方法。代码可以在 https://github.com/rongakowang/DenseMutualAttention.git上找到。1. 介绍在许多应用中，例如扩展真实性（XR）[38]和人机迭代（HCI）[24]，期望从单个单眼视图对手与对象交互的场景进行准确且有效的姿态估计。尽管已经做出了巨大努力来开发有效的3D手部姿态估计算法[17，25，40，50，47]，但由于严重的相互遮挡和手部对象操纵的不同方式，联合手部对象姿态估计仍然特别具有挑战性未能解决上述挑战的方法往往会产生物理上不合理的配置，例如互穿和脱离接触。为了避免产生不期望的姿势，因此需要深入了解手和交互对象之间的相关性三维手部物体姿态估计的研究工作可以分为基于优化的和基于学习的。输入相互注意摄像机视图旋转视图图1. 相互注意的效果。我们的方法恢复准确的手对象的姿态，通过密集的相互关注之间的所有手和对象的顶点。我们在第二列中可视化了接触顶点的学习平均相互注意力，其中红色区域具有较高的注意力值，蓝色区域具有较低的值。我们观察到建议的相互注意力可以有效地模拟接触区域周围的互动。此外，它还有助于选择辅助关键点（具有中等关注值的黄色区域），以促进手部对象姿势的细化。虽然以前的方法[48，13，10]一般化到不同的对象类，但优化过程需要多次迭代才能收敛，这不适用于XR等实时应用。相比之下，基于学习的方法[26，14，12，8，11]可以实现实时推理。受基于优化的方法的启发，引入了软接触损耗[14，12]，以隐含地引导网络追求合理的手-物体交互。为了更有效地建模，其他工作集中在网络设计中的手-物体相关性的实验性学习[8，6]。最近，提出了几个基于注意力的作品[41，11]，考虑到其在模拟复杂相关性方面的功效在[41]中，自注意机制用于捕获手或对象的特征依赖性，并且它们之间的交互通过全局特征的交换来最接近我们的5736工作是[11]，其中交叉注意用于模拟手和对象之间的相关性。然而，所有上述方法仅对来自手和对象的预定义的一组关键点或特征之间的稀疏交互进行建模，而不管手-对象交互实际上发生在表面的物理区域上的事实在这项工作中，我们建议通过密集的相互注意机制来模拟细粒度的手-物体交互。具体来说，我们首先估计粗糙的手和对象网格分别从一个单一的单目图像。接下来，我们构建的手和对象图的网格结构的基础上，然后空间采样节点的功能，根据粗略的网格位置。与仅通过全局特征传输图间依赖性的[41]不同，我们允许通过相互注意直接进行节点到节点的特征聚合以手图中的一个节点为例，计算所有对象节点的对象到手的注意力，然后将手节点特征与注意力加权的对象节点特征相融合，显式地建立细粒度的交互关联模型.执行类似的计算以细化给定手对对象注意力的对象节点特征最后，我们细化的手和对象的姿态，通过图卷积块配备了建议的相互注意层。我们表明，我们的方法不需要像[48，13]中那样进行迭代优化，并且密集顶点级相互注意可以比基于稀疏关键点的方法更有效地建模手-物体交互[11，8]。总之，我们的贡献如下。• 我们提出了一种新的密集相互注意机制，有效地建模手对象之间的互动，聚集和转移的手和对象图的节点功能。• 我们设计了一个新的手对象姿态估计管道，促进建议的相互注意。在大型基准数据集上进行的大量实验表明，与最先进的方法相比，该方法具有更好的结果2. 相关作品在本节中，我们回顾了手对象姿态估计的相关工作。由于我们的工作依赖于图卷积网络和注意力机制，我们也重新审视了它们在相关任务中的应用。2.1. 手-物体姿态估计大多数先前的作品解决了3D手部姿势估计[17，25，40，50，47]和对象姿势估计[27，31， 44、49、分开。最近，由于手与对象交互时的强相关性，联合手-对象姿态估计受到更多关注[14，26，28，12，8，13，11]。对于基于学习的方法，Hasson等人。 [14]提出牵引和排斥损失来惩罚物理上的不确定性。可能的重建。Shaowei等人。 [28]采用了一种半监督学习框架，具有手部和对象表示的上下文推理。Hasson等人。 [12]通过利用稀疏注释数据的光度和时间一致性扩展到视频输入为了解决3D地面实况的缺乏，Kailin等人。[26]引入了在线合成和探索模块，以在训练期间从预定义的一组合理抓握生成合成手对象姿势与上述工作相比，基于优化的方法[13，48，10]通过首先孤立地估计初始手和对象姿势，然后使用接触约束联合细化它们来制定任务然而，这些方法是耗时的，因为优化过程通常需要多次迭代来收敛，从而限制了它们在实时XR系统中的应用。因此，我们采用了基于学习的框架，并在下一节中继续介绍这一类别的相关工作2.2. 基于GCN的方法图卷积网络（GCN）已广泛应用于3D手部姿势估计[9，40，20，5]，因为手部网格和运动树自然形成图。一些工作已经将GCN扩展到手部物体姿态估计，并取得了可喜的成果。Bardia等人。 [8]构建了一个自适应Graph-UNet（HOPE-Net），将手部关节和对象边界框角与可学习的相邻矩阵相结合。Lin等人 [16]使用类似于HOPE-Net的GCN编码初始2D姿势，作为非自回归变换器中后续3D重建然而，上述方法仅从手-对象交互场景构建稀疏图，并且不估计手的形状，因此缺乏表现力。Tze等人[41]提出了一种协作方法来迭代地细化来自密集手和对象图的结果。然而，迭代细化是计算上昂贵的，并且对象表示中的无模型方法通常不能恢复准确的对象形状。2.3. 基于注意力的方法注意力机制[43]在人体[7，23]和手部姿势[30]估计方面表现出了显著的成功，因为它可以有效地对长距离相关性进行建模并对组件特征进行聚合。Hampali等人。 [11]提出在一组稀疏的采样手和对象关键点之间学习注意力。在[41]中，提出了一种注意力引导的GCN，以有效地聚合手或对象图中的顶点特征。通过在迭代过程中交换全局特征来探索手与物体之间的交互。相比之下，我们建议利用每个手和对象顶点之间的相互注意力，更好地学习交互依赖关系。5737FS∈M∈MeeJSLz第一千四百四十四章初期炼气期XNH He mHJIfooe杰赫绍绍梅赫粗糙的姿势o m啊！H啊！O细化姿势莫洛GCN层相互关注仅训练特征采样节点特征手对物体的注意力图2. 我们的方法概述。我们的模型包括两个阶段。在初始阶段（左），我们使用两个单独的分支来估计手和物体的粗糙网格（Mh和Mo），分别在网格估计器fh（·）和fo（·）中。每个评估员都要获取图像特征从编码器fh（·）和fo（·）作为输入。为了监督特征提取，我们包括两个额外的估计量（fh（·）和fo（·））。在训练过程中估计3D手部关节（Jh）和物体轮廓（So）。在细化阶段（右），我们首先根据网格结构构建手和对象图。根据从网格投影的像素位置，从输入图像I以及图像编码器的特征图中采样图中的最后，我们利用GCN层的堆栈，然后建议的相互注意层，以生成细化的手和对象的姿势。3. 方法在本节中，我们将介绍如图2所示的训练管道。我们的模型包括两个阶段。在初始阶段，我们首先分别估计粗糙的手（第3.1节）和对象姿态（第3.2节）给定输入RGB图像IRH×W×3。结合两个分支的粗略姿势，然后在细化处共同细化它们。将热图向量（1u，1v，1 z）分成3个独立的1D热图向量（1 u，1 v，1z），其中1u，1v，1zRL。在通过softmax操作进行缩放和归一化之后，热图向量的每个条目（称为lixel）表示顶点的像素位置或深度的概率。给定这样的像素，顶点位置可以用soft- argmax [4]操作计算为：阶段使用配备了所提出的相互注意层（第3.3节）的图卷积网络来显式地Wu=L·soft-argmax（lu），（1）模拟手与物体的交互。的最终输出Hv=·soft-argmax（1），（2）细化阶段是手的3D顶点坐标LvMANO [35]模型和6D对象中定义的网格SE（3）中的姿态，将对象CAD模型转换为2个Dz=·soft-argmax（l）+r-D，（3）相机框架。我们使用多任务训练目标对所提出的模型进行端到端的训练（第3.4节）。为了符号的一致性，我们使用上标h和o分别表示手和对象分支3.1. 手势估计在[29]之后，我们建议通过lixels表示手网格。具体来说，我们定义了一个3D版本的位置-其中W和H是图像的宽度和高度。L是量化级别。D是从训练数据估计的相对于腕关节的深度半径1，并且rz是腕关节深度2，其被假设为已知[26，40]以解决单视图输入中的尺度模糊性。给定相机固有K、像素坐标和深度，我们可以容易地恢复3D顶点如[29]所示，texx= [u，v，z]T∈R3作为其投影像素坐标[1]因此，我们在[rz − D，rz + D]中定义了深度范围。（u，v）和深度（z）。然后我们将像素坐标-2对象网格中的相对深度也指腕关节。FFFFz5738eMM ··∈MeJJ∈（一）M--·Mee ···（一）eSn⊕·∈X{FM与直接回归3D坐标相比，sentation更健壮和有效，并且由于它将三个分量叠加，因此比3D体素表示更节省存储器。除非另有说明，否则在其余部分中，我们的模型将在估计网格顶点和手部关节时产生3个向量（lu，lv，lz然后，这些矢量将使用等式1、2和3转换为顶点位置（u，v，z）回想一下，在初始阶段，我们使用两个单独的分支来估计粗糙的手和对象网格。特别地，给定输入图像I，手部姿态估计分支首先使用图像特征编码器fh（·）来提取图像特征：类似地，我们构造与fh（）对称的对象网格估计器fo（）。在估计对象网格时，我们遵循以前的工作[13]，假设对象CAD模型已经给出，并且为了便于批量训练，使用ACVD [42]将网格重新采样为1000个顶点。对象网格MoR1000×3可以计算为：M=f o（Fo）。（九）请注意，在初始阶段，我们采用[14]中使用的无模型方法来估计粗糙对象网格，而不是直接回归目标粗糙6D对象姿态。从经验上讲，我们发现这样的策略更鲁棒，并且更好地促进了下面介绍的特征采样H H{F（i）}=fe（I），（4）其中 fh （）被实现为在 ImageNet [37] 上预训练的ResNet-50 [15]编码器，Fh表示从编码器的第i特别地，我们将来自最后一层的图像特征图表示为Fh，以获得简洁的概念。为了指导特征提取，我们还将来自最后一层的估计图像特征馈送到手关节估计器fh（·）中：Jh=f h（Fh），（5）其中，R21×3为21个手关节的估计位置。注意，联合估计器仅用于训练中的特征提取监督在测试过程中，整个联合估计被删除。最后，给定最终图像特征Fh，我们从手部网格esti-fh（·）获得粗糙手部网格Mh∈R778×3Mh=f h（Fh）.（六）3.2. 目标姿态估计与手部姿态估计分支类似，我们首先通过图像编码器fo（）提取图像特征，该图像编码器具有与fh（）相同的架构，但不共享权重：下一节3.3. 手部-对象姿势优化给定手Mh和对象Mo的粗糙网格，然后通过利用它们的相关性来联合细化它们为此，我们将这些网格视为两个图，并建议使用图卷积网络（GCN）[22]来捕获图内依赖关系。为了进一步对图间交互进行建模，我们提出了一种新的相互注意层，该层允许两个图之间的细粒度特征聚集。图构造。如图2所示，手和对象由单独的图建模，其中顶点作为节点，它们在网格结构中定义的连接作为边。属于不同分支的顶点是不连接的，并且通过相互注意进行通信。受[40]的启发，我们在初始阶段从特征提取模块初始化每个图节点的特征。以手绘图为例，给定像素坐标对于粗糙网格Mh中的第n个节点vn=[un，vn]T，我们使用双线性内插运算fb（）从图像特征{Fh}空间采样局部特征。同时，我们融合了手部和物体分支的最终图像特征，以获得包含手部和物体网格结构全局信息的全局特征。初始节点特征hh被计算为一个级联奥恩{F（i）}=f e（I）。（7）局部和全局特征：我们还使用Fo来表示从hh=f（I（v（v）{\displaystyle\mathbb {v}}）f（Fh+Fo），最后一层f 0（·）。nb nb㈠ni∈Xg（十）由于没有为所有类别的对象定义一致的关键点，我们交替地使用对象轮廓来监督特征提取。具体地说，我们设计对象掩码估计器fo（·），将输入作为其中hhRK是一组层索引，我们从中对特征图进行采样，fg（）是全局特征融合单元，并且表示级联操作。对于对象图的第m个节点，我们计算O（一）{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}根据图像分割文献[36]，初始特征ho以类似的方式∈RK我们包括从图像编码器到掩模估计量因此，所有图像特征都被转发到hh=fb（I（vm））<$fb（{Fon（vm）}i∈X）<$fg（Fh+Fo），用于获得对象轮廓S_（xo）∈R_H×W的估计器为：（一）（十5739S（一）一）So=fo（{Fo}）中。（八）图卷积层。初始化节点特征后，我们按照[46]更新节点特征5740nN∈∈∈ ∈∈∈∈O∈LL∈vJnv我=AV我我我我√阿吉耶·阿吉尼||1+e i，ni1J我nvnnvnHH··我通过图形卷积层。对于手部节点，特征更新可以表示为：h′nh=MLPh（hh+hh），（12）i∈Nn其中n是第n个节点的相邻节点的索引，MLPh表示几个顺序的多层感知器。更新对象节点特征遵循等式12中的相同步骤，将上标h改变为o。直观地说，图卷积层利用来自网格模型的拓扑的相邻映射，因此可以有效地对图内依赖性进行建模。相互注意层。如图2所示，遵循一个或多个图卷积层，我们在相互注意层中对手-物体交互进行建模。对于来自一个图的每个节点，我们的相互注意层旨在通过注意机制聚合来自另一个图的特征。具体来说，对于手图中的每个节点特征，我们首先使用三个1D卷积层来提取查询、键和值，并将所有查询、键和值收集为QhR778×H、KhR778×F和VhR778×F其中每行是特定节点的查询、键或值。类似地，我们将对象图的查询、键和值设置为 QoR1000×F 、KoR1000×F和VoR1000×F。然后，我们计算来自手图的查询和来自对象图的键之间的对象到手的注意力，如下[43]QhK oT其中，hh是作为每个块的输出的细化节点特征，并且fh（）、fo（）是独立的融合单元。直觉上，相互注意编码了特征相似性-物体和手部特征之间的相似性。由于局部特征是从空间中的插值中检索的，域中，我们期望空间上接近的顶点应该由于插值中的平均效应而被编码为具有相似的特征。从这个意义上说，注意力机制可以有效地利用接触区域周围的交互先验此外，由于我们评估了每对手和对象顶点之间的相互注意力，因此该过程还允许细粒度的手-对象交互，如将在实验部分中所示，其比仅注意稀疏关键点之间的方法更好[11]。优雅的姿势手部GCN的最终输出是网格顶点偏移量MhR778×3，然后细化的手部网格为Mh=Mh+Mh。对象GCN输出6D姿态包括旋转和平移。特别是，受[49]的启发，对象GCN从每个对象中提取一个对象姿态节点，并且最终姿态（Ro，To）是所有姿势的平均值我们根据经验发现，这给出了比仅从整个图估计一个姿势更好的姿势。3.4. 培养目标为了有效地训练所提出的模型，我们采用了多任务训练目标。我们首先采用L1损失来监督粗略和精细的网格预测：Ao→h=softmax（F），（十三）Lm=||梅赫- -米||1个以上||梅赫- -米||1个以上||莫洛- -米||1、其中Ao→hR778×1000是物体到手的注意力图，（十八）其中，Mh和Mo表示第i行表示预期贡献所有对象节点与第i个手节点的比例。softmax操作沿第二维度执行。然后，我们可以将由对象到手注意力加权的对象节点特征聚合为：o→h o→h o手和物体分别。[40]我们还通过施加边损失e和法向损失n来惩罚飞行顶点和不规则曲面，从而细化网格质量，如下所示：Le=0|埃赫|−|eh| 1 +1+2|埃赫|−|eh|∥1我其中Vo→h∈R778×F是来自公司简介|埃鲁佐|−|eo|（19）对象图同样，我们可以计算手对物体的注意力：jj1JQoKhTFhh h其中Ah→o∈R1000×778。我们可以计算出手-到对象特征为：（20）第一次见面其中，eh和eh表示第i个网格边缘向量，我我其中VH→OR1000×F。最后，我们将聚合特征与每个节点中的原始特征融合为：粗手工网格和精细手工网格。是粗糙对象网格的第j个网格边缘。 |·|表示边的长度。eh和nh是地我我hh=f h（h′hho→h），h∈o=f o（h′o∈hh→o）. （十七）真边向量和相应边的法线H，（14）Ah→o=softmax（Ln=），（十五）J√5741∈·L为了监督细化的对象姿态，我们对估计的旋转四元数和平移采用L2损失，如下所示：Lo=Ro−Ro2+To−To2，其中R。和T。表示地面实况对象姿态。为了监督手部关节估计，我们采用地面实况关节Jh与来自联合估计器Jh的预测关节以及来自预测手部网格的回归关节之间的联合损失Lj，即，我们使用MANO [35]中定义的联合回归矩阵GR21×778模型以获得接头位置，然后计算接头损耗为：Lj=GMh−Jh1+GMh−Jh||1个以上||Jh−Jh1，此外，我们还使用交叉熵损失来指导对象sil-houette的预测：高×宽4.1. 训练数据数据集。我们在两个大规模的手对象基准上评估我们的方法：HO3D v2 [10]和DexYCB [3]，每个包含66K和589K人类交互YCB [2]对象的图像。我们根据官方的训练-测试分割在每个数据集上分别训练模型，特别是，我们对DexYCB测试集使用默认的S 0分割。为了在DexYCB数据集中进行公平的比较，我们按照[41]选择输入帧，其中手和物体都是可见的，中间距离小于1cm，以确保可以建立物理接触。我们使用[26]提供的手对象边界框裁剪两个数据集中的输入图像，并将所有图像调整为256×256像素。数据增强。考虑到HO3D数据集规模相对较小，为了便于训练，我们执行两种类型的增强，即视图合成以解决Ls=− Σi=1（23）第一次见面遮挡模糊性和抓握合成以增加手-物体交互的多样性。对于视图合成，我们其中si是预测对象轮廓中的第i个像素S和yi是同一像素处的地面真值最后，受[40]的启发，我们施加手指渲染损失f来监督图像空间中手指的对齐。我们采用可微分渲染器fr（）[19]来使用给定的相机固有K渲染细化的手部网格以及地面真实手部网格。然后，我们对每个顶点的手指的类型进行分类，基于MANO中定义的最大混合权重，并为每个手指提供不同的颜色纹理损失可以正式地写为两个渲染图像之间的L1损失Lf=||fr（Mh）−fr（Mh）||1 .一、（二十四）总训练损失是所有单个损失函数的加权和，定义为：L=λmLm+λeLe+λnLn+λoLo+λjLj+λsLs+λfLf，其中，我们根据经验设置λm=λe=λn=λj= 1，λo=10，λs=λf= 100，以便所有损失项大致处于相同的标度。4. 实验结果在本节中，我们首先介绍用于训练的数据集（第4.1节），并定义每个数据集的评估指标（第4.2节）。然后，我们提供了实验的实施细节（第4.3节），并将结果与最先进的方法进行了定量和定性比较（第4.4节）。最后，我们进行了一项消融研究，以调查相互注意层的影响，并从估计的注意图中展示了学习的相互作用（第4.5节）。相对于对象中心随机旋转相机我们此外，使用GrabNet [39]生成5K不同的手动操作YCB对象场景，以执行抓取合成。我们手动验证在测试集中没有看到合成的姿势，并且通过经验过滤掉接触损失和穿透损失[14]大于阈值λ c = 0的样本，在物理上是合理的。012且λ p= 0。1分别。我们使用Pytorch3D [34]来渲染来自增强姿势的合成图像。我们采用HTML [32]模型来实现逼真的手部皮肤颜色和纹理，并在室内场景数据集[33]中随机采样的背景上渲染手部对象图像。为了减少域间隙，我们进一步对渲染图像执行光度增强，包括从[0.5，1.5]均匀采样的此外，我们在合成图像上添加随机高斯模糊，其中σ从[0.1，1]均匀采样。三种类型的输入，即真实、视图合成和抓取合成图像，分布在0.45中：在HO3D训练集的训练批次中为0.45：0.1。与[26]相比，我们主要通过简单的视图转换引入数据增强，然而，我们的模型在增强抓取数据较少的情况下实现了更好的性能，如第4.4节所示。4.2. 评估指标为了一致地将结果与最先进的方法进行比较，我们采用了相关作品主要报道的每个基准数据集我们建议读者在补充材料中了解一些作品中报道的其他指标[26，11]。HO3D 对于手部姿势评估，我们遵循（二十二）（二十五）5742表1. HO3D v2测试集的定量比较。最佳结果以粗体突出显示，不可用的结果用“-"标记。[26，11]的其他对象度量进行了比较，并包含在补充材料中。方法MJE（cm）↓AUC-MJE ↑手MME（cm）↓AUC-MME↑对象MME（cm）↓ADD-S（cm）↓相互作用PD（mm）↓CP（%）↑Hasson等人[12个]3.690.4691.140.7738.72.9--Hasson等人[13个国家]2.680.5101.200.7618.03.81.577.5Keypoint Trans. [第十一届]2.570.532------[26]第二十六话2.530.5321.090.782----我们2.380.5601.060.7895.72.31.385.6HO3D DexYCB输入摄影机视图旋转视图输入摄影机视图旋转视图图3. HO3D和DexYCB测试集的定性结果。预测的手和对象姿势与相机视图中的输入图像很好地对准。旋转视图图像显示抓取配置在物理上是合理的，并且可以建立有效接触HO3D v2 CodaLab Challenge中的官方评估指标。具体而言，我们报告了平均联合误差（MJE）[51]和平均网格误差（MME）[52]，作为根联合和全局尺度对齐后预测和地面真实联合/网格之间的平均欧几里得距离。此外，我们报告了在从0cm到5cm的间隔内具有100个等间隔阈值的正确关键点（PCK）曲线的百分比的AUC对于对象姿态评估，我们按照[40]报告对象网格的MME最后，我们报告了平均穿透深度（PD）[1]和接触百分比（CP）[18]在手和物体网格之间，以评估手-物体交互。DexYCB 我们采用最近的作品[26，41]中使用的评估指标用于DexYCB数据集。特别是，对于手的姿势，我们还报告了平均关节误差（MJE）。对于对象姿态，我们报告平均角点误差（MCE）作为预测和地面真实对象网格之间的边界框角点位置的距离最后，我们报告的平均穿透深度来评估手物体的碰撞。4.3. 实现细节我们使用Adam [21]优化器训练网络，β1= 0。9和β2= 0。999个NVIDIA RTX 3090GPU。我们将批量大小设置为24，并在25个epoch中训练模型。初始学习率设为1e−4，每10个epoch后衰减0.1。我们的模型在NVIDIA RTX 3090 GPU上实现了34FPS的推理速度，可以为未来的实时应用提供服务。我们建议读者在补充材料中详细介绍每个模块的网络架构。4.4. 结果与最新技术水平的比较在表1中，我们在HO3D v2测试集上评估了我们的模型，并将结果与最先进的方法进行了比较[12，13，26，11]。手动指标下的所有结果均来自官方HO3D v2 CodaLab挑战结果。从表中，我们观察到我们的方法在所有手，对象和交互指标上都取得了优异的结果特别是，我们的方法不仅产生更准确的手和物体姿势，而且还产生更高质量的物理逼真的手物体抓取，因为我们观察到比[13]更低的透明度和更高的接触率。同时，我们的方法利用来自单个图像输入的高效前馈流水线，并且不需要计算昂贵的光流作为时间线索[12]或迭代优化过程[13]。此外，我们的方法不依赖于[12，13]中的复杂接触损失，这表明我们的方法在建模手-物体交互方面的优越性。与[26]相比，我们的模型是用5743显著较少的扩充数据，但在不引入太多复杂性的情况下实现了改进的结果。最后，由于密集的相互关注，我们的方法比基于稀疏关键点的方法[11]提高了性能为了进一步证明模型的有效性，我们还在最近发布的DexYCB数据集上评估了我们的模型，并将结果与表2中的[14，13，41]进行了比较请注意，虽然[13]与我们具有相同的设置，[14，41]不假设已知的对象CAD模型，因此处理更具挑战性的任务，并且在估计准确的对象网格时表现更差。因此，我们只与他们在手度量比较。结果表明，我们的方法始终优于基线方法在所有可比指标。表2. DexYCB测试集的定量比较。最佳结果以粗体突出显示，不可比较的结果用“-"标记方法手MJE（cm）↓对象MCE（cm）↓相互作用PD（mm）↓哈森[14]1.76--哈森[13]1.885.250.79Tze等人[41个]1.53--我们1.273.260.67定性结果。我们在图3中显示了HO3D和DexYCB测试集我们在相机视图下渲染估计的手和对象网格以及三个随机旋转的视图。可以看出，我们的方法产生与给定图像输入很好地对准的准确的手对象姿态，并且估计的姿态满足物理约束，即，可以观察到有效的抓握。更多的结果可以在补充材料中找到。4.5. 消融研究为了进一步证明所提出的相互注意机制的有效性，我们进一步进行了消融研究。我们首先在图1（第二列）中可视化注意力地图对于物体到手的注意力，我们选择与物体的最小距离小于1cm的手顶点，并可视化所有物体顶点之间手对物体的注意力以类似的方式可视化，用于接触物体顶点。该图示出了接触区域（红色）比非接触区域（蓝色）包含更高的注意力值，这说明了相互注意力机制可以有效地对手-对象交互相关性进行建模，以通过利用接触先验来促进姿势细化。我们进一步构建了具有手-物体交互先验的替代利用的变体基线，并在表3中比较通过GCN细化（w/oattention），该网络可以有效地从粗阶段（w/o GCN）大幅度提高手部和物体姿态估计表3. 相互注意层的效果。最佳结果以粗体突出显示。方法手MJE（cm）↓MME（cm）↓对象MME（cm）↓相互作用PD（mm）↓不带GCN2.841.2913.43.6注意/注意2.661.207.72.9所有边缘2.791.348.94.3无手对物2.461.106.21.4无对象到手2.501.125.81.3相互注意2.381.095.71.3由于来自图内依赖性的信息，手-对象特征聚合的一种简单基线方法是使手和对象图完全连接（所有边），类似于[8]。然而，尽管该方法在稀疏图中工作良好，例如仅包括手部关节和对象边界框角作为图节点，但是难以将该方法扩展到密集网格图。我们假设全连接图显著增加了模型的复杂性，从而使网络难以训练和收敛。此外，在没有自适应加权的情况下平等地聚合噪声特征也会误导网络的预测。最后，我们研究的变体，只有一个方向的注意力被使用。当我们只允许手部特征聚集到对象节点（w/o对象到手部）时，我们观察到手部度量的性能增加，然而，与逆变体（w/o手到对象）相比，对象姿势估计受损当包含完全的相互注意（相互注意）时，我们观察到最好的执行结果。因此，我们得出结论，相互注意的好处手和对象的姿态估计。5. 讨论限制. 我们的工作依赖于用于手和对象网格估计的lixel表示，因为该表示量化了图像空间，所以与相机视场之外的顶点没有有效的因此，我们的方法不能正确地处理场景中的手或物体只是部分包括在图像中。此外，我们只考虑了对象的一个子集的类，其中定义良好的CAD模型可以提供，未来的工作应该考虑手之间的相互作用，更多样化的一组相互作用的对象。结论本文提出了一种新的密集交互注意机制来有效地建模细粒度的手-物交互。为了利用类内和类间的依赖性，我们在图卷积网络中集成了相互注意力，以改进最初估计的手对象姿势。在广泛使用的基准数据集上进行评估时，我们的方法超过了最先进的方法，证明了所提出的技术的有效性。5744引用[1] Samarth Brahmbhatt，Chengcheng Tang，Christopher DTwigg，Charles C Kemp，and James Hays. 联系方式：具有物体接触和手姿势的抓握数据集。欧洲计算机视觉会议，第361-378页。Springer，2020年。[2] Berk Calli、Arjun Singh、Aaron Walsman、SiddharthaSrini-vasa、Pieter Abbeel和Aaron M Dollar。ycb对象和模型集：操作研究的共同基准。2015年国际先进机器人会议（ICAR），第510-517页IEEE，2015年。[3] Yu-WeiChao ， WeiYang ， YuXiang ， PavloMolchanov，Ankur Handa，Jonathan Tremblay，YashrajS Narang ， Karl Van Wyk ， Umar Iqbal ， StanBirchfield，et al. Dexycb：用于捕获手抓取对象的基准。在IEEE/CVF计算机视觉和模式识别会议上，第9044-9053页，2021年[4] Olivier Chapelle和Mingrui Wu。平滑信息检索度量的梯度下降优化。Informationretrieval，13（3）：216[5] Liangjian Chen ， Shih-Yao Lin ， Yusin Xie ， Yen-YuLin，and Xiaohui Xie.视频中3d手部姿态和网格估计的时间感知自监督学习在IEEE/CVF计算机视觉应用冬季会议（WACV）的论文集中，第1050-1059页，2021年1月[6] Chiho Choi ， Sang Ho Yoon ， Chin-Ning Chen ， andKarthik Ramani.在与未知对象交互期间的鲁棒手部姿态估计。在IEEE国际计算机视觉会议集，第3123[7] Xiao Chu，Wei Yang，Wanli Ouyang，Cheng Ma，AlanL Yuille，and Xiaogang Wang.用于人类姿态估计的多上下文注意。在IEEE计算机视觉和模式识别会议论文集，第1831- 1840页[8] Bardia Doosti ， Shujon Naha ， Majid Mirbagheri ， andDavid J Crandall.Hope-net ： A graph-based model forhand-object pose estimation.在IEEE/CVF计算机视觉和模式识别会议论文集，第6608- 6617页[9] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第10833-10842页[10] Shreyas Hampali，Mahdi Rad，Markus Oberweger，andVin- cent Lepetit.Honnotate：用于手部和对象姿势的3D注释的方法在IEEE/CVF计算机视觉和模式识别会议论文集，第3196-3206页[11] Shreyas Hampali，Sayan Deb Sarkar，Mahdi Rad，andVin- cent Lepetit.关键点Transformer：解决具有挑战性的手和物体交互中的关节识别，以实现精确的3d姿态估计。在 Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition，pages 11090[12] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。在IEEE/CVF计算机视觉和模式识别，第571[13] 安娜·哈森，古尔·瓦罗尔，科迪莉亚·施密德，和伊凡·拉普捷夫。基于rgb视频的无约束关节手-物2021年3D视觉国际会议（3DV），第659-668页。IEEE，2021。[14] Yana Hasson、Gul Varol、Dimitrios Tzionas、Igor Kale-vatykh 、 Michael J Black 、 Ivan Laptev 和 CordeliaSchmid。学习手和操作对象的关节重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第11807-11816页，2019年。[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[16] 林煌、谭建超、孟晶晶、季柳、袁俊松。Hot-net：用于3D手部对象姿态估计的非自回归Transformer第28届ACM国际多媒体会议论文集，第3136-3145页，2020年。[17] Umar Iqbal，Pavlo Molchanov，Thomas Breuel JuergenGall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在欧洲计算机视觉会议（ECCV）的会议记录中，第118-134页[18] Korrawe Karunratanakul， Jinlong Yang ， Yan Zhang，Michael J Black，Krikamol Muandet，and Siyu Tang.把握领域：学习人类抓握的隐式表示。在2020年3D视觉国际会议（3DV）上，第333-344页。IEEE，2020年。[19] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集，第3907- 3916页[20] 莱拉·卡利吉，阿里雷扎·塞帕斯·莫格西，约书亚·马尔-沙尔，阿里·埃特马德.基于多视点视频的三维手势估计。arXiv预印本arXiv：2109.11747，2021。[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[22] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[23] Muhammed Kocabas ， Chu

下载后可阅读完整内容，剩余1页未读，立即下载