H2O：自我为中心的手对象交互识别

134 浏览量更新于2023-10-13 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10138H2O：双手操纵物体进行第一人称交互识别Taein Kw on1，BugraT ekin2，Jan Stühmer*3，Federica Bogo2，and Marc Pollefys1，21 ETH Zuürich，2Microsoft，3Samsung AI Center，Cambridge摘要我们提出了一个全面的框架，以自我为中心的互动识别使用无标记的3D注释的两只手操纵对象。为此，我们提出了一种方法来创建一个统一的数据集，以自我为中心的三维互动识别。我们的方法产生注释的3D姿态的双手和6D姿态的操纵对象，以及他们的互动标签为每帧。我们的数据集称为H2O（双手和对象），提供同步的多视图RGB-D图像，交互标签，对象类，左右手的地面实况3D姿势，6D对象姿势，地面实况相机姿势，对象网格和场景点云。据我们所知，这是第一个基准，使第一人称动作的研究与使用的姿势，左右手操纵对象，并提出了一个前所未有的细节水平，以自我为中心的3D交互识别。我们进一步提出的方法来预测交互类估计的3D姿态的双手和6D姿态的操纵对象，联合从RGB图像。我们的方法通过学习预测相互作用的图卷积网络的拓扑结构来建模手和对象之间的相互依赖性和内部依赖性。我们表明，我们的方法促进了这个数据集建立了一个强大的基线联合手物体姿态估计，并实现了国家的最先进的第一人称交互识别的准确性。1. 介绍近年来，在视频理解和动作识别方面取得了巨大的进展。当前的算法可以可靠地从第三人称视角识别主体在许多不受约束的设置中执行的动作[9，22，23，24，71，89]。尽管来自第一人称视角的动作识别在增强现实、机器人和监控中具有许多应用，但其落后于第三人称视角的进展，这主要是由于缺乏大型且多样化的以自我为中心的数据集。从以自我为中心的观点来看，动作识别主要是关于理解手对象交互。统一认识*在Microsoft工作期间所做的工作。项目页面：https：//www.taeinkwon.com/projects/h2o图1：用于第一人称交互识别的两只手操纵对象。我们提出了一个数据集，提供丰富的注释的3D姿态的&左右手，6D对象姿态，相机姿态，对象网格和场景点云，以及他们的关联的相互作用标签。我们利用我们的数据集，提出新的方法进行3D交互识别。手和被操纵对象的位置和运动对于识别自我中心交互是至关重要的。然而，现有的第一人称交互数据集大多只提供2D特征（例如，边界框、手分割），而不需要在3D中推理手和被操纵对象的运动。在这项工作中，我们提出，第一次，一个统一的数据集，用于第一人称交互识别与无标记的3D注释的两只手操纵对象，如图所示。1.一、我们收集了一个丰富的注释数据集，包括同步的RGB-D图像，相机姿势，右手姿势，物体姿势，物体网格，场景点云和动作标签，这为理解3D手-物体交互提供了前所未有的细节水平在我们的数据集的帮助下，我们提出了第一种方法来联合估计的3D姿态的两个手和物体从彩色图像。我们还提出了学习内和跨手和对象的姿态使用自适应图卷积网络的3D交互识别的相互依赖性。由于相互遮挡，联合捕获动作中的手和3D中的操纵对象是一个具有挑战性的问题。从第一人称的角度来看，这个问题更具挑战性，这是由于自我中心视觉带来的独特挑战，例如快速相机运动、大遮挡、背景杂乱[49]，最重要的是缺乏数据集。最近的工作已经提出了成功地完全解决了其中一些挑战的数据集Sridhar等人[73]已经提出了手-物体交互的最早的数据集之一，其中单手操纵长方体物体。[26，32，34]的开创性工作进一步提出了包括用于对象管理的3D注释的数据集10139单手的单手操作场景。然而，这些工作大多受到不同因素的限制。它们主要集中在单手操作场景[26，32，34]。虽然单手操纵对于一些场景是相关的，但是大多数时候，手-对象交互涉及两只手操纵对象。仅使用2D注释，[79，80]呈现了手-手和手-物体交互的数据集。然而，手-对象交互的复杂性质需要3D推理而不是2D以更好地解决相互遮挡。在手-物体交互的背景下，早期的工作主要是处理3D手和物体姿势的联合估计的问题，而不推理的行动。虽然手和物体的精确3D位置数据对于机器人和图形学中的许多应用是至关重要的，但是姿势的唯一知识缺乏关于主体动作的语义意义为此，[26]发布了一个以自我为中心的动作数据集，包括手和物体的3D注释;然而，数据是用侵入式动作捕捉系统捕捉的。虽然运动捕捉数据集[26，75]可以提供大量具有准确3D注释的训练样本，但它们只能在受控设置中捕捉，并且在图像上具有可见标记，这些标记会使彩色图像中的姿势预测发生偏差。合成数据集[34]可以为它们提供一种替代方案，然而，现有的数据集还不能达到推广到真实图像所需的现实主义，并且仅适用于缺乏对识别交互至关重要的时间背景的单图像场景我们的方法旨在解决先前工作所表现出的这些限制。为此，我们提出了一种用于创建用于以自我为中心的3D交互识别的统一数据集的方法，该统一数据集包括两只手的3D姿势和被操纵对象的6D姿势的无标记注释，以及它们的相关联的动作标签，用于包括571，645个同步RGB-D帧的大量记录的每个帧此外，我们提出了第一种方法来联合预测的3D姿态的两只手和6D姿态的操纵对象仅使用RGB图像，并提出了一种新的3D交互识别方法，学习手和对象之间的相互依赖关系的拓扑感知图卷积网络。我们的贡献可列举如下：• 我们提出了第一个统一的数据集，以自我为中心的互动识别与无标记的3D注释的两只手和6D姿态的操纵对象。我们的数据集，我们称之为H2O，代表2只手和物体，为3D手物体姿势形状，动作标签，相机姿势，场景点云和物体网格提供了丰富的地面实况注释，使我们能够产生全面的以自我为中心的场景解释。• 我们提出了一种半自动流水线来管理具有动作标签和两个交互手的姿势以及接触中的对象的手-对象交互数据集使用具有不同背景的实用多摄像机系统我们通过详细的验证证明了我们的注释的保真度和准确性• 我们引入了一个统一的方法来识别手-对象的交互RGB图像，同时- ously预测，第一次，3D姿态的两个交互的手和6D姿态的操纵对象，以及动作和对象类。• 利用我们的数据集，我们提出了一种新的3D交互识别方法，该方法利用拓扑感知图卷积网络学习双手和物体之间的为此，我们参数化的手和对象构成为单独的图形，并将它们结合在一个单一的多图架构。然后，我们学习不同的图形实体之间的相互依赖性和connec- tions与自适应架构和计算的拓扑结构的多图结构识别3D手对象的相互作用。我们证明，使用姿势预测facili-通过我们的数据集，我们实现了更好的整体性能，用于识别优于现有技术的交互[9，17，23]。我们还提供了手部对象姿势估计和交互识别的基线，以实现对该数据集的进一步基准测试。我们将在接受后公开我们的数据集和注释2. 相关工作用于自我中心动作识别和手部物体姿态估计的数据集。虽然多年来已经提出了许多用于第三人称动作识别的数据集[30，40，69，96]，但最近兴趣激增。对于数据目标也是以自我为中心的场景[12，13，29，47，60，68]，主要涉及2D特征。这些数据集仅提供有限的多视图数据，并且不提供手和对象姿势，这些姿势已被证明是用于全面理解场景的有用线索[26，77]。一些数据集收集以自动或半自动方式获取的手部姿势地面实况（ Panoptic [37 ， 38] ， FreiHand [99] ，Interhand [55]）。然而，它们不考虑与对象的交互最近，GRAB [75]使用来自[6]的mocap系统和对象来跟踪身体和手部姿势，同时与场景交互而不提供相应的图像。HOnnotate [32]依赖于优化过程来估计准确的手和物体姿势数据集帧行动6D对象3D左侧3D右侧（**）无标记房自我深度多视图H2o571k✓✓✓✓✓✓✓✓✓FPHA [26][32]第三十二话奥伯曼[34]免费WiFi [99]全景[38]接触姿势[7]100k78k150k37k1.5M2.9M✓·····*（23k）✓✓·（*·）✓···✓·✓✓✓✓✓✓✓✓·✓✓✓·✓✓✓·✓✓✓·····✓✓✓✓·✓✓·✓·✓✓表1：现有相关的基于图像的数据集与用于手部交互的3D注释的比较。H2O提供从5个不同视图捕获的总共571k帧（*）：仅为帧的子集提供的对象姿态。（**）在手部对象上没有标记的方法。（*）打印的无纹理对象。10140(a)（b）（c）（d）（e）图2：（a）我们使用IR球体标记和PnP [ 44 ]校准相机，（b）在RGB-D捕获上使用BADSLAM [ 65 ]创建对象网格，以及（c）在RGB-D图像和来自Mask R-CNN的掩模图像上使用DenseFusion [ 83 ]估计对象姿势[35]。然后，我们在五个相机中选择具有最高置信度的姿势。(d)因此，我们使用OpenPose [8]检测手部关节，并使用Eq. 1.一、(e)我们最终检测和平滑时间不准确的姿势。多视图RGB-D数据。ObMan [34]收集手握物体的纯合成图像。然而，所有这些工作，只考虑单手的情况下，不集中行动识别上。与我们类似，FPHA [26]收集具有动作、手部和对象姿势注释的以自我为中心的RGB-D帧然而，该数据集依赖于磁传感器，这污染了RGB图像，并且不包括多视图数据也不包括双手姿势。如表1所示，我们的数据集是第一个包括真实的多视图RGB-D数据和用于以自我为中心的3D交互识别的双手的3D姿势、对象姿势和动作标签的手部对象姿态估计。虽然大量的研究集中在预测手的姿势[27，54，56，58，70，93，94，98]或物体[5，48，60，61，62]。59，78，83，90]孤立地，手-物体交互的联合理解受到的关注少得多。将手和物体放在一起考虑增加了许多挑战，这需要推理，例如：关于闭塞和相互渗透。Pioneer在[1，79，80]中研究了依赖于优化框架的手-手和手-对象交互，这些优化框架可能很慢并且难以调整。Tekin等人[77]和Hasson et al.[33，34]&直接从RGB图像有效地估计手对象姿势。然而，他们只考虑单手的情况。认识互动。动作识别在计算机视觉界受到了广泛关注[4，14，36，42，57，84，88]。随着深度学习的出现和大型数据集的可用性，第三人称动作识别取得了重大进展[9，22，23，24，51，89，85，95]。最近，对于明确地推理关于人-对象交互的兴趣也有所增加[16，18，28，31，39，50，63，81，86，88，90]。91，97]和骨骼动作识别[10，45，52，66，92]，但主要是从第三人称的观点。然而，从第一人称视角识别交互会带来许多特定的挑战，如大遮挡，快速相机运动和背景混乱[49]。虽然最初缺乏大量数据在一定程度上阻碍了有效的基于DNN的方法的发展近年来，人们对这一问题重新产生了兴趣。一些方法利用多模式输入，如头部运动[41，46，64，72]和眼睛注视[20，46]。使用CNN提取特征并利用与运动，手位置，对象位置或对象类别相关的其他2D线索也很常见[3，46，53]或联合[19，21，25，67，74]。虽然所有这些方法都集中在2D特征上，但最近的工作[26，77]表明，3D线索（如手和物体姿势）在以自我为中心的动作识别的背景下可能是有效的然而，现有的方法集中在单手跟踪和没有注意到已经支付到目前为止，以估计与对象交互的两只手的姿势-一个3. 标注方法图2显示了我们的注释管道的概述我们使用五个Azure Kinect摄像头从多个视图中捕获同步的RGB-D帧[76]。其中一个摄像机安装在由不同主体佩戴的头盔上，以捕捉自我中心的帧。我们以半自动的方式获得地面真实的手和物体姿势。首先，我们用Kinect扫描每个物体以获得完整的3D模型。该模型用于通过DenseFusion [83]跟踪每帧中的对象6D姿态。为了跟踪手，我们将MANO参数手模型[62]拟合到每个帧中的多视图深度数据。这种自动跟踪过程可能在一些帧上失败，这是由于像（自）遮挡、模糊和杂乱背景的挑战。因此，我们手动检测故障情况并移除相应的姿势;然后可以通过时间平滑来替换这样的姿态。最后，我们手动注释动作标签的序列。在下面的部分中，我们将详细描述管道的每个步骤。3.1. 摄像机标定我们的设置包括四个静态和一个头戴式RGB-D相机。我们使用通过Azure Kinect DK访问的工厂校准的内部参数[76]。对于外部参数，我们得到他们的校准方法依赖于红外反射球。我们选择这种方法是为了使我们的安装程序可移植且易于部署。10141LΣLLLLLLΣ¨¨∈∈我们在场景中的随机位置放置了九个红外反射球，确保每个球都可以从所有摄像机中看到。在我们的摄像机拍摄到的红外图像中为了重建深度，这些球体被显示为明亮的圆，其可以以自动的方式容易地检测我们计算每个球体的中心，然后通过考虑深度中相应的像素来获得其3D关节位置（15个原始位置加上6个用于指尖和手腕的其他位置，以映射到 OpenPose [8] 骨架 - 参见 Supp 。Mat.）。我们采用如上所述估计的对象姿势，并且在跟踪手部姿势时利用它。我们通过在每个帧f处最小化损失函数来跟踪手，损失函数被定义为：NC形象给定每个中的九个球体的3D位置θf=argminΣ（λ1Ls+λ2L2D）+λ3L3D+（一）帧，我们通过PnP [43]解决相机姿势为了为了一致地识别跨帧的球体，我们在第一帧中定义初始映射，然后随时间跟踪它为头戴式摄像机计算的姿势可能会出现抖动。在头部匀速移动的假设下，我们通过卡尔曼滤波[82整体框架允许我们在注释过程中使用多个摄像机，这最终会提高保真度和注释的准确性。3.2. 对象姿势注释我们获得准确的每帧对象的6D构成使用多视图图像连同相机姿态信息。我们首先为每个对象重建3D网格模型。为此，我们通过用手持Kinect相机围绕它移动来我们将这些帧馈送到最先进的RGB-D SLAM方法BADSLAM [65]中，以重建3D网格。我们在Blender[11]中获得每个对象的纹理：我们使用BADSLAM返回的相机姿势将扫描时获得的RGB图像投影到网格表面上。我们利用这些模型来训练对象姿态跟踪器。首先，我们基于Mask R-CNN [35]训练对象掩码预测器。作为训练数据，我们使用通过将我们的3D模型投影到用于其基于BADSLAM的重建的图像上获得的掩模。然后，我们将掩模预测与相应的RGB-D图像一起馈送到DenseFusion [83]中以估计对象姿态。我们获得每个相机视图的姿态预测，并选择具有最高置信度的一个。最后，我们通过ICP [43]改进该姿态估计。也就是说，我们从五个深度图像中的每一个计算点云，并通过使用相机姿态信息将它们合并成单个点云;然后，我们将我们的对象模型拟合到这个点云，将来自DenseFusion的预测作为初始化。θc=1λ4Lp+ λ5Lphy+ λ6La+ λ7Lm其中Nc是相机的数量。这里，s是基于轮廓的误差项，2D和3D分别测量2D和3D中的联合误差，p和a是姿态的正则化器，phy惩罚手和对象之间的物理上不可信的相互渗透，并且m惩罚手深度数据和MANO表面之间的3D中的距离。Lambda对每个误差项的贡献进行加权。注意，为了获得受试者特定的参数，我们最小化Eq.（1）关于仅一个帧上的β然后，我们通过保持β固定并优化等式（1）来在序列上跟踪手部姿势（1）关于θ（对于左手和右手）。为了简单起见，我们从以下等式中省略β2D关节错误。我们通过定义以下内容来惩罚MANO关节和OpenPose估计之间的2D距离：NJL2D（θ）=J2D，c[i]−Πc（HJ（θ）[i]）（2）i=1其中，J2D表示利用OpenPose预先计算的2D关节位置，并且Hj（θ）[i]返回MANO骨架的第i个3D关节错误。与2D关节误差类似，我们通过三角化OpenPose估计来计算3D中的惩罚。我们发现，使用这个误差项有助于实现更快的收敛和增加稳定性。3D网格表面错误。我们通过合并从跨我们的不同视图的每个深度图像获得的点云，并且分割出没有投影到如上所计算的手部掩模上的点，来获得手部数据的点云。我们的3D表面误差项惩罚该点云与MANO表面之间的距离：NV3.3. 手部姿势注释对于手部姿势估计，我们依赖于广泛使用的MANO手部模型[62]。MANO分解人手Lm（θ）=（pj−HV（θ）[i]）·HV（θ）[i]i=1其中j=argminpj−HV（θ）[i]（三）形成一组恒等参数βR10和一套的姿态参数θR51，存储15个骨架关节的角度以及全局旋转和平移。形式上，我们可以将MANO定义为返回具有N V个顶点的三角网格的函数H V（θ，β）。我们还将MANO 骨架定义为返回NJ = 21 的函数 HJ（θ，β）。其中pj是点云的第j个点，并且HV（θ）表示手网格顶点i的法线。如等式1所示。1，我们的优化函数进一步包括轮廓误差项和正则化的联合角度限制和物理约束。我们建议读者到Supp。Mat.有关这些条款的详细信息，以及J10142（c）第（1）款（d）其他事项读取抓取挤压喷雾图3：RGB和深度图像，具有手对象姿势和动作标签的相应注释。第一行：左手关键点、右手关键点和3D对象边界框投影在RGB图像上。第二行：同步深度图像。第三行：手和对象网格的地面实况数据。我们在Supp. Mat.不同误差项对标注精度影响的消融研究。在运行我们的自动流水线后，我们检查所有帧以识别和删除不准确的姿势。作为最后一步，我们通过卡尔曼滤波平滑和插值构成3.4. 时态动作注释我们以动词-名词对的形式提供动作标签。我们考虑11个动词类：抓取、放置、打开、关闭、倾倒、取出、放入、涂抹、阅读、喷雾和挤压。至于名词，我们考虑8类：书，浓缩咖啡，乳液，喷雾，牛奶，可可，薯片，卡布奇诺。通过组合动词和名词，排除在我们的数据集中没有表示的对之后请注意，我们为每个框架只选择一个动词和一个名词，因此没有重叠的动作标签。我们使用VIA注释工具[15]手动为整个数据集选择动作标签图3示出了一些注释示例。4. H2O数据集我们在室内环境中获得了H2O数据集的图像，其中受试者使用双手与八个不同的物体进行交互。该数据集包括571，645个RGBD帧，并且具有在三种不同环境中执行36个不同动作类的四个参与者。与方法中描述的第二节。3、我们为左右手姿势、6D对象姿势、相机姿势和动作标签注释准确的地面实况数据。在我们的数据集中，我们还提供了MANO [62]左手和右手的手适合，以及高质量的对象网格。此外，我们还使用相机姿态和同步的RGBD数据计算场景点云总而言之，cu-额定数据集允许对自我中心场景的全面理解。4.1. 采集装置图4（c）展示了我们的数据捕获设置。我们使用五个Azure Kinect摄像头来获取同步的RGB图4：（a）H2O数据集中每个动作的实例数。(b)每个动作类的平均帧数（c）示意性相机捕获设置。四个静态相机可以捕捉到自我中心视图无法观察到（d）从多视图数据计算的场景点和深度图像。为了确保多个摄像机之间的同步这导致摄像机之间的延迟小于100微秒[76]。如[76]中所指示的，为了避免多个深度相机之间的干扰，我们进一步将相机捕获彼此偏移160微秒，这导致相机之间的总最大延迟仅为0.74ms。我们将四个不同的静态相机在任意位置，涵盖手物体的相互作用。以自我为中心的相机进一步安装在头盔的前额上，并且由参与者调整以设置以自我为中心的视图。我们校准所有的五个摄像机与九个红外反射球解释在第二节。第3.1条数据在三种环境中获取（例如，大厅、办公室和厨房）使用几种不同的背景。我们以1280x720像素的分辨率记录视频，用于RGB和深度图像，帧速率为30fps。每个视频对应于涉及各种手-物体交互的一系列动作4.2. 数据集统计数据我们将数据集分为训练集和测试集。我们使用基于主题的分割来分割训练和测试数据，其中我们留下一个主题用于测试，其余的用于训练。我们进一步使用一个主题的一部分训练数据作为模型选择的验证数据集。来自多个视图的数据由用于训练的344，645帧、用于验证的73，380帧和用于测试的153，620帧组成我们在图中绘制了每个动作的实例数和每个动作类的平均帧数。4.第一章动作实例在数据集中分布良好，最不频繁的动作出现21次。在数据集中，57.8%的人使用双手，12.4%的人使用左手，29.8%的人使用右手。动作片段的长度跨越了广泛的范围，展示了包括慢速动作和快速动作的数据集的多样性10143我∈∈×我Σ我我我我我我我我我我我我我我5. 识别3D手-物体交互鉴于H2O的丰富注释，我们的目标是从图像序列中构建对自我中心场景的全面解释，以理解人类交互。为此，我们提出了一个统一的框架，共同估计双手的操纵对象的姿态，并认识到自我中心的相互作用。我们使用这个框架来建立第一人称交互识别和手对象姿势估计的基线。姿势预测。我们建立在[77]的网络架构上，以估计左手和右手的姿势以及操纵对象的姿势。虽然[77]只处理单手场景，但在我们的情况下，我们的目标是预测双手的姿势为此，序列中的每一帧都通过一个以YOLOv2为骨干的全卷积网络[61]。我们生成一个3D网格作为我们的全卷积网络的输出，而不是像[61]中那样生成一个2D网格。为了能够同时预测双手和物体的姿势，我们将每个输出网格单元与左手，右手和操纵对象的3个矢量相这些向量包含左手（yh，l）、右手（yh，r）和对象图5：H2O数据集的定性结果.我们显示估计的手3D姿势，对象6D姿势，和动作标签。所提出的方法可以适当地处理具有挑战性的闭塞。通过学习交互中涉及的手和对象位置之间的链接，可以使用GCN网络（GCN）。在对单个图内的内部依赖性进行建模的同时，该框架还允许学习左手-右手、左手-对象和右手-对象之间的相互依赖性。更具体地，我们采用时空图来编码空间和时间信息，如在ST-GCN [92]和2s-AGCN [66]中。标准ST-GCN [92]对于人体动作识别模型，使用fout=ΣWj fin（Aj⊙Mj）（6）i ij姿态（yo），具有总体置信度值（ch，l，ch，r，co）其中f在∈RCin ×T×N 是输入特征图，Aj∈个体姿势预测。置信度值在训练期间被动态地定义为预测姿势到地面实况姿势的距离的函数我们的单次网络的最后一层为每个单元i生成对左手（yh，l）、右手（yh，r）和物体的预测RN ×N是表示骨架连接的邻接矩阵，W jRCout×Cin×1×1是11个卷积的权向量，M jRN×N是一个注意力地图。这里j表示由卷积定义的顶点邻域（yo在一些实施例中， T是时间核，C是通道的数量，T是节奏核i），连同其相关联的总体置信度值，ch，l，ch，r和co。对于每个帧，训练我们的网络的损失函数L= λpose（||yh，l−yh，l||+的||yh，r−yh，r||+的||yo−yo||）（4）我n是长度，N是顶点数。ST-GCN在单个图形实体上工作，例如人体骨骼，并使用固定的邻接矩阵对骨骼内连接进行建模。在我们的例子中，除了图内依赖关系，我们的目标是为了还对手和手之间的图间依赖性进行建模，+λconfΣ（（ch，l−ch，l）2+（ch，r−ch，r）2+（co−co）2）（五）我对象因为每次都有不同的手和物体部分参与交互，一个固定的邻接矩阵模型虽然左手和右手的姿势由3D关节坐标定义，但是对象姿势由围绕对象的3D边界框的角点给定3D边界框上的网络的控制点预测，可以通过利用刚性变换将预测对准到参考3D边界框来有效地计算6D对象姿态。修剪具有低置信度值的预测，并且选择具有高置信度值的预测作为姿态预测。交互识别。RNN之前已经成功地用于识别动作[2，77]。然而，他们没有充分利用特殊的图形结构的骨架数据的手对象的相互作用。因此，我们采取参数化的左手骨架，右手骨架和对象包围盒作为单独的图形，并将它们组合在一个多图结构。然后，我们使用图卷积算法计算多图结构的拓扑相互依赖性不会产生最佳结果。在那里-因此，分别对于左手、右手和物体，我们采用下面的方法来对它们的依赖性进行建模：f 输出 =Wjfin （ Aj ， intra+Aj ， inter+Tj ， intra+Tj ，inter+Sj）（7）J虽然Aj，intra在等式（1）中起到与Aj6对于左手、右手和对象Aj，inter通过对称的手部分和对象中心之间的静态连接来对手和对象之间的相互关联的依赖性进行这里，这两个矩阵都是如ST-GCN中的固定邻接矩阵（等式2）。（六）。除此之外，我们用一个附加的邻接矩阵Tj，inter表示左手和右手、左手和物体以及右手和物体之间的相互连接。与Aj、inter、Tj不同，inter不是固定的，而是参数化的。它的值是不受约束的，并与其他10144在×θj我我我网络参数，这意味着图拓扑和边权重完全从训练数据中学习。除了Tj，inter之外，我们还使用附加的参数化邻接矩阵Tj，intra，其自适应地学习单个图实体内的帧内相关依赖性（例如，左手、右手或物体）。该数据驱动模型允许我们学习完全针对手-对象交互任务的图。注意，与Eq. 6中，我们不使用如[66]中的注意力映射，因为我们的参数化邻接矩阵可以扮演由等式中的Mj6将更多的重要性归因于手和参与相互作用的物体之间的边缘。此外，在Eq。6，如果Aj的元素之一为0，则结果将为0，而不管Mj的值如何，这是由于点乘。因此，我们使用加法而不是等式中的点乘法7，以允许在我们的图之间形成新的连接。与[66]类似，我们在我们的公式中使用了一个额外的数据依赖项Sj，它为每个样本学习一个唯一的图，该图使用点积来测量嵌入空间中两个顶点的相似性。Sj=softmax（fT WTWjfin）（8）其中Wθ和W分别是嵌入函数θ和的参数。这里，嵌入函数被选择为11个卷积层。通过堆叠由Eq.7、共10层，我们构建了用于3D交互识别的拓扑感知图它在每次迭代时将yh，l，yh ，r和yo的组合作为其初始特征映射来建模手部对象交互。我们展示了图中的手-对象交互场景的学习图连接。8和分析我们的设计选择在第六、我们提供了进一步的细节的架构，超参数和训练的姿态预测和交互识别模型中的Supp。垫..6. 评价在本节中，我们首先验证我们的地面实况注释的准确性然后，我们提出的基线结果手对象的姿态估计和自我中心的动作识别我们的数据集。对于后者，我们还将我们的基线方法与最先进的动作识别方法进行了比较，并证明了我们的方法基于手对象姿势相对于现有方法的明显优势6.1. 数据集分析验证。我们验证了我们的手对象姿势注释的准确性，我们的数据集的随机分裂。为此，我们用手的指尖和操纵对象的预定义关键点在5个不同的相机视图上注释500个然后我们对这些二维的图6：H2O上的接触建模。我们的数据集有助于建模手-物体接触和3D启示。姿势特征对象左手右手平均值（标准品）1.10（±0.37）0.82（±0.43）0.93（±0.57）表2：&用于评估所提供的地面实况数据的准确度的手对象姿势验证结果（以cm为单位）。点以获取手和对象的手动3D注释。我们计算我们的注释到手动创建的注释的距离，以测量我们姿势的准确性我们在表2中展示了我们的验证结果。对于手和物体，误差大约在1厘米的范围内，这表明我们的数据集的高精度。我们的误差幅度与[32，99]的误差幅度相当，即使我们的数据集由于双手操作而具有更多的接触建模。H2O具有精确的手对象姿势注释和网格，进一步促进了手对象接触的建模[7，75]。为此，对于手部网格中的每个顶点，我们在某个阈值内找到物体上最近的顶点（例如2cm）。然后，我们计算一个直方图计数的邻居的MANO网格的每个顶点的数量，并将其规范化，以模型接触热点的手。我们也对对象网格重复相同的过程，我们在图中可视化我们的数据集的示例接触图六、6.2. 实验结果联合预测双手和被操纵物体的三维位姿。我们使用第二节中描述的训练、验证和测试分割来训练和评估我们的方法。图4.2中的手和对象的基线姿态估计精度。7.第一次会议。我们使用正确估计的姿势的百分比来评估手和对象姿势估计精度。具体而言，我们使用3DPCK度量进行手部姿势估计，并使用2D重投影和ADD度量进行对象姿势估计，如[77]中所示。我们证明，我们的方法可以可靠地预测的姿态，双手和操纵对象具有较低的误差幅度和constitutes-一个强大的基线联合姿态估计双手与物体的相互作用。还要注意的是，我们的方法构成了第一种方法和基线，用于从单个RGB图像中估计双手与对象交互的姿势。我们仍然评估我们的方法对单一10145方法左h右h。对象哈森[33]39.56-67.47哈森[33]-41.8766.05H+O[77]41.42-48.06H+O[77]-38.8652.57我们41.4537.2147.90模型C2D [87]Val acc.（%）76.10试验依据（%）70.66I3D [9]85.1575.21[23]第二十三话86.0077.69H+O [77]80.4968.88ST-GCN [92]83.4773.86OURS（TA-GCN）86.7879.25(a)（b）（c）图7：对于（a）具有3D PCK度量的手，以及对于具有（b）2D重投影和（c）ADD度量的对象，使用不同阈值对H2O数据集的姿态估计结果。型号Acc. （%）ST-GCN 73.86型号Acc. （%）TA-GCN wo S=73.44L EFT H AND33.61模型加速（%）TA-GCN wo Tj，inter七十五点五二OBJECT48.55右高和52.70BOTH HAND58.92NOI互连75.52左H和-右H和76.76H和 O对象78.84TA-GCN woTj ，帧内 76.76TA-GCN woAj ，帧间 76.35TA-GCN woAj，帧内77.59图8：不同层的学习图连接。我们阿黎巴嫩镑79.25的LLI互连七十九点二五 TA-GCN 79.25演示前20名学习的内部（顶部）和内部（底部）控制(a)（b）（c）表3：不同的（a）输入模态、（b）互连和（c）图形项对交互识别准确性的影响。[33，77]的手对象姿态估计方法，用于比较目的，在表4中，并进一步提供了我们的姿态预测的定性示例，在图4中。五、交互识别。在表3（a）中，我们示出了不同输入方式对H2O数据集上的交互识别的准确性的影响。为此，我们评估的影响，手对象构成的互动识别。手部姿势和对象关键点是通过我们的单程网络预测的。五、我们发现，右手和左手姿势的组合以及手和物体姿势的组合显著提高了整体动作识别分数，这表明了每个输入方式的个人贡献和互补性。我们进一步评估了表3（b）中双手和物体之间的相互依赖性建模的重要性，并证明了左手右手和双手物体之间的相互依赖性建模可以提高识别交互的准确性。在表3（c）中，我们评估了等式3（c）的不同项的影响。7，并证明与基线相比，将所有我们在图中可视化了我们模型的学习连接。8.我们进一步将我们的动作识别准确性与使用PySlowFast库[17]的C2 D[87]，I3 D [9]和SlowFast [23]的最先进的基于图像的学习方法以及H+O [77]和ST-GCN [92]的基于姿势的学习方法进行了比较，并在表4中显示了我们的结果。在[17]之后，我们使用16的批量大小和64帧的时间窗口大小以及2的采样率来训练基于图像的模型我们使用ResNet-50骨干网，并使用SGD训练网络，学习率为0。1.一、基于姿势的方法如[77，92]中所述进行训练，并使用我们的方法从我们数据集的RGB图像中估计姿势我们的交互识别方法在H2O数据集上实现了最高的验证和测试精度在每列中分别在层1、5和9处的连接。连接的厚度对应于学习的连接值的权重。在与对象交互期间，手-对象连接被给予比手-手连接更多的我们的模型属性更重要的指尖和DIP关节，更常见的参与操纵。表4：姿势误差（左，以mm为单位）和动作精度（右）。[33，77]的单手方法分别针对左手和右手进行训练。[77，92]使用我们方法的姿势预测。证明了我们的方法的有效性和由H2O促进的3D姿态预测的重要性。7. 结论在本文中，我们提出了一种方法来收集一个数据集的双手操纵对象的第一人称交互识别。我们提供了一套丰富的注释，包括- ING动作标签，对象类，3D左右手姿势，6D对象姿势，相机姿势和场景点云。我们进一步提出了第一种方法来联合识别双手操纵物体的3D姿态和一种新的拓扑感知图卷积网络来识别手-物体交互。我们的框架在3D中模拟手和物体之间的交互，以从第一人称视角识别动作，并产生最先进的准确性。我们相信，我们的数据集和实验可以感兴趣的3D手部姿势估计，6D物体姿势估计，手-物体交互，机器人和动作识别的社区，并帮助弥合手-物体交互和以自我为中心的动作识别之间的差距。鸣谢。Taein Kwon得到了微软混合现实AI苏黎世实验室博士奖学金的支持。作者感谢Silvano Galliani，Joshua Elsdon，Yana Hasson，Jeff Delmerico ，HelenOleynikova和Mihai Dusmanu的有益讨论。10146引用[1] LucaBallan，AparnaTaneja，JürgenGall，LucVanGool，andMarc Pollefeys.使用区别性显著点的动作中的手的运动捕获。ECCV，2012年。3[2] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在ECCV，2018。6[3] Gedas Bertasius ， Hyun Soo Park ， Stella X Yu ， andJianbo Shi.用egonet进行第一人称动作物体检测。arXiv预印本arXiv：1603.04908，2016。3[4] 亚伦·F.作者声明：James W.戴维斯基于时间模板的人体动作识别PAMI，23（3）：2573[5] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang，Stefan Gumhold，et al.从单幅rgb图像估计物体和场景的不确定性驱动的 6d姿态。在CVPR，2016年。3[6] 放大图片作者： Charles C. 作者声明： James Hays.ContactDB ：通过热成像分析和预测抓取接触。在CVPR，2019年。2[7] 放大图片作者： Samarth Brahmbhatt ， ChengchengTang，Christopher D.查尔斯·特威格作者声明：JamesHays. 联系方式：具有物体接触和手姿势的抓握数据集。在ECCV，2020年。二、七[8] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。PAMI，43（1）：172-186，2019. 三、四[9] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。一二三八[10] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.基于骨架的动作识别与移位图卷积网络。在CVPR，2020年。3[11] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。4[12] Dima Damen ， Hazel Doughty ， Giovanni Farinella ，SanjaFi- dler，Antonino Furnari，Evangelos Kazakos，Davide Molti- santi ， Jonath

下载后可阅读完整内容，剩余1页未读，立即下载