手部和物体姿态的三维标注方法及应用

194 浏览量更新于2023-10-23 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1HOnnotate：一种手部和物体姿态的三维标注方法Shreyas Hampali1，Mahdi Rad1，Markus Oberweger1，Vincent Lepetit2，11奥地利格拉茨科技大学计算机图形与视觉研究所2LIGM，Ecole des Ponts，Uni v Gustav e Eif fel，CNRS，Marne-la-Valle' e，France{hampali，rad，oberweger，lepetit}@ icg.tugraz.at项目页面：https://www.tugraz.at/index.php?联系我们摘要我们提出了一种方法，用于注释图像的手操纵对象的手和对象的3D姿态，连同使用这种方法创建的数据集。我们的动机是目前缺乏注释的真实图像的这个问题，因为估计的3D姿态是具有挑战性的，主要是因为之间的相互闭塞的手和对象。为了应对这一挑战，我们使用一个或多个RGB-D摄像机捕捉序列，并同时在所有帧上联合优化3D手和物体姿势。该方法允许我们自动地用姿态的准确估计来注释每个帧，尽管存在大的相互遮挡。通过这种方法，我们创建了HO-3D，这是第一个带有手部和物体3D注释的彩色图像无标记数据集该数据集目前由77，558帧，68个序列，10个人和10个对象组成。使用我们的数据集，我们开发了一个单一的RGB图像为基础的方法来预测手的姿势时，与对象的严重遮挡，并显示它泛化到数据集中没有看到的对象。1. 介绍最近，由于深度学习的发展以及大型数据集的创建或使用合成图像进行训练，从单目图像中估计刚性物体和手部的3D姿态的方法取得了重大进展[32，35，46，55，71，73]。然而，当手与对象交互时，这些最近的方法仍然失败然而，打破这一限制是非常可取的，因为3D手部和物体姿势在增强现实应用中非常有用，或者例如在机器人技术中通过模仿学习一些先驱作品已经考虑了这个问题，有时取得了令人印象深刻的成功[26，52，61]。这些工作通常依赖于跟踪算法来利用时间约束，通常还考虑手和对象之间的物理约束以改进姿态估计。虽然这些时间和物理约束仍然相关，但我们也希望受益于用于从单个图像进行3D手+对象姿态估计的数据驱动方法的能力能够从单个帧估计这些姿态将避免跟踪算法的手动初始化和漂移。然而，数据驱动的方法需要用物体和手的3D姿势注释的真实或合成图像。不幸的是，为手+物体问题创建注释数据是非常具有挑战性的。创建3D注释、注释真实图像和生成合成图像的两种常见选项都提出了具有挑战性的问题。注释真实图像。人们可以依赖于一些算法进行自动注释，如在3D手部姿势估计中对当前基准所做的那样[45，54，57，71，74]，其中虽然这些注释是嘈杂的，但它们通常被认为是理所当然的，并用于训练和评估[37]。另一种方法是使用连接到手上的传感器，如[14]（图14的右下图）。1）。这直接提供了3D姿态，然而，传感器在图像中是可见的，因此偏向学习方法。在开发用于真实图像的自动注释的算法方面仍然需要大量的努力。生成合成图像。依靠合成图像是有吸引力的，因为3D姿势是完全已知的。真实感渲染和域转移可用于在合成图像上训练3D姿态估计[31，47，73]。如[18]所示，生成物理正确的抓握是可能的[29]，但难以模拟复杂的操作。然而，仍然需要具有准确3D注释的真实图像来评估该方法的通用性31963197[74][52]我们提出的HO-3D数据集[18][14]第十八话现有数据集图1：我们介绍了一种方法，用于标记手+物体交互的真实图像，其中包含手和物体的3D姿势。通过这种方法，我们自动创建了一个由超过75，000帧、10个不同对象和10个不同用户组成的数据集。相比之下，现有的数据集有几个限制：3D对象非常简单，交互不真实，图像是合成的，被传感器损坏，和/或样本数量有限。补充资料中显示了我们数据集中注释的更多插图到真实的数据。因此，我们提出了一种方法来自动注释的手抓物体与他们的3D姿态的真实图像。我们的方法适用于单个RGB-D相机，但如果可用，可以利用更多相机以获得更好的鲁棒性和准确性。单相机设置在抓取姿势在序列上略微变化的假设下工作;多相机设置可以处理复杂的手+对象交互场景。我们的方法不是逐帧跟踪姿势，而是联合优化手和对象在序列上的所有3D姿势。正如我们的评估所示，这使我们能够以比跟踪算法更强的方式使用可微分渲染，我们可以通过利用最初为深度学习开发的新的强大梯度下降方法来优化复杂的目标函数[24]。我们认为这种方法相当于SLAM算法的束调整，其中我们跟踪对象而不是点。我们依赖于MANO手部模型[50]和物体的3D模型。我们使用来自YCB-Video数据集[68]的对象，因为它们具有各种形状和材料，并且可以由有兴趣进行自己实验的研究人员在线购买[1能够使用单相机还使得其他研究人员能够更容易地扩展具有更大种类的对象和抓取姿势的数据集，因为多相机捕获通常设置复杂。使用我们的方法，我们创建了一个数据集，如图所示。我们称之为HO-3D。此外，我们使用该数据集来学习从单个RGB图像预测操纵对象的手的3D姿势。更确切地说，我们训练了一个深度网络来预测手的2D关节位置以及关节方向向量，并通过将MANO模型拟合到这些预测来将它们提升这验证了通过我们的注释方法估计的3D姿态实际上可以用于手姿态估计的数据驱动方法的事实。通过与现有的直接估计MANO参数的手+物体姿态估计方法[18]，我们表明预测2D关键点并将其提升到3D执行得更准确。2. 相关工作关于手和物体姿态估计的文献非常广泛，我们在这里只回顾一些作品。2.1. 三维物体姿态估计从单帧图像中估计物体的三维姿态仍然是计算机视觉的基本问题之一。一些方法现在对部分遮挡是鲁棒的[20，36，41]，但是许多工作依赖于RGB-D数据来处理这个问题[5，8，22，30]，通过将3D对象模型拟合到深度数据。当手抓住物体时，这可能失败，因为手的表面可能被误认为是物体的表面2.2. 3D手部姿态估计单图像手部姿态估计也是计算机视觉中的一个非常热门的问题，其方法可以分为判别式和生成式。分解方法直接从RGB或RGB-D图像预测关节位置。最近基于深度网络的作品[15，32，34，35，59，69，73]与基于随机森林的早期作品（如[23]）相比表现出显着的性能。然而，判别方法在部分遮挡的情况下表现不佳。生成方法利用手部模型及其运动学结构来生成物理上合理的手部姿势假设[12，28，45，51，53，63，70]。[31，40]预测2D关节位置，然后将其提升到3D。生成方法通常是准确的，并且可以对部分遮挡进行鲁棒性。它们通常依赖于一些姿态先验，这可能需要手动初始化或在跟踪时导致漂移。3198我们的工作与歧视性和生成性方法有关：我们在全局优化框架内使用生成方法来生成姿态注释，并且使用判别方法来初始化该复杂优化。[64]还结合了生成和区分方法，以在自我监督设置中训练网络。他们只考虑手。我们还使用我们的数据集训练了一种判别方法，以预测对来自交互对象的遮挡具有鲁棒性的手部姿势。2.3. 用于3D姿态估计的合成图像能够在合成数据上训练判别方法是有价值的，因为很难获得真实图像的注释[73]。[18，47]表明，由于合成图像和真实图像之间的域差距，在合成图像上训练在[31]中使用了GAN方法来使手部的合成图像虽然使用合成图像仍然适用于许多问题，但创建虚拟场景可能是昂贵且耗时的。生成动画现实主义的手抓住各种对象，因为它会被要求解决本文中考虑的问题仍然具有挑战性。因此，能够使用真实序列进行训练也具有其优点。此外，应在真实图像上进行评估。2.4. 手+物体联合姿态估计早期的联合手+物体姿态估计方法[2，38，65]通常依赖于多视图相机设置和逐帧跟踪方法，这可能需要仔细初始化和随时间漂移。[39，62]提出了生成方法来跟踪手指接触点，以进行手持RGB-D对象形状扫描。[43，44]考虑使用单个RGB-D相机从视觉进行感测以估计手+物体交互期间的接触力，然后估计手和物体姿势。然而，这些方法仅限于小闭塞。[26，61]建议使用物理模拟器和3D渲染器来从RGB-D对手和物体进行帧到帧的跟踪[27]使用协作跟踪器的集合，从RGB进行多对象和多手跟踪-D图像。这些方法的准确性似乎是定性的高，但由于在现实世界中的地面实况采集已知是困难的，他们评估所提出的方法合成数据集，或通过测量在抓取场景期间手/物体姿势的差异的标准偏差。[60]考虑了通过优化关于手的外观和运动学的能量函数以及手+物体接触配置来跟踪与手交互的可变形物体的问题然而，它只在合成图像上进行定量评估这表明了在真实数据上评估的困难。此外，他们只考虑从俯视图中可以看到手的场景，限制了手的姿势范围，不允许遮挡。最近，[25]使用粗略的手部姿势估计来检索手持物体的3D姿势和形状。然而，它们只考虑特定类型的对象，而不估计对象的姿态.[18]提出了一种考虑物理上可行的手+物体交互以提高抓取质量的接触损失模型。然而，为了估计3D手部姿势，他们预测姿势的PCA分量，这导致与我们相比准确度较低，正如我们的实验所示。[58]提出了一种深度模型，从自我中心的观点联合预测3D手和物体的姿势，但缺乏物理约束可能会导致不可行的把握。2.5. 手+对象数据集已经提出了用于手+对象交互的几个数据集许多作品提供以自我为中心的RGB或RGB-D序列用于动作识别[3，6，7，13，48]。然而，它们专注于抓取和动作标签，并且不提供3D姿势。[10，32，49，60]生成具有3D手部姿势注释的合成数据集，但手和对象之间的精细交互仍然难以准确生成[61，63]在手+手和手+物体交互的上下文中捕获序列，仅具有2D手注释。[33]收集了手持物体的真实RGB图像数据集。它们还通过从受试者的抓握中移除对象，同时保持他们的手处于相同的姿势，来提供成对的未被遮挡和被遮挡的手的2D关节注释。[16]提出了两个数据集，手+对象分割数据集和手+对象姿势估计数据集。然而，对于这两个数据集，背景像素已被设置为零，并且训练图像仅包括与网球交互的手。它们通过手动标记关节并使用生成方法来细化关节位置，从而提供手部姿势注释和对象位置。[21]在多视图设置中生成具有全身姿势和手部姿势注释的大规模数据集他们使用生成方法将身体和手部模型拟合到3D关键点和点云。然而，他们的数据集专注于全身姿势注释，而不是专门的手+对象交互，不提供对象姿势注释。[52]提出了一个RGB-D数据集的手操纵立方体，其中包含手动地面实况的指尖位置和三维姿态的立方体。[42]收集了一个数据集，其中他们使用传感器测量不同物体抓取配置下的运动和力，但不提供3D姿态。与这些以前的工作相比，[14]提供了一个手和物体交互的数据集，其中包括手关节和物体姿势的3D注释。他们用3199HOHHOCHOCHOPhohOC cc1i1CF数据集帧数3D对象姿势无标记真实标签图片对象数量的受试者数量[21]第二十一话675K-++自动-70GAN [31]300K-+- 合成的--FPHA [14]100K+ （23K帧）-+自动26（4种型号）6[18]第十八话150K++- 合成的2.7K20免费WiFi [74]37K-++混合2735HO-3D（我们的）78K+++自动1010表1：手+物体数据集的比较。运动捕捉系统，由附着到用户的手和对象的磁传感器制成然而，这改变了彩色图像中手的外观，因为传感器和连接它们的胶带是可见的。最近，[18]引入了ObMan，这是一个大型的手抓物体图像数据集。Ob-Man数据集中的图像是合成的，抓取是使用机器人算法生成的。最近，[74]提出了一个多视图RGB数据集FreiHAND，其中包括手-物体交互。然而，注释仅限于手的3D姿势和形状。此外，[74]使用人在回路方法在绿屏背景环境中从多个RGB摄像机获得注释另一方面，我们的方法完全自动化，甚至能够在单个RGBD上工作腕关节的平移这15个关节与腕关节一起除了姿态参数pt之外，手模型具有对于给定人固定的形状参数βPR10，并且我们遵循类似于[56]的方法来估计这些参数。有关形状参数估计的更多细节，请参见附录材料。对象姿态ptP SE3q由用于全局旋转和平移的6个DoF组成3.2.成本函数我们将手+对象姿态估计公式化为能量最小化问题：NFPt1其中ED和EC分别表示来自数据项和约束的能量。我们将ED定义为，NCEDpt，ptqαEmaskIt，pt，ptqβEdptDt，pt，ptqC✏1相机设置，并没有作出任何假设，γEj2DIt， ptqδE3Dt Dtc1..N，pt，ptq，背景我们数据集中的对象也比FreiHAND中的对象更大，因此由于遮挡更大，因此导致更具挑战性的场景。我们方法的注释准确度与第6.1节中描述的[74]相当。如示于图1和表1，我们的HO-3D数据集是第一个为真实图像提供3D手关节和3D对象姿势注释的无标记数据集，而手和物体被彼此严重遮挡CHCH2ChO（二）其中，Emas kq是轮廓离散项，Edp tq是深度残差项，Ej2 Dq是手部关节位置中的2D误差，E3 D q是3D距离项。最后一项不是绝对必要的，但是，我们观察到它显著加快了收敛速度。α、β、γ、δ是权重。约束能量EC被定义为，ECpt， ptqEjoint ptqEphy pt， ptqH哦哦OηEpt，pt，pt1，pt1，pt2，pt2q，（3）3. 3D注释方法我们在下面描述我们的注释序列的方法Ttt，DtqNCNFofN中国在RGB-D帧中，由NC摄像机拍摄。该序列捕获与对象交互的手。每个RGB-D帧由彩色图像It和深度图Dt。TCHO霍霍奥其中，Ejointt_t_q表示手部姿势相对于先前自然姿势的先验，Ejointt_t_q是确保手部和对象不相互穿透的物理可解释性项，并且Ejoint t_t_q是时间一致性项。这些项由参数η、η和η加权。c c我们在下面的ED和EC为我们在3.1节中定义了3D手和物体的姿势，和3.2节中的一般成本函数。我们自动初始化姿势，并在多个阶段优化成本函数，如第4.1节和第4.2节所述。3.1. 3D手和物体姿势为了简单起见，除了必要时，我们从我们的上述表示中省略帧索引t轮廓盘响应项Emas k。Emaskmasq项将手的轮廓和渲染的对象模型与当前估计的姿势及其分段进行比较，我们的目标是估计3D姿态Ptpt，ptqNF为心理状态面罩我们得到了一个分段Sciq，HOt1在所有的图像中，手和物体都是如此。quence我们采用MANO手部模型[50]并使用来自YCB-Video数据集[68]的对象，因为它们的相应3D模型可用且质量良好。的手和物体在相机c的彩色图像I中使用DeepLabv 3 [9]在YCB ob-tube上通过合成叠加和叠加手部图像创建的图像上进行训练。有关此步骤的更多详细信息，请参见MANO手部姿势ptPR51由45个自由度（3个自由度）组成3200材料。手和对象模型被渲染对于15个手指关节中的每一个）加上用于旋转的6个DoF并且在相机平面上使用可微分渲染器[19]，3201HHHO不这使得能够计算E掩模相对于姿态参数的导数。在相机c上渲染的手和对象的轮廓由RSc_p_h，p_o_q表示，并且轮廓差异被定义为，EI，p，pqRSp，pqSIq2.（四）一个共同的参照系。有关点云重建的更多详细信息，我们使用每个相机图像中的分割掩模Sc_q将P分割成对象点云Po和手部点云Ph在优化的每次迭代中，对于对象点云的每个点，我们寻找掩模CHOCHocO对象网格上最近的顶点x V或j，并且对于每个点深度剩余项Edpt。深度残差项类似于分割差异项：在手部点云的P hrks中，我们寻找手部网格上最近的顶点Vhrks。E3DP，p，pq则定义为，¨ ¨2¨ ¨2➳¨Prjs✁Vrj✝s¨➳¨Prks✁Vrk✝s¨.（七）EdptDc，ph，poqTukeyRDcph，poqDcq，（5）o o h hJK其中RDc=ph，poq是手和对象在其当前估计姿态ph和po下的深度渲染。的关节角度约束E联合.这一术语限制了-Tukey函数是一种稳健的估计器，类似于接近0的2对于手和对象模型的比例和形状的小偏差以及捕获的深度图中的噪声具有鲁棒性是有用的Edpt是可微的，因为我们采用可微渲染器[19]来渲染深度图。2D关节误差项Ej2D。2D联合误差项被定义为，在手部的15个关节上进行操作，以确保最终的姿势是自然的。利用MANO模型中的轴角表示对关节的三维旋转进行参数化，得到45个关节角度参数。当使用MANO模型时，一种常见的解决方案是在3D关节角度的PCA空间中使用姿态系数的N2正则化器[4，74]然而，我们在实践中观察到，优化Eq.1在PCA空间中的可表达性较差：我们数据集中的一些复杂抓取姿势无法在PCA空间中准确表达，21¨Ej2DIc，pqp¨2cé，（6）相对简单的抓握姿势和徒手手势。H第一章1hrisprojcJhrisqKris相反，我们直接对关节角度进行优化，并为45个关节参数中的每一个得出我们自己的限制（请参考其中，Jpris表示姿势ph下的第i个3D手关节位置，投影算子将其投影到相机c上，Kcris是其预测的2D位置，并且hr是其置信度。Ej2D q中的21个手关节包括15个手指关节、5个指尖和腕关节。在实践中，我们将Kcris作为热图的最大值的位置，而hris作为最大值本身。为了预测这些热图，我们根据[66]的架构训练了一个CNN。训练数据来自我们使用半自动方法创建的初始数据集[17]。该数据集由来自单个相机设置中的15个序列的15，000帧组成。我们手动初始化每个序列的第一帧的抓取姿势和对象姿势要求操纵器尽可能保持其抓取姿势刚性，以使配准更容易。然后，我们运行了单个这些限制的补充材料）。如在[72]中，关节角度约束项Ejointptq是givenbyy，45max第一章1其中，表示姿态Ph的第i个关节角度参数，并且ai和ai对应于其下限和上限。物理兼容性术语Ephy。在优化期间，手模型可能穿透对象模型，这在物理上是不可能的。为了避免这种情况，我们增加了一个排斥项，如果物体和手相互穿透，它会将物体和手推开。对于每个手顶点Vhrms，穿透量rrms取为，ΓrmsmaxnVrmsVrmsVrms，0q，摄像机外壳如第4.2节所述。优化后哦哦哦（九）我们通过缩放和旋转来图像，并添加来自Panoptic Studio数据集的图像[67]，其中包含手部的3D注释。3D误差项E3D。这个术语不是绝对必要的，因为来自所有相机的深度信息已经被Edpt利用，但是它通过甚至从远处引导优化朝向最小值来加速收敛。我们通过合并深度来构建点云P其中Vorms是物体上最接近手顶点的顶点x，而noms q算子提供了顶点的法向量换句话说，穿透量是通过将连接手顶点和其最近的对象顶点的向量投影到对象顶点位置处的法向量上来估计的。然后将物理可渗透性项定义为，Ep hy p t，p tqe xpwrms.（十）3202从RGB-D相机转换为hOM3203多帧联合手部-物体姿态优化帧t帧t+3帧t+2帧t+1当量（一）RGB单摄像机设置深度分割当量（十三）抓取姿态估计帧t1帧t2帧t3帧t4单帧手部目标姿态估计照相机1照相机2摄像机3相机4当量（二、三）多帧联合手部-物体姿态优化帧t+2帧t+3帧t+1帧t当量（一）H˜˜Oh：oHOHOhh hhpoh：o目标姿态估计帧t帧t+1帧t+2帧t+3当量（二）、多摄像头设置图2：多相机和单相机设置的不同阶段。更多详情请参见第4在实践中，我们使用w=5，并且只使用手部的一组二次采样顶点来有效地计算Ephy通过跟踪。我们最小化EDpt，ptqECpt，ptqw。r. t.pt和pt，使用初始化时的初始化值分别为1和1。霍霍奥时间一致性项Etc。前面的项都独立地应用于每个帧暂时的骗局-多帧联合姿态优化。最后，我们进行了一个完整的优化方程。（1）w.r.t.pt和pt表示相似项Etc允许我们将所有的框架。我们应用0阶和1阶运动100... N F在所有帧上同时使用es-估计初始化的Δnipt和Δnipt。由于记忆力不好-手和物体姿势上的模型：h oEpt，pt，pt1，pt1，pt2，pt2q应变，我们优化方程。（1）分批而不是考虑-把所有的帧按顺序排列。我们使用20个批量TCHOH奥和奥α<$20，β<$20，γ<$5<$10<$5，δ<$50，我不知道你在说什么，呼呼呼其中，tpt pt1和t pt pt1。既然我们选择-100、10050和100，以及Adam优化器100次迭代的学习率为0.01。hh hoo o在序列上求出这些项的和，这有效地将所有姿势约束在一起。4. 优化优化方程（1）是一项具有挑战性的任务，因为它是一个高度非凸的问题，需要估计许多参数因此，我们在多个阶段进行优化，如图所二、这些阶段对于多相机和单相机场景是不同的，我们在下面详细介绍。4.1. 多摄像头设置初始化。在多相机设置中，我们获得第一4.2. 单摄像机设置初始化。在单相机设置中，由于我们假设抓取姿势在整个序列中略有变化，因此我们最初假设它在整个序列中保持不变。为了解释在实践中发生的微小变化，我们在优化的后期阶段放松了因此，我们获得了手姿势的初始估计，tpttargminEj2Dit，ptqνEjointptq，（12）tpt不0估计第一帧中的手部姿势的PH别说了，其中关节角度参数被约束为在所有帧上相同，并且仅旋转和平移。腕关节的力矩参数可以不同。在实践中-把我的名字写在字母j 2 D I c上，把我的名字写在字母j 2 D Ic上。（十一）phc 1我们使用Dogleg优化器[11]来执行此优化。0分。第一估计对于该帧中的对象姿态，使用[46]通过在YCB对象上合成重叠手来训练，如第3.2节所述。因此，我们只在帧的随机子集上执行此优化以节省时间。我们设置v 50，大小为20，并使用Dogl e g优化器[11]。对于多摄像机设置，获得针对物体姿态的第一估计根据最大值和最小值，我们可以计算出抓取姿态h o在目标坐标系中，，假定为单帧关节姿态优化。然后我们得到在这个阶段是恒定的常数的初始估计Eq.（11，12）批我批我H3204ho估计所有其它帧（t=1.. NF）grabposegrabh：o被认为是一种你好3205OOOOOOPOooh：ooooHOt1ohph：o抓取姿态估计。我们获得了一个更好的估计，我们的3D姿态注释方法注释68序列，把握姿势假设，不在固定抓取姿态下，不总共77，558帧，10个不同的用户操纵来自YCB数据集的10个不同对象中的一个。图像大小为640 × 480像素的颜色和深度ph：o，t，tptttPEDfptph：oq，poq摄像机，我们在我们的多-Ephyq，（十三）相机设置。摄像机是同步的精度为5ms。wrtph：o和p到帧上，使用h：o并为6.1. 注释方法的评价初始化。 fptq将抓取姿势转换为手部为了验证我们的注释方法的准确性在世界坐标系中的姿态给定对象姿态p0。这种优化解释了相互咬合，手和物体之间。物体姿态估计。由于对抓取姿势有很好的估计，我们获得了所有帧通过最小化EDfptph：oq，ptwrtptovereach与帧无关我们使用最小值1来初始化最小值-我们依靠来自5个摄像机的合并点云，在然后，我们使用多相机设置将这些位置与我们的方法（在第4.1节中解释）预测的位置进行如表2的最后一列所示，我们的方法实现了低于8mm的平均联合误差精度到0 0在帧t处，除了其中使用了p_0的p_0注意手的姿势在这个阶段没有被优化。多帧联合手+对象姿态细化。在这最后一个阶段，我们允许跨帧的抓取姿势的变化，并引入时间约束。因此，我们优化方程。（1）w. r. t. 使用姿态参数，在所有帧上同时生成tpt，ptqNq估计值在先前的阶段中作为pt和pt的初始化。平均而言，曲线下面积指标（AUC）为0.79. 该指标与最近FreiHAND数据集报告的结果相当[74]（AUC=0.791）。请注意，由于对象较大，我们数据集中的遮挡率较高，并且我们没有使用绿色屏幕。为了分析Eq.（1），我们运行Eq.（1）通过仅启用这些项的子集，并在表2中报告结果。而o hEsilh和Edpt术语本身不能提供良好的姿势估计，5. 基于单目RGB的 3D手势为了在我们提出的基于单个RGB图像的手部姿势预测数据集上建立基线，我们使用基于卷积姿态机（CPM）[ 66 ]的CNN架构来预测2D手关节位置。21.此外，我们还预测了根相关的手关节方向tdii1。2.0，在CPM的末尾增加一个额外的阶段，并将最后一层替换为全连接层。补充材料中提供了关于该结构的更多细节然后通过将MANO模型拟合到这些预测来获得手的3D关节位置和形状参数。该拟合过程的损失函数为：21 20➳⑥ˆk✁k⑥2ρ➳1✁ˆd☎d✟σE♣pqτ⑥β⑥2,mates，它们一起提供了更好的估计，因为它导致了具有更少局部最小值的损失函数。E3D项提供了一个小的改进估计，但加快收敛。虽然物理可扩展性项Ephy无助于改善姿态估计，但它导致更自然的抓握。最后两列示出了当考虑所有项时，与基于单帧的优化相比，基于多帧的联合优化基于多帧多相机的所有项的优化将精度提高了约15%。通过将来自多相机方法的注释视为给定序列的地面实况来计算基于单相机的注释方法的准确度。更具体地说，对于1000帧的序列，我们计算从单相机和多相机序列获得的手+对象网格顶点我第一章1我我我第一章1pri1秒压缩r1秒联合H（十四）tups。此外，我们计算每个阶段后的准确度，单摄像头的设置结果在表3中给出。这两种方法估计的位姿是一致的，平均网格误差为0.77cm，其中，k_d_i_h，k_i_proj_J_p_r_i_s_j和E_joint是phri1s在Eq中定义（八）、我们使用ρ10、σ5和τ1。6. HO-3D基准测试在本节中，我们将评估我们的注释方法和我们的基线，用于在手+对象交互场景中从单色图像预测手部姿势。我们使用h：o3206手和物体分别为0.45cm。最后的精炼阶段使精度提高了15%。6.2. 手位姿预测方法的评价我们在HO-3D数据集的66，034帧上训练了第5节中解释的单帧手部姿势预测我们用13个序列的测试集进行了评估-3207术语单帧优化多帧EsilhE dptE dptE silhEDPTE3DESilhEDPTE3DEPHYESilhEDPTE3DEPHYETC光学元件（方程式第一章是说（标准）4.20（3.32）1.17（第1.12段）2.22（1.22）1.04（0.43）0.98（0.40）0.99（0.40）0.92（0.34）0.77（ 0.29）表2：多摄像头设置的准确度评估我们报告的平均手关节误差（厘米）的不同组合的条款在方程。（一）.最终误差与最近的FreiHAND数据集相当[74]。阶段Init.抓握姿势估计值对象姿态估计细化手5.403.600.910.77对象4.024.020.520.45表3：单摄像机设置的准确度评价。通过与来自多相机设置的注释进行比较，在优化的每个阶段测量精度（平均网格误差，以cm为单位）结果表明，我们的单摄像机方法的注释质量是类似的多摄像机设置。表4：用于单帧手部姿势预测的不同方法的评估。在将预测网格与地面实况网格对齐后，获得网格误差（以cm为单位）和F分数。在将根关节的位置和整体比例与地面实况对齐后，获得平均关节误差（单位：cm）。使用关节方向预测以及2D关节预测的手部姿势预测提供了比直接预测MANO参数更好的准确性，如[18]所示。从不同的角度拍摄，总共11，524帧。测试集序列还包含训练集中不存在的主题和对象。我们从以前的作品报告三个不同的指标：将根关节和全局尺度的位置与地面实况对齐后的平均关节位置误差[73];测量预测和地面实况网格顶点之间的平均欧几里得距离的网格误差[74];以及F分数[74]，定义为给定距离阈值的两个网格之间的召回率和精度之间的调和平均值。网格误差和F分数是在使用Procrustes对齐将预测网格与地面真实网格对齐之后获得的，因此不能测量腕关节旋转的准确性。另一方面，平均关节误差考虑腕关节位置，因为在评估之前3D点没有旋转。为了了解联合方向预测对整体精度的影响（14）。我们还将我们的结果与[18]的手部分支进行了比较，[18 ]是一项非常新的工作，直接从单个RGB图像预测MANO姿势和形状参数，并在我们的数据集上重新训练。如表4所示，预测关节方向以及2D关节位置显著改善了图3：我们的单色图像手部姿势估计方法的定性结果。它可以恢复手的姿态，即使手是严重闭塞的对象和在clutter- tered场景。最后一行显示它可以处理看不见的对象。手姿态估计精度。还可以推断，预测2D手部关节位置并将MANO模型拟合到它们比直接MANO参数预测更准确，如[18]中所述。定性结果见图。3 .第三章。最后一行表明，即使在与未知对象交互时，我们的方法也能鲁棒地7. 结论我们引入了一种全自动的方法来注释图像的手操纵对象与他们的3D姿态，即使在大的闭塞，通过利用时间consideration。我们还介绍了第一个彩色图像的无标记数据集，用于基准3D手+物体姿态估计。为了证明我们的数据集的有用性，我们提出了一种从单色图像预测手的3D姿态的方法。另一个未来的应用是从单个RGB帧联合估计手+对象姿势。缺乏高质量的手部分割（我们不得不使用第3节中解释的合成数据集）有时会影响准确性。改进这些分割和/或引入吸引项和物理约束，如[52，61]将进一步改进我们的注释。8. 确认这项工作得到了 Christian Doppler Semantic 3DComputer Vision实验室的支持，该实验室部分由高通公司资助。方法网格错误？F@5mm？F@15mm？联合错误？Joints2D1.140.490.933.14连接2D+方向维克1.060.510.943.04[18个国家]1.300.420.908.313208引用[1] YCB基准-对象和模型集。http://ycbbenchmarks.org/。 2[2] LucaBallan，AparnaTaneja，JürgenGall，LucVanGool，andMarc Pollefeys.使用区别性显著点的动作中的手的运动捕获。欧洲计算机视觉会议（ECCV），第640-653页，佛罗伦萨，2012年10月。3[3] 放大图片作者：David J.克兰德尔和陈宇。伸出援手：在复杂的自我中心互动中检测手和识别活动。在IEEE国际计算机视觉会议（ICCV），第1949-1957页，2015年。3[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议中，第10843-10852页，2019年。5[5] Anders Glent Buch，Lilita Kiforenko和Dirk Kraft。旋转分组投票和姿态聚类用于鲁棒的3d物体识别。在IEEE计算机视觉国际会议（ICCV），第4137-4145页，美国，2017年。2[6] 伊恩·M放大图片作者：Thomas Feix，and Aaron M.美元.耶鲁人类抓握数据集：家庭和机器车间环境中的抓握，物体和任务国际机器人研究杂志，34（3）：2513[7] 蔡敏杰，Kris M.北谷和佐藤洋一一种可扩展的理解手抓握视觉结构的方法。2015年IEEE机器人与自动化国际会议（ICRA）3[8] 曹启新，张浩若。结合整体和局部修补恢复6D对象姿态。在IEEE国际计算机视觉会议（ICCV），第2219-2227页2[9] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再论Atrous卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。4[10] Chiho Choi ， Sang Ho Yoon ， Chin-Ning Chen ， andKarthik Ramani.在与未知物体交互期间的鲁棒手部姿态估计。在IEEE国际计算机视觉会议（ICCV），第3142-3151页，2017年。3[11] 安德鲁河，澳-地康恩M. Gould，and Philippe L.托因特信赖域方法SIAM，2000年。6[12] 放大图片作者：Martin de La Gorce，David J.弗利特和尼科斯·帕拉吉奥斯基于模型的单目视频三维手势估计。IEEE传输模式分析马赫内特尔（PAMI），33（9）：1793-1805，2011. 2[13] Alireza Fathi，Xiaofeng Ren，and James M.瑞格学习在自我中心活动中识别物体。在IEEE计算机视觉和模式识别会议中，第3281-3288页，2011年。3[14] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准-带有RGB-D视频和3D手部姿势注释。在IEEE计算机视觉和模式识别会议（CVPR）中，第409-419页，2018年。一、二、三、四[15] 刘浩、蔡玉军、翁君武、袁俊松。Hand PointNet：基于点集的三维手姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第8417-8426页，2018年。2[16] 邓肯·高迪和阿芙罗狄蒂·加拉塔基于卷积神经网络的三维手部物体深度姿态估计IEEEInternational Conferenceon Automatic Face Gesture Recognition，2017。3[17] Shreyas Hampali，Markus Oberweger，Mahdi Rad，andVincent Lepetit. HO-3D：用于联合3D手部对象姿态估计的多用户、多对象数据集。CoRR，abs/1907.01481，2019。5[18] 杨娜·哈森，古尔·瓦罗尔，迪米·特里奥斯·齐奥纳斯，伊戈尔·卡莱-瓦泰克，迈克尔·J.Black，Ivan Laptev，andCordelia Schmid.学习手部和被操纵物体的关节重建。在IEEE计算机视觉和模式识别会议（CVPR）中，第11807-11816页，2019年。一二三四八[19] 保罗·亨德森和维托里奥·法拉利。通过形状、姿态和阴影的生成建模学习单图像3D重建。国际计算机视觉杂志（IJCV），第1573-1405页，2019年。四、五[20] 胡因林、约阿希姆·雨果诺特、帕斯卡·福阿和马蒂厄·萨尔茨曼。分割驱动的6D物体姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）中，第3385-3394页，2019年。2[21] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3D变形模型。在IEEE计算机视觉和模式识别会议（CVPR），第8320-8329页，2018年。三、四[22] Wadim Kehl 、 Fausto Milletari 、 Federico Tombari 、Slobodan Ilic和Nassir Navab。局部RGB-D补丁的深度学习，用于3D对象检测和6D姿态估计。在欧洲计算机视觉会议（ECCV），第205-220页2[23] CemKeskin，FurkanKirac，YunusEmreKara，andLaleAkarun.基于多层随机决策森林的手部姿态估计和手形分类。欧洲计算机视觉会议（ECCV），第852-863页，2012年2[24] Diederik P. Kingma和Jimmy Ba。亚当：一种随机优化方法。在2015年的国际学习表征会议（ICLR）上。2[25] Mia Kokic，Danica Kragic，and Jeannette Bohg.学习从RGB图像估计手持物体的姿势和形状。在IEEE/RSJ智能机器人和系统国际会议（IROS）上，第3980

下载后可阅读完整内容，剩余1页未读，立即下载