没有合适的资源?快使用搜索试试~ 我知道了~
基于图的手-物体姿态估计模型(HOPE-Net)
1HOPE-Net:一种基于图的手-物体姿态估计模型BardiaDoosti 1ShujonNaha 1MajidMirbagheri 2David J. 克兰德尔11印第安纳大学布卢明顿分校{bdoosti,snaha,djcran}@ indiana.edu2华盛顿大学学习与脑科学研究所mbagheri@uw.edu项目页面:http://vision.sice.indiana.edu/projects/hopenet摘要手物体姿态估计(HOPE)的目的是共同去,400350300250检测手和手持物体的姿势。在本文中,我们提出了一个轻量级模型HOPE-Net200150100500100其实时地联合估计2D和3D中的手和对象姿态。我们的网络使用两个自适应级联−1008060−50 4002050图卷积神经网络,一个用于估计手关节和对象角点的2D坐标,另一个用于将2D坐标转换为3D。我们的实验表明,通过对整个网络进行端到端的训练,我们在2D和3D坐标估计问题上都实现了更好的所提出的基于2D到3D图形卷积的模型可以应用于其他3D地标检测问题,其中可以首先预测2D关键点,然后将它们变换为3D。1. 介绍我们用手作为感知和与世界互动的主要手段。因此,为了理解人类活动,计算机视觉系统需要能够检测手的姿势并识别正在处理的对象的属性。这种人手-物体姿态估计(HOPE)问题对于各种应用至关重要,包括增强和虚拟现实、细粒度动作识别、机器人和远程呈现。然而,这是一个具有挑战性的问题。手在与世界互动时移动得很快,根据定义,处理物体会从几乎任何给定的角度产生手和/或物体的遮挡此外,手-对象交互视频通常从第一人称(可穿戴)相机(例如,对于增强现实应用),从而产生很大程度的不可预测的相机运动。当然,一种方法是分别检测手和物体的姿势[27,30]。然而,这忽略了图1.手-物体姿态估计(HOPE)的目标是联合估计手和被处理物体的姿态。我们的HOPE-Net模型可以在给定单个图像的情况下实时估计2D和3D手和手和被处理的物体姿势高度相关的事实:物体的形状通常限制了可用于处理它的抓握类型(手的姿势)。检测手的姿势可以给出关于对象的姿势和身份的线索,而对象的姿势可以约束握住它的手的姿势共同解决这最近的工作[10,26]提出了基于深度我们建立在这项工作上,展示了如何通过更明确地模拟手-物体交互的物理和解剖约束来提高性能。我们建议使用图卷积神经网络来实现这一点。鉴于其学习图结构数据的有效表示的能力,图卷积神经网络最近在计算机视觉中受到了广泛关注人手和身体姿势估计问题特别适合于基于图形的技术,因为它们可以自然地对关节和身体部位之间的骨骼和运动学约束进行建模。图形卷积可用于学习这些关节间关系。在本文中,我们表明,图卷积可以显着提高估计的性能,在现实世界的手对象操作视频的三维手对象的姿态。我们的手和对象表示为一个单一的图形模型的手-对象交互我们专注于估算3D66086609从自我中心(第一人称)和第三人称单目彩色视频帧的手对象姿态,而不需要任何深度信息。我们的模型首先预测手关节和对象边界的2D关键点位置。然后,模型以分层方式从2D姿态估计中联合恢复深度信息(图1)。这种首先在2D中进行估计然后“转换”到3D的方法我们的图卷积方法允许我们使用基于检测的模型来检测2D中的手部关键点(这比预测3D坐标更容易),然后将它们准确地转换为3D坐标。我们表明,使用这种基于图形的网络,我们不仅限于在带注释的真实图像上进行训练,而且可以使用从与对象(例如,手)交互的3D网格渲染的合成图像分别预训练2D到3D网络。ObMan数据集[10])。这对于训练用于手对象姿势估计的模型非常有用,因为用于这些场景的真实世界注释数据是稀缺的并且收集起来是昂贵的简而言之,我们工作的核心贡献是:• 我们提出了一个新颖但轻量级的深度学习框架HOPE-Net,它可以预测手和手操作对象的2D和3D坐标,实时的我们的模型准确地预测从单个RGB图像的手和对象的姿势。• 我们介绍了自适应图U-网络,一个基于图卷积的神经网络,通过新颖的图卷积将2D手部和物体姿势转换为3D,池化和取消池化层。这些层的新公式使其与现有的Graph U-Net [5]模型更加稳定和鲁棒。• 通过大量的实验,我们表明,我们的方法可以优于最先进的模型联合手和对象的三维姿态估计任务,仍然在实时运行2. 相关工作我们的工作涉及两个主要研究方向:用于理解基于图形的数据的联合手对象姿态预测模型和图形卷积网络。手部物体姿态估计。由于手的姿态和被操纵对象的形状之间Oikonomaly等。[20]使用手-物体交互作为上下文,以更好地从多视图图像中估计2D手部姿势。Choi等人[3]训练了两个网络,一个以物体为中心,一个以手为中心,从物体和手的角度捕获信息,并在这两个网络之间共享信息,以学习更好的表示来预测3D手部姿势。Panteleris等人[21]基于手-对象交互和深度信息生成未知对象的3D手部姿势和3D模型。Oberweger等人[19]提出了一种迭代方法,通过使用空间Transformer网络(STNs)来分别关注被操纵的对象和手,以预测它们相应的姿势。后来,他们估计了手和物体的深度图像,并使用逆卷积将它们融合在合成的深度图像被用于细化手和对象姿态估计。最近,Hassonet al. [10]表明,通过结合物理约束,负责学习对象和手部表示的两个独立网络可以结合起来,以生成更好的3D手部和对象形状。Tekin等人[26]提出了一个单一的3D YOLO模型,从单个RGB图像中联合预测3D手部姿势和物体姿势。图卷积网络。图形卷积网络允许学习基于图形的数据的节点之间的关系的高级表示。Zhao等人[31]提出了一种语义图卷积网络,用于捕获人体关节之间的局部和全局关系Cai等人[1]通过使用可以学习多尺度表示的图形卷积网络对人体和手关节的领域知识进行编码,将2D人体关节转换为3D。Yan等人[29]使用图形卷积网络来学习人体关节的空间-时间表示,以用于基于卷积的动作识别。Kolotouros等人[14]表明,图卷积网络可以用于从单个RGB图像中提取3D人体形状和姿势,而Ge等人。[7]使用它们从图像中生成完整的手部3D网格Li等[17]使用图卷积网络进行基于卷积的动作识别,而Shi等人。[24,25]类似地使用两个流自适应图卷积。Gao等人[5]引入了Graph U-Net结构及其提出的池化和非池化层。但是,这种池化方法在边数较少的图(如骨架或对象网格)上效果不佳。 Ranjan等人[22]使用固定池和Hanocka等人。[9]使用边池化以防止池化后网格中出现孔洞。在本文中,我们提出了一种新的图形U-Net架构,具有不同的图卷积,池化,和unpooling。我们为我们的图卷积层和新的可训练池化和解池化层使用自适应邻接矩阵。3. 方法我们现在介绍HOPE-Net,它由一个卷积神经网络组成,用于对图像进行编码并预测手和物体钥匙的初始2D位置。66102D关键点预测器2D预测3D预测图卷积自适应图U网3D损失2D损失初始2D损失图2.HOPE-Net的体系结构该模型以ResNet10作为图像编码器,用于预测关节和对象顶点的初始2D坐标与图像特征连接的坐标用作3层图卷积的输入图的特征最后,在上一步中预测的2D坐标被传递到我们的自适应图形U-Net,以找到手和物体的3D坐标。点(手部关节和紧密的对象边界框角)、用于细化预测的2D预测的简单图形卷积以及用于使用一系列图形卷积、池化和解池化将2D关键点转换为3D的图形U-Net架构图2显示了HOPE-Net体系结构的总体示意图3.1. 图像编码器与图卷积对于图像编码器,我们使用轻量级残差神经网络[11](ResNet10)来帮助减少过拟合。图像编码器为每个输入图像产生2048D特征向量。然后,使用完全连接的层产生关键点(手关节和对象的紧密边界框的角)的2D坐标的初始预测。受[15]架构的启发,我们将这些特征与每个关键点的初始2D预测连接起来,为每个节点生成一个具有2050个特征(2048个图像特征加上x和y一个3层自适应图卷积网络应用于这个图,以使用邻接信息并修改关键点的2D坐标。在下一节中,我们将深入解释自适应图卷积。图像特征与每个关键点的预测x和y的连接迫使图形卷积网络修改以图像特征为条件的2D坐标以及2D坐标的初始预测。然后,手和对象关键点的这些最终2D坐标被传递到我们的自适应Graph U-Net,这是一种使用自适应卷积、池化和解池化将2D坐标转换为3D的图形卷积网络。3.2. 自适应图U网在本节中,我们将解释我们的基于图形的模型,该模型预测手关节和对象核心的3D坐标基于预测的2D坐标。在这个网络中,我们通过在编码部分应用图池来简化输入图,在解码部分,我们再次使用我们的图解池层添加这些此外,类似于经典的U-Net [23],我们在每个解码图卷积中使用从编码阶段到解码阶段的有了这个架构,我们有兴趣训练一个网络,它简化了图,以获得手和对象的全局特征将HOPE问题建模为图有助于使用邻居来预测更准确的坐标,并发现手和对象之间的关系。图U-Net概念以前由Gao等人引入。[5],但我们的网络层,即。图卷积、池化和非池化是显著不同的。我们发现[5](gPool)的池化层中的sigmoid函数可以导致梯度消失,并且根本不会更新拾取的节点。因此,我们使用一个全连接层来池化节点,并在图卷积层中更新我们的邻接矩阵,使用邻接矩阵作为我们应用于图的内核。此外,Gaoet al. s gPool [5]删除顶点和所有连接到它们的边,并且没有重新连接剩余顶点的过程。这种方法对于稠密图(例如,Citeseer [13]),其中删除节点及其边不会改变图的连通性。但在具有稀疏邻接矩阵的图中,例如当图是网格或手或身体骨架时,移除一个节点及其边可能会将图切割成几个孤立的子图并破坏连通性,这是图卷积神经网络最重要的特征。使用自适应图卷积神经网络,6611gconv129 × 4pool115 x 4gconv215 x 815 x 8gconv9池27 × 8gconv37 x 167 x 16gconv8unpool97 × 8游泳池34 x 16gconv44 x 324 x 32gconv7unpool84 x 16池42 x 32gconv52 x642 x 64gconv6unpool72 x 32pool51 x 64FC11 x20FC2unpool61 x 64图3.我们的自适应图U-Net架构的示意图,用于从2D坐标估计3D坐标在每个池化层中,我们大致将节点数量减半,而在每个非池化层中,我们将图中的节点数量图像中的红色箭头是跳过层特征,这些特征被传递到解码器以与未合并的特征连接我们避免了这个问题,因为网络在每个池化层之后找到节点的连通性。下面我们将详细解释网络的三个组成部分,图卷积,池化和非池化层。自适应Graph U-Net的架构如图3所示。3.2.1图卷积图卷积网络的核心部分是图卷积运算的我们基于[13]中提到的重正化技巧实现了我们的卷积:具有N个节点、k个输入特征和每个节点的n个输出特征的输入图的图卷积层的输出特征计算为:Y=σ(AXW),(1)其中σ是激活函数,W∈Rk× N是可训练权矩阵,X∈RN×k是输入特征矩阵,A∈RN×N是图的r-正规化邻接A=D−1AD−1,(2)矩阵,其中节点可以通过加权边连接到图中的许多其他节点。自适应图卷积操作在反向传播步骤期间更新邻接矩阵(A)以及权重矩阵(W)这种方法允许我们对手部骨骼模型中未连接的关节之间的微妙关系进行建模(例如,指尖之间的强关系,尽管没有物理连接)。我们使用ReLU作为图卷积层的激活函数。我们还发现,如果我们不使用Batch [12]或Group Normalization[28],网络训练速度更快,泛化能力更好。3.2.2图形池如前所述,我们发现gPool [5]在我们的问题中没有帮助:sigmoid函数的弱点是众所周知的[16,18],并且在池化步骤中使用sigmoid在反向传播期间产生非常小的梯度。这导致网络在整个训练阶段不更新随机初始化的池化节点,失去了可训练池化层的优势。2 2为了解决这个问题,我们使用全连接层其中A=A+I,D是对角节点度矩阵。一个节点只是定义了每个节点使用其他节点特性的程度所以AX是新的特征矩阵,每个节点的特征是该节点自身及其相邻节点的平均特征。因此,为了在此框架下有效地计算HOPE问题,需要一个有效的邻接矩阵。最初,我们尝试使用由手骨架的运动学结构和网络第一层的对象边界框定义的邻接矩阵。但我们发现让网络学习最佳邻接矩阵更好。请注意,这不再是严格意义上的邻接矩阵,而更像是并将其应用于特征矩阵的转置。这个全连接的工作作为一个内核沿着每个功能,并输出所需的节点数量。与gPool相比,我们发现这个模块在培训期间更新得非常好。同样由于使用了自适应图卷积,这种池化不会将图分割成碎片。3.2.3图形解池我们的Graph U-Net中使用的unpooling层也与Gao等人的不同。s gUnpool [5].该方法将池节点添加到具有空特征的图中,并使用后续的图卷积来填充这些特征。相反地,29 x 2gconv1029 ×429 x3unpool1015 x 46612我们在解池层中使用转置卷积方法。与我们的池化层类似,我们使用全连接层并将其应用于特征的转置矩阵以获得所需数量的输出节点,然后再次转置矩阵。200010000-10003.3. 损失函数与模型训练我们用于训练模型的损失函数有三个部分。我们首先计算由ResNet(Linit2D)预测的初始2D坐标的损失 然后我们把这个损失加到根据预测的2D和3D坐标(L2D)计算-2000-3000-4000-50000 500 1000 1500 2000 2500 3000像素和L3D),L=αLinit2D+βL2D+L3D,(3)其中我们将α和β设为0。1,以使2D误差(以像素为单位)和3D误差(以毫米为单位)处于相似的范围内。对于每个损失函数,我们使用均方误差。4. 结果我们现在描述我们的实验和报告结果的手对象姿势估计。4.1. 数据集为了评估我们的手对象姿势估计方法的通用性,我们使用了具有非常不同的上下文的两个数据集:第一人称手部动作数据集[6],其具有从以自我为中心的(可穿戴)相机捕获的视频,以及从第三人称视图捕获的HO-3D [ 8 ]。我们还使用了第三个合成图像数据集ObMan [10]进行预训练。第一人称手部动作数据集[6]包含在各种物体上执行的手部动作的第一人称视频这些物品是牛奶、果汁瓶、液体肥皂,盐,动作包括打开、关闭、倾倒和放置。提供了对象的三维网格。虽然这是一个大的数据集,但相对较小的帧子集(21,501)包括6D对象姿态注释,其中11,019个用于训练,10,482个用于评估。为每个帧提供的注释是一个6D矢量,为每个对象提供3D平移和旋转为了使该注释适合我们的图模型,对于每个帧中的每个对象,我们将3D对象网格平移并旋转到注释给出的姿势,然后计算紧密定向的边界框(简单地说,顶点坐标上的PCA)。我们使用对象盒角的八个3D坐标作为图中的节点HO-3D数据集[8]也包含手和手持物体,但非常不同,因为它是从第三人称视角捕获的。手和物体在这些视频更小,因为它们离摄像机更远,并且它们的位置比第一人称视频(在第一人称视频中,人们倾向于将他们的视野集中在关注的对象周围)更不受约束。HO-3D含有77,558个图4.第一人称手部动作数据集中关键点坐标的散点图。红色虚线矩形表示图像帧。由于许多点在图像边界之外,因此基于检测的模型在该数据集上不能很好地工作。用手和物体注释的帧,并收集了10个受试者和10个物体。66,034帧被指定为训练集,11,524帧用于评估。HO-3D的评估集中的手仅用手腕坐标注释,而整只手不注释。ObMan[10]是手-物体交互的合成生成图像的大型数据集。该数据集中的图像是通过使用来自ShapeNet [2]的选定对象渲染手部网格来生成的,使用对对象的抓握进行优化。 ObMan包含141550个训练帧、6463个验证帧和6285个评估帧。尽管注释数据的规模很大,但我们发现用这些合成图像训练的模型并不能很好地推广到真实图像。尽管如此,我们发现在ObMan的大规模数据上预训练我们的模型,然后使用真实图像进行微调是很有帮助的。所有这些数据集都使用21个关节模型,其中包含手腕的一个关节和每个手指的4个关节。4.2. 实现细节由于第一人称视频的性质,手经常离开视野,因此第一人称手部动作数据集中大约一半的帧至少有一个关键点在帧外(图4)。正因为如此,我们发现基于检测的模型在这个数据集中不是很有帮助。因此,我们使用基于回归的模型来找到初始2D坐标。为了避免过拟合,我们使用了一个轻量级的ResNet,它提供了更好的泛化。这个轻量级模型也很快,允许我们近乎实时地运行我们的模型对于这两个数据集,我们使用官方的 训练和 评估分割 ,并在ObMan 上进 行预训 练[10]。由于HOPE-Net具有不同的参数数量和复杂度,我们分别训练图像编码器和图形2D到3D转换器网络可以单独训练,因为它不依赖于注释的IM。像素6613Tekin等人2018Tekin 等人2019年HopeNet2D预测正确预测10080806060404020200 00 10 20 30 40 50像素阈值0 10 20 30 40 50 60 70 80mm阈值图5.与[26]和[27]相比,我们的模型在第一人称手部动作数据集上的正确2D对象姿势的百分比图卷积层帮助模型预测更准确的坐标。年龄除了FPHA数据集中的样本外,我们还使用高斯噪声(µ=0,σ=10)增强2D点,以帮助提高对错误的鲁棒性。对于FPHA和HO-3D数据集,我们以0的初始学习率训练ResNet模型。001乘以0 每100步9次。我们训练ResNet 5000个epoch,训练图卷积网络10000个epoch,从学习率0开始。001乘以0的情况。每走4000步。最后,我们将模型端到端地训练另外5000个epoch。所有图像都被调整为224×224像素,并传递到ResNet。所有的学习和推理都在PyTorch中实现。4.3. 度量与[26]类似,我们使用2D和3D坐标的正确姿势(PCP)百分比来评估我们的模型。在该度量中,如果到地面实况姿态的平均距离小于阈值,则姿态被认为是正确的。4.4. 手部对象姿态估计结果我们现在报告我们的模型在两个数据集上的性能和对象姿态估计。图5显示了第一人称手部动作数据集上每个像素阈值的正确对象姿势的百分比正如我们在该图中所看到的,HOPE-Net模型产生的2D对象姿态估计优于Tekin等人的最新模型。[26]对于2D对象姿态估计,即使我们不使用对象定位器并且我们在不使用时间约束的情况下对单个帧进行操作。此外,我们的架构是轻量级的,运行速度更快.图6显示了第一人称手部动作数据集上各种阈值(以毫米为单位测量)的正确3D姿势的百分比。结果表明,HOPE-Net模型优于Tekin等人。基于RGB的图6.与[26]的基于RGB的技术和[6]的基于深度的技术相比,我们的模型在第一人称手部动作数据集上的正确3D手部姿势的百分比我们的模型在大致准确的2D估计上运行良好。模型[26]和Herandoet al. s [6]在3D姿态估计中基于深度的模型,即使不使用对象定位器或时间信息。我们还使用各种其他输入测试了我们的图形模型,包括地面真实2D坐标,以及添加了高斯噪声的地面真实2D坐标(零均值,σ=20和σ=50)。图6显示了结果。我们注意到,图模型能够有效地从关键点坐标中去除高斯噪声图7显示了我们的模型在第一人称手部动作数据集上的选定定性结果。图8针对每个手指并且还针对手的每种类型的关节分解2D到3D转换器的误差。我们还测试了最近的HO-3D数据集的第三人称视频。虽然手和物体在图像中的位置在HO-3D中变化更大,但我们发现HOPE-Net的性能更好,这可能是因为数据集的大小。HOPE-Net的曲线下面积(AUC)评分为0。712用于2D姿势,0. 967用于3D姿态估计。注意,HO-3D的评估集中的手仅用手腕注释(没有完整的手注释)。因此,上述结果仅针对手腕关键点。4.5. 自适应图U网消融研究我们还对我们的自适应图形U-Net进行了消融研究,以确定哪些组件对实现我们的结果很我们首先将我们的模型与其他模型进行比较,然后评估邻接矩阵初始化对自适应图U-Net性能的影响。为了显示我们的U-Net结构的有效性,我们将其与两种不同的模型进行了比较,一种模型具有三个完全Tekin 等人(RGB)Hernando等人(深度)HopeNet 3D预测(RGB)2DGT+N(0,50)上的自适应GraphUNet自适应GraphUNet在2DGT+N(0,20)上的应用正确预测6614误差(mm)350 400450 500 550 6006507001251007550250−25−503002502001501005003504004505005506000−500−50−100−150−20020015010050375400425450475500525550575200150100500−501751501251007550250150100500−50−100−80−100−120−140−160−180−200−220200150100500−50−100350 375400425 450 4755006040200−20−40−602502753003253503754004250−50−100−1503504004505005500−50200150100501007550250−25−50−757550250−25−50−75−100100500−50−1001502002503000−50−100−150−200350−2503003504004505005500−50−100150100503504004505000−50−100550100501251007550250−25100500−50−1000−50−100−150−200300350 400 4505000550600−50250200150100503504004505005500250200150100503504004505000550600−50250200150100503003504004505005500−50−100−1501501251007550250−2510050250 3003504000−50450500−100100500−50−100−150150100503003504004500−50−100500550−150100500−50−100−15015010050图7. HOPE-Net在第一人称手部动作数据集上的定性2D和3D结果。估计的姿态以颜色示出,并且地面实况以黑色示出。最后一行包括三个失败案例。6表1。给定2D姿态的3D手和对象姿态估计的平均误差。 第一行是多层感知器,第二行是没有池化的3层图卷积,44不合并。 自适应图U网结构具有最好的性能,三点三分。22结构平均误差(mm)11完全连接185.18自适应图形卷积68.9300自适应图形U-Net6.81(a)(b)第(1)款图8.平均3D姿态估计误差在(a)手的每个关节和(b)每个手指上分解请注意,MCP、PIP和表2.使用不同池化方法对2D到3D手部和物体姿态估计的平均误差。我们的可训练池方法产生最佳结果。DIP表示位于手腕和指尖之间的3个关节(TIP),按此顺序。连接层和一个有三个图形卷积层,没有池化和非池化。我们对3D输出中每个图卷积模型的重要性感兴趣。这些模型中的每一个都经过训练,以将手和对象关键点的2D坐标转换为3D。表1示出了结果。自适应图U-Net比其他方法表现得更好。这个巨大的利润似乎来自于U-Net结构以及池化和非池化层。为了了解我们的图池层的效果,我们将其与Gao等人进行了比较。s [5] gPool,也有固定的平均误差(mm)美国[5]固定池层7.41可训练池6.81池化节点,这些节点不会将图分解为多个部分。表2比较了不同图池化方法的性能。我们看到,通过使用更有效的训练算法,并且在池化后不分解图,我们的池化层比gPool性能更好。由于我们使用自适应图卷积,因此网络也学习邻接误差(mm)手腕MCPPIP烫尖端拇指指数中间环Pinky556615矩阵我们测试661600052141026315842010512256140 5101520250.02.55.07.510.0 12.50123456A0A1A2A3A4图9.自适应图卷积层的学习邻接矩阵的可视化。例如,我们在A0矩阵中看到,对象边界框的角(行和列索引21到29)彼此高度依赖,并且指尖之间也存在相对较强的连接。表3.自适应图卷积层中3D姿态估计的平均误差当用单位矩阵初始化时,模型具有最佳性能。“Skeleton” in the fourth rowrefers to an adjacency matrix that simply encodes the actualkinematic structure of the human初始邻接矩阵平均误差(mm)零(0n×n)92805.02随机初始化94.421个(1n×n)63.25骨架12.91鉴别(In×n)6.81不同邻接矩阵初始化对最终性能的影响,包括:手骨架和对象包围盒,有和没有自环的空图,完全图,以及顶点的随机连接。表3给出了用这些矩阵中的每一个初始化的模型的结果,表明单位矩阵是最佳初始化。换句话说,当模型从无偏(无信息)初始化开始找到节点之间的关系时,它似乎学习得最好。图9中显示了图形卷积层(从In×n开始)的最终训练邻接矩阵。我们看到模型发现的关系是-手骨架模型中未连接的补间节点。例如,它发现了节点6(食指的PIP)和节点4(拇指的TIP)之间的关系4.6. 运行时如前所述,HOPE-Net由一个轻量级特征提取器(ResNet 10)和两个图卷积神经网络组成,比最浅的图像卷积神经网络快模型的核心推理可以在NvidiaTitan Xp上实时运行。在这样的GPU上,单帧的整个2D和3D推理仅需0.005秒。5. 结论和未来工作在本文中,我们介绍了一个模型,从一个单一的图像,使用图像编码器,其次是级联的两个图卷积神经网络的手对象的二维和三维姿态估计我们的方法击败了最先进的技术,同时也实时运行。然而,我们的方法也有局限性。当在FPHA和HO-3D数据集上训练时,我们的模型非常适合于与训练期间数据集中看到的大小或形状相似的对象,但可能无法很好地推广到所有类别的对象形状。例如,缺乏紧密3D边界框的非凸几何形状的对象对于我们的技术将是一个挑战。对于现实世界的应用,包括更多种类的形状和环境的更大的数据集将有助于提高估计精度。未来的工作可能包括将时间信息整合到我们的基于图形的模型中,以改善姿势估计结果并作为动作检测的一步图分类方法可以集成到所提出的此外,除了手部姿势估计,在这项工作中引入的自适应图U-网可以应用于各种其他问题,如图的完成,蛋白质分类,网格分类,和身体姿势估计。确认本 文 中 的 工 作 部 分 得 到 了 国 家 科 学 基 金 会(CAREER IIS-1253549)、IU研究副教务长办公室、文理学院和Luddy信息、计算和工程学院的支持,通过新兴的研究项目“学习:《大脑、机器和孩子》6617引用[1] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan,and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE计算机视觉国际会议论文集,第2272- 2281页,2019年。2[2] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。5[3] Chiho Choi , Sang Ho Yoon , Chin-Ning Chen , andKarthik Ramani.在与未知对象交互期间的鲁棒手部姿态估计。在IEEE国际计算机视觉会议(ICCV),第3123-3132页,2017年。2[4] 巴迪亚·杜斯蒂手部姿势估计:一个调查。CoRR,abs/1903.01013,2019。2[5] Hongyang Gao和Shuiwang Ji。图u网。在国际学习代表会议(ICLR),2019年。二、三、四、七[6] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记,带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议,2018年。五、六[7] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计在IEEE计算机视觉和模式识别会议(CVPR),第10833-10842页2[8] Shreyas Hampali,Mahdi Rad,Markus Oberweger,andVin- cent Lepetit.Honnotate:一种手部和物体姿态的3D注释方法5[9] Rana Hanocka、Amir Hertz、Noa Fish、Raja Giryes、Shachar Fleishman和Daniel Cohen-Or。Meshcnn:一个有 边 缘 的 网 络 。 ACM Transactions on Graphics(TOG),38(4):90,2019。2[10] 杨娜·哈森,古尔·瓦罗尔,迪米·特里奥斯·齐奥纳斯,伊戈尔·卡莱-瓦泰克,迈克尔·J.Black,Ivan Laptev,andCordelia Schmid.学习手和操作对象的关节重建。在IEEE计算机视觉和模式识别会议(CVPR),2019。一、二、五[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页,2016年。3[12] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议(ICML)上4[13] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。国际学习表征会议(ICLR),2017年。三、四[14] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。IEEE计算机会议视觉和模式识别(CVPR),第4501-4510页,2019年。2[15] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在IEEE计算机视觉和模式识别会议上,2019年6月。3[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展(NeurIPS),第1097-1105页,2012年。4[17] Maosen Li,Siheng Chen,Xu Chen,Ya Zhang,YafengWang,and Qi Tian.用于基于骨架的动作识别的动作结构图卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。2[18] Vinod Nair和Geoffrey E Hinton。修正线性单元改进受限玻 尔 兹 曼 机 。 在 International Conference on MachineLearning(ICML),第8074[19] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.用于联合手-物体姿态估计的广义反馈回路。IEEETransactionsonPatternAnalysisandMachineIntelligence,2019。2[20] Iason Oikonomidis , Nikolaos Kyriazis , and Antonis AArgy-ros.通过建模遮挡和物理约束来实现手与对象交互的全自由度跟踪2011年国际计算机视觉会议,第2088IEEE,2011年。2[21] Paschalis Panteleris,Nikolaos Kyriazis,and Antonis AAr-gyros.与未知物体交互的人手的3D跟踪。在英国机器视觉会议(BMVC),第123-1页,2015年。2[22] Anurag Ranjan , Timo Bolkart , Soubhik Sanyal , andMichael J Black.使用卷积网格自动编码器生成3d人脸。在欧洲计算机视觉会议(ECCV),第704-720页,2018年。2[23] Olaf Ronneberger,Philipp Fischer,and Thomas Brox. U-net:用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议,第234施普林格,2015年。3[24] 石磊,张一凡,程健,卢汉青。基于骨架的动作识别与有向图神经网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。2[25] 石磊,张一凡,程健,卢汉青。基于骨架动作识别的双流自适应图卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。2[26] Bugra Tekin,Federica Bogo,and Marc Pollefeys.H+o:3D手对象姿势和交互的统一自我中心识别在IEEE计算机视觉和模式识别会议上,2019年6月。一、二、六[27] Bugra Tekin、Sudipta N Sinha和Pascal Fua。实时无缝单镜头6d物体姿态预测。在IEEE计算机视觉和模式识别会议(CVPR)中,第292-301页,2018年。1、66618[28] Yuxin Wu和Kaiming He。组归一化。在欧洲计算机视觉会议(ECCV),第3-19页,2018年。4[29] 严思杰,熊元军,林大华。用于基于骨架的动作识别的空间时间图卷积网络。第三十二届AAAI人工智能会议,2018。2[30] ShanxinYuan,GuillermoGarcia-Hernando,BjoürnStenger , Gyeongsik Moon , Ju Yong Chang ,Kyoung Mu Lee , Pavlo Molchanov , Jan Kautz , SinaHonari,Liuhao Ge,et al.基于深度的3D手姿态估计:从目前的成就到未来的目标。在IEEE计算机视觉和模式识别会议,第2636-2645页1[31] Long Zhao,Xi Peng,Yu Tian,Mubbasir Kapadia,andDim- itris N Metaxas.用于3d人体姿态回归的语义图卷积网络。在IEEE计算机视觉和模式识别会议,第3425-3435页2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功