没有合适的资源?快使用搜索试试~ 我知道了~
9896CrossInfoNet:基于多任务信息共享的手势估计杜国1林祥波2孙毅2马晓红2大连理工大学1dumyy2728@mail.dlut.edu.cn,2{linxbo,lslwf,maxh}@dlut.edu.cn摘要本文主要研究了基于视觉的卷积神经网络(CNN)手部我们的主要贡献在于设计了一个新的姿态回归网络架构命名为CrossIn-foNet。CrossInfoNet将手部姿态估计任务分解为手掌姿态估计子任务和手指姿态估计子任务,并采用两分支交叉连接结构,实现子任务间有益的我们的工作受到多任务信息共享机制的启发,这在以前的出版物中很少讨论使用深度数据的手部姿态估计。此外,我们提出了一个热图引导的特征提取结构,以获得更好的特征图,并训练完整的网络端到端。提出的CrossInfoNet的有效性进行了评估,广泛的自我比较实验,并在与国家的最先进的方法在四个公共的手姿势数据集。代码在1中可用。1. 介绍基于视觉的三维手势估计是计算机视觉、虚拟现实和机器人领域的研究热点。它已经被研究了几十年,近年来取得了重大进展[3,6,19]。然而,由于高关节灵活性、局部自相似性和严重遮挡等问题的挑战,该问题仍然远未得到解决。在基于视觉的手部姿态估计中已经做出了不同的努力。输入数据从单RGB [2,7]、立体RGB [24,27]变为深度图他们有许多成就[26,30,39]。最近,似乎有一个新的兴趣RGB图像[24,48,18,25]。已发表的手部姿势估计方法可以分为两大类,即基于生成模型的方法[29,35]或基于判别学习的方法[11,32,36,38]。受益于数据量和计算能力的增加,1https://github.com/dumyy/handposeCNN已经显示出强大的能力,成为目前的主导手段。2017年,HandsintheMillionChallenge(HIM2017)[44]基于深度图的手部姿势估计吸引了许多研究团队的关注。竞争摘要文件[43]中讨论的问题也是我们关注的问题。首先,将深度图视为2D图像并直接回归3D关节坐标是常用的手部姿势估计流水线。虽然将2.5D深度图转换为3D体素化形式将保留更多的信息[12,17],但它遭受沉重的参数负载并且仍然存在信息缺陷。在我们的工作中,我们倾向于与[39]的论点保持一致,以利用2D CNN的进步,并尝试从2D输入中挖掘更多信息。其次,设计有效的网络受到最多的在机器学习中,通过共享信息,多任务学习比单任务学习具有保留更多内在信息的优点。同时学习多个任务将有助于执行具有更好泛化能力的模型[28]。然而,在基于CNN的手势估计中,多任务学习还没有得到足够的重视.正如[39]所声称的那样,他们首次尝试在多任务设置中融合整体回归和热图检测的手部姿势估计结果。受他们成就的启发,我们设计了一种新的CNN结构,用于多任务设置中的手部姿势估计。层次模型是手部姿态估计网络的一种它通常通过分别处理不同的手指或不同类型的关节将姿态估计问题划分为子任务[4,16,47]。直觉上,很容易理解手掌关节比那些更灵活的手指关节有更紧密的联系。全局手部姿态将主要由手掌关节的状态确定,而局部手部姿态将由手指关节的动作反映。基于这些知识,我们设计了一个新的层次模型在多任务设置。所提出的架构有两个分支,分别对应于手掌关节回归子任务和手指关节回归子任务。通过交叉连接,9897在两个分支中,一个分支中的噪声变成另一个分支中的柔性增强信息。这将有助于每一个处像在多任务信息共享中所做的那样,专注于其具体的子任务。第三,输出表示可以被分类为每个关节的概率密度图(热图)或3D坐标。由于2D深度图和3D关节坐标之间的映射是高度非线性的,因此它将妨碍学习过程并阻止网络准确地估计关节坐标。相比之下,具有热图的输出表示可以提供比单个关节位置更多的关节相关信息,这将有助于网络获得更好的特征图。[43]中的分析得出结论,基于热图的方法优于直接坐标回归方法。然而,在基于热图的方法中,最终的最大化操作是不可微的,它必须作为后处理步骤进行定制,而不是端到端的训练。考虑到这两种表示的优点,我们提出了一种热图引导的特征提取网络结构。实际上,我们的思想巧妙地应用了多任务参数共享。总之,对于来自单个深度图的基于深度CNN的手部姿势估计,我们的工作具有以下贡献:• 提出了一种新的用于多任务设定的手部姿态回归网络。它利用信息共享的优势-多任务学习中的学习机制。我们使用层次模型将最终任务分解为手掌关节回归子任务和手指关节回归子任务。通过分支交叉连接,所生成由于• 提出了一种热图引导的特征提取结构。它能把热量转化成更有效的特征将检测任务映射到联合回归任务,而不会失去端到端的训练优势。• 我们实现了几个基线,以调查多任务设置中的信息共享,这将为对这个问题有深刻的见解。我们还在常用的数据集上进行了大量的实验,并与最先进的方法进行了性能比较。2. 相关作品基于视觉的手部姿态估计研究成果非常丰富。由于我们的工作重点是从单个深度图中基于深度CNN的手部姿势估计,因此我们将讨论限制在与我们的工作密切相关的工作请参阅[8,33,43]以了解更全面的内容评论.姿势参数化:手部姿态估计的目的是求关节坐标。直接回归这些坐标是模型中用于输出姿态表示的自然选择然而,由于每个关节只有一个3D坐标必须从输入回归,因此输入和3D坐标输出之间的高度非线性映射妨碍了学习过程。为了解决这个问题,Tompsonetal.[38]首先利用每个手关节的2D热图作为姿态参数,然后通过后处理将其转化为3D坐标。他们发现,中间热图表示不仅降低了所需的学习能力,还提高了泛化性能。Ge等人[11]通过利用多视图CNN来估计每个视图的2D热图,扩展了这种方法。Moon等人[17]采用3D热图作为手部姿态参数。Wan等人[39]将姿态参数分解为2D热图、3D热图和单位3D方向向量场。然后,这些不同的输出被翻译成3D关节坐标的投票计划与一个变种的均值漂移后处理。与他们的方案不同这种策略可以帮助模型学习更好的特征图,并在不需要后处理的情况下获得准确的联合坐标。型号设计:近年来,根据人手运动学或形态学设计网络已收到了竞争性结果[44]。结构化方法将物理手部运动约束嵌入到模型或损失函数中[16,31,46]。分层模型根据手部结构将姿态估计问题划分为多个子任务Chen等人[40]在其多个区域提取步骤中对每个手指和关节类型(跨手指)应用约束,每个区域包含关节的子集。然后对提取的特征区域进行分层集成,并利用迭代级联方法回归手部姿态。Madadi等人[16]设计了一个层次结构的CNN,使用五个分支来模拟每个手指,并使用一个额外的分支来模拟手掌方向。所有分支的最终层连接成一个层以预测所有关节。Zhou等[47]根据手指在日常操作中的不同功能,设计了一个三分支网络,其中一个分支与拇指相关,一个分支模拟食指,最后一个分支代表其他三个手指。这些层次模型有其独特的特点。在这里,我们探索了一个新的双分支模型,一个分支用于手掌关节回归,另一个分支用于手指关节回归。手指关节比手掌关节更灵活,这是常识。如果我们使用两个不同的参数集来分别表示相对稳定的手掌姿态和灵活的手指姿态,9898多任务信息共享棕榈手指不手指棕榈特征提取模块多任务信息共享特征细化模块回归模块最大池卷积残留模块使用最大极化元素级子残余块全连接Concatenate图1.具有多任务信息共享设置的整体网络架构我们使用热图来突出显示前两个模块中具有显著特征的区域在输出部分,红点表示估计的关节位置。将更容易实施。此外,我们设计了两个分支之间的交叉连接,这有助于每个分支专注于自己的任务。多任务信息共享:通过在相关任务之间共享信息,多任务学习将使模型能够更好地概括任务。深度神经网络中的多任务学习在许多应用中取得了成功,例如在人体姿势估计中。Xia等人[41]提出了一种联合解决人体分析和姿态估计这两个任务的方法。他们训练了两个完全卷积神经网络(FCN),其中估计的姿势在正则化部分片段之前提供对象级别的形状,而部分级别的片段限制姿势位置的变化最后用一个全连通条件随机场(FCRF)对两个任务进行Nie等[20]提出了一种基于交互学习的人体解析和姿态估计模型。它有效地利用了双方的利益,吸收了对方的信息,提供了更有力的代表。虽然多任务学习在许多应用中得到了有效的应用,但在基于CNN的手部姿态估计中尚未得到足够的重视。据我们所知[39]是第一个明确声称他们在多任务设置中进行手部姿势估计的人。在他们的工作中,他们将手部姿势参数分解为2D热图,3D热图和单位3D方向矢量场。这三个表征被视为三个任务,并通过多任务网络级联估计。最后通过基于均值漂移算法的后处理对这些估计进行我们的工作也建立在多任务学习框架中,但与[39]有很大不同。我们将手部关节分为两个子集,一个子集由手掌关节组成,另一个子集由手指关节组成。将关节回归任务分解为手掌关节回归子任务和指关节回归子任务。通过两个子任务回归分支之间的交叉连接,信息被共享。3. 方法手是关节型物体,自由度高,不容易准确估计手的姿态为了处理从输入深度数据到输出手部关节坐标的高度非线性映射,手部姿态估计问题可以被简化为子任务,每个子任务负责子部分或子集关节估计。这就是为什么要设计层次模型来实现这一任务。在这里,我们提出了一个新的层次模型与信息共享架构命名为CrossIn-foNet,如图1所示。第一部分是初始特征提取模块,在该模块中,我们将热图作为约束来学习更好的特征图并获得所有初始联合特征。第二部分是特征细化模块,其中任务被分解为两个子任务,一个子任务估计手掌关节,另一个子任务估计手指关节。该模块中的信息共享策略引导网络从对手那里挖掘有用的最后是关节坐标回归模块。我们将在以下各节中详细部分3.1 描述了热图引导的初始特征提取模块。第3.2节介绍了基线网络,其中有两个独立的子任务,没有信息共享。部分3.3详细说明了如何通过两个子任务之间的交叉信息共享来提供互补信息。损失函数在第3.4节中介绍,实现细节在第3.5节中给出。9899concat基线特征细化模块回归模块具有全连接最大池化和丢弃的残差块输出层不图2.初始特征提取模块。该网络以96×96的2D深度图作为输入,输出12×12的特征图T。我们使用尺寸为24×24的2D热图作为监督来指导特征提取。3.1. 热图引导的特征提取当使用浅层CNN进行特征提取时,估计结果通常不令人满意。针对这一问题,我们设计了一种新的特征提取网络,分为两个阶段,即初始特征提取模块和图3.基线特征细化模块与关节坐标回归模块相连。残差块的核大小设置为3×3,全连接层的维数设置为2048。特征细化模块。至于最初的特征,牵引模块,我们选择了ResNet-50 [15]骨干网络与四个剩余模块,因为它是非常有效的,如图2所示。为了获得更多的信息,我们采用特征金字塔结构合并不同的特征层。我们将回归初始关节位置的特征图表示为T。与以往的基于热图的检测方法不同所获得的具有256个通道的特征图T将被输入到特征细化模块。 残差的核大小块是3×3,最大池化层是2×2,步幅为2。我们使用带有3×3滤波器的卷积层来获得所有关节的热图输出。3.2. 基线特征精化体系结构现有的一些手部姿态估计方法设计了树状分支,每个分支负责一个独立的子任务,或者从一个任务的输出中提取手部特征来辅助另一个任务进行后处理。它们既不能提取强大的特征,也不能增强模型。为了充分利用提取的信息,我们提出了一种新的基于多任务信息共享的特征细化模块在介绍我们新的多任务功能细化模块之前,我们首先给出了基线多任务架构,如图3所示。在所有关节中,手掌关节比手指关节具有更小的活动空间,因此两部分的回归复杂度也不同。如果我们使用两个不同的参数集来表示手掌姿态和手指姿态,则手部姿态会更容易回归。因此,我们将手掌关节退行和手指关节退行分为两个独立的分支。述特征图(a) ICVL(b)NYU(c)MSRA图4.不同数据集上的手掌关节子集(蓝色框)和手指将初始特征提取模块中的T输入到残差块中,以提取手掌或手指在不同分支中的更多内在局部特征然后,手掌分支中的全连接层的输出fp和手指分支中的输出ff被级联以估计所有联合坐标。我们将这种架构称为基线网络。由于ICVL、NYU和MSRA数据集具有不同的标签协议,因此关节子集具有一些差异,如图4所HAND 2017基于帧的挑战数据集的分区与MSRA的分区相同3.3. 新的特征细化架构基线网络只考虑回归手掌和手指姿态独立于每个分支,这与基于通用分支的网络没有本质区别。除了输入特征T之外,它们之间几乎没有共享信息。然而,在手掌回归分支中,存在残留的手指特征。这些手指特征对于手掌姿态回归可能是噪声,但是它们对于手指姿态回归是有益的。手指分支也是如此为了充分利用两个分支之间有用的“噪声”信息,我们尝试将网络设计成多任务信息共享的设置。双任务十字绣网络[28]是一个通用的多任务网络,如图5(a)所示。它使用多个十字绣单元,通过惰性融合来利用其他任务的知识。然而,懒惰的十字绣可能会造成子任务之间的干扰,懒惰的十字绣没有明确的子任务的理解-它们的222不热图引导的特征提取模块卷积残差残差卷积模块阻挡层逐元素2个上采样子关于Max-Pooling2倍9900n0nn一PΣΣf*nn安n′Sሺ ሻ
C算法1多任务信息共享的联合回归。输入:符号说明:空间卷积算子特征连接运算符p0,p1:用于不同阶段的手掌特征提取的卷积层f0,f1:用于不同阶段的fc:用于回归接缝位置的全连接层T∈Tw×h×c:回归特征ሺ ሻ哦,天哪,
图5.网络与十字绣网络外交官我们希望积极指导子任务如何相互作用。通过引导式信息共享,对同一目标的相关特征进行融合和增强。图5(b)示出了所提出的多任务信息共享机制。它使用1:P0=Tp0; F0=Tf0初步特点2 : F=T−P0; P=T−F0剩 余 特 征 3 :P1=P0<$P; F1=F0F增 强 功 能 4 :P2=P1<$p1;F2=F1<$f1最 后的特点5:J p=fc(P2);J f=fc(F2)关节坐标6:J=Jp<$Jf最终关节坐标输出:J特征提取,因此热图的检测损失被定义为:Σ Σ2阿格拉从全局手部特征提取纹理,然后使用交叉线Lht=n=1<$Hn(u,v)−Hn(u,v)<$u,v(一)连接来自两个分支的手指特征它其中A表示整只手的关节数。 Ha减少了手掌的干扰,手指特征再次,反之亦然。详细的网络结构如图6所示。初始特征T具有手掌相关特征和手指相关特征。 通过T和手掌姿势支配特征P0,得到剩余手指特征F 被称为和Hn表示地面实况热图和估计分别为接头n在特征细化模块中,我们引入了两个约束,Lbp和Lbf,以提取初步的手掌特征P0和手指特征F0。它们被定义为:Σ Σ2普普该掩模可能是Lbp=n=1<$Hn(u,v)−Hn(u,v)<$u,v(二)将有利于手指姿势回归,这有助于引导分支提取更精细的特征。以同样的方式,我们得到手掌 通过交叉连接,Lbf= ΣF Σn=1u,v¨ ¨2<$Hn(u,v)−Hf(u,v)<$(三)P与P连接并且形成增强的手掌特征P1。增强的手指特征F1也使用类似的过程获得。通过这种方式,我们的新网络架构建立了不同网络之间的联系,子任务。输出特征F2和P2由后续的残差块得到最后,通过最终的回归模型估计其中,Hp和Hf表示第n个手掌关节和手指关节。 Hp和HF是相应的网络输出。在回归模块中,使用三个损失来监督每个子任务的最终输出和总手部关节。它们是手掌关节回归损失Lep、手指关节回归损失Lef和总手关节回归损失La。乌莱网络参数如图6所示,算法中描述了主要的姿态回归过程¨L=P?Jp?¨2-Jpé(四)epn=1?n1.Σ¨n-2¨2L=F?Jf?−Jf?(五)3.4. 损失函数efn=1?n?2我们采用地面实况和估计的关节坐标之间的均方误差作为损失函数,¨L=AJan=1¨2-是的2(六)第 在初始特征提取模块中,我们使用一个热其中,Jp和Jp表示地面实况和估计的n n地图作为约束,以指导网络更好的全局第n个手掌关节的3D坐标,Jf和Jf是n n美国有线 电视新闻网美国有线电视新闻网美国有线电视新闻网美国有线电视新闻网CNNCNN
CCNNCNN美国有线电视新闻网美国有线电视新闻网美国有线电视新闻网美国有线电视新闻网P FF RH FPP R9901不图6.新的特征细化模块与联合回归模块相连接。它是基于多任务信息共享机制设计的。残差块的核大小设置为3×3,全连接层的维数设置为2048。第n个指状关节的地面实况和估计的3D坐标,4. 实验和结果n n第n个手关节的坐标。总损失函数为:L=α× ( Lht+Lbp+Lbf ) +β× ( Lep+Lef+La )(7)其中α、β是平衡检测损失和回归损失的因子。在我们的实验中,α和β分别设置为0.01和13.5. 实现细节首先从原始图像中裁剪出手部区域,并将其大小调整为96×96的固定大小。裁剪区域内的深度值被归一化为[-1,1],并且标签也被归一化以保持与裁剪深度图的对应性。 我们应用在线数据增强-在训练过程中,包括随机旋转([-180,180]度),平移([-10,10]像素)和缩放([0.9,1.1])。所提出的网络以端到端的方式进行训练内尔。 所有权重均从零均值正态分布,σ=0。01.我们选择Adam算法来训练模型,初始学习率为1 e-3,批量大小为128,权重衰减为1 e-5。每个epoch的学习率降低0.96倍,并将辍学率设置为0.6以防止过度拟合。我 们 的 网 络 由 Tensorflow [1]实 现 , RTX 2080 TIGPU用于训练和测试。我们训练了110个epoch的模型。我们的模型的训练时间对于ICVL数据集为15小时 , 对 于 NYU 和 MSRA 数 据 集 为 6.5 小 时 , 对 于HANDS 2017挑战数据集为3天。在测试时,我们的模型运行在124.5 fps在单个GPU上。4.1. 数据集和评价指标ICVL数据集。ICVL数据集[34]有330K帧用于训练,1.5k用于测试。训练集由真正的22k帧和额外的300K具有面内旋转的增强帧组成该数据集有16个注释关节。我们使用完整的帧进行训练,而在自我比较中,我们只使用真正的22k。纽约大学数据集。纽约大学数据集[38]包含来自三个不同视图的72k训练帧和8k测试帧训练集从受试者A收集,而测试集从受试者A和B收集。大多数以前的作品只使用视图1和14注释关节进行训练和测试,我们也使用相同的设置进行比较。MSRA数据集。MSRA数据集[32]由76.5k深度图像和21个注释关节组成。它有9个子动作和17个不同的手势。遵循常见的评价方案[32],我们还使用留一受试者法来评价结果。HANDS 2017挑战赛基于框架的数据集。该数据集[44]包含957k训练和295k测试深度帧,这些帧是从BigHand2.2M [45]和FHAD [9]数据集中采样的。训练集有5个主题,而测试集有10个主题,包括5个未见过的主题。该数据集有21个注释关节。评估指标。我们使用两个指标来评估不同的3D手姿态估计方法的性能。一个是地面实况与每个关节的预测3D关节位置之间的平均3D距离误差,另一个是低于阈值的成功帧的百分比,与[37]相同。concatିିଵଶିିଵଶ交叉连接特征细化模块回归模块残差块最大池化全连接,带压差输出元素级子Concatenate9902平均3D距离误差(mm)表1.平均3D距离误差(mm)的自我比较结果。Base:无热图约束的基线网络; Base + HM:具有热图约束的基线网络;Cross:没有热图约束的交叉连接网络; Cross + HM:具有热图约束的交叉连接网络。4.2. 自我比较我们在ICVL[34]和NYU[38]数据集上进行消融实验为了评估热图约束的优点,我们比较了有或没有热图约束的基线网络的结果。为了证明多任务信息共享网络的性能,我们将其与基线网络进行了比较。如表1所示,与没有热图约束的基线网络相比,具有热图约束的基线网络在ICVL数据集上将平均3D距离误差减少了0.2mm(从9.28到9.08),在NYU数据集上减少了0.33mm(从11.17到10.84)结果表明,热图约束使模型得到更好的特征,估计误差减小。然后在初始特征提取网络的基础上,比较了两种不同的特征细化模块对平均3D距离误差的影响与具有两个分离分支的基线模型相比,所提出的具有交叉连接的模型在ICVL数据集上显著降低了0.60mm(从9.08到8.48)的误差,在纽约大学数据集上显著降低了0.76mm(从10.84到此外,本对比实验的结果支持了我们的观点,即多任务信息共享可以得到更准确的手部姿态估计。综合自比较的结果表明,基于交叉连接双分支结构的多任务信息共享和热图引导的初始特征提取模型在手势估计方面具有最佳性能。4.3. 与最先进方法的我们比较了所提出的Cross-InfoNet在三个公共3D手部姿势数据集上的性能与大多数最先进的方法,包括使用深度图(2D)作为输入的方法:潜在随机森林(LRF)[34],基于模型的方法(DeepModel)[46],反 馈 循 环 训 练 ( Feedback ) [23] , Lie-X [42] ,DeepPrior ( DeepPrior ) [22] , 改 进 的 DeepPrior(DeepPrior ++)[21],区域集成网络(Ren-4x 6x6[14],方法平均误差(mm)输入表2.在三个数据集上与最先进的方法进行比较。平均误差表示平均3D距离误差。方法单GPU测试(fps)V2V [17]3.5DenseReg [39]27.8[13]第十三话41.8CrossInfoNet(我们的)124.5表3.测试时推理时间的比较Ren-9 x6 x6 [40])、姿势引导的REN(Pose-Ren )[4]、密集回归网络(DenseReg)[39]以及使用点云或体素(3D)作为输入的方法:3DCNN [12],SHPR-Net [5],HandPointNet [10],点对点[13],V2 V [17]。一些用于比较的方法的结果是从在线可用的预测标签中获得的,其他方法是从他们的论文中提取的。如表2和图7所示,我们的结果优于最先进的方法,其输入是ICVL和NYU数据集上的与使用3D输入的方法相比,我们的结果比V2 V [17]和点对点[13]更差,但比3DCNN [12]和SHPR-Net [5]有更大的改进。对于MSRA数据集,我们的方法得到了与最好的3D CNN方法相当的结果。DenseReg [39]在这个数据集上比我们的方法更好。但当阈值小于10mm时,我们的方法在成功帧率上更好。我们的方法在三个数据集上的定性结果如图8所示。虽然在ICVL和NYU数据集上,具有3D输入的V2V和点对点方法更好,而在MSRA数据集上,具有2D输入的DenseReg方法更好,但它们在测试数据上的推理时间比我们的方法更长。的ICVL纽约大学基地9.2811.17基础+HM9.0810.84横8.7910.57交叉+HM8.4810.08ICVL纽约大学MSRA[23]第二十三话--15.972D[42]第四十二话--14.512DLRF [34]12.58--2DDeepModel [46]11.5617.04-2D[22]第二十二话10.419.73-2D[14]第十四话7.6313.39-2D[40]第四十话7.3112.699.72D[21]第二十一话8.112.249.52D[4]第四话6.7911.818.652DDenseReg [39]7.310.27.22DCrossInfoNet(我们的)6.7310.087.862D3DCNN [12]-14.19.63DSHPR-Net [5]7.2210.787.763DHandPointNet [10]6.9410.548.53D[13]第十三话6.39.17.73D9903DeepPriorDeepModelFeedbackLie-X3DCNNREN-4x6x6REN-9x6x6DeepPrior++Pose-RENSHPR-网络密度注册HandPointNetPoint-to-PointV2v我们LRFDeepPriorDeepPrior++Ren-4x6x6Ren-9x6x6DenseRegSHPR-NetHandPointNetPose-RENPoint-to-PointV2v我们距离内的帧比例(%)距离内的帧比例(%)10010010090 90 9080 80 8070 70 7060 60 6050 50 5040 40 4030 30 3020 20 2010 10 1000 10 20 30 40 50 60 7080到GT的最大允许距离(mm)30282624222018161412108642000 10 20 30 40 50 60 7080到GT的最大允许距离(mm)2018161412108642000 10 20 30 40 50 60 70 80到GT的最大允许距离(mm)1614121086420图7.与最先进方法的比较顶行:不同错误阈值上的好帧百分比底行:每个手部关节的3D距离误差。左:NYU [38]数据集。中:ICVL [34]数据集。右:MSRA [32]数据集。图8.我们的方法在三个数据集上的定性结果。左:ICVL [34]数据集。中:NYU [38]数据集。右:MSRA [32]数据集。地面实况以蓝色示出,并且估计的姿势以红色示出。表3中列出了有关推理时间的比较我们还在2019年2月2日在HANDS2017基于帧的挑战数据集[44]我们的方法获得了第一名,并且在Unseen数据上具有最好的性能。5. 结论我们的工作旨在探索一种有效的CNN网络,从深度数据输入中获取手关节坐标我们所设计的双分支交叉连接网络分层回归手掌姿态和手指姿态的信息共享在多任务设置。它还使用热图指导来获得更好的特征图。实验结果-实验结果表明,本文提出的方法可以得到更精确的结果,并且在三个3D手姿态数据集上的实验结果此外,所提出的方法也实现了最好的结果,在手部姿势估计的挑战,相比所有以前的参与者。我们希望这项工作可以提供一个新的网络设计思路的手姿态估计。引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen ,ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页Rs欧VV2ointint-to-PPoTNETndPoinHaG恩塞雷De不PR-NeSHSE-RENPor++epPrioDe6N-9x6xRE6N-4x6xRECNN3D- -X谎言埃德贝克FeElepModDeRepPrioDeV2v我们- 点点对intNetNHandPoPose-REetSHPR-NX6egRen-9x6密集X6Ren-4x6del或DeepMoDeepPriLRFRen-9x63DCNNPOSE-RENReg密集我们int多宝要点-V2v净oint净HandPSHPR-X6Ren-9x6x63DCNNPOSE-RENHandPointNetSHPR-NetPoint-to-PointV2v我们的DenseReg距离内的帧比例(%)平均误差(mm)棕榈手腕1手腕2Thumb.R1Thumb.R2拇指T索引R索引T中河中T环河戒指T平基河粉红T是说平均误差(mm)手掌拇指.R拇指.M拇指.T索引.R索引.M索引.T中.R中.M中.T环.R环.M环.T小指.R小指.M小指.T是说平均误差(mm)手腕指数.M指数.P指数.D指数.T中.M中.P中.D中.T环.M环.P环.D环.T小指.M小指.P小指.D小指.T拇指.M拇指.P拇指.D拇指.T平均9904[2] 瓦西利斯·阿提索斯和斯坦·斯克拉罗夫。从杂乱图像中估计三维手部计算机视觉与模式识别,2003年。诉讼2003年IEEE计算机学会会议,第2卷,第II-432页。IEEE,2003年。[3] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.基于深度的手部姿态估计的增强骨架空间转移在IEEE计算机视觉和模式识别会议论文集,第8330-8339页,2018年。[4] Xinghao Chen , Guijin Wang , Hengkai Guo , andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。神经计算,2018年。[5] Xinghao Chen , Guijin Wang , Cairong Zhang , Tae-Kyun Kim,and Xiangyang Ji. Shpr-net:从点云进行深度语义手部姿势回归。IEEE Access,6:43425[6] Chiho Choi , Sang Ho Yoon , Chin-Ning Chen , andKarthik Ramani.在与未知对象交互期间的鲁棒手部姿态估计。在IEEE计算机视觉和模式识别会议论文集,第3123-3132页[7] Martin de La Gorce、David J Fleet和Nikos Paragios。基于模型的单目视频三维手姿态估计。IEEE Transactionson Pattern Analysis and Machine Intelligence,33(9):1793[8] Ali Erol、George Bebis、Mircea Nicolescu、Richard DBoyle和Xander Twombly。基于视觉的手部姿势估计:综述。计算机视觉与图像理解,108(1- 2):52[9] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记,带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议上,2018年6月。[10] 刘浩、蔡玉军、翁君武、袁俊松。手点网:使用点集的3d手姿态估计。在CVPR,2018年6月。[11] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计:从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议 论 文 集 ( Proceedings of the IEEE conference oncomputer vision and patternrecognition),第3593-3601页[12] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.3D卷积神经网络,用于从单个深度图像进行高效和鲁棒的手部姿势估计。在IEEE计算机视觉和模式识别会议论文集,第1卷,第5页,2017年。[13] 六号戈,周仁,袁俊松。点到点回归点网络用于三维手姿态估计。在ECCV,2018年9月。[14] Hengkai Guo,Guijin Wang,Xinghao Chen,CairoongZhang,Fei Qiao,and Huangzhong Yang.区域集合网络:改进卷积网络用于手部姿态估计。在图像处理(ICIP),2017年IEEE国际会议上,第4512-4516页。IEEE,2017年。[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集,第770-778页,2016年。[16] 我是Madadi先生Escalera先生Xa vierBaro'和Jordi Gonzalez端到端全局到局部cnn学习用于深度数据中的手部姿态恢复。arXiv预印本arXiv:1705.09606,2017。[17] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿势估计。在CVPR,2018年6月。[18] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。从单目rgb实时3d手部跟踪。在IEEE会议上计算机视觉和模式识别(CVPR),2018年6月。[19] Franziska Mueller、 Dushyant Mehta、 Oleksandr Sotny-chenko 、 Srinath Sridhar 、 Dan Casas 和 ChristianTheobalt。基于自我中心rgb-d传感器的遮挡下手部实时跟踪。在计算机视觉国际会议(ICCV)的论文集,第10卷,2017年。[20] 聂学成、冯佳石、严水城。相互学习,以适应联合人类解析和姿态估计。在欧洲计算机视觉会议(ECCV)的会议记录中,第502-517页[21] Markus Oberweger和Vincent Lepetit Deepprior++:改进快速且准确的3D手姿态估计。在ICCV研讨会,2017年10月。[22] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.深入学习手部姿势估计。在计算机视觉冬季研讨会,2015年。[23] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.训练用于手部姿势估计的反馈回路。在IEEE计算机视觉国际会议的论文集,第3316-3324页[24] 帕斯卡利斯·潘特莱里斯和安东尼斯·阿吉罗斯。回到RGB:基于短基线立体的手和手-物体交互的3d跟踪。Hand,2(63):39,2017.[25] Paschalis Panteleris,Iasonas Oikonomestra,and AntonisA. Argyros 在野外使用单一rgb帧进行实时3d手部2018年IEEE计算机视觉应用冬季会议(WACV),第436-445页,2018年。[26] 陈倩,孙晓,魏奕辰,唐晓鸥,孙健。从深度进行实时和鲁棒的手部跟踪。在2014年IEEE计算机视觉和模式识别会议的Proceedings,第1106-1113页中[27] 罗默·罗萨莱斯、瓦西利斯·阿提索斯、列昂尼德·西加尔和斯坦·斯克拉罗夫。使用专门映射的3D手部姿态重建计算机视觉,2001年。ICCV 2001年。诉讼第八届IEEE国际会议,第1卷,第378-385页。IEEE,2001年。[28] 塞巴斯蒂安·鲁德。深度神经网络中的多任务学习概述arXiv预印本arXiv:1706.05098,2017。[29] TobySharp,Cem Keskin,Duncan Robertson,JonathanTay- lor , Jamie Shotton , David Kim , ChristophRhemann , Ido Le- ichter , Alon Vinnikov , YichenWei,et al.准确,坚固,9905和灵活的实时手部跟踪。在第33届ACM年度会议的会议记录中,关于计算系统中的人为因素,第3633-3642页。ACM,2015.[30] Jamie Shotton , Ross Girshick , Andr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功