没有合适的资源?快使用搜索试试~ 我知道了~
11927点到姿态重要性权重分割基于点-位姿投票的残差置换等变层手势李世乐慕尼黑工业大学li. mytum.de李东和慕尼黑工业大学,德国航空航天中心dhlee@tum.de摘要最近,基于3D输入数据的手部姿态估计方法已经显示出最先进的性能,因为3D数据比深度图像捕获更多的空间信息。而基于3D体素的方法需要大量的内存,基于PointNet的方法需要繁琐的预处理步骤,如每个点的K-最近邻搜索在本文中,我们提出了一种用于无序点云的新的深度学习手部姿势估计方法我们的方法需要1024个3D点作为输入,不需要额外的信息。我们使用置换等价层(PEL)作为基本元素,其中的剩余网络版本的PEL提出的手姿态估计任务。此外,我们提出了一个基于投票的计划,从各个点的信息合并到最终的姿势输出。除了姿态估计任务之外,基于投票的方案还可以提供点云分割结果,而无需用于分割的地面实况我们在NYU数据集和Hands2017Challenge数据集上评估了我们的方法,我们的方法优于最近的最先进的方法。1. 介绍手位估计在人机交互任务中起着重要的作用,如手势识别和通过人的演示学习抓取能力。自消费级深度传感器出现以来,出现了许多基于深度图像的手部姿态估计方法。许多先进的方法使用深度图像作为输入,这为使用成熟的卷积神经网络或残差网络提供了便利。然而,使用2D图像作为输入的方法不能充分利用深度图像中的3D空间信息。此外,深度图像的外观取决于相机参数,使得使用一个相机另一方面,3D数据更加加权融合图1.我们的方法以点云作为输入。然后每个点预测手的姿势和它的重要性权重为不同的姿势维度。最后通过加权融合得到每个点的姿态预测。使用重要性权重,手可以被清楚地分割成不同的部分,尽管在训练期间没有使用分割地面实况。因为3D数据的出现是唯一的并且对于相机参数是不变的最近,使用3D数据作为输入的方法已经显示出优于基于深度图像的方法[36]。使用3D输入数据的一种方法是将2D深度图像转换为体积表示,例如3D体素[15][4],其中占用的3D体素设置为1,具有空白空间的体素设置为0。使用体素化数据为直接使用三维CNN学习结构带来了方便。然而,体素化需要大量的存储器来表示输入和输出数据,这阻止了非常深的结构的部署。使用3D输入数据的另一种方法是使用无序点云作为输入[6][9][3]。最近,PointNet是一种用于点云的深度学习结构,它在不同的任务中取得了成功。PointNet估计各个点的逐点特征,并使用最大池化层从各个点提取全局特征,使得网络对点的顺序不变。Ge等人使用Point-输入点手部姿势逐点姿态预测11928[20][22]作为骨干,从点云[6]估计手部姿势。然而,[6]需要繁琐的预处理步骤,例如表面法线估计和k-最近邻搜索。此外,PointNet中的最终最大池化层忽略了许多可能对姿势估计至关重要的信息。在这项工作中,我们探索了一种更灵活的无序点集学习结构,即置换等变层(PEL)[24] [39]。PEL是一种深度学习结构,可以应用于无序点。在PEL中,逐点计算特征,其中每个点的特征不仅取决于其自身的输入,而且还取决使用PEL作为基本元素,我们提出了一个剩余网络版本的PEL构建一个深度网络的手姿态估计任务。此外,我们提出了一个点到姿势的投票计划来获得手的姿态,这消除了使用最大池层提取全局特征,从而避免了信息的丢失此外,所生成的点到姿势重要性权重也可以用于手部分割任务(图1)。1),其中即使没有分割基础事实也可以获得清晰的分割结果。这项工作的贡献是:• 我们提出了一种新的基于深度学习的无序点云手部姿态估计方法。以置换等变层为基本单元,PEL的剩余网络版本用于解决手部姿态估计任务。与基于PointNet [22]的方法相比,我们的方法• 我们提出了一个点到姿势的投票计划,以合并的信息,从逐点的本地功能,还生成弱监督分割结果,而不需要分割地面实况。• 我们在Hands2017 Challenge数据集和NYU数据集上评估了我们的方法,其中显示了最先进的性能。该方法实现了提交时Hands2017 Challenge数据集上的最低姿势误差2. 相关工作在过去的十年中,人们对手势估计进行了大量的研究,主要分为生成式、判别式和混合式三种方法。生成方法依赖于手部模型和优化方法,以使手部模型与观察结果拟合[25][29][23][19]。判别方法使用学习数据 来 学 习 观 察 和 手 部 姿 势 之 间 的 映 射[17][30][15][4][3][16][26][28]。混合方法使用生成方法和判别方法的组合[18][27][34].我们的方法是基于学习的方法,因此属于第二类。用于手部姿势估计的深度学习随着2D计算机视觉深度学习方法的成功,基于深度图像的深度学习方法在手部姿势估计任务中也表现出良好的性能。Tompson等人使用2D CNN来预测每个关节的热图,然后依靠PSO优化来估计手部姿势[30]。Oberweger等人[17]使用2D CNN直接从图像特征中回归手部姿势,其中使用瓶颈层来迫使预测的姿势服从特定的先验分布。在后来的工作中,Oberweger [16]将CNN替换为更复杂的学习结构ResidualNet50,以提高特征提取的性能。Zhou等人。[40]回归一组手部关节角度,并将关节角度馈送到嵌入式运动学层中以获得最终姿势。Ye et al.[33]使用分层混合密度网络来处理被遮挡手部关节的多模态分布。最近,3D深度学习也被应用于手部姿势估计任务。Moon等人使用883体素来表示手部他们的方法获得了非常准确的结果,然而,输入和输出数据的3D体素化需要很大的内存大小,使得他们的方法只能以3.5 FPS运行。Ge等人[6][9]使用1024个3D点作为输入,并依赖PointNet [22]结构来回归手部姿势。他们的方法取得了令人满意的性能,但繁琐的预处理步骤,包括有向包围盒(OBB)计算,表面法线估计和k-近邻搜索的所有点。Chen等人通过使用空间Transformer网络来代替OBB来改进Ge他们的方法可以在没有OBB的情况下进行端到端的训练,但是分割地面实况数据需要从姿态数据进行额外的预计算步骤。3D深度学习由于3D数据不能直接馈送到传统的2D CNN中,因此一些方法将3D数据投影到不同的视图上以获得多个深度图像并对所有图像执行CNN[7][21][10][35]。处理3D数据的另一种方法是使用体积表示并使用3D CNN处理数据[8] [32] [14] [15]。这些方法可以更有效地捕捉输入数据的特征,但它们需要大量的内存。Qi等人开发了PointNet来处理无序点云[20]。PointNet估计逐点局部特征,并使用最大池化层获得全局特征。后来,PointNet++通过分层上采样局部特征到更高级别来扩展PointNet [22]。11929输入点逐点要素点到姿势投票:检测版本构成点到姿势投票:回归版本点到姿态重要性项NxJ点到姿态估计融合加权逐点全连接NxJ逐点全连接图2.我们的方法概述。其他最近采用3D点作为输入的方法包括逐点CNN[11],深度kd网络[12],自组织网络[13]和动态图CNN[31]。尽管它们在不同的任务中表现良好,但它们都需要额外的步骤来估计k-最近邻或构造kd-树,这在我们提出的剩余PEL网络中是不需要的相机样品1样品2相机样品1样品23. 方法我们的方法的概述如图所示。二、该方法以任意阶数的N个3D点P∈RN×3为输入,最终输出矢量化的3D手姿态y∈RJ,其中J= 3×#joints.为了估计手部姿势,(PEL)(图4)首先从每个点提取特征(第3.2节)。使用逐点局部特征,我们使用点到姿势投票来估计最终姿势输出(第3.3节),其中开发了两个用于点到姿势投票的版本,即检测版本和回归版本。3.1. 使用视图规范化进行预处理a) w/oviewnormalizationb)具有视图规范化图3.将标准化视为预处理步骤。红色点表示地面实况姿态,绿色点表示相机的a)由于不同的观看方向,相同的手部姿势导致不同的观察,因此所得到的训练样本将包含一对多映射。b)通过视图归一化,不同的观测也将具有不同的姿态标签,因此输入-输出对将具有一对一映射。旋转矩阵R凸轮:αy= atan2(cx,cz),对于预处理,首先,手部区域中的深度像素被转换为3D点。下一步是创建手部点的3D边界框以获得这些点的归一化坐标。通常的预处理c=Ry(−αy)·c,αx=atan2(αcy,αcz),R cam= R y(−α y)·Rx(α x)。(一)方法将简单地创建一个与相机坐标系对齐的边界框(图3a)。然而,由于手的自遮挡,这将导致针对完全相同的姿势标签的不同的观察点集合,这创建了输入-输出对的一对多映射。为了保持输入输出对的一对一映射关系,我们提出使用视图规范化将边界框的z轴[0,0,1] T与朝向手质心点c ∈ R 3的视图方向对齐对齐是通过旋转指针来执行的,旋转观察点和地面真实姿态后与R凸轮,手旋转,使其出现在相机的前面,如图所示。3b,则避免了一对多映射问题。3.2. 残差置换等变层在我们的方法中的特征提取模块被称为残差置换等变层。基本元素是排列等变层(PEL),它遵循[24]的设计。一个PEL需要一组无序J点对姿势投票剩余PEL网络加权融合JxB点到姿态分布估计NxJxB逐点全连接从分布估计姿态维位姿分布NxJ逐点全连接点到姿态重要性项NX3Nx(JxB)Nx102411930ˆ点作为输入,并为每个单独的输入点计算单独的特征。假设PEL的输入是x∈RN×K,残差块3x64输出为x′∈RN×Kout ,其中N是点和K,Kout是输入和输出功能的大小尺寸. PEL的输出x′为:x′=σ(1 βT+(xdiag(λ)+1N不Max diag(γ))W),(2)其中λ∈RKin,γ∈RKin分别是点自身特征和全局最大值的加权项W∈RKin×Kout是权重项和β∈RKout 是偏置项,1N∈RN是一个vec-或者满是。此外,作用函数σ(·)是应用于提供非线性,其中S形函数在我们的方法中使用。该层对输入顺序是不变的,因为每个单独点的输出值仅取决于其自身的输入特征和每个特征维度中的全局最大值,而全局最大值对输入点的顺序也是不变的。这样,每个点在实践方面,需要培训四个要素即β、λ、γ和W。总的来说,一个层所需的参数数量为Kout+(Kout+ 2)Kin,仅略多于全连接层,因此它是在实践中训练可行。为了提取非常复杂的特征,我们构建了一个具有39个PEL层的残差网络。如示于图4,我们使用三个残差块,而每个残差块由13个PEL和四个捷径连接组成。此外,在每个PEL之后,执行批次归一化。图4.置换等变层剩余网络分离全连通模来估计两个矩阵:一个重要项G∈RN×J和一个分布D∈RN×J× B. 重要性矩阵Gnj的元素表示第n个输入点的置信水平,以预测第j个输出姿态维度。换句话说,N个点中的每一个预测J个B维分布和J个相应的重要性权重。注意,两个全连接模块的最后一层是sigmoid函数,使得G和D的所有元素都在[0,1]的范围内。D表示输出姿态分布,其中每个点对J个输出维度做出其自己的预测。每个输出姿态维度被表示为使用B个仓的离散分布,表示[-r,+r]中的值范围,其中每个仓的分辨率为d=2r/B。为输出姿态yj的第j维,对应的仓index本身就是:indexgt=(ygt+r)/d,J J3.3. 点投票利用残差PEL模块,点的特征F是并且地面真实分布被定义为:.GT1,如果b∈[indexgt-1,indexgt+ 1]计算,其中F的每一行表示一个点的局部特征。使用这些局部逐点特征,Djb=J0,否则j(3)姿态y∈RJ将使用点到姿态的迭代方案来估计。提出了两种点到位姿投票算法,即基于检测的点到位姿投票算法和基于回归的点到位姿投票算法。基于版本。 这两个版本而围绕地面真实姿态的三个面元被设置为1,并且所有其它面元被设置为0。J维输出D∈的最终分布然后通过合并所有N的预测来获得RJ×B将在实验部分进行比较。积分:ΣN(GnjDnj b)D=n=1。(四)检测版本jbNn=1 GNJ在检测版本(图。2左),首先检测每个姿态维度的概率分布,然后从分布中整合姿态。我们使用两最终的姿态y通过分布上的积分来估计:ΣB(b− 0. 5)Dy=b=1jb,(5)[1]关于PEL不变性的详细证明可以在[24]中找到。jBb=1 DJBX残差PEL网络积分:PEL 3x64BatchNormPEL 64x64BatchNormPEL 64x64BatchNormPEL 64x64BatchNorm残差块(3x64)残差块(64x256)残差块(256x1024)BatchNormPEL 64x64BatchNormPEL 64x64BatchNormPEL 64x64BatchNorm产品特点:BatchNormPEL 64x64BatchNormPEL 64x64BatchNormPEL 64x64BatchNormPEL 64x64BatchNormPEL 64x64PEL 64x64N11931JBJBJ其中,b-0。5表示料箱中心位置。回归版本在回归版本中(图)。2右),每个点将直接预测姿态而无需中间分布检测。与检测版本类似,使用两个独立的全连接模块来估计重要性,距离项G∈RN× J和点-位估计y∈RN×J. 然后,最终的姿势输出被表示为所有点的预测的加权平均值ΣN(G)y )的方式y=n=1nj nj.(六)4. 实验与结果我们的手部姿势估计方法在Hands2017Challenge数据集[37]和NYU [30]数据集上进行了评估。Hands2017挑战赛由Big Hand 2.2M数据集[38]和第一人称手部动作数据集(FHAD)[5]的部分组成,它是目前最大的数据集它的训练集包含957032个深度图像的五个不同的手。测试集由295510个不同手形的深度图像组成,其中5个与训练集相同,5个是全新的。纽约大学的数据集包含72757张单个受试者的手的训练图像和8252张测试图像,这些图像除了训练集中的一张之外还纽约大学jNn=1 GNJ数据集提供了来自三个不同视图的深度图像,我们只使用正面视图数据来训练我们的方法3.4. 使用重要性项的分割在没有地面实况信息的情况下,自动估计重要项G∈RN×J然而,它仍然提供了每个点的重要性的重要信息姿势输出。因此,所获得的重要性项也可以用于基于最大贡献的姿态维度的手部分割任务。对于具有重要性项g=Gn的第n个点,该点jmax= argmaxgj,J其中姿势维度Jmax可以被分类为特定的手部。 在这项工作中,我们分类的J姿态尺寸手掌,拇指,食指,无名指和小指。3.5. 训练损失检测版本的唯一训练损失是姿态分布的对数损失:并使用所有三个视图。我们只使用正面视图进行测试我们的方法使用TensorFlow [1]实现。这些网络是在一台配备AMD FX-4300/Intel Core i7-860 CPU和nVidiaGeForce GTX 1060 6 GB GPU的PC上训练的。我们为NYU数据集训练了100个epoch,为Hands 2017挑战数据集只训练了20个epoch,因为挑战数据集的大小很大。对于这两个数据集,前50%的epoch使用较少的点(N= 256)进行训练,以提高训练速度。剩余的时期用N= 512的点大小训练。我们使用Adam优化器进行训练,初始学习率为10−3,在最后10%的epoch中,我们将学习率降低到10−4。对于检测版本,我们设置r=15mm和B= 60。在线扩增是在[-15,15] mm内的所有三维中进行随机平移,在[0.85,1。15]和围绕z轴在[−π,π]内的随机旋转。4.1. 评估指标JLdet=−ΣBDgtlog(Djb+log)(七)对于NYU数据集,使用两个标准度量来评估性能。第一个度量是平均联合误差,它测量平均欧几里得距离误差j=1b =1+(1−Dgt)(1−log(Djb+)),对于整个测试集的所有关节。第二个指标是正确的帧比例,它指示比例其中,= 10−7是一个小的偏移量,以避免向对数运算符输入零。用于回归版本的唯一训练损失是预测姿态和地面实况姿态之间的L2损失:1ΣJ所有关节都在一定距离内的帧。第二个度量被认为是更困难的,因为单个联合违规将导致不合格的帧。对于Hands2017Challenge数据集,由于测试集的地面真实数据不公开,官方测试网站仅提供显示平均关节误差结果。L=(ygt− y)2。(八)reg2j=14.2. 自身对照对于检测和回归两种情况,重要项G ∈ RN× J都是在没有地面实况信息的情况下自动估计的。在本小节中,我们执行自比较以显示我们方法中不同组件的影响。详细比较见表1。J11932Hands2017挑战数据集纽约大学数据集检测检测w/o视图规范化回归检测/单一视图回归/单一视图回归/三观256点11.3413.1411.219.829.459.05512点10.2311.9310.119.339.068.491024点9.9311.679.829.258.998.352048点9.9311.699.879.329.088.35表1.自比较结果图5.与纽约大学数据集上的最新技术进行比较[30]左:不同关节的平均误差右:基于不同错误阈值的正确帧的比例方法Ours/回归Ours/检测V2 V-PoseNet [15]RCN-3D [36]绿洲[6][2]第二章瓦诺拉[36]平均测试看得到的测试看不见的测试9.82 7.159.93 7.1812.439.97 7.5511.30 8.86 13.3311.70 9.15 13.8311.91 9.55 13.89对于Hands2017Challenge数据集,姿势估计误差增加约1.5 mm。检测与回归分析元et.al.表明基于检测的方法通常比基于回归的方法工作得更好[36],因此我们实现了基于检测(我们的/分布)和基于回归(我们的/回归)的变化。从表1中可以看出表2.我们的方法与Hands2017Challenge数据集12.2314.1110.218.4210.779.3710.549.04表3.我们的方法与纽约大学数据集视图规范化。为了验证视图规范化的必要性,我们使用视图规范化数据和检测版本的原始数据来训练我们的方法。 从表1中可以明显看出,在两个数据集中,两种变体显示出相似的性能,其中基于回归的变化稍微优于基于检测的对应物。其可能的原因可能是二进制分布的量化效应以及与先前工作中使用的2D或3D热图相比的1维热向量的简化。然而,1D热矢量表示比3D热图表示。对于热向量,我们需要B×J值来表示姿态输出,而3D热图需要J×B3值[15]。在未来的工作中,值得研究更多不同的损失类型和热图表示。点数。利用PEL结构和基于投票的方案,我们的方法是非常灵活的输入点云的大小。虽然网络是用512个点训练的,但在测试阶段可以使用任意数量的点。对于在线应用程序,此属性对于根据可用的计算资源选择任意数量的点是有益的如表1所示,测试了不同数量的点方法平均关节误差(mm)Ours/regression/singleViewOurs/regression/threeViewsOurs/detection8.998.359.25[16]第十六话3DCNNDenseReg [4][15]第十五话SHPR-Net [3][6]第六届全国政协副主席点到点[9]11933图6.基于重要性权重的分割结果(最佳颜色)。点:输入点云,颜色表示深度值,蓝色点距离相机更远,红色点距离相机更近。细分:用不同的颜色、手掌(红色)、拇指(绿色)、食指(蓝色)、中指(黄色)、无名指(青色)、小指(粉红色)和对于所有部分具有低重要性权重的不相关点(灰色)来指示手的每个部分。两个数据集。该方法只需256个点就能获得良好的性能,与512个点相比,平均关节误差仅增加0.11 mm。一般来说,更多的点提供更好的性能,但在1024点之后,它因此,我们选择了1024个点进行测试,将我们的方法与其他最先进的方法进行比较。4.3. 与最新技术水平方法的Hands2017挑战数据集。由于测试集的地面实况数据是公开的,因此以前的一些文章自行划分训练集以创建自己的测试集。因此,为了公平比较,我们只比较这些方法,谁也测试了官方测试- ING网站2。在表2中,我们将我们的方法与Hands2017Challenge数据集上其他五种表现最好的方法进行了比较,其中包括使用3D输入数据的方法和使用2D深度图像的方法。RCN-3D [36]、THU VCLab [2]和Vanora [36]使用深度图像作为输入数据。V2 V-PoseNet [15]使用体素表示输入数据和输出热图。Oasis [6]也使用3D点云作为输入,他们的方法基于PointNet [20]构建。使用三种不同的误差进行比较:1)整个测试集的平均值(avg测试),2)在整个测试集中看到的受试者的手的平均值2https://competitions.codalab.org/competitions/17356#learnwww.example.com分割点分割点分割点11934我们的方法[15]第十五话Hand3D [4]P2P回归[9]GPUGTX1060Titan XTitan X泰坦Xp时间检测回归285.7毫秒33.3毫秒23.9毫秒256点512点1024点3.5毫秒6.9毫秒12.5毫秒2.9毫秒5.5毫秒10.7毫秒表4.运行时和硬件的比较ing训练(看不见的测试),以及3)看不见的受试者的手的测试集图像的平均值目前,我们的方法在9.82mm的测试数据集对于可见受试者12.04 mm,表明了该方法的普适性。与其他基于3D数据的方法相比,我们的方法略优于V2 V-PoseNet,而V2 V-PoseNet需要10个好的GPU来实时运行,我们的方法只需要一个中等的GPU。与同样使用1024个3D点作为输入的oasis相比,我们的方法要好1.48 mm,其中oasis需要更多的输入信息,如表面法线和k-最近邻。NYU数据集。对于纽约大学的数据集,我们只比较了2017年之后的最新方法。为了测试性能,仅使用前视图。根据以前的工作[17][30][9],提供的36个接头中只有14个接头用于评估。为了公平起见,我们只比较了仅在纽约大学数据集上训练的方法,而没有额外的数 据 。 比 较 的 方 法 包 括 基 于 深 度 图 像 的 方 法(DeepPrior++ [16],DenseReg [4]),基于3D体素的方法(3DCNN [8],V2 V-PoseNet [15])和基于点云的方法(SHPR-Net [3],HandPointNet [6],Point-to-Point[9])。比较如图5所示,其中我们的方法与V2 V-PoseNet [15]和点对点[9]的性能相当好在表3中可以找到平均联合误差值的更接近的比较,其中我们用单个视图训练的方法是第二好的,并且我们用三个视图训练的方法优于所有最近的最先进的方法。4.4. 使用重要性项的分割除了显示依赖于地面实况数据的定量结果之外,我们还显示了使用自动推断的重要性项的分割的一些定性结果。如图6所示,分割结果显示在原始点云旁边。样本取自Hands2017挑战数据集。示出了具有所有可见指状物的样品和具有不同水平的自闭塞的样品。在所有情况下,手指都彼此清楚地分割,甚至手指扭曲在一起。对任何关节没有贡献的点具有非常小的重要性值,并且它们被分类为背景如图6所示,手臂和背景点被清楚地分割成灰色.注意,分割结果是在没有用于分割的地面实况数据的情况下获得的这就引出了一个未来的研究问题,即我们是否可以在手-物体交互的情况下执行这种方法,在这种情况下,物体的影响可以自动消除。4.5. 尺寸和型号与基于深度图像的方法相比,我们的方法需要更多的计算时间和内存存储,这限制了我们在硬件设置上只能使用512个点(批量大小=32)。为了存储学习的模型,所提出的方法需要38 MB的回归版本和44 MB的检测版本。与基于3D CNN的方法[4]的420MB相比,我们的模型大小要小得多。对于测试阶段,我们的方法的运行时间是12.5 ms和10.7 ms每帧的检测和回归版本,分别为1024点作为输入。当使用更少的输入点时,运行时间可以进一步减少,性能损失很小。表4显示 了 运 行 时 间 与 其 他 最 先 进 的 3D 方 法 的 比 较[15][4][9]。虽然其他方法都使用了比我们更强大的GPU,但我们的方法需要的处理时间最少。5. 结论我 们 建 议 使 用 一 种 新 的 神 经 网 络 架 构 ,ResidualPEL,使用无序点云作为输入的手姿态估计。该方法对于输入点顺序是不变的,并且可以处理不同数量的点。与以前的基于3D体素的方法相比,我们的方法需要更少的内存大小。与基于PointNet的方法相比,我们的方法不需要表面法线和K-最近邻信息。提出了一种基于投票的方法,将各个点的信息合并到姿态输出中,由此产生的重要性项也可以用于将手分割成不同的部分。 性能我们的方法在两个数据集上进行了评估,其中我们的方法在两个数据集上的性能都优 于 最 先 进 的 方 法 。 在 未 来 的 工 作 中 , 建 议 的ResidualPEL和投票计划也可以应用到类似的问题,如人体姿态估计和物体姿态估计。11935引用[1] Mart 'ın Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo,Zhifeng Chen,Craig Citro,Greg S Corrado,Andy Davis , Jeffrey Dean , Matthieu Devin , et al.Tensorflow:异构分布式系统上的大规模机器学习。arXiv:1603.04467,2016。5[2] Xinghao Chen , Guijin Wang , Hengkai Guo , andCairoong Zhang.用于级联手部姿态估计的姿态引导结构化区域集成网络。arXiv预印本arXiv:1708.03416,2017。六、七[3] Xinghao Chen , Guijin Wang , Cairong Zhang , Tae-Kyun Kim,and Xiangyang Ji. Shpr-net:从点云进行深度语义手部姿势回归。IEEE Access,6:43425一、二、六、八[4] Xiaoming Deng,Shuo Yang,Yinda Zhang,Ping Tan,Liang Chang,and Hongan Wang.Hand3d:使用3D神经网络进行手部姿势估计。 Proc. 计算机视觉与模式识别(CVPR),IEEE,2018。一、二、六、八[5] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记,带 有 rgb-d 视 频 和 3d 手 部 姿 势 注 释 。 arXiv :1704.02463,2017年。5[6] 刘浩、蔡玉军、翁君武、袁俊松。手点网:使用点集的3d手姿态估计。 在IEEE计算机视觉和模式识别会议论文集,第8417-8426页一二六七八[7] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计:从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议 论 文 集 ( Proceedings of the IEEE conference oncomputer vision and patternrecognition),第3593-3601页,2016年。2[8] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.3D卷积神经网络,用于从单个深度图像进行高效和鲁棒的手部姿势估计在IEEE计算机视觉和模式识别会议上,第1991-2000页二、八[9] 六号戈,周仁,袁俊松。点到点回归点网络用于三维手姿态估计。ECCV,Springer,1,2018. 一、二、六、八[10] 何新伟、周扬、周志超、宋白、向白。多视角三维物体检索的三重中心丢失。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。2[11] Binh-Son Hua、Minh-Khoi Tran和Sai-Kit Yeung。逐点卷积神经网络。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。3[12] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞:用于三维点 云 模 型 识 别 的 深 度 kd 网 络 。 在 计 算 机 视 觉(ICCV),2017年IEEE国际会议上,第863-872页。IEEE,2017年。3[13] 李佳欣,Ben M. Chen,and Gim Hee Lee. So-net:用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。3[14] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对象识别的3D卷积神经网络。在Intelligent Robots andSystems ( IROS ) , 2015IEEE/RSJInternationalConference on,第922-928页中。IEEE,2015年。2[15] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿势估计。arXiv:1711.07399,2017年。一二六七八[16] Markus Oberweger和Vincent Lepetit Deepprior++:改进快速且准确的3D手姿态估计。在ICCV研讨会,第840卷,第2页,2017年。二、六、八[17] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.深入学习手部姿势估计。在计算机视觉冬季研讨会,第1-10页,2015年。二、八[18] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.训练用于手部姿势估计的反馈回路。IEEEInternationalConference on Computer Vision,第3316- 3324页,2015年。2[19] Iason Oikonomidis , Nikolaos Kyriazis , and Antonis AArgy-ros.利用kinect实现基于模型的手部关节高效三维跟踪。在BmVC,第1卷,第3页,2011中。2[20] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.Pointnet:用于3D分类和分割的点集深度学习。Proc.ComputerVisionandPatternRecognition(CVPR),IEEE,1(2):4,2017. 二、七[21] Charles R Qi,Hao Su,Matthias Nießner,Angela Dai,Mengyuan Yan,and Leonidas J Guibas.用于三维数据对象分类的体积和多视图cnn。在IEEE计算机视觉和模式识别会议的论文集,第5648-5656页,2016年。2[22] Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas JGuibas. Pointnet++:度量空间中点集的深度层次特征学习。神经信息处理系统,第5099-5108页,2017年。2[23] 陈倩,孙晓,魏奕辰,唐晓鸥,孙健。从深度进行实时和鲁棒的手部跟踪。在2014年IEEE计算机视觉和模式识别会议的Proceedings,第1106-1113页中。2[24] SiamakRavanbakhsh , JeffSchneider 和 BarnabasPoczos。使用集合和点云进行深度学习。arXiv预印本arXiv:1611.04500,2016。二、三、四[25] Javier Romero , Dimitrios Tzionas , and Michael JBlack.Em-身体的手:建模和捕捉手和身体到一起。ACM Transactions on Graphics (TOG),36(6):245,2017。2[26] TobySharp,Cem Keskin,Duncan Robertson,JonathanTay- lor , Jamie Shotton , David Kim , ChristophRhemann , Ido Le- ichter , Alon Vinnikov , YichenWei,et al.准确、稳健、灵活的实时手部跟踪。在第33届ACM年度会议的会议记录中,关于计算系统中的人为因素,第3633-3642页。ACM,2015. 2[27] TobySharp,Cem Keskin,Duncan Robertson,JonathanTay- lor , Jamie Shotton , David Kim , ChristophRhemann , Ido Le- ichter , Alon Vinnikov , YichenWei,et al.准确、稳健、灵活的实时手部跟踪。在第33届ACM计算机系统人为因素上,第3633ACM,2015. 211936[28] Danhang Tang、Jonathan Taylor、Pushmeet Kohli、CemKe-skin、Tae-Kyun Kim和Jamie Shotton。打开黑匣子:用于估计人类手部姿态的分层抽样优化。在IEEE计算机视觉国际会议论文集,第3325-3333页,2015年。2[29] AnastasiaTkach , AndreaTagliasacchi , EdoardoRemelli,Mark Pauly,and Andrew Fitzgibbon.用于手部跟踪的在线 生成模型个性化。ACM Transactions onGraphics(TOG),36(6):243,2017。2[30] Jonathan Tompson ,Murphy Stein, Yann Lecun ,KenPerlin.使用卷积网络的人手实时连续姿态恢复。ACMTransactions on Graph-ics,33(5):169,2014. 二五六八[31] Yue Wang,Yongbin Sun,Ziwei Liu,Sanjay E Sarma,Michael M Bronstein,and Justin M Solomon.点云学习的动态图cnn。arXiv预印本arXiv:1801.07829,2018。3[32] 吴 志 荣 , 宋 舒 然 , Aditya Khosla , Fisher Yu , Lin-guang Zhang , Xiaoou Tang , and Jianxiong Xiao. 3dshapenets:体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集,第1912-1920页,2015年。2[33] 叶琪和金泰均基于分层混合密度网络的遮挡感知手部姿态估计。ECCV,Springer,2018. 2[34] 叶琪,袁善欣,金泰均。基于部分粒子群算法的空间注意深度网络分层混合手势估计。在欧洲计算机视觉会议上,第346-361页。施普林格,2016年。2[35] 谭语,孟晶晶,袁俊松。三维物体识别的多视角在IEEE计算机视觉和模式识别会议上,2018年6月。2[36] ShanxinYua
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功