基于密集引导图监督的手姿态估计框架

94 浏览量更新于2023-10-13 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

HandMap：基于中间密集引导图监督的Xiaokun Wu，Daniel Finnegan，Eamonn英国巴斯大学计算机科学系{xw943，d.j. finnegan，E. ONeill，y.yang2}@ bath.ac.uk抽象。这项工作提出了一种新的手姿态估计框架，通过中间密集的指导地图监督。通过利用在基于检测的方法中预测手关节的热图的优势，我们提出在不限于热图的分辨率的基于回归的框架中通过中间监督来使用密集特征图我们的密集特征图被精心设计来编码手的几何形状和局部关节与全局手之间的空间关系。所提出的框架显着提高了国家的最先进的2D和3D在最近的基准数据集。关键词：手势估计，稠密引导图，中间监督1介绍鲁棒的手部姿态估计对于人机交互中的新兴应用（诸如虚拟和混合现实、计算机游戏和徒手用户界面）是必不可少的。在这项工作中，我们专注于鲁棒的手部姿态估计从单个深度图像，一个具有挑战性的任务，由于姿势的广泛可能性，丢失的几何信息所造成的自遮挡，和极端的观点。3D感测和机器学习技术的最新发展已经产生了具有标记的手部姿势帧的大型数据集[1-3]，以及可以应对具有挑战性的学习任务的复杂网络结构[4]。最先进的基于学习的手部姿势估计方法[1，5-使用随机森林及其变体的其他方法[15关于学习结果，最近的工作可以分为基于回归和基于检测的方法[19]。基于回归的方法直接回归手关节的3D坐标。虽然该方法是直接的，但从输入数据到接头位置的映射是高度非线性的，并且对学习过程提出了挑战基于检测的方法学习单个手关节的概率分布。来自学习模型的输出是由关节位置的离散概率值组成的热图因此，手关节估计的准确性受限于热图的分辨率。2X. Wu，D.Finnegan，E. L. 杨图1：我们算法的流水线从单个深度图像开始。我们的基线方法（以实线示出）在低维特征空间上堆叠残差模块的R个重复，然后直接回归每个关节的3D坐标。相比之下，我们提出的方法（虚线所示）密集地从输入图像中采样几何上有意义的约束，这为残差模块的特征表示提供了连贯的指导在本文中，我们提出了一种新的手姿态估计框架，利用基于回归和基于检测的方法的优点。我们的框架结合了特征空间的联合预测，作为一个“中间”的监督模块，以基于回归的学习管道的约束这有助于正则化学习问题，从而产生更鲁棒的估计。我们的方法受到[20]的启发，其中中间监督被测试用于2D人体姿势估计。我们证明了我们的方法准确地估计手的姿势，而不管手的数据表示的尺寸（例如，2D或3D）。为了解决手部关节之间的模糊性和遮挡，我们使用密集的指导图来进行监督，而不是稀疏的热图，从而得到更好的估计结果。我们将我们的贡献总结如下：1. 我们通过密集的指导地图，这是一致的，在整个特征域的特征空间监督，并强大的闭塞。2. 我们的网络结构的设计结合了基于检测的方法和基于回归的方法，并受益于中间预测的准确性增加3. 我们系统地评估了不同类型的指导地图，以证明其有效性，并通过与最先进的方法相结合来实现改进的结果密导手图32相关工作用于使用深度信息从单个视图估计手姿态的方法通常被分类为三个类别：判别方法、生成方法和混合方法。我们从每个类别中回顾相关方法，特别是判别方法，我们的方法属于这一类生成方法将预定义的手模型拟合到深度数据的每个帧以在时间上跟踪手姿势。一开始，他们需要一个模特-数据校准步骤通过将手模型对准到标准姿势来开始跟踪，其中通常需要用户输入来保证良好的开始。持续时间在跟踪中，使用当前帧中的估计的手姿态来初始化下一帧的拟合，这意味着由于自遮挡、手的快速移动等而容易累积误差。在最坏的情况下，需要重新校准步骤来重新开始跟踪。使用具有不同表示的手模型来平衡时间跟踪的效率和准确性：例子包括使用椭圆形来驱动手部皮肤变形的线性混合皮肤模型[21，22]，使用圆柱体和圆锥体来表示手部分段的基于连续性的手部模型[23]，将手部表示为高斯核的混合的高斯混合模型[24，25]，指示手部包络的网格模型[26]，以及使用关键位置处具有不同半径的球体之间的混合表面来定义手的球体网格[27]。根据精心设计的匹配函数，采用各种优化技术来将预定义的手模型拟合到深度数据，例如粒子群优化[28]、迭代最近点配准[27]以及两者的组合[29]。判别方法直接从预先标记的数据中学习手部姿势估计器。使用不同的判别模型建立深度数据和手部姿势之间的映射。早期的工作，如[15-最近的工作利用CNN和大规模标记数据的成熟度来进一步提高性能[1，5-14]。在最近的一项调查中，对最先进的方法进行了分类和讨论。关于“HANDS 2017”挑战[19]的不同方面，例如学习成果（回归与检测）、CNN的维度（2D与3D）、学习模型结构（分层与非分层）等。从各个方面对以前的工作进行详细的重新审视超出了本文的范围。在本文的其余部分将我们的讨论限制在回归或基于检测的方法上，以突出我们的动机和贡献。感兴趣的读者可以参考[19]进行全面的研究。基于回归的方法获取深度图像并直接回归手关节的3D坐标。Guo等人。[9，10]提出了一种用于手关节回归的区域集成网络。基于该网络，Chen etal.[12]建议应用估计姿态的迭代细化以获得更好的结果。Oberweger4X. Wu，D.Finnegan，E. L. 杨等人[13]基于增强的网络架构、数据增强和更好的初始手部定位来估计手部姿势。Madadi等人[11]利用分层树状结构CNN从局部姿势估计手关节。与将深度数据视为2D图像的上述方法不同，Ge et al.[14]基于来自三个规范视图的投影距离场训练3D CNN以回归手关节位置。与回归相比，基于检测的方法预测每个关节的概率密度图。Tompson等人[1]使用CNN预测关节位置的概率分布作为热图。Ge等人[5]通过使用来自多个视图的深度信息来扩展该方法。Moon等人。[30]使用3D CNN来估计每个关节的每体素可能性，与之前基于2D CNN和手部关节回归的方法相比，在“HANDS 2017”挑战中获得了最佳的整体性能根据[19]中的估计误差统计，鉴于前三个估计结果都是基于检测的，基于检测的方法似乎优于基于回归的方法这反映了深度图与3D手关节坐标之间的高度非线性映射的困难。仅仅依靠神经网络来进行联合回归是不够的。另一方面，在我们的手部姿势估计实践中，我们认识到，由于用于联合分布的预测热图的有限分辨率，基于检测的方法也具有其自身的限制，使得难以识别单个图元素内的准确手部位置（即，2D中的像素或3D中的体素）。人体姿势估计中的最近工作提出了多任务设置中的组合框架[31，32]，但是在手部姿势估计中采用类似思想的性能仍然是未知的。在这项工作中，我们利用多阶段多目标框架的优势来攻击特定领域的挑战，从而提高准确性和鲁棒性。Zeiler等人[33]假设神经网络的中间输出可以用于表示从网络的整体输入中提取的特征从这一点上，我们假设，充分良好的设计功能可以作为一个神经网络的中间层的良好Newell等人[20]采用了中间监督的思想，并在他们的工作中测试了2D人体姿态估计，但他们的结果仅限于2D，难以解决深度模糊问题。我们建议通过在密集指导地图监督模块之后添加回归阶段来结合基于检测和回归的方法，以稳健地输出3D关节位置。我们的3D姿态估计系统从[19]中报道的基于检测的方法中获得了更高精度的好处，但我们对特征空间而不是输出空间施加了中间约束混合方法使用生成式方法执行时间手部跟踪，而如果误差累积，则通过判别式方法重新初始化跟踪。已经使用了各种重新初始化策略，包括粒子群优化[29]，深度神经网络[1]，随机蕨类植物和森林[34]以及检索森林[26]。密导手图53通过中间密集引导图监督的由于受约束的观看方向以及不同手部之间的内部遮挡（例如，手指-手指遮挡、手指-手掌遮挡），深度相机在一个帧中只能看到部分手表面S。此外，由于有限的扫描分辨率，我们只能依赖于离散采样的2D深度图D作为我们的问题的原始输入。手部姿势通常由3D关键点的星座表示，其对应于固定数量的解剖手部关节。我们的目标是估计所有手部关节的3D坐标，它们共同形成向量Y∈RJ×3，其中J是关节的数量。这些关节为基于手跟踪的应用提供了关键的空间信息接下来，我们将详细描述我们的手部姿势估计框架，该框架基于直接回归的数学基础，并详细说明我们新的学习框架介绍了它的关键模块：中间制导图监督。通过直接回归的手部姿态估计假设部分手部表面S可以从D开始，通过遍历混合函数Ψ：D›→S′来计算，其中S ′具有最小的效率并且可以应用S直到任意的等式d或d，我们都可以对该混合函数Ψ：D›→Y′进行估计。由于直接估计高维中的高度非线性函数Ψ是一种有效的方法维度空间是非常困难的，我们采用基于学习的方法，首先通过卷积神经网络建立特征提取映射Φ：D›→χw或k s（CNN）。在您的映射Φ处，此定义的函数对Yä而言是完全相同的在训练过程中，使用Φ对存储器进行L（Ψ）=L（Π（Φ））=1Y¯−Y2。（一）雷格雷regre22我们称这种方法为直接回归，它反映了其底层网络的原始近似能力。然而，简单的学习系统的幼稚的应用程序很难实现必要的表示能力，以产生高精度的结果，因为我们的目标函数Ψ是高度非线性的。此外，诉诸复杂的深度网络设计是压倒性的，并且容易导致过拟合问题。因此，我们将这种方法作为基线来证明我们提出的方法的有效性，如下所示。3.1我们的方法图1展示了我们的管道的整体结构，其中有一个重复的残留模块集成到传统的基于CNN的框架中作为主干（实线）。请注意，我们不限制输入数据的维度：我们的流水线可以处理2D和3D手部表示，并且这里我们将m表示为输入分辨率（即，2D中的像素数或3D中的体素）。输入数据通过多个卷积层和最大池化层（在6X. Wu，D.Finnegan，E. L. 杨橙色），直到其达到期望的分辨率k。该阶段可以被视为初步特征提取和下采样，其通过处理较低分辨率特征来降低计算成本。然后，初步特征被输入到我们的核心指导地图监督（GMS）模块（以灰色显示），其中特征被细化R次。最后将细化后的特征作为最终姿态回归阶段的输入。我们首先使用卷积和最大池层（橙色）来使特征维度适应最终输出[35]，然后使用全连接层（绿色）进行最终回归。我们使用残差模块[36]作为GMS模块的基础，该模块具有学习特征差异的能力。我们从输入中计算几何上有意义的约束，然后通过与残差模块类似的设计将它们作为指导图。如深灰色区域中所示，侧分支从残差模块的输出展开（以虚线表示(in蓝色），这可以被视为更高级别的特征抽象（黄色）。将提取的高级特征与指导图（其提供误差函数）进行比较，然后将这些监督特征添加回主分支。引导图监督和残差链接通过误差反馈共同利用残差模块的特征提取有效性，这进一步增强了整个系统3.2导图监督引导图Γ：D>-ζ计算整个输入域D上的空间响应ζ，其反映特定手关节的概率。它用于增强直接回归方法，使得所得的手可以稳健地估计关节位置。这是受[20]中的多阶段监督方法的启发。这里的核心问题是如何设计一个几何意义的指导地图，是有效的手关节回归。我们首先提出了使用基于高斯分布的热图的最简单的选择，我们称之为稀疏指导图。然后，我们将讨论我们的贡献密集的指导地图，更好地代表了手关节的几何和空间属性。2D中最简单的指导图可以很容易地实现为J个热图图像[37]，每个热图图像都包含一个手关节的采样像素概率值（见图2a）。在我们的实现中，我们首先将1分配给从标记的联合，然后使用高斯核G对图像进行滤波：D→ζ热，以确保所得热图ζ热仍然是概率分布。我们也选择 G的非常小的方差σ，以减少关节间模糊度。在3D中，我们使用更受限制的单次概率图ζone[30]，其中仅对于体积中的每个关节，单个体素是正的，这损害了分辨率但节省了计算成本。注意，这些类型的引导图固有地是窄带概率分布，对于产生高精度似然输出是必要的。因此我们称之为稀疏导航图。这里，我们不加区别地表示2D密导手图7（a）（b）（c）（d）图2：不同的引导图（这里我们仅示出小拇指尖的图示）。(a)2D概率图ζ热。(b)归一化欧氏距离Ωdist. (c-d)2D/3D欧氏距离Ωdist加上单位偏移Ωunit。并且3D引导图为K，则中间监督的损失可以被公式化为预测概率图ζ'和地面实况概率图ζ之间的交叉熵：ΣΣLsparse（r）=−ζv∠log（ζ¯v）。（二） J Jj∈J v ∈K这些方法的问题在于，在没有一致的像素/体素的大的支持邻域的情况下，局部关节检测可以容易地导致假阳性预测[38]，特别是在不同关节彼此模糊的手部姿势估计的情况此外，由于大多数引导图条目为零，这抑制了特征图的能量函数（等式2）的激活，因此导致最终回归阶段中的不令人满意的密集的指导地图监督，而不是使用稀疏的指导地图，我们建议使用密集采样的矢量或标量场（称为密集的指导地图）作为中间特征地图。密集引导图被仔细设计为表示每个单独的关节，同时保持整个特征域K上的一致性。我们的设计并不局限于一个特定形式的密集场，但在实践中，我们已经测试了几个几何意义的选择，如下所列。偏移贴图：密集引导图的一个简单选择是使用由从各个像素/体素指向关节位置的矢量组成的矢量场偏移。每个向量的幅度是像素/体素与关节之间的欧几里得距离。很容易看出，在2D中，我们需要计算J×2而在3D中，我们需要计算J×3个制导图。在实践中特征空间中的这种非标准化偏移可能导致数值不稳定性由于学习的卷积权重的尺度的急剧变化，导致不饱和。8X. Wu，D.Finnegan，E. L. 杨简体中文isfactory回归结果。这促使我们设计更好的密集指导图如下。归一化距离加单位偏移映射：在我们的实验中，另一种方法是将Ω偏移分为两部分：1）标量场Ωdist，具有到正确关节位置的逆欧氏距离，由特征域extendk归一化;以及2）向量或场Ωunit，其中hi ch将ed计算为Ωoffset/Ωoffse t2。请注意，我们使用距离倒数计算Ωdist，结果为关节位置处的值为1。这可以被视为稀疏热图ζheat的自然泛化，支持扩展到整个特征域。这里，我们也不会在任何局部支撑内截断Ωdist，因为由于闭塞，关节经常在截断半径之外（见图4b）。归一化距离：使用组合的Ωdist和Ωunit的问题是计算成本太高（2D的制导图为J × 3，3D的制导图为J × 4）。请注意，Ωunit与Ω dist的梯度（一阶导数）成正比：Ωunit= Ωdist，因此我们实际上只能使用距离图Ωdist作为引导特征(a)(b)（c）第（1）款图3：几何上更有意义的导航图。(a)用于从单个点传播距离的（b-c）我们对小指指尖的近似测地距离图Ωedt和Ωedt2的实现近似测地距离：从最后的讨论我们知道，距离图的设计是中间监督性能的关键。此外，考虑到ι（D）是嵌入R3中的光滑曲面，我们建议使用测地距离映射Ωgeo作为我们最终选择的导航映射。请注意，测地线的计算成本很高，并且只能在完整的曲面上定义然而，R3的假设是有问题的，考虑到我们的输入深度图像D根据定义仅为密导手图9K为了解决这个问题，我们提出了一个计算效率高的近似Ωgeo，首先在预处理步骤中计算（有符号）欧几里得距离变换（EDT）映射[39]投影的深度图像D（见图3a）。这里，我们还需要小心地计算手部区域之外的距离，因为由于遮挡导致周围空间中的手部数据缺失而导致一些关节注释被隔离是非常常见的（参见图1B）。第4b段）。然后，我们可以使用快速行进法（FMM）[40]从每个关节位置传播距离，从而产生近似的表面距离图Ωedt（见图3b）。注意，与使用如图2b所示的简单欧几里得距离相比，小拇指指尖和无名指指尖之间的距离不再短。加权测地线近似：我们的表面距离图Ωedt的设计不是来自几何精确测量，因为由于3D中的丢失数据和计算成本，所有计算都在2D图像空间上执行。然而，由于我们使用归一化距离，Ωedt可以解释为提供局部支持的权重。因此，我们还提出了另一种加权距离mapΩedt2 =Ωedt⊙Ωdist，这在测量方面更有意义，并且与几何距离成正比。对于一个网络，我们使用所有密集制导图的相同损失函数：Ldense（Ω）=Ω¯−Ωsl1，（3）其中xsl1是平滑的l1范数，其值为x− 0。5因为|X|>1;或0的情况。5*x2否则[41]。3.3最终回归阶段最后的回归阶段通过训练基于CNN的网络来估计所有手关节位置，同时最小化以下损失函数L：L=Lregre+λ1*Lsuper+λ2*Lregu，（4）其中，Lsuper可以是稀疏（等式2）或密集（等式3）引导图监督的损失，并且Lregu是应用于卷积算子的权重的l2λ1、λ 2是平衡重：设λ1= 1，λ2=0。01.网络结构：我们的网络的核心部分是指导图监督，重复R次，以最大限度地提高监督效率，如[20]。我们没有使用“沙漏”模块，它递归地应用不同尺度的残差模块[36]：虽然这导致计算效率低下的流水线，但是我们的基线测试的准确度很低。因此，我们使用Inception-ResNet-v2模块[42]作为我们的主要构建块，它能够提取不同尺度的特征根据经验，我们发现R= 2在大多数情况下表现良好，但我们算法的核心思想足够通用，而不局限于网络规范。10X. Wu，D.Finnegan，E. L. 杨(a) 2D前视图（b）2D侧视图（c）3D体素（d）3D传播图4：具有以颜色示出的地面实况标记的输入手数据表示。我们讨论中的大多数算法使用单个正面视图（a），而侧视图（b）用于多视图方法。我们在3D情况下使用体素化表示4实验评价‘HANDS 2017’ challenge dataset [4]: 我们遵循8：1：1规则将数据划分为训练/验证/测试集，而无需进一步增强，因为我们的主要重点是比较每种方法的学习性能。对该数据集的所有21个关节进行评估数据预处理：仅包含从原始输入深度图像分割出的手部分的3D体积V我们根据经验发现，每侧240mm的轴对齐立方体是裁剪手部的良好范围，并且我们将立方体中心与所有关节的中心对齐。还可以训练用于检测手部区域的单独定位器[13]。我们还尝试了基于“Faster RCNN”的定位器但是额外的复杂性并不能帮助我们公平地评估我们的主要任务，所以我们把手部区域检测留给未来的工作。作为输入，我们的方法需要从原始图像帧分割的手区域。我们提供这一点，我们的系统，因为我们不关心自动分割和检测的手区域。我们将V中的点重新投影到图像空间上，并将其重新缩放为128× 128的大小，我们将其作为管道的输入D（见图4a）。除非另有说明，否则在本文的其余部分中，制导特征图的大小固定为32× 32。在3D的情况下，我们将V体素化为64× 64× 64网格，其中每个体素处的值C是该体素内的数据点的数量（参见图4c，其中较深的颜色表示较大的值）。我们不采用流行的方法[30]这只是使用二进制占用作为输入，因为在我们的方法中引入的有意的额外开销在捕获局部几何结构时效果更好。密导手图11(a)2D病例（b）3D病例(c)与STAR比较（d）对STAR的图5：每个关节平均误差的比较。除了使用原始逐体素点编号C作为输入之外，我们还发现，在一定距离内沿着表面法线传播那些统计数据可以充当更好的输入形式P（参见图4d）。传播的版本产生扩展的细节到闭塞体积，并导致更好的预测。在我们的实验中，我们将3D引导特征图的大小设置为32，并在超过硬件限制的情况下将其减少到16训练：我们使用Tensorflow [45]来开发学习框架，我们的框架使用Adam优化器[46]和默认参数进行训练。初始学习率为0。001，我们使用衰减率为0的情况。94.我们使用单个GeForce GTX 1080 Ti作为主计算硬件，并选择50作为默认批量大小。我们用最多10个epoch训练所有模型，当验证损失比验证集上的最后一个epoch高出10%时，为了平衡性能和计算成本，我们通常为导航地图监督模块选择重复次数R在单独的测试集上进行评价。4.1评估指标我们使用的主要指标是每个关节的所有测试帧的平均误差，我们还将其平均值作为每个方法性能的总结。图5比较了所有手关节的方法，使用颜色来区分方法。测试方法的详细说明和相应的12X. Wu，D.Finnegan，E. L. 杨(a) 2D病例（b）3D病例(c)与STAR比较（d）对STAR的图6：最大每关节误差的百分比曲线的比较错误统计可以在表1中找到我们还评估了每个单帧内的最大图6通过可视化正确预测与最大允许误差对地面实况注释的比率详细的错误统计数据也可以在表1中找到。我们还在补充材料中提供了更多结果。4.2密集导图监管成效明显直接坐标回归（CR）方法是我们的基线，我们还展示了使用Inception-ResNet [42]后的性能改进。2D病例：与基线方法相比，所有采用引导图监督的CR方法均实现了明显改善使用加权近似测地距离的中间监督（图3c）在平均误差（6.68 mm）和最大每关节误差（8.73 mm）方面提供了最佳性能。平均值和最大误差之间的差异仅为2.05mm，表明我们的框架的鲁棒性基于稀疏引导地图（图2a）和具有近似测地距离的密集引导地图（图3b）的中间监督效果较差，其性能大致相同。在我们的测试中，具有归一化偏移的密集监督（图2c）比具有普通欧几里得距离图的密集监督（图2b）表现得更好;然而，我们放弃了这种方法，因为它需要3倍的计算能力（如第3.2节所解释的）来获得相对较小的性能改进。密导手图13表1：手关节估计方法和‘HANDS 2017’挑战数据集上的相应估计误差的总结。CR：直接坐标回归。MV：多视图方法[5]。启动-重新启动：Inception-ResNet-v2模块[42].欧氏距离：在3D世界坐标中计算。截断欧氏距离：沿着表面法线传播逐体素点计数。表面距离：近似测地距离偏移：归一化的欧几里得距离加上单位偏移。偏移回归：使用偏移图的加权平均直接计算3D关节位置，而无需最终坐标回归。方法平均误差（mm）最大单关节误差（mm）MV-CR w/表面距离（加权）5.908.04MV-CR w/ Euclidean距离6.359.772D CR w/表面距离（加权）6.688.73MV-CR，带表面距离6.749.513D CR，带偏心距6.7610.163D CR w/检测7.0010.252D CR，带热图7.6211.532D CR w/表面距离7.8911.183D CR w/Euclidean距离7.9211.04Ge等人（CVPR8.0712.30Ge等人（CVPR8.1512.17三维截断欧氏距离8.9814.012D CR，带偏心距9.3414.09Moon等人（CVPR9.4913.602D CR w/Euclidean距离10.9016.443D CR11.3917.922D CR，带接收-resnet17.9426.08二维CR19.6332.98二维偏移距回归49.8370.88三维偏移距回归51.1773.58组合检测和回归的好处：给定如图2c和2d所示的偏移预测，我们计算姿态估计：每个接头均计算为顶部5 Ω距离激活的加权平均值。然而，如表1所示，这种我们怀疑这业绩不佳的原因是：1）输出空间（例如，32× 32× 32×21 × 4（对于3D），超过了当前使用CNN实现的表示能力硬件标准。2）在极高维空间中的过拟合可能被夸大并导致不可靠的预测。3D情况：我们使用直接CR，其中体素点数C及其传播版本P作为基线，并且所提出的框架作为2D测试获得了显着改善的结果。由于耗尽计算资源，我们在具有归一化偏移的密集监督中采用了降低的特征图大小k=我们跳过了表面距离测试14X. Wu，D.Finnegan，E. L. 杨需要更高的计算成本，同时由于有限的体素分辨率而仍然牺牲局部几何细节。4.3与最新技术水平（STAR）方法的比较我们将我们的最佳方法（2D CR，Ωedt2）与2D [5]和3D [30，14] STAR方法，并实现了令人信服的更好的性能，如图5c和6c所示。STAR方法的改进：我们的密集指导图监督方法的另一个优点是，我们可以很容易地将一个或多个我们的模块插入到现有的学习管道中，使用中间特征空间约束来实现更好的结果。我们在2D中对[5]应用多视图坐标回归（MV-CR）变体，使用[30]的检测输出作为监督特征图，如图5d和6d所示。请注意，我们的MV-CR方法与近似测地距离实现了最小的平均误差在我们所有的实验（5.90毫米，见表1）。我们看到的改进，作为一个积极的证据，某些隐藏的联合约束，可以通过我们的多阶段密集的指导地图监督方法学习。5结论我们提出了一个通用的手姿态估计框架，通过中间监督密集的指导地图。我们的方法克服了手部关节回归的高非线性和基于检测的方法的分辨率限制的密集的引导图被设计成更好地结合手部关节的几何和空间信息我们证明了我们的框架的有效性和选择的指导地图与基线方法在二维和三维的广泛比较。结果表明，我们的框架可以鲁棒地产生手的姿态估计，提高了准确性。未来的工作将探索使用我们的框架的时间手跟踪，整合手检测处理数据在野外，并优化计算性能。确认我们感谢匿名评论者的评论和建议。这项工作得到了CAMERA，RCUK运动分析，娱乐研究和应用中心的支持，EP/M023281/1。引用1. Tompson，J. Stein，M.，Lecun，Y.，Perlin，K.：使用卷积网络的人手实时连续姿态恢复。ACM TOG33（5）（2014）169：1- 169：10密导手图152. 太阳，X.，魏，Y.，Liang，S.，唐，X.，孙杰：级联手部姿势回归。In：IEEECVPR.（2015）8243. Yuan，S.，Ye，Q.，Stenger，B.，Jain，S.，Kim，T.K.：2.2m大桩基准：手部姿势数据集和最先进的分析。IEEE CVPR（2017）26054. Yuan，S.，Ye，Q.，Garcia-Hernando，G. Kim，T.K.：2017年在3D手部姿势估计上的百万挑战。arXiv预印本arXiv：1707.02237（2017）5. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：单个深度图像中的鲁棒3D手部姿势估计：从单视图CNN到多视图CNN。In：IEEE CVPR.（2016）35936. 辛哈，A.，Choi，C.，Ramani，K.：Deephand：通过完成具有深度特征的矩阵来进行鲁棒的在：CVPR中。（2016）41507. Ye，Q.，Yuan，S.，Kim，T.K.：基于部分粒子群优化的空间注意力深度网分层混合手势估计。In：ECCV.（2016）3468. Zhou，X.，中国科学院，万，Q，张伟，Xue，X.，中国科学院，魏云：基于模型的深度手部姿态估计。在：IJCAI.（2016）2421-24279. 郭，H.，Wang，G.，陈旭，Zhang，C.：深度3d手部姿态估计的良好实践。CoRRabs/1707.07248（2017）10. 郭，H.，Wang，G.，陈旭，张，C.，乔F，Yang，H.：区域集成网络：改进用于手部姿势估计的卷积网络2017 IEEE International Conference on Image Processing（ICIP）。（2017年9月）451211. 我的天M Es c alera，S.， Bar´o，X.， Gonza`lez，J. ：用于深度数据中的手部姿势恢复的End-to-End-to-End-g局部神经网络学习CoRRabs/1705.09606（2017）12. 陈旭，Wang，G.，郭，H.，Zhang，C.：用于级联手部姿态估计的姿态引导结构区域集成网络。CoRRabs/1708.03416（2017）13. Oberweger，M.，Lepetit，V.：Deepprior++：提高快速准确的3d手部姿态估计。In：ICCV workshop.第840卷。（2017年）214. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：3D卷积神经网络，用于从单个深度图像进行高效和鲁棒的手部姿势估计。In：IEEE CVPR.（2017）567915. Kes k in，C.， Krac，F.， Kara，Y. E、阿卡湖（AcaarunL.）：使用多层随机化决策森林的Hand_d_p〇sestimation和Hand_d_In：ECCV.（2012）85216. 徐，C.，Cheng，L.：从单个深度图像的高效手部姿势估计。In：IEEE ICCV.（2013）345617. Tang，D.，Chang，H.J.，Tejani，A.，Kim，T.K.：潜在回归森林：三维关节手姿态的结构化估计。In：IEEE CVPR.（2014）378618. Tang，D.，Taylor，J. Kohli，P.，Keskin，C.，Kim，T.K.，Shotton，J.：打开黑匣子：用于估计人手姿态的分层采样优化。In：IEEE ICCV.（2015）332519. Yuan，S.，Garcia-Hernando，G. Stenger，B.，Moon，G.，Yong Chang，J.，李慕，K.，Molchanov，P. Kautz，J.，Honari，S.，Ge，L.，Yuan，J.，陈旭，Wang，G.，杨，F.，Akiyama，K.，吴，Y.，万，Q，Madadi，M.，Escalera，S.，Li，S.，Lee，D.，奥伊科诺米季斯岛Argyros，A.，Kim，T.K.：基于深度的3D手部姿势估计：从目前的成就到未来的目标。IEEE计算机视觉与模式识别会议（CVPR）（2018年6月）20. Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络。In：ECCV.（2016）48321. 巴兰湖Taneja，A.，Gall，J.，凡古尔湖Pollefeys，M.：使用区别性显著点的动作中的手的运动捕获In：ECCV.（2012）64016X. Wu，D.Finnegan，E. L. 杨22. Tzionas，D.，巴兰湖斯里坎塔，A.，Aponte，P.，Pollefeys，M.，Gall，J.：使用区别性显著点和物理模拟捕获动作中的手。Int. Journal of Computer Vision118（2）（2016）17223. Ta g liachi，A.， Scr¨ode r，M.， Tkach，A.， Bouaziz，S.， Botsch，M.，帕尤利，M。：用于实时手部跟踪的鲁棒关节感应耦合等离子体。计算机图形学论坛（Proc. SGP）34（5）（2015）101-11424. Sridhar，S.，Mueller，F.Oulasvirta，A.Theobalt，C.：快速而稳健的手动跟踪-使用检测引导优化。In：IEEE CVPR.（2015）321325. Sridha r，S.， Muelle r，F.， Zollhofér ，M.， Casas，D. ，Oulasvirta， A.，Theobalt、C. ：从rgb-d输入操纵对象的手的实时关节跟踪。In：ECCV.（2016）29426. Taylor，J.波尔多湖现金男T Corish，B.，Keskin，C.，Sharp，T.，Soto，E.，Sweeney，D. Valentin，J. Luff，B.，Topalian，A.，Wood，E.，Khamis，S.，Kohli，P.，Izadi，S.，班克斯河Fitzgibbon，A.，Shotton，J.：通过姿态和对应关系的联合、持续优化实现高效、精确的交互式手部跟踪ACM TOG（Siggraph）35（4）（2016）143：127. Tkach，A. Pauly，M. Tagliasacchi，A.：用于实时手部建模的和跟踪。ACM TOG（Siggraph）35（6）（2016）222：128. Iason Oikonomidis，N.K.，Argyros，A.：利用kinect实现基于模型的手部关节高效三维跟踪在：BMVC.（2011年）101.129. 钱，C.，太阳，X.，魏，Y.，唐，X.，孙杰：从深度进行实时和鲁棒的手部跟踪。In：IEEE CVPR.（2014）110630. Moon，G.，Yong Chang，J.，Mu Lee，K.：V2v-posenet：体素到体素预测网络，用于从单个深度图进行精确的3d手部和人体姿势估计。IEEE计算机视觉与模式识别会议（CVPR）(June2018年）31. Lin，M.，林，L.，梁湘，Wang，K.，Chen，H.：循环3d姿态序列机器。在：CVPR中。（2017年）32. 波帕人工智能Zanfir，M.，Sminchisescu，C.：用于集成2d和3d人体感知的深度多任务架构。 IEEE International Conference on Computer Vision and PatternRecognition计算机视觉与模式识别国际会议（2017年）33. Zeiler，医学博士，Fergus，R.：可视化和理解卷积网络。参见：欧洲计算机视觉会议，Springer（2014）81834. Sharp，T.，Keskin，C.，罗伯逊D. Taylor，J. Shotton，J.，Kim，D.，瑞曼C.的方法，莱希特岛Vinnikov，A.，魏，Y.，Freedman，D. Kohli，P.，Krupka，E.，Fitzgib-bon，A.，Izadi，S.：准确、稳健、灵活的实时手部跟踪。在：SIGCHIConf.计算机系统中的人为因素（2015）363335. 塞格迪角Vanhoucke，V.，Ioffe，S.，Shlens，J.，Wojna，Z.：重新思考计算机视觉的接收架构。IEEE计算机视觉和模式识别会议论文集。（2016）281836. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：IEEECVPR.（2016）77037. Zhou，X.，中国科学院，黄，Q，太阳，X.，Xue，X.，中国科学院，魏云：野外3d人体姿态估计：一种弱监督方法。In：IEEE ICCV.（2017年）38. J.J.汤普森Jain，A.，LeCun，Y.，Bregler，C.：用于人体姿势估计的卷积网络和图形模型的联合训练。在：NIPS。（2014）1799- 180739. Maurer，C.R.，齐河Raghavan，V.：计算任意维二值图像精确欧氏距离变换的线性密导手图17时间算法。IEEE Trans. 模式分析马赫内特尔25（2）（2003）26518X. Wu，D.Finnegan，E. L. 杨40. Sethian，J.A.：单调前进前沿的快速行进水平集方法。美国国家科学院院刊93（4）（1996）159141. Girshick，R.：快速R-CNN。在：IEEE国际会议论文集计算机视觉（2015）144042. 塞格迪角Ioffe，S.，Vanhoucke，V.，Alemi，A.A.：起始-v4，起始-resnet和剩余连接对学习的影响。在：AAAI。第四卷。（2017年）1243. Garcia-Hernando，G. Yuan，S.，Baek，S.，Kim，T.K.：第一人称手部动作基准与rgb-d视频和3d手部姿势注释。在：IEEE计算机视觉和模式识别会议（CVPR）。（2018年6月）44. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。在：NIPS。（2015年）45. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛Harp，A.，Irving ，G. Isard，M.，Jia，Y.，Jozefowicz，河凯泽湖 Kudlu

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于密集引导图监督的手姿态估计框架

基于密集预测和基于关键点估计

现在都有哪些开源的人体姿态估计库

推荐20个姿态估计深度学习模型

你知道关于人体姿态估计有关的开源库？

视频中人体姿态估计的国内外研究现状4000字

人体姿态估计多线程实现实时性，python代码实现

人体姿态识别常用模型库

基于One-stage框架模型历史

有什么常见的基于CNN的关键点检测算法

基于envi监督分类提取郑州市道路的分析结果

密集行人场景行人检测算法

有什么分割图片集中密集的花朵的算法

densefusion daimajiangjie

用python写一个基于区域的分割的图片集有密集的花朵的算法代码

详细解释全局运动估计算法

基于深度学习人群计数

基于深度学习的人数检测

解释一下 densepose

matlab sfm密集重建

densefusion

最新资源