基于多视点自举的手部关键点检测方法的研究

155 浏览量更新于2023-10-16 收藏 2.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1145基于多视点自举的单幅图像手部关键点检测托马斯·西蒙·汉比尔·朱·伊恩·马修斯·亚瑟·谢赫·卡内基·梅隆大学{tsimon，hanbyulj，iainm，yaser}@ cs.cmu.edu权左权左(a) YouTube和网络摄像头视频上的实时2D手部检测(b) 基于多个二维检测的三维手部运动捕获图1：多视图自举使我们能够产生一种方法来检测（a）RGB图像上的实时手部关键点，以及（b）可以三角测量以产生手部的3D无标记运动捕获。摘要我们提出了一种方法，使用多摄像机系统来训练细粒度的检测器的关键点，容易闭塞，如关节的手。我们将此过程称为多视图自举：首先，使用初始关键点检测器来产生手的多个视图中的噪声标签。然后，使用多视图几何形状在3D中对噪声检测进行三角测量或将其标记为离群值。最后，重新投影的三角剖分被用作新的标记的训练数据，以改善检测器。我们重复这个过程，在每次迭代中生成更多的标记数据。我们得到一个结果分析相关的最小数量的视图，以实现目标的真和假阳性率为一个给定的检测器。该方法用于训练单图像的手部关键点由此产生的关键点检测器在RGB图像上实时运行，并且具有与使用深度传感器的方法相当的精度。单视图检测器，对多个视图进行三角测量，使3D无标记手部动作捕捉与复杂的对象交互。1. 介绍虽然存在许多基于图像的面部和身体关键点定位的方法，但在野外没有在RGB图像上工作的无标记手部关键点检测器。这是令人惊讶的，因为手在我们的日常活动中扮演着重要的角色-它们是我们与人互动的方式。世界：我们使用工具，我们演奏乐器，我们触摸，我们做手势。可以在RGB图像中定位手关节（而不需要深度）的方法将使得能够在最大的现有视觉数据源（例如，YouTube和Netflix），以及HCI和机器人技术的新应用。我们提出了一种方法，使实时2D手跟踪在单视图视频和3D手部运动捕捉，如图所示。1.一、与脸部和身体不同，手部不存在注释关键点的大型数据集。与面部或身体相比，生成这样的由于严重的遮挡，即使是手动关键点注释也很难正确：对于被遮挡的关键点，注释的位置充其量只是一个有根据的猜测。图图2示出了手动注释的图像的示例，其包含由于关节连接而导致的自遮挡、由于视点而导致的自遮挡以及被抓取的对象遮挡。在每种情况下，注释者都必须估计几个关键点，这增加了注释时间和成本，同时降低了准确性。在本文中，我们提出了一种方法来提高性能的一个给定的关键点检测器使用多摄像机设置。我们称之为多视图引导的这种方法基于以下观察：即使手的特定图像具有显著的遮挡，通常存在未遮挡的视图。Multiview bootstrap- ping系统化了这种洞察力，产生了一个更强大的手部探测器，我们展示了它超越了捕获设置。特别是，它允许弱检测器，1146pp0p}0(a) （b）观察点（c）物体图2：手部注释在单个图像中是困难的，因为关节经常由于（a）手部其他部分的关节、（b）特定视角或（c）手部正在抓握的对象而被遮挡。在小的注释数据集上进行训练，以在良好的视图中定位关键点的子集，并使用强大的3D三角测量来过滤掉不正确的检测。然后通过重新投影三角形化的3D手部关节来标记存在严重遮挡的图像通过将这些新生成的注释包含在训练集中，我们迭代地改进检测器，在每次迭代中获得越来越准确的检测。这种方法生成几何一致的手部关键点注释，使用多视图约束作为外部监督源。通过这种方式，我们可以标记由于遮挡而难以或不可能注释的我们证明了多视图自举产生的RGB图像，对手的RGB-D手关键点检测器的性能的手关键点检测器我们进一步表明，在多摄像机设置中应用这种单视图检测器可以在前所未有的场景中进行无标记3D手部重建，包括具有挑战性的物体操作，音乐表演和多人互动。2. 相关工作手部姿态估计的早期工作最初考虑RGB数据，而Bogg 和 Kanade [15] 探索了基于视觉的人机交互（HCI）应用。大多数方法是脆弱的，基于拟合具有强先验的复杂3D模型，包括例如，物理学或动力学[10]，多个假设[21]，或综合分析[5]。线索，如剪影，边缘，肤色，阴影，在受控环境中展示了限制姿势和简单的运动。Wang和Popovic的方法 [28]解除了其中一些限制，但需要专门的彩色手套。多视图RGB方法通常类似地基于拟合复杂的网格模型（例如，[3 ，20]），并显示出优异的精度，但再次在高度受控的条件下。随着商用深度传感器的引入，基于单视角深度的手部姿态估计成为研究的主要焦点，产生了大量基于深度的方法。这些方法大致可分为生成方法[14]，判别方法[24，25，9，30，22，27]或混合方法[20，16，18，26，31]。再-最近，Sharp等人的混合方法。[16]在很大范围内展示了实际性能，但仍然存在困难的情况，例如手与手的交互和手与物体的交互。基于深度的手部姿势估计的判别和混合方法严重依赖于合成数据[23]。Oberwerger等人[13]使用反馈循环来生成用于手部姿势估计的合成训练数据，其动机与我们的工作相同，但专注于生成深度图像。[12]中提出的半自动数据注释方案在动机上也是类似的，然而，我们的方法使用多视图几何和关键点检测来提供自动化监督。判别方法，特别是依赖于深度架构的方法，需要大的注释训练集。这些数据集相对容易合成深度图，但对RGB来说存在重大挑战，因为渲染要复杂得多，需要照片级逼真的外观和照明。多视图自举是一种允许使用弱初始检测器生成大型注释数据集的这又使得能够创建用于RGB图像的第一实时手部关键点检测器3. 多视图自举训练关键点检测器d （ · ）将裁剪的输入图像块I∈Rw×h×3映射到P个关键点位置xp∈R2，每个关键点位置具有相关联的检测置信度cp：d（I）<$→ {（xp，cp）for p ∈ [1. . . P]}。（一）每个点P对应于不同的界标（例如，拇指尖，食指尖，见图。4a），我们假设只有一个对象的实例是可见的在重症探测器是T RA。在具有对应的关键点注释的i个图像上，If，{yf}，其中f表示一个部分，图像I f的所有标记关键点，并且集合{yf∈R2}包括图像If的所有标记关键点。初始训练集T0具有N0个训练对，T：=.. If，{yf∈ [1. . . N]N，（2）用于在初始检测器D0中进行传输，例如，随机梯度下降，d0←train（T0）.（三）给定初始k点检测器d0和未标记的多视图图像的数据集，我们的目标是使用检测器来生成一组标记图像T1，其可以用于使用所有可用数据来训练改进的检测器rd1d1<$train（T0<$T1）.（四）为了改进检测器d0，我们需要一个外部监督源来确保T1包含的信息不1147三角测量重投影视图NEW 2Vi视图1vvvpvvXppXp2p再培训(a) 正确的检测(b) 3D关键点(c) 未被检测(d) 注释视图(e) 改进的探测器图3：多视图自举。(a)多视图系统提供其中容易进行关键点检测的手的视图，其用于对（b）关键点的3D位置进行三角测量。具有（c）失败检测的困难视图可以（d）使用重新投影的3D关键点来注释，并且用于重新训练（e）现在在困难视图上工作的改进的检测器已经存在于T0中。我们建议使用多视图的geom-作为这个源。这里的关键是检测容易-在某些方面比其他方面更好：如果在至少两个视图中成功地定位了一个点，则可以将三角测量的3D位置重新投影到其他图像上，为检测失败的视图提供新的2D注释。该过程如图所示。3，其中检测器成功的简单视图（图。3 a），但失败的更具挑战性的意见（图。3c）。然而，通过对正确检测到的视点进行三角测量，我们可以生成训练数据，特别是针对检测器当前失败的那些视图。在算法1中描述了用于多视图自举的总体过程，其中，我们表示为{If：v ∈ [1. . . V]，f ∈，[1. . . F]}未标记的多视图图像帧的输入集合，其中v在V相机上迭代视图，并且在F个不同的帧上迭代（即，时刻，因此一帧表示V图像）。以下小节详细介绍了该过程的三个主要部分：（1）对于每一帧，算法首先独立地在每个相机视图上运行当前检测器（图1B）。3 a，c）和鲁棒三角测量点检测（图。（2）然后根据分数对帧的集合进行排序，以仅选择正确的三角化的示例，以及(3) 通过将正确的三角测量点重新投影到所有视图上，N个最佳帧用于训练新的检测器（图3d），产生大约V个训练图像，算法1多视图引导输入：• 未标记图像：{Ifforv∈ views，f∈frames}• K∈y点检测器：d0（I）<$→{（xp，cp）forp∈points}• 标签训练数据：T0对于0到K中的迭代i：1. 对弱检测对于每个帧f：(a) 在所有视图v上运行检测器di（If）（等式（五））(b) 鲁棒的三角测量关键点（等式（六））2. 对三角测量帧进行评分和排序（等式（七））3. 用N-最佳重投影重新训练（等式10）（八））di+1<$train（T0<$Ti+1）输出：改进的检测器dK（·）和训练集TK3D定位，我们对D中的点使用RANSAC [6]，置信度高于检测阈值λ。此外，我们使用σ=4像素重投影误差来接受RANSAC内点。利用点p的这组内点视图，我们最小化[1]重投影误差以获得最终的三角位置，ΣXf= arg min|| Pv（X）− xv||第二条第六款v∈If其中If是内点集，其中Xf∈R3是3D三角化的p p所述N个选定帧中的每一者。整个过程可以用新训练的检测器迭代（图）。3e）。3.1. 从弱检测三角给定特定帧f中的对象的V个视图，我们在每个图像If上运行当前检测器di（在集合Ti上训练），产生2D位置候选的集合D关键点p，并且Pv（X）∈R2表示3D点X到视图v中的投影。给定校准的相机，该3D点可以被重新投影到任何视图中（例如，其中检测器失败的那些）并且用作新的训练标签。为了提高手部的鲁棒性，我们同时重建了整个手指。我们每次对每个手指的所有界标（4个点）进行三角测量D←{di（If）forv∈[1. . . V]}。（五）对于每个关键点p，我们有V个检测（xv，cv），其中所有4个点的重新投影误差以确定RANSAC内点。该过程更稳健，因为手指中的误差检测是相关的：例如，在一个实施例中，如果关节不正确地ppv是视点v中的点p的检测位置，并且cv∈[0，1]是置信度度量（为了清楚起见，我们省略了帧索引）。为了将1148每个点p鲁棒地三角化为局部的，然后在运动链中的依赖关节-指间关节和指尖-是不可能正确的。这样就减少了三角键的数量1149201519117851410 691841011121920321ppp2p′′这是更重要的，这样我们就不会用不正确的标签进行训练。3.2. 对三角化帧进行评分和排序至关重要的是，我们不包括错误标记的帧作为训练数据，特别是如果我们对过程进行了优化，因为后续迭代将以几何一致的方式跨视图失败-这种失败无法被消除-(a) 检测(b) 置信度图10.90.80.70.60.50.40.30.20.10使用多视图约束进行检测因此，我们保守地选择少量可靠的三角测量。我们的输入是视频，因此连续的帧是高度相关的。代替均匀的时间子采样，我们为W帧的每个窗口挑选W=15或W=30），将“最佳”定义图4： (a)输入图像，检测到21个关键点。(b)由我们的检测器产生的选定置信度图，可视化为叠加在输入上的其中，Pv（Xsn）表示帧索引sn的点p到视图v中的投影，并且我们的目标是大约N=100帧内点，即，Σscore（{Xf}）=Σcv.（七）每3分钟的视频。注意，100帧产生大约100·V×1500个训练样本，每个训练样本对应一个非训练样本。p∈[1. P] v∈If我们将所有剩余的帧根据它们的得分以降序排序，以获得有序的帧序列[s1，s2，. . . sF′]，其中F ′是子采样帧的数量，si是有序帧索引。我们手动验证要用作训练数据的帧中没有明显的错误，并训练新的检测器。虽然训练集的视觉检查可能看起来很繁重，但根据我们的经验，这是训练过程中耗时最少的部分。我们通常需要一两分钟来检查前100帧。众包这种用于连续标签生成的验证步骤是一个有趣的未来方向，因为验证比注释更容易。在实践中，我们发现，通过使用许多算法自动删除有问题的三角测量，几乎可以消除这种手动工作：（1）内点的平均数量，（2）平均检测置信度，(3)每点速度与两个视频帧之间的中值速度的差，（4）关节长度1，和（5）完全闭塞，如所确定的闭塞的观点。最后，我们训练一个新的检测器，扩展后的训练集为di+1<$train（T0<$Ti+1）。4. 检测架构对于检测器di，我们遵循卷积姿态机（CPM）的架构[29]，并进行了一些修改。CPM预测每个关键点的置信度图，将关键点的位置表示预测的置信度图对应于输入图像块的大小，并且通过在每个置信度图中找到最大峰值来获得每个关键点的最终位置（见图2）。4b）。通过置信度图的关键点检测。与[29]相比，我们使用预初始化的VGG-19网络[17]的卷积级作为特征提取器，最多可达conv 4 4，另外两个卷积产生128通道特征F。对于大小为w × h的输入图像块，特征图F的结果大小为w′×h′×128，其中w′= w，h′= h。没有额外的汇集或向下-8 8通过摄影机光线与身体关节相交。此外，本发明还我们需要至少3个内点的任何点是有效的。3.3. 使用N个最佳重投影进行采样阶段，因此网络的最终步幅也是8. 该特征图提取之后是预测阶段，该预测阶段产生一组P 个置信度或得分图，. .S1}，一个得分图S1∈Rw×h，1名P我们按照这个顺序使用N个最好的帧来解-为下一次迭代i+1检测器微调一组新的训练图像-关键点对，基波因特山口第一阶段之后的每个阶段都将分数作为输入来自前一阶段的映射，St-1，与图像特征F连接，并产生P个新的分数映射St，一个T=..snsn为每个关键点创建索引我们使用6个连续的预测阶段，一期+1Iv，{Pv（Xp）：v∈[1. . . V]，p∈[1. . . {\fn黑体\fs22\bord1\shad0\3aHBE\4aH00\fscx67\fscy66\2cHFFFFFF\3cH808080}对于n∈[1. . .N]}，（八）在最后一级取输出，S6。我们使用双三次重采样将这些地图调整为原始补丁大小（w×h），并提取每个关键点位置作为像素。[1]我们使用的阈值大于Greiner [7]调查中给出的最大骨长度，特别点（因为整个手指需要在171312367但它进一步减少了错误的数量。2116121150是掌骨为15 cm，近端指骨为9 cm，其余骨骼为5 cm。在其各自的地图中具有最大的置信度。我们还将[29]中的损失函数修改为加权L2损失以处理缺失数据，其中权重设置为零，如果1151TP+FPw2w2w2σppσ100十比一10-2TPFPV=5V=31100十比一10-2FDR图5：近似区域，在该区域内，随机检测将成功地对2和3+视图进行三角测量，内点阈值为σ像素。10-310-410-510-610-710-800.10.20.30.40.50.60.70.80.91PCKσ(a) 真阳性和假阳性，P=2110-310-410-510-610-710-800.10.20.30.40.50.60.70.80.91PCKσ(b) 错误发现率，P=21关键点的注释丢失（例如，如果该点三角测量失败）。手动边界框检测。我们的关键点检测器假设输入图像块I∈Rw×h×3是右手周围的裁剪。这是一个重要的细节：为了在任何实际情况下使用关键点检测器，我们需要一种生成该边界框的方法。我们直接使用[ 29 ]和[ 4 ]中的身体姿势估计模型，并使用手腕和肘部位置来近似手的位置，假设手延伸0。15倍于前臂的长度在训练过程中，我们裁剪一个大小为2的正方形补丁。2B，其中B是封闭所有手部关节的最紧边界框的最大尺寸（见图2）。8、这类作物的产量。在测试时，我们近似B=0。其中H是头部“接头”的长度此正方形补丁的大小已调整图6：（a）不同PCKσ值和不同数量n内点的TP和FP带有5个摄像机（V=5）的设置显示为绿色，而我们使用的设置（V=31）显示为橙色。(b)错误发现率FDR=FP。我们得出三个结果，量化错误的三角测量的概率不同的检测器质量和相机设置。我们首先定义一些初始量。在距离σ内，由在大小为w × w的图像正方形上均匀采样的两个点进行伪三角测量的概率q2约为2σw（假设如图10所示的校正立体对）。（五）。这个虚假的三角测量被第三个视图支持的概率由πσ2限定。此外，剩余V-2视图中至少n-2个点支持这种伪三角测量的概率到w=368和h=368，其用作网络的输入。是pn−2 =Pr（X≥n−2）其中X<$B（V−2，πσ2）是a工作为了处理左手，我们从左到右翻转图像并将其视为右手。5. Multiview Bootstrapping什么时候起作用？在本节中，我们得出的结果使我们能够确定对于给定的检测器，多视图自举需要多少个摄像机视图，或者相反随机变量，表示重新中的内点数量为伪三角剖分保留V−2视图。最后，qn<$q2·pn−2是找到n个内点的概率，这些内点支持伪三角剖分的三角剖分。结果1. 在V视图中的均匀随机2D点中由至少n个内点支持的假三角测量的概率近似为 FTn<$Pr（Y≥1），其中对于多视图，初始探测器必须具有多高精度自举以针对给定数目的相机工作。详细的推导和假设包括在补充文件中。YB..ΣV2Σ，qn让我们首先将检测器的质量d0定义为其正确关键点或PCK的概率：预测的关键点在其真实位置的距离阈值 σ 对于特定的关键点 p ，我们将其表示为PCKp（d0），并将其在测试集T上近似为是表示视图对数量的随机变量由至少n个内点支持。结果2.对于给定的关键点检测器d和多视图验证，PCKp（d0）：=1Σ。δΣ||2σ||2<σ、（9）在具有最小n个内点的V个视图中，近似为-交配σ|不|pp不对于xf∈d0（If），是图像 If 上的第 p个k∈y点预测，yf是其真实位置，δ（·）是指示函数。为了使多视图自举成功，我们需要在接受错误的三角测量作为有效时具有低的误报率。TPp（d）= Pr（Z≥n）（10）FPp（d）=（1−TPp（d））·FTn，（11）其中ZB（V，PCKp（d））是表示V视图中正确2D检测随机检测双视图三角剖分区域n视图三角剖分区域摄像机1对极线摄像机2摄像机3n=5n=4n=3n=2=5=4nn=3=2nn1152的数量的随机变量，并且11530.90.80.70.60.50.90.80.70.60.5手动0说明书1手册2σ1PCKMPI+ NATUAL1MPI1新西兰手语1MPI+ NATURAL L，手动20.9PCK0.20.90.80.70.60.50.40.30.20.10渲染0渲染2手动0手册2混合0Mix 30.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10.90.80.70.60.5腕关节PIP烫指尖0.1 0.2 0.3 0.4 0.50 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.40.50.850.80.750.70.650 50 100 150 200归一化距离SGD迭代次数（千）(a)（b）第（1）款（c）第（1）款（d）其他事项（e）图7：多视图自举迭代中PCK曲线的改进。(a-c)MPII+NZSL测试图像上的PCK曲线，仅MPII和仅NZSL，用于每个模型的两个不同的自举迭代注意：改进较小，因为评估集来自注释器成功标记的图像子集，并且多视图自举的最大改进通常在该集合的补充中观察到。(d)PCK适用于不同类型的手关节。(e)测试集PCK 0的演变。2个SGD训练迭代，用于3个不同的自举迭代。其中假设错误检测是均匀随机分布的。结果3.对于一个总共有P个关键点的复杂对象，如果我们要求所有的关键点p∈[1. . . P]是正确的，接受一个帧，并假设PCK p（d）是相同的所有关键点，然后TP（d）= TPp（d）P（12）FP（d）=ΣPk=1.ΣPTPp（d）P−kFPp（d）k。（十三）K图8：在测试图像上使用模型“Mix 3”的检测。为了显示代表性样本，我们从（a）MPII和（b）NAPIL的测试集中每个图像在σ = 0时的PCK。1且σ=0。2（21个关键点）图图6示出了具有变化的视图数量V的图，最小内点数n和检测器质量PCKσ。通过生成诸如此类的图表，可以读出针对目标错误发现率的推荐视图数量或者相反地，可以针对给定数目的视图获得TP/FP概率。6. 评价我们审查的可用手部姿势估计数据集都不适合我们的目标用例：包含日常手势和活动的一般野外因此，我们手动注释了两个公开可用的图像集：（1）MPII人类姿势数据集[2]，其中包含从YouTube视频中提取的图像，这些图像明确收集以反映日常人类活动，以及（2）来自惠灵顿维多利亚大学新西兰手语（NCLL）练习的图像[11]，其中几个人使用NCLL讲故事。我们选择后者，因为它包含了各种各样的手姿势，可能会发现在交谈（在MPII中不太常见）。图2显示了从两个集合中选择的带有手动注释的图像。到目前为止，我们已经收集了1300手的注释，(a)MPII（检测）(b)NATURAL L（检测）1154显示为图像底部的一对条形，颜色从红色（0）到绿色（1）。MPII集和NATURAL L上的1500，我们将70/30分为训练集（2000手）和测试集（800手）6.1. 多视图自举的改进我们通过在三个初始检测器上应用算法1来评估多视图自举所有三个检测器都遵循Sect. 4，但是在3个不同的初始训练数据集合T0上训练：（1）“渲染”：合成渲染的手的2个图像的初始集合，总计约11000个示例，（2）“手册”：在上述MPII和NNOML训练集中的手动注释，以及（3）“混合”：所呈现的数据和人工注释的组合。对于多视图引导，我们使用来自Panoptic Studio数据集的图像[8]。特别是，我们使用31高清摄像机的意见，和4个序列，其中包含2我们使用两个渲染器，UnrealEngine 4和一个简单的光线跟踪器。UnrealEngine中的角色由Mixamo构成;对于光线跟踪器，我们随机采样手部姿势。详见补充资料。1155(a) 迭代0（b）迭代1（c）迭代210090θ在原点固定手的仰角θ。直觉上，φ={−180，0，180}的角度（见手掌或反手正面）更容易，因为自遮挡较少。在-90-180-90φ900180φ={−90，90}，我们从侧面观察手，从拇指到小指，反之亦然，导致更多的机会，图9：对视角的我们将离群值的百分比显示为每个视角的热图，其中方位角φ沿着X轴，仰角θ沿着Y轴。手部运动，我们使用提供的3D身体姿势[8]来估计手部检测的遮挡和边界框。当执行自举迭代时，我们丢弃内点平均数量为<5或平均重投影误差>5的帧，检测置信度阈值λ=0。二、如果没有迭代，我们必须手动丢弃超过15个错误标记的帧。6.1.1. PCK。我们测量性能作为PCK曲线平均在所有关键点上，我们评估的测试集的组合MPII和NSPOL图像（800手）。这在图7a中示出，其中我们将自举操作附加到模型的名称，例如，“Manual 1” is PCK曲线通过改变方程中的精度阈值σ绘制。（9）;该参数显示在水平轴上。我们测量σ作为归一化距离，其中每个示例中的像素距离被归一化为对应人的头部尺寸的0.7倍（大约是伸出的手的长度）。毫不奇怪，只在渲染数据上训练的模型表现最差，但从真实训练数据的自举中获得的收益最多。图从图7b和图7 c可以看出，数据集反映了两个难度水平：MPII图像在质量、分辨率和手部外观方面变化很大，包含许多类型的遮挡物、手-物体相互作用（例如，运动、园艺）、自触摸（例如，休息的头上的手），以及手手的相互作用，如图所示早上 8 相比之下，Ninguil设置相当均匀，包含直接看着相机的人的上半身，并明确地做出可见的手势来交流（图1）。8b）。此外，我们还研究了图中不同类型接头7d. 这些是从最接近的手腕到最远的3，顺序也对应于他们的困难。最后，我们展示了如何多视图引导可以帮助防止图中的过拟合7e，特别是对小初始集T0。6.1.2对视角的鲁棒性。我们通过测量3D重建过程中异常值的百分比来量化检测器对不同视角的鲁棒性的改善。作为地面实况，我们目视检查我们最好的3D重建结果，并只选择正确的重建帧。我们将视角定义为方位角φ，3PIP和DIP是指近端和远端指间关节。结论类似地，在θ={9 0，-90}处，V e翼角是从指尖到手腕，反之亦然;这些是最难理解的观点。我们比较了“混合”检测器的第一次迭代，该检测器很快变得对查看多样性具有鲁棒性。我们将其绘制为热图，其中我们使用每个示例的方位角和仰角对手动检测进行分组。离群值的百分比使用落入每个箱中的所有示例来计算。6.2. 与基于深度的方法比较我们量化的性能，我们的方法公开可用的数据集Tzionas等人。[26]第10段。虽然存在经常用于评估基于深度的方法的若干数据集，但是它们中的许多数据集没有对应的RGB图像，或者它们的注释仅对深度图像有效。具有RGB图像和手动注释的数据集很少能够准确定位;来自[ 26 ]的数据集是量化我们的方法4的最佳匹配。我们在数据集的RGB图像上运行2D关键点检测器“Mix 3”。序列包括单手运动、手-手交互和手-物体交互。为了与[26]进行直接比较，我们在提供的关键点位置使用平均像素误差，如表1所示。请注意，[26]的方法基于复杂的3D手部模板，并使用深度数据和跟踪，每帧需要几秒钟。我们的研究结果显示，可比的单手和手对象的场景，iOS的性能，只使用每帧检测的RGB，可以在实时使用GPU运行。手-手交互的性能降低：当其中一只手非常闭塞时，我们的探测器倾向于向闭塞的手开火。在这些情况下，同时检测双手上的关节将是有利的，而不是像我们当前的方法那样独立地处理每只手。6.3. 无标记手部动作捕捉经过训练的关键点检测器使我们能够在各种具有挑战性的场景中重建我们在Panoptic Stu- dio数据[ 8 ]上的31个HD摄像机视图上使用测试场景包括各种实际的手部动作，例如操纵各种工具（例如，练习（如：电钻、剪刀、尺子）、体育运动（如：投球、挥棒）和演奏乐器（如：钢琴、大提琴、长笛和吉他）。我们还重建了多个场景-4其他一些数据集也有RGB图像的手动关键点注释[19，25]，但[19]中的校准参数不够准确，[25]中的图像被扭曲以匹配深度。1156表1：Tzionas等人的数据集上的像素平均2D误差[26]第10段。单手手-物手拉手序列把握飞行岩石手势兔子手势一号球手第二手弯曲管弯曲绳球Occlu移动立方体移动Occlu走横横扭曲尖端触摸跳舞尖端共混拥抱[26日]4.375.114.444.506.107.156.095.658.034.685.555.994.534.763.656.494.875.22我们5.495.674.154.815.759.795.474.359.666.385.409.106.9510.095.316.556.0910.35图11：一个关键点检测器，工作在典型的相机分辨率结合多视图系统允许捕捉整组交互的人的手运动，这是不可能与以前的方法。由于短传感器范围和处理手-物体交互的困难，因此适用于这些场景在补充视频中可以最好地查看结果，其中包括额外的重建结果。7. 讨论图10：引导过程中未使用的序列的定性多视图结果。(a)重新投影的三角测量。(b)3D手相背景(c)度量重建。(d) 2D检测从与人互动，包括社交游戏、架子搭建和乐队表演。图10和图11中示出了具有对应的2D检测的一些3D手部重建结果。请注意，大多数基于深度的方法不是本文提出了两个创新点：（1）第一个实时手部关键点检测器，显示出对野外RGB视频的实际适用性;（2）第一个无标记的3D手部动作捕捉系统，能够在没有人工干预的情况下重建手-物交互和音乐表演。我们发现，丰富的训练集可以建立使用多视图引导，提高质量和数量的注释。我们的方法可以用于为任何容易发生遮挡的关键点检测器生成注释身体和脸）。构建一个大的带注释的数据集通常是许多机器学习和计算机视觉问题的主要瓶颈，我们的方法是通过使用多视图几何作为外部监督源来改进弱监督学习的一种方法。作为未来的工作，使该方法足够鲁棒，可以使用更少的摄像机和更少的控制环境（例如，具有多个蜂窝电话）将允许创建更接近地反映真实世界捕获条件的更丰富的数据集1157引用[1] S. Agarwal等人谷神星解算器http://ceres-solver.org网站。3[2] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在CVPR，2014年6月。6[3] L. Ballan，A. Taneja，J. Gall，L. Van Gool和M.投票人。使用区别性显著点的动作中的手的运动捕获。ECCV，2012年。2[4] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，2017年。5[5] M. de La Gorce，D. Fleet和N.帕拉吉奥斯基于模型的3D手势视频估计。TPAMI，2011年。2[6] M. A. Fischler和R.C. 波尔斯随机抽样共识。ACM通讯，1981年。3[7] T. M.格雷纳美国陆军人员的手部人体测量。技术报告，DTIC文件，1991年。4[8] H. 朱，H。柳湖，加-地坦湖，澳-地Gui，B.纳贝岛马修斯T. Kanade，S. Nobuhara和Y.酋长 Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。六、七[9] C. Keskin，F. Kıra c，Y. E. Kara和L. 阿卡伦利用多层随机决策森林进行手部姿势估计及手部形状分类ECCV，2012年。2[10] S. Lu，L.梅塔萨斯D. Samaras和J.奥利西斯使用多线索的手跟踪和模型细化。在CVPR，2003年。2[11] R. McKee，D. McKee，D. Alexander和E.派拉新西兰手语练习。惠灵顿维多利亚大学聋人研究系，http://www.victoria.ac。nz/llc/llc_resources/nzsl/. 6[12] M. 上韦格湾Riegler，P.Wohlhart和V.莱珀蒂有效地创建3D训练数据，用于精细的手部姿势估计。在CVPR，2016年。2[13] M. Oberweger，P.Wohlhart和V.莱珀蒂训练一个用于手部姿态估计的反馈回路.在ICCV，2015年。2[14] I. Oikonomidis，N. Kyriazis和A. A. Argyros跟踪两个强烈相互作用的手的关节运动。CVPR，2012。2[15] J. M. Bogg和T.卡纳德Digiteyes：基于视觉的手跟踪人机交互。在非运动中，1994年，《刚性和铰接物体》。2[16] T. Sharp等人准确、稳健、灵活的实时手部跟踪。InCHI，2015. 2[17] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。4[18] S. Sridhar，F. Mueller，A. Oulasvirta和C.希奥博尔特使用检测引导优化的快速和鲁棒的手部跟踪。CVPR，2015。2[19] S.斯里达F.穆勒M.佐尔霍费尔，D. 卡萨斯A. Oulasvirta和C. 希奥博尔特从RGB-D输入实时联合跟踪操纵对象的手。在ECCV，2016年。7[20] S. Sridhar、A.Oulasvirta和C.希奥博尔特使用RGB和深度数据的交互式无标记关节手运动跟踪InICCV，2013.2[21] B. Stenger，A. Thayananthan，P. H. Torr和R.西波拉基于模型的手跟踪使用分层baidu滤波器。TPAMI，2006年。2[22] X.太阳，Y. Wei，S. Liang，X. Tang和J.太阳级联手部姿势回归。CVPR，2015。2[23] J. S.苏潘契奇湾Rogez，Y. Yang，J. Shotton，and D.拉玛南。基于深度的手部姿势估计：数据、方法和挑战。在ICCV，2015年。2[24] D.唐，H. Jin Chang，A. Tejani和T.- K. Kim.潜在回归森林：三维关节手姿势的结构化估计CVPR，2014。2[25] J. Tompson，M. Stein，Y. Lecun和K.柏林利用卷积网络实现人手的实时连续姿态恢复。ACM TOG，2014年。二、七[26] D. 齐奥纳斯湖Ballan，A.Srikantha，P.阿蓬特湾Pollefeys和J.胆使用区别性显著点和物理模拟捕获动作中的手。IJCV，2016年。二七八[27] C. Wan、A. Yao和L.范古尔从局部表面法线估计手部姿势。在ECCV，2016年。2[28] R. Y. Wang和J. 我的天带彩色手套的实时手动跟踪ACMTOG。2[29] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。在CVPR，2016年。四、五[30] C. Xu和L.程从单个深度图像的高效手部姿势估计。InICCV，2013. 2[31] Q.叶，S。袁和T K. Kim.基于部分粒子群优化的空间注意力深度网分层混合手势估计。在ECCV，2016年。2

下载后可阅读完整内容，剩余1页未读，立即下载