EventHands：基于事件流的实时神经3D手部姿态估计

69 浏览量更新于2023-12-18 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12385−DAVIS240C活动摄像机输入预测输入端预测EventHands：基于事件流的实时神经3D手部姿态估计Viktor Rudnev1Vladislav Golyanik1王佳一1Hans-PeterSeidel1Franziska Mueller2Mohamed Elgharib1Christian Theobalt11MPI for Informatics，SIC2 Google Inc.实时演示手势预测大规模数据集图1.我们的EventHands方法实时从异步事件流中估计3D手部姿势（在我们方法的任何步骤中都没有使用灰度或RGB图像我们构建了一个带有DAVIS 240C事件相机（左）的演示系统，该系统的运行速度比之前基于图像的3D手部重建工作快一个数量级EventHands利用我们新的时间事件表示来重建各种具有挑战性的姿势和以前看不见的速度（中心）移动的3D手。我们的方法是在由我们新的高效的基于GPU的事件相机模拟器创建的大型合成数据集（右）上训练的，但可以很好地推广到真实数据。摘要从单目视频中估计3D手部姿态是一个长期存在且具有挑战性的问题，现在看到了强劲的上升趋势。在这项工作中，我们第一次使用单事件相机解决这个问题，即，对亮度变化作出反应的非同步视觉传感器我们的EventHands方法具有以前没有用单个RGB或深度相机展示的特性，在低数据吞吐量和1000 Hz时的实时性能下具有高时间分辨率。由于事件相机与经典相机相比的不同数据模态，现有方法不能直接应用于事件流并针对事件流进行因此，我们设计了一种新的神经元方法，它接受一个新的事件流表示适合学习，这是训练新生成的合成事件流，并可以推广到真实的数据。实验表明，EventHands在准确性和捕捉前所未有的速度的手部运动的能力方面优于使用彩色（或深度）相机的最近单目方法。我们的方法、事件流模拟器和数据集都是公开的（参见https：//4dqv.mpi-inf.mpg.de/EventHands/）上提供。1. 介绍事件摄像机是响应事件的视觉传感器，即，输入亮度信号的局部变化。与以预定义频率记录图像的常规RGB相机（例如，30 60fps），事件摄像机异步运行，从而实现高时钟速度和高达1µs的时间分辨率[29]。由于由于其独特的特性和高动态范围，事件摄像机已经在低级视觉[7，40，45，67]、低延迟机器人[54，15]、视觉同步定位和映射（SLAM）[63，24]、特征和对象跟踪[2，34]、手势识别[3，60]、实验物理（粒子跟踪和测速）[9，61]和天文学[13，74]等领域中得到应用在这项工作中，我们有兴趣在3D手姿态回归，使用单事件相机。事件数据的高动态范围、较低延迟和较低吞吐量比传统图像更适合于跟踪通常处于快速运动中的手。然而，由于来自事件摄像机的数据截然不同且不太规则，现有的基于RGB或深度的方法[10，68，31，36]不能直接应用于事件流。一种简单的方法是首先以任意的时间分辨率从事件流中重建灰度图像，然后运行同样12386单目方法[6，10，68，71，41]。不幸的是，该策略将使事件摄像机的大多数优点无效，例如低数据带宽、从大量纹理和照明条件中提取以及假定的更好的概括能力。也不清楚实验方法如何对从事件流重建的低分辨率灰度图像执行，因为后者通常包含伪影，并且由于非确定性事件阈值和噪声而无法再现确切的发生亮度[7，14，47]。因此，主要的研究问题是如何直接从事件流中重建和跟踪3D手。在本文中，我们追求一种基于学习的方法，并提出了第一个最好的知识方法，用于从单个事件流中进行人手的 3D重建（见图1 ）。 ① 的人。我们的神经EventHands方法学习从局部归一化事件表面（LNES）回归3D手部姿势，表示为全局旋转和平移以及参数手部模型的姿势参数[46]我们使用依赖于参数化手部模型的新的高吞吐量事件流模拟器为我们的神经网络生成训练数据[46，41]。训练数据包括手部形状和纹理、照明和场景背景的变化，并且准确地模仿真实事件相机的特性。因此，EventHands可以很好地推广到真实数据，尽管它只使用合成数据进行训练接下来，EventHands以1KHz运行，这比任何基于图像的先前作品都要快得多概括而言，我们的贡献是：EventHands，即，第一种用于3D手部姿态估计的方法，包括从以1KHz运行的单个事件流进行的3D中的旋转和平移。一种新的高吞吐量事件流模拟器，支持用于不同姿势、形状和纹理的参数化3D手部模型，多个光源，可调节的事件流属性（例如，事件阈值分布、噪声模式）以及进一步的场景增强。我们的方法的现场实时演示运行数量级的速度比以前的基于图像的工作站上一个单一的GPU。请参阅我们的补充视频的录音。我们评估了所提出的方法在各种各样的运动与真实和合成数据，并提供了我们的设计选择，以及与以前的工作比较的数字证据。我们表明，EventHands产生准确的估计，即使现有的RGB 和基于深度的技术，niques失败，由于快速运动。2. 相关工作接下来，我们将回顾3D手recruitment和基于事件的视觉的相关工作。我们的EventHands是第一个该方法用于在事件流上操作的3D手部姿势估计，并且与下文中强调的现有的基于RGB或基于深度的方法3D手部重建方法绝大多数现有的从深度[56，38，58，18，35，28，16]和单目RGB [73，11，53，36]65，52]回归稀疏的手关节。最近的几项工作也解决了手部的密集3D重建[6，10，68，71，32，31，59，49，41]，其中一些依赖于参数化3D手部模型，例如MANO [46]用于姿势和形状或HTML [41]用于纹理。Hampali等人。 [20]介绍了手-物体交互方法的新基准。然后，通过将MANO模型拟合到预测的2D手部关节，利用数据集从RGB图像进行3D手部姿势估计。Taylor等人 [55]提出了一种新的定制深度传感器的手部跟踪方法。他们的自定义深度相机支持180fps，这比商品深度相机（30- 60 fps）快得多所有上述方法都不能直接应用于事件流。即使强度图像和视频可以从事件流中重建[14，47]，所获得的灰度图像与现有手部重建技术所使用的数据有很大不同，并且可能表现出特定领域的伪影。弥合这一差距并非易事.另一方面，对事件流的直接操作具有低数据带宽和从RGB图像中发生的外观变化中提取的优点。基于事件的视觉技术。自从动态视觉传感器或事件摄像机问世以来，它们主要用于低级和中级问题，例如事件的灰度图像恢复[40，67]，光流[7，39]或特征检测和跟踪[57，2，34]。在我们的工作背景下，值得注意的是SLAM方法[63，62，66，24，70]，其依赖于稀疏刚性3D重建作为辅助任务来定位移动机器人，事件驱动的立体匹配[48，42，69]和2D手势识别[3，60]。为了在事件流上应用基于学习的方法，已经研究了输入的合适表示，例如，事件帧[44]，事件计数图像[33，72]，活动事件（SAE）的表面[8]，时间表面[27]，时间表面的层次结构[27]，平均时间表面[51]，排序时间表面[1]和可区分的事件尖峰张量[19]等。我们的LNES表示与SAE有关，并且通过以窗口归一化时间单位表示时间戳而与SAE不同。有关事件表示的更详细讨论，请参阅Gallego等人的调查。 [17 ]第10段。与我们相关的一项工作是EventCap [64]，它从事件和灰度图像的混合输入中跟踪3D中的人。它依赖于灰度锚帧之间的事件对应关系，并假设已知的操纵和···12387·| |{−}L∈∈我我我我我我我剥皮的人体模板与人体相比，手表现出更多的自遮挡，这使得难以获得事件轨迹或执行基于图像的模型拟合。Nehvi等人。 [37]提出了一种用于3D中可变形对象跟踪的非监督学习方法，该方法将观察到的事件流与模拟的事件流相关联。然而，他们的方法需要精确的初始化，只支持简单的手部运动，并且操作远非实时。相反，我们训练了一个神经网络，直接从适合学习的事件表示（LNES）回归chal-challing 3D手部姿势，使实时应用程序的运行速度比[64，37]快五个数量级。虽然存在通用事件摄像机模拟器[22，25，43]，但我们开发了一种新的手部专用模拟器用于生成训练数据。其优点是参数化手部模型紧密集成到其中，从而能够实时采样逼真的纹理、姿势和形状。此外，它还专为高数据生成速度而量身定制，并提供无缝GPU支持。总而言之，我们的EventHands方法进一步推进了3D重建和跟踪事件中非刚性对象的未开发领域。3. 事件摄像机模型虽然事件相机服从从3D空间到2D图像平面的几何投影的针孔相机模型，但事件相机的每个像素独立地且异步地对所观察到的对数亮度L（u，t）的差异作出反应。事件e=（u， t， p）是一个事件流模拟器来生成具有注释的大规模合成事件流数据集。我们总共生成了100小时的模拟事件数据，3 .第三章。6 108离散时间步长，带有用于训练的地面实况注释。这使我们的数据成为迄今为止可用于研究目的的最广泛的事件流数据集之我们计划发布数据集和模拟器。4.1. 场景建模手和手臂模型。我们的模拟器对手臂和手的几何形状都进行了建模，因为单独对手进行建模将生成从手腕处的接缝生成的虚假事件。因此，我们使用SMPL+H[46]，即，结合手模型MANO [46]和身体模型SMPL[30]的模型。为了捕获由手的外观产生的事件，我们使用Qian等人的纹理模型。[41]用于手。手臂纹理通过将平均手边界颜色扩展到SMPL+H网格的其余部分来获得。模型动画。为了模拟手部关节，我们使用所提供的MANO PCA为基础的参数空间，以获得一个自然的分布的手姿势的个人模型构成的样本。SMPL+H的平移和姿态参数的附加随机偏移被添加以解释手的刚体变换并增加手臂事件中的变化。为了生成合理的运动，我们选择一个新的随机姿势，每一个模拟的第二和平滑插值之间的姿势使用二次贝塞尔曲线。曲线这确保每一秒钟，都会有一个急剧的变化，具有像素标识符ui、触发时间ti和二进制极性标志Pi1，1表示对数亮度是否增加或减少了绝对阈值C，即，一旦满足以下两个条件之一，就在时间t1方向（例如，如在挥手运动中）。照明模型。我们使用一个有两盏灯的朗伯照明模型。设n∈R3为物体表面的法向量，l1，l2∈R3为光线方向，c1，c2，cambient∈R3为浅色。然后，L（ui，ti）− L（ui，tp）=C（p= 1），（1）L（ui，ti） − L（ui，tp）= −C（p=−1）其中tp是在ui处的事件的先前触发时间。光=λn，l1λc1+λn，l2λc2+c环境，linear color= light线性颜色= light光其中（二）我们在实验中使用的事件相机（DAVIS 240C）提供了微秒级的精度。由于硬件原因，C不是固定阈值，而是遵循阈值X的未知分布。然而，在事件摄像机时代的建模中，图像形成。场景模型和光模型用于形成在时间ti的RGB图像Fi[0，255]W× H×3。我们使用估计值将Fi转换为对数亮度图像（ti）RW× H，RgB假设C等于x的期望值。更多-此外，连接到每个传感器像素的电容器可能突然过满，这导致伪噪声事件记录。4. 事件流模拟器和数据集由于缺乏用于手部姿态估计的事件流数据集，以及难以在真实数据上获得准确的3D地面实况注释，我们建立了一个高效的L（ti）= log（0. 2Fi+ 0。7Fi+0. 1Fi+1），（3）其中，n = 1。0的数值稳定性，Fr，Fq和Fb分别是红色、绿色和蓝色图像通道4.2. 事件摄像机模拟事件流生成。为了模拟时间ti处的事件，在每个像素位置ui处，我们提取对数亮度L（ui，tp）。我们另外维护一个存储器帧M∈.12388LNkI∈IEE{}我我我我L我我我初始预测过滤预测！#=[（'“）]卡尔曼滤波器w，！为[t R“]ResNet-18输入事件流事件表示手部姿势预测过滤输出图2. EventHands方法概述。我们的方法将事件的时间窗口转换为LNES表示，具有两个通道的积极和消极的事件。手部姿势预测和过滤阶段使用神经网络（ResNet-18）和卡尔曼滤波器来估计手部姿势以及手部平移和旋转。输出显示了渲染的手形代理和估计的参数。神经网络在我们新的大规模数据集上进行训练，用于从事件流中估计手部姿势。RW× H，其中M（ui）（ui，tp）是在时间t p在u i处最后生成的事件的绝对对数亮度。使用以下步骤模拟事件元组（ui，ti，pi）1. 噪声事件：发出具有正极性或负极性的事件元组，其概率分别为p正和p负2. 计算对数亮度差<$=L（ui，ti）−M（ui），以及2.1. 如果≥C，则发出/C阳性事件。更新存储器帧M（ui）=M（ui）+k/CkC。2.2. 如果≤−C，则发出−/C负事件。最新M（ui）=M（ui）− N −N/CC。阈值C和噪声事件率p正，p负被校准以匹配我们的DAVIS 240C事件相机。详见补充资料。数据扩充。增强对于成功的合成域到实域转换至关重要[5]。因此，我们每50秒重新随机化模拟的大部分方面。这些是手和身体的形状，身体位置，手的纹理，光线的方向和强度，背景图像及其裁剪区域，以及C。各变量的随机化范围请参见补充文件。模拟试验该模拟能够渲染和提取事件，从约2000个日志亮度IM，每秒的年龄使用1000 fps的时间分辨率，允许我们生成100小时的模拟事件数据，仅需两天时间即可在一颗NVIDIA GTX 1070 GPU上完成。图1在图2中。我们首先描述我们的事件流表示学习（第二节）。5.1）。接下来，我们详细说明我们的方法，该方法包括两个阶段，即，手部姿势预测（第二节）5.2）和时间滤波（第二节）。5.3）。5.1. 我们对学习事件摄像机的原始事件流输出是异步和1D的。与此同时，视觉机器学习的最新进展已经探索了适用于空间2D图像、3D体素网格或图形的模型。将1D事件流转换为2D表示的直接方法是累积和折叠时间间隔中的所有事件，这导致间隔内的时间分辨率损失[33]。因此，我们提出了一种称为局部规范化事件表面（LNES）的2D表示，它将固定时间窗口内的所有事件编码为图像RW×H ×2（见图2，左）。对正事件和负事件使用单独的通道可以保留极性并减少覆盖事件的数量。与现有的表示（例如， [8]），LNES使用窗口归一化时间戳进行操作。考虑大小为L的事件流中的第k个时间窗口。我们可以创建这个窗口的LNES表示，首先用零初始化它，然后收集事件=（ti，xi，yi，pi）i=1，其具有在该窗口内的时间戳ti。k通过从最老的事件和最新的事件，I（x，y，p）=ti− t0.（4）因此，I（x，y，p）=0是窗口归一化的时间戳（右）显示了使用我们的模拟器合成的样本数据5. 该方法在上一节中，我们介绍了由新的事件流模拟器生成的EventHands数据集。我们现在描述我们的神经方法，用于从事件流中预测3D手部姿势，其中示出了概述而这一次，是在一个相对短暂的时间里，窗口内的事件注意，由于迭代顺序（xi，yi，pi），当具有相同极性的新事件发生在相同像素处时，可以被覆盖。对于我们的实验，我们使用100ms的固定时间长度窗口，连续窗口之间有99 ms的重叠。因此，我们的表示具有1 ms的有效时间分辨率，以匹配我们网络的推理速度。12389∈∈∈L3≈−我LL·建议的事件流表示允许几个- eral增强。例如，可以通过切换某些事件的极性来模拟肤色和背景颜色之间的不同对比。这可以在LNES中通过在像素的子集处我们还通过改变窗口长度来提高训练过程中的运动速度，而无需使用新设置重新生成数据集。请注意，与时间窗口中的朴素事件累积[44，33]相反，窗口内事件的时间顺序丢失，LNES保留了事件的时间信息，这导致了更有表现力的学习输入。此外，这使得我们的方法能够在大窗口尺寸下运行，而不会损失时间分辨率和预测质量。节中6.2，我们为我们的代表性的优点提供了实验证据。5.2. 手部姿势预测我们用θ= [t，R，α]R12表示手部姿态，其中αR6是MANO PCA姿态空间的系数，t，R13分别对以米为单位的刚性平移和以轴角公式为单位的旋转进行编码。注意，我们假设相对于事件相机的恒定照明和静态背景，即，所有的事件都是由于手和手臂，直到噪音。我们在我们的事件输入表示上训练ResNet-18 [21]以回归姿势表示θ。这种架构使我们能够预测750 - 1550构成每秒取决于GPU（GTX 1070与 RTX 2080钛），以充分利用毫秒时间分辨率LNES的优势。有关网络架构选择的详细讨论，请参阅补充文档在训练过程中，我们最小化以下损失函数L：L=Lα+λtLt+λRLR，（5）其中MANO损失α、平移损失t、旋转损失R（所有λ2损失）以及权重λt= 500。0且λR=1。这些权重是根据经验选择的，用于归一化，以考虑不同幅度的参数。在训练和推理过程中，我们使用对应于六个最大特征值的最重要的MANO分量我们使用45小时的合成生成的事件流来训练我们的神经网络。5.3. 时间滤波虽然我们的新的输入表示明确models事件窗口内的事件的相对时间信息，我们使用重叠的事件窗口的姿态预测，原始网络预测序列仍然表现出时间抖动，由于错过了长期的跨事件窗口的预测。这在实际测试数据中尤其重要，因为域合成实数二维AUCp三维AUC二维AUCp没有过滤0.890.850.75没有aug。0.880.860.7033Ms0.860.850.70EOI100ms0.780.800.5633Ms0.830.810.66ECI-S100ms0.690.760.5633Ms0.860.830.69ECI100ms0.760.790.5233Ms0.880.850.72LNES 300ms0.870.840.72提出0.880.850.77表1.基于合成和真实试验数据的烧蚀研究。我们报告了2D-AUCp和3D-AUC（数值越高越好，粗体/粗斜体表示最佳/次佳数值）。差距（见第二节）6.2）。因此，我们通过在原始网络输出上使用恒速卡尔曼滤波器[23]来应用额外的时间滤波我们设置过程噪声W= ω（0. 1）和观测噪声v =5。对于低速运动，W=ω（3. 0）且v= 1。0，其中ω（·）是离散白噪声协方差矩阵运算符[26]。参见我们的补充，以获得ω（·）的精确形式。6. 结果我们在多个序列上进行实验，并证明了我们的方法在捕捉各种各样的运动，包括平移，旋转和articulations的能力。EventHands能够准确地重建以文献中以前看不到的速度移动的手。我们首先介绍我们的评估指标和测试数据（第二节）。6.1）。然后，我们提出了我们的设计选择的评价（第二节）。6.2），与相关技术进行比较[71，36，10，35]（第6.2节）。6.3），并提供我们的方法的其他结果（第6.3节）。6.4）。有关更多视觉结果和比较，请参阅补充视频。我们将结果可视化为平均手形[46]和平均纹理[41]。请注意，我们的工作重点是预测只手的运动，而不是手臂。为了可视化的目的，我们使用预测的参数渲染手臂，以确保它连接到预测的手。然而，这可能会产生与地面实际情况不同的手臂运动我们恳请读者忽略手臂的预测运动，因为它超出了我们的工作范围。6.1. 测试和测试数据合成数据对于合成测试集，我们用2. 64 108事件。所有21个关键点上的地面实况注释均以1ms的间隔提供。12390·1.000.750.500.250.00拟定AUC：0.77Boukhayma AUC：0.70 Mueller AUC：0.310 20 40 60 801002D误差（手掌长度的百分比6.2. 消融研究我们对我们的技术在合成和真实测试数据上的不同设计选择进行了定量评估（表1）请注意，合成测试数据对于我们的方法来说是一个更容易的设置，因此，不同的版本实现类似的结果。对实际序列的测试表明，我们的设计选择有利于推广。数据增强的影响正如在SEC中所讨论的那样4.2，我们使用几种数据增强方案来使用于训练的事件流数据多样化。增强对合成数据没有帮助，因为没有要桥接的域间隙。在真实数据上，使用数据增强显著图3. Mueller等人[36]和Boukhayma等人基于RGB的手部姿势估计方法的定量结果。[10 ]第10段。真实数据。我们记录了四个真实的事件序列，总计12600毫秒和5。93 106事件使用DAVIS240C事件摄像机和一个单一的同步高速RGB摄像机索尼RX0。将以1ms时间分辨率采样的每个LNES事件窗口视为一帧，以每秒30帧均匀地注释序列，总共357帧。为了获得2D注释，我们首先在500fps高速RGB镜头上使用OpenPose [12，50指尖、中间MCP和手腕的关键点然后由多个注释器手动检查和校正以获得地面实况注释。类似地，在来自真实事件流的事件图像上手动注释手部关键点，并且在第二步骤中由第二组注释器检查和校正我们总共在357帧中获得了2499个关键点。请参阅补充视频，了解注释质量的可视化。评价当3D关键点可用时，我们评估正确3D关键点的根对齐百分比（3D-PCK）[36]和PCK曲线下面积（3D-AUC），阈值范围为0至100mm。对于真实数据，我们无法计算3D-PCK，因为我们无法访问地面实况3D注释，并且手动获得它们具有挑战性。相反，我们报告2D-PCK和相应的曲线下面积（2D-AUC）。为了使2D-PCK在与现有RGB方法进行比较时在不同数据模态之间具有可比性，我们使用手腕和中指MCP注释来计算每个序列的平均手掌长度（以像素为单位），并通过其对2D误差进行归一化。类似于2D身体姿势估计文献[4]，我们将手掌归一化的2D-PCK 称为 2D-PCKp ，将相应的 AUC 称为 2D-AUCp。在这里，我们使用范围从0到100%的相对手掌长度的阈值。提高了预测的质量。时间过滤的影响。我们使用卡尔曼滤波器来提高我们预测的长期时间平滑度（见第二节）。5.3）。在合成数据上，两个版本的性能相似（表1）。然而，在真实数据上，由于域间隙，时间抖动较大，所提出的滤波改善了结果。由于时间平滑度在视频中得到了最好的检查，我们参考了我们的补充视频，以获得本消融研究的视觉结果。输入事件表示的影响。我们将三种不同的事件表示作为基线进行比较：事件发生图像（EOI）、单通道事件计数图像（ECI-S ）[44]和双通道事件计数图像（ECI）[33]。EOI和ECI由两个通道组成，每个通道对应一个极性。EOI包含每个像素的二进制事件发生标志，而ECI包含时间窗口中每个像素发生的所有事件的累积数量ECI-S是ECI的一个简单版本，其中所有事件都在单个通道中进行模拟，而不管它们的极性如何。有关基准的更多详情，请参阅补充文件。与我们的LNES相反，这些其他事件表示不考虑事件的时间信息最佳窗口大小是特定于任务的。因此，对于事件表示，支持宽范围的窗口大小是有利的。我们的评估表明，LNES捕获有意义的和精确的信息，而不降低更长的窗口（其中更多的事件被压缩）。EventHands使用100ms的LNES窗口。使用具有相同窗口长度的其他表示之一执行得明显更差。我们还观察到，使用33ms的较短时间窗口导致基线和LNES窗口的相似性能。这是预期的，因为在较短的基线窗口中丢失的时间信息较少。然而，我们的LNES表示- tation支持非常长的窗口（300毫秒），而准确性优雅地下降。相比之下，基线的性能随着窗口大小的增加而迅速衰减，这是由于在没有任何时间排序信息的情况下积累了更多的事件。二维PCKp12391参考（500 fps）RGB输入（30 fps）Mueller等人 [10]第10话：我的世界 Zhou等人 [71]第71 话图4.与最先进的RGB手部姿势估计技术进行比较。我们展示的高帧率画面（第一列）仅供参考，而RGB技术处理的是下采样到30 fps的版本（第二列）。Mueller等人。 [36]估计错误的边界框，因此产生错误的网络预测，这些预测传播到最终的IK骨架拟合（如图所示）。Boukhayma等人。 [10]在模糊输入上估计错误的刚性旋转，并且通常采用近似MANO平均姿势（第一行和最后一行）。Zhou等人 [71]未估计任何手部平移，因此无法处理平移运动（第一行）。此外，他们的方法与快速模糊运动（最后一行）作斗争。我们的方法产生精确的3D手部姿势，包括全局平移和旋转，也适用于具有挑战性的关节，如拳头（第二排），并且明显优于最先进的技术，特别是在快速运动方面。输入结果输入结果输入结果图5.EventHands在不同主题的真实数据上的结果我们的技术预测了各种各样的手构成下快速运动。6.3. 与最新技术我们将EventHands与各种RGB技术进行比较[71，36，10]。注意，由于快速运动导致的数据损坏类似地存在于由商用深度相机产生的图像中。此外，我们在补充中显示了基于深度的最先进方法的严重失败[35]为了以30fps获得RGB技术的输入，我们将移动平均滤波器应用于窗口大小为16帧的500图图4示出了与不同的基于单眼RGB的手部姿势估计方法的定性比较Mueller等人的边界框估计。[36]受到快速运动的严重影响，因为他们使用简单的时间传播。即使边界框受试者3受试者2被检体112392原始RGB（ISO 320）增亮RGB LNES输入结果图6.EventHands可以在黑暗中重建准确的手部姿势，而RGB相机输出的图像曝光不足步骤成功时，模糊的输入图像经常导致错误的预测，该错误的预测被传播到逆运动学骨架拟合。Boukhayma等人的方法。[10]也在我们的测试序列上挣扎在存在运动模糊的Zhou等人 [71]未预测任何手部平移，因此未能捕获平移运动（前两行）。由于运动模糊，它也无法捕捉快速发音。然而，我们的方法显然优于基于RGB的快速运动方法。此外，EventHands还捕获其他方法失败的拳头（第三行），尽管输入中没有模糊对于定量比较，我们使用手掌长度归一化的2D-PCKp来确保不同数据模式之间的公平比较。对于Zhou et al. [71]，我们无法计算任何2D误差，因为它们不提供平移估计。在图3中，我们表明我们提出的方法比Mueller等人[ 36 ]和Boukhayma等人现有的基于RGB的方法表现得更好。[10 ]第10段。6.4. 附加结果我们在几个真实视频上评估EventHands，结果如图5所示。对于每个时间段，我们显示输入事件流和与输入重叠的预测手部姿势。我们的方法处理不同的科目执行各种各样的姿势和关节，在快速运动。EventHands还可以处理慢动作，而无需修改网络架构或重新训练。为此，我们检测我们的LNES是否包含足够有意义的（即，非噪声）事件，并在输入事件不足的情况下回退到先前的请参阅我们的补充技术细节和视频的可视化。与基于图像的传感器相比，事件相机监测相对亮度变化，并能够在黑暗环境中记录合理的数据。我们在图6中展示了一个这样的例子，在我们的补充视频中还有更多。我们在236帧上实现了0.77 2D-PCKp AUC，具有1645个符号。有关更多详情，请参阅相关文件。7. 讨论我们的EventHands假设场景背景是近似静态的，即，尽管对于一定程度的噪声事件是鲁棒的，但是在输入中不应该有从场景中的其它移动对象或由于相机移动而生成的事件。虽然这意味着我们的方法没有明确设计用于处理手-物体和手-手的交互，但我们观察到它对与小物体的交互是鲁棒的（见补充视频）。未来的工作可能会研究如何过滤掉背景事件，或者如何用来自全动态场景的事件数据最好地训练预测器。未来研究的另一个有趣途径是将RGB和事件数据结合起来，以保持事件的低延迟和吞吐量性质，同时结合信息丰富的图像，更容易检测遮挡和交互。我们的方法还将受益于在更好地整合每帧预测之前学习的运动。这种统计时间模型可以取代卡尔曼滤波器的白噪声假设.8. 结论我们提出了EventHands，这是第一种从事件流中估计3D手部姿势的方法。我们的方法在里程碑1000Hz下运行，并且可以比以前的任何工作更快地重建手部运动，这在我们的全面实验中得到了证明。我们相信，所提出的方法也是一个步骤，在一般的非刚性3D重建从事件流，所提出的想法可以应用于相关的场景和其他类型的对象。我们的补充材料提供了所提出的方法的其他结果，以及卡尔曼滤波器，架构选择和我们的事件流模拟器的进一步细节致谢。这项工作得到了ERC Consolidator Grant 4DRepLy（770784）的支持。我们感谢Jalees Nehvi和Navami Kairanda帮助进行比较。引用[1] Alzugaray和Margarita Chli。Ace：一个用于活动摄像机的高效异步角点跟踪器。在2018年国际3D视觉会议（3DV）上。212393[2] Alzugaray和Margarita Chli。实时事件摄像机的异步在机器人和自动化快报（RA-L），3（4）：3177-3184，2018。一、二[3] Arnon Amir ， Brian Taba ， David Berg ， TimothyMelano，Jef- frey McKinstry，Carmelo Di Nolfo，TapanNayak，Alexander Andreopoulos，Guillaume Garreau，Marcela Mendoza，Jeff Kusnitz，Michael Debole，SteveEsser ， Tobi Delbruck ， My- ron Flickner ， andDharmendra Modha.低功耗、完全基于事件的手势识别系统。在计算机视觉和模式识别（CVPR），2017年。一、二[4] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿势估计：新基准和最先进的分析。计算机视觉和模式识别（CVPR），2014年。6[5] OpenAI：Marcin Andrychowicz，Bowen Baker，MaciekChociej ， Rafal Jozefowicz ， Bob McGrew ， JakubPacibaki ， Arthur Petron ， Matthias Plappert ， GlennPowell ， Alex Ray ， et al. Learning dexterous in-handmanipulation. 国际机器人研究杂志，39（1）：3-20，2020。4[6] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.通过神经绘制推进基于rgb的密集3d手部姿态估计的包络。在计算机视觉和模式识别（CVPR），2019年。2[7] 放大图片作者： Andrew J. 戴维森和斯特凡Leutenegger。从事件照相机的同时光流和强度估计。在计算机视觉和模式识别（CVPR），2016年。一、二[8] Ryad Benosman，Charles Clercq，Xavier Lagorce，Sio-Hoi Ieng，and Chiara Bartolozzi.基于事件的视觉流。IEEE Transactions on Neural Networks and LearningSystems，25（2）：407-417，2014。二、四[9] D a vidBore r，TobiDelbruck，andT. 罗斯根。采用动态视觉传感器的三维粒子跟踪测速实验流体，58，122017。1[10] Adnane Boukhayma，Rodrigo de Bem和Philip H.S.乇3d手的形状和姿势从图像在野外。在计算机视觉和模式识别（CVPR），2019年。一、二、五、六、七、八[11] 蔡玉君，葛柳浩，蔡剑飞，袁俊松。基于单角rgb图像的弱监督三维手势估计。欧洲计算机视觉会议，2018年。2[12] 曹哲、吉恩斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。Openpose：使用部分亲和字段的实时多人2D姿态估计。Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2019年。6[13] Tat-Jun Chin ， Samya Bagchi ， Anders Eriksson ， andAndre van Schaik.使用事件摄像机进行恒星跟踪。在计算机视觉和模式识别研讨会（CVPRW），2019年。1[14] Gottfried Graber Christian Reinbacher和Thomas Pock。使用流形正则化的事件摄像机的实时强度图像重建。英国机器视觉会议（BMVC），2016年。2[15] 大卫·法兰加凯文·克莱伯和大卫·斯卡拉穆扎带事件摄像机的四旋翼动态避障科学机器人，5（40），2020年。1[16] Linpu Fang ， Xingyan Liu ， Li Liu ， Hang Xu ， andWenxiong Kang. jgr-p2 o：基于联合图推理的像素到偏移预测网络，用于从单个深度图像估计3d手部姿势欧洲计算机视觉会议（ECCV），2020年。2[17] Guillermo Gallego、Tobi Delbruck、Garrick Michael Or-chard、Chiara Bartolozzi、Brian Taba、Andrea Censi、Stefan Leutenegger 、 Andrew Davison 、Jorg Conradt、Kostas Dani-illem和Davide Scaramuzza。基于事件的视觉：一项调查。IEEE Transactions on Pattern Analysisand Machine Intelligence，2020。2[18] 葛柳浩，蔡玉君，翁俊武，袁俊松。利用点集估计三维手部姿态。在计算机视觉和模式识别（CVPR），2018年。2[19] 放大图片作者：Daniel Gehrig，Antonio Loquercio ，Konstantinos G.德尔帕尼斯和大卫·斯卡拉穆扎。异步基于事件的数据的表示的端到端学习。在2019年国际计算机视觉会议（ICCV）上。2[20] Shreyas Hampali，Mahdi Rad，Markus Oberweger，andVin- cent Lepetit.Honnotate：一种用于手部和物体姿态的3D注释方法在计算机视觉和模式识别（CVPR），2020年。2[21] 何开明，张翔宇，任少卿，孙健。深度残差学习用于图像识别。在计算机视觉和模式识别（CVPR），2016年。5[22] Jacques Kaiser，J Camilo Vasquez Tieck，Christian Hub-schneider，Peter Wolf，Michael Weber，Michael Hoff，Alexander Friedrich，Konrad Wojtasik，Arne Roennau，Ralf Kohlhaas，et al. Towards a framework for end-to-endcontrol of a simulated vehicle with spiking neural networks.在自主机器人仿真，建模和编程国际会议，第127- 134页，2016年。3[23] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的新方法。5[24] Hanme Kim，Stefan Leutenegger，and Andrew Davison.利用事件摄影机进行实时三维重建与六自由度追踪。2016年欧洲计算机视觉会议（ECCV）。一、二[

下载后可阅读完整内容，剩余1页未读，立即下载