自我中心动作识别：基于事件相机的性能优于RGB和光流信息，无需额外流计算，性能提高4%

42 浏览量更新于2023-10-25 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19935E2（GO）MOTION：用于自我中心动作识别Chiara Plizzari*，1Mirco Planamente*，1，2 Gabriele Goletto1 Marco Cannici3 Emanuele Gusso1Matteo Matteucci3 Barbara Caputo1，21Politecnico di Torinoname. polito.it2CINI Consortium3米兰理工大学name. polimi.it摘要事件相机是一种新型的生物传感器，它以“事件”的形式异步捕获像素级的强度变化由于它们的感测机制，事件相机几乎没有运动模糊，具有非常高的时间分辨率，并且比传统的基于帧的相机需要显著更少的功率和功耗。这些特性使它们非常适合于几个现实世界的应用，例如可穿戴设备上以自我为中心的动作识别，其中快速的相机运动和有限的功率挑战传统的视觉传感器。然而，到目前为止，基于事件的视觉的不断增长的领域忽视了事件相机在此类应用中的在这篇文章中，我们表明，事件数据是一个非常有价值的方式为自我中心的行动识别。为此，我们引入了N-EPIC-Kitterfly，这是大规模EPIC-Kitterfly数据集的第一个基于事件的相机扩展。在这方面，我们提出两项战略：（i）用传统的视频处理架构直接处理事件相机数据（E2（GO））和（ii）使用事件数据来提取光流信息（E2（GO）MO）。在我们提出的基准测试中，我们表明事件数据提供了与RGB和光流相当的性能，但在部署时没有任何额外的流计算，并且仅RGB信息的性能提高了4% 。 N-EPIC-Kitterfly 数据集可以在https：//github上找到。com/EgocentricVision/N-EPIC-Kitchenette.1. 介绍以自我为中心的视觉给计算机视觉社区带来了各种新的挑战，例如人-物交互[18，65]，动作预测[1，30，39，64]，动作识别[52]和视频摘要[23，57，58]。随着新型大规模数据集的出现[14，15]，新的任务正在提出，例如佩戴者这一趋势将在未来几年内增长，这要归功于最近发布的Ego4D [41]，一个以自我为中心的大规模的*作者同样为这项工作做出了贡献。图1. N-EPIC-Kitterfly：第一个基于事件的自我中心动作识别数据集。从RGB图像中，我们生成一个事件流（底部）。正极性由红色事件表示事件聚焦于运动，类似于光流（顶部）。事件数据具有低延迟、高时间分辨率和低功耗的特点，非常适合以自我为中心的动作识别。视频数据集，提供超过3，000小时的日常活动视频，伴随着音频，环境的3D网格，眼睛凝视，立体声和多视图视频。其中，RGB传感器提供了迄今为止最丰富的视觉信息来源。然而，当训练和测试数据不共享相同的分布时，基于RGB的深度模型的性能会急剧下降[20]。这个问题被称为环境偏差[53，72，78，85，89]，源于基于RGB的网络这主要是由于基于外观的网络因此，在当前的以自我为中心的视觉系统中，诸如运动之类的无外观模态已经成为受欢迎的选择，19936最近的EPIC-Kitterfly挑战的结果证明了这一点[16，17，19]。然而，通过解决昂贵的优化问题（TV-L1算法[108]）从RGB帧计算该设置中使用的光流，引入了大量的测试时间计算[12]。另一方面，基于事件的相机已被证明特别适合在线设置[24，31]。它们的高像素带宽可减少运动模糊，极低的延迟和低功耗使这些新型传感器在以自我为中心的场景中特别出色，在这种场景中，快速运动通常会对基于RGB的系统产生负面影响。此外，由于它们只传达差分信息，事件序列揭示了更多关于场景动态的信息，而不是其外观，使它们成为学习关注运动时RGB帧的有效替代方案。尽管如此，尽管有这些优势，但之前的研究还没有研究如何在自我中心的视觉中利用它们对运动的敏感性，这些设备仍然没有使用。作为朝着这个方向迈出的第一步，我们提出了N-EPIC-Kittlefield，这是一个新的数据集，首次在这种情况下使用事件数据。它包括在[72]中提出的设置下扩展大规模EPIC-Kitchenet数据集[14]。后者对于多个环境（厨房）和多个模式的可用性特别有吸引力，即，RGB、光流和音频。这些特征允许分析上述环境偏差以及将事件数据与成熟模式进行比较。在提出的N-EPIC-Kitterfly中，我们介绍了两种方法来利用事件数据的内在运动特性。第一个，我们称之为E2（GO），包括扩展传统的2D和3D动作识别架构，旨在利用事件数据的运动丰富的功能。第二种是E2（GO）MO，它通过从光流中提取运动信息到事件数据来扩展运动推理。这是完成以下教师-学生的方法，允许充分利用昂贵的离线TV-L1流仅在培训期间，同时避免在测试时的计算。我们将我们的贡献总结如下：• 我们发布了第一个基于事件的以自我为中心的动作识别数据集N-EPIC-Kitchild，它开启了在这种情况下探索事件数据的可能性;• 我们对流行的动作识别架构进行了N-EPIC-Kitchild基准测试，显示了单独的事件数据以及与RGB和光流模式相结合的性能。此外，我们还证明了事件数据对环境变化的鲁棒性;• 我们提出了E2（GO）和E2（GO）MO两种基于事件的方法，这两种方法都是针对强调自我中心动作识别中事件数据所捕获的运动信息而设计的;• 我们表明，事件数据可以优于 RGB 在 chal-challening看不见的环境，并与他们在已知的环境中竞争，这表明使用事件数据是一个可行的选择，应该在这个方向上进行更多的研究2. 相关作品基于事件的视觉。利用基于事件的相机虽然传统的相机能够提供非常丰富的视觉信息，但在缓慢且经常冗余的更新的权衡下，基于事件的相机是异步的且空间稀疏的，并且能够实现微秒级的时间分辨率。基于事件的系统的范围从专注于在计算期间利用和维持事件相机稀疏性的设计[4，86，107]，到将事件与标准相机结合的所有租赁[7，35，46，79，99]，利用两者的互补性为了实现最小延迟计算的目标，研究也集中在异步设计上，通过修改常规CNN [5，69]或利用特定的硬件解决方案[2，21，29]，通常利用生物启发的计算框架[68]。尽管基于事件的相机已经被应用于动作和手势识别任务[10，48，67]，但以前的工作还没有利用它们与其他视觉模态的互补性，并且主要在相机和背景都是静态的受控环境中使用这些相机[3，70]。相反，在本文中，我们第一次用事件来处理以自我为中心的动作识别，并将它们与其他模式相结合。行动识别。2D CNN在图像识别背景下的成功[43，49]启发了第一个视频理解架构。传统的2D CNN通常用于单独处理帧，最终融合光流信息[103]，而后期融合机制包括平均池化[102]，多层感知器[111]，循环聚合[26，61]和注意力[40，92]，用于建模动作理解的时间关系。3D卷积的使用也被提出作为替代[8，96]。然而，尽管它们能够同时学习空间和时间关系，但它们通常会引入更多参数，需要在大规模视频数据集上进行预训练[8]。减少由于模型作为示例，在时间移位模块（TSM）网络中引入了无参数通道时间移位运算符[62]，从而产生了能够199372 {-}图2. N-EPIC-Kitchen与文献中现有的基于事件的措施分类数据集[3，47，66，70，100]。编码时间信息。尽管所有这些架构旨在隐式地对运动建模，但是它们中的大多数仍然将视频帧与外部估计的光流混合。虽然这提高了整体性能，它还需要预先计算流量，使得这些方法在在线设置中不可行。此外，双流方法的代价是增加了模型的复杂性和参数的数量.为了克服这个问题，一系列研究提出了在更轻的架构中集成RGB和光流模态的方法[56，101，110]。最后，[12，77]的作者提出在训练时将光流信息提取到RGB流，同时避免在测试时进行流计算。第一人称动作识别。以自我为中心的视频的复杂性质提出了各种挑战，例如自我运动[60]、部分可见或被遮挡的对象以及环境偏见[53，72，78，85，89]，这些挑战限制了传统的第三人称方法在第一人称动作识别（FPAR）中使用时的性能[14，15]。近年来，社区虽然光流的使用已经成为FPAR中的事实程序[14-这些方法与传统方法结合起来，产生了令人鼓舞的结果，但不足以使它们成为可行的替代方法。通过这项工作，我们表明，事件数据编码的内在运动信息，使这种方式可能比RGB更适合。3. N-EPIC-Kitchen由于他们专注于捕捉场景中的变化，基于事件的相机在自我-这是一种以运动为中心的场景，因为它们大大减少了要处理和采集的数据量，避免了运动模糊伪影并提供了细粒度的时间信息。然而，到目前为止，只有有限数量的数据集可以免费访问[22，36，47，75]。尽管该领域正在积极努力提高其可用性，但最近发布的基于事件的ImageNet版本[54，63]证明，目前可用于人类活动识别的数据集相对较少。如图2所示，它们中的大多数专注于受控设置中的动作或手势识别[3，47，48，70]，其中摄像机和背景都是静态的，并且没有考虑以自我为中心的动作识别，防止在这种情况下使用基于事件的摄像机为了证明基于事件的摄像机在以自我为中心的在线设置中的优势，以及它们与其他模式的互补性和等效性，我们扩展了EPIC-Kitchen（EK）[14]数据集，这是一个以自我为中心的动作视频的大型集合，具有多种模式和不同的环境。遵循[72]的设置，我们从EPIC-Kitchener中选择了训练动作实例数量最大的三个厨房，我们将其称为D1，D2和D3，分析了8个最大动作类的性能，即，下面，我们首先介绍DVS摄像机的工作原理。然后，我们概述了用于生成N-EPIC-Kitterfly的方法，并强调了它的好处。3.1. 基于事件的视觉数据DVS相机的像素是独立的，并且与标准RGB相机不同地响应于连续对数亮度信号L（u，t）的一个事件是一个元组ek=（xk，yk，tk，pk），它指定了时间tk、位置（xk，yk）和亮的极性pk1，1变化（亮度降低或减少）。当像素u=（xk，yk）T和时间tk处的对数亮度的幅度从相同像素处的最后事件起改变超过阈值C时，事件被触发，如以下等式所述：C. L（u，tk）=L（u，tk）-L（u，tk-tk）>pkC.（一）因此，事件摄像机的输出是连续的事件流，描述为序列E={（xk，yk，tk，pk）|tk2 {\displaystyle t k2}，是时间间隔值。N-EPIC-Kitchen世代。我们利用ESIM [83]，一个最近的事件摄像机模拟器，以增强事件模态的EPIC-Kitchen数据集。由于EPIC-Kitchen中的视频被限制在每秒60帧，远远低于事件相机的微秒时间分辨率，我们首先将它们上采样到更高的fps。为此，我们使用Super SloMo [50]，因为它具有以任何时间精度生成帧的独特能力，遵循自适应19938X在可用的[5，6，25，34，48，55，87，113]中，我们选择了体素网格[113]，因为它被证明在跨域设置中更优越[79，91]。该表示通过在B个单独的间隔中离散化时间来计算BD1 D2 D3图3.RGB（上），光流（中）和体素网格表示（下）从相同的行动（Vid2E [33]中提出的用于提取事件流的主动采样程序最后，我们使用Voxel Grid [113]，一种类似帧的事件编码技术，将稀疏和异步事件转换为张量表示，并使用典型的卷积神经网络架构进行学习4. 评估事件数据在第一人称动作识别中评估事件数据的根本问题来自于这样一个事实，即与其他模态不同，它在以自我为中心的视觉中的使用是完全新颖的。为了在此设置中设置基准，我们评估了基于事件的建模的四个不同方面我们首先考虑可见和不可见测试集上性能的重要性，其中可见表示在执行训练的同一厨房上的性能，而不可见表示在不同厨房上获得的性能我们建议在我们的实验中对它们进行虽然第一个提供了一个很好的指示模态的上限性能然后，由于不同模态的性能可能会因用于处理的架构而发生很大变化[80]，因此我们使用FPAR中最受认可的三种架构（即TSM [62]、TSN [103]和I3D [8]）对事件进行我们利用一个成熟的过程将事件流转换为类似帧的表示，该表示已被证明可以有效地与现成的CNN [79，91]集成，并最终提出通过在通道级别采用注意力来鼓励对运动特征进行建模。事件表示。由于事件相机产生场景的稀疏编码，因此在处理之前必须将它们转换为中间表示。已经提出了几种表示法，从生物启发[5，11，68]到更实用的表示法。类框架表示是目前最广泛的方法，因为它们可以直接与现成的网络一起使用。NxE（x，y，b）=pkkb（b-tk），（2）k=1其中，b是通道，t是时间戳，[0，B-1]，pk是极性，kb（a）= max（0，1 - 1），|一|）的情况。主干架构。为了评估事件数据如何在不同的网络设计中使用，我们研究了两种流行的2D-CNN方法，TSM [62]和TSN [103]以及一种3D-CNN，I3 D [8]。前两个依赖于2D-CNN主干，但是虽然TSN [103]只能利用延迟融合进行时间建模，但TSM [62]利用移位模块在相邻帧之间交换信道信息。相比之下，I3 D [8]是一个纯3D-CNN模型，它将过滤器和池化内核膨胀到时间维度。在文献中，目前还没有明确的赢家，因为某些模式可能会不加区别地对一种技术比另一种更好。运动的重要性。在以自我为中心的视觉系统中，通常通过采用互补的、通常无外观的模态来管理环境偏差。Opti- cal流程通常是在动作识别任务中执行最好的流程[14，15，103]，因为（i）它有助于专注于移动内容，即，所述动作被执行，同时（ii）保留移动对象的边缘和（iii）忽略背景信息。在本文中，我们认为，事件相机的敏感性，移动边缘和disregard- gard静态信息的能力，只有部分捕获的光流的三个关键特征，上面列出的。实际上，由于摄像机的移动，这些传感器仍然会捕捉到背景中的事件。这鼓励我们从心流中学习，以提高我们过滤掉歧视性较小的数据的能力5. 从运动中虽然传统的RGB帧仅对静态信息进行编码，但用于事件数据的基于帧的表示还携带通道维度上的运动信息（参见第4节）。实际上，每个时间信道对在视频记录的一对标准帧之间的盲时间中发生的运动进行编码。我们提出了两种不同的方法，使标准CNN能够利用这些信息。第一个，我们命名为E2（GO），明确的时间关系模型，通过引入通道操作，促进运动推理。相反，第二种方法使用我们称为E2（GO）MO的学生-教师策略，通过使用预先训练的基于光流的网络，鼓励网络在训练期间提取运动特征。我们在下面详细介绍这两种方法。19939平方22222⇥我平方EFs由zE通过两个全连接层有一个瓶颈，使C的大小降到C/r。最后，使用s对x E进行重新加权，从而产生新的特征向量xE，以增强有区别的运动特征并丢弃不太信息的运动特征。因此，EscherxE对不同时间通道之间的关系动态进行编码，有效地将它们之间的依赖关系建模为通道维度上的自注意函数。时间图4.拟议的《政府采购条例》说明。来自事件和流模态的输入xE和xF分别被传递到特征提取器FE和FF来自预先训练的教师流（冻结）FF的信息被提取到学生流FE。后者使用标准交叉熵损失进行训练5.1. E2（GO）：事件运动为了使标准CNN能够从事件数据中捕获运动信息，我们提出了两种简单但有效的架构变体，它们提高了在2D和3D CNN中提取时间通道间关系的能力我们将它们分别称为E2（GO）-2D和E2（GO）-3DE2（GO）-2D。文献中的常见做法是通过对不同帧之间的依赖性进行建模来提取视频级的时间相关性[52，62]。事件表示的一个特点是通道序列对连续运动进行编码，从而描述场景中的微运动这一观察促使我们扩展建模时间关系的实践，以了解事件通道之间的短程我们建议通过利用挤压和引用模块[45]来增强2DCNN中通道之间的注意力相关性。给定事件量xERTHWF作为输入，其中T是时间维度，H W是特征映射分辨率，F表示通道数，我们将从网络的第i层提取的特征称为fiERTHiWiCi作为第一步，我们通过沿空间维度执行特征聚集来将fE的空间信息内容“挤压”到信道描述符中。它遵循一个vation vectors用于缩放xE。缩放向量E2（GO）-3D。类似地，我们建议利用3D-CNN通过3D内核处理时间信息的能力。从相同的输入xERT<$H<$W <$F开始，传统的3D CNN在（T，H，W，F）维上应用3D 卷积，从而产生形状为（T0 ， H0 ，W0， C）的输出。我们将本文档中的3D卷积运算器重新用于对xE进行运算R（F·T）HW1，通过在时间轴上移动通道维度。卷积直接对跨事件表示的时间通道包含的微运动进行建模，否则在通道维度上处理时将忽略该5.2. E2（GO）MO：从心流中我们的目标是使用事件和opti-cal流数据来训练网络，避免在测试期间估计后者的需要。给定一个多模态输入X=（XE，XF），其中XE表示事件模态，XF表示流模态，我们用FE和FF表示它们各自的特征提取器，以及用fE=FE（xE）和fF=FF（xF）表示所得特征。作为第一步，我们使用真实动作标签yF和由FF之上的全连接层预测的标签yF之间的交叉熵损失来训练流提取器FF。然后，我们首先冻结流FF，然后通过将标准交叉熵损失与定义为特征fE和fF之间的L2的蒸馏损失相结合来训练事件流FE：Ldist=0||F-f||-是的（三）其中，k是缩放超参数。这种丢失促使事件流的特征与流的特征相匹配，迫使FE模仿FF的行为，从而使两者能够产生类似的激活。请注意，我们只在训练过程中使用光流数据，并在推理过程中删除教师分支，从而利用了这种模式的优势，但有效地避免了其在预测中的计算复杂性。6. 实验在本节中，我们首先介绍所使用的实验装置（第6.1节），然后我们对事件数据进行基准测试并验证所提出的E2（GO）和E2（GO）MO。我们以讨论和限制段落结束本节。19940--！2个！6.1. 实验装置输入. 使用I3D [8]进行实验，方法是在训练期间从视频中随机抽取一个剪辑，在测试期间从所有视频中抽取5个等距剪辑，如[72]所示。对于RGB和光流，构成每个剪辑的帧数为16，对于事件，为10对于TSN [103]和TSM [62]架构，使用均匀采样，包括沿视频均匀采样的5帧在测试期间，每个视频采用5个剪辑，遵循[62]。体素网格表示在0之间进行剪裁。5和0。5，并且根据与所采用的架构相关联的预训练网络对于所有模式，我们使用标准数据增强[102]。实施和培训详情。关于I3 D，已经选择了[8]中的原始实现，而TSN和TSM模型已经使用重新构建的BN-Inception [49]和ResNet-50 [43]主干构建。在多模态实验中，使用经典的后期融合策略，其中来自不同模态的预测分数被求和，并且误差被反向传播到所有模态。所有模型都在PyTorch中实现[74]。带有动量的SGD [81]，起始学习率为0。01，重量衰减为10- 7，动量μ为0。9用作优化器。我们在第3000步训练了总共5000次迭代，学习率衰减到1e3。所有实验都是在4个NVIDIA Tesla V100 16Gb GPU上以128的批量大小进行的对于蒸馏损失，我们发现最佳超参数λ= 100（详情见补充资料）。至于所使用的评估协议，对于所看到的结果，我们在厨房Di上进行训练并在相同的（DiDi）i1，2，3上进行测试。我们通过在Di上训练和在Dj上测试来评估看不见的测试的性能，其中i6=j并且i，j2{1，2，3}（Di！ Dj）。6.2. 结果事件分析。在表1中，我们展示了事件在三种选定的动作识别架构上的性能（见第4节）。我们观察到提取3通道体素网格是最佳选择，我们在所有剩余实验中使用了它（更多细节见补充）。考虑到在可见和不可见测试集上的性能，TSM模型是表现最好的模型，而I3D表现稍差。一种解释是，它一次只处理视频的一小部分，在剪辑级别训练时只捕捉局部特征。另一方面，TSM可以捕获全局特征，因为它可以处理覆盖整个视频的帧。TSN的性能较差是可以预料的，因为其帧聚合阻止了任何时间相关性的建模。因此，除非另有说明，我们执行视频级分析-模型体素ch.测试可见（%）不可见（%）夹子53.75 35.90视频55.5437.52夹58.8134.65视频59.8235.24夹64.3837.75视频65.9338.23表1. 在可见和不可见测试集上，I3D、TSN和TSM的所有D i D j组合的平均准确度（%）。在下面的所有实验中，分析和评估TSM和I3D骨干上提出的方法事件与RGB。在表2中，我们将事件与RGB模态进行了比较。结果表明，在看不见的测试集上，事件超过RGB高达3%事实上，在文献中已经表明，基于外观的CNN偏向于纹理，这导致它们在跨域中表现不佳，但是当形状偏差增加时，它们的鲁棒性会提高[38]。我们相信这就是为什么事件表示更关注几何和时间信息而不是纹理变化，对域变化更不敏感的主要原因。同样的考虑也适用于seen测试，其中基于RGB的网络通过利用特定于域的特性而过拟合。我们注意到，到目前为止，事件模态在纯视觉任务中仍然落后于RGB图像，正如最近发布的N-ImageNet基准[54]所报告的那样，其中最佳执行事件架构得分为48。94%，远低于RGB在这项研究中，相反，我们表明，事件可以在挑战看不见的场景中胜过RGBs，并在看到的场景中竞争，强调它们在自我中心视觉中的重要性。E2（GO）。在表2中，我们示出了E2（GO）-2D和E2（GO）-3D的性能。这些在未看到的测试集上尤其有益，因为它们旨在增强时间相关性，从而允许网络强调具有信息性的运动特征，同时抑制那些与动作无关的运动特征E2（GO）-3D在可见测试集上实现了高达2%的改进，而E2（GO）-2D实现了与基线TSM相当这可以通过基于帧的技术的2D CNN严重依赖于视觉信号的事实来事实上，当环境发生变化时，这些都是有害的，但它们对可见的环境却有另一方面，I3D自然对时间相关性更敏感。将其节奏推理扩展到微运动有助于其提取动作的区分特征，即使在相同环境下测试时也能反映出更高的准确性多模态分析表3示出了当与RGB和光学模式组合时事件模态的行为。i3D3TSN3TSM319941！LL模态模型D1D2D3D1！D2D1！D3D2！D1D2！D3D3！D1D3！D2可见（%）不可见（%）RGBi3D53.6761.1260.7034.5035.7034.9436.4633.9338.3758.4935.65事件i3D50.3258.3357.9937.2739.1232.9836.5235.6843.5655.5437.52事件E2（GO）-3D50.5262.9960.1138.0738.7135.0238.4936.7345.5357.8738.76RGBTSM61.6177.0875.7537.3932.4934.2838.9934.4338.2571.4835.97事件TSM56.8672.4368.4928.7334.0037.0942.3042.2745.0265.9338.23事件E2（GO）-2D56.5870.0369.6034.9835.1638.2147.8041.7144.1365.4040.33表2.事件的准确度（%），相对于I3D和TSM上的RGB结果显示在所有班次上，即， Di Dj表示我们在Di上进行训练并在Dj上进行测试，Di表示我们在相同的基础上进行训练和测试。E2（GO）-3D和E2（GO）-2D的改进被示出为w.r.t. 到它们各自的基线，其中没有执行架构变化。粗体显示的是每个主干可见和不可见的最佳结果模型流预训练可见率（%）不可见（%）I3 D事件动力学-400（R）55.54 37.52E2（GO）-3D事件动力学-400（R）57.87 38.76TSM Event ImageNet65.9338.23E2（GO）-2D事件ImageNet 65.4040.33I3DEvent+RGB动力学-400（R）E2（GO）-3D事件+RGB动力学-400（R）61.2341.85TSM事件+RGBImageNet 71.88 39.92E2（GO）-2D事件+RGBImageNet72.4240.61I3D事件+流程动力学-400（R）60.48 44.47E2（GO）-3D事件+流程Kinetics-400 (R)62.6645.86TSM事件+流程ImageNet 72.26 46.89E2（GO）-2D事件+流程ImageNet72.87 49.23I3D RGB+Flow Kinetics-400（R）62.07 44.56TSM RGB+Flow ImageNet75.08 45.66表3.结合使用标准RGB和光流时事件模态的准确度结果（%）最好的大胆每个模态组合的结果。流当与RGB相结合时，它在可见的测试集上实现了高达7%的改进，在不可见的测试集上实现了3%的改进。将事件与光流结合时，可实现最佳性能，在可见域上将事件结果提高7%，在不可见域上提高9%。这表明，虽然事件和流都对运动进行编码，但流强调运动相关部分，忽略场景或对象的AF，而事件数据则保留了有关对象形状的有用信息出于这个原因，事件模态可能比RGB更方便地与光流数据相结合，而RGB由于其对外观的依赖性而在看不见的域上受到影响。同样值得注意的是，它优于标准RGB+Flow，因为标准事件表示不像RGB那样强调外观特征E2（GO）MO. 在表4中，我们展示了E2（GO）MO相对于基于RGB的TSM的性能，我们在前面的分析中证明了它是最强大的架构。为了证明我们提出的蒸馏技术-图5. RGB模态、E2（GO）MO、估计PWCNet光流和TV-L1光流在可见和不可见场景下的准确度与时间，用于一个剪辑评价。nique受益于运动特征，我们也将相同的机制应用于基于RGB的流，我们在表4中使用RGB+dist条目标记。事件和RGB都受益于流学习策略，提高了看不见的测试性能（分别为+5.3%和+3%），证实了运动信息在现实世界场景中的重要性。然而，E2（GO）MO从运动损失分布中获得的收益远远大于RGB，这表明事件数据比RGB流传达了更多的运动丰富特征，从而证明了我们的论点。最后，我们比较了这两个网络对他们的多模态上限性能，获得利用离线计算的光流也在预测，即RGB+流和E2（GO）+流。尽管两者都无法达到其上界，但E2（GO）MO更接近E2（GO）+Flow，甚至超过了多模态RGB-Flow性能。这一结果进一步激发了事件数据在自我中心视觉中的使用。事件vs.光流我们在图5中说明了准确度与。在测试时间对可见和不可见数据的每帧平均时间权衡。我们报告了TV-L1流的性能，离线计算[108]，以及一个前19942⇡方法模型D1D2D3D1！D2D1！D3D2！D1D2！D3D3！D1D3！D2可见（%）不可见（%）平均值（%）RGBRGB +L距离TSMTSM61.6163.3677.0879.4775.7577.9737.3938.6132.4935.7334.2839.3638.9941.0934.4334.7638.2549.6871.4873.6035.9739.8753.7356.73+3RGB +流TSM66.9779.6978.5843.7643.7645.8047.1345.4448.0975.0845.6660.37事件TSM56.8672.4368.4928.7334.0037.0942.3042.2745.0265.9338.2352.08事件E2（GO）-2D56.5870.0369.6034.9835.1638.2147.8041.7144.1365.4040.3352.87事件E2（GO）MO-2D61.3875.8375.0839.7737.1944.7151.0347.0153.7370.7645.5758.17+5。3事件+流程E2（GO）-2D65.1177.5875.9142.1241.8048.2053.5051.8557.9172.8749.2361.05表4. E2（GO）MO的准确度（%），相对于事件基线（TSM）和E2（GO）-2D。我们比较了E2（GO）MO与RGB上的相同方法，以验证结合事件和流的选择用粗体表示最好的单峰，用下划线表示最好的多模。流模型代表看到看不见时间（ms）（%）（%）RGBi3D58.4935.65事件i3D6ms55.5437.52事件E2（GO）-3D6ms57.8738.76流量（TV-L1）i3D488毫秒58.4743.40RGBTSM71.4835.97事件TSM6ms65.9338.23事件E2（GO）-2D6ms65.4040.33流量（TV-L1）TSM488ms73.2353.98表5. RGB、事件和光流（TV-L1）的准确度结果及其表示时间，即，计算事件的体素网格的时间，以及TV-L1流的提取时间PWC-Net [93]。后者是现有的端到端CNN流模型中最具竞争力的，提供了时间和准确性之间的最佳平衡。对于计算，我们使用NVIDIA Titan RTX GPU，并报告输入的计算和转发时间，忽略数据访问时间。我们还强调了我们可以执行实时动作识别的范围，使用[88]中考虑的阈值来确定运动跟踪系统的足够帧（采样）速率作为参考点。该图清楚地显示了TV-L1如何以488 ms的提取时间为代价实现更高的准确性，使其不适合在线场景。当使用PWC-Net在线估计光流时，性能急剧下降（在可见测试中下降高达10%，在不可见测试中下降8%）。此外，PWC-Net需要执行额外的网络，增加参数计数（40M）并需要额外的微调阶段。相比之下，我们不必在测试时计算流，因此我们可以充分利用更精确的光流提取时。尽管E2（GO）MO在推理过程中没有显式地使用流，但它在可见测试中的性能仍然优于PWC-Net（高达6%），并且在不可见测试中的性能与之相当。讨论和限制。由于目前不可能完全复制事件摄像机行为，事件模拟可能会产生不期望的模拟到真实域偏移[79，91]。然而，一些研究表明，模拟事件足够强大，可以很好地推广到真实事件[33，79、91]。当我们第一次在以自我为中心的动作识别中引入事件数据时，我们的目标是提供一个双向的、可扩展的动作识别方法。与文献[14，15，27]中的常见基准进行正确比较，并将事件模态置于与成熟模态竞争的环境中。这些方面促使我们模拟事件数据，而不是从头开始生成新的第一人称数据集。从我们工作的有希望的结果开始，我们计划进一步探索在这种背景下使用真实事件流，此外，表5示出，尽管TV-L1光流的计算和时间成本高，但是TV-L1光流仍然表现出更高的性能，特别是对域变化的异常弹性。我们主要将此归因于这样的事实，即用于提取它的算法部分地过滤掉相机运动，导致与未处理的事件相比更干净的运动数据为了这个目的，有趣的未来工作可能涉及利用通常用于事件的运动补偿技术[90，90]来去除冗余的背景噪声。7. 结论在本文中，我们提出了N-EPIC-Kitterfly，第一个基于事件的自我中心动作识别数据集。利用我们所掌握的各种数据模式，我们进行了深入的比较分析，其结果证明了动作识别上下文中运动信息的相关性。鉴于这些发现，我们提出并评估了两种适用于事件数据的新方法（E2（GO）和E2（GO）MO），通过强调运动信息，与计算昂贵的光流模态相比，产生了具有竞争力的结果。通过广泛的实验，我们揭示了事件数据的鲁棒性及其在在线动作识别环境中的适用性，推动社区进一步探索这一方向。鸣谢。这项工作得到了CINI联盟通过VIDESEC项目提供的支持。我们感谢 ISCRA 倡议和 IIT HPC 基础架构下的CINECA奖，以表彰高性能计算资源和支持的可用性。特别感谢Antonio Loquercio的宝贵建议。19943引用[1]Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么？预测活动的时间在IEEE计算机视觉和模式识别集，第53431[2]Filipp Akopyan ， Jun Sawada ， Andrew Cassidy ，Rodrigo Alvarez-Icaza ， John Arthur ， Paul Merolla ，Nabil Imam，Yutaka Nakamura，Pallab Datta，Gi-JoonNam，et al. Truenorth：65兆瓦100万神经元可编程神经突触芯片的设计和工具流程。IEEE transactions oncomputer-aideddesignofintegratedcircuitsandsystems，34（10）：1537-1557，2015。2[3]Arnon Amir ， Brian Taba ， David Berg ， TimothyMelano，Jeffrey McKinstry，Carmelo Di Nolfo，TapanNayak，Alexander Andreopoulos，Guillaume Garreau，Marcela Mendoza，et al.低功耗、完全基于事件的手势识别系统。在IEEE计算机视觉和模式识别会议论文集，第7243-7252页，2017年。二、三[4]Yin Bi，Aaron Chadha，Alhabib Abbas，Eirina Bourt-soulatze，and Yiannis Andreopoulos.神经形态视觉感测的基于图的时空特征学习IEEE Transactions on ImageProcessing，29：9084-9098，2020。2[5]Marco Cannici、Marco Ciccone、Andrea Romanoni和Matteo Matteucci。用于神经形态相机中的对象检测的异步卷积网络。在IEEE/CVF计算机视觉和模式识别研讨会会议上，第0-0页，2019年二、四[6]Marco Cannici、Marco Ciccone、Andrea Romanoni和Matteo Matteucci。异步基于事件数据的可微递归曲面。欧洲计算机视觉会议，第136-152页。Springer，2020年。4[7]Marco Cannici ，Chiara Plizzari， Mirco Planamente ，Marco Ciccone，Andrea Bottino，Barbara Caputo，andMatteo Matteucci.N-rod：用于合成到真实域适应的神经形态数据集在IEEE/CVF计算机视觉和模式识别集，第1342-1347页2[8]Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。二、四、六[9]亚历杭德罗·卡塔斯，乔迪·卢克，佩蒂娅·拉德瓦，卡洛斯·塞古拉，和玛丽埃拉·迪米科利.看到和听到自我中心的行动：我们能学到多少？在IEEE/CVF计算机可视化研讨会国际会议论文集，第0-0页，2019年。3[10]陈俊明，孟晶晶，王新潮，袁俊松.基于事件摄像机的动态图 cnn 手势识别。 2020 年 IEEE InternationalSymposium on Circuits and Systems（ISCAS），第1-5页。IEEE，2020年。2[11]格雷戈里·凯文·科恩。基于事件的特征检测、识别与分类。Theses，Uni versite′Pi erre和玛丽·居里-巴黎六世;西悉尼大学，九月2016. 4[12]NievesCrasto ， PhilippeWeinzaepfel ， KarteekAlahari，and Cordelia Schmid.

下载后可阅读完整内容，剩余1页未读，立即下载