异步事件数据的通用框架

152 浏览量更新于2023-10-12 收藏 732KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5633异步事件数据Daniel Gehrig1，Antonio Loquercio1，Konstantinos G. Derpanis2，DavideScaramuzza11机器人和感知组部门苏黎世大学和苏黎世2瑞尔森大学和三星人工智能中心多伦多摘要事件摄像机是记录每像素亮度变化的异步流（称为它们具有比用于计算机视觉的基于帧的相机吸引人的优势，包括高时间分辨率、高动态范围和无运动模糊。由于事件信号的稀疏、不均匀的时空布局，模式识别算法通常将事件聚集成基于网格的表示，并且随后通过标准视觉流水线（例如，卷积神经网络（CNN）。在这项工作中，我们引入了一个通用的框架，通过一系列的可扩展的操作转换成基于网格的表示事件流。我们的框架具有两个主要优点：（i）允许以端到端的方式学习输入事件表示以及任务专用网络，以及（ii）列出了一种分类法，该分类法统一了文献中现存事件表示的主要性并确定了新颖的事件表示。从经验上讲，我们表明，我们的方法来学习的事件表示端到端产生约12%的改进光流估计和对象识别的国家的最先进的方法。多媒体素材项目代码是可用对的下一页：https://github.com/uzh-rpg/rpg_event_representation_learning. 此外，定性结果可以在此视频中查看：https：//youtu.be/bQtSx59GXRY1. 介绍活动摄像机是生物启发的视觉传感器，其操作方式与传统摄像机截然不同。代替以固定速率捕获亮度图像，事件相机独立地测量每个像素的亮度变化（称为事件）。活动摄像机，例如Dy-图1.使用卷积、量化和投影将异步事件数据转换为基于网格的表示的通用框架。所有这些操作都是可微的。最好用彩色观看。动态视觉传感器（DVS）[34]与传统的基于帧的相机相比具有吸引人的特性，包括非常高的动态范围、高时间分辨率（微秒量级）和低功耗。此外，事件摄像机大大降低了带宽。虽然存在具有相当的时间分辨率和/或动态范围相机的基于帧的相机，但是它们通常体积庞大、功率密集并且需要冷却[48]。事件摄像机的输出由事件流组成，这些事件流对亮度变化的时间、位置和极性（符号）进行编码。因此，每个事件本身携带的关于场景的信息非常少。基于事件的视觉算法以两种方式聚合信息以实现进一步处理：（i）使用连续时间模型（例如，卡尔曼滤波器），可以异步更新5634[2019-04-19 00：00：00][2019-04 - 1900：00：00]在包[27，52，57，66，67]中同时处理事件，即，事件的时空局部聚集形成方法可以实现最小的等待时间，但是对参数调整敏感（例如，滤波器权重），并且是计算密集的，因为它们对每个事件执行更新步骤。相比之下，在事件包上操作的方法权衡计算效率和性能的延迟。尽管存在差异，但这两种范式都已成功应用于各种视觉任务，包括跟踪[19，21，40，42]，深度估计[3，52，67]，视觉测距[27，54，57，66]，识别[29，44]和光流估计[7，69]。在[18]中可以找到关于事件相机应用的良好调查。受基于帧图像的计算机视觉深度学习的广泛成功的推动，越来越多的最近基于事件的作品采用了数据驱动的方法[2，32，36，47，69]。尖峰神经网络（SNN）非常适合处理事件流，因为它们可以在专用硬件上以低功耗实现异步推理[2，32，47]。然而，SNN是出了名的难以训练，因为不存在有效的反向传播算法[24]。此外，运行SNN所需的专用硬件价格昂贵且处于开发阶段，这阻碍了其在视觉社区中的广泛采用。与当前论文最密切相关的是将事件流与标准的基于帧的深度卷积神经网络（CNN）或递归架构（例如，，[29，36，41，59，69].为此，预处理步骤通常将异步事件数据转换为网格状表示，该表示可以同步[36，69]或异步[29，59]更新。这些方法受益于它们使用标准的基于框架的深度学习库（例如，，[1，46]）和商品图形硬件上的快速推理。然而，这些努力主要集中在初始表示阶段之外的下游任务上，并且简单地考虑原始事件流和输入的基于网格的张量之间的固定的、可能次优的转换。到目前为止，还没有对输入表示的选择的影响进行广泛的研究，留下了以下基本的开放问题：将异步事件流转换为基于网格（ten- sor）的表示以最大化给定任务的性能的最佳方法是什么？在本文中，我们的目标是解决这一知识差距。贡献我们提出了一个通用框架，将异步基于事件的数据转换为基于网格的表示。为了实现这一点，我们通过核卷积、量化和投影来表达转换过程，其中每个操作都是可微的（见图1）。①的人。我们的框架有两个主要优势。首先，它使转换过程完全可区分，允许从原始事件数据学习端到端的表示，任务的损失。相比之下，以前的工作假设输入事件表示是固定的。其次，它列出了一个分类法，统一了文学中现存的大多数事件表征，并确定了新颖的。通过广泛的实证评估，我们表明，我们的方法来学习的事件表示端到端产生了12%的光流和12.6%的对象识别的国家的最先进的方法，依赖于手工制作的输入事件表示的改进。此外，我们比较了我们的方法，在准确性和计算量方面的异步方法，以阐明每个类别的相对优点。2. 相关工作传统上，手工制作的特征用于基于帧的计算机视觉，例如，，[14，33，35，60，63].最近，研究已经转向数据驱动的模型，其中特征从数据中自动学习，例如。，[4，22，25，37，55].这种范式转变背后的主要催化剂是大型训练数据集的可用性[12，15，16]，有效的学习算法[30，61]和合适的硬件。直到最近，基于事件的可视化才在解决这些问题上取得了长足的进步。类似于早期的基于帧的计算机视觉方法，在设计事件流的有效时空特征描述符方面已经做出了重大努力从这条研究路线来看，典型的高级应用是手势识别[31]，对象识别[29，45，59]或面部检测[6]。低级应用包括光流预测[8，9]和图像重建[5]。另一个研究方向是将数据驱动模型应用于基于事件的数据。这些包括异步，尖峰神经网络（SNN）1[32]，已应用于几个任务，例如：、对象识别[32，44，47，64]、手势分类[2]和光流预测[7，8]。然而，缺乏专门的硬件和计算高效的反向传播算法仍然限制了SNN在复杂的现实世界场景中的可用性。该问题的典型解决方案是使用基于帧的数据学习参数，并将学习的参数传输到事件数据[13，47]。然而，目前尚不清楚这种解决方案可以在多大程度上推广到训练过程中未观察到的真实、嘈杂的事件数据。最近，有几项工作提出使用标准学习架构作为SNN的替代方案[36，41，59，68，69]。为了处理异步事件流，Neil et al.[41]调整递归架构以包括用于预测的时间维度。尽管操作是异步的，但他们的方法引入了高延迟，因为[1]这里我们使用的术语SNN与神经形态学文献[32]中的一样，它描述了连续时间神经网络。其他有时被称为SNN的网络是低精度网络，例如二进制网络[51]。然而，这些不太适合异步输入。5635k=1k=1表示尺寸描述特性事件框架[53]高×宽2×高×宽2×H×WB×H×W2×H×W2×B×H×W事件极性事件计数最近时间戳的图像体素网格求和事件极性平均时间曲面的直方图将事件点集采样到网格丢弃时间和极性信息丢弃时间戳丢弃较早的时间戳丢弃事件极性丢弃时间信息丢弃最少的信息事件计数图像[36，69]活动事件表面（SAE）[7，69][70]第七十话时间曲面直方图（HATS）[59]事件尖峰张量（EST，我们的工作）表1.在基于事件的深度学习的先前工作中使用的基于网格的事件表示的比较。H和W分别表示图像高度和宽度维度，B表示时间仓的数量。事件必须顺序地通过整个递归结构。为了减少延迟，其他方法将事件流转换为基于网格的表示，与为标准帧设计的学习算法兼容，例如，CNN [36，59，68，69]。Sironi等人[59]通过将事件转换成平均时间表面（HATS）的直方图，然后将其馈送到支持向量机进行推断，在对象识别任务中获得了现有技术的结果。它们表示的主要优点是，它不仅可以与标准学习结合使用3.1. 事件数据事件摄像机具有像素，每当有日志亮度变化时，这些像素会独立触发事件L（x，y，t）-L（x，y，t-t）≥pC，（1）其中C是对比度阈值，p2 {-1，1}是亮度变化的极性，并且P1是自u=（x，y）> 处的最后事件以来的时间。在一个给定的时间间隔内，事件摄像机将触发多个事件：ing流水线，但如果有足够的计算能力，也可以异步更新。更简单的表示E={ek}N={（xk，yk，tk，pk）}N.（二）由Maqueda等人提出。[36]以解决转向角预测，其中不同极性的事件在恒定的时间窗口上累积。执行低级任务，即，光流估计，Zhu et al.[69]提出将事件转换成一个四维网格，其中包括极性和尖峰时间。最后，Zhu etal.[70]将事件转换为时空体素网格。与[36]中提出的表示相比，后两种表示具有保留时间信息的优点这些作品中的一个共同点是使用手工制作的事件流表示。相比之下，在本文中，我们提出了一种新的基于事件的表示，学习端到端的任务。表1总结了基于事件的表示及其设计选择的比较。将基于事件的数据与标准的基于帧的学习架构相耦合，具有利用事件相机的优势实现学习算法的灵活性的潜力。然而，目前尚不清楚事件表示对任务性能的影响。在这项工作中，我们提出了一个广泛的实证研究选择的代表性的任务，目标识别和光流估计，在计算机视觉的中心任务。3. 方法在本节中，我们将介绍一个通用框架，用于将异步事件流转换为基于网格的表示。通过严格执行转换，通过不同的运营商，我们的框架允许我们学习一个表示端到端的给定任务。配备了这个工具，我们得到一个分类，统一在文献中常见的代表，并确定新的。所提出的框架的概述在图中给出。二、由于其异步性质，事件表示为一个设定为了将事件与卷积神经网络结合使用，有必要将事件集转换为网格状表示。这意味着我们必须找到一个地图平M：E 7！在集合E和张量T之间。理想情况下，这种映射应该保留结构（即，，spatiotem-poral location）和事件的信息。3.2. 事件字段直观地说，事件表示由x和y空间坐标、时间和极性跨越的四维流形中的点集。这个点集可以由事件场来总结，灵感来自[11，32]：XS±（x，y，t）=6（x-xk，y-yk）6（t-tk），（3）ek2E±在连续的空间和时间中定义，用于正（E+）和负（E-）极性的事件。这种表示在时空man- ifold中用狄拉克脉冲代替每个事件得到的函数S±（x，y，t）给出了E的连续时间表示，其保持事件3.3. 生成表示在本节中，我们概括了事件字段的概念，并演示了如何使用它来从事件生成网格状表示我们观察到（3）可以解释为定义在事件域上的函数f±的连续测量，即、XS±（ x，y，t）= f±（ x，y，t） 6（x-xk，y-yk）6（t-tk）.ek2E±（四）5636∆t∆t我们称之为（4）事件测量域。它为每个事件分配一个测量值f±（xk，yk，tk）。这样的函数的示例是事件极性f±（x，y，t）= ±1，事件计数f±（x，y，t）= 1，以及归一化时间戳f±（x，y，t）=t-t0。其他例子可能包括由诸如异步时基图像传感器（ATIS）等传感器提供的瞬时事件率或图像强度[10]。文献中的各种表示都利用了事件测量字段。在几个作品[29，36，59，69]中，测量纯事件计数，并为每个像素和极性求和以生成事件计数图像。其他作品[7，69]使用事件的时间戳来构建活动事件（SAE）的表面，该表面保留每个像素和极性的最近事件的时间戳。其他表示使用事件极性并将其聚合成三维体素网格[70]或二维事件帧[53]。核卷积虽然事件测量场保留了事件的高时间分辨率，但由于使用狄拉克脉冲，它仍然是不明确的。因此，为了从事件测量字段导出有意义的信号，我们必须将其与合适的聚合核卷积。卷积信号因此变为：（k<$S±）（x，y，t）X=f±（xk，yk，tk）k（x-xk，y-yk，t-tk）.（五）ek2E±在文献中，（5）也被称为膜电位[32，39，49]。在先前的工作中已经使用了这种内核的几种变体。两个最常用的是alpha内核，k（x，y，t）=6（x，y）etexp（-t/t）[32，39]，以及指数核，通常，时空坐标xl、ym、tn位于体素网格上，即，，xl2 {0，1，.， W-1}，ym2 {0，1，...， H-1}，以及tn2 {t0，t0+ t，.，t0+B t}，其中t0是第一个时间戳，t是bin大小，B是时间面元我们将这种广义表示称为事件尖峰张量（EST）。在极性和时间维度上求和，可以导出先前工作中引入的事件帧表示[57]。以前的工作考虑量化各种维度，包括空间时间分箱[70]，以及量化极性和空间维度[36，69]。然而，保留所有四个维度的广义形式尚未被认真考虑，因此是一种新的表示。End-to-end了解到表示的（6）中的度量和内核通常是手工制作的函数。以前的作品手动调整这些功能，以最大化任务性能。相比之下，我们建议直接利用数据来找到最佳函数候选，从而端到端地学习表示。我们通过将（6）中的核函数替换为具有两个隐藏层的多层感知器（MLP）来实现这一点，每个隐藏层具有30个单元。该MLP将事件的坐标和时间戳作为输入，并在其周围产生激活图对于表示中的每个网格位置，我们评估由每个事件产生的激活图，并根据（6）将它们相加在一起。对最终网格中的每个点重复此操作，从而产生类似网格的表示。为了在事件之间强制对称性，我们限制MLP输入到坐标xl-xk，ym-yk，tl-tk的差。为了简单起见，我们不学习测量函数，而是从一组固定函数中选择它为了加快推理速度，在测试时，τ1可以用有效的查找表代替，因此具有k（x，y，t）=6（x，y）τexp（-t/τ）[49].事实上，X-ponential核也被用来构建层次结构，时间表面（ HOTS ） [29] 和平均时间表面直方图（HATS）[59]，其中事件被聚合为指数时间表面。在HATS [59]的情况下，指数时间表面可以解释为尖峰序列与指数核的局部卷积通常使用的另一个内核是三线性投票内核，nel，k（x，y，t）= 6（x，y）max（0，1 - 1）|不|）[26]。通常，核函数的设计是基于任务相关的在最佳内核上没有达成普遍一致的算法，以最大限度地提高任务性能。离散事件尖峰张量在核卷积之后，可以通过以规则间隔对卷积信号（5）进行采样来实现事件的网格表示S±[xl，ym，tn] =（k≤S±）（xl，ymtn）（6）X=f±（xk，yk，tk）k（xl-xk，ym-yk，tn-tk）.ek2E±计算成本与手工制作的内核相当。这些设计选择使表示既有效又完全可微。与以前的作品，使用次优的几何转换成网格的事件，我们的框架现在可以调整表示的下游任务，从而最大限度地提高性能。从广义事件尖峰张量，我们可以进一步实例化新的和现有的表示。例如，许多作品涉及三维tensor，如[29，36，59，69，70]。事件尖峰张量是一个四维数据结构（两个空间，一个时间和一个极性），因此充当这些三维结构的先驱，可以通过对四维中的一个进行求和来获得。例如，双通道图像[36，59，69]可以通过收缩时间维度来导出，无论是通过求和[36，59，69]还是最大化[69]。体素网格表示[70]可以通过跨事件极性求和来导出。所有这些操作都可以通过5637事件卷积时间内核测量离散化y有四种变化：事件尖峰张量，体素网格，双通道图像和事件帧.我们沿着极性维度拆分事件尖峰张量（四维张量），并沿着时间维度连接两个张量，有效地将通道数量这样做是为了使表示与二维卷积兼容。作为第一步，我们应用一个通用的三线性内核卷积的事件尖峰信号，后来研究不同的内核时，适用于EST的性能的影响。最后，我们报告的结果，为我们的端到端-图2.概述我们提出的框架。每个事件都与一个测量（绿色）相关联，该测量与一个（可能是学习的）内核卷积。然后在规则网格上对该卷积信号进行采样。最后，可以通过在时间轴或极性上执行投影投影算子Hv，其中H可以是求和算子、最大化算子等。表示尺寸的V可以是x1、ym、tn或过极性±，产生16种可能的投影。在这里，我们只列出保留的表示空间维度，其中有四个维度，包括没有投影的EST：S±[xl，ym，tn]（7）S[xl，ym，tn]=H±（S±[xl，ym，tn]）（8）S±[xl，ym]=Htn（S±[xl，ym，tn]）（9）S[xl，ym] =Htn，±（S±[xl，ym，tn]）。（十）我们将这些表示称为EST（7）、体素网格（8）、双通道图像（9）和事件帧（10）。投影的方向对结果表示的信息含量有影响。例如，沿时间轴投影极大地压缩了事件表示，但以时间定位信息为代价。相反，投射事件极性导致正面和负面事件的取消，可能会删除过程中的信息。在这些表示中，EST脱颖而出，因为它通过放弃投影操作而保留了最大4. 实证评价在本节中，我们提出了一个广泛的比较评估的表示，我们的分类识别的对象识别（第二节。4.1）和光流估计（第4.2）在标准事件相机基准上。候选表征我们首先根据事件尖峰因子（6）识别12个不同的表征。特别地，我们选择测量函数（4）三名候选人：事件极性、事件计数和标准化时间戳。我们使用求和运算符来投影（7）-（10）中定义的各个轴，直接利用原始事件的最终训练变体。4.1. 对象识别由于传统相机的低动态范围、高延迟和运动模糊倾向，使用传统相机进行对象识别仍然具有挑战性。近年来，基于事件的分类越来越受欢迎，因为它可以解决所有这些挑战。在这一节中，我们研究了在第二节中提出的事件表示的性能。4.关于基于事件的目标识别任务。特别是，我们的目标是确定之间的关系的信息内容的表示和分类精度。我们表明，我们的端到端学习表示显著优于最先进的[59]。我们在评估中使用了两个公开的数据集： N-Cars [59] （ Neuromorphic-Cars ）和 N-Caltech101 [43]。N-Cars为场景中的汽车识别的二元任务提供了基准。它包含ATIS事件摄像机记录的24，029 个 100ms 长度的事件样本 [50] 。 N-Caltech 101（Neuromorphic-Caltech 101）是流行的Caltech 101数据集的基于事件的版本[17]，并提出了事件相机的多类识别任务。它包含了8246个样本和100个类，这些样本是通过在一个马达上放置一个事件摄像机并将其移动到一个屏幕前来记录的，该屏幕投影来自加州理工学院101的各种样本。我们为每个数据集使用ResNet-34架构[22]。该网络在ImageNet的彩色RGB图像上进行预训练[58]。为了解释预训练模型和我们的模型之间不同数量的输入通道和输出类，遵循方法[36]：我们用随机权重替换预训练模型的第一层和最后一层，然后微调任务上的所有权重。我们通过优化交叉熵损失进行训练，并使用ADAM优化器[28]，初始学习率为1e-5，我们每10，000次迭代将其减少2倍我们分别为N-Caltech 101和N-Cars使用60和100结果分类结果见表2。根据我们评估的表示，具有时间戳测量的事件尖峰张量在N-Cars和N-Caltech 101的测试集上具有最高的准确性。k（x，时间f（x，时间不X5638表示测量内核N-CarsN-Caltech101事件帧0.8660.587双通道图像体素网格极性三线性0.8300.8650.7110.785EST（我们的）0.8680.789事件帧0.7990.689双通道图像体素网格计数三线性0.8610.8270.7130.756EST（我们的）0.8630.784事件帧0.8900.690双通道图像体素网格时间戳三线性0.9170.8470.7310.754EST（我们的）0.9170.787阿尔法0.9110.739EST（我们的）时间戳指数0.9090.782学到0.9250.817表2.使用不同测量函数的所有事件表示的分类精度4.第一章对于每个表示，时间维度被离散化为九个箱。为了获得最佳表现（EST和时间戳测量），我们还报告了不同内核选择的结果：三线性[26]，指数[49]，alpha内核[32]，以及可学习的内核。表示测量内核N-CarsN-Caltech101[44]第四十四话0.5610.054热门[29]0.6240.210[59]第59话--0.7890.196HATS [59]0.9020.642HATS + ResNet-340.9090.691双通道图像[36]计数三线性0.8610.713[70]第七十话极性0.8650.785EST（我们的）时间戳三线性0.9170.787学到0.9250.817表3.不同基线表示[36，70]和最新分类方法[29，44，59]的分类准确性比较。作为额外的基线，我们将先前工作中表现最好的表示（HATS [59]）与更强大的分类模型（ResNet-34，用于本工作）配对，因为原始数字是使用线性SVM报告的。从这些结果我们可以得出两个结论。首先，我们观察到，分离极性的表示一致地优于极性求和的表示的确，对象分类然而，时间内核的效果仍有待探讨。为了这个目的，我们用第二节中描述的内核进行了实验。3.3，即指数[49]，alpha [32]和三线性[26]内核。此外，我们还评估了我们的端到端可训练表示，并在表2中报告了结果。我们看到，使用不同的手工内核会对测试准确性产生负面影响事实上，与三线性内核相比，将这些内核应用于事件尖峰通过重叠表示中的事件信号来降低有效的时间定位。这使得网络很难有效地最后，我们看到，如果我们端到端地学习内核，我们的性能将得到显著提升。这是合理的，因为可学习层找到了在网格上绘制事件的最佳方式，最大化了表示的区分度。与最新技术水平比较我们下将我们的结果与利用手工事件表示的最先进的对象分类方法进行比较，例如HATS [59]，HOTS [29]以及SNN的基线实现[59]。对于最佳表现表示（HATS），我们还报告了使用用于评估EST的相同ResNet-34获得的分类准确度;原始工作使用线性SVM。另外两个基线用于比较：（i）事件直方图[36]（此处为双通道图像），具有事件计数测量值，以及（ii）具有极性测量值的体素网格[70]。这些方法的结果总结于表3 .第三章。我们的方法在N-Cars上的性能优于最先进的（HATS）和变体（HATS + ResNet-34），以及体素网格和双通道图像基线的2.3%，1.6%，6%和6.5%，在N-Cars上的性能优于17.5%，12.6%，3.2%和10.4%。所有测量功能都观察到这一趋势：丢弃极性信息导致精度降低高达7%。第二，我们看到，保留事件的时间本地化，即表征。的体素网格和EST，始终优于他们的同行，在时间维度上的总和。这些观测结果表明，极性和时间信息都是重要的对象分类。这一趋势解释了为什么EST导致最准确的预测：它保留了关于原始事件数据的最大信息量。有趣的是，使用事件时间戳作为测量比其他测量更有益，因为关于极性和事件计数的信息已经编码在事件尖峰张量中。实际上，在张量中显式地使用时间戳部分地恢复了在事件场的卷积和离散化步骤因此，我们确定，具有时间戳测量的EST对于以下情况表现最好：加州理工学院101，分别。特别是，我们看到，我们的表示是更适合对象的分类比以前的手工制作的功能，如HATS和HOTS，即使我们使用更复杂的分类模型与这些功能。这可能是由于HATS丢弃了时间信息，正如我们所建立的，时间信息在对象分类中起着重要作用。重要的是要注意，与现有技术相比，我们的方法不异步操作，或者在当前硬件（例如SNN）的低功率下操作;但是，我们在Sec中显示。4.3，我们的方法仍然可以在非常高的帧速率下操作，这对于许多高速应用是4.2. 光流估计与对象识别一样，使用基于帧的方法的光流估计在高动态范围场景中仍然具有挑战性，例如，在夜间以及在高速移动期间。特别地，传感器的运动模糊和过饱和/欠饱和通常违反了照明系统中的亮度恒定性。56391图像是许多方法的基本假设，这会导致估计误差。由于它们缺乏运动模糊和高动态范围，事件相机有可能在这些条件下提供更高精度的估计。基于事件的光流估计的早期工作将平面拟合到由事件生成的时空流形[7]。其他作品已经解决了这个任务，找到最佳的事件对齐时，投影到一个框架[20，65]。最近，相对较大规模的多Ve- hicle立体事件相机数据集（MVSEC）[68]使得基于深度学习的光流成为可能[69，70]。它提供了来自立体DAVIS装置的数据，并结合LIDAR进行地面实况光流估计[69]。该数据集包括白天和夜晚的几个驾驶序列，以及在四轴飞行器上记录的[69，70]中的方法以自我监督的方式学习流，并使用标准的U-Net架构[56]，在具有挑战性的夜间场景中优于现有的基于帧的方法在[69]中，四通道图像表示被用作网络的输入。该图像由[36]中使用的双通道事件计数图像和双通道活动事件表面（SAE）[7]组成，根据事件极性划分虽然事件计数和时间表面结合了事件流的时间和空间信息，但它仍然通过丢弃除了最近的事件时间戳之外的所有事件时间戳来压缩事件信号到目前为止，还不清楚哪种事件表示是学习光流的最佳选择。我们调查这个问题，通过比较在第二节中列出的表示。4相对于最先进的[69]光流回归任务，在MVSEC数据集上进行评估。实现我们训练的光流回归的室外序列室外day1和室外day2。这些序列以固定的时间间隔被分成大约40，000个样本每个样本由两个DAVIS帧之间聚合的事件组成，这些DAVIS帧以30Hz捕获我们使用EV-FlowNet[69]作为基础网络，初始卷积层的通道维度设置为每个输入表示的通道数量相同。使用从地面实况运动场估计导出的监督损失从头开始训练网络Xl（f，fgt）=f（f-fgt），（11）X式中，λ表示鲁棒Charbonnier损失[6 2]，λ（x）=（x2+λ2）α。对于我们的实验，我们选择了 ε=1e-3和ε=0。五、使用ADAM优化器[28]将这种损失最小化，初始学习率为5e-5，并在40，000次迭代后将其减少2倍，然后每20，000次迭代一次，批量大小为8。结果与文献[69]相同，我们通过比较平均终点误差（AEE=N）来衡量我们的网络P工作我|f-fg t|2）室内飞行数据集，视觉上与训练集不同因此，这些数据集上的测试误差反映了我们网络的泛化能力及其整体性能。此外，由于事件仅在帧中提供稀疏信息，因此我们仅报告在至少一个事件被触发的像素处计算的误差，如[69]中所做根据KITTI 2015基准[38]，我们报告了端点误差大于3个像素的像素百分比和5%的地面实况流，也在[69]中完成在先前的分类实验中，我们观察到时间戳测量对于判别表示是必不可少的。因此，我们专注于从使用时间戳作为测量函数的表示以及不同的内核获得的结果。表4总结了从该实验获得的结果。各种测量功能的详尽评估，即极性和计数，以及定性结果，可在补充材料中获得。从表4中我们可以看出，体素网格和EST具有相似的AEE和离群值比率。这表明光流估计对事件极性不像对分类所观察到的那样敏感。双通道图像和事件帧之间的小间距进一步支持了这一点当我们比较保留时间维度（中间行）的表示和在时间维度上求和的表示时，一个更显著的区别出现了。事实上，双通道图像和事件框架的准确性与EST和Voxel-Grid相比，下降约10-20% 与分类评估一样，我们并进一步探讨了不同核函数对性能影响这些总结在表4的底部行集中。我们看到指数核和α核优于三线性核。这表明对内核形状有很强的依赖性，因此我们继续使用完全端到端可学习的版本。与分类一样，我们观察到可学习的内核显着提高了几乎所有场景的准确性。最显着的改进实现了离群值比率，表明使用可学习的内核提高了系统的鲁棒性。与最新技术的比较我们将我们的方法与最新技术[69]以及基于[36]和[70]中使用的表示的其他基线进行表4给出了详细的比较。很明显，EST的表现远远优于最先进的技术（12%）。在离群值比率方面也有显着的改进，将离群值平均减少了49%，这再次表明了我们方法的鲁棒性。这种性能差异可能是由于可学习EST的数据驱动性质。虽然现有的方法在固定的事件表示上学习任务，但我们的方法联合学习任务和表示。所得到的表示更适合于任务，从而最大限度地提高性能。5640表示测量内核室内飞行1室内飞行2室内飞行3AEE% 异常值AEE% 异常值AEE% 异常值双通道图像[36]计数1.214.492.0322.81.8417.7EV-FlowNet [69]-三线性1.032.201.7215.11.5311.9[70]第七十话极性0.961.471.6514.61.4511.4事件帧1.172.441.9318.91.7415.5双通道图像时间戳三线性1.171.51.9714.91.7811.7体素网格0.981.201.7014.31.512.0三线性1.001.351.7111.41.518.29EST（我们的）时间戳阿尔法指数1.030.961.341.271.521.5811.710.51.411.408.329.44学到0.970.911.388.201.436.47表4. MVSEC数据集上的平均终点误差（AEE）和离群值百分比评估，用于EST的不同变化和时间戳测量。对于每个表示，时间维度被离散化为九个箱。比较了各种基线[36，70]和最先进的方法[694.3. 计算时间和延迟事件摄像机的关键优势之一是其低延迟和高更新率。为了实现高频预测，以前的作品开发了轻量级和快速的算法来异步处理每个传入的事件相反，其他方法将事件聚合到数据包中，然后同时处理它们虽然这牺牲了延迟，但由于信噪比的增加，它也导致了整体更好的准确性。实际上，在若干模式识别应用中，例如，对象识别和光流预测，异步处理不是必需的：我们实际上可能会牺牲它来提高准确性。我们在表5中比较了这两种操作模式，其中显示了每秒可以处理的事件数量，以及用于处理来自N-Cars数据集的单个100ms样本的总时间可以看出，如果我们允许批处理计算，我们的方法使用学习的内核和查找表可以运行在一个非常高的速度，是可比的其他方法。对于异步更新或低功耗具有比准确度更高的优先级的应用，可以使用其他方法，例如：，SNN，相对于我们的方法具有优势。我们在表6中进一步报告了不同架构的每个推理的计算时间。我们报告时间分两个阶段：表示计算和推理。虽然表示计算在CPU（Intel i7 CPU，64位，2.7GHz 和 16 GB RAM ）上执行，但推断在 GPU（GeForce RTX 2080 Ti）上执行表6表明，表示的计算仅占总计算时间的一小部分，而大部分时间都花在推理过程中。尽管如此，我们看到一个完整的前向传递只需要大约6ms，这意味着最大推理速率为146Hz。虽然不是在事件率的量级上，但是该值对于大多数高速应用（例如，移动机器人或自主车辆导航）来说足够高。此外，我们看到，如果我们使用更小的模型，我们可以显着减少推理时间，ResNet-18达到255通过利用蒸馏技术，较浅的模型可能会以最小的准确性损失运行[23]。表5. 100ms事件数据的计算时间和每秒处理的事件数。模型推断[ms]代表性[ms]总计[ms]频率[Hz]ResNet-183.870.384.25235ResNet-346.470.386.85146ResNet-509.140.389.52105EV-FlowNet5.700.386.08164表6. 计算时间分为EST生成（0。38ms）和用于若干标准网络架构的推断。ResNet- 34 [22]和EV-FlowNet [69]都允许以大约146Hz的频率进行处理，这对于大多数高速应用来说是足够的。5. 结论本文提出了一个将异步事件数据转换为基于网格的表示的通用框架。通过表示转换过程中，通过不同的操作，我们的框架允许学习输入表示在数据驱动的方式。此外，我们的框架列出了一个分类，统一了大量的现存事件表示，并确定新的。通过广泛的评估，我们表明，学习代表端到端的任务产生了约12%的性能提高超过国家的最先进的方法，为目标识别和光流估计的任务通过这一贡献，我们将深度学习的优势与事件相机相结合，从而将其出色的特性释放给更广泛的社区。作为未来工作的一个有趣方向，我们计划通过部署类似于[41]的循环架构来允许异步更新：这将弥合基于事件处理的同步和异步方法之间的差距。确认该项目由瑞士国家机器人能力研究中心（NCCR）通过瑞士国家科学基金会和SNSF-ERC启动资助。K.G.D.由加拿大NSERC发现基金支持。K.G.D.他以瑞尔森大学副教授的个人身份为这项工作做出了贡献。方法异步时间[ms]速度[kEv/s][59]第五十九话是的285.9514.15热门[29]是的157.5725.68HATS [59]是的7.28555.74EST（我们的）没有6.26632.95641引用[1] Mart 'ın Abadi，Paul Barham，Jianmin Chen，ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe- mawat，Geoffrey Irving，Michael Isard ，Manjunath Kudlur ， Josh Levenberg ， Rajat Monga ，Sherry Moore，Derek G.Mur-ray，Benoit Steiner，PaulTucker ， Vijay Vasudevan ， Pete War-den ， MartinWicke，Yuan Yu，and Xiaoqiang Zheng.Ten- sorFlow：一个大规模机器学习系统。在USENIX操作系统设计和实施会议上，第265-283页，2016年。2[2] Arnon Amir ， Brian Taba ， David Berg ， TimothyMelano，Jef- frey McKinstry，Carmelo Di Nolfo，TapanNayak，Alexan- der Andreopoulos，Guillaume Garreau，Marcela Mendoza，Jeff Kusnitz，Michael Debole，SteveEsser，Tobi Delbruck，Myron Flickner，and DharmendraModha.低功耗、完全基于事件的手势识别系统。在IEEE Conf. Comput. 目视模式识别（CVPR），第7388-7397页，2017年7月。2[3] Alexander Andreopoulos ， Hirak J. Kashyap ， Tapan K.Nayak，Arnon Amir，and Myron D.弗里克纳低功耗、高吞吐量、完全基于事件的立体声系统。在IEEE Conf.Comput.目视模式识别（CVPR），第7532- 7542页，2018年。2[4] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. NetVLAD：用于弱监督位置识别的CNN架构。在IEEE会议Comput.目视模式识别（CVPR），第5297-5307页，2016年6月。2[5] 放大图片作者： AndrewJ.Davison 和 StefanLeutenegger。从事件照相机的同时光流和强度估计。在IEEE Conf. Comput.目视模式识别（CVPR），第884-892页，2016年。2[6] 苏普提克·巴鲁阿，宫谷义孝，阿肖克·维拉伽·凡.从事件摄像机直接进行人脸检测和视频重建。IEEE WinterConf.应用计算目视（WACV），第1-9

下载后可阅读完整内容，剩余1页未读，立即下载