基于事件的相机用于场景运动感知及时间演变分析的图卷积神经网络方法

15 浏览量更新于2023-10-23 收藏 1.5MB PDF 举报

时间分辨率

图卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1利用事件表面AntonMitrokhin，ZhiyuanHua，CorneliaFer müller，YiannisAloimonos马里兰大学帕克分校学院公园amitrokh@umd.edu，howardh@terpmail.umd.edu，fermulcm@umd.edu，jyaloimo@umd.edu摘要基于事件的相机已经被设计用于场景运动感知-它们的高时间分辨率和空间数据稀疏性将场景转换成大量的边界轨迹，并且允许跟踪和分析场景的时间演变。分析这些数据在计算上是昂贵的，并且实质上缺乏关于时间密集物体运动的理论来指导新算法的开发;因此，许多工作采用离散化事件流并将其转换为经典像素图的简单解决方案，这允许应用传统的图像处理方法。在这项工作中，我们提出了一个图卷积神经网络的任务，场景运动分割的运动摄像机。我们将事件流转换为（x，y，t）空间中的3D图，并保留每个事件的时间信息。任务的困难源于这样一个事实，即与度量空间不同，（x，y，t）空间中对象的形状取决于其运动，并且在整个数据集上是不相同的。我们讨论了事件数据的属性，相对于这个3D识别问题，并表明我们的图卷积的架构是优于PointNet++。我们评估我们的方法的最先进的基于事件的运动分割数据集- EV-IMO的状态，并进行比较，其作者提出的基于帧的方法。我们的消融研究表明，增加事件切片宽度提高准确性，以及如何子采样和边缘配置影响网络性能。1. 介绍场景运动分析已经研究了很多年[16，21，1]。最近，由于在自主导航中的应用，对这些问题的兴趣越来越大[13]。运动分析的基本图像表示是光流，表示两个时刻之间的像素运动。光流是受许多am-作者对这项工作同样做出了贡献biguities [33，11].另一方面，特征点跟踪允许像素运动轨迹的长期估计这样，通过分析大时间间隔上的像素匹配，可以解决运动中的模糊性场景运动存在于时间中。场景在短时间间隔内的变化提供了一些信息，但是诸如遮挡检测、多个移动对象的分割以及检测具有与相机类似的运动的对象之类的任务然而，经典的基于帧的视觉并不自然地被设计为提供时间信息。随着对VR和手势识别等技术的热情日益高涨，许多公司已经开始投资开发基于事件的相机[19，28，7，32]。这些传感器提供关于场景变化的密集的时间信息;每个像素充当独立的电路，这样的传感器不由公共时钟驱动每个像素独立地对运动作出反应，从而允许更有效、通用并且同时准确地感知场景的动态方面。这些传感器的另一个好处是对变化的光线条件和稀疏数据编码有更好的耐受性，这使得基于事件的相机对移动设备很有用。对于事件相机，场景中的每个可见移动边缘都会产生事件的踪迹，即事件云，它位于（x，y，t）空间中的表面（称为事件表面或时间表面[18]）上。时间表面包含了关于结构和运动的所有信息。与经典的3D处理（使用RGB-D或激光雷达传感器）不同，事件云的形状受到物理定律和对极几何的约束。云的特定形状，即使是局部的，也可能意味着两个对象彼此遮挡，彼此碰撞或移动到更靠近相机的位置。示例如图所示。1.一、图示了四个对象运动的事件云（点的颜色对应于事件时间戳，在0到1秒的范围(a)平行于摄像机平面的平移不会改变云的形状，只会改变其空间坐标;（b）围绕平行于相机平面的轴的滚动或旋转揭示了OB的先前被遮挡的部分。1441414415(a)（b）（c）（d）图1.取决于摄影机或对象运动的事件云形状属性的图示。每个点都是一个事件，时间戳用颜色显示：蓝色0秒，红色1秒。(a)-平行于相机平面的平移（沿着y轴），（b）-滚动（围绕y轴旋转），（c）-沿着z轴的平移（对象移动得更靠近相机），（d）-偏航（围绕z轴旋转）物体，云截面的形状发生变化;（c）随着沿照相机光轴的平移，当物体接近照相机时，其轮廓变得更大;（d）围绕光轴的旋转产生可辨别的扭曲图案。从这些云，我们也可以看到对象跟踪问题变得多么自然，因为事件的我们讨论3D运动模式的特点3 .第三章。时间表面起源于80年代后期引入的对极当摄像机沿着直线运动时，图像被如此快速地连续拍摄，以至于它们形成了一个坚实的数据块该技术利用相机运动的知识来形成和分析该固体的切片这些切片不仅直接编码对象的三维位置，而且还编码时空事件，例如一个对象被另一个对象遮挡对于直线摄像机运动，这些切片具有简单的线性结构，使其易于分析。推广这一概念，我们工作的时间表面（x，y，t）由事件摄像机产生的执行任务的前景-背景分割的运动物体。这项任务的复杂性来自于需要处理的异步数据量、事件摄像机产生的高水平噪声，以及最重要的是，对象和摄像机运动的可变性改变了事件云的形状，使得学习局部3D特征更加困难。总之，本文的贡献是：• 第一种在大时间间隔上的3D事件云学习方法。• 我们的理论和实验表明，较大的时间切片产生更好的性能。• 我们将其与现有技术进行比较，我们-将PointNet++[30]和EV-IMO[25]作为基线，并表明我们的方法更快，结果更好。2. 相关工作虽然大多数作品通过将信息折叠成2D图像地图来处理事件数据，但少数方法采用了3D处理的概念事件摄像机上最著名的流技术计算本地时间表面的法线[5，10，26，27]以估计正常流。Liu [20]的块匹配算法使用类似的思想，但可以为角区域产生全流。[2]中的方法跟踪由多个像素上的对比度边缘引起的事件以估计正常流量，并且[8，3]使用事件计数图上定义的局部频率最近的运动补偿方法使用时间信息作为事件切片内的第三维，以导出流和局部或全局运动模型[24，12]。基于事件的特征检测研究追求相似的思想，但在时域上更具有全局性。早期的作品使用事件流的连续性来弥合经典相机帧之间的差距[34]。后来，Zhuet al.引入了一种概率性的、仅限事件的方法来进行角提取[39]。Manderscheid等人通过使用深度学习对现有方法进行了显着改进[22]。Lagorce等人[17，18]通过设计时间特征并在识别任务中演示，解决了时间表面方面的事件云分析，Chandrapla等人。[9]学习了运动不变的时空特征。这些工作奠定了事件云时空特征分析的基础，是全球事件云分析的先导事件数据的学习方法很多，许多作者强调将时间信息编码为神经网络的输入特征的重要性14416举几个例子，[38]通过构建具有事件时间戳的离散化映射来学习光流，类似于[37]中使用的平均时间图像Zhu [40]的一项改进工作使用多个切片作为输入，保留了3D结构，观测到的速度分量的倒数因此，从具有分量（nx，ny，nt）的该表面n的法线，可以获得图像像素处的瞬时法向流为vn=（nt，nt）。nx ny云更好。 Barranco等人[4]使用不同的本地空间-时间特征来学习对象的边界。最新的作品之一-EV-IMO[25]提出了我们在本文中使用的运动分割流水线和数据集与我们的方法最接近的是EventNet[31]-启发由Pointnet[29]，第一个学习方法的3D点云。这项工作将事件作为3D空间中的点进行分析，但仅在最大32ms宽的切片上进行分析，使其在数据表示方面与基于图像的方法不相上下。由于这项工作使用了多层感知器，事件的空间结构没有显式表示。此外，EventNet具有简单的实验结果;它只对平面形状进行分割，并且显示出0。与PointNet基线相比，mIoU（平均交点-并集）指标为1%我们围绕图卷积网络[15，36]结构构建我们的方法，并且我们证明我们的网络在更具挑战性的问题上表现良好。EV-IMO数据集。3. 事件云和场景运动事件摄像机记录亮度变化事件的连续流。每个事件都由其像素位置x，y，时间戳，t编码，精确到微秒，以及一个额外的位表示亮度是否增加或减少。我们将把固定时间间隔内的事件称为事件的“切片”。一个切片可以包含数百万个事件（实际上，在EV-IMO [25]数据集中每秒106个事件，数据集是用DAVIS 346 C传感器收集的使用较新的Prophesee高分辨率传感器[28]发生了6起10起这些事件是由随时间变化的图像轮廓（对象边界或纹理边缘）。我们可以把这些事件看作是数列tj（t）=（x（t），y（t），t）上的点--这使得把事件看作是3D（x，y，t）空间中的点变得很自然。本节的其余部分致力于分析事件云的一些几何性质。由于像素运动受到物理定律、物体刚性和对极几何的约束，事件云与（x，y，z）空间中的3D点云显著不同。3.1. 曲面法线、法线流、光流早期的作品[5，10]已经在光流估计的背景下分析了事件云与[5]中类似的一些符号滥用，我们将事件云描述为函数t（x，y），其中t为时间，x，y为空间坐标，并将其视为曲面（实际上，（x，y）可以映射到违反函数定义的多个t段）。然后，偏导数fdt（x，y），fdt（x，y）提供但更重要的是，点p=（x，y，t）的全流将位于具有正规n并通过p的平面中的概念。现在，我们可以强加一个附加的假设，这通常被称为平滑约束，即局部区域的流动是相似的;对于边界，这是不正确的，并且我们在下面单独地分析边界区域。更具体地，对于点p0=（x，y，t）周围的小半径r的区域，我们将假设所有点pi∈Br（p0）具有相同的（归一化的）光流矢量v=（vx，vy，vt）。这会导致一个约束：p0处的光流位于由法线n1给出并通过p0的所有局部平面的交点处。如果假设成立图2. （x，y，t）空间中的事件云;颜色梯度对应于事件时间戳。对于单个刚性对象，云上的曲率将定义该对象的点的轨迹，而对于一对对象，这样的结构可以识别遮挡。在左下角-一个点有两个可能的光流值，这只发生在闭塞。右下角：T形角;在遮挡过程中，它的形状定义了哪个对象在前景上，哪个在背景上（见第二节）。3.3）x14417DT真，并且对于所有局部点，流是相同的，则所有平面ni将相交于单条线v。由ni和nj给出的两个平面的交点简单地为v = ni× nj。给定Br（p0）中的一组平面，我们用公式表示约束最小二乘问题的一个例子：Σv=最小值v||v × ni||第二章（一）这里，我们偏离了光流作为2D矢量场的常见概念;给定事件流的无帧性质，v应该被认为是像素轨迹的时间导数，而传统意义上的瞬时流可以写为vxy=（vx，vy）。边缘表面将是中空的，并且背景表面将被前景表面覆盖。在遮挡边界上，这将总是导致一个T形拐角，如图所示。2，右下角。4. 体系结构4.1. 3D运动分割最先进的3D点云分割网络，如PointNet++[30]，EdgeConv [35]和3DCNN [14]，已被设计用于在统一的3D度量空间中提取静态3D特征描述符。事件云的不同之处在于3.2. 时间的连续性vt vt它有一个时间轴物体本身的运动控制云的形状，因此是静态的（x，y，t）。流量是点轨迹v=特征不能作为描述符来学习度量空间d（tj）=（dx，dy，1）。由于时间的连续性，还允许高效的下采样，dtdt DT事件流，有时可以恢复完整的一个点的轨迹如果轨迹的所有点都是广义角点，则轨迹是明确可恢复的-也就是说，对于所有点Eq。1需要有一个最小值。然后，使用候选点的序列pi和它们对应的流vi，可以提取这些点的完整轨迹。即使数据是不连续的，我们也可以获得轨迹。3.3. 边界区域和遮挡事件摄像机的角点检测已经在会前进行了研究[22]。然而，现有的方法不允许区分对象的角落，和结构造成的闭塞（见图。2）。接下来，我们将讨论如何区分这些情况。Eq的结果。1是具有非零曲率的每个点将具有与之相关的明确的光流矢量。如果点区域Br（p0）包括来自两个单独对象的边界的事件（这可能发生在遮挡期间），则等式% 1将具有多个不同的最小映像。一个例子如图所示。2：在顶部-背景（显示为大的、平坦的点簇）被较小的前景对象（显示为穿过背景运动平面的“管”）典型遮挡。为了区分对应于点轨迹的角（图中红色所示），2）和由遮挡引起的拐角（以绿色显示），足以分析光流矢量的局部分布。左下- 红点具有多个可能的流矢量，并且其轨迹d（ti）=∞。这些特殊点可以被找到，并且对应的角区域被标记为遮挡边界。白羊座还可以在遮挡处提取关于两个对象中的哪个在前景中以及哪个在背景中的信息。由于遮挡，被遮挡物体上的纹理是不可见的，网格简化，现代深度传感器有信号，比活动摄像机的噪音小得多。目前，只有少数方法能够处理事件摄像机产生的数百万个点。在这项工作中，我们使用PointNet++作为基线，我们开发了一个网络，使用图卷积网络，执行背景-前景运动分割的任务。4.2. 网络设计我们的网络架构如图3所示-它由五个连续的图卷积（GConv）层和三个完全连接的隐藏层组成，它们在所有点上共享网络的输入是一个非结构化图，它由作为节点的（x，y，t）空间中的事件、每点表面法线（nx，ny，nt）和图边组成，这些都是按照第2节中所述计算的。四点三。在每个GConv层中，每个点特征都是从它的邻居聚集起来的，使得具有相似顶点的点聚集在一起。当训练多个GConv层时，这相当于点特征的多尺度聚类，这也保留了局部几何结构[23]。每个GConv层有64个输入通道，并将这些特征映射到整个图中不同尺度的64个输出通道[23]。然后，由五个GConv层提取的5组64个多尺度特征被连接并馈送到多层感知器（MLP）分类器。MLP以256个初始通道开始，并在最后隐藏层中以4的速率将通道减少到16个通道。然后，将MLP的输出连接到全连接层以产生单个逐点分数。我们将训练作为回归问题而不是分类问题进行监督，以减少过度拟合对象轮廓的可能性。将原始响应值与逐点地面实况标签进行比较∈[0，1]的二进制交叉熵与Logits损失。14418图3. 一幅建筑的插图。5图卷积层聚合每个点周围的多尺度特征;这些特征被连接并被馈送到全连接层中以预测点类。4.3. 边计算图卷积神经网络的一个核心组成部分如果使用原始数据，则事件云中的高密度点将产生非常大量的边缘，使得大边缘半径的计算和使用过于昂贵。为了解决这个问题，在保留与沿可能的运动轨迹的相邻点的连接的同时，我们过滤半径为r的球体中的边缘，使它们平行于事件表面。给定一个点p0和它的法线n0，我们只保留与n0正交的边，具有一定的滤波阈值α，如等式2所示。2-（a）（并在图中示出）（第4-（b）段）（a）：{pi|<$pi∈Br（p0）& （pi−p0）·n0α}（b）：{pi|<$pi∈Br（p0）&pt>pt}（2）其中α是一个随机尺度参数（在我们的工作中，0。8−1 .一、2），n′归一化为单位长度。这种方法的动机是，表征单独对象的基本线索不依赖于速度，而是依赖于时空异常，例如T角、具有多个流值的点或事件云的连续性。时间增强迫使神经网络学习这样的特征（其保持不受增强的影响），并减少对云的局部形状的过拟合我们的消融研究（第二节）5.3）表明该模型使用这种增强更好地推广。5. 实验5.1. 数据集i0由于事件的大部分时间运动信息包含在与时间表面平行的平面内，因此这种过滤策略是表面特征丰富性和计算性能之间的良好折衷。Yet, our experiments haveshown that most surface patches are rather isolated in theabsence of strong texture or extremely fast motion, and inpractice the filtering is notrequired.作为第二个约束条件（Eq. 2-（b）），我们将点置于点的上半球（沿时间轴）-这使边的数量减半，而网络性能几乎没有下降。使用这两个约束，我们获得稀疏的边缘，将最大限度地与可能的本地光流值（见第二节）。（3）第三章。在我们的实验中，我们使用r=10个像素（沿时间轴的缩放是描述在SEC。5.1.1），我们进行消融研究半径的大小（图）。7（b））。4.4. 时间增强根据第二节中讨论的直觉。3，我们使用时间增强来人为地引入对象速度的变化（以及因此的云形状），并提高对变化运动的泛化。给定输入云p=（x，y，t）中的一个点，其法线n=（nx，ny，nt），增广点p′及其法线n′计算如下：EV-IMO是唯一公开可用的基于事件的分割数据集。它包括200 Hz的像素掩码和大约30分钟的记录，尽管数据集是在单个房间中收集的，并且只包括三个观测数据。因此，分割可能倾向于过拟合。由于我们的管道没有经过深度训练，因此不太可能过度拟合房间结构。物体的3D形状变化很大，这取决于物体的运动，但轮廓上的过拟合仍然是可能的。我们在补充材料中进行了消融研究，其中我们仅使用具有2个对象的序列来训练NN，并使用第三个对象对序列进行评估。(a)(b)（c）第（1）款图4. 边缘配置的图示：（a）3D处理中使用的典型轮廓：所有点都用于创建边;(b) 和（c）我们的配置：只使用上半部分的点p′=（x，y，αt）n′=（α<$nx，α<$ny，nt），（3）球体（b）;（c）使用平行于时间表面的边缘（c）。14419图5. 定性结果-将事件云投影到平面上，颜色表示归一化的时间戳。二次采样率从上到下逐渐增大;小的时间片显示在左侧，大的显示在右侧。实验0。5秒的切片只能用u = 5的下采样因子来实现，但是与0. 3秒切片，无二次采样。请注意，切片宽度越大，结果越好，尤其是在存在纹理的5.1.1数据预处理我们对EV-IMO的原始数据进行了预处理。我们将事件云的时间轴放大200倍，以保持事件的密度在x，y，t轴上更加均匀。使用PCA预先计算法线，其中r=5（在时间上缩放之后）。我们还应用了半径离群值过滤器，r=3，k=30，它删除了半径为3像素的所有小于30个点的点;这导致大约10%到15%的点被删除。进一步降低对于点的数量，我们使用带有因子u的随机二次采样，这将从u中保留1个随机点（实际上，我们使用u=1表示没有二次采样，或者u=2表示删除一半的点）。我们为所有点预先计算半径为10个像素的边缘，并（可选）保持最多30个边缘连接到最近的点。EV-IMO中提供的地面实况是基于图像的，以200Hz采样。对于每个事件，我们通过根据掩码和事件时间戳定位最近的类掩码并向下投影事件坐标来近似其类。14420Nate在图像上。这在实践中产生了良好的效果，即使是对于快速运动;我们在补充材料中展示了带有类注释的事件云的示例。5.2. 实现细节我们的网络架构由五个连续的图卷积（GC）层和三个完全连接的隐藏层组成。作为输入特征，我们使用时空事件位置（x，y，t），时间表面范数（nx，ny，nt），以及每个事件的二进制极性值（p∈0，1）哪些表示亮度是增加还是减少在像素（x，y）处，在时间t处。在我们目前的实现中，网络（Sec. 4.2）具有117k个可训练参数。我们使用三个Nvidia GTX 1080Ti GPU训练网络，批量大小为3。由于数据量大，在实践中很难实现更大的批量。我们使用Adam opti- mizer，学习率为7e−4，余弦退火调度策略我们在EV−IMO[25]数据集的一部分上训练了200个epoch的模型该模型需要6分钟来训练每个时期，切片宽度为0。3秒，无二次采样。作为基线，我们在事件云上使用最先进的PointNet++[30]。我们采用[30]中提出的PointNet++的分割实现，这反过来又受到[14]和[29]的启发。该实现包括两个代数采样和分组模块，其次是一个k-近邻插值和三个前向传递模块。K-最近邻是用一个比率和一个半径0来搜索的。2/0。2在第一采样层和0。25/04在第二采样层中。来自最后一个前向传递模块的响应被传递到全连接网络的三个级联层，以产生每个点的标签。5.3. 消融研究5.3.1切片宽度我们进行实验，以调查切片宽度和云子采样对网络性能的影响。图6显示了前12k次训练迭代的框验证集的结果正如预期的那样，全分辨率云（实线所示）上的实验表现得更好，但训练速度低30%（关于训练速度的结果见表2）。我们观察到，最大的影响是更大的切片宽度-u2，w0。1和u1，w0。1执行类似，而u1，w0. 3比u2，w0好10%。3 .第三章。我们的直觉是，这是由于在较小的切片中缺乏时间特征-当改变边缘半径时观察到类似的效果（图1）。7（b））。边半径与网络深度一起基本上控制全局特征的最大尺寸。5.3.2时间增强时间增强被设计为通过沿时间轴随机缩放事件云来EV-IMO数据集在对象速度方面具有很高的变化，包括在训练和验证集之间;物体的速度决定了云的形状（如第二节所述）。3.1），这可能会导致显着下降的分数时，转移到看不见的序列在验证集。我们在图中展示了有增强和没有增强的学习比较。7-（a）通过在盒子数据集上训练和在快速数据集上评估5.4. 结果GConv和PointNet++都在所有包含不同对象的EV-IMO列车序列，图6. 推理性能，以mIoU为单位，针对切片宽度w = 0的前12k次训练。02，0。1，0。3秒虚线对应于二次采样因子u=2。实线对应于没有二次采样（u = 1）的实验。(a)（b）第（1）款图7. 针对不同边缘半径的框验证的mIoU分数（没有时间增强）。(a)图中显示了α=0。0（无增量）和α=0。2对于训练的前12k迭代。(b)将最大边缘半径从10减小到7和5会导致性能显著下降。14421params117.5k1.4M盒地板壁表快速0.3 0.10.02 0.30.1 0.020.30.1 0.020.3 0.10.020.30.1 0.02GConv84±9 81±860±18 80±979±7 55±1985±883±4 51±1687±780±757±1477±1074±1739±19GConvu285±570±1154±1081±1269±8 52±1483±471±9 61±1785±1177±1959±1974±1969±2437±11[30]第三十话69±1771±2280±1566±1968±1876±1071±1775±1974±2059±2262±2868±2321±1224±10 20±6EV-IMO[25]70±559±978±579±667±3表1. EV-IMO事件数据集上的分割结果。指标为点的mIoU（%）;在3个不同的时间片宽度上评价3D方法：0.3、0.1和0.02秒。对于每个单独的验证集类型，最佳结果以粗体显示。被称为盒子、地板、墙壁和桌子。分别在盒子、地板、墙壁、桌子和快速验证装置上进行评估，02秒切片之间的时间步长，α=0。2用于时间增强（禁用验证），二次采样率u=1和u=2，切片宽度w=0。02，0。1和0。3秒定量结果见表5.2。对于输出密集掩码的EV-IMO方法，我们将切片宽度设置为0。025秒我们将推断的掩码投影到事件云上（类似于我们处理地面实况的方式5.1.1）并计算标记的事件云上的IoU5.4.1定性结果图 5 shows qualitative results (for visualization events areprojected the along time axis). 颜色编码的时间篡改（蓝色是0，红色是切片宽度）.图的顶部比较了0的无二次采样结果。02切片和0. 三片。请注意，切片大小的增加如何提高分割质量，即使是在纹理区域。二次采样因子u=2，从事件云中移除一半的点，也产生高质量的结果，但更容易出现误报。对于图的底部部分，80%的点被移除。输入的质量受到严重影响，许多空间和时间特征丢失，网络在高纹理区域表现不佳。GConv PointNet++0的情况。1秒切片，GConv不再是实时的，没有子采样。这个问题实际上可以通过构建查找表[31]来解决，并避免在连续时间片重叠时重新计算6. 局限性和未来工作我们的方法在大的时间片上运行-这允许神经网络观察场景运动的历史，并可能基于全局时间特征做出更好的决策-所有这些都不依赖于LSTM类方法（基本上是记忆场景内容）。另一方面，现代基于事件的摄像机能够每秒生成高达107个在这项工作中，我们能够实现高达0的切片宽度。3秒（和0。5秒，严重的下采样），这是由于3D点消耗了大量内存。一个专用的GPU优化模块可以减轻我们所看到的许多我们还观察到，边缘主要用于提取局部特征，因此双神经网络-一个用于在薄的时间切片上提取局部特征，另一个用于在大切片上提取时间特征将是我们未来的努力。7. 确认这项工作是由A.M.来自Prophesee SA，国家科学基金会，ONR，授权编号00014 -17-1-2622。表2.不同均匀下采样和时间切片宽度的前向时间（秒）。5.4.2性能考虑我们在表2中列出了GConv和PointNet++在不同时间片宽度和事件云子采样因子下的执行时间，这些时间是在一台NVIDIA GTX 1080 Ti上测量的。在所有实验中，PointNet++明显比GConv慢。然而，从我们已经描述了事件云的空间和时间特征我们新颖的分割流水线固有地捕获这些功能，并且能够很好地执行相机和场景上的对象的快速6自由度运动。基于图的方法首次允许使用宽切片作为单个输入，推理速度高达0。02秒。我们相信，我们的贡献是朝着理解事件云的几何特性和更完整地利用事件相机提供的信息迈出了一步。tsu1225#pBCS 1824198和20ms0.0160.0120.2190.134230730.1s0.1090.0484.2600.6631705038. 结论0.3s0.2750.14022.936.79241731514422引用[1] Edward H Adelson和James R Bergen。运动感知的时空能量模型 J. 选购配件Soc. Am.A，2（2），1985. 1[2] 弗朗西斯科·巴兰科，科妮莉亚·费尔·穆勒，还有扬尼斯·阿洛·莫诺斯.异步事件驱动摄像机的轮廓运动估计。Proceedings of the IEEE，102（10）：1537- 1556，2014.2[3] 弗朗西斯科·巴兰科，科妮莉亚·费尔·穆勒，还有扬尼斯·阿洛·莫诺斯.基于事件驱动传感器的生物启发运动估计。在人工神经网络国际工作会议上，第309-321页施普林格，2015年。2[4] FranciscoBarranco 、 ChingLTeo 、 CorneliaFer müller 和Yiannis Aloimonos。异步事件传感器的轮廓检测和表征。在IEEE计算机视觉国际会议论文集，第486- 494页，2015年。3[5] R.贝诺斯曼角Clercq，X. Lagorce、Sio-Hoi Ieng和C.巴托洛齐基于事件的视觉流。 Neural Networks andLearning Systems ，IEEE Transactions on，25（2）：407-417，2014。二、三[6] Robert C.博尔斯H.Harlyn Baker和David H.马里蒙特核线平面图像分析：一种从运动中确定结构的方法。International Journal of Computer Vision，1（1）：7-55，Mar 1987. 2[7] C.布兰德利河伯纳M. Yang，S. Liu和T.德尔布鲁克一种240180130db3s延迟全局快门时空视觉传感器. IEEEJournal of Solid-State Circuits，49（10）：2333-2341，Oct 2014. 1[8] Tobias Brosch，Stephan Tschechne，and Heiko Neumann.基于事件的光流检测。神经科学前沿，9：137，2015。2[9] Thusitha N Chandrapala和Bertram E Shi。从基于事件的刺激中提取不变2016年第6届IEEE生物医学机器人和生物机电国际会议（BioRob），第1-6页IEEE，2016. 2[10] Xavier Clady，Charles Clercq，Sio-Hoi Ieng，FouzhanHou- seini，Marco Randazzo，Lorenzo Natale，ChiaraBartolozzi，and Ryad B.贝诺斯曼基于异步可视事件的联系时间。前方Neurosci. ，2014年。二、三[11] Cornel iaFerm uüller， Da vidShulman ， andYiannisAloi-monos. 光流的统计。计算机视觉与图像理解， 82（1）：1-32，2001. 1[12] GuillermoGallego ， HenriRebecq ， andDavideScaramuzza.一个统一的对比度最大化框架的事件相机，与应用程序的运动，深度和光流估计。在IEEE计算机视觉和模式识别会议论文集，第3867-3876页，2018年。2[13] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在2012年IEEE计算机视觉和模式识别会议上，第3354-3361页，2012年6月。1[14] A. Szlam J. Bruna，W. Zaremba和Y.乐存。规格-图上的标准网络和局部连通网络。arXiv：1312.6203v3，2017. 四、七[15] Thomas N Kipf和Max Welling图卷积网络的半监督分类2017年，2016年，学习代表国际会议。3[16] 简·J·科恩德林克。光流。Vision research，26（1）：161- 179，1986. 1[17] Xavier Lagorce、Garrick Orchard、Francesco Galluppi、Bertram E Shi和Ryad B Benosman。热点：一个基于事件的时间表面层次结构的模式识别。IEEE Transactionson Pattern Analysis and Machine Intelligence，39（7）：1346-1359，2016。2[18] X.拉戈尔塞湾Orchard，F.加卢皮湾E. Shi和R. B.贝诺斯曼Hots：用于模式识别的基于事件的时间表面的层次结构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（7）：1346一、二[19] P. Lichtsteiner ， C. Posch 和 T. 德尔布鲁克一个 128 x128，120分贝，15微秒延迟的异步时间对比度视觉传感器。IEEE Journal of Solid-State Circuits ， 43（ 2 ）：5661[20] 刘敏和托比·德尔布鲁克。用于动态视觉传感器的块匹配光流：算法及fpga实现。IEEEInternational Symposiumon Circuits and Systems（ISCAS），第1-4页。IEEE，2017年。2[21] 休·克里斯托弗·隆盖-希金斯。一种从两个投影重建场景的计算机算法。自然，293：133-135，1981. 1[22] Jacques Manderscheid，Amos Sironi，Nicolas Bourdis，Da- vide Migliore，and Vincent Lepetit.速度不变的时间表面学习检测角点与基于事件的相机。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。二、四[23] 我是V，我是Micha e？lDe f Ferrard，X a v i erBresson。具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展29（2016），2017。4[24] AntonMitrokhin ， CorneliaFerm üller， ChethanParamesh-wara，and Yiannis Aloimonos.基于事件的运动目标检测与跟踪。IEEE/RSJ国际智能机器人和系统（IROS），2018年。2[25] AntonMitrokhin ， ChengxiYe ， CorneliaFer müller ， YiannisAloimonos，andTobiDelbrück. EV-IMO：事件摄像机的运动分段CoRR，abs/1903.07520，2019。二三七八[26] Elias Mueggler 、 Christian Forster 、 Nathan Baumli 、Guillermo Gallego和Davide Scaramuzza。来自动态视觉传感器的事件的寿命估计。在机器人和自动化（ICRA），2015年IEEE国际会议上，第4874-4881页。IEEE，2015年。2[27] 加里克·奥查德，赖德·贝诺斯曼，拉尔夫·艾蒂安-卡明斯，尼蒂什·V·塔科尔.一种用于视觉运动估计的脉冲神经网络结构。 2013年IEEE生物医学电路和系统会议（BioCAS），第298-301页。IEEE，2013。2[28] C. 波施D.Matolin和R.沃尔根南特QVGA 143 db动态范围无帧PWM图像传感器，具有无损像素级视频压缩和时域 CDS 。 IEEE Journal of Solid-State Circuits ， 46（1）：259-275，2011。第1、3条14423[29] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas Pointnet：对点集进行深度学习，用于3D分类和分割。在 IEEE 计算机视觉和模式识别会议（CVPR），2017年7月。三、七[30] Charles R. Qi，Li Yi，Hao Su，and Leonidas J. GuibasPointnet++：度量空间中点集的深度层次特征学习。在第31届神经信息处理系统国际会议论文集，NIPS'17，第5105-5114页，美国，2017年。柯伦股份有限公司二、四、七、八[31] 关川雄介，原康介，斋藤秀夫。Event-net：异步递归事件处理. CoRR，abs/1812.07045，2018。三、八[32] B. 儿子，Y。苏，S。Kim，H.Jung，J.金角，澳-地Shin，K.帕克，K.Lee，J. Park，J.哇，Y。Roh，H.李，Y。王岛，澳-地Ovsian-nikov和H.隆4.1 640480动态视觉传感器，具有9m像素和300meps地址事件表示。2017年IEEE国际固态电路会议（ISSCC），第66-67页，2017年2月。1[33] 孙德庆，斯特凡·罗斯，迈克尔·J·布莱克。光流估计的秘密及其原理。2010年IEEE计算机协会计算机视觉和模式识别会议，第2432-2439页。IEEE，2010。1[34] D.泰达尔迪湾Gallego，E. Mueggler和D.斯卡拉穆扎用动态和有源像素视觉传感器（戴维斯）进行特征检测和跟踪。第二届基于事件的控制、通信和信号处理国际会议（EBCCSP），第1-7页，2016年6月。2[35] Wang Yue，Yongbin Sun，Ziwei Liu，Sanjay E.作者声明：Michael M. Bronstein和Justin M. 所罗门用于点云学习的动态图cnn。ArXiv，abs/1801.07829，2018。4[36] Zonghan Wu ， Shirui Pan ， Fengwen Chen ， GuodongLong，Chengqi Zhang，and Philip S. Yu.图神经网络综述。CoRR，abs/1901.00596，2019。3[37] 放大图片作者： ChengxiYe ， AntonMitrokhin ，CorneliaFermüller，JamesA. Yorke和Yiannis Aloimonos。稀疏事件数据中稠密

下载后可阅读完整内容，剩余1页未读，立即下载