没有合适的资源?快使用搜索试试~ 我知道了~
事件摄像机的异步事件处理方法及快速目标识别
934}{基于图的异步事件处理的快速目标识别Yijin Li,Han Zhou,Bangbang Yang,Ye Zhang,Zhaopeng Cui,Hujun Bao,GuofengZhang*浙江大学CAD CG国家重点实验室†摘要与传统摄像机不同,事件摄像机捕获异步事件流,其中每个事件编码像素位置、触发时间和亮度变化的极性。在本文中,我们介绍了一种新的基于图的框架事件摄像机,即SlideGCN。与最近一些使用事件组作为输入的基于图的方法不同,我们的方法可以有效地逐个事件处理数据,解锁事件数据的低延迟特性,同时仍然在内部保持图的结构。为了快速构建图,我们开发了一个半径搜索算法,该算法更好地利用了事件云的部分正则结构,而不是基于k-d树的通用方法。实验表明,我们的方法降低了计算复杂度高达100倍,相对于当前的基于图的方法,同时保持最先进的性能上的对象识别。此外,我们验证了我们的方法与事件明智的处理的优越性当状态变得稳定时,我们可以给出一个高置信度的预测,从而做出早期识别。1. 介绍快速对象识别对于诸如自动驾驶和飞行无人机的各种应用是必不可少的。例如,当自主车辆高速行驶时,期望低延迟以在障碍物或移动物体出现时由于其低帧速率,标准视频摄像机对于此任务并不理想。高速摄像机可以具有每秒1000帧以上的帧,而它们通常非常昂贵并且信息也是高度冗余的。因此,事件摄像机[3,28,16]最近由于其高时间分辨率和低延迟(均在微秒量级)以及无运动模糊的高动态范围而吸引了更多的关注。与摄像机相比* 通讯作者:张国峰。†电子邮件:eugenelyj,hanzhou,ybbbbt,yezhang509,zhpcui,baohujun,zhangguofeng@zju.edu.cn。除崔兆鹏外,其他作者均隶属于浙江大学-商汤科技三维视觉联合实验室。这项工作得到了中国国家科学基金会的部分支持(No. 61822310和61932003)。图像与特定的帧速率,事件相机是事件驱动的。当某个像素上发生某个亮度变化通过这种方式,他们自然地通过仅测量亮度来丢弃冗余信息。然而,由于事件相机的输出是稀疏异步事件流,因此通常对帧起作用的现有有效方法[15,37因此,大多数作品[11,8,33]在处理之前将此类事件流转换为常规的2D事件帧或3D体素网格。然而,这些数据表示变换丢弃事件数据的稀疏性并量化事件时间戳,这可能掩盖数据的自然不变性。另一种类型的方法直接针对基于事件的数据的稀疏和异步性质而定制。基于时间表面的方法[17,36]和尖峰神经网络(SNN)[27,19,1]是用于逐事件处理的两种主要类别的尽管保持低延迟,但这两种方法在高级别任务中的准确性有限,主要是由于它们对调谐的敏感性和训练过程的难度。为了充分利用事件数据的时空稀疏性,一些最近的方法[41,34,4,22]引入了一种紧凑的图表示,该图表示将事件序列解释为事件云上的图,并采用图卷积网络。虽然这些基于图的方法,例如[4,22],达到最先进的性能,它们依赖于在一定数量的事件或一段时间内它们收集事件组中包含的信息,代价是丢弃事件数据的低延迟特性。基于所有这些观察,在本文中,我们提出了一种新的基于图的递归算法与滑动窗口策略,可以有效地处理流事件的事件然而,将滑动窗口策略应用于基于图的处理和逐事件处理是不平凡的。朴素的滑动窗口策略效率低下,因为它需要处理图中的所有节点,即使有很小的变化,尽管许多节点的特征没有改变。此外,图构造是图神经网络的先决条件,并且通常采用半径搜索[4,22]来确定935节点的连接,这是非常缓慢的。以基于k-d树的搜索为例,频繁的插入和删除会使其不平衡,导致查询性能下降,而重建索引会给插入带来额外的开销。为了解决这些问题,我们首先提出了一种新的增量图卷积,即滑动卷积,它利用卷积的局部空间连通性,并重用以前的计算,以避免处理所有节点。对于单个层,只计算新添加节点周围的特征是相当简单的。对于多层GCN,我们需要解决具有不同图拓扑的层之间的修改特征的传播因此,我们推导出一系列的传播规则。以这种方式,我们降低了计算复杂度高达100倍,与天真的滑动窗口策略相比。此外,考虑到事件位于图像网格(由两个有限且离散的维度组成)而不是一般的3D连续度量空间中,我们引入了一种新的半径搜索算法来搜索事件云的结构,将搜索成本降低了一半,并将插入和删除操作的成本降低到O(1)。逐事件处理的直接应用是早期对象识别,因为当接收到足够的信息时,预测结果变得稳定,并且没有必要处理更多的事件。以往的研究工作要么集中在如何有效地逐事件处理,要么在信息较少的情况下达到一定的准确率,但缺乏早期识别的能力。在本文中,我们进一步应用我们的基于图的递归方法早期对象识别,通过设计一个状态感知模块来预测它是否达到稳定状态。通过这种方式,我们可以尽可能早地有信心地实现准确识别。据我们所知,我们是第一个验证事件处理在早期对象识别中的优越性的人总结起来,本文的贡献如下:• 我们提出了一种新的基于图形的递归算法,使有效的事件明智的处理事件摄像机。• 我们介绍了一种新的增量图形卷积的事件处理。它降低了计算复杂度高达100倍相比,天真的基于滑动窗口的图形卷积。• 我们提出了一个特定于事件的半径搜索算法,减少查询和插入/删除成本,使图的建设速度更快。• 实验表明,我们的有效的事件明智的算法实现了类似的性能与批处理-明智的方法在标准的识别任务,同时启用早期对象识别的信心。2. 相关工作在这里,我们分三个部分回顾基于事件的数据的现有表示:(1)事件特异性表征;(2)事件图像和体素网格;(3)点集与图。事件特定设计。 传统方法设计了事件特定的表示,即时间表面[17],其表现为用最近事件的时间戳形成的2D地图。典型地之后是 作为一个轻量级模型,这种表示可以很容易地随着每个新到达的事件而更新,从而释放事件摄像机的低等待时间优点。时间面已被应用于不同的任务中,基于立体事件的SLAM [44]和图像重建[24]。虽然已经开发了许多变体[36,20],但由于“运动覆盖”问题,它们的性能在高度纹理化的场景[23]为事件摄像机设定的另一种类型的方法采用尖峰神经网络(SNN)[19,25,27,1],其也像事件摄像机一样是生物启发设计的。SNN利用事件数据的稀疏和异步性质,但由于其不可微特性,训练这样的网络是困难的。事件图像和体素网格。这些方法[8,11,33]试图使事件数据与基于帧的技术兼容。较早的方法使用简单的方式(例如,计数事件或累积逐像素极性)以将事件流转换成2D事件帧[9]。这种揭示场景边缘的空间信息的事件帧已经应用于若干任务,例如, 视觉odome-尝试[32],特征跟踪[12]。然而,他们量化的时间戳和丢弃事件数据的稀疏性。为了提高时间分辨率,Zhu等人。[45,40]建议将时间维度离散化为连续的时间仓。它们通过类似于双线性插值的线性加权累积将事件累积到体素网格中。Messikommer等人[21]通过采用稀疏卷积[13]并开发递归卷积公式,进一步利用空间和时间稀疏性。然而,它们的操作仍然是在稀疏卷上。由于3D卷积的昂贵计算成本,他们处理大量的点集和图。Ryad等人[2]通过对事件点云的平面拟合来解决光流估计,这是将事件序列解释为3D点云的早期工作。最近的作品,例如,王等。[41]进一步使用类似PointNet [29,30]框架,其利用多层感知器来分别学习每个点的特征,然后输出对象级响应(例如,分类标签)。对于逐事件处理,Sekikawa等人[34]首先开发一个递归体系结构,即EventNet。具体来说,它是由de-936--联系我们⊗图1. 我们的基于图的异步事件处理框架。 它可以以逐事件方式有效地处理并实现早期对象识别,这主要归功于(b)用于图构造的事件特定半径搜索算法,(c)用于有效逐事件处理的增量图卷积,以及(d)用于对象识别预测的底部分支和顶部分支,即,状态感知模块,预测其是否达到所述稳定状态。使用新颖的时间编码和聚合方案递归地将因果事件的依赖性传递到输出,并且预先计算对应于特定空间坐标和极性的节点特征然而,由于它的近似计算和缺乏层次结构,扩展- ING EventNet到其他高级任务是具有挑战性的。为了更好地利用拓扑结构,[43,4]以时空图的形式解释事件云。特别地,Biet al. [4]表明,这种紧凑的图形表示比传统的CNN需要更少的计算和内存,同时在各种数据集中实现了优于现有技术的结果。Mitrokhin等人[22]示出了捕获大时间间隔上的变化可以解决运动模糊性。然而,如此大的时间间隔将导致非常低的响应频率。基于图的处理的递归公式需要研究,这激发了本文。3. 预赛我们首先介绍如何从事件流构建图。然后我们介绍空间图卷积,这是我们的幻灯片卷积的基础。3.1. 事件图事件摄像机对事件像素的对数亮度信号L(ui,ti)=l 〇gI (ui ,ti )的变化异步地且独立地作出响应[10]。事件在像素ui=(xi,yi)处触发,并且在时间ti处,只要自像素处的最后事件以来的亮度增量达到阈值±C(其中C >0):活动:{事件i}B={xi,yi,ti,pi}B,(2)其中B是事件序列的长度从一个事件流中,我们可以构造一个表示为G=V,E,其中V和E分别表示节点和边。每个事件是事件图中的节点,其包含3D坐标(xi,yi,ti)和节点属性(pi)。还可以移除或包含其他属性,如事件曲面法线。图中节点的连通性通常通过半径邻域图策略来建立。也就是说,只有当相邻节点vi和vj的加权欧几里德距离di,j小于半径距离R时,它们才与边连接。在半径搜索之前,事件云的时间轴被放大一个因子,以保持事件的密度在x、y、t轴上更均匀每条边都有自己的属性eij,该属性通常通过链接节点的相对笛卡尔坐标来为了限制图的大小,每个节点的连通度通常被约束为参数D_max。3.2. 空间图卷积空间图卷积[14,39]通过构建局部邻域图并在连接相邻点对的边缘上应用类似卷积的操作来工作。形式上,它使用由可训练核函数加权的邻域信息为每个顶点聚合新的特征向量。通过使用求和作为聚合操作,可以将其定义为:ΣL(uk,tk)−L(uk,tk−∆t)≥pk C,(1)(fg)(i)=j∈E(i)f(j)hθ,(三)其中p i1,1是亮度变化的极性,Δt是自ui处的最后一个事件以来的时间。异步事件流可以表示为一个序列hθ=hθ(f(i),f(j),eij),其中是图卷积算子,g是核函数,f是节点特征。E(i)是节点i的近邻的集合937Σdeln+1个起来∪V\V,000n+1个n+1个n+1个首先,我们将多层架构中的卷积重写为:fn+1(i)=j∈N(i)fn(j)hθ,其中i∈An+1,(四)图2. 不同层之间修改特征的传播示例。(a)层0中的新活动节点(记为G(0))。活动状态意味着它需要更新。(b)图池化,导致拓扑发生变化。(c)G(1)中的活动节点bor和hθ是确定如何通过利用两个节点特征和边缘属性来聚合特征的函数。4. 方法其中f n和f n+1分别是层n和n +1处的节点特征(层0是输入层)。n+1,即现有集合,表示图中在层n+ 1处的所有现有节点(其将随着不同的滑动窗口而改变 N(i)是存储层n处的哪些节点对层n +1处的节点i有贡献的映射。 这里对于卷积,N(i)是节点i的一跳邻居。当量(4)当然导致冗余计算。我们寻求利用事件流的时间稀疏性,即,一些节点在两个连续的时间保持相同的值ft+1(i)=ft (i)+ ∆n+1(i),受[34,21]的启发,我们开发了一个递归公式n+1个n+1个∆n+1(i)=Σ(ft+1(j)−ft(j))hθ,(5)用于空间图形卷积,即滑动卷积。具体而言,滑动卷积将事件一个接一个地作为输入,并以事件方式响应,同时在内部保持过去图的结构(第4.1节)。为了使图形构造更快,我们开发了一种半径搜索算法,该算法更好地利用了事件云的结构对通用3D连续度量空间(第4.2节)。在第4.3节中,我们将介绍如何将我们的基于图的方法与状态感知模块相结合,应用于早期对象识别。图1概述了所提出的管线。4.1. 幻灯片卷积为了使得空间图卷积(在下文中简称为通过将新事件滑入和滑出事件来连续地更新图,然后在整个图上应用然而,这种方式是不可行的,因为它需要以高事件速率一次又一次地处理整个事件窗口一个简单的方法来改善它将只是计算周围的新的活动或非活动节点(对应于滑入和滑出的事件)的功能但它只适用于单层的情况,而目前的现代建筑通常包含多层n n(j,i)∈En+1最关键的部分是En+1,一组包含所有指向修改节点的边的有向边。如果我们知道En+1,我们就可以计算出t + 1时刻的特征与t时刻相比的变化,即∆n+1,并更新节点特征。注意,对于新的活动节点,它们在时间t的状态是未定义的(对于新的非活动节点类似)。为了区分这些节点,我们将需要更新的节点分为三类:从图中删除的节点,新添加到图中的节点,以及位于这两种类型节点的感受野中的节点我们使用Vdel,Vadd,Vup来表示这三种节点,并根据它指向的节点将E进一步拆分为Edel,Eadd,Eup在时间t+ 1,对于层0,V_add、V_del、V_up分别被E初始化为空集。然后,当层n给定时,我们可以通过简单的集合运算推导出层n+ 1Vadd=Vadd,Vdel=Vdel,n+1n n +1n层,这甚至会导致图形拓扑的变化(Fig.2)的情况。 滑动卷积通过推导解决了这些问题-向上n+1={i|对于i ∈ At\Vn+1,若j∈N(i)∧j∈Vn},设置一系列有助于传播的传播规则Vn+1=Vadd∪Vdel∪V,从输入层到更深层的变化。 以下是At+1 =At添加删除下面将集中于如何导出这些传播规则。n+1个n+1个n+1个n+1个(六)V938n+1个nn+1个起来n+1个n+1个√222t+R−(δx+δy))(记作t)。我们把这些东西拿起来n+1个n+1个n+1个添加t+1图3. 像素队列存储事件,其中每个事件是四元组。球上的数字代表事件的顺序(图改编自[38])。图4. 基于像素队列的两级半径搜索。为了搜索给定半径的事件,我们首先确定图像网格中的候选像素,如(a)所示候选像素被表示deln+1E加={(j,i)|f或i∈Vdel则j∈N(i)∧j∈At+1},={(j,i)|f或i∈V则j∈N(i)∧j∈A},用石灰做的。其次,对于每个像素队列,我们收集下限tbottom和上限tup之间的事件,如(b)所示。n+1个向上n+1n+1n={(j,i)|f或i∈Vup则j∈N(i)∧j∈Vn},En+1=Eadd∪Edel∪E,通常由k-d树(一种空间划分数据结构)n+1个n+1个n+1个(七)用于组织k维空间中的点。然而,我们认为,k-d树不利用事件云的结构更糟糕的由方程式(6)、Vadd和Vdel直接继承自last发生连续的插入和缺失这是因为添加n+1个n+1个树的不平衡会导致层,因为卷积不改变图形拓扑。请注意,每次Vn+1和En+1都是从前一层的状态构建的,因此我们不需要保持它们在前一时刻的状态相反,一个n+1是从前一时刻的状态演化而来的,因此我们需要区分曼斯降解删除也是如此代替k-d树,我们采用像素队列(见图1)。3)存储事件,这是一种特定于事件的数据结构,已在许多作品中使用[38,44,43]。像素不n+1个t+1。 在减少V和E之后,我们还需要队列在每个位置存储最近的事件以增加那些未定义的节点用于计算∆n+1(i)。具体地,我们扩展特征图ft,并且对于Vadd 将ft赋 值为zeros,而对于V del,我们将ft+1赋值为零。现在我们知道如何导出En+1,但我们只能处理卷积。为了扩展到池化操作,我们需要知道相应的邻域集合N(i)。以体素网格池为例。对于位于相同体素(表示为集合S(体素))中的节点,其将被聚类到中心节点。因此,对 于该中心 节点,其 对应的 N( i)是S (体素)。在补充,我们证明,使用Eq。(5)逐个处理事件等效于使用等式(5)。(4)一次处理所有事件。通过这种方式,我们可以用我们的滑动卷积代替空间卷积,利用现有的基于图形的架构来逐个有效地处理事件,而不会牺牲准确性。请注意,尽管我们在上面的公式中使用求和来进行聚合,但只要我们知道En+1如何演变,就可以很容易地用另一种方式来代替求和,例如最大/最小聚合。4.2. 基于像素队列的图构造最近的基于图的事件摄像机的方法定义节点的连通性,在图的基础上的半径邻域图的策略,即半径搜索。是在他们到达的时候。基于像素队列,我们提出了一个两阶段半径搜索算法(见图1)。4).第一步是在图像网格中搜索并过滤出包含我们想要的事件的可didate像素队列。它可以在距离场的帮助下完成,距离场描述了其他像素离锚点像素有多远距离场类似于k-d树中使用的分割技术,但仅需要计算一次。对于查询事件(x0,y0,t0)和半径R,我们可以通过查找预先计算的距离场来确定空间距离小于半径的在第二步中,我们遍历这些候选像素队列。对于具有距查询事件的空间偏移(δx,δy)的候选像素队列,包含在其中的目标事件必须具有下限t0-t1。R2−(δx2+δy2)(记为tbottom)和上界通过使用二元搜索找到t_up和t_bottom的索引来搜索事件。收集所有候选像素队列中的事件给出最终查询结果。我们评估了我们的方法相比,第5.1节的k-d树为基础的方法的性能,并分析了计算复杂性的补充。EE一√9394.3. 状态感知模块随着输入事件和信息的增加,预测结果从某个时刻开始趋于稳定。到这个时候,再处理更多的事件已经没有意义了,系统应该给出一个早期的识别结果。我们在状态感知模块的帮助下实现了这一目标图中的顶部分支1-(d)。具体地说,我们使用了一个多层感知器,即.MLP,以表示将图形特征映射到二进制预测的状态感知函数预测结果是指系统是否达到稳定状态.然后在推理过程中,我们将激活后的值解释为置信度得分。给定预先训练的对象识别分支,我们可以生成用于训练状态感知模块的基础事实标签。一种可能的方法是将预测分析为事件索引的函数。当预测不随事件指数的增加而变化时,我们认为它是稳定的,并将地面真值定义为1,否则,我们将其定义为零。为了简化,我们采用一种近似方法,即,如果预测等于最后事件索引处的预测,则认为预测稳定将地面真相与网络预测进行比较,通过具有Logits损失的二进制交叉熵对于训练数据,我们随机地将序列裁剪为可变长度(从5ms到50ms),并希望它学会预测不同状态下的相应置信度。值得注意的是,当我们训练对象识别分支时,我们不会裁剪序列。5. 实验5.1. 对象识别(1) 数据集和评估指标。基于事件的对象识别是通过输入的事件流来预测对象的类别。我们在四个数据集上验证了我们的方法N-Caltech 101、CIFAR 10-DVS和MNIST-DVS是从标准的基于帧的数据集转换而来的。这是通过在监视器上显示运动图像并用固定的事件摄像机或固定监视器而不是摄像机进行记录来完成的。N-Caltech 101与原始Caltech 101相同,包含8246个样本和101个类别。相反,CIFAR 10-DVS随机选择原始的基于帧的图像数据集的六分之一,因此每类包含6,000个样本,总共包含60,000个样本。MNIST-DVS由从标准MNIST70,000图片数据库中采样的10,000个符号组成,其中10,000个符号中的每一个以三种不同的比例显示,因此总共包含30,000个样本。与前者不同的是,N-Cars是通过使用事件相机直接记录真实世界环境中的对象来创建的。N-Cars包括两个类别标签,即12,336个汽车样本和11,693个非汽车样本(背景)。我们取样一些-从这些数据集中提取序列以在补充材料中可视化。为了评估任务性能和逐个事件处理的潜在能力,我们 考 虑 两 个 度 量 : 预 测 精 度 和 每 秒 浮 点 运 算(FLOPs)。虽然第一个指示的预测的质量,第二个显示的计算复杂性,每个事件更新所需的。(2) 实施详情。我们实现了两个图卷积网络来评估我们的SlideGCN。改编自[4],我们的第一个架构,即NVS,由两部分组成:主干和预测头。主干由4个“GraphConv-ELU-Bn”层组成,其中“GraphConv”将在推理期间被我们的幻灯片卷积替换。预测头包括一个完全连接的层以将特征映射到类。为了减少过拟合,使用概率为0.3在第一个完全连接层之后添加。与原始架构相比,我们用读出函数替换了集群级池化层,该读出函数通过取子图的隐藏表示的最大值/平均值来总结图级表示[42]。第二个架构受[22]的启发,被命名为EvS。根据来自[22]的想法,我们在计算EvS的边时使用两个约束。其中之一是仅保留位于点的上半球(沿着时间轴)中的点,另一个是过滤边缘,使得它们平行于事件表面。这保留了事件的大部分时间运动信息,同时获得较稀疏的边缘。我们还将事件曲面的法线添加到输入。我们使用这两个网络作为我们的基线,然后在评估期间用我们的幻灯片卷积替换它们的卷积层。有关时间间隔和网络深度等参数的更多详细信息,请参阅补充材料。(3) 与最新技术水平的比较 表1将我们的结果与其他最先进的方法进行了比较。所有这些方法都能够逐个事件地处理事件流。由于图结构的有效表达,我们实现的EvS(基线)在具有挑战性的数据集N-Caltech 101和CIFAR 10- DVS上达到了最先进的水平图卷积层被进一 步 替 换 为 我 们 的 幻 灯 片 卷 积 , 即 EvS(SlideGCN),它在不牺牲原始性能的情况下将计算复杂度降低了100倍。另一种方法,即,NVS的性能无法与最先进的技术相提并论,但它是轻量级的,需要更少的计算。我们的方法在特定于事件的低延迟和高性能高延迟方法之间取得了平衡。一方面,它的计算量更少(11.5 vs. N-Caltech 101组202例,33.2 vs. 103在CIFAR10-DVS上)比其他次佳方法更好。另一方面,它在N-Caltech 101上实现了15.6%的高准确度和29.7%的高准确度。940↑ ↓ ↑ ↓ ↑ ↓ ↑↓N-Caltech101 CIFAR10-DVS MNIST-DVS N-Cars方法表示Acc Mps/ev Acc Mps/ev Acc Mps/ev AccMps/ev H-第一[27]尖峰0.054 - 0.077 - 0.595 - 0.561Gabor-SNN [6,36]尖峰0.196 - 0.245 - 0.824 - 0.789-热门[17]时间表面0.210 54.0 0.271 26 0.803 26 0.624 14.0HATS[36]TimeSurface0.6424.30.5240.180.9840.180.9020.03DART[31]时间表面0.664-0.658 0.985--日本语[7]3659--0.961-0.927 三百二十八点一六1120.944 二十一点五表1. 比较不同的物体识别表示法。 我们用颜色将每行标记为最佳、次佳和第三最好的。*-B表示基线,*-S表示SlideGCN。我们的基于图的基线(EvS-B)实现了最先进的性能(即N-Caltech 101上为0.761,CIFAR 10-DVS上为0.680)。用我们的幻灯片卷积代替,计算复杂度降低了两个数量级(1152对1152)。11.5和3020与33.2)。因此,我们的方法(EvS-S)在特定于事件的低延迟和高性能高延迟方法之间取得了平衡。图5. 基于流的对象识别的定性结果。随着事件的累积,准确性提高并稳定。在这个过程中,我们在三个时刻选择了点,它们被红色、绿色和橙色圈起来。在CIFAR 10-DVS上的准确性高于手工制作的和事件特定的方法,即,HATS [36],其具有低水平的计算复杂度。除了计算复杂性,我们定时我们的实验进行N-Caltech 101通过测量处理时间为每个事件更新的i7-9700 K CPU(使用单核)。我们的方法需要16.9ms,而基线需要130.4ms。因此,通过重复使用以前的计算,我们的方法大约快8倍。我们希望我们的方法将显着减少GPU或特定硬件上的运行时间,因为其较低的FLOP数。请参阅我们的补充材料与不能有效处理事件数据的方法进行更多比较。(4) 基 于 像 素 队 列 的 半 径 搜 索 的 效 率 。 我 们 使 用nanoflann [ 5 ]评估了基于像素队列的半径搜索的效率,nanoflann [5]是一种支持动态更新的流行k-d树实现。具体来说,我们使用一个包含100,000个事件的窗口,每次滑动100个事件,然后对新滑动的事件进行半径搜索。我们重复滑动1,000次,并在图中显示插入、删除和搜索的累积成本。六、nanoflann的插入和缺失成本平均比我们的方法高一个数量级,并且[21]第二十一话2020.663 1030.994NVS-B(我们的)图表0.670 221 0.602 6010.9860.986154 0.915 57.9NVS-S(我们的)图表0.6707.80.602EvS-B(我们的)图表0.76111520.680EvS-S(我们的)图22.810.10.9155.2302033.20.9910.991548十五点二0.9310.9312516.1941图6.比较我们的半径搜索方法和基于k-d(使用nanoflann实现)。有时候上升得很快。这是因为nanoflann使用了惰性删除,它不会在删除元素后立即重建索引。重建指数时,成本将有明显的上升。至于搜索,我们的方法减少了一半的时间成本,利用事件云的空间局部性。5.2. 基于流的对象识别方法批量(ms)精度指数100.3623829200.4907611分批300.61511041400.71814771500.76119154SlideGCN12∗0.6693118表2. SlideGCN和批量方法在基于流的对象识别上的比较。12*表示耗时为12 ms,而不是批大小。方法大小累积MFLOPSAvg MFLOPS指数1177115.683118SlideGCN10893628.583127100304195.643170分批-1152-19154表3. 不同小批量的累积MFLOPS。我们设计了基于流的对象识别任务,以验证我们的事件明智的处理的有效性。在这个任务中,我们评估的预测精度时,算法声称它给出了一个可靠的响应。具体来说,我们认为这是一个可靠的结果,我们的事件明智的方法时,我们的状态感知模块提供了一个高的置信度得分。而对于分批方法,我们认为每次处理的置信度等于1。通过这种方式,我们可以同时测量准确性和延迟。(1) 与分批方式的比较 我们使用50毫秒的窗口配置来训练网络。使用相同的网络,我们分别以批次方式和事件方式(通过替换为我们的幻灯片卷积)进行测试。如表2所示,对于分批方式,减小批量大小减少了等待时间,但也导致准确性下降相反,我们的SlideGCN执行接近的准确性(0.669 vs.0.761),但响应要早得多(3118对0.761)。19154的事件指数和12ms与50ms的时间)。在这里,我们分析我们的方法是如何图5我们展示了两种对象的准确性如何随着累积事件而增加。曲线变化是因为对象的纹理丰富度不同。不同类型的运动也会导致差异。因此,为分批方法调整完美的批量大小并不简单。虽然选择较大的批处理大小可以确保高准确性(较大的批处理大小意味着它可以为大多数对象接收足够的信息),但它需要太多的事件作为输入。 相反,选择小批量不能保证为许多对象接收足够的信息,从而导致低精度。与分批方式不同,我们的方法不限于固定的批量大小,并且以事件方式工作结合我们的状态感知模块,它可以处理事件的事件,同时预测置信度得分。一旦它以高置信度检测到稳定状态,我们就可以停止处理以下事件并进行早期识别。(2) 延迟和计算工作量之间的权衡在实际使用中,在等待时间和计算负载之间存在折衷。逐事件处理最大限度地减少了数据的延迟,但它也使计算负载非常大。我们声明我们的方法不限于事件处理,但可以扩展到小批量和批量处理。在表3中,我们比较了具有不同小批量大小的累积MFLOPS(表示为Cum MFLOPS)。该表示出了尽管逐事件方法具有最低的延迟,但是其导致更高的累积FLOP。增加mini-batch大小将减少累积FLOP,但代价是带来更多延迟(极端情况是整个窗口用作批处理)。在实际使用中,我们可以将mini-batch大小设置为100,以实现计算负载和延迟之间的平衡。6. 结论在本文中,我们介绍了一种新的基于图的递归算法的事件摄像机,它能够保持高性能的图卷积网络,以及事件的处理能力。为了实现这一目标,我们提出了一种新的增量卷积方法,显着降低计算复杂度相比,天真的滑动窗口策略。为了加快图的构建速度,我们还利用了事件云的结构,并开发了一个基于像素队列的事件特定半径搜索实验表明,我们的高效的事件明智的算法实现了类似的性能与批量明智的方法在标准的识别任务,同时使早期的对象识别的信心。942×引用[1] 放大图片作者:David J.放大图片创作者:Jeffrey L.放大图片作者:Carmelo di Nolfo,Tapan K.放大图片作者 : Nayak , Alexander Andreopoulos , GuillaumeGarreau , Marcela Mendoza , Jeff Kusnitz , MichaelDeBole , Steven K. Esser , TobiDelbrück, MyronFlickne r ,andDharmendraS. 莫达低功耗、完全基于事件的手势识别系统。IEEE计算机视觉和模式识别会议论文集,第7388IEEE计算机学会,2017年。一、二[2] Ryad Benosman、Charles Clercq、Xavier Lagorce、Sio-Hoi Ieng和Chiara Bartolozzi。基于事件的视觉流。IEEETrans. Neural Networks Learn. 系 统 , 25 ( 2 ) : 407-417,2014. 2[3] Raphael Berner,Christian Brandli,Minhao Yang,Shih-Chii Liu , and Tobi Delbruck.A 240 180 10mw 12uslatency稀疏输出视觉传感器的移动应用。2013年VLSI电路研讨会,C186-C187页IEEE,2013。1[4] Yin Bi , Aaron Chadha , Alhabib Abbas , EirinaBourtsoulatze,and Yiannis Andreopoulos.神经形态视觉传感的基于图形的对象分类。IEEE/CVF计算机视觉国际会议论文集,第491-501页。IEEE,2019。一、三、六[5] Jose Luis Blanco 和 Pranjal Kumar Rai 。 nanoflann :FLANN的一个C++头分支,一个带有kd树的最近邻(NN)库。https://github.com/jlblancoc/nanoflann,2014. 7[6] Alan C.Bovik,Marianna Clark,and Wilson S.盖斯勒使用局部空间滤波器的多通道纹理分析IEEE传输模式分析马赫内特尔,12(1):55-73,1990. 7[7] Marco Cannici 、 Marco Ciccone 、 Andrea Romanoni 和Matteo Matteucci。用于神经形态相机中的对象检测的异步卷积网络在IEEE计算机视觉和模式识别研讨会论文集,第1656-1665页计算机视觉基金会/ IEEE,2019年。7[8] Marco Cannici 、 Marco Ciccone 、 Andrea Romanoni 和Matteo Matteucci。异步基于事件数据的可微递归曲面。在Proceedings of European Conference on ComputerVision , Volume 12365 ofLecture Notes in ComputerScience,pages 136Springer,2020年。一、二[9] Matthew Cook , Luca Gugelmann , Florian Jug ,Christoph Krautz和Angelika Steger。交互式地图用于快速 视 觉 解 释 。 在 Proceedings of International JointConference on Neural Networks , 第 770-776 页 中 。IEEE,2011年。2[10] Guil l ermoGall e go , TobiDelbrück, GarrickOrchard , ChiaraBartolozzi , BrianTaba , Andrea Censi , StefanLeutenegger , Andr e wJ. Da vison , Jo¨r gConradt ,KostasDaniilidis,andDa-vide Scaramuzza.基于事件的愿景:一个调查。CoRR,abs/1904.08405,2019。3[11] 放大图片作者:Daniel Gehrig,Antonio Loquercio,Konstantinos G.德尔帕尼斯和大卫·斯卡拉穆扎。异步基于事件的数据的表示的端到端学习。在IEEE/CVF计算机视觉国际会议论文集,第5632-5642页中。IEEE,2019。一、二943[12] Daniel Gehrig,Henri Rebecq,Guillermo Gallego,and Da- vide Scaramuzza. EKLT:使用事件和帧的异步光度特征跟踪。国际计算机目视,128(3):601-618,2020. 2[13] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。IEEE计算机视觉和模式识别会议论文集,第9224-9232页。IEEE计算机学会,2018年。2[14] William L. Hamilton , Zhitao Ying , and JureLeskovec.大图上的归纳表示学习。在Proceedings ofNeural Information Processing Systems,第10243[15] Andrew G. Howard , Menglong Zhu , Bo Chen ,DmitryKalenichenko , WeijunWang , TobiasWeyand , Marco An- dreetto , and Hartwig Adam.Mobilenets:用于移动视觉应用的高效卷积神经网络CoRR,abs/1704.04861,2017。1[16] Giacomo Indiveri神经形态工程在Springer Handbookof Computational Intelligence,Springer Handbooks,第715-725页中。施普林格,2015年。1[17] 放大图片作者:J. Shi和Ryad Benosman。HOTS:用于模式识别的基于事件的时间表面的层次结构。IEEE传输模式分析马赫内特尔,39(7):1346-1359,2017. 一、二、七[18] Hongmin Li ,Hanchao Liu ,Xiangyang Ji, GuoqiLi,and Luping Shi. Cifar10-dvs:用于对象分类的事件流 数据集。 Frontiers in Neuroscience, 11:309,2017. 6[19] Qianhui Liu , Haibo Ruan , Dong Xing , HuajinTang,and Gang Pan.在脉冲神经网络中使用分段概率最大化学习的有效
下载后可阅读完整内容,剩余1页未读,立即下载


















安全验证
文档复制为VIP权益,开通VIP直接复制
