低功耗、事件驱动手势识别系统

188 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17243一种低功耗、完全基于事件的手势识别系统Arnon Amir、Brian Taba、David Berg、Timothy Melano、Jeffrey McKinstry、CarmeloDi Nolfo、Tapan Nayak、Alexander Andreopoulos、Guillaume Garreau、MarcelaMendoza†、Jeff Kusnitz、Michael Debole、Steve Esser、Tobi Delbruck、Myron Flickner和Dharmendra ModhaIBM研究{arnon，dmodha}@us.ibm.com†加州大学圣地亚哥分校苏黎世联邦理工学院&iniLabs GmbHtobi@ini.uzh.ch摘要我们提出了第一个手势识别系统，实现端到端的基于事件的硬件，使用TrueNorth神经突触处理器，以识别手的手势，实时在低功耗从事件流实时动态视觉传感器（DVS）。受生物启发的DVS仅在像素检测到变化时才传输数据，不像传统的基于帧的相机以固定的帧速率对每个像素进行采样。这种稀疏、异步的数据表示方式使基于事件的摄像机能够以比基于帧的摄像机低得多的功率然而，大部分的能源效率损失，如果在以前的工作中，事件流是由传统的同步处理器，sors解释。在这里，我们第一次使用TrueNorth处理实时DVS事件流，TrueNorth是一种具有100万个尖峰神经元的基于事件的处理器。TrueNorth芯片在这里配置为卷积神经网络（CNN），识别手势的开始，延迟为105ms，功耗低于200mW。美国有线电视新闻网达到96。在新收集的DVS数据集（DvsGesture）上的样本外准确度为5%，该数据集包括在3种照明条件下来自29名受试者的11个手势类别。1. 介绍由眼睛和大脑使用的基于事件的计算值得注意的是，尽管与硅晶体管相比，生物神经元和突触的速度较慢，但生物系统仍然比传统计算机更快地以更低的功率解决复杂的视觉问题，利用并行、分布式、基于事件的计算在实时、资源受限的环境中有效地操作。基于帧的计算设备的主要示例是数码相机，其以预定帧速率重复地扫描出其整个像素阵列，而与场景中实际观察到的任何活动无关。基于框架的相机有两个主要缺点。首先，相机其次，连续视频帧是高度冗余的，并且冗余数据的获取浪费了相机本身和任何下游设备中的大量资源，因为能量和带宽要求由数据传输速率驱动[36]。基于事件的相机通过每当像素检测到亮度变化时发送异步事件来模仿生物视网膜，从而消除冗余数据传输[2，36，22]。数据传输速率可以从观察静态场景时的非常少的事件变化到场景的大部分改变时的许多事件，从而允许能量和带宽消耗随着实际需求动态地缩放。高时间分辨率是一种有效的采样率，只有具有更高能量和带宽要求的高速帧基相机才能与之匹配。相对于标准相机，基于事件的相机还具有非常高的动态范围。基于事件的传感器的优点是稀释，如果他们的事件流必须投回同步帧的利益，传统的处理器下游。传统的处理器，如CPU和GPU，在处理密集的、同步传递的数据结构时是有效的，而不是稀疏的、异步的事件流。通过保持指令和数据流水线尽可能满，即使以在不变的数据上执行冗余计算为代价，也可以保持吞吐量[7]。最近，出现了新一代基于事件的原生神经形态处理器，可以直接对传感器事件流进行操作[11]。这些众核系统在大规模并行、低功耗硬件中实例化了大量尖峰神经元，并继承了基于事件的传感器的所有优点，如高效、数据传输、17244驱动资源消耗。处理延迟可能与通过最长神经元链的事件传播时间一样快，因此在这些系统上运行的神经网络可以在几十毫秒内对刺激做出反应，速度快到足以实时识别手势等快速动作。实时手势识别是一个非常适合基于事件计算的实际问题。手势在视觉认知中无处不在，在所有年龄和文化中普遍存在于身体语言中，并与言语交际紧密结合[16]。手势在跨越手语识别、虚拟操纵、日常辅助、游戏和人机交互的应用中被积极地用于人机交互[6]。低延迟是手势识别系统中的一个重要因素，因为感知平滑的交互要求系统在100 - 200ms内响应[3，25]，允许30 fps相机系统仅运行几帧。传统的相机可能遭受各种运动相关的伪影（mo-related artifact）。模糊、滚动快门等）这可能影响快速手势的性能。照明条件构成了另一个混淆变量，并且通常通过融合来自不同感测模态的数据来解决[32]，从而增加功耗。本文提出的系统为这些问题提供了解决方案。本文描述了一个低功耗、实时、基于事件的手势识别系统。来自动态视觉传感器（DVS）[22]的事件被传递到运行在 TrueNorth 上的深度卷积神经网络（CNN）-一种异步，低功耗，基于事件的神经形态处理器[24]，其在移动GPU [29]上实现了显著的功率和速度优势。TrueNorth输出事件指示识别的手势，产生1000个分类从手势开始的平均延迟为105 ms本文的贡献是双重的。首先，手势识别系统在基于事件的硬件上实现，该基于事件的硬件实时地对实况事件流进行操作。其次，一个新的手势数据集收集与基于事件的相机。2. 相关工作实时姿势识别系统在用于姿势分类和定位的硬件和算法[35]提供了最近对基于RGB和RGB-D的手势识别算法的回顾非基于事件的姿势和动作识别系统依赖于手工特征或学习特征。手工特征提取由特征检测阶段和特征描述阶段组成[46]。时空特征检测器，如Harris3D [19]，Cuboid [8]和Hessian3D [45]通常用于局部化感兴趣的视频关键点，从中提取特征描述符[38，17，43，34]。但一般图1：设置图片。DVS 128摄像机使用USB电缆连接到NS1e板。该板具有电源线和以太网电缆。承认没有单一的最佳手工制作功能[44]。卷积神经网络（CNN）已经成功地应用于手势识别和定位[27，32，18，40，14]，递归神经网络网络[28]。多模态系统[46，31，33，15]也被用于提高性能。低功耗手势识别系统的工作集中在开发节能相机或[5]通过降低帧速率并将传感器置于待机模式以降低功耗要求，实现了实时低功耗手势识别系统。这样的努力集中于减少用于基于帧的手势识别的能量，但是这些系统面临延迟-功率权衡，其中手势交互所需的低延迟只能通过持续消耗更高功率的高采样率来实现虽然有大量关于手势识别的工作，包括许多实时系统[26，47，30]，以及越来越多关于基于事件的传感器（如DAVIS[2]， ATIS[36]和DVS[22]）的出版物，但两者交叉的工作很少。[20]是第一个展示具有动态视觉传感器（DVS）的基于事件的手势识别系统，并展示具有泄漏积分和激发神经元（LIF）的后处理步骤，尽管该系统可以在性能和可扩展性方面进一步改进。基于事件的SpiNNaker处理器已被用于在预先记录的DVS事件上运行5层CNN以识别扑克牌[39]，但我们不知道将基于事件的传感器与基于事件的处理器相结合以实时执行手势识别的3. 基于事件的硬件我们的基于事件的手势识别系统使用两种设备：DVS128摄像机用于生成输入事件，以及TrueNorth处理器用于检查输入事件流17245图2：本文中描述的系统对最后一行中显示的数据进行操作。基于帧和基于事件的相机输出，用于大圆圈手势。上图：以30 fps拍摄的24位RGB视频帧。注意运动模糊。中间：随时间推移的正（洋红色）和负（青色）DVS事件。红色阴影平面表示采样帧的时间。注意，与RGB帧相比，DVS事件的密集采样。底部：4 ms DVS事件数据显示为1 ms图像切片。第一图像与第一RGB视频帧对准。用于识别手势。在这里，TrueNorth处理器托管在NS1e开发板上，该开发板通过USB 2.0接收来自DVS128的输入事件，并通过以太网将输出事件发送到笔记本电脑以进行可视化（图1）。①的人。3.1. DVS 128摄像机iniLabs DVS 128摄像头是一款128×128像素动态视觉传感器，仅当像素值的幅度变化达到用户可调阈值时才会生成事件[21，22]（本工作使用cAER配置软件提供的默认设置[23]）。每个事件对报告变化的像素的空间坐标和指示该变化何时发生的时间戳进行编码。该设备，副提供了一个高动态范围（120分贝）和一个典型的和最大的100 K和1 M事件/秒的事件率。3.2. TrueNorth处理器IBM TrueNorth芯片是一种可重新配置的非冯·诺依曼处理器，包含100万个尖峰神经元和2.56亿个突触，分布在4096个并行、事件驱动的神经突触核心上[24]。内核平铺在64×64阵列中，嵌入完全异步片上网络。在正常的工作负载下，该芯片consumes 70毫瓦时，在1毫秒计算滴答。每个神经突触核心使用256×256突触的交叉将256个输入连接到256个神经元，通信结构图3：TrueNorth架构。神经突触核心使用突触交叉杆将输入连接到神经元。异步通信结构在核之间路由事件。2位的重量精度。一个神经元状态变量称为膜电位集成突触加权输入事件与一个可选的泄漏衰减。神经元可以被配置为在膜电位超过阈值时确定性地产生输出事件;或随机，具有与膜电位和其阈值之间的差相关的伪随机概率[4]。每个神经元可以将输出事件发送到阵列中的恰好一个核，其中它们可以经由突触交叉杆递送到核的任何或所有每个内核输入都有一个延迟缓冲器，在将传入事件释放到纵横开关之前，可以缓存多达15个时钟。TrueNorth的算法必须满足架构所施加的约束-神经元输出二进制事件，而不是连续值;突触具有低精度，而不是高精度;连接是核心到核心的，而不是全部到全部的。TrueNorth程序是用Corelet编程语言编写的，Corelet编程语言是一种在MATLAB中实现的分层、组合、面向对象的语言[1]。3.3. NS1e开发板NS1e开发板是一个模块化的紧凑型平台，用于使用单个 TrueNorth 处理器进行移动嵌入式应用开发TrueNorth芯片占电路板功耗的6%左右，神经突触核心树突突触横杆缓冲缓冲液轴突缓冲PRNG神经元17246布里尔通常约为2或3 W。电路板的面积为125×69mm2，重量为98 g。Xilinx Zynq Z-7020片上系统提供TrueNorth芯片与各种板载传感器和连接器之间的接口。两个ARM Cortex-A9 内核运行 Linux 操作系统和软件堆栈，用于TrueNorth和标准接口（包括USB和以太网）之间的流事件FPGA结构处理数据转换和地址转换。虽然没有在这项工作中使用，NS1e包括连接器，支持直接，引脚到引脚访问TrueNorth芯片，这允许一个基于事件的传感器，如DVS流事件直接进入TrueNorth，完全绕过Zynq SoC。4. TrueNorth上的手势识别我们的手势识别算法完全在TrueNorth上运行，有四个主要组件（图1）。4）. 首先，时间滤波器级联捕获DVS事件流的快照序列。其次，将串联快照作为输入特征呈现给使用GPU加速离线训练的卷积层堆栈。第三，赢家通吃解码器识别具有来自最终卷积层的最高响应的手势最后，通过滑动窗口过滤器清理瞬时手势分类的结果流。本节中描述的整个软件工作流程（包括源代码）已作为参考示例发布，包含在TrueNorth开发人员工具包中。4.1. 时间滤波器级联为了捕获编码手势身份所需的序列信息，K个延迟时间滤波器的级联在DVS事件进入TrueNorth时收集DVS事件的序列。第一个过滤器输出延迟一个tick的事件流，并创建其输入的第二个副本，该副本被传递到级联中的下一个过滤器。每个后续过滤器将其传入事件缓存在延迟缓冲器中，延迟缓冲器连接到核心的256个输入轴突中的每一个4.2. 卷积层卷积神经网络（CNN）是一种多层前馈网络，其各层是共同执行输入或前一层卷积滤波的神经元（图1）。（五）。层内的神经元被布置在两个空间维度（对应于卷积滤波器中的移位）和一个特征维度（对应于不同滤波器）中。CNNs使用节能深度网络（Eedn）算法[9]映射到TrueNorth，该算法使用MatConvNet库在MATLAB中实现，以实现GPU加速训练[42]。Eedn算法通过将网络精度限制为二进制神经元输出和三进制权重来{-1，0，1}，并通过限制神经元扇入和扇出。1. 二进制神经元输出：Eedn使用二进制阶跃函数，而不是产生多值神经元输出的标准校正线性单元（ReLU）激活函数，该函数可由TrueNorth神经元作为具有整数偏置的阈值逻辑单元来阶跃函数的导数是一个δ函数，它不像反向传播所要求的那样是有限的，因此它可以用三角函数来最大值（0，1−）|R|其中r是滤波器响应，y是神经元输出。在训练期间，使用批量归一化[13]计算过滤器输出，批量归一化参数滚入神经元阈值进行部署。2. 三重权重：使用标准反向传播算法的自适应离线训练三重权重w在正向和反向传播过程中使用三进制权重然而，结果权重更新被应用于高精度代理权重的阴影网络。通过滞后舍入其相应的阴影权重来更新三进制权重：如果wh（t）≤ −0，则为−1。5−h，每级延迟16个滴答，总计1+16（K−1）ms。所有K个过滤器的输出事件流被连接到w（t）=100如果|W（吨）|≤ 0。5−h形成第一卷积层的输入特征。这些过滤器中的神经元被配置为随机生成事件，使用恒定泄漏随时间线性衰减膜电位使用随机衰减使得滤波器输出事件的速率（或概率）与自在滤波器输入处接收到对应事件以来的时间随着时间的流逝，这种时间滤波器级联可以与堆叠帧进行比较，以创建CNN的时空输入，例如[14]或[10]中的时间通道，尽管对于帧，时间历史通常不会随机衰减。如果wh（t）≥0，则为5+h，w（t−1）否则，其中h是设置为0.1的滞后参数。3. 神经元扇入：组约束用于适应每个神经元128个输入的有限扇入约束（而TrueNorth允许每个神经元256个输入，每个突触使用两个输入以允许三进制权重）。具体地，在使用G个组的层中，每个神经元仅从源层中的N个特征中的N/G个特征接收连接例如，具有1×1内核的卷积层接收H17247图4：显示4096个TrueNorth核中有多少个被分配给每个组件的系统框图（对于其中一个实验）;由表1中描述的CNN的a）DVS，b）时间滤波器级联和c-g）层1，3，8，12和15输出的瞬时事件映射的示例;以及对应于11个手势类别的事件的直方图。后h）最终卷积层，i）赢家通吃解码器，以及j）滑动窗口滤波器。所有事件均取自相同的1 ms滴答。图5：卷积网络的两层，其中每一层是应用于前一层的滤波器输出的行×列×特征集合。每个输出神经元在其源层中具有拓扑对准的滤波器支持区域。相邻特征的感受野在源层中移动了步幅一个层可以沿着特征维度分成多个组，其中每个组都有一个过滤器支持区域，该区域覆盖源层中的一组不同的特征。突出显示两个组（绿色、蓝色）。源层中256个要素的输入必须使用2个组，以便将扇入减少到1×1 ×256/2=每个神经元128个输入。(The蓝绿神经元在图5中是在两个不同的组中。4. 神经元扇出：TrueNorth神经元可以瞄准单个核心。因此，神经元副本用于为权重表示方案提供多个神经元输出，并且其中滤波器重叠需要以多个核为目标。复制神经元的方法是在其核心上使用自由神经元复制其参数，或者在其他核心上使用分裂神经元。特征图中给定行和列处的层中的每组神经元（即，图5中的层n + 1中相同颜色的框）被映射到单独的TrueNorth核心。每个核心可以从给定特征图中的一个位置计算多达256个特征。尽管存在这些限制，但在TrueNorth上运行的Eedn网络在8个图像和音频数据集上的分类精度接近最先进水平，同时实现了每秒1200-2600帧的峰值吞吐量，并且仅消耗25-275 mW [9]。172484.3. 赢家拿走所有解码器赢家通吃（WTA）解码器基于最终卷积层输出的总体代码创建单个几何预测，最终卷积层包含每个类别的输出神经元组。一个类的强度由其神经元在一次滴答中输出的尖峰数量决定。解码器是一个预先配置的神经网络，其中最大值类神经元抑制所有较小值的输入，只有最强的类生存作为赢家输出。4.4. 滑动窗口滤波器滑动窗口滤波器平滑瞬时手势分类的流，该瞬时手势分类由赢家通吃解码器每毫秒产生。使用80 ms的窗口，滑动窗口滤波器将来自解码器的样本外分类准确率从91.77%提高到94.59%。过滤效果如图6所示。对于每个类别，过滤器独立地对窗口内观察到的分类事件的数量进行计数（最多80个），如果计数超过用户定义的阈值，则会出现峰值通过使用等于窗口大小的50%的阈值，最多一个类可以尖峰。这样的滤波器使用每个类8个neu-rons（一个核心用于所有类）来实现。滑动窗口滤波器增加了40 ms的系统延迟，但在确定手势的开始和结束时间时保留了1 ms的时间分辨率。较短的窗口产生甚至更低的延迟，但可能损害分类准确性。图 6 ：赢家通吃输出（ WTA）和滑动窗口过滤器（SW），显示了在87214个滴答（毫秒）上检测到的11个手势的样本外分类序列在WTA和WTA都可以产生多达一个分类每滴答，并在这种情况下，产生类似的分类，75535和73133，分别。值得注意的是，该算法的输出精度提高了约2-4%。5. 实验5.1. 数据集集合近年来已经创建了大量的手势数据集，如[37]中所全面回顾的。这些数据集中的大多数将主体放置在离单个传感器（例如Kinect、Wiimote、立体相机或常规彩色相机）固定距离处，该传感器因此，Hu等人[12]报告了对DVS数据集的迫切需求，以便推进基于事件的计算机视觉的研究。他们通过记录指向显示数据的屏幕的DVS摄像机的输出，将四个基于帧的数据集转换为基于事件的表示。然而，如[41]中所述，直接指向场景的DVS相机产生的微秒时间分辨率不能从数十毫秒帧中重新产生，并且转换的数据还包含额外的不期望的伪影。由于用于手势识别的唯一现存DVS数据集不足以可靠地训练CNN[20]，我们使用DVS 128创建了一个新的手势数据集，其中包括带时间戳的DVS128事件文件，来自安装在DVS旁边的网络摄像头的RGB视频，以及带有手势标签和开始和停止时间的地面实况文件。DvsGesture数据集包括一组11个手部和手臂姿势的1,342个实例（图1A）。7），在3种不同光照条件下从29名受试者收集的122项试验中分组。在每次试验期间，一个受试者站在静止的背景上，并在相同的照明条件下依次执行所有11个手势。手势包括挥手（双臂）、大直臂旋转（双臂，顺时针和逆时针）、前臂滚动（向前和向后）、空气吉他、空气鼓和受试者发明的这3种照明条件是自然光、荧光灯和LED灯的组合，选择这些照明条件是为了控制DVS 128上的阴影和荧光灯闪烁每个手势持续约6秒。为了评估分类器的性能，23个主题被设计为训练集，其余6个主题被保留用于样本外验证。该数据集可在 http://research.ibm.com/dvsgesture/ 上获得。5.2. 分类器训练为了在适当的信号上训练卷积层，我们首先通过将原始DVS事件馈送通过相同的时间滤波器级联来预处理数据集，该时间滤波器级联在运行时期间对CNN的输入进行整形。过滤器输出事件被写入Lightning内存映射数据库（LMDB），这是许多深度学习框架首选的高性能数据库格式。我们使用Eedn算法的GPU加速实现在预处理数据上训练CNN。网络结构（表1）是根据最佳17249图7：上图：本实验中使用的手势的24位RGB视频帧从左到右的手势是手波，大圆圈，手角色，空气吉他，空气鼓。对于紧凑性，对于手波和大圆，只显示一只手，对于大圆，只显示一个方向。底部：通过在与每个RGB视频帧的开始对齐的5 ms窗口上叠加尖峰创建的DVS地图大小壮举- 乌列什内核串，串de垫组64×646131×31123×3201214×142524×4202314×142561×110247×72562×220257×75123×3113267×75121×110477×75121×110487×75121×110493×35122×22016103×310243×31164113×30241×1108123×310241×1108131×110242×22032141×110241×1108151×19681×1108161×126401×1108表1：手势识别系统的CNN规范。所有网络层都是卷积层。单芯片网络[9]。我们训练了250，000次迭代，批量大小为256，使用标准的学习算法，如动量（0.9），权重衰减（10−7）和递减学习率（在200，000和225，000次迭代的训练中，初始速率20除以10两次我们使用0.0001作为Eedn参数，称为尖峰稀疏度，它作为正则化器，鼓励训练后的网络产生更少的输出尖峰，从而节省能量。为了提高准确性，我们通过从较大的图像中随机裁剪64×64区域来增强训练数据，这些图像是通过使用8像素宽的边界区域对图像进行零填充而创建的。5.3. 功率测量为了测量TrueNorth上运行的手势识别网络所消耗的功率，我们运行网络在一个单独的NS1t测试和表征板上，该板具有专用电路来测量TrueNorth芯片的功耗。功率测量以62.5kHz采样，并在包含完整手势的三秒DVS事件序列上取平均值。电路板的工作电源电压为1. 0伏。总网络功率是泄漏功率和有功功率之和，泄漏功率是通过将测量的空闲功率按正在使用的芯片内核的分数进行缩放来计算的，5.4. 准确度结果来自9个不同训练实验的结果示于表2中。我们采用了CNN结构和所有训练元参数，没有修改[9]，并探索了数据集预处理的影响，改变输入图像采样（32×32，42×42和64×64），并通过向时间滤波器级联添加阶段或增加每个阶段的衰减周期来延长每个样本的时间足迹。我们还比较了增强数据集与空间平移高达八分之一的图像大小的效果。对于每个实验，我们记录了CNN的训练和测试准确度，有和没有“其他”cat-egory的系统的测试准确度实验E1的系统具有最高的准确性，10类测试得分为96.49%，而功耗仅为178.8mW。滑动窗口过滤器比原始赢家通吃输出提高了近5%的分数通过空间平移帧来增强数据集，将分类器准确度提高了约1.5%（E1 vsE2）。在实验E4中，与实验E1相比，我们减少了输入中的时间延迟通道的数量。六个延迟通道给出了15 ms的更好结果17250Exper-例中输入宽×高级联滤波器滤波器持续时间（滴答声）增强（像素）CNN列车acc.CNN试验符合性系统acc.11只猫。系统acc.十只猫。神经-突触核心TN泄漏MWTN活性MWTN总MWE164×64632893.0691.7794.5996.493838134.344.5178.8E264×64632098.5390.2992.2393.533838134.344.5178.8E332×32632486.1688.0790.7892.593459122.546.5169.0E464×64432889.9890.6993.4495.253625127.045.0172.1E542×42632590.0184.5990.5991.463968140.255.6195.8E664×64664894.5888.2990.5792.173951138.744.2182.9E742×42664585.1683.7486.4987.62193668.819.788.5E864×64685592.9588.4990.7692.243951139.037.2176.2E964×646128894.5591.1093.1594.813951142.849.7192.5表2：分类器参数探索。准确度报告单位为千分之一。每个网络都适合单个TrueNorth芯片（4096个核心）。这里使用的连续通道之间的延迟我们进行了下采样实验，以了解空间分辨率如何使用最大图像尺寸（64×64）获得最佳结果。32×32的图像导致大约相同大小的网络下降4%。E5中的42×42输入精度最低，可能是由于网络架构的差异。E7在第1层和第9层的步幅为1，将网络大小和能量减少了一半，但在所有实验中准确率最低。最后，滤波器持续时间的实验表明，衰减32个滴答（E1）在探索的值中产生最佳准确度，E6、E8和E9分别衰减64、85和128个滴答，衰减2-4%5.5. 延迟测量在系统E1上测量延迟对于该测量，我们通过移除手势之间的所有未标记事件来对齐注释和尖峰测试数据，就好像用户运动仅发生在手势期间一样。检测手势的开始的等待时间被定义为Tstart（i）= tdet（i）-tstart（i），其中tstart（i）是来自第i个手势的事件出现在输入流中的第一个滴答，并且tdet（i）是手势类别在输出流中被正确识别的第一个滴答。搜索仅限于一个狭窄的时间窗口，从tstart（i）+1到tstart（i）+217ticks，代表事件可以通过网络“旅行”的最长时间如果在该窗口内没有正确的检测，则认为错过手势开始。类似的过程也适用于手机端。在所有25个测试序列中的所有10个手势上，检测手势的开始和结束的平均延迟一百零四6 ms（14次未命中）和120。6 ms（13次未命中）。 16 ms的差异可能是由于文件-ter5.6. 实时系统该系统部署了一个实时视频饲料的识别手势在计算机屏幕上。该系统响应速度非常快，在大多数情况下会立即检测到手势。手势识别系统实时操作的视频可以在补充信息中找到。6. 讨论本文中报告的工作将DVS相机与TrueNorth处理器相结合，以创建端到端的基于事件的手势识别系统。利用深度卷积神经网络的最新进展，它以1000 Hz的频率处理和分类学习的手势，具有高准确性（96.49%），低延迟（105 ms）和低功耗（178. 8mW），使用具有低精度权重的尖峰神经网络，完全在TrueNorth处理器上运行。这种同质的计算神经形态基底与几何识别中的许多其他工作形成对比，后者通常在分类器（基于CNN或其他）之前利用基于帧的传感器和多个处理阶段，例如过滤、分割、跟踪、3D模型等。这一观察表明，这种识别任务可能需要比传统系统少得多的数据和处理。7. 致谢作者感谢所有参与Dvs- Gesture数据集收集的这项研究由DARPA赞助，合同号：HR0011-09-C-0002。本文所包含的观点和结论是作者的观点和结论，不应被解释为代表DARPA或美国政府的17251引用[1] A. Amir ，P. Datta ， W. P. 风险，A. S. 卡西迪，J.A.Kusnitz，S. K. Esser，A. Andreopoulos，T. M.黄，M。弗利克纳河Alvarez-Icaza等人认知计算程序-明范式：一种用于组成神经突触核心网络的核心语言。神经网络（IJCNN），2013年国际联合会议，第1-10页。IEEE，2013。[2] C.布兰德利河伯纳M.杨，S.- C. Liu和T. 德尔布鲁克240× 180 130 db 3µ s延迟全局快门时空视觉传感器。IEEE Journal of Solid-State Circuits，49（10）：2333[3] S. K. 卡德，G.G. Robertson和J.D. 麦金莱信息可视化工具，一个信息工作空间。在SIGCHI计算机系统中人为因素会议记录中，第181-186页ACM，1991年。[4] A. S. 作者： J. V. Arthur ， S. K. 埃塞尔湾积逊河。Alvarez-Icaza，P. Datta，J. Sawada，T. M. 王V. Feldman等人认知计算构建块：神经突触核心的通用高效数字神经元模型。神经网络（IJCNN），2013年国际联合会议，第1-10页。IEEE，2013。[5] M. Chandra和B.拉尔低功耗手势识别系统使用皮肤统计的消费者应用。2016年IEEE消费电子国际会议-台湾（ICCE-TW），第1-2页。IEEE，2016.[6] H.成湖，澳-地Yang和Z.刘某三维手势识别研究综述。IEEE Transactions on Circuits and Systems for VideoTechnology，26（9）：1659[7] S.切特卢尔角Woolley，P. Vandermersch，J. Cohen，J.特兰B. Catanzaro和E.谢尔哈默cudnn：高效的深度学习原语arXiv预印本arXiv：1410.0759，2014。[8] P. 多尔，维。拉博湾 Cottrell和S. 贝隆吉通过稀疏时空特征进行分类或识别。2005年IEEE视觉监视和跟踪监视性能评估国际研讨会，第65-72页。IEEE，2005年。[9] S. K. 埃塞尔山口A. Merolla，J.诉Arthur，A.S. 卡西迪河Ap- puswamy，A. Andreopoulos，D. J. Berg，J. L. 麦肯锡T. Melano，D.R. 巴奇角di Nolfo，P.达塔A.阿米尔B. Taba，M. D. Flickner和D. S.莫达用于快速、节能神经形态计算的卷积网络。美国国家科学院院刊，113（41）：11441[10] C. Feichtenhofer、A. Pinz和A.齐瑟曼。用于视频动作识别的卷积双流网络融合。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[11] S. 费伯大规模神经形态计算系统。Journal of Neural Engineering，13（5）：051001，2016.[12] Y. Hu，H.Liu，M.Pfeiffer和T.德尔布鲁克用于对象跟踪、动作识别和对象识别的基准数据集。Frontiers inNeuroscience，10，2016.[13] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集，第448-456页，2015年[14] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE transactions on pattern analysis andmachine intelligence，35（1）：221[15] S. E.卡胡角X-ray，X. Bouthillier，P.弗鲁门蒂居尔茨赫雷河 Memis e vic，P. Vincent，A. 库尔维尔Y 本吉奥河C.Ferrari等人结合特定于模态的深度神经网络用于视频中的情感识别。在第15届ACM国际多模态交互会议的会议纪要中，第543-550页。ACM，2013年。[16] S. D.凯利，S。M. Manning和S.罗达克手势有助于语言和学习：认知神经科学、发展心理学和教育的观点。Language and Linguistics Compass，2（4）：569[17] A. Klaser，M. Marszaek和C.施密特一种基于三维梯度的时空描述子。在BMVC 2008-第19届英国机器视觉会议上，第275-1页。英国机器视觉协会，2008年。[18] O. Koller，H. Ney和R.鲍登Deep Hand：How to Train aCNN on 100万hand images when your data is continuousand weakly labeled.在IEEE计算机协会计算机视觉和模式识别集，第3793亚琛莱茵威斯特伐利亚技术学院，亚琛，德国，2016年。[19] I.拉普捷夫关于时空兴趣点。国际计算机视觉杂志，64（2-3）：107[20] J. H.李，T.德尔布鲁克湾Pfeiffer，P. K. 帕克角，澳-地W.申，H. Ryu和B. C.康基于立体硅视网膜事件驱动处理的 IEEE transactions on neural networks and learningsystems，25（12）：2250[21] P. Lichtsteiner，C. Posch和T.德尔布鲁克128 x 128 120db30mw异步视觉传感器，响应相对强度变化。2006年IEEE国际固态电路会议-技术论文摘要，第2060[22] P. Lichtsteiner，C. Posch和T.德尔布鲁克128 x 128 120db15µ s延迟异步时间对比视觉传感器。IEEE Journal ofSolid-State Circuits，43（2）：566[23] L. Longinotti和C. 布兰德利。CAER：嵌入式系统上基于事件处理的框架：学士论文Institutfur ？rInformatik，2014.[24]P. A. Merolla，J.诉阿瑟河Alvarez-Icaza，A.S. 卡西迪J. Sawada，F.阿科皮扬湾L. Jackson，N.伊玛目角郭、Y. Nakamura等人百万个尖峰神经元集成电路，具有可扩展的通信网络和接口。Science，345（6197）：668[25] R. B. 米勒人机对话事务的响应时间1968年12月9日至11日，秋季联合计算机会议，第一，第267ACM，1968年。[26] S. Mitra和 T. 阿查里亚手势识别：一个调查。 IEEETransactions on Systems，Man，and Cybernetics，Part C（Applications and Reviews），37（3）：311[27] P. Molchanov，S.古普塔角Kim和J.考茨基于3d卷积神经网络的手势在Pro-17252IEEE计算机视觉和模式识别研讨会的会议，第1-7页[28] P. Molchanov，X. Yang，S.古普塔角Kim，S.泰瑞，还有J. 考茨基于递归3d卷积神经网络的动态手势在线检测与分类在IEEE计算机视觉和模式识别会议论文集，第4207-4215页[29] W.墨菲M. Renz和Q.吴使用神经突触处理器的二值图像分类：权衡分析。电路与系统（ISCAS），2016 IEEE国际研讨会，第1342-1345页。IEEE，2016.[30] J. Nagi，F. Ducatelle湾A. Di Caro，D. Cires an，U. 梅尔A. Giusti，F. Nagi，J. Schmidhuber，and L. M.甘巴德拉。最大池化卷积神经网络用于基于视觉的手势识别。在信号和图像处理应用（ICSIPA）中，2011 IEEE国际会议，第342-347页。IEEE，2011年。[31] N.内韦罗瓦角沃尔夫G. Taylor和F.内布自适应多模态手势识别。 IEEE Transactions on Pattern Analysis andMachine Intelligence，38（8）：1692[32] N.内韦罗瓦角沃尔夫G. W. Taylor和F.内布用于手势检测和定位的多尺度深度学习。在欧洲计算机视觉会议的研讨会上，第474-490页。Springer，2014.[33] E. On-Bar和M. M.特里维迪用于汽车界面的实时手势识别：基于多模式视觉的方法和评估。IEEE Transactionson Intelligent Transportation Systems，15（6）：2368[34] O. Oreifej和Z.刘某Hon4d：用于从深度序列识别活动的定向4d正态分布直方图在IEEE计算机视觉和模式识别会议的Proceedings，第716-723页[35] P. K. Pisharady和M.萨尔贝克基于视觉的手势识别中的最新方法和数据库：重新审视。计算机视觉和图像理解，141：152[36] C.波施D. Matolin和R.沃尔根南特一个qvga143db动态范围无帧pwm图像传感器与无损像素级视频压缩和时域光

下载后可阅读完整内容，剩余1页未读，立即下载