没有合适的资源?快使用搜索试试~ 我知道了~
基于动态视觉传感器的基于事件的鲁棒步态识别
1EV-Gait:基于动态视觉传感器的基于事件的鲁棒步态识别王彦祥1人,杜博文3人,沈怡然1人,2人,吴凯4人,赵光荣1人,孙建国1人,温宏凯3人,1哈尔滨工程大学,2 Data 61 CSIRO,3华威大学,4复旦大学邮箱:yiran. csiro.au;hongkai. dcs.warwick.ac.uk摘要在本文中,我们介绍了一种新型的传感模式,动态视觉传感器(事件相机),步态识别的任务。与传统的RGB传感器相比,事件摄像机具有超低的资源消耗、高的时间分辨率和更大的动态范围等独特优势。然而,这些相机只产生噪声和强度变化的异步事件,而不是帧,其中传统的基于视觉的步态识别算法为了解决这个问题,我们提出了一种新的基于事件的步态识别(EV-Gait)方法,该方法利用运动一致性来有效地去除噪声,并使用深度神经网络来从事件流中识别步态。为了评估EV-Gait的性能,我们收集了两个基于事件的步态数据集,一个来自真实世界的实验,另一个通过转换公开可用的RGB步态识别基准CASIA-B。大量的实验表明,EV-Gait在真实环境中可以获得近96%的识别准确率,而在CASIA-B基准测试中,它实现了与最先进的基于RGB的步态识别方法相当的性能1. 介绍受生物视觉原理的启发,动态视觉传感器(DVS)[27,7,35]被认为是一种新的传感模式,用于许多任务,如视觉视觉识别/SLAM [22,19,36],机器人感知[10,31,9,8]和物体识别[39,24]。与以固定速率产生同步帧的RGB相机不同,DVS传感器的像素能够独立地捕获微秒级强度变化,并生成异步“事件”流DVS传感器的设计与传统RGB相机相比具有许多独特的优势。首先,DVS传感器需要更少的资源,包括共同主要作者†通讯作者能量、带宽和计算,因为事件是稀疏的,并且仅在检测到强度变化时触发例如,DVS 128传感器平台的能耗仅为CMOS相机的150倍[27]。其次,DVS传感器的时间分辨率为数十微秒,这意味着DVS传感器能够捕获详细的运动相位或高速运动,而不会出现模糊或滚动快门问题。最后,DVS传感器具有显著的-比RGB摄像机(约60dB)更大的动态范围(高达140dB [27]),这使它们能够在更具挑战性的照明条件下工作。这些特性使DVS传感器比RGB相机更具吸引力,适用于对延迟、资源配置和性能有特殊要求的视觉任务。消耗和操作环境。在本文中,我们研究了使用DVS来解决经典步态识别问题的可行性具体来说,它旨在根据传感器捕获的行走模式来确定人的身份。这是许多现实世界应用的基本构建块,例如活动跟踪、数字医疗保健和安全监控。在这些背景下,DVS传感器相对于标准RGB相机具有独特的优势,因为i)它们的低能量和带宽占用使它们成为始终在线的无线监控的理想选择;以及ii)高动态范围使它们能够在具有挑战性的照明条件下工作,而无需专门的照明控制。如图所示1(a),DVS以与RGB相机完全不同的方式操作因此,传统的基于RGB的图像处理和步态识别方法不能直接应用于事件数据。在本文中,我们提出了一种新的基于事件的步态识别方法,EV-Gait,这是能够与噪声的事件流和准确地推断身份的步态的基础上。具体而言,本文的技术贡献如下:• 据我们所知,这是第一次在实际环境下研究基于事件的步态识别。63586359Y不X不(a)(b)第(1)款图1.(a)当对象在DVS传感器前面行走时,DVS传感器生成异步事件流正强度变化(+1)用红色表示,负强度变化(-1)用蓝色表示(b)由旋转点引起的噪声事件流(改编自[29])。• 本文提出了一种新的基于事件的步态识别方法EV-Gait,它是专门为动态视觉传感器设计的它能够有效地去除通过强制运动一致性来消除事件流中的噪声,并采用深度神经网络从异步和稀疏事件数据中识别步态。• 我们从真实世界的实验和公共步态基准中收集了两个基于事件的步态数据集DVS 128-Gait和EV-CASIA-B,这将有助于能够为社区。• 两个数据集上的评估表明,所提出的EV步态可以识别身份高达96%的准确率在现实世界的设置中,并实现与最先进的基于RGB的方法相当(在某些视角下甚至更好)的性能。2. 相关工作步态识别在计算机视觉领域已经被深入研究了几十年[14,26,42,40],并且深度学习已经被证明可以提供最先进的步态识别,而无需繁琐的特征工程[44,38,43,3]。[42]中提出的一种经典的步态识别方法是基于从背景减除中提取的Han等人。[15]通过从步态模板中提取尺度不变特征,进一步改进了基于轮廓的方法。虽然基于模板和特征的方法得到了广泛的研究[40,30,41],但设计最佳特征仍然是一项艰巨的任务。深度学习近年来变得流行,以端到端和无特征的方式解决分类问题。它已被引入解决步态识别问题,并产生了最先进的性能[44,38,43,3]。已知卷积神经网络(CNN)在从图像中提取特征方面工作良好。图像. Wu等人[44]提出了不同的基于CNN的步态识别架构,并在CASIA-B数据集上产生了最先进的识别精度。拟议的EV-Gait也使用CNN,但我们的网络适用于处理事件数据,而不是标准的RGB帧。事件数据中的过多噪声一直是基于事件的视觉的主要挑战之一。大多数现有的工作认为事件数据中的噪声是特别的和稀疏的。Liu等人[28]搜索了传入事件的八个相邻像素。如果在特定时间段内没有捕获其他先前事件,则将其标记为噪声。Kohoda等人[18]通过恢复被错误确定为噪声的事件,进一步改进了噪声消除。Padala等人[33]提出的工作考虑了两层滤波器。第一层滤波利用了同一地点发生的两个事件在时域上不可能太接近的特点。第二层移除缺乏时空支持的事件,这与Liu等人[28]的方法相似。然而,在本文中,我们从一个新的角度提出了一种新的事件噪声消除技术,即,运动对象引起的事件流中的运动一致性,并表明它比现有的方法性能好几个数量级。我们还回顾了使用DVS传感器识别或分类任务的相关工作。在[4]中,作者应用CNN来识别手势,如挥手、打圈和空气吉他动作。拉戈尔斯在埃尔。[24]提出了一种新的事件数据表示方法--时间面,并建立了一个分类模型,对36个字符(0-9,A-Z)进行分类。Park等人。[34]采用浅层神经网络提取空间金字塔内核特征,用于使用DVS传感器的手部运动识别。此外,高在el。[11]使用DVS传感器跟踪受试者踝关节上配备的特殊标记进行步态分析。然而,与我们的方法不同,它的目的不是识别身份,而是需要在人体上贴上特殊的标记,这是侵入性的。6360现在现在3. 事件流的噪声消除3.1. 动态视觉传感器与以固定速率产生同步帧的传统CMOS/CCD相机不同,动态视觉传感器(DVS)是一类神经形态设备,可以在它们发生时异步地捕获微秒级像素强度变化作为“事件”。因此,它们通常被称为不失一般性,我们通常使用p= +1来表示像素强度的增加,而-1表示减少。在实践中,DVS传感器仅在像素处的强度变化超过特定阈值时报告这样的事件,即,3.2. 通过运动一致性在步态识别的上下文中,我们只对在摄像机视场内行走的人(或通常是移动的物体)感兴趣,而捕获的其他信息被认为是噪声。如上所述,对于DVS传感器,事件流中的这种噪声通常由背景中的细微照明变化或电子电路的不稳定性质引起。因此,噪声消除的关键挑战是我们如何能够区分事件是否由感兴趣的移动的人/对象触发。这不是一个简单的任务,因为事件流跨越空间和时间轴,并且噪声可以任意出现。大多数现有的方法(例如,[28,18,33])依赖于事件流中的噪声是自组织和稀疏的简单假设,即它们应该以随机的方式出现并且与由对象运动引起的事件隔离。然而这.log(Ix,y)−logx,y先前> θ(1)并不总是正确的,因为当整体照明条件不稳定时,噪声的数量会占主导地位。其中x,yx,y上一页是当前和以前的-流和埋葬感兴趣的事件。为了克服这个问题,我们考虑一种新的噪声在同一像素上的强度(x,y)。图1示出了DVS传感器如何操作的示例。 当感兴趣的对象在相机视场中移动时,例如,旋转点如图。1,而不是图像帧,DVS传感器生成事件流,即,时空域中的螺旋状形状。DVS传感器的异步和差分特性带来了许多独特的优势。例如,它们可以具有非常高的动态范围(140 dB,60dB的标准摄像头),这使它们能够在更具挑战性的照明条件下工作。这些传感器产生的事件流具有微秒级的时间分辨率,有效地避免了运动模糊和卷帘快门问题。此外,它们还具有极高的能效,比标准相机的能耗低约150倍,并且带宽要求非常低。然而,DVS传感器的主要挑战之一是生成的事件流非常嘈杂。在实践中,这些传感器对背景中的照明变化或扰动非常敏感例如,正如我们在图中看到的。1,尽管场景中只有一个旋转的点,但产生的事件流包含许多与所需螺旋分离的特殊事件。这往往会对各种应用程序的性能产生重大的负面影响(第12节)。5将显示这种对步态识别的影响的例子),这阻碍了动态视觉传感器的广泛采用。为了释放DVS传感器的全部潜力,在下一节中,我们提出了一种新颖的噪声消除算法,该算法利用事件流内的时空特征来有效地去除此类噪声事件。通过利用事件流内的运动一致性来消除方法直觉是,如果一个事件是由对象(在我们的步态识别案例中是人体)的真实运动引起的,那么在不久的将来,应该会有另一个事件出现在与对象运动一致的位置。换句话说,在局部区域内,由对象运动引起的事件应该能够在时空域中形成一致的图2展示了这个想法的一个例子。我们在图中看到。2(a),对于一个有效的事件(蓝点),应该有一些以前的事件,在其附近发射(黄点),因为它们是由物体在空间和时间上的运动触发的。因此,这些事件应该能够模拟为一个一致的平面,其速度为(vx,vy)。另一方面,如图所示。在图2(b)中,如果事件是噪声(红点),则最近出现的事件(黄点)通常没有或几乎没有空间相关性,即,它们不能被描述为一致的平面。在我们的方法中,我们通过查看事件流中的光流来利用此属性[6],这可以自然地评估运动一致性。具体地,为了计算事件ei的光流, 我们去掉它的极性,在三维空间中表示为ei=(ti,xi,yi)。那么e i所在的飞机可以被描述为ax i+by i+ct i+d = 0(2)其中唯一的(a,b,c,d)∈ R4定义唯一的平面λ。对于那些在附近的事件,在空间和时间轴上,我们通过最小二乘法拟合平面:我我6361t−t.vv.我(a) 有效事件(b) 噪声事件4.1. 事件流表示与传统的RGB摄像机不同,DVS传感器产生的异步事件流不能直接适合最先进的基于CNN的在本文中,我们采用了与[46]中提出的相同的事件流表示.事件流被转换为具有四个通道的图像表示,称为事件图像,用于我们的深度神经网络。前两个通道分别在每个像素处的正或负事件的计数这些类似热图的分布可以有效地图2.我们的噪声消除方法的一个例子,关于动作一致性。(a)一个有效的事件(蓝色)及其邻近的-有效地描述事件的空间特征源源不断的然后,其他两个通道保持所描述的比率多个事件(黄色)应该能够在同一平面上共存在空间-时间域中以合理的速度。(b)噪声事件(红色)不能与其相邻事件一起拟合在合理速度的平面的时间特征。比率r定义为,i、j在像素(i,j)处ri,jti,j−t开始=结束开始(五)..XJΣ。2..其中ti,j是像素(i,j)处的最后一个事件的时间戳,tbegin是第一个事件的时间戳,并且tend是第一个事件的时间戳。.你好。=argmin. 没关系(三)最后一场比赛。这些比率估计,n∈R4.j ∈ S不好意思。在不同位置的感兴趣对象的寿命。.1.一、其中,Si是事件集,包括ei和出现在(xi,yi)的3×3邻域内的事件,以及时间窗[ti−t,ti+ tt]。在我们的实验中,我们设定在上述过程之后,事件流被表示为准备用于训练深度神经网络的事件图像。4.2. 深度识别网络1毫秒。让我们假设一个独特的平面.Σa、b、c、d 是ob-我们用于基于事件的步态识别的深度神经网络保持。然后我们计算它在事件ei处的速度为:可以分为两个主要部分:具有残差块(ResBlock)层的卷积层是相对的,xv=yi=−cΣ1Σˆ1b(四)sponsible用于特征提取,softmax的全连接层将特征与不同的身份相关联。卷积层已被证明是一种有效的方法其中vx和vy是事件ei沿x的速度在图像分类中得到了广泛的应用我我和y轴。然后,我们通过检查速度v来验证运动一致性。如果为0<|v|我们<接受e i,因为由真正运动引起的有效事件应该是运动的,并且速度应该在一定范围内。合理范围。否则,我们将ei声明为噪声,并将其从事件流中删除。我们对每个事件迭代地执行此操作,直到流中的所有事件都被认为是有效的。4. 基于事件的步态识别如图3所示,Ev-Gait从捕获异步原始事件流开始,而主体正在浏览视图。然后通过事件噪声消除对原始事件流进行预处理,并根据用于步态识别的深度神经网络的输入层的设计来表示。最后,我们训练我们的深度网络,并将其应用于基于事件流的主体身份识别。任务[21,37,12]。ResBlock层[16]能够当网络更深时,处理消失的特征问题,以便可以更好地集成卷积层提取的特征完全连接的层对特征进行解码,并将其传递给softmax函数以执行分类任务。我们的网络的详细设计如图4所示。它从一个特殊的输入层开始,以适应第二节中呈现的4.1.输入图像通过四个卷积层,其滤波器大小为3×3,步长为2。 四个通道的数量-可选层分别为64、128、256和512。在卷积层之后,ReLu [32]函数的最终激活通过两个ResBlock层来处理消失梯度问题,并在我们的网络更深时保留从较低层提取的特征两个ResBlock层共享相同的参数-ters:滤波器大小为3×3,步长为1,通道数为512。然后,两个完全连接的层,不ΠVyVXyX不ΠyX一6362Y不X原始输入预处理事件图像CNN和ResBlock完全连接和Softmax身份3x3转换图3.建议的EV步态的工作流程3x3转换ReLUReLu3x3Conv3x3Conv3x3ResBlock3x3ResBlockReLUReLUReLUReLU身份128x128x4输入64x64x6432x32x128 16x16x2568x8x5128x8x5121024512SoftmaxN图4.建议的EV-Gait的网络架构1024和512个节点分别连接到Res- Block层,并堆叠softmax函数以完成整个网络。最后,采用交叉熵损失函数和Adam优化器[20]对网络进行训练。5. 评价在本节中,我们使用在真实世界实验中收集的数据和从公开可用的RGB步态数据库转换的数据来评估EV-步态。在我们的实验中,我们使用来自iniVation [1]分辨率为128×128像素。事件数据流到桌面计算机并在其上进行处理,Ubuntu 16.04和深度网络(在第二节中讨论)。4)在单个NVIDIA 1080Ti GPU上训练在下文中,我们首先评估在秒中的EV步态的事件噪声消除的性能5.1,然后在第二节中给出了我们的方法的步态五点二。5.1. 事件噪声消除我们将所提出的EV步态中的噪声消除技术与以下三种现有技术方法进行比较:(1) Liu等人[28],如果在某个时间段内在其八个相邻像素处没有捕获到其他事件,(2) Khoda等人[18],通过恢复被错误分类为噪声的事件来改进Liu(3) Padala等人[33],在事件中过滤噪声通过利用两个事件在同一位置触发的事实,为了充分研究EV-Gait的噪声消除性能,我们考虑两种实验场景,其中DVS传感器被配置为捕获:i)静止的背景,没有任何移动;以及ii)在背景上移动的人造物体。5.1.1静态背景噪声消除在该实验设置中,我们将DVS 128摄像机配置为面向白墙,并以固定的时间间隔连续捕获事件流。环境是受控的,并且在相机视场内没有移动的对象或阴影,使得由相机捕获的场景我们考虑两种不同的照明源,i)发光二极管(LED)和ii)荧光管灯(FTL),两者都是AC供电的。然而,荧光灯的闪烁频率相对较慢(100 Hz或120 Hz),因此可以很容易地被DVS传感器拾取,从而在事件流中产生更多的噪声。另一方面,我们实验中使用的LED灯更稳定,因为它们使用整流器将AC转换为DC并使用电容器平滑输出。图6(a)和图6(b)图5(a)分别示出了在两个不同照明源下在20ms窗口内累积的记录事件。显然,在这种情况下,所有事件(白点)都应该是噪声,因为DVS传感器只捕获静态白墙。然后我们应用6363EV-Gait中使用的事件噪声消除技术和记录事件流的竞争方法,表1显示了它们在去除噪声方面的性能。首先,我们发现由荧光管光(FTL)引起的噪声量远大于LED光(1,082,840 vs. 19,009个噪声事件),这证实了DVS传感器对不同的照明条件非常敏感。另一方面,我们看到我们的技术可以有效地去除事件流中的大部分噪声,在LED和FTL下分别高达97.79%和99.73%。这明显优于所有的完成方法(见图。图5和图6用于剩余噪声事件的可视化),其中最好的一个(Khoda [18])保持了近78次(21.06% vs.0.27%)的噪音事件比我们的不稳定的超光速照明。这是预期的,因为竞争方法仅使用空间和时间不一致性来滤除噪声事件,而所提出的EV-Gait利用基于光流的移动表面,其本质上更鲁棒。噪音数量电动步态刘[28]科达[18]帕达拉[33]LED19,0092.21%29.3%5.13%15.56%FTL1,082,8400.27%百分之四十八点二五21.06%47.37%表1.在LED(第1行)和FTL灯(第2行)下,建议和比较方法的噪声消除性能第一列显示在两种照明条件下的噪音事件总数,而其余列显示应用单独方法后剩余的噪音事件百分比。(a)(b)(c)(d)(e)图5.在FTL照明下通过(a)不处理;(b)EV步态;(c) [28][29](a)(b)(c)(d)(e)图6.在FTL照明下通过(a)不处理;(b)EV步态;(c)[28][29]5.1.2运动目标第二组实验研究了不同噪声消除方法的性能,(a)(b)(c)(d)(e)图7.通过(a)不处理,在LED照明下对移动对象捕获的事件(400 ms)进行可视化;(b)电动步态;(c)Liu [28];(d)Khoda [18]和(e)Padala [33]。(a)(b)(c)(d)(e)图8.通过(a)不处理,在FTL照明下对移动物体捕获的事件(400 ms)进行可视化;(b)电动步态;(c)Liu [28];(d)Khoda [18]和(e)Padala [33]。移动的物体。我们再次将DVS传感器配置为在LED和FTL照明条件下面向白色墙壁,但在这种情况下,我们使用红色激光笔在墙壁上生成移动点,而不是捕获背景。该移动点可以被DVS传感器捕获为一系列事件以及噪声。 直观地说,理想的噪声消除方法应该只提取与该移动点相对应的事件,并丢弃所有其他事件,形成完整和干净的轨迹。图7(a)和图图8(a)示出了在LED和FTL照明下由DVS传感器捕获的事件的可视化 我们可以看到,尽管有可见的轨迹,但噪声事件仍然占据了场景的大部分,特别是在FTL情况下,照明源不是很稳定(闪烁)。图7(b)-(e)和图7(b)-(e)图8(b)-(e)分别显示了在LED和FTL照明下,EV-Gait和竞争方法产生的事件的可视化。我们清楚地看到,所提出的EV-Gait表现最好,在这个意义上,它可以拒绝大部分的噪声事件传播在场景中,同时保留积极的事件对应于移动的点,即。保持完整干净的轨迹 另一方面,竞争方法的性能明显较差:只有Liu [28]和Kohoda [18]可以在稳定的LED照明下获得可接受的结果(见图11)。7(c)-(d)),但它们在不稳定的FTL条件下立即失效(见图7)。8(c)-(d))。5.2. 步态识别现在,我们能够呈现所提出的EV-Gait方法的步态识别性能。我们在两个基于事件的步态数据集上评估我们的方法:i)DVS 128-步态数据集,其在真实世界环境中收集,具有21名志愿者的队列超过三周;和ii)EV-CASIA-B数据集,其从63640.960.940.920.900.880.860.840.820.800 20 40 60 80 1001.000.980.960.940.920.900.880510 15 20图9.事件流的可视化(累积培训规模(一)的人数(b)第(1)款20 ms)的DVS 128-步态数据集中的10个不同身份最 先 进 的 基 于 RGB 相 机 的 步 态 识 别 基 准 CASIA-B[45]。5.2.1DVS 128-步态数据集上的性能数据收集:我们招募了总共21名志愿者(15名男性和6名女性),在为期三周的两次实验中贡献他们的数据。在每一个环节中,参与者被要求在安装在三脚架上的DVS 128传感器前正常行走,并重复行走100次。传感器视角被设置为相对于行走方向大约90度第二次实验在第一次实验结束一周后进行,以包括参与者步态的潜在变化。因此,我们总共收集了4,200个事件流样本,捕获了21个不同身份的步态。图9示出了来自4个不同身份(在20 ms内累积的事件)的数据的可视化,其中像素的颜色指示极性(红色用于+1,绿色代表-1)。实施详情:我们在EV-Gait中实现了所提出的深度网络(在第2节中讨论)。4)与Ten- sorFlow [2]。在第一个会话中收集的数据用于训练,而在测试中,我们使用第二个会话中的数据。在训练过程中,我们将批量大小设置为64,学习率设置为3e-6。训练和测试均在12GB NVIDIA 1080Ti GPU上进行。结果:第一组实验研究了EV-Gait相对于每个身份的训练样本特别是,我们使用所有21名参与者的数据,但随机选择不同数量的训练样本,从1到100不等。对于每种情况,我们重新训练EV-Gait 30次,并报告平均识别准确率。图5.2.1(a)显示了结果,我们看到随着更多的样本用于训练,EV-Gait的识别准确率立即增加,而在每个身份25个样本之后,准确率趋于稳定(约>94%)。这表明EV-Gait另一方面,我们也已获得1项图10. (a)EV-Gait的识别精度(有和没有噪声消除)与每个身份都有不同的训练样本(b)EV步态的识别准确性(有和没有噪声消除)与考虑不同的身份。图11.来自原始CASIA-B数据集(顶行)的示例和转换后的EV-CASIA-B数据集(底行)中相应事件流(累积超过20ms)的可视化观察到使用与不使用噪声消除技术,例如,使用我们的方法去除事件流中的噪声可以将识别准确率提高到8%。这证实了所提出的EV-Gait中的噪声消除方法是至关重要的,并且对整体步态识别性能具有非常积极的连锁效应然后,我们研究了识别精度的影响时,考虑不同的身份的数量。我们随机选择身份的子集(即,参与者),分别从1到21,并使用训练集中所选身份的所有样本(来自第一会话的数据)来训练EV-Gait。我们再次重新训练模型,并报告测试集上30个推理的平均识别准确率,图10。5.2.1(b)显示了结果。 我们看到,随着身份数量的增加,识别准确率相应下降。这是预期的,因为尽管我们有额外的数据用于训练,但区分更多的身份更具挑战性然而,我们看到,即使有20个身份,EV-Gait仍然可以达到近96%的识别准确率。此外,与之前的情况类似,我们观察到EV步态中的噪声消除技术有很大帮助,例如。准确度提高到8%。5.2.2EV-CASIA-B数据集上的性能我们已经表明,电动步态在从现实世界的设置收集的数据中表现良好,现在我们表明,它具有噪声消除无噪声消除具有噪声消除无噪声消除识别精度识别精度6365方法0◦18◦36◦54◦72◦90◦108◦126◦144◦162◦180◦是说电动步态百分之七十七点三89.3%94.0%百分之九十一点八百分之九十二点三百分之九十六点二百分之九十一点八百分之九十一点八百分之九十一点四87.8%百分之八十五点七百分之八十九点九3D-CNN87.1%百分之九十三点二97.0%94.6%百分之九十点二88.3%百分之九十一点一百分之九十三点八96.5%百分之九十六百分之八十五点七92.1%Ensemble-CNN88.7%百分之九十五点一98.2%百分之九十六点四94.1%91.5%百分之九十三点九97.5%百分之九十八点四百分之九十五点八百分之八十五点六94.1%表2.EV-Gait(在EV-CASIA-B数据集上评估)和两种基于RGB的竞争方法(评估)的步态识别准确性在CASIA-B数据集上)。注意,对于72°、90°和108°的视角,EV-Gait甚至比基于RGB的方法表现得更好。也可以实现与为RGB图像设计的最先进的步态识别方法相当的性能。由于这些方法不适用于事件流,为了公平比较,我们将广泛使用的CASIA-B [45]基准转换为事件版本EV-CASIA-B。然后,我们在转换后的EV-CASIA-B数据集上运行EV-Gait,并将所得的识别精度与原始CASIA-B数据集上的最先进方法进行比较。数据收集:CASIA-B是基于RGB相机的步态识别方法的最受欢迎的基准之一[25,13,5,23]。它包含来自124个受试者的数据,每个受试者都有66个视频片段,这些视频片段由RGB相机从11个不同的视角(0°到180°)记录,即,每个角度6个夹子。视角是摄像机的视角与被摄体的行走方向之间的相对角度骗-将CASIA-B数据集转换为事件格式,我们使用与[17]类似的方法,并使用DVS 128传感器记录屏幕上视频剪辑特别是,我们使用戴尔23英寸显示器,分辨率为1920×1080,60 Hz。图11显示了来自原始CASIA-B数据集(顶行)和我们转换的EV-CASIA-B数据集中相应事件流的可视化实施详情:我们考虑了与DVS 128-Gait数据集上的先前实验相同的深度网络结构。为了训练,我们使用前74个受试者的数据来预训练网络。然后对于其他50个受试者,对于每个视角,我们使用6个剪辑中的前4个来微调网络,其余2个剪辑用于测试。我们实现了两种适用于RGB图像的竞争方法:i)3D-CNN [44]和ii)Energy-CNN [44],可以在原始CASIA-B基准上实现最先进的步态识别性能。结果:表2显示了所提出的EV-Gait与竞争方法3D-CNN和Ensemble-CNN的步态识别准确性。值得指出的是,CASIA-B数据集中视频片段的帧速率仅为25 FPS,分辨率为320×240。因此,当通过屏幕上的回放将这些数据转换为事件格式时,DVS传感器将不可避免地拾取大量噪声。在ad-此外,与原始RGB数据不同,事件流本身包含的信息要少得多(见图1)。第11段)。然而,正如我们从表2中可以看到的,所提出的EV-步态仍然可以实现与竞争的基于RGB相机的方法(94.1%)相当的步态识别准确度(89.9%)。 对于某些视角,特别是当对象的行走方向垂直于相机光轴(例如,大约90毫秒),所提出的EV-Gait甚至优于最先进的3D-CNN和Ensemble-CNN(96.2% vs. 88.3%和91.5%)。 这是因为在这样的设置中,由DVS传感器捕获的事件流可以保留大部分运动特征,同时去除RGB图像中的步态无关信息,例如布料纹理。另一方面,对于被摄体朝向/远离相机行走的视角,(e.g. 0μ m或162μ m),EV-Gait的精度略低于基于RGB的方法。 这是预料之中的,因为在这些情况下,与RGB图像相比,事件流包含关于对象的运动模式的较少信息特征6. 结论在本文中,我们提出了EV-Gait,一种新的步态识别方法,使用DVS传感器。EV-Gait具有一种新的事件噪声消除技术,该技术利用移动对象的运动consideration来清理事件流,并且通常可以应用于使用DVS传感器的跟踪、定位、活动识别等广泛的应用。然后设计了EV-Gait中的深度神经网络,用于从事件流中识别步态。我们从真实世界的实验和基于RGB的基准中收集了两个基于事件的步态数据集,并将其提供给社区。根据对数据集的评估,EV-Gait在现实世界中的准确率高达96%,并且与基准测试中最先进的基于RGB的方法具有相当的性能鸣谢本课题得到国家自然科学基金项目61702133和哈尔滨工程大学创新人才培养国际交流项目的部分资助。作者要感谢NVIDIA的GPU捐赠。引用[1] https://inivation.com/support/hardware/dvs128/. DVS 128,无菌。5[2] Mart´ın Abadi, Paul Barham , Jianmin Chen ,ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页,2016中。76366[3] Munif Alotaibi和Ausif Mahmood。基于专用深度卷积神经网络的改进步态识别计算机视觉和图像理解,164:103-110,2017。2[4] Arnon Amir , Brian Taba , David J Berg , TimothyMelano,Jeffrey L McKinstry,Carmelo Di Nolfo,TapanKNayak , AlexanderAndreopoulos , GuillaumeGarreau,Marcela Mendoza,et al.低功耗、完全基于事件的手势识别系统。在CVPR中,第7388-7397页,2017年。2[5] Khalid Bashir,Tao Xiang和Shaogang Gong。基于步态熵图像的步态识别。2009. 8[6] Ryad Benosman、Charles Clercq、Xavier Lagorce、Sio-Hoi Ieng和Chiara Bartolozzi。基于事件的视觉流。IEEE跨神经网络学习系统,25(2):4073[7] Raphael Berner,Christian Brandli,Minhao Yang,Shih-Chii Liu,and Tobi Delbruck.240× 180 10mw 12us延迟稀疏输出视觉传感器,用于移动应用。在VLSI电路(VLSIC),2013年研讨会上,第C186IEEE,2013。1[8] JorgConradt,MatthewCook,RaphaelBerner ,PatrickLicht-steiner,Rodney J Douglas,and T Delbruck.一种使用双动态视觉传感器的铅笔平衡机器人。电路与系统,2009年。ISCAS 2009。 IEEE国际研讨会,第781-784页。IEEE,2009年。1[9] Tobi Delbruck和Manuel Lang机器人守门员与3毫秒的反应时间在4%的CPU负载使用基于事件的动态视觉传感器。Frontiers in Neuroscience,7:223,2013. 1[10] TDelbruck , MichaelPfeif fer , Raphae?lJuston ,GarrickOr- chard , EliasM ?gler , AlejandroLinares-Barranco,andMWTilden.使用事件和基于帧的戴维斯视觉传感器的人类与计算机老虎机赛车。电路与系统(ISCAS),2015年IEEE国际研讨会,第2409-2412页。IEEE,2015年。1[11] 葛高,玛丽亚·基拉里尼,穆罕默德·拉扎维,王星晨,阿克斯·埃尔·格雷泽。基于动态视觉传感器与基于惯性测量单元的踝关节角度步态分析系统的比较信号处理前沿(ICFSP),国际会议,第93-98页。IEEE,2016.2[12] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。4[13] Michela Goffredo,Imed Bouchrika,John N Carter,andMark S Nixon.自校准视图不变步态生物力学。IEEE系统、人与控制论汇刊Part B(Cybernetics),40(4):997-1008,2010. 8[14] 金光汉和比尔巴努。利用步态能量图像进行个体识别。IEEETransactionsonPatternAnalysisMachineIntelligence,(2):316-322,2006。2[15] 金光汉和比尔巴努。利用步态能量图像进行个体识别。IEEETransactionsonPatternAnalysisMachineIntelligence,(2):316-322,2006。2[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。4[17] 胡宇煌,刘宏杰,迈克尔·菲佛,托比·德尔布鲁克.对象跟踪的DVS基准数据集,动作6367识别和对象识别。神经科学前沿,10:405,2016。8[18] Alireza Khodamoradi和Ryan Kastner用于降低神经形态视觉传感器中噪声的O(n)-空间时空滤波器。IEEETransactions on Emerging Topics in Computing,2018。二三五六[19] Hanme Kim , Stefan Leutenegger , and Andrew JDavison.利用事件摄影机进行实时三维重建与六自由度追踪欧洲计算机视觉会议,第349-364页施普林格,2016年。1[20] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[21] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年。4[22] 击败阿光,伊莱亚斯·穆格勒,吉列尔莫·加列戈,和达维德·斯卡拉穆扎.使用基于事件的特征轨迹的低延迟视觉里程计在智能机器人和系统(IROS),2016年IEEE/RSJ国际会议上,第16-23页。IEEE,2016. 1[23] 吴强,张健,李宏东.基于相关运动回归的多视角步态识别。IEEE视频技术电路和系统,22(6):9668[24] XavierLagorce 、GarrickOrchard 、 FrancescoGalluppi、Bertram E Shi和Ryad B Benosman。热点:一个基于事件的时间表面层次结构的模式识别。IEEEtransactionsonpatternanalysisandmachineintelligence,39(7):1346-1359,2017。一、二[25] Toby HW Lam、King Hong Cheung及James NK Liu。步态流图像:一种基于轮廓的步态识别方法。Patternrecognition,44(4):973-987,2011. 8[26] 莉莉李和W埃里克L格里姆森。步态分析用于识别和分类。自动人脸和手势识别,2002年。诉讼第五届IEEE国际会议,第155-162页。IEEE,2002年。2[27] Patrick Lichtsteiner , Christoph Posch , and Tobi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功