没有合适的资源?快使用搜索试试~ 我知道了~
自我中心动作识别:利用LSTA进行时空模式建模的双流架构
9954LSTA:自我中心动作识别Swathikiran Sudhakaran1,2,Sergio Escalera3,4,OswaldLanz11 Fondazione Bruno Kessler,特伦托,意大利2意大利特伦托大学3西班牙巴塞罗那计算机视觉中心4西班牙巴塞罗那大学{sudhakaran,lanz}@ fbk.eu,sergio@maia.ub.es摘要自我中心活动识别是视频分析中最具挑战性的任务之一。它需要对小对象及其操作进行细粒度的区分。虽然一些方法基于强监督和注意机制,但它们要么是注释消耗的,要么不考虑时空模式。在本文中,我们提出了LSTA作为一种机制,专注于相关的空间部分的功能,而注意力被跟踪平滑的视频序列。我们展示了LSTA在自我中心活动识别上的有效性,它具有端到端的可训练双流架构,在四个标准基准测试中达到了最先进的性能。1. 介绍从视频中识别人类动作是计算机视觉中广泛研究的问题。大多数的研究都是从远处的第三人称视角拍摄的视频分析。自我中心(第一人称)视频分析是一个重要且相对较少探索的分支,其在机器人、索引和检索、人机交互或人类辅助等方面具有潜在的应用。深度学习的最新进展高度受益于图像分类[12,39]和对象检测[19,11]等问题。然而,从视频中进行深度学习动作识别的性能仍然无法与从静态图像中进行对象识别的进步相比动作识别中的主要困难之一是由人体的高度清晰的性质引起的数据中存在的巨大变化。人类的身势,在本质上是高度灵活的,结果在高学科内和低学科间的变异性。这进一步受到由捕获视频的环境的不受约束的性质引入的变化的由于视频是由图像帧组成的,这就给数据引入了额外的维度,使得更难以定义一个适当关注感兴趣区域的模型,更好地区分特定的动作类。为了解决这些问题,一种方法是设计一个大规模的数据集,覆盖由问题域定义的时空变化空间,这在实践中是不可行的。在这里,我们考虑的问题,确定细粒度的自我中心的活动,从修剪视频。这对于动作识别来说是一个相对困难的任务,因为活动类取决于动作和动作所应用的对象。这就需要开发一种方法,可以同时recc-ognize的行动以及对象。此外,由相机佩戴者的急剧移动引起的强烈自我运动的存在将噪声引入到视频中,这使视频帧中的运动的编码虽然结合对象检测可以帮助完成以自我为中心的动作识别的任务,但这仍然需要细粒度的帧级注释,在大规模设置中变得昂贵且深度学习中的注意力最近被提出来引导网络关注与特定识别任务相关的感兴趣区域这修剪了网络搜索空间,避免了从不相关的图像区域计算特征,从而产生更好的泛化。现有的工作探索自下而上[41]和自上而下的注意力机制[32]。自下而上的注意力依赖于数据的显著特征,并被训练来识别将一个类别与另一个类别区分开来的视觉模式。自上而下的注意力应用关于数据的先验知识来开发注意力,例如,可以从针对不同任务训练的网络中获得的某些对象的存在。最近,注意力机制已成功应用于自我中心的动作识别[15,32],超过了非注意力替代品的性能。然而,很少有人尝试将注意力追踪到时空自我中心的动作识别数据中。因此,当前模型可能会失去对以自我为中心的动作视频中的注意区域的适当平滑跟踪。而且大多数9955当前的模型基于需要复杂注释操作的、具有强监督的单独的预训练为了解决这些限制,在这项工作中,我们研究了一个更一般的问题,即视频CNN-RNN如何学习关注感兴趣的区域,以更好地区分动作类。我们分析了LSTM在 这 种 情 况 下 的 缺 点 , 并 推 导 出 长 短 期 注 意 力(LSTA),这是一种新的递归神经单元,它通过内置的空间注意力和修改后的输出门控来增强LSTM。第一个使LSTA出席感兴趣的特征区域,而第二个约束它暴露内部存储器的蒸馏视图我们的研究证实了改善递归单元的输出门控是有效的,因为它不仅影响整体预测,而且控制递归,负责跨序列的潜在记忆状态的平滑和集中我们的主要贡献可概括如下:• 我们提出了长短期注意(LSTA),这是一个新的循环单元,可以解决LSTM的缺点当输入序列中的判别信息可以空间定位时;• 我们将LSTA部署到一个具有跨模态融合的双流架构中,通过使用另一个模态来控制一个模态的偏置参数;• 我们报告了对该模型的消融分析,并在自我中心活动识别方面对其进行了评估,在四个公共数据集中提供了最先进的结果。2. 相关工作我们在本节中讨论了解决以自我为中心的视觉问题的最相关的深度学习方法。2.1. 第一人称动作识别[21,30,43]的工作训练了专门的CNN,用于与要识别的活动相关的手部分割和对象定位。这些方法基于手部分割和对象检测网络的专门预训练,需要大量的注释数据。此外,它们只基于单个RGB图像进行外观编码,而没有考虑时间信息.在[24,40]中,从一系列帧中提取特征以使用不同的操作执行时间池化,包括最大池化,总和池化或梯度直方图。然后,时间金字塔结构允许长期和短期特性的编码。然而,所有这些方法都没有考虑帧的时间顺序。提出了使用诸如长短 期 记 忆 ( LSTM ) [2 , 36] 和 卷 积 长 短 期 记 忆(ConvLSTM)[31,32]的递归神经网络的技术来编码所述信号。1代码可在https://github.com/swathikirans/LSTA上获得从帧序列中提取的特征的时间顺序。Sigurdsson等人[28]提出了一种三元组网络来开发成对的第三人称和第一人称视频的联合表示。该方法可用于将第三人称领域的知识转移到第一人称领域,从而部分解决了缺乏大型第一人称数据集的问题。Tang等人[34,35]将接受深度图的附加流添加到双流网络,使其能够对场景中存在的3D信息进行编码。Li等[15]提出了一种深度神经网络来联合预测第一人称视频中的凝视和动作,这需要在训练期间获得凝视信息。大多数最先进的技术依赖于附加的注释,例如手部分割、对象绑定框或凝视信息。这使得网络能够集中在框架中的相关区域,并有助于更好地区分每个活动。然而,用这些信息手动注释视频的所有帧是不切实际的.出于这个原因,开发能够在不使用附加注释的情况下识别帧的相关区域的技术是至关重要的。2.2. 关注提出了注意机制,用于将注意力集中在与待识别任务相关的特征上。这包括[32,15,26]用于第一人称动作识别,[1,20,37]用于图像和视频字幕以及[22,1,18]用于视觉问答。[25,10,33,32,41,15]的工作使用注意力机制来加权代表特定任务的空间区域。Sharma等人[25]和Zhanget al. [41]通过用视频标签训练网络来隐式地屏蔽一般注意力。[10,33,32]的作者使用由编码在CNN中的先验信息生成的自上而下的注意力,而[15]使用凝视信息来生成注意力。[23,26]的工作使用注意力来加权相关帧,从而增加了时间注意力。这是基于这样的想法,即并非视频中存在的所有帧对于理解正在执行的动作都同样重要。在[23]中,一系列时间注意力过滤器被学习到,权重帧级特征取决于它们用于识别动作的相关性[26]使用凝视的变化来产生时间注意力。[17,5]注意空间和时间维度,以选择相关帧和其中存在的区域。用于在视频中生成空间注意力的大多数现有技术独立地考虑每个帧。由于视频帧序列具有绝对的时间一致性,逐帧处理会导致有价值信息的丢失2.3. 与最新技术水平替代品的所提出的LSTA方法利用先验信息9956编码在CNN中,CNN预先训练用于对象识别,另一个预先训练用于动作识别。 [32]提出了类似的自上而下的注意力机制。然而,它们在每一帧中独立地生成注意力图,而在所提出的方法中,注意力图是以顺序的方式生成的。这是通过保持注意力的内部状态来跨时间传播从过去帧生成的注意力图来实现的。我们的方法使用注意力的运动流,其次是跨模态融合的外观和运动流,从而使这两个流交互层,以促进它们之间的信息流。[41]提出了一种注意力机制,该机制考虑来自过去帧的输入。他们的方法是基于自下而上的注意力,并生成一个单一的权重矩阵,该权重矩阵是用视频级别标签训练的。然而,所提出的方法产生的注意,输入的基础上,从一个池的注意力地图,这是单独使用视频级别标签学习。3. LSTM分析LSTM是被广泛采用的神经元设计,用于处理和/或预测序列。一个潜在的记忆状态ct是通过一个遗忘-更新机制ct=f<$ct−1+i<$c(1)其中(f,i)对前一状态具有门控函数ct-1和新息项c。(f,i,c)是参数函数,输入xt和先前存储器状态ot−1<$n(ct−1)的(i,f,ot,c)=(σ,η)(W[xt,ot−1<$η(ct−1)])(2)后者被称为隐藏状态ht=otn(ct),通常被暴露以实现序列预测。用于序列相反,最终存储器状态可以用作输入序列的固定长度描述符。LSTM设计的两个特点解释了它的成功。首先,存储器更新(等式1)由(f,i)灵活控制:在一次迭代中,状态可以被擦除(0,0)、重置(0,1)、保持不变(1,0)或渐进地存储新输入。(1,1)类似于剩余学习[12],这是非常深的网络中的关键设计模式-深度在这里转化为序列长度事实上,LSTM具有强大的梯度流和学习长期依赖性[13]。第二,门控函数(Eq. 2)是可学习的神经元,并且它们在神经更新中的交互是透明的(等式10)。①的人。当应用于视频分类时,需要讨论一些限制:1.记忆标准LSTM使用完全连接的neu- ron门,因此,内存状态是unstruc- tured。这可能是期望的,例如,用于图像字幕,其中一种模态(视觉)必须被翻译成另一种(语言)。对于视频分类,ct−1×+Ctησ0t−1×ǁσ××νcǁσotRNN+ S×ης一个t-1,νast−1at,ςXt图1:LSTA通过两个新组件扩展了LSTM第一个(红色部分)跟踪权重图s以关注相关特征,而第二个(绿色部分)引入了高容量输出门。两者的核心都是一个池化操作,它从一个专门的映射池中选择一个,以实现平滑的注意力跟踪和灵活的输出门控。圆形表示逐点或连续操作,方形块是线性/卷积参数节点,其符号表示非线性。循环变量用粗体表示。以通过传播记忆张量来保留图像的空间布局及其卷积特征。ConvLSTM [27]通过LSTM中的卷积门解决了这个缺点。2. 关注判别信息通常被局部地限制在视频帧中。因此,并非所有卷积特征对于识别都同样重要。在LSTM中,不相关特征(和记忆)的过滤被推迟到门控神经元,即线性变换(或卷积)和非线性。注意神经元被引入以在门控之前抑制来自不相关特征的激活。我们用内置的注意力来增强LSTM,它直接与Sec中的记忆跟踪交互4.1.3. 输出门控。输出门控不仅影响序列预测,而且还严重影响记忆跟踪,参见。等式2.我们将LSTM的输出门控神经元替换为高容量神经元,其设计灵感来自注意力。他们之间确实有关系,我们在SEC中明确了这一点。四点二。4.外部偏置控制。Eq中的神经元2有一个偏差项,它是在训练过程中从数据中学习的,并且在标准LSTM中的预测时间是固定的。我们利用基于每个预测的输入视频来调整偏差。目前最先进的视频识别是用两个流结构实现的,我们使用流来控制秒中的感知偏差。五点三。4. 长期短期关注我们在图1中给出了LSTA的示意图。1. LSTA通过两个新设计的组件扩展了LSTM [9]。核心操作是一个池化操作,它从9957⊥专门的映射池,以实现注意力跟踪(红色部分)和输出门控(绿色部分)。池化卷积特征xt返回一个映射νa,该映射通过具有存储器at和输出门st的传统RNN单元馈送。它的输出状态stn(at)被添加到输入νa和softmax校准以获得注意力图s。然后将映射s应用于xt,也就是说,sxt是经过注意力过滤的用于使用常规的存储器状态LSTM递归(黑色部分)。我们重新设计的输出门控使用更新内存状态的过滤视图,vcct,而不是xt。为了获得ν c, 通过汇集我们使用sxt来控制运算符的偏差,由此将注意力追踪与输出门控相结合。 该模型被实例化用于从以自我为中心的视频中以其卷积版本进行动作识别,νa=(xt,wa)(3)(ia,fa,st,a)=(σ,η)(Wa<$[νa,st−1<$η(at−1)])(4)at=faat−1+iaa(5)s=softmax(νa+st<$η(at))(6)(ic,fc,c)=(σ,σ,η)(Wc<$[s<$xt,ot−1<$η(ct−1)(7]))ct=fc<$ct−1+ic<$c(8)νc=(ct,wc+w o(sxt))(9)ot=σ(Wo[νc<$ct,ot−1<$η(ct−1)])(10)等式3-6实施我们的经常性注意,如第二节所述4.1,方程9-10是Sec的耦合输出门控四点二。粗体符号表示经常性变量:(at,st)of形状N×1,形状N×K的(ct,ot)。可训练参数其中:(Wa,Wc)都是K个卷积核,(Wa,Wc)的形状为K×C,wo的形状为C×C。N、K、C分别介绍如下。σ、η是sigmoid和tanh激活函数,σ是卷积,σ是逐点乘法。图1、图2来自下面介绍的池模型。4.1. 注意力集中给定卷积特征张量x的矩阵视图xik,其中i索引N个空间位置之一,k索引K个特征平面之一,我们的目标是抑制与识别任务不相关的那些激活xi也就是说,我们寻找一个形状为1×N的函数,使得参数w可以以一种方式进行调整,即<$(x,w)<$x是判别式特征识别。自我中心活动识别这些可以来自对象、手或表示操纵期间对象-手交互的隐含模式我们的设计是基于这样的假设,即有一个有限数量的模式类别是相关的活动识别任务。然而,每个类别本身都可以实例化在执行期间和执行之间具有高度可变性的模式。因此,我们想让MySQL根据当前输入x从特定于类别的映射池中进行选择。我们既要选择器,也要池的映射是可学习的和自一致的,并实现较少的可调参数。带有参数w的选择器将图像特征x映射到类别得分空间C中,从该空间返回获得最高得分的类别c∈C。我们的选择子是形式c∈c =arg maxcπ(θ c(x),θc),其中θc∈w是对范畴c给x打分的参数.如果π是等变的,则π(π(x),θc)=π(π(x,θc)),我们可以使用{θc(π(·,θc)),c∈C}作为与θ c相关联的猫特定映射的池。这里,n表示n-正交约简,例如.如果λ是沿一个维度的最大池化,那么λ是沿其他维度的最大池化。也就是说,我们的池模型是由三元组(θ c)=(θ c,π,{θc}),π是θ-等变的(11),并通过以下方式在特征张量x上实现:n(x,{θ c})=ǫ(π(x,θcθ))( 12)其中cθ= arg maxπ(π(x),θc)(13)C在我们的模型中,(x)← 空间平均池π(θ c,θ c)←线性映射所以θ c(x,{θc})是一个可微空间映射,即,我们可以使用x2作为x的可训练注意力模型。 这与为区分引入的类激活映射[42]有关。本地化然而,请注意,与[42]使用强监督直接训练选择器相反,我们利用视频级注释来隐式学习视频分类的 我们的表述也是一种概括:对于缩减的分层,其它选择也是可能的,并且在这种情况下,可微分结构层的使用[14]是未来工作的一个有趣方向。为了在LSTA中膨胀注意力,我们引入了一个新的状态张量at,形状为N×1。它的更新规则是标准LSTM的更新规则(等式2)。5)其中门控(f a,ia,st)和从池化的ν a=f(xt,w a)计算的创新a作为输入(等式2)。4). 我们使用隐藏状态stn(at)作为残差来计算注意力张量s(等式2)。6),然后进行softmax校准。等式在图7-10中,基于滤波后的输入s_t来实现LSTA存储器更新,这将在下面描述。4.2. 输出池如果我们分析标准的LSTM Eq. 2,输入为sxt而不是xt,很明显ot−1(输出门控)对ct−1的影响与s(注意力)对xt的影响相同。事实上,在Eq.7门控和新息都是从[s<$xt,ot−1<$η(ct−1)]计算出来的。我们建立在这个类比,以提高输出门控能力的LSTA和,conse-最近,它的记忆跟踪的遗忘更新行为9958池化我们在最新的输出门控中引入了注意池而不是计算的t作为方程。2我们将sxt替换为νcct,以获得更新方程。9-10,也就是说LSTA生成用于对输入特征进行加权的注意力图。我们选择512作为LSTA内存的深度,所有门都使用3×3的内核大小。我们σ(Wo[sxt,ot−1n(c)t−1)])←标准门控使用内部状态(CT)进行分类。我们遵循两个阶段的训练。在第一阶段中,分类器和LSTA模块被训练,而在第二阶段中,σ(Wo<$[νc<$ct,ot−1<$η(ct−1)])其中ν c=<$(ct,w c+w o <$(s <$xt))←输出这一选择的动机如下。我们希望保留输出门控的递归特性, 右连接ot−1<$n(ct−1)到 获得2N×K形张量进行卷积和tanh逐点。由于新的记忆状态ct在这个阶段是可用的,它已经积分了sxt,我们可以使用它来进行左连接,而不是原始的注意力池输入ten-sor。这类似于输出门中的窥视孔连接 我们甚至可以制作一个过滤后的版本如果我们引入第二个注意力集中神经元,定位ct的实际辨别记忆分量,即通过vc,等式9.请注意,ct通过设计集成了来自过去内存更新的信息,因此在这里非常需要本地化当前激活因此,与特征张量xt相反,记忆激活可能不会在空间上很好地定位因此,我们使用一个稍微不同的版本的方程。12对于输出池,我们删除从而得到一个满秩的N×K型注意力张量νc。为了进一步增强主动记忆定位,我们使用sxt来控制注意力池的偏置项,方程。9.我们应用一个约简函数(sxt),然后使用可学习参数wo进行线性回归,以获得激活映射的实例特定偏差w o(sxt)请注意,是与相关的减少,因此这是一致的。我们将在SEC中使用类似的想法5.3用于双流体系结构中的跨模态融合我们的消融研究在Sec.6.4证实了ct与xt的这种进一步耦合大大提高了LSTA递归中的代数蒸馏,从而提高了其跟踪能力。5. 双流体系结构在本节中,我们解释了我们的网络架构,为自我中心的活动识别纳入LSTA模块的SEC。4.与大多数针对动作识别提出的深度学习方法一样,我们也遵循双流架构;一个流用于编码来自RGB帧的外观信息,第二流用于编码来自光流栈的运动信息。5.1. 关注外观流该网络由在imageNet上预训练的ResNet-34组成,用于图像识别。我们使用ResNet-34的块conv5_3从这个帧级特征,第二阶段,训练最终块(conv5_x)中的卷积层和ResNet-34的FC层以及在阶段1中训练的层。5.2. 注意运动流我们使用一个在光流栈上训练的网络进行显式运动编码。为此,我们使用ResNet-34 CNN。网络首先在动作动词(take,put,pour,open等)上进行训练使用5帧的光流堆栈。我们对imagenet预训练网络的输入卷积层中的权重进行平均,并将其复制10次以初始化输入层。这类似于在外观流上完成的imageNet预训练。然后,网络被训练用于活动识别,如下所示。我们使用动作预训练的ResNet-34 FC权重作为注意力池的参数初始化(等式2)。12-13)对conv5_3流动特征的影响。我们使用这个注意力地图来加权分类的特征由于活动在时间上位于视频中,并且它们本质上不是连续的,因此我们取对应于位于视频时间中心的五个帧的光流5.3. 跨模态融合大多数具有两个流架构的现有方法通过对来自外观和运动流的输出进行平均来执行简单的后期融合[29,38]。Feichtenhofer等[7]提出在最终卷积层的输出处的池化策略,用于改进两个流的融合在[6]中,作者观察到,从运动流到外观流添加残余连接使网络能够改善流经两个受上述观察结果的启发,我们在网络的早期层中提出了一种新的跨模态融合策略,以促进两种模态之间的信息流在所提出的跨模态融合方法中,每个流用于控制另一个流的偏差,如下所示。为了对外观流执行跨模态融合,来自运动流CNN的conv5_3的流特征被应用为LSTA层的门的偏置。相反,为了对运动流执行跨模态融合,来自RGB流CNN的conv5_3的特征序列被3D卷积为摘要特征。我们在运动流中添加了一个内存大小为512的ConvLSTM单元作为嵌入层,并使用RGB摘要功能来控制ConvLSTM门的偏置。9959通过这种方式,每个单独的流都会影响另一个流的编码,这样我们就在神经网络的深处拥有了它们之间的信息流然后,我们对两个单独的流的输出执行后期平均融合,6. 实验和结果6.1. 数据集我们在四个标准的第一人称活动识别数据集上评估了所提出的方法,即GTEA 61,GTEA 71,EGTEAGaze+和EPIC-KITCHENS。GTEA61和GTEA 71是相对较小规模的数据集,分别有61和71个活动类别。EGTEA凝视+ 是一个最近开发的大规模数据集,大约有10K个样本,有106个活动类。EPIC- KITCHENS数据集是目前最大的以自我为中心的活动数据集。该数据集由超过28K的视频样本组成,包含125个动词和352个名词类。6.2. 实验设置首先分别训练外观和运动网络,然后组合训练两个流交叉模态融合网络。我们训练网络以最小化交叉熵损失。在阶段1中,以0.001的学习率训练外观流200个时期,在25、75和150个时期之后以0.1的速率衰减。在第二阶段,网络以0.0001的学习率训练100个epoch。在25和75个epoch之后,学习率衰减0.1。我们使用ADAM作为优化算法。从视频中均匀采样的25帧 在对GTEA 61的固定分割进行经验评估后,GTEA 61和GTEA 71数据集的输出池中使用的类数(4.2中的wc)选择为100。对于EGTEA Gaze+和EPIC-KITCHENS数据集,根据活动类别数量的相对增加,该值分别缩放为150和300对于动作分类任务的运动流的预训练,我们使用0.01的学习率,其在75、150、250和500个时期之后减少0.5,并且训练700个时期。在活动分类阶段,我们训练网络500个epoch,学习率为0.01.学习率在50和100个时期后衰减0.5。SGD算法用于优化网络的参数更新对于GTEA 61和GTEA 71数据集,双流网络被训练200个epoch,而EGTEA被训练到100个epoch,使用ADAM算法的学习率为0.01学习率在每个epoch之后降低0.99。对于所有网络,我们使用32的批量大小。我们使用随机水平翻转和多尺度角落裁剪技术-消融准确度(%)基线51.72基线+输出合并62.07基线+注意力集中66.38基线+合并68.1LSTA74.14LSTA双流后融合78.45LSTA双流跨模态融合79.31表1:GTEA 61固定劈裂的消融分析6.3. 消融研究对GTEA 61数据集的固定分割进行了广泛的消融分析2,以确定LSTA的每个组件获得的性能改善结果见表。1,它比较了RGB和两个流网络的性能,分别在顶部和底部的部分我们选择一个具有vanilla ConvLSTM的网络基线模型的准确度为51。百分之七十二然后,我们分析了第4节中解释的每一种贡献的影响。我们首先分析了输出池化对基线的影响。通过增加输出池,性能提高了8%。我们分析了通过在基线模型上添加输出池来改进的类,并观察到主要的改进是通过预测正确的动作类来实现的输出池使网络能够传播一个过滤后的版本的内存,这是本地化的最有区别的组件。将注意力池添加到基线可以将性能提高14%。注意力池使得网络能够识别输入帧中的相关区域,并保持在过去帧中看到的相关区域的历史这使得网络具有更平滑的轨迹-关注区域。详细的分析表明,注意力池使网络能够正确地分类具有多个对象的活动。应该注意的是,这相当于具有两个ConvLSTM的网络,一个用于注意力跟踪,一个用于帧级特征跟踪。将注意力池和输出池都添加到基线上,可以获得16%的收益。通过分析改进后的类,我们发现该模型提高了正确分类动作和对象的能力。通过增加偏置控制,如第2节所述。4.得到了LSTA模型,识别精度提高了6%与使用vanilla ConvLSTM的网络相比,LSTA实现了22%的改进。从前面的这使得网络能够专注于编码与niques在[38]中提出的训练和中心作物在推理期间使用帧的2详细分析见补充文件。9960方法准确度(%)[41]第四十一话59.48[32]第三十二话63.79LSTA74.14[32]第三十二话77.59LSTA双流79.31表2:GTEA 61固定分割的对比分析ego-rnn [32].结果见表1。2. EleGAtt是一种注意力机制,可以应用于任何通用RNN,使用其隐藏状态来生成注意力地图。我们在LSTM上评估了eleGAtt,它由512个隐藏单元组成,具有与LSTA相同的训练设置,用于公平计算。EleGAtt学习单个权重矩阵以生成注意力图,而不考虑输入,而LSTA从权重池生成注意力图具体分类任务。详细的分析表明,ConvLSTM混淆了两个活动,涉及相同的动作与不同的对象,以及活动组成的不同的动作与相同的对象。通过注意力机制,LSTA对最具判别力的特征进行加权,从而允许网络区分不同的活动类别。我们还评估了通过将注意力应用于运动流所实现的性能改进。基线是一个ResNet-34预先培训的行动,然后是活动培训。我们得到了40的准确度。52%的人对网络有关注,相比之下,36. 基线的21%图2(第四行)可视化了网络生成的注意力为了可视化,我们将调整大小的注意力图覆盖在对应于用作输入的光流栈的RGB帧上。从图中可以看出,网络在发生判别运动的手周围/附近生成注意力图,从而使网络能够识别用户进行的活动。 也可以看出,外观流和流量流生成的注意力图是相辅相成的;出现流聚焦于对象区域,而运动流聚焦于手区域。我们还分析了与标准流网络相比,具有注意力的网络表现更好的类别,发现具有注意力的网络能够比标准网络更好地识别动作。这是因为注意力机制使网络能够关注帧中发生运动的区域。接下来,我们将比较第2节中解释的跨模态融合技术的性能。5.3而不是传统的后期融合双流方法。跨模态融合方法比后期融合提高了1%。分析表明,跨模态融合方法能够正确地识别具有相同对象的活动。第五和第六行的图。2可视化跨模态融合训练后生成的注意力地图。可以看出,运动流注意力扩展到包含对象的区域这验证了跨模态融合的效果,其中两个网络在网络内部进行交互。6.4. 比较分析在本节中,我们比较了LSTA与两种密切相关的方法的性能,即eleGAtt [41]和其基于输入以自顶向下的方式被选择。这使得能够为每个输入活动类选择适当的注意力图这使得性能比eleGAtt提高了13%。通过分析LSTA与eleGAtt相比具有最高改进的类,可以发现el-eGAtt在正确分类动作时无法识别对象。Ego-rnn [32]从类激活图中导出一个注意力图,以对图像中的判别区域进行加权,然后将其应用于ConvLSTM单元进行时间编码。它生成每帧的注意力图,该注意力图不依赖于先前帧中存在的信息。这可能导致在相邻帧中选择不同的对象。相反,LSTA使用注意力记忆来跟踪先前的注意力图,使得能够平滑地跟踪它们。 这导致LSTA比ego-rnn获得10%的改进。对分类结果的详细分析表明,ego-rnn难以对涉及多个对象的活动进行分类。由于在每帧中生成的注意力地图与前一帧无关,因此网络无法跟踪异常激活的区域,从而导致错误的预测。这一点可以通过在图2中可视化ego-rnn和LSTA产生的注意力地图来进一步说明。2.从图中可以看出,ego-rnn(第二行)在接近巧克力示例的情况下未能识别相关对象,并且在勺咖啡示例的情况下未能跟踪最终帧中的对象LSTA与跨模态融合性能比ego-rnn两个流好2%6.5. 最新技术水平比较我们的方法进行了比较,对国家的最先进的方法选项卡。3.表中第一部分列出的方法使用强监督信号,如凝视[16,15]、手部分割[21]或对象边界框[21]在训练阶段。两个流[29],I3D [3]和TSN [38]是针对第三人称视频的动作识别提出的方法,而除eleGAtt[41]被提议用于第一人称活动识别。ele-GAtt [41]被提出作为将注意力机制并入任何RNN模块的通用方法从表中,我们可以看到,所提出的方法优于所有现有的自我中心活动识别方法。在EPIC-KITCHENS数据集中,标签以动词和名词的形式提供,它们组合在一起形成一个活动类。并不是所有的动词组合9961关闭巧克力勺咖啡图2:ego-rnn(第二行)和LSTA(第三行)为两个视频序列生成的注意力地图。我们展示了从用作相应网络输入的25帧中均匀采样的5帧。第四行示出了由运动流生成的注意力图第五行和第六行显示了在两个流交叉模态训练之后由外观流和流流生成的注意力图对于心流,我们将注意力地图可视化在五个帧上,到作为输入给出的光流堆栈(图1:双流跨模态融合训练后获得的注意力地图我们比TSN获得了+10%的积分在这种情况下,动词通常描述随着时间的推移发展成活动的动作,再次确认LSTA有效地学习了具有本地化模式的序列编码。表3:与流行的自我中心数据集上的最新方法进行比较,我们报告了%.(:固定分割;:在强有力的监督下接受培训名词是可行的,并且不是所有的测试类都可能具有代表性的训练样本,这使得它成为一个挑战性的问题。我们用动词、名词和活动监督训练网络进行多任务分类。我们使用活动量词激活来控制动词和名词量词的偏向。该数据集提供了两个评估设置,可见厨房(S1)和不可见厨房(S2)。我们得到了30的准确度。16%(S1)和15。88%(S2)使用RGB帧。性能最好的基线是达到20的双流TSN。54%(S1)和10。89%(S2)[4]。我们的模型在动词预测方面特别强大(58%)7. 结论我们提出了LSTA,它扩展了LSTM的两个核心功能:1)注意力池化,其在空间上过滤输入序列,以及2)输出池化,其在每次迭代时暴露存储器的提取视图。如在详细的消融研究中所示,这两个贡献对于视频的潜在表示的平滑和集中的跟踪是必不可少的,以在分类任务中实现优异的性能,其中区分性特征可以被空间地定位。我们证明了它的实际好处自我中心的活动识别与两个流CNN-LSTA架构,具有一种新的跨模态融合,我们实现了国家的最先进的准确性四个标准基准。鸣 谢 : 这 项 工 作 得 到 了 西 班 牙 项 目 TIN 2016 -74946-P( MINECO/FEDER , UE ) , CERCA 计 划 /Generalitat deCatalunya和ICREA学术计划下的ICREA的部分支持。我们非常感谢NVIDIA公司捐赠用于本研究的GPU。流量计自我RNNLSTA输入流LSTA方法GTEA61系列GTEA61GTEA71EGTEALi等[16]第16话66.86462.146.5Ma等人[21]第21话75.0873.0273.24-Li等[15]第十五话---53.3两个流[29]57.6451.5849.6541.84I3D [3]---51.68TSN [38]67.7669.3367.2355.93[41]第四十一话59.4866.7760.8357.01[32]第三十二话77.59797760.76LSTA-RGB74.1471.3266.1657.94LSTA79.3180.0178.1461.869962引用[1] P. Anderson,X.他,C. Buehler、D. Teney,M.约翰逊,S。Gould和L.张某自下而上和自上而下关注图像字幕和视觉问答。在Proc. CVPR,2018中。[2] C. Cao,Y. Zhang, Y. Wu,H. Lu,and J. Cheng.使用具有时空Transformer模块的递归3d卷积神经网络进行自我中心手势识别。InProc. ICCV,2017.[3] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在Proc. CVPR,2017中。[4] D. Damen , H. 道 蒂 , G.M.Farinella , S. 菲 德 勒 ,A.FurnariE. Kazakos,D. Moltisanti,J. Munro,T. Perrett,W.Price和M.雷扩展以自我为中心的愿景:epic-kitchens数据集。Proc. ECCV,2018。[5] W.杜,Y. Wang和Y.乔用于视频中动作识别的递归时空注意力网络。IEEE Transactions on Image Processing,27(3):1347[6] C. Feichtenhofer、A. Pinz和R.王尔德 用于视频动作识别的时空残差网络。在Proc. NIPS,2016中。[7] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在Proc. CVPR,2016中。[8] F.A. Gers和J. Schmidhuber。循环网的时间和计数。在IEEE-INNS-ENNS国际神经网络联合会议(IJCNN)的会议记录中,2000年。[9] F.A. Gers,J. Schmidhuber,and F.康明斯学会遗忘:使用LSTM进行连续预测。神经计算,12(10):2451[10] R. Girdhar和D. Ramanan动作识别的注意力集中。在Proc. NIPS,2017年。[11] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。InProc. ICCV,2017.[12] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残差在Proc. CVPR,2016中。[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经元计算,9(8):1735[14] C.约内斯库岛Vantzos和C.斯明奇塞斯库具有结构层的深度网络的矩阵反向传播。在Proc.CVPR,2015中。[15] Y. Li,M. Liu和J.M.瑞格在旁观者眼中:第一人称视频中凝视和动作的联合学习。Proc. ECCV,2018。[16] Y. Li,Z.是的,还有J.M.深入研究自我中心行为。在Proc.CVPR,2015中。[17] Z. Li,K. Gavrilyuk,E. Gavves,M. Jain和C.G.M. 斯诺克Videolstm卷积、参与和流动以进行动作识别。计算机视觉和图像理解,166:41[18] J.梁湖,澳-地江湖,澳-地曹湖,加-地Li和A.豪普特曼视觉问答的视觉-文本焦点注意。在Proc. CVPR,2018中。[19] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角Fu 和 A.C. 伯 格 。 Ssd : 单 发 多 盒 探 测 器 。 在 Proc.ECCV,2016中。[20] C. Ma,A.卡达夫岛Melvin,Z.基拉湾AlRegib和H.P.格拉夫参与并互动:用于视频理解的高阶对象交互。在Proc. CVPR,2018中。[21] M. Ma,H. Fan和K.M.喜谷更深入地研究第一人称活动识别。在Proc. CVPR,2016中。[22] D. Nguyen和T.冈谷通过密集对称共同关注改进视觉和语言表示的融合,用于视觉问题回答。在Proc. CVPR,2018中。[23] A.皮尔乔瓦尼角Fan和M.S.亮使用时间注意力过滤器学习活动视频中2017年AAAI人工智能会议[24] M.S.柳湾Rothrock和L.玛蒂第一人称视频的合并运动功能。在Proc.CVPR,2015中。[25] S.夏尔马河,巴西-地Kiros,和R.萨拉赫季诺夫使用视觉注意力的动作识别。InProc. ICLRW,2015.[26] Y.申湾Ni,Z. Li和N.庄。通过事件调节注意预测自我中心活动。Proc. ECCV,2018。[27] X. 施,Z.Chen,H.Wang,中国山杨D.杨,W。Wong和W.哇哦。卷积LSTM网络:降水临近预报的机器学习方法。在Proc.NIPS,2015中。[28] G. Sigurdsson
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功