基于交互感知的时空金字塔注意网络的动作分类

5 浏览量更新于2023-10-13 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于交互感知的时空金字塔注意网络的动作分类杨度1、 2、 3，袁春风2、李兵2、赵丽丽3、李洋西4、胡伟明21中国科学院大学2中科院脑科学与智能技术卓越中心，中科院自动化研究所模式3美图、4国家计算机网络应急技术小组/协调中心duyang2014@ia.ac.cn，{cfyuan，bli，wmhu} @ nlpr.ia.ac.cn，lili.meitu.com，liyangxi@outlook.com抽象。特征图中相邻空间位置处的局部特征具有高相关性，因为它们的感受野通常重叠。自注意通常使用每个局部特征的内部元素的加权和（或其他函数）来获得其权重得分，这忽略了局部特征之间的相互作用。为了解决这个问题，我们提出了一个有效的互动意识的自我注意力模型的启发PCA学习注意力地图。此外，由于深度网络中的不同层捕获不同尺度的特征图，因此我们使用这些特征图来构建空间金字塔，然后利用多尺度信息来获得更准确的注意力分数，该分数用于对特征图的所有空间位置中的局部特征进行加权以计算注意力图。此外，我们的空间金字塔注意力不受其输入特征图的数量限制，因此很容易扩展到时空版本。最后，我们的模型被嵌入到一般的CNN中，形成端到端的注意力网络，用于动作分类。实验结果表明，该方法在UCF101、HMDB51和未裁剪的Charades上取得了较好的效果。1介绍视频中的人类动作识别[1，2，3，4，5，6]在计算机视觉中占据重要地位基于CNN的方法[7，8，9，10]在图像分类方面取得了很大进展此外，有更多的标记图像来训练网络比标记的视频数据。鉴于这两点，许多方法通过基于图像的分类方法组合来自视频的图像的预测然而，视频不仅在帧内拥有大量与人类行为无关的信息，而且还包含更多的时间信息。通讯作者2杨度等注意力[11，12]使模型能够区分不相关的信息，以便专注于关键信息。硬注意和软注意是两种典型的方式。硬注意通常需要进行硬二进制选择，面临训练问题，而软注意使用加权平均而不是硬选择。在动作识别中，许多现有方法[13，14]通常使用基于CNN或RNN的架构来提取通道级或帧级局部特征，随后通过将LSTM与软注意力相结合来建模通常，需要补充源来通过LSTM预测下一次的注意力分数，因此需要大量的计算成本。自我注意[12]是一种软注意，可以通过在特征之上执行而无需额外输入来降低计算成本，并且它也是非局部网络[15]的一种特殊形式，通过使用注意力分数来加权所有特征以获得显着特征。特征图中相邻空间位置处的局部特征具有高相关性，因为它们的感受野经常重叠。然而，特征之间的交互信息往往被忽略，在自我注意，因为每个特征的注意力得分通常是由该特征的内部元素的加权和（或其他函数）计算我们提出了一个交互感知的时空金字塔注意层。它被嵌入到一般的CNN中，以生成用于视频动作分类的更具区分性的注意力网络。首先，注意力使模型能够提取具有高注意力分数的关键特征，就像PCA提取具有主成分的关键特征一样。PCA通过最小化协方差矩阵的迹，利用特征之间的相互作用信息来获得用于投影的基向量。受主成分分析的启发，我们提出了一种交互感知的自我注意，通过使用交互信息来训练他们的注意力分数。其次，考虑到特征金字塔[16，17]为特征表示提供了多分辨率的重要优势，我们堆叠不同层的特征图以构建空间金字塔。然后，我们对金字塔中的通道级特征执行交互感知的自注意，以获得更准确的注意力分数，该分数用于聚合金字塔的顶层，以获得更具区分力的注意力图。第三，基于时空检测[18，19]的方法也具有良好的性能，因此有希望使用注意力来检测视频中的显著时空区域。因此，我们将空间金字塔的注意力扩展到时空版本，以检测和利用视频中的关键信息。此外，我们的模型是无关的时间序列顺序，是兼容的任何数量的帧。贡献：（1）我们提出了一个受PCA启发的交互感知的自我注意。(2)我们建议构建一个空间特征金字塔，以获得更准确的注意力地图的多尺度信息。(3)我们将我们的层扩展到时空版本，该版本接受任何数量的帧，即使我们的层的架构和参数是确定的。(4)我们的层能够应用于任何CNN，以形成端到端的注意力网络。最后，我们在UCF 101，HMDB 51和未修剪的Charades数据集上验证了我们从三个基线网络VGGNet-16，BN- Inception和Inception-ResNet-V2生成的注意力网络，并获得了最先进的结果。ISTPAN行动分类32相关作品深度网络：近年来，基于CNN的神经网络方法在神经网络图像处理方面取得了很大的进展。年龄识别与手工制作的功能相比[20，21，22，23，24，25]。Two-Stream ConvNet [26]首先使用基于图像的识别方法来解决视频分类问题，方法是将视频中均匀采样帧的分类得分Deep ConvNets [27]使用不同层的融合，并在大规模数据集（如Sports-1M）上进行训练时间段网络[28]将视频分为多个部分，分别使用双流ConvNets 。基于 ResNet [7] 的 ST-ResNet [29] 也采用双流架构。 3DConvNet [30，31，32]扩展了2D ConvNet，以直接使用视频进行训练，但它需要大量的计算和更大的数据集（如Kinetics [32]）上的更多预训练。作品[33，34]探索了基于时空卷积的视频表示这些方法平等地对待每一帧或每一个时空区域的信息。性能受到限制，因为很难有效区分关键特征。许多深度网络被用于对时间结构进行建模，例如递归神经网络（RNN）[35]或其变体，例如长短期记忆（LSTM）[36，37，38，39]或CNN [39，40]。注意方法：硬注意通常需要添加额外的信息来增强原始模型。[41，42]提出了用于对象识别的注意力RNN，通过进行硬二元选择来选择区域R*CNN[43]使用辅助框来编码除人类边界框之外的上下文[44]使用整个图像作为上下文，并使用多实例学习（MIL）来记录图像中的所有人，以预测输入图像的动作标签。软注意使用加权平均而不是硬选择。 Sharma等人 [13]在RNN之上提出了一个软注意力LSTM，以关注视频帧的突出部分进行分类。Li等人 [45]提出了一种称为VideoLSTM的端到端序列学习模型。然而，这些软注意力模型也需要辅助信息来指导权重平均。Girdhar和Ramanan[46]提出了在最后一层添加无约束的自注意力池，以在CNN之上生成全局表示Long等人[47]提出了一种注意力聚类方法，利用自注意力融合每帧图像的局部特征。Ma等人。 [48]提出了一种模型，通过关注关键的图像级表示来用LSTM总结整个视频序列以前的基于注意力的方法通常集中在帧级深度网络上，并且平均性能有限。我们提出了一种交互感知的自注意方法来加权特征图的通道，并使用不同尺度的特征图来构建空间金字塔，以获得更准确的注意分数。最后，我们的层的时间扩展可以适应视频级框架的动作分类。3交互感知的时空金字塔注意在本节中，我们首先提出了一个受PCA启发的该层可以插入到一般CNN中以形成4杨度等空间金字塔交互式注意力层下采样F'N 1+=WiHCN 1X不N 1BattnN1Yi-N +1下采样SoftmaxL2标准化F'i1+=WiHCi1=M'F'XT我i1B联系人1Yi-1一我WiHiCi我+=X 我M 我WiHiCiXT我battnYi我转置fi1保留不变的大小，以便嵌入到一般网络中Kj=i−N+1fN1Fig. 1. 我们的空间金字塔互动注意层的插图。我们使用不同层中不同大小的特征图来构建多尺度注意力，以获得更准确的空间注意力。端到端注意力网络，其中该层可以生成更具区分性的注意力特征图。接下来，我们将我们的层扩展到时间版本，用于聚合视频中的动作分类的时间序列然后，我们给出了我们的网络的修改的损失函数最后，我们给出了实施细节。3.1交互感知的空间金字塔关注层CNN通常通过平等对待每个局部区域来提取特征图。我们的目标是在一个卷积层之后将注意力层添加到一般CNN中，以强调关键局部区域的特征，并进一步提高网络的性能设fi∈RWi×Hi×Ci表示网络第i层的一组特征映射，其中Wi，Hi，Ci是特征映射的空间大小和通道数我们将fi展平为Xi∈RWi Hi×CiiTiTiTT. X1可以被认为是堆叠的行X1=[h1，h2，...，hWiHi]，其中hi∈R1×Ci是位于fi，表示其在输入图像中的感受野的局部特征我们提出了一个交互感知的空间金字塔注意力层来生成判别d特征Mi∈Rd×Ci 从局部特征{hi}WiHi.保存k k=1在第i层后面的网络的架构不变的情况下，我们设置d=′W ×H ×C我爱你然后，将Mi重新整形为注意力映射Mi∈Ri i i。具体来说，我们使用第i层和第i层之前的特征图。构造特征金字塔{fj∈ RWj×Hj ×Cj}|我，其中N是金字塔层数，如图1所示。然后，我们向下采样特征除了金字塔的顶层之外映射以适合顶层的空间大小，. （fj），j=i-N+1，...，i-1，′W ×H ×Cfj=fi，j=i。，其中fj∈Rii j，（1）其中，f（·）是下采样函数。适应多个要素地图伊{fj}|j= i-N +1，对于不同的通道，我们对通道执行自关注ISTPAN行动分类5K我我我n=1j′向量h.也就是说，给定从fj展平的Xj，我们获得注意力分数matixYjbidXj，其被公式化为Yj=WattnXTbattn，其中Wattn∈Rd×Cj，XT∈RCj×WiHi，（2）其中WattnJJ={wjJ∈R1×Cj}dJbattnJ∈Rd×1={bj}d是可训练jm m=1jk k=1权重和偏差。符号表示WattnXT的每一列加上JJB. 此外，令Y=[yjT，yjT，…yjT]T，其中yj∈R1×WiHi 没有了收件人jj1 2d与每个第j层特征的所有空间位置相对应的注意力分数m aps. Eachscenyj是由wjhjT+bj定义的独立计算，其含义是m k m通过使用两种类型的索引来计算h的值。因此，我们利用一个最大函数来求正规的yj∈R1×WiHiton归一化注意力得分矩阵A=[aiT，aiT，…aiT] T，其中ai∈i1 2dR1×WiHi.考虑空间金字塔，ai计算如下：ai= softmax（F（yi-N+1，… yi−1，yi））。（三）F是针对该平台中的所有层中的yj的一个功能。本文详细研究了三种融合函数：逐元素最大值、逐元素和不元素乘法然后，a被L2归一化[49]以保持aa= 1.最后，Ai用于聚合第i层的平坦化特征图Xi，以获得更具区别性的表示Mi，如下所示：Mi= AiXi，其中Mi∈ Rd×Ci，Ai∈ Rd×WiHi，Xi∈ RWiHi×Ci.（四）讨论：注意力机制通过使用注意力分数对特征进行加权来从特征集中提取关键特征，而PCA通过使用一组基向量来投影特征来提取关键特征。所以，我们给出了一个关于自我注意过程的另一个见解。Xi也可视为堆叠列Xi=[vi，vi，...，[vi]和vi ∈RWiHi×1表示一个平坦的整体12C按通道划分的特征图我们使用PCA来生成关键特征M∈Rd×Ci 具有来自堆叠柱{vi}C的. 让m m=1S= [e1，e2，…ed] T是正交基向量的集合{en}d∈RWiHi×1，在其上投影V以提取主成分。因此，通过主成分分析，我们得到Mi=SXi∈Rd×Ci，这与等式（1）中Mi的形式相同4.第一章PCA与注意机制之间存在着微妙的对应关系，即即使a和e的计算方式不同，注意得分ai∈RWiHi×1也与基向量e∈RWiHi×1相换句话说，如果我们从被认为是堆叠通道级特征的Xi提取关键特征，则这是注意力处理，以及如果从被认为是由通道划分的堆叠特征的Xi提取此外，E q中的“b a tt n j”。图2可以被描述为在PCA的中心概率（减去平均值）到目前为止，我们的自我注意力实际上是PCA的简化版本，因为没有人通过对如Eq.6杨度等我我j=i−N+1J2，通过对h本身进行加权来获得h的每个注意力分数在PCA中S通常通过协方差矩阵Xi X T的特征值分解来获得。这里我们使用另一种等价形式[50，51]，S= argminS-tr（SXiXTST），其中S∈Rd×WiHi，Xi∈RWiHi×Ci，S.T. SST= I。（五）PCA使用协方差矩阵来获得S，并且以这种方式它利用了特征之间的非局部相互作用。受PCA的启发，我们添加了一个交互感知的损失项，以生成一个交互感知的空间金字塔注意层，它使用通道特征h之间的非局部交互信息，以进一步提高自我注意的有效性。交互感知丢失的详细信息在第3.3节中给出。3.2时间聚合我们的交互感知空间金字塔注意力层不仅可以接受单个图像，还可以接受多个帧作为输入。我们可以很容易地将其扩展到基于原始深度CNN的时间架构。所得到的时空金字塔注意网络对时间序列进行建模，并检测关键时空信息。首先从视频中抽取K帧，输入到网络中，直到第i层，提取K组特征映射Fi∈RK×Wi×Hi×Ci，并将其展平为Xi∈RKWiHi×Ci。为了在第i层之后保持网络的参数和结构不变，我们寻求聚合Fi′W ×H ×C分解为一组与fi大小相同的特征映射Mi∈Rii i。为了解决这种聚合，我们首先构造特征金字塔{Fj}|我d×Cjd×1由Kframes. 设d=WiHi，Wattnj∈R，battn∈R. ITIS有趣的是，注意到多个帧的W和b具有与在Eq中的a个帧的h相同的形式。二、这是最好的方法特征图的两个通道此外，输出注意力图的大小被固定为d=Wi×Hi，这也是原始CNN中第i层的大小因此，只要选择构建时空金字塔的CNN的特征图，参数就被确定并且与K无关。基于这一事实，我们可以方便地使用不同数量的帧来训练和测试我们的网络。最后，通过用 Fj 代替 fj 并用 Xj∈RKWiHi×Cj 代替Xj∈RWiHi×Cj，在等式（1）中，（1）（2）（3）（4），我们得到聚合注意力′特征M，然后将其重塑为注意力图Mi。3.3损失函数我们首先提出了我们的互动意识的损失的具体形式的PCA的启发PCA的原始形式在等式（1）中示出五、我们使用Ai来表示S，然后将该损失函数变为可导出的形式，如下所示：l交互式=−X（（AiXiXTAT）◦I）+Y（（AiAT）◦（1− I）），（6）我我我ISTPAN行动分类7m，kθ其中1∈Rd×d和I∈Rd×d分别是全1矩阵和单位矩阵，◦是逐元素乘法。X和Y分别是元素和与元素平方和最小化第二项在AiAT的对角线之后获得约束AiAT已经我我因为ai是L2归一化的，如第3.1节所述。为了进一步增强注意力图的代表能力，我们提出了一个正则化的注意力分数。具体地，ai表示通过时空金字塔的所有尺度计算的注意力分数，并且max（yi ）的s表示通过金字塔的尺度获得的注意力分数。为了充分利用金字塔不同尺度的信息，使每个尺度尽可能地集中在不同的部分，我们试图将距离δ最大化，并将距离1-δ2最小化。我们定义δj，m，k（∈[0，1]）如下，δj，m，k=||ai−softmax（yj）m，k||，m=l，… d，k=l，… KWiHi. （七）随后，我们给出了我们注意力流失的具体形式，如下，. ΣΣ Σlattn=jm k2j，m，k）的情况。（八）我们将交叉熵损失用于分类损失，并且最终损失被公式化如下：L=− 1ΣK ΣCKΣyt，clogyt，c+λw2+βl交互+γlattn，（9）t=1c =1θ当yt在hot_l_a_b_v_t上时，yt是由第t帧获得的c_l_as_p_a_b_b_v_t的v_b_t。λ、β和γ是权重衰减系数。wθ是网络的可训练权重。C是类号。3.4实现细节网络架构：我们将交互感知的时空金字塔注意力层纳入一般CNN中，以形成端到端的注意力网络，用于动作分类。我们采用双流[26]架构并分别研究VGGNet-16 [9]，BN-Inception [52]和Inception-ResNet-V2 [10]所提出的注意力网络的框架如图2所示。我们使用最大池作为黎明采样（·），因为最大池在我们的实验中略此外，最大限度地减少成本并不意味着在任何情况下都可以实现。 S〇wesetm ax p〇li ngas（·）。训练：在RGB流中，我们使用0.5的dropout，性能良好由于空间网络将RGB图像作为输入，因此很自然地使用在ImageNet [53]上训练的模型作为初始化。在Flow流中，我们使用0.7的dropout来避免小流量数据集上的过拟合。通过以下[54]初始化流模型。通过执行随机裁剪/翻转来完成数据扩充（1−δ8杨度等K12流或RGB用作输入图二、拟议网络的框架将交互感知的时空金字塔注意力层插入到CNN中，以通过K帧聚合K组特征图它利用多尺度特征图来准确地聚焦于显著区域。所有的RGB和流帧。在实践中，我们遵循相同的片段设置[28，40]进行训练，也就是说，我们将视频均匀地分为3个片段，从每个片段中选择一个随机帧，然后形成K= 3的序列作为我们网络的输入。此外，我们还评估K= 1用于训练。我们使用mini-batch SGD来优化我们的模型，动量为0.9，我们将λ设为4e−5，β和γ设为1e−4，并且对于n次或k次训练，chz为64我们设置学习率如下。对于空间网络，学习率初始化为0.001，每4000次迭代降低到1/10。整个训练过程在12000次迭代时停止。对于时间网络，我们将学习率初始化为0.005，经过12000和24000次迭代后，学习率降低到1/10。最大迭代被设置为30000。测试：在RGB和Flow流的测试过程中，我们研究了K对性能的影响。我们通常使用K= 25帧进行测试，并将结果与其他基于标准实践的方法进行比较。此外，我们在第4.2节中研究更多帧（> 25）的性能。我们使用TITAN Xp×2GPU在TensorFlow [55]4实验我们在三个具有挑战性的动作分类基准上评估了我们的模型，即UCF101 [6] ， HMDB51 [5] 和未修剪的 Charades [39] 数据集。对于UCF101和HMDB51，我们使用三种不同的训练和测试分割来遵循原始评估方案。我们使用分割1进行消融分析，并通过这三个分割的平均分类准确度报告最终性能。对于Charades，我们遵循[39]的评估管道。4.1建议的注意力层的评估我们研究我们的交互感知时空金字塔关注以下五个部分：（1）用于聚合的特征图的层位置时空金字塔1突出区域CONV一不2TE+N我不是CREOLNUV一组聚合特征图分类损失+关注损失K特征映射N+互动损失KISTPAN行动分类9(2) 金字塔特征图的不同融合函数F，（3）金字塔中的层数，（4）具有消融正则化项的损失函数，以及（5）我们在不同深度网络中应用的层的通用性，包括流行的架构VGGNet-16 [9]，BN-Inception [52]和Inception-ResNet-V2 [10]。在关于（1）-（4）的实验中，如果没有特殊的解释，我们选择Inception-ResNet-V2作为基线，并且通常选择Inception-ResNet-A、B和C的最后几层而不激活，以构建3尺度交互感知时空金字塔注意力层，并在没有交互和注意的情况下优化我们的网络。层的选择近似满足在空间尺寸上的2η这三层的尺寸分别为35× 35× 320、17× 17× 1088和8× 8×2080。实验结果列于表1中。首先，为了确定哪一层特征图适合与注意力权重聚合，我们评估了用于聚合的四个不同层。具体来说，我们分别使用Inception-ResNet-A，B和C的最后一层进行聚合，而不激活。金字塔为1级，只有一个评估层。此外，我们还评估了使用最后一个全连接层进行聚合的性能，并将其特别表示为X1536×1（W∈R1536×1，b∈R1536×1）。结果在表1（a）中示出，其清楚地示出通过使用块C的最后卷积层获得最佳性能通常，全连接层丢失了很多空间位置的信息，而大空间尺寸的特征图不是很有代表性。我们探讨了不同的融合函数F的特征映射的金字塔评价RGB流。表1（c）列出了不同融合策略的比较结果。逐元素乘法的性能优于其他候选函数，因此被选为默认融合函数。在TLE [40]中获得了类似的结论，其使用逐元素乘法来更好地编码不同帧的特征图。接下来，我们分别给出了我们的时空金字塔注意力层的1尺度（仅使用金字塔的顶层）、2尺度（顶部2层）、3尺度和4尺度的性能，如表1（b）所示。使用没有我们的注意力层的Inception- ResNet-V2的结果在表1（e）中示出。结果表明，我们的1尺度注意力促进1.1%/0.9%的性能上的RGB/流量和性能可以进一步促进通过增加尺度的数量（3尺度促进2.1%/2.4%的RGB/流量）。当我们在Inception-ResNet-V2中使用Conv 2d 4a 3x 3（71× 71× 92）添加第四个尺度时，性能下降。可以解释时空金字塔注意确实是有效的，因为来自不同感受野的多尺度特征图的更多信息被考虑到局部特征的聚合。然而，当使用更大尺寸的特征图时，这些特征图的感受野变窄。然后，这些狭窄的感受野的过于局部的特征将带来噪声，导致性能下降。因此，我们使用3层（3尺度）的架构，以获得在以下实验中的时空金字塔。随后，我们评估了损失项目linteractive和lattn的有效性，如表1（d）所示。使用两个损失项的结果示于表1（e）中。比较结果表明，linteractive+lattn是有效的10杨度等块（Inception-ResNet-V2）RGB流A座（35×35 × 320）百分之八十五点八83.5%B座（17×17 × 1088）86.1% 83.7%规模RGB流1比例86.3% 84.0%2个规模百分之八十六点八百分之八十四点八融合功能（F）准确度#RGB逐元素最大值百分之八十五点七按元素之和百分之八十六点四流linternlattn没有损失RGB87.8% 87.5% 87.3%流86.1% 百分之八十五点七百分之八十五点五表1.评估（a）金字塔顶层的位置;（b）Inception-ResNet-V2（I-R-V2）的不同尺度;（c）具有3个尺度的融合函数;（d）I-R-V2和我们的注意力层的损失函数;以及3）我们在VGGNet-16，BN-Inception和Inception-ResNet-V2上的层在UCF101分割1上，K = 3用于训练，K=25用于测试(a) 金字塔顶层的位置。（b）不同规模。(c) 不同融合功能的性能。（d）具有3个尺度的损失函数。(e) 建议的注意力层在流行网络上的性能流/（l帧间+lattn）VGGNet-16 BN-inception inception-ResNet-V2RGBRGB（3个比例）80.4%百分之八十三点八84.5%百分之八十六点七85.2%88.2%流流量（3个刻度）百分之八十五点五87.1%百分之八十七点二87.9%百分之八十三点一百分之八十六点五后期融合晚期融合（3个量表）百分之九十点七92.8%百分之九十二94.6%百分之九十二点六百分之九十五点一通过在RGB/Flow/Late融合（3个尺度）上将性能提高0.9%/1.0%/0.9%。此外，与没有这两个损失项的结果相比，它们中的每一个也单独地提高了性能。最后，为了研究我们的注意力层的通用性，我们分别将其插入VGGNet-16，BN-Inception和Inception-Resnet-V2。结果如表1（e）所示。后期融合方法意味着RGB和Flow流的预测分数被平均作为最终视频分类，如其他方法[26，28，39，40]所做的那样。对于VGGNet-16，我们的注意力网络分别在UCF 101分割1上的RGB/Flow/Late融合上提升了3.4%/1.6%/2.1%对于BN-Inception，我们的模型在RGB/Flow/Late融合上分别提升了2.2%/0.7%/2.6%对于Inception-Resnet-V2，我们的模型在RGB/Flow/Late融合上分别提升了3.0%/3.4%/2.5%。我们的注意力层在这三个深度网络上的改进结果证明了我们的层对一般深度网络的通用性。没有我们的层的结果通过Two-Stream [26]标准过程获得。ISTPAN行动分类11(a) 培训K（b）测试K图三.在UCF101 split1上对每个视频的不同K采样帧进行训练和测试过程的比较。我们使用Inception-ResNet-V2的3尺度时空金字塔交互式注意力来预测视频。具体来说，我们分别调查{K= 1， 3}帧用于训练，{K= 1， 5， 10， 15， 20， 25， 30}帧用于测试。4.2时间聚合我们研究了用于训练和测试的采样帧的数量K如何影响我们基于Inception-Resnet-V2的层我们首先使用K=1，3的设置来评估性能，用于训练，K= 25用于测试。当K= 1时，我们从视频中随机采样一帧。当K= 3时，我们从视频中平均划分的K个片段中的每个片段结果示于表3（a）中。可以看出，使用时间序列训练模型有助于准确性，如时间段网络[28]所示。为了公平比较，我们在后面的实验中选择K然后，我们评估K进行测试，如3（b）所示。可以看出，当每个视频采样更多帧时，性能逐渐上升虽然更多的帧可能会带来不敬的信息，我们的注意力层能够选择出最有效的信息。由于GPU内存有限，当选择最多的帧K= 30时，我们实现了95.2%的性能对于更高容量的GPU，我们的模型的性能可能会更好。为了公平比较，我们通常显示K= 25帧[26，28，54，39]时的结果，用于测试，从视频中均匀采样。4.3与最新技术水平的比较在表2（a）中，我们列出了最新的最先进的方法和可比较的方法。我们基于BN-Inception和Inception-Resnet-V2两个基线列出我们的结果。可以看出，基于注意力的方法，如Soft Attention + LSTM，并不是很令人满意。当使用相同的K= 25个均匀采样帧进行评估时，我们的方法（BN-Inception）在UCF 101/HMDB 51上的性能优于 TSN（BN-Inception）0.8%/1.1%此外，我们将我们的方法（BN-Inception，94.8%/69.6%）与注意力聚类（ResNet-152，94.6%/69.2%）进行了比较，其中ResNet-152 [61，7]（单12杨度等表2.与UCF101，HMDB51和未修剪的Charades数据集的最新技术水平进行比较(a) UCF101和HMDB51 3次拆分算法UCF101 HMDB51C3D [34]85.2%-软注意+ LSTM [13]-41.3%Two-Stream + LSTM [57]88.6%-TDD+FV [19]90.3%百分之六十三点二RNN+FV [58]88.0%百分之五十四点三LTC [33]百分之九十一点七百分之六十四点八ST-ResNet [29]百分之九十三点五66.4%TSN（BN-Inception）94.0%68.5%AdaScan [59]百分之八十九点四百分之五十四点九行动VLAD [39]92.7%百分之六十六点九TLE（BN-Inception）[40]百分之九十五点六71.1%注意力集群（ResNet-152）[47]94.6%百分之六十九点二我们的（25帧+BN-Inception）94.8%69.6%我们的（25帧+Inception-ResNet-v2） 95.3%百分之七十点五我们的（30帧+Inception-ResNet-v2）百分之九十五点五70.7%(b) 未修剪的字谜算法地图WAP双流+iDT（最佳报告）18.6%-RGB流（BN-初始，TSN样式训练）百分之十六点八百分之二十三点一VLAD（RGB，BN-初始）百分之十七点六百分之二十五点一我们的（RGB，BN-初始，3个尺度）全部丢失/全部丢失20.2%/19.8%/18.7%/18.3% 28.5%crop，76.8%）比BN-Inception [52]（单一作物，74.8%）更优越，在ImageNet [53] 上具有前 1 的准确性。我们还将我们的模型添加到Inception-ResNet- V2中，并获得了95.3%/70.5%的改进性能，这与TLE的最佳性能相当通过对每个视频采样更多帧，我们进一步将性能提高到95.5%/70.7%。为了证明有效性，我们通过遵循另一种时空聚合方法ActionVLAD [39]的流水线，在表2（b）我们的模型（3个尺度+所有ISTPAN行动分类13损失）超过TSN 3.4%（mAP）/5.4%（加权- AP/wAP）和ActionVLAD2.6%（mAP）/3.4%（wAP）。4.4可视化分析我们将建议的关注层在帧上关注的内容并且从不同的空间位置。设l（k，w，h）∈R1×Ci表示JJ J证明了在（kj，wj，hj）上的向量空间是Fi∈RK×Wi×Hi×Ci的向量空间. Actualy，l（k，w，h）JJ J是描述以位置为中心的感受野的局部特征（w，j，h，j）在该k，j-该框架中。ByEquation3，Awh，k * w* h∈RWiHi×KWiHiMm jjJ14杨度等a)g）的b)h）c)（一）d)j）、e)k）f)l）(a)每个视频的采样RGB帧（b）流见图4。在不同的帧中从外观（RGB）和运动（流）流显着的感受野的可视化。每行显示来自视频的5帧，其中蓝色、绿色和红色区域分别对应于通过使用1尺度、2尺度和3尺度的显著感受野的中心，以获得不同层的注意。具体而言，a）-c）和g）-i）描述了从R G B和F LW获得的APP Y E M的结果。 d）-f）和j）-l）显示了“生物活性染料”的结果。（kj∈[1，K]，wm，wj∈[1，Wi]，hm，hj∈[1，Hi]）表示l（kj，wj，hj）在注意图中对空间位置（wm，hm′W ×H ×CMi∈Ri i i. 我们将注意力得分高的感受野定义为突出的感受野并突出它们。首先，我们可视化K个输入帧的显著感受野′到Fi中的固定位置（wm，hm）。即，对于一帧，显著感受野在点S处被记录在S处{（w，j，h，j）|Awmhm，kjwjhj >hreshold，kj= l，...，K，w，m= 1，h，m= 1}。然后，我们将阈值设置为0.5，以显示5个输入帧的显著注意区域，如图4所示。结果表明，我们的注意力层可以注意到不同的关键位置的行动超过跳转此外，我们还显示了三种方法，分别使用1尺度，2尺度和3尺度的特征图，以获得多尺度的注意力得分A所获得的显着区域。可以看出，使用3个尺度的方法关注每个帧中更具体和准确的动作区域。其次，对于一个固定的输入帧，我们可视化的显着感受野′有助于注意力特征图Fi中的不同位置（wm，hm）。即对于一个位置，以满足{（wj，hj）|Awmhm，kjwjhj >hreshold，kj=l，wm=l，...， W1，hm=1，...，Hi}。然后，我们设置更高的阈值0.7，用于更强的区分，如图5所示。结果表明，不同的位置（wm，hm）有不同的冲击范围。从图5（a）中可以看出，“规划图单元”的操作被划分为多个单独的部分（“微操作”、“图单元”的部分、部分和部分），这些部分具有ISTPAN行动分类15a）、b）、c）、d）、图五. 显着的感受野的不同位置的可视化注意力特征图从外观（RGB）流，其中使用3尺度的注意。每一列表示差异点（wm，hm）的结果。a）c）'P a ra ll e l B a rs '，d）'S k ije t '。从聚合特征图中的多个位置聚焦。在图5（b）-（d）中可以看到类似的结果。5结论我们提出了一个交互感知的自我注意力，这是由PCA的启发该模型通过构造空间特征金字塔，提高了注意准确率，从而提高了分类准确率。此外，我们自然地将我们的空间模型扩展到动作分类的时间模型时间模型可以接受任何数字的变化输入，我们已经探讨了不同的训练帧和测试帧的影响我们已经研究了所提出的注意力层在三个流行的深度网络VGG 16、BN- Inception和Inception-ResNet-V2上的性能。推广的性能证明了我们的模型的通用性。6致谢本研究得到国家重点研发&计划（2005年）的支持。2017YFB1002801，2016QY01W0106 ），国家自然科学基金（批准号： 61472420 、61472063、61751212、61472421、61772225，U1736106，U1636218），中国科学院前沿科学重点研究项目（批准号：XDB02070003、QYZDJ-SSW-JSC040）、CAS Exter-国家电网通用航空有限公司科研项目（编号：5201/2018- 44001 B），李兵也得到了中科院青年创新促进会的支持。16杨度等引用1. Abu-El-Haija，S.，Kothari，N.，李，J.，Natsev，P.，Toderici，G.，Varadarajan，B.，Vijayanarasimhan，S.：Youtube-8 m：大规模视频分类基准。在：CoRR（2016）2. Awad，G.，Fiscus，J.，Michel，M.，乔伊，D Kraaij，W.，Smeaton，A.F.，库诺特G.，Eskevich，M.阿里河琼斯G.J.F.奥德曼河Huet，B.，Larson，M.：Trecvid 2016：评估视频搜索、视频事件检测、定位和超链接。在：TRECVID（2016）3. Gorban，A.，Idrees，H.Jiang，Y.G.，Zamir，A.R.，拉普捷夫岛Shah，M.，Sukthankar，R.：THUMOS挑战：大量类的动作识别网址：//www.thumos.info/（2013）4. Sigurdsson ， GA ， Varol ， G. ，王， X. ， Farhadi ， A. ，拉普捷夫岛Gupta，A.：家庭中的好莱坞：众包数据收集，用于活动理解。In：ECCV（2016）5. Kuehne，H.，Jhuang，H. Garrote，E.，波焦，T.，喂T.：HMDB：一个用于人体运动识别的大型视频数据库。In：ICCV（2011）6. Soomro，K.，Zamir，A.R.，Shah，M.：UCF101：来自野外视频的101个人类动作类的数据集。载于：CRCVTR-12-01（2012）7. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）8. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射In：ECCV（2016）9. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。载于：ICLR（2015）10. 塞格迪角Ioffe，S.，Vanhoucke，V.：起始-v4，起始-resnet和剩余连接对学习的影响。In：arXiv preprint arXiv：1602.07261（2016）11. Vaswani，A.，Shazeer，N.Parmar，N.Uszkoreit，J.，琼斯湖戈麦斯，A.N.，凯泽湖Polosukhin，I.：注意力是你所需要的。In：NIPS（2017）12. 林芝，冯，M.，S，C. Yu，M.，Xiang，B.，Zhou，B.，（1991年），中国地质大学，Bengio，Y.：一个结构化的自我关注的句子嵌入。In：ICLR（2017）13. Sharma，S.，基罗斯河Salakhutdinov，R.：使用视觉注意的动作识别In：arXiv preprint arXiv：1511.04119（2016）14. Li，Z.，Gavves，E.，Jain，M.，Snoek，C.G.M.：出席并流向动作

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于交互感知的时空金字塔注意网络的动作分类

基于多层交互感知层的复杂过程故障诊断方法PPT

车企中基于AI感知的应用

神经网络中的时空交互是什么意思

在座舱领域，基于感知融合的全部要素进行数字孪生的展示与交互有什么特点

基于ST-GCN的动作识别

阐述基于多模态的无人机自然交互设计

ucf101视频动作分类系统

给出所有基于交互图的互联网流量行为分析的算法或机器学习模型

基于朴素贝叶斯对姓名进行性别分类要求要带交互界面

基于openpose的在线人体动作识别

基于语音交互的智能家居系统设计对于云端模块设计基于语音交互的智能家居系统设计对于。请给出详细原因说明

论述手势交互的分类、研究现状、优缺点以及应用领域

计算机网络感知层,物联网感知层与感知节点

基于语音交互的智能家居系统的研究背景与意义

基于语音交互的智能家居系统国外研究现状

自注意力头和多层感知机

在交互式网络环境中，网络管理员可以通过 什么技术实施网络监听

基于人体骨骼点的动作识别研究综述

openpose人体动作分类gui二次检测版本

最新资源

在交互式网络环境中，网络管理员可以通过什么技术实施网络监听