自适应扫描池：用于视频动作识别的深度卷积神经网络方法

172 浏览量更新于2023-10-16 收藏 1.19MB PDF 举报

深度卷积神经网络

视频动作识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1AdaScan：深度卷积神经网络中的自适应扫描池，用于视频Amlan Kar1，Nishant Rai1，Karan Sikka2GauravSharma11 IIT Kanpur<$2 SRIInternational UCSD摘要我们提出了一种新的方法，用于在视频中的人类动作识别任务的时间池帧。该方法的动机是观察到只有少量的帧，这些帧一起包含足够的信息来区分视频中存在的动作类。所提出的方法学习池这样的歧视性和信息帧，而丢弃在一个单一的时间扫描的视频中的非信息帧的大部分。我们的算法通过连续预测每个视频帧的区分我们在标准基准测试中展示了我们提出的池化方法的有效性，它在基线池化方法上不断改进，包括基于RGB和光流的卷积网络。此外，结合互补的视频表示，我们展示了与两个具有挑战性和公开可用的基准数据集上的最先进结果相比具有竞争力的结果1. 介绍数码相机数量的快速增长，特别是在手机中，以及具有高数据速度的廉价互联网，导致上传到互联网上的视频数量大幅增加[3]。大多数这样的视频，例如。在社交网站上，以人为中心主题。自动预测视频的语义内容，例如因此，人类正在执行的动作对于在该快速增长的数据库中的搜索和索引是高度相关的。为了在这样的视频中执行动作识别，考虑到这样的视频的真实世界性质，需要容易且快速训练并且同时对噪声具有鲁棒性的在视频中执行人类动作识别的一个流行框架是使用时间池操作，Amlan Kar和Nishant Rai对这项工作做出了同样的贡献。链球（互联网）0.01 0.970.98824 36520.980.99 0.0268 84 92 100图1：（上图）建议的AdaScan图示。它首先为视频中的每帧提取深度特征，然后将其传递给所提出的自适应池化模块，该模块递归地将其池化，同时考虑其区分重要性-这是在网络内部预测的。然后使用最终合并的载体用于分类。（下）从互联网1下载并通过在UCF 101上训练的AdaScan运行的视频的预测判别重要性底部的数字和条形表示预测的重要性∈[0，1]，而时间轴给出了以百分位数表示的相对帧位置（参见第4.4）。将不同帧中的信息 “ 压缩 ” 到a video 视频 into asummary摘要vector矢量. 平均和最大合并，即取帧（特征）的平均值或坐标最大值是流行的选择，无论是经典的 “ 浅 ” 方法还是最近的 “ 深 ” 方法†{amlan，nishantr，grv}@ cse.iitk.ac.inKaran Sikka在SRI国际工作，部分工作是在他在UCSD工作时完成karan. sri.com1视频下载自https://www.youtube.com/watch? v =KnHUAc 20 WEU，从3 - 18秒裁剪33763377[31、40、18、43]。然而，这些池化方法同等地考虑所有帧，并且对噪声不鲁棒，即，与目标动作不对应的视频帧的存在[22，7，1，20，48，52]。这导致性能损失，如许多主机算法所指出的，具有浅管线和深管线，例如，[2、7、30、20]。几种方法已经提出了解决方案来规避这些池化方法的限制。这种解决方案要么使用潜在变量模型[22，36，9，30，19]，这需要在学习期间进行自适应推理步骤，要么采用递归神经网络（RNN）[29，50]的变体，其具有不能立即解释的中间隐藏状态。在这项工作中，我们提出了一种新的视频池算法，学习动态池视频帧的动作分类，在一个端到端的学习方式，同时产生可解释的中间我们将我们的算法命名为AdaScan，因为它能够自适应地池视频帧，并在视频的单个节奏扫描中进行类预测如图1所示，我们的算法在内部预测视频中每个帧的区分重要性，并使用这些状态进行池化。所提出的算法设置在弱监督设置中，用于视频中的动作分类，其中仅在视频级而不是帧级提供标签[22，52，30，20，2]。由于获得帧级标签的困难和不可缩放性，该问题是极其相关的这个问题也非常具有挑战性，因为潜在的噪声和未修剪的视频可能包含不属于与整个视频相同的动作类的分散注意力的帧。基于多实例学习（MIL）框架的算法试图通过在视频中发现相关帧和（重新）学习模型之间交替来解决这个问题。尽管获得了有希望的结果，但MIL（i）易于过拟合，以及（ii）通过设计，未能将多个帧的贡献考虑在内，如最近所指出的[30，19]。最近，长短期记忆（LSTM）网络也被用于视频分类。他们使用递归操作对视频进行编码，并产生隐藏向量作为视频的最终表示[29，50，6]。尽管能够对合理的长期时间依赖性进行建模，但LSTM对噪声的鲁棒性并不强，并且已被证明受益于显式（尽管是自动）去除噪声帧[10，52]。所提出的算法不需要这样的外部噪声帧修剪，因为它本身这样做，同时以整体的方式优化分类性能。总之，我们做出了以下贡献。(1)我们提出了一种用于视频中的人类动作分类的新方法，该方法（i）能够识别视频中的信息帧，并且仅将这些信息帧合并，同时丢弃其他信息帧，（ii）与图像的表示一起是端到端可训练的，最终目标是判别分类，以及（iii）在归纳设置中工作即，给定训练集，它学习参数化函数以独立地汇集新视频，而不需要在测试时的整个训练集或其任何子集。(2)我们在两个具有挑战性的公开可用视频基准数据集上验证了所提出的方法，并表明（i）它始终优于相关的池化基线，以及（ii）当与视频的互补表示相结合时，获得了最先进的性能。(3)我们还分析了定性的结果，以获得见解，提出的算法，并表明，我们的算法实现了高性能，而只从一个子集的帧池。2. 相关工作许多早期的方法依赖于使用基于单词袋这种方法通常提取局部时空特征并使用字典对其进行编码[18，41，5，28，25，40]。最早的作品之一[18]描述了一个带有BoW直方图的视频，该视频对3D兴趣点上的流量直方图（ HoG ）和流量直方图（HoF）特征进行编码。后来的作品通过使用密集采样进行特征提取[41]，描述轨迹而不是3D点[13，39]，以及使用更好的池化和编码方法[47，25，23]，以多种方式[23，47改进这些方法Wang et al.[40]提出了改进的密集轨迹（iDT）方法，该方法通过使用运动稳定的密集轨迹、基于直方图最近的一些方法通过使用多层Fisher向量[24]或在多个时间尺度上叠加它们[17]。所有这些方法都依赖于结合标准池操作符使用各种本地另一类方法使用潜在结构化SVM来建模人类活动中的时间结构。这些方法通常在识别视频中的区别性帧（或片段）（推断步骤）和学习它们的模型参数之间交替。 Niebles等人[22]一个人的行为，是一个人的行为。利用在推断步骤期间推断的锚位置来扩展时间段。Tang等人[36]对Niebles等人进行了改进。通过提出一种更灵活的方法，使用可变持续时间HMM，将每个视频分解为具有可变持续时间的潜在状态。其他方法也使用MIL及其变体来对视频中的区别性帧进行建模，具有或不具有时间结构[26，30，8，51，42，20，27]。与我们的工作最相关的是Li等人使用的动态池方法。[20]他使用评分函数来识别视频中的有区别的帧，然后仅在这些帧上进行合并。相反，我们的方法并没有解决推理问题，而是明确地预测了3378我我i =1每个帧并将它们集中在一次扫描中。我们的工作也受到Satkin等人早期工作的启发。[27]他确定了动作的最佳时间边界，定义为对该动作进行分类所需的最小帧数，并通过合并这些帧来获得最终表示。尽管深度卷积神经网络（CNN）在图像分类中很受欢迎，但直到最近，深度方法才在视频动作分类方面达到了与浅层方法相当的性能。早期的方法使用3D卷积进行动作识别，但缺乏任何性能优势[12，14]。Simonyan等人[31]提出了双流深度网络，该网络结合了空间网络（在RGB帧上训练）和时间网络（在堆叠流帧上训练）用于动作识别。Ng等人。[50]强调了双流网络的一个缺点，即使用标准图像CNN而不是专门的网络来训练视频。这导致双流网络不能捕获长期的时间信息。他们提出了两个用于动作分类的深度网络，（i）在网络中添加标准的时间池操作，以及（ii）使用LSTM进行特征池。最近的方法还探索了使用LSTM来预测动作类[21，29，34，21]和视频字幕生成[6，49]。其中一些技术还将注意力与LSTM相结合，以在状态转换期间专注于视频的特定部分（通常是局部的）[21，29，49]。我们的工作与这些基于注意力的框架在预测数据不同部分的相关性方面具有相似性。然而，它在几个方面有所不同：（i）在我们的工作中使用的注意力或区分重要性是在时间维度上定义的，通常的空间维度，（ii）我们基于当前帧和已经合并的特征，针对每个帧以在线方式预测该重要性得分，而不是针对所有帧一起预测它们[49]，以及(iii)我们的公式是一种简单的公式，它将预测与标准平均池化操作相结合，以动态地池化逐帧视频特征。我们的工作也与LSTM相关，通过其递归公式，但不同之处在于产生一个清晰的可解释的中间状态，以及每个框架的重要性。LSTM通常不可解释的隐藏状态。同样值得一提的是，Rank Pooling和Dynamic ImageNetworks使用排名函数来池化视频[1，7]。然而，与当前的方法相比，他们的方法需要一个不平凡的中间步骤，需要求解用于合并每个向量的3. 方法我们现在详细描述所提出的方法，我们称之AdaScan（自适应扫描池网络）。我们将视频表示为X=[X1，. . .，xT]，xt∈ R224×224×K，每个帧xt表示为RGB图像（K=3），或者表示为相邻帧的光流图像的堆叠[31]（在我们的实验中K=20我们在有训练集X={（X，y）}N<$R224×224×K×T×{1，. . .，C}，⑴其中Xi是训练视频，yi是其类别标签（来自C个可能类别之一）。在下文中，为了简洁起见，我们在不需要的地方删除下标iAdaScan是一个深度CNN，它增强了一个特殊的池化模块（称为“自适应池化”），该模块扫描视频并动态地池化选择帧的特征，以生成视频的最终池化向量，适用于给定的如图1所示，我们的模型由三个模块组成，这些模块按顺序相互连接。这三个模块分别用于以下目的：（i）特征提取，（ii）自适应池化，以及（iii）标签预测。特征提取器模块包括所有卷积层以及Simonyan 等人的VGG-16 网络的第一个全连接（FC-6）层。[32 ]第32段。此模块负责从每个帧xt，得到固定维度的向量，表示为φ（xt）∈R4096。自适应池化模块的目的是选择性地池化帧特征通过仅聚集来自对最终任务有区别的那些帧的信息，而忽略其余帧。它通过递归地预测量化当前帧的区分重要性的分数来实现，该分数基于（i）当前帧的特征，以及（ii）迄今为止的池化向量。然后，它使用这个分数来更新合并向量（在下一节中正式描述）。这样，它仅通过池化选择帧（其索引对于不同视频可能不同）来聚集区别性信息，以生成视频的最终动态池化向量。然后，使用一个102标准化层对这个最终向量进行标准化，并使用具有softmax函数的FC层预测类别标签。我们现在更详细地描述AdaScan的自适应池化模块，然后提供关于损失函数和学习过程的细节3.1. 自适应池化这是动态汇集视频帧特征的方法的关键模块。它对视频进行时间扫描，并通过推断当前帧特征的判别重要性来池化帧，该判别重要性给定到目前为止的特征向量和池化视频在视频分类的上下文中，如果帧包含与视频的类别正相关的信息，并且可能与其余类别负相关，则我们希望帧的预测判别重要性高，并且如果帧是冗余的，3379w.r.t. 已经池化的帧，或者不包含用于分类任务的任何有用信息我们注意到，这种重要性的定义类似于先前基于MIL的方法中使用的数据的特定部分的区分性的然而，与基于MIL的方法相反，该方法有效地用一个热点向量对帧进行加权，如果需要，我们的算法自然能够关注视频中的多个帧，同时以在线方式显式输出让我们将直到视频X的初始t帧的自适应池化向量表示为m（X，t）。现在的目标是在合并视频中的所有T帧后计算矢量即（X，T）. 自适应池化模块通过递归计算两个操作来实现第一在每一个时间步，我们可以容易地解释视频的区分重要性和汇集向量，从而导致对在线/流设置的立即扩展，这不是大多数最近方法的情况。3.2. 损失函数与学习我们使用预测和真实标签之间的标准交叉熵损失LCE来为了指导模型从视频中选择几帧，我们在预测分数上添加基于熵的正则化器LE，使完整目标为L（X，y）=LCE（X，y）+λLE（r）（5）表示为f_imp的运算预测区别性的im。重要性，γt+1∈[0，1]，对于下一个即第（t+1）帧给定LE（Γ）= −γk日志. eγk（六）它的CNN特征φ（xt+1）和直到时间kN NΣt，n（X，t）. 我们将视频的帧的重要性分数表示为实数序列r ={γ1，. . . ，γ T} ∈ [0，1].第二个操作是加权均值池化操作γk，λ≥0，N=eγt（7）不其通过将先前汇集的特征与来自当前帧的特征及其预测重要性进行聚集来计算新的汇集的特征ψ（X，t+1）运算公式如下：γt+1=fimp（λ（X，t），φ（xt+1））（2）正则化器最小化归一化（使用softmax）判别分数上的熵。这样的正则化子鼓励重要性的峰值分布，即，它有助于仅选择有区别的帧，并且当使用有区别的丢失时丢弃无区别的帧。我们还尝试了流行的稀疏亲-x（X，t+ 1）=1γt+1Σp（γ<$t<$（X，t）+γ电话+1φ（xt+1））（3）Moting101正则化器，但是发现它太激进，因为它导致选择非常少的帧，这不利地影响了性能。参数λ是一种折衷其中，γp=k=1γk（4）- 在帧的稀疏选择和交叉熵类的更好最小化有效地，在第t步，上述操作对视频的所有帧进行加权平均池化，其中帧特征的权重是预测的区分重要性得分γ1，. . . ，γ t.我们将注意力预测函数fimp（·）实现为具有三层的多层感知器（MLP）。由于fimp（·）的底层运算仅依赖于标准的线性和非线性运算，因此它们的计算速度都很快并且可以很容易地合并到CNN网络中进行端到端学习。为了使fimp（·）考虑帧的重要性和非冗余性，我们将当前池化特征与来自下一帧的特征之间的差异馈送到自适应池化模块。我们我发现这个简单的修改，馈送差异，不仅有助于拒绝冗余帧，而且还提高了泛化能力。我们认为这是由于残差可能允许自适应池化模块明确关注看不见的特征，同时决定是否将其池化（添加）。由于其设计，我们的算法是能够保持简单的平均池操作，同时预测和适应每个传入帧的内容。此外3380气化损失项如果我们将λ设置为相对较高的值，则我们期望选择较少数量的帧，这将使分类任务更难，例如，每个视频的单个帧将使其与图像分类相同。然而，如果λ的值相对较低，则预期模型将选择更大数量的帧并且还可能过拟合。我们在实验4.2.3节中展示了不同λ的经验结果。4. 实验结果我们实证评估我们的方法上两个concilienging- ING公开可用的人类行为分类数据集。我们首先简要描述这些数据集，以及他们的实验协议和评估指标。然后，我们提供有关我们工作实施的信息。然后，我们将我们的算法与流行的竞争基线方法进行了比较。我们还研究了AdaScan中使用的正则化的效果，并将我们的方法与两个数据集上以前的最先进的方法进行了比较。最后，我们讨论了定性的结果，所提出的方法提供重要的见解。3381HMDB512[16]数据集包含来自51个动作类的大约6800个这些动作类涵盖了广泛的动作-面部动作、具有对象操作的面部动作、一般身体运动以及具有人类交互的一般身体运动。该数据集具有挑战性，因为它包含许多具有显著相机运动的低质量视频，并且样本数量不足以有效地训练深度网络[31，44]。我们报告了作者提供的3个分裂的51个类别的分类准确性[16]。UCF 1013[33]数据集包含来自101个动作类的13320个视频，这些动作类被分为5类-人-物交互、仅身体运动、人-人交互、演奏乐器和运动。由于姿势、相机运动、视点和动作的时空范围的变化，该数据集中的动作分类是具有挑战性的由于这些挑战和更高数量的样本，该数据集通常用于评估复杂的作品。我们报告了作者提供的3个训练/测试分割中101个类别的分类准确性[33]。4.1. 实现细节为了实现AdaScan，我们遵循Simonyan et al.[31]，并使用由空间和时间16层VGG网络组成的双流网络[32]。我们通过在两个方向上堆叠来自5个相邻帧的X和Y方向光流，为时间网络生成20通道光流输入[31，44]。我们使用Wang等人提供的工具4提取光流。[44]，采用TV-L1算法，通过线性变换对[0，255]范围内的光流场进行离散化。如第3节所述，我们的网络在包含多帧的输入视频上进行训练，而不是像双流网络[31]中那样使用单帧由于视频的帧数各不相同，并且在标准GPU上拟合整个视频在所有情况下都是不可能的，因此我们通过从每个视频中均匀采样25帧来我们通过遵循[44]建议的多尺度种植技术来增加我们的训练数据为了测试，我们使用从视频中提取的25帧的5个随机样本，并使用5个224×224的裁剪以及它们的翻转版本。我们取这些预测的平均值作为最终预测做个样本。如第3节所述，我们使用具有双曲正切非线性和在最后层处的S形激活的三层MLP来实现自适应池化层的fimp（·）函数。我们将池化向量的初始状态设置为与第一帧的特征相同我们发现，与使用2http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/随机向量我们使用Glorot等人提出的初始化来初始化自适应池模块的组件。[11 ]第10段。我们还发现，使用池化和当前帧向量的残差作为自适应池化模块的输入，比它们的连接效果更好。我们初始化空间网络，用于从在ImageNet [4]上训练的VGG-16模型[32]训练UCF 101。为了在UCF 101上训练时间网络，我们使用Wang等人提供的16000次迭代快照初始化其卷积层。[44 ]第44段。为了训练HMDB51，我们通过从在UCF 101上训练的相应网络中借用卷积层权重来在实验中，我们观察到随机重新初始化自适应池模块的性能优于使用UCF 101上训练的网络权重进行初始化。我们还尝试使用[44]提供的快照和ImageNet预训练模型初始化在HMDB 51上训练的网络，但发现它们的性能更差。有趣的是，在另外两个试验中，使用ImageNet初始化的模型表现更好，这表明对视频分类的单个帧进行训练可能会导致不太通用的特征，这是由于动作类的不相关帧注入的噪声。我们发现使用单独的学习率来训练自适应池化模块并微调卷积层我们使用Adam求解器[15]，自适应池化模块的学习率设置为1e−3，卷积层的学习率设置为1e−6我们使用具有高（下降）概率（= 0. 8）在FC-6层和自适应池化模块之后，这对训练至关重要。我们在两个数据集上为空间网络运行了6个epoch的训练。我们在UCF 101上训练了2个epoch，在HMDB 51上训练了6个epoch。我们使用tensorflow toolkit5来实现我们的网络。基线和补充特征。为了与标准池方法进行公平的比较，我们使用与AdaScan相同的深度网络实现了三种基线方法，并进行了端到端学习。我们通过用平均值和最大值操作替换自适应池化模块来实现平均值和最大值池化。为了实现MIL，我们首先计算视频中每个帧的类分数，然后在softmax层之前的所有帧上取最大值。对于互补特征，我们使用改进的密集卷积（iDT）[40]和3D卷积（C3D）特征[37]计算结果，并使用加权后期融合报告性能。我们使用作者提供的可执行文件提取iDT功能[40]，并为HMDB 51使用人类边界框，但不为UCF 101使用。我们提取FV的两个数据集使用Chen等人提供的实现。[35 ]第35段。为每个3http://crcv.ucf.edu/data/UCF101.php4https://github.com/wanglimin/dense_flow 5https://www.tensorflow.org3382网络最大池密耳平均池AdaScan空间七十七。2七十六。778岁079岁。1时间八十379岁。1八十881. 7表1：与UCF 101-Split 1基线在多类分类准确性方面的比较对于低级特征 6，它们的实现首先使用主成分分析（PCA）将维度减少到一半，然后训练高斯混合模型（GMM）。大小为512的GMM字典用于通过使用vlfeat库来提取FV [38]。通过对每个特征FV应用功率归一化和W2归一化两者并将它们连接来形成最终的FV陈等。我们只提供了UCF 101的GARCH和PCA矩阵，我们也使用它们来提取HMDB 51的FV。为了计算C3D功能，我们使用由Tran等人提供[37]并在16帧窗口上从FC-6层提取我们通过最大池化所有特征，然后进行102归一化来计算每个视频的最终特征4.2. 定量结果4.2.1与Pooling方法的表1给出了AdaScan的性能以及其他三种常用的合并方法作为基线即最大池化（坐标最大值）、MIL（多实例学习）和平均池化，在UCF 101数据集的分割1上。MIL是最弱的，其次是最大池，然后是平均池（76。七，七十七。2，78。分别为0空间网络和79. 1，80。三，八十。8的时间），而建议的AdaScan做得最好（79。1和81。7分别用于空间和时间网络）。这里观察到的趋势是典型的-我们观察到，在我们的实现中，在三个基线中，平均池在不同的设置中始终表现得更好这可能是因为MIL已知过拟合是仅聚焦于视频中的单个帧的结果[30，19]，而最大池化似乎未能总结动作的相关部分（因此过拟合）[7]。因此，在下面的实验中，我们主要与均值池进行比较。4.2.2与平均值合并的表2给出了在两个数据集UCF 101和HMDB 51以及两个网络（空间和时间）上，使用建议的AdaScan我们观察到，建议的AdaScan一贯表现更好，但在所有的情况下，12例。在唯一没有改善的情况下，它也不会恶化。UCF 101数据集的性能改善更多即77。6到786为空间网络和82。4到834因为6轨迹、HOG、HOF、运动边界直方图（X和Y）UCF 101 [33]分裂空间平均池网络AdaScan时间平均池网络AdaScan141岁341岁8四十八8四十九32四十341岁0四十八8四十九8341岁341岁4四十八3四十八5Avg四十941岁4四十八6四十九2HMDB51 [16]表2：AdaScan与平均值合并的比较。我们报告多类分类精度。时间网络，平均三个数据集的分裂。HMDB51数据集的改进相对温和，即四十9到414和48。6到492、分别。这种改善的差异在某种程度上是可以预料的。首先，与UCF 101相比，HMDB 51用于训练AdaScan的样本较少。此外，虽然UCF 101数据集具有与体育相关的动作，但HMDB 51数据集具有来自电影的动作因此，虽然UCF 101动作预期具有较小的区别性帧集合，例如投掷篮球与与完整的视频相比，HMDB51类的区别信息预计将更均匀地分布在所有帧上。因此，我们可以期望在前一种情况下，通过消除非歧视性框架，如所观察到的，有后一种情况是没有太多可丢弃的。类似的趋势可以在使用AdaScancf表现更好的类中看到。均值合并，反之亦然（图2）。诸如“throwdiscuss”和“balance beam”之类的类4.2.3正则化强度的影响如上文第3.2节中所讨论的，我们具有超参数λ∈R+，其控制噪声帧修剪与模型拟合之间的权衡。现在我们讨论λ超参数的影响为了研究它的影响，在HMDB 51数据集上使用不同的λ值训练我们的空间网络3个时期，以产生所示的结果。我们在图3中看到，对于非常低的正则化（1e2到1e4），模型给出了一个重要性（即值分裂空间平均池网络AdaScan时间平均池网络AdaScan178岁079岁。1八十882岁32七十七。278岁282岁784. 13383跳蹦床杂耍，杂耍，杂耍，悬崖跳水场跳远平衡木板球保龄球高低杠铁饼0 5 10 15 20精度差表3：与现有方法的比较（Attn.- 额外的优化）。（结果如[21]所报告）图2：AdaScan与均值池的比较-50454035301e2 1e3 1e4 1e5 1e6 1e7 1e81e9正则化参数λ图3：正则化参数λ对应于权重的归一化向量r中的帧的坐标）大于0。5到仅约50%的帧，这表明架构本身具有滤除帧的能力，这可能是由于自适应池化模块的输入的残留性质。当我们将正则化强度从1e6增加到1e7时，我们可以看到，我们可以通过允许性能的小幅下降来实现稀疏性的大幅增加。随后，稀疏性不断增加，而每平方根相应地下降稀疏性和性能的变化在1e7之后降低，因为我们在固定的范数上裁剪梯度，从而不允许非常高的正则化梯度通过网络回流。因此，λ超参数允许我们基于模型预测的重要性来控制所选帧的有效数量。4.3. 与最新技术水平比较当与UCF 101和UCF 102上的互补视频功能相结合时，我们的模型实现了与当前最先进方法（表3）竞争的性能。HMDB51数据集。我们看到AdaScan本身要么表现出色，要么具有竞争力。采用仅具有单个直接递归操作的递归架构（LSTM）而不必采用空间注意力的其它方法，例如，89 .第89章我的天AdaScan为4 vs. 89。2770表示[21，29]，或者具有显著额外预训练的深度递归架构，如88。6为[50]，demonstrating的有效性的想法。我们还显示了对传统浅特征的改进，即。iDT [43]和MIFS [17]，这与计算机视觉的最新趋势一致。结合互补的iDT功能的AdaScan的性能增加到91。三，六十一。0从89四，五十四。9，进一步上升到93。2，66。当与C3D特征结合时，UCF 101和HMDB 51数据集分别为9。这些与这些数据集上现有的最先进结果[45，52]具有竞争力。4.4. 定性结果图4显示了一些典型的情况下（四个测试视频从分裂1的UCF 101）可视化与输出从拟议的AdaScan算法。这些视频中的每个帧被示出为具有区分重要性（γt∈[0，1]），由AdaScan预测为帧底部的红色条以及相对（百分位数）位置，在整个视频中的帧的位置。在“篮球”的例子中，在“网球挥杆”的例子中(ii)击球和（iii）回到球场中心。我们在“自由体操”中也看到了类似的趋势重量> 0.5的帧百分比性能方法二流非常深LSTMAttn增补件Opti.UCF101HMDB51Simonyan等人[三十一]C88岁0594Wang等人[第四十四届]C88岁0594Yue et al. [50个]CC88岁二Yue et al. [50个]CCC88岁6Wang等人[四十三]CC九十3632Sharma等人[29日]CCC七十七。0141. 3Li等人[21日]CCCC89岁。256. 4Bilen等人[1]第一章C89岁。1652Wang等人[46个]CCC92.四六二。0Zhu等人[五十二]CCC九十三1633Wang等人[45个]CC94.2 69.4Tran等人[37]第三十七届3D卷积滤波器83岁4五十三9iDT [40]浅84. 3五十八4MIFS [17]浅88岁563岁8百分比/准确度33840.800.040.890.330.960.00.010.380.880.990.990.990.990.000.000.000.990.360.000.20.000.990.990.990.000.010.090.000.750.090.710.00网球秋千16 28 40 48 68 80 88 100篮球8 20 28 40 52 70 72 100户外体操冲头16 28 40 48 72 84 92 10016 32 40 52 68 80 96 100图4：AdaScan帧选择的可视化。框架下方的数字和红色条表示重要性权重。时间轴以视频中帧总数的百分位数给出帧的位置（最佳颜色）。例如，AdaScan选择对应于（i）初始准备、（ii）跑步和（iii）最后体操动作的时间部分这样的框架选择与以前的作品产生了共鸣，这些作品强调了动作类中存在一般的3个原子动作（或动作），这些动作类可以在时间上分解为更精细的动作[8]。我们还在“拳击”示例中看到了一个有趣的属性此外，它分配了一个低分数0。09到框架（40），其中拳击手尝试进行失败的击打。我们还展示了一个视频（图1）的输出这些可视化强化了我们的主张，即AdaScan能够通过预测每个帧的区分度，自适应地将视频中的帧合并，同时重新移动冗余或非区分的帧。我们进一步从这些可视化中观察到，AdaScan还隐式地学习将某些类的动作分解为更简单的子事件。5. 结论提出了一种自适应时间池化方法AdaScan，用于视频中人体动作的识别。这是由于观察到许多帧与识别任务无关，因为它们是冗余的或非歧视性的。所提出的方法解决了这一问题，通过学习动态池的差异，不同的视频帧。它对视频进行单次时间扫描，并以在线方式汇集帧该公式是基于预测的重要性权重的帧，确定其贡献的最终汇集的描述符。权重分布也用基于熵的正则化器正则化，这允许我们控制池化操作的稀疏性，这反过来有助于控制模型的过拟合。我们在两个具有挑战性的公开可用的人类行为数据集上验证了该方法，即UCF101 [33]和HMDB51 [16]。我们表明，该方法优于最大池和平均池的基线池方法。它也被发现优于基于多实例学习（MIL）的深度网络。我们还表明，设计方法的直观性在很最后，结合互补特征，我们也展示了所提出的方法的最先进的结果。确认作者感谢 IIT Kanpur 的 VinayNamboodiri 、 GauravPandey、加州大学圣地亚哥分校Calit 2的John Graham和加州大学圣地亚哥分校INC的Robert Buffington获得计算资源，感谢Research-I基金会、IIT Kanpur的支持，感谢Nvidia公司捐赠Titan X GPU。3385引用[1] H. 比伦湾Fernando，E.Gavves，A.Vedaldi和S.古尔德。用于动作识别的动态图像网络。 IEEEInternationalConference on Computer Vision and Pattern RecognitionCVPR，2016。二、三、七[2] F. Caba Heilbron，V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet：人类活动理解的大规模视频基准。IEEE计算机视觉和模式识别会议论文集，第961-970页，2015年。2[3] Cisco.白皮书：2015-2020年思科虚拟网络接口预测与方法。http://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html，2016. 1[4] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。5[5] P. 多尔，维。拉博湾 Cottrell和S. 贝隆吉通过稀疏时空特征进行分类或识别。2005年IEEE视觉监视和跟踪监视性能评估国际研讨会。IEEE，2005年。2[6] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。二、三[7] B. 费尔南多 E. 加夫斯， J. Oramas， A. Ghodrati，以及T. Tuytelaars用于动作识别的排名池。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 2016 。二、三、六[8] A. Gaidon，Z. Harchaoui和C.施密特带有Acknowledge的动作的时间局部化。PAMI，35（11）：2782 二、八[9] A. Gaidon，Z. Harchaoui和C.施密特用运动层次表示活动IJCV，107（3）：2192[10] C. Gan，T. Yao，K. Yang，Y. Yang和T.美.您引领，我们超越：通过共同开发网络视频和图像来进行免费视频概念学习。2[11] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。在人工智能和统计国际会议上，第249-256页，2010年。5[12] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。PAMI，35（1）：221 3[13] Y.-- G.江角，澳-地Dai，X.薛，W. Liu和C.- W. Ngo.以运动参考点为基础的人体动作轨迹建模。在ECCV。Springer，2012. 2[14] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。3[15] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。5[16] H. Kuehne，H. Jhuang、E. Garrote，T. Poggio和T. Serre.HMDB：一个用于人体运动识别的大型视频数据库。见ICCV，2011年。五六八[17] Z.兰，M。Lin，X. Li，长穗条锈菌A. G. Hauptmann和B.Raj. Be-yond高斯金字塔：用于动作识别的多跳特征堆叠。CVPR，2015。二、七[18] I. Laptev，M.马萨莱克角Schmid，和B.罗森菲尔德从电影中学习真实的人类动作。CVPR，2008。2[19] W. Li和N.瓦斯康塞洛斯通过顶级实例进行软包装袋的多实例学习CVPR，2015。二、六[20] W.李角Yu，中国茶条A. Divakaran和N.瓦斯康塞洛斯用于复杂事件识别的动态池化。CVPR，2013。2[21] Z. Li，E. Gavves，M. Jain和C. G.斯诺克Videolstm卷积，参加和流动的行动识别。arXiv预印本arXiv：1607.01794，2016。三、七[22] J. C.尼布尔斯角W. Chen和L.飞飞为活动分类建立可分解运动段的时间结构模型。ECCV，2010年。2[23] X.彭湖，澳-地Wang，X. Wang和Y.乔用于动作识别的视觉词和融合方法包：全面学习，善于实践. 计算机视觉和图像理解（CVIU），2016年。2[24] X.彭角，澳-地Zou，Y. Qiao和Q.朋动作识别与堆叠费舍尔向量。欧洲计算机视觉会议，第581-595页。SpringerInternational Publishing，2014. 2[25] F. Perronnin，J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。ECCV，2010年。2[26] M. Raptis和L.西格Poselet关键帧：人类活动识别模型。CVPR，2013。2[27] S. Satkin和M.赫伯特对动作的时间范围进行建模。ECCV，2010年。二、三[28] P. Scovanner，S. Ali和M. Shah.三维SIFT描述器及其在动作识别中的应用。ACM MM，2007年。2[29] S.夏尔马河，巴西-地Kiros，和R.萨拉赫季诺夫使用视觉注意力的动作识别arXiv预印本arXiv：1511.04119，2015。二、三、七[30] K. Sikka和G. 夏尔马用于视频分类的

下载后可阅读完整内容，剩余1页未读，立即下载