没有合适的资源?快使用搜索试试~ 我知道了~
2911SST:单流时间行动建议Shyamal Buch1,Victor Escorcia2,Chuanqi Shen1,Bernard Ghanem2,Juan CarlosNiebles11斯坦福大学,2阿卜杜拉国王科技大学(KAUST){shyamal,shencq,jniebles}@ cs.stanford.edu,{victor.escorcia,bernard.ghanem}@ kaust.edu.sa摘要本文提出了一种新的方法,用于在长的、未修剪的视频序列中检测人的动作。我们介绍了单流时间动作程序(SST),一个新的有效和高效的深层架构的时间动作建议的生成。我们的网络可以在很长的输入视频序列中连续运行,而不需要将输入划分为短的重叠剪辑或时间窗口进行批处理。我们的经验表明,我们的模型在时间行动建议生成的任务上表现出最先进的水平,同时达到了文献中最快的处理速度最后,我们证明,使用SST的建议与现有的动作分类结果在改进的最先进的时间动作检测性能。1. 介绍每年部署的数百万台摄像机会产生大量记录、存储和传输的特别是,这段视频的很大一部分描述了图1.我们解决的问题的时间动作定位的人类行动长,未修剪的视频序列。我们介绍了一个新的模型(SST),在一个单一的处理流中输出多个尺度的时间行动建议。我们的方法同时提供了更强的行动建议,同时比以前的工作,这需要构建和处理多个时间上重叠的滑动窗口显着更有效。for computer计算机vision视觉algorithms算法.算法必须处理很长的视频序列,并输出开始和结束-关 于 人 、 他 们 的 活 动 和 行 为 的 事 件 In order toeffectively interpret this data, computer vision algorithmsneed the ability to understand and recognize human actions.这激发了大量关于视频中动作识别问题的计算机视觉文献。直到最近,绝大多数计算机视觉工作将动作识别问题作为视频分类之一来处理,其中oracle将视频预先分割成包含单个动作的短剪辑。在这种情况下,任务被简化为将视频分类为感兴趣的相关动作之一。在实践中,应用(例如智能监控、机器人或自动驾驶)需要摄像机连续记录视频流,并需要视觉算法在这样长的流中执行时间动作检测。为了实现这一点,计算机视觉系统必须同时决定时间间隔和类别的行动,因为它们发生。临时检测人类行为可能具有挑战性在每个视频中每个动作的时间。动作的数量和持续时间可能会有很大变化,与视频长度相比,动作间隔可能非常短。最近的工作已经利用时间动作提议[29,2,9]进行有效的动作检测,其中提议识别相关的时间窗口,然后在第二阶段中由动作分类器独立地分类。这些建议是通过滑动窗口方法生成的,将视频划分为短的重叠的节奏窗口。 为了处理动作的时间变化问题,窗口应用于多个时间尺度[29]。然而,由于时间位置和尺度的穷举搜索,这在计算上是昂贵的或者,可以采用在固定时间尺度上运行滑动窗口但在不同时间尺度上输出建议的架构[9]。这种方法仍然需要在重叠的时间窗口上执行计算,这导致可能的冗余计算,因为每个帧都是SST不…滑动窗口2912处理了不止一次。对于涉及大规模数据或实时交互系统的许多实际应用,在视频中实现非常快速的动作定位是至关重要的,并且这种冗余计算可能是禁止的。在本文中,我们介绍了一个框架的时间行动的建议,在长视频序列,只需要处理整个视频在一个单一的通行证。这意味着我们的架构能够分析任意长度的视频这导致了一个更加高效和effec- tive架构。我们的方法的主要贡献是:(i)我们引入了一种用于节奏动作建议生成的新架构(SST),其在单次通过中在视频上运行,而不使用重叠的时间滑动窗口。我们设计了一个训练方案,使循环网络的使用非常长的输入视频序列,而不影响模型的性能。(ii)我们证明,我们的新的时间建议生成架构实现了最先进的性能的建议生成任务。(iii)最后,我们验证了SST建议为时间动作定位提供了比现有方法更强的基础,并且与现有分类阶段的集成导致了最先进性能的改善。2. 相关工作我们回顾了最近在视频动作分类、视频中的时间和时空动作检测以及递归网络序列建模方面的相关工作。行动分类。大量的研究已经解决了短视频剪辑的动作分类问题[14]。在此设置中,我们假设我们只执行一个动作的短视频剪辑在序列中。许多方法使用全局表示[33],但有些方法试图对运动的时间结构进行建模以实现分类[10]。不幸的是,这些方法在长视频序列上表现不佳,其中动作具有相对小的持续时间并且大部分视觉输入被认为是背景。时间动作检测和建议。 许多现有方法接近时间动作定位的问题[19,22,26,27,31,32,35,40,24,30,38]。传统上,时间动作检测已经通过以下方式来解决:在滑动窗口中密集地应用动作分类器[8]。最近,已经引入了时间动作建议[2,9,29],以使动作分类器能够在更少数量的时间窗口上更有效地应用。基本思想是首先生成数量减少的可预测时间窗口,这可以通过预测学习[2]或递归神经架构[9]来实现。然后,动作分类器将每个窗口独立地区分为感兴趣的动作之一还可以结合额外的处理阶段来细化关于时间边界的预测分数[29]。特别是,我们的提案生成框架建立在深度行动提案(DAP)架构所取得的进展之上[9]。DAP的一个特性是它可以通过滑动固定持续时间T的时间窗口来检索不同时间尺度的动作建议。这避免了运行多个尺度的滑动窗口,但它仍然需要在长于T的视频上运行重叠的滑动窗口。这意味着我们需要多次处理每个输入视频帧,每次处理与之重叠的窗口。在本文中,我们的目标是通过引入一种模型来进一步减少计算,该模型仅处理每个输入帧一次,从而在单次通过中处理完整的视频。时空动作检测。 一个相关的问题是,检测动作不仅在时间上,但也spatially。[4、12、16、34、37、39]。在这里,算法输出动作的时空定位虽然这些提供了更详细的定位信息,但是它们往往遭受非常高的计算成本,这使得它们难以在需要快速和有效处理的情况下使用。此外,可能的是,时间propos- als实际上可以帮助减少这种算法的时间搜索空间。在本文中,我们专注于检测动作的时间,而不是时空。物体检测。对象检测方法通过采用两个关键思想大大提高了它们的性能:(1)引入对象建议来取代滑动窗口检测,以及(2)采用深度架构作为学习机器。最初的方法采用对象建议生成作为预处理阶段,其独立地向对象分类器提供窗口[11]。然而,最近的框架已经用深度网络架构实现了对象提案的生成。这方面的一个例子是来自[28]的区域建议网络(RPN),它直接在图像上输出建议,而无需多次通过。我们的方法采用了这种哲学,并使提案生成视频在一个单一的通行证,处理每帧只有一次。使 用 RNN 进 行 长 序 列 处 理 。递 归 神 经 网 络(RNN)最近在各种顺序建模问题中表现出令人印象深刻的性能[20]。一般来说,大多数演示都局限于RNN在识别时可以处理的时间序列长度。这可能是由于如果输入序列太长,网络的隐藏状态就会饱和[21]。例如,在自然语言处理中,通常使用文本结构(章节,部分,段落,句子)将长语料库分解为短但有意义的序列[13]。在视频的情况下,不存在对等效语义/句法结构的先前访问。为了处理长序列,先前的提案[9]采用了窗口方法,使得RNN只处理短序列在这里,我们可以在很长的输入序列上使用RNN,2913SST分类器产出建议…输出(时间步长t)CtSeq. 编码器(GRU)…⬄视觉编码器(C3D)…输入视频…k ·δ最大建议大小(每个输出)时间δϕϕϕϕϕϕl=1.Σi=(t−1)·δ+1未修剪的输入视频时间动作建议局部动作检测图2. 说明我们的整体方法和模型架构的示意图。在这里,我们从输入视频流中提取C3D特征,每个“时间步长”的时间分辨率δ= 16帧。这些特征是递归的基于GRU的序列编码器模型的输入,该模型在每个时间步长t处输出具有置信向量Ct的k个提议,其中最长的提议具有长度δ·k。此外,我们可以通过应用分类器模型来验证排名靠前的SST动作建议对动作检测任务的有用性。精心的体系结构和培训方案设计。3. 技术途径我们的论文的主要目标是在长的未修剪的视频中生成时间动作建议。给定一个输入视频序列,我们的模型应该产生一个减少数量的时间间隔,可能包含一个动作。对于时间动作建议方法,重要的是拒绝许多不包含动作的时间间隔,同时以非常高的召回率检索真实的动作间隔。检索到的动作间隔与执行动作的正确间隔具有非常高的时间重叠生成高度重叠的建议是促进以下行动分类阶段工作的关键。最后,对于时间建议来说,快速是至关重要的,因此,简单的时间滑动窗口方法的计算增益是显著的。在本节中,我们将介绍单流时间动作建议(SST)的技术细节,这是一种新的时间动作建议模型,它将这三个属性封装在一个高效的深度学习架构中。3.1. 模型我们提出了一个经常性的模型架构的生成时间的行动建议。我们的模型如图2所示。与以前的工作相比,我们的方法的关键属性是:(i)我们的架构在多个时间尺度上只考虑输入视频一次,没有重叠的滑动窗口,这导致在运行期间的快速运行时间。推理;(ii)它考虑并评估密集采样的时间尺度和位置上的大量行动建议,这导致模型产生与地面实况行动间隔具有高时间重叠的输入. 在推理时,我们的模型将a长的未修剪视频序列X={xl}L与L跳转不像以前的工作,将视频分为高度重叠时间窗口对于独立批处理,我们在输入视频上构造不重叠的滑动窗口,并且顺序地处理每一帧一次。视觉编码。视觉编码器模块的目标是计算封装输入视频的视觉内容我们实现这一点,我们的框架通过3D卷积(C3D)网络提供视频输入[33]。我们选择C3D,因为它能够在一些小的时间分辨率δ上有效地捕获视觉和运动信息[33,29]。我们利用[33]中的架构和预训练权重进行初始化,时间分辨率为δ=16帧。以这种方式,我们有效地将输入流离散为T=L/δ非重叠时间步长。每个时间步长t由C3D特征编码表示ingvt=φ{xi}t·δ取自C3 D网络的顶层,并在δ帧上捕获视觉信息。在实践中,我们执行PCA以进一步降低维数,从而以与[9]类似的方式提高计算性能。序列编码序列编码器模块的目标是随着时间的推移积累证据,钾丙硫2914˜j=1序列进行。这个想法是,为了能够产生好的建议,模型应该能够聚集信息,直到它确信视频中正在发生动作,同时忽略不相关的背景。 在每个时间步长t =1,. . . .,T,则模块接收对应的编码的C3D特征向量作为递归序列模型的输入。我们模型的一个关键属性是能够在单次通过中处理输入视频。为了实现这一点,递归模型应该能够通过在视频的整个持续时间内及时展开来在输入测试视频上操作我们在第3.2节中的培训程序旨在促进测试时长序列的操作。虽然类似的工作通常利用长短期记忆(LSTM)单元进行序列编码,但我们发现基于门控递归单元(GRU)的架构提供了更好的性能,在更广泛的超参数范围内更强大,并且具有更少的参数,这意味着训练和测试时性能略快。这与之前在其他领域对深度递归模型的研究结果一致[18,6,7]。因此,在每个时间步t,我们将递归阶段中的最终GRU层的隐藏状态ht作为我们的序列编码,其中ht根据公式[5,7]定义:rt=σr(Wrvt+Urht−1+br)zt=σz(Wzvt+Uzht−1+bz)(一)ht= tanh(Wvt+rt(Uht−1)+b)ht=(1−zt)ht−1+ztht其中⊙是Hadamard乘积。关于这一提法的进一步讨论载于我们的补充材料。输出. 输出模块的目标是在每个时间步产生多个建议的置信度得分t.此模块将Sequence Encoding层在时间t计算的隐藏表示ht作为输入。如图2所示,我们设计了我们的架构,通过考虑在时间t结束的多个时间尺度的建议,在每个时间步对大量潜在的建议进行评分。具体地,在每个时间步长t处,我们输出confi。dence scores{cj}k对应于k个提议集合t0t0 +s t0 +2s t0 +3si t 0+T w不X3X2X1x0的图3. 训练样本通过以步长s的滑动窗口方式提取长度为Tw的时间段来密集地生成。我们对长训练实例的密集采样有助于使循环序列编码器在测试时完全展开非常长的视频序列。考虑多个时间尺度,其中单次通过输入视频序列。由于我们在每个帧处密集地考虑时间尺度,因此该模型有效地计算了视频上具有δ帧的时间分辨率的所有提议的预测置信度在某种程度上,这以计算高效的方式有效地我们应用与先前文献[9,29]一致的标准后处理技术来选择最佳建议,例如通过置信度得分和非最大抑制进行阈值处理。3.2. 培训训练过程的目标是估计我们架构中的模型参数。通过设计,我们的建议架构和损失函数是完全可区分的,从而能够使用反向传播进行训练。我们还设计了训练过程,以便我们的递归网络可以在测试时完全展开非常长的输入序列。这是一个关键属性,与我们的输出层的设计相结合,使模型能够在测试时在输入上不使用重叠的滑动窗口这个约束意味着递归网络必须能够正确处理很长输入序列的推理。这可能证明具有挑战性,因为模型必须忽略输入未修剪视频t j=1Pt={(bt−j,bt)}k,其中元组(bt-1,bt)指示分别在帧bt-1和bt处具有开始和结束边界的提议。输出置信度分数由具有sigmoid非线性的全连接层:cj= σo(Wj·ht)。(二)同时保留相关上下文。我们观察到,当运行多个步骤时,相关递归模型的状态[9]趋于饱和,导致过度自信的输出。我们的策略,以提高鲁棒性的动机是在训练过程中更好地模拟测试操作条件。简单地说,我们希望为网络提供密集的sam-t opled,重叠的训练视频片段,这是显着的,在时间t考虑的所有建议都具有固定的结束边界,并且模型考虑大小为1、2、. . . ,k个 时间步长,其对应于大小δ,2δ,. . . ,kδ帧。请注意,这是在每个时间步长的单个for-ward通道中完成的这样,我们的模型比我们要探测我们按如下方式生成这些训练段训练具有L帧和长度T=L/δ时间步长的视频,我们通过运行长度Tw=Lw/δ,步长为s,如图3. 我们设置Lwkδ,以便训练实例模拟2915t:i0t0+s:i不长序列的操作,鼓励网络避免饱和的隐藏状态。这与示例性地构建长度不长于最大建议长度kδ的训练示例形成对比,这是先前工作中使用的策略[29,9]。此外,我们的步幅s保持较小,允许密集生成训练数据。训练段的密集采样还允许原始视频序列中的每个时间步长在不同的上下文下被考虑多次。例如,考虑图3中的时间步长t=i。视觉内容和在时间t观察到的地面实况是若干训练的一部分段X0,. . .、X3.这意味着在训练过程中,我们将能够在四个示例X0,.的上下文中反向传播t = i处的训练损失。. .、X3.当考虑X0时,序列编码器在t=i处的隐藏状态将是h0;同样,对于X1,在t=i处的隐藏状态将是h1。在这两种情况下,训练过程将在t=i处利用由每个示例中的隐藏状态给出的不同上下文来反向传播损失,从而鼓励预测和编码对隐藏状态的特定初始化是鲁棒每个训练示例与地面实况标签相关联我们的想法是,我们的网络将考虑将每个时间间隔分类为积极或消极的行动建议。例如,考虑图3中的X0,我们将其与groundtruth la相关联。贝尔Y0={yt}t0+Tw−1。在时间步t,地面实况yt以及其在时间动作检测中的应用。正如我们的实验将表明,我们的建议方法实现了更快的计算速度的竞争性能。我们在这里描述我们的实验设置和结果。数据集。为了训练和评估我们的模型,我们使用来自THUMOS 14数据集[ 17 ]的时间动作定位子集我们使用验证视频作为我们的训练集,这是该数据集的标准实践为了与先前的工作进行直接比较,我们采用了[9]中的实验设置。我们对数据集中的训练样本进行80%-20%的分割,以交叉验证我们模型的超参数对于我们的泛化分析,我们利用ActivityNet数据集中看不见的类的子集[3]。更多详情见第4.1节。比较。我们将SST模型与深度行动建议(DAP)[9],S-CNN(SCNN-prop)[29],BoFrag [25]和Sparse-Prop [2]的建议阶段进行了比较。实作详细数据。我们生成训练数据,Lw=2048。我们改变递归层的数量和隐藏状态的大小,以及建议的数量k。我们使用Lasagne/Theano和Caffe实现模型和训练/验证管道,并在GeForce TITAN X(Maxwell)GPU上执行训练。我们使用adamup-−2t=t0日期规则[23],初始学习率为5·10,是具有二进制项的k维向量第j个条目如果(尺度j时间步的)对应的提议区间值具有与大于0的地面实况的时间交并(tIoU),则yj被设置为1。否则设置为0。在训练过程中,我们根据多标签损失函数惩罚网络的错误。在实践中,对于训练视频X,在时间t处的损失由加权二进制交叉熵目标:ΣkL(c,t,X,y)= −wjyj logcj+wj(1 −yj)log(1−cj),在每l=5个时期之后接近我们包括超参数的进一步分析,训练模型,代码和样本输出建议作为补充材料1的一部分。4.1. 临时提案生成时间建议生成的任务包括拍摄输入视频并产生一组可能包含人类动作的时间间隔。一个成功的建议方法应该能够检索动作间隔0t t1tj=1不(三)具有非常高的召回率和与对应于动作的真实时间段的高时间重叠(tIoU),而其中,权重wj、wj是根据只提出了一小部分建议。此外,本发明还1模型的快速运行是关键。我们评估培训中积极和消极建议的频率在每个标度j和c处设置的是网络的输出我们在学习的参数上添加dropout和drop2我们的模型在每个时间步t反向传播,因此所有训练样本X的总损失为:Tw这三个方面我们的方法如下。首先,我们考虑我们的模型检索具有高召回率的pro-prone的能力我们用建议平均召回率来衡量这一点。这是通过提取固定数量的建议并计算平均召回率来计算的。Ltrain=LL(c,t,X,y).(四)一系列的tlous。我们在图4(中间)中绘制了平均召回率与重新测试的提案数量的关系图,4. 实验(X,y)∈Xt=10.7 - 0.95,图4(左)中tIoU在0.5 - 1.0范围内(与[9]一致)。我们观察到,我们的模型表现出所有现有的最先进的方法,为低,我们凭经验评估节奏的有效性-建议书生成任务的建议书生成方法为1请参见https://github.com/shyamal-b/sst/。2916SSTSCNN-propDAP稀疏道具BoFrag1.00.61.00.80.50.80.60.40.20.40.30.20.10.60.40.20.01101021031040.01101021030.00.5 0.6 0.7 0.8 0.9 1.0平均提案数平均提案朝声图4. 我们的提案网络与最先进的提案本地化方法的比较。SST提供了强大的性能对以前的文献,即使它在测试时不构造重叠的滑动窗口,并通过输入在一个单一的流。(左)SST具有更高的平均召回率,需要更少的建议。当在较高的tIOU范围(0.7-0.95)上计算平均召回率时,这种差异特别明显为了清楚起见,我们在这里显示了前三种建议方法的结果。(右)召回@1000提案与tIoU图显示SST在tIoU 100附近具有最大的改进。8.召回方法tIoU =0。6tIoU =0。8FPSDAPsS-CNN-prop0.9160.9380.5730.52413460SST(我们的)0.9200.672308表1.在1000个建议的召回方面,建议生成性能与现有技术的比较。我们观察到,我们的方法提供了相当的性能较低的tIoU阈值,优于较高的阈值,并提供了一个显着的提高建议的速度。请注意,我们使用了[9]的旧GPU设置,以确保公平比较。我们将在补充资料中讨论新GPU架构的基准测试。大量提案。此外,我们注意到,当在图4(中)中的高重叠区域运行时,我们的模型的性能明显优于先前的工作。其次,我们考虑模型检索具有高tIoU重叠的提案的能力。图4(右)绘制了我们的方法与先前工作相比的前向召回率我们注意到,我们的模型在较低的tIoU范围内与竞争方法进行了比较,但更重要的是,我们的方法在较高的tIoU范围内表现得更好。这是关键,因为这意味着我们的方法可以检索更紧密地捕获真实时间动作间隔的提议最后,我们研究了我们的方法的运行速度相比,在文献中的替代方法。为了实现这一点,我们以每秒帧数(FPS)来衡量运行时速度。与依赖于多尺度时间滑动窗口[29]或单尺度时间滑动窗口[9]的现有工作相比,我们的单通道模型实现了显著更快的处理速度,如表1所示。对视频长度的鲁棒性。我们的架构的一个重要目标是能够处理非常长的测试视频序列。如上所述,我们的想法是,我们的复发-租金模型应该能够在测试视频的整个持续时间内展开,而不管其持续时间,以便在视频的单次通过中生成建议。我们通过模型的两个方面实现了这一点:每帧的密集预测,以及鼓励模型在视频长度方面具有鲁棒性的训练方案。我们从三个方面分析了我们的模型的性能,以突出其鲁棒性为了进行分析,我们选择了1000个检索到的提案的操作点首先,我们研究了关于建议中间框架的时间位置的召回稳定性,我们在图5(左)中绘制。请注意,我们的模型通过展开单个循环网络来处理整个视频,因此视频越长,循环网络处理的时间步长就越多。我们观察到,SST召回性能是稳定的,几乎独立的时间位置的建议。其次,我们研究了召回稳定性与视频长度。在这里,我们计算每个视频的召回率,并计算具有类似长度的视频的平均召回率。 我们还观察到视频长度的稳定行为,如图5(中)所示。最后,我们分析召回性能的建议长度。我们想分析是否较长的动作序列比较短的动作更难检测我们在图5(右)中绘制了召回与建议长度的关系。同样,我们观察到,召回性能也是稳定的,相对于我们希望本地化的地面实况注释的长度。我们还注意到,THUMOS测试集中的一些视频特别长,持续时间超过20分钟。这对应于超过30-50千帧的视频序列。我们的定性评估证实了我们的经验观察,即我们的网络可以在不影响其性能的情况下展开定性结果。我们生成提案样本平均召回平均召回召回@1000个提案29171.00.90.80.70.60.50.41.00.90.80.70.60.50.41.00.90.80.70.60.50.4图5. 我们评估了我们的模型对(左)地面实况提案时间位置,(中心)视频长度和(右)地面实况提案长度的召回稳定性和鲁棒性。我们观察到,SST确实能够处理长的,未经修剪的视频序列,而不影响性能,同时获得显着提高效率。ActivityNetActvityNet≤ 1024方法@500@600@500@600DAPs [9]0.2360.2570.3960.433SST0.2420.2880.4230.494表2. 中ActivityNet的泛化分析总结@k平均建议的平均召回率。我们观察到,SST生成的建议是可比的或优于以前的建议方法看不见的活动。例如,我们的建议提供了+3.1%的相对改善一般看不见的数据集(第1组,栏。2),和+6.1%以上的DAP段看不见的活动,跨度高达1024帧(第2组,颜色。2 )的情况。图6中的模型。我们看到模型很好地本地化了地面实况注释-我们的最高置信度建议很好地满足了tIoU标准,并且我们的最高重叠建议具有高置信度。我们观察到,在假阳性检测中,一种常见的情况是,我们的模型在短动作序列上输出高置信度的提案的可推广性。行动建议方法的另一个关键特征是,它们能够为看不见的行动类别生成片段[9,15,1]。根据在分析天体过程中发现的观测结果[15],Escorcia等人。建议在训练期间看不到的不同动作类集合上评估时间动作建议方法的平均召回率[9]。因此,我们可以评估这些建议方法的普遍性表2总结了我们的方法在此场景中的性能。为了公平比较,我们使用了与[9]相同的实验方案。我们报告了ActivityNet v1.2验证集的两个子集的结果[3]。这些子集对应于:(一)“ActivityNet“结果超过验证集和(ii)最多可跨越1024帧的注释。我们观察到,我们的方法表现出比[9]相当或更好的一般化程度。 其他结果和示例视频如下表3. [9]中基于VLAD的SVM分类器的动作检测结果与提案数量的总结。每种方法的最佳值以粗体显示。SST优于以前的工作,需要更少的建议,表明SST在有限的预算内输出高质量的建议。方法动作检测(mAP)S-CNN(完整系统)[29]0.19SST+(S-CNN分类器)0.23表4.在SST提案之上应用S-CNN分类器 [29因此,我们的SST方法提供了一种更有效的方法来提取精确的视频片段,即使使用现有的分类器也可以更准确地检测到动作。在补充材料中。4.2. 使用SST建议进行最后,我们将我们的建议生成架构的任务的时间动作本地化。我们的目标不仅是定位动作发生的时间间隔,而且要用正确的动作类别标记该时间间隔为了与现有的最先进的提案方法进行直接比较,我们实现了Xu等人的方法。[36,9]。简而言之,对于每个时间段,我们使用VLAD对来自fc7层的相应C3D特征进行编码。然后,我们为每个类别C训练一个one-vs-all线性SVM分类器。我们评估平均AP(mAP),重叠THUMOS'14测试集上的阈值我们在表3中总结了这些标准化动作检测结果。我们观察到SST始终优于其他提案方法,提案数量较少,我们的mAP@200提案(13。94%)匹配或不匹配-提案立场视频长度召回@1K提案长度10000200003000040000500001000020000300004000050000100200300400500帧帧帧动作检测(mAP)方法@50@100@200@500@1000Sparse-prop[2]5.76.37.68.28.0[29]第二十九话5.67.710.513.5713.45DAPs[9]8.412.113.912.512.0SST10.913.213.9413.113.12918(一≀不 29.230.538.538.652.653.759.659.9粤ICP备1032222号-11032.61044.31044.61051.31051.91058.31058.6图6. THUMOS'14上SST模式的定性结果。以秒为单位的时间。(a)SST在一个长的、未经修剪的视频序列上生成的建议。每个groundtruth注释都与顶部的最佳建议相结合。我们观察到网络的性能在整个持续时间内保持不变(b-d)针对给定输入视频序列检索的排名最高的时间动作提议的性能SST提供了具有高tIoU的紧密定位边界。(e-f)排名靠前的检索的假阳性结果特别是,(e)说明了一个问题,即模型有时会对“伞状提案”进行排名,这些提案包含几个短的、连续的行动序列,其置信度略高于单独本地化的执行所有其他方法,而不考虑提案编号。最后,我们证明了通过将[29]中的最新分类阶段应用于SST预测,我们显着改善了时间动作定位。如表4所示,完整的S-CNN动作检测架构具有0.19 mAP [29]的现有最先进的检测性能,而将相同的分类器阶段应用于SST提案导致0.23 mAP。因此,SST提供了一个强有力的基础,时间行动定位。此外,我们证明了改进的建议方法的整体时间动作检测的重要性。5. 结论我们已经推出了一种新的架构,SST,为临时的行动建议,可以在长视频序列在高处理速度。我们的方法处理输入视频数据作为一个单一的流,并构造没有过-在评估时重叠滑动窗口。我们demonstrate,我们的模型实现了国家的最先进的性能上的行动建议的任务,并考虑作为一个完整的检测架构的一部分,提供了有效的行动本地化的性能与更少的建议。6. 致谢这项研究部分由斯坦福人工智能实验室-丰田人工智能研究中心,丰田研究所(TRI)和阿卜杜拉国王科技大学(KAUST)赞助研究办公室赞助。本文反映了作者的观点和结论,而不是TRI或任何其他丰田实体。我们感谢匿名评论员黄德安、奥利弗·格罗斯、法比安·卡巴、约瑟夫·林、季经纬和李飞飞提供的有益评论和讨论。(f不25.531.4 33.740.0(d不89.489.694.9(b不(27.2 27.433.633.9不89.0 89.392.8 94.0(e不49.650.451.552.8 53.754.356.0 56.3真阳性建议假阳性建议2919引用[1] B. Alexe,T.Deselaers和V.法拉利什么是对象?在IEEE计算机视觉和模式识别会议,CVPR,第73-80页,2010年。7[2] F. Caba,J. C. Niebles和B.加尼姆快速的时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在CVPR,2016年。一、二、五、七[3] F. Caba Heilbron,V.埃斯科西亚湾Ghanem和J.C. 尼布尔斯ActivityNet:用于人类活动理解的大规模视频基准。在IEEE计算机视觉和模式识别会议,CVPR,第961-970页,2015年。五、七[4] W. Chen C.,马缨丹属雄河,巴西-地Xu和J.J. 高索格条件序随机场的有序性排序。CVPR,2014。2[5] K.乔湾,巴西-地van Merrienboer、D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性:编码解码器接近。在SSST@EMNLP 2014会议记录中,第八届统计翻译中的语义,语义和结构研讨会,卡塔尔多哈,2014年10月25日,第103-111页,2014年。4[6] K. 乔湾,巴西-地 VanMerr ieenboer,C. Gulcehre,D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习 短语表示用于 统计机器翻 译。arXiv预印本arXiv:1406.1078,2014。4[7] 钟杰角,澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。4[8] O. 杜兴岛Laptev,J.Sivic,F.Bach和J.庞塞视频中人类动作的自动注释。ICCV,2009年。2[9] V. Escorcia,F. Caba,J. C. Niebles和B.加尼姆DAPs:深入的行动建议,以促进行动理解。在ECCV,2016年。一、二、三、四、五、六、七[10] A. Gaidon,Z. Harchaoui和C.施密特活动表示与运动层次结构。国际计算机视觉杂志,107(3):219-238,2014。2[11] R.格希克,J。多纳休,T. Darrell和J.马利克丰富的特征层次 结构 ,用 于准 确的 对象检 测和 语义 分割 。在CVPR,2014年6月。2[12] G. Gkioxari和J.马利克找活动管。在IEEE计算机视觉和模式识别会议上,CVPR,第759-768页,2015年。2[13] A. Graves.监督序列标记。在使用递归神经网络的监督序列标记中,第5-13页。Springer,2012. 2[14] S. Herath,M. Harandi和F. 波里克利 深入到行动识别:一个调查。arXiv预印本arXiv:1605.04988,2016年。2[15] J. 霍桑河贝嫩森山口 Doll a'r和B. 席勒什么是有效的检测建议?PAMI,2015年。7[16] M. Jain,J. C. vanGemert,H. J e'gou,P. Bouthemy,以及C. G. M.斯诺克动作定位与tubelets从运动。CVPR,2014。2[17] Y.-- G. Jiang,J.Liu,中国粘蝇A.Roshan Zamir,G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类。网址://crcv.ucf.edu/THUMOS14/,2014年。五、七2920[18] R. Jozefowicz,W.扎伦巴和我Sutskever循环网络架构的实证探索。Journal of Machine Learning Research,2015。4[19] S.卡拉曼湖Seidenari,和A.德尔·宾博基于Fisher编码密集轨迹的快速显著性池化。在ECCV THUMOS研讨会,第1卷,第6页,2014年。2[20] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。神经信息处理系统进展(NIPS),第3128-3137页,2014年2[21] A. Karpathy,J. Johnson和F.李观察和了解经常性网络。CoRR,abs/1506.02078,2015。2[22] Y.克河Sukthankar和M.赫伯特拥挤视频中的事件检测。在2007年IEEE第11届计算机视觉国际会议上,第1-8页。IEEE,2007年。2[23] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。5[24] S.马湖,加-地Sigal和S. Scaroff在lstms中进行活动检测和早期检测的学习活动进展。2016年IEEE计算机视觉和模式识别会议(CVPR),第1942-1950页,2016年6月。2[25] P. Mettes,J. van Gemert,S. Cappallo,T. Mensink,以及C.斯诺克碎片袋:选择和编码视频片段,用于事件检测和重新叙述。ACM国际多媒体检索会议(ICMR),2015年。5[26] D. Oneata , J. Verbeek , and C. 施 密 特 The learsubmission at thumos 2014. 2014. 2[27] H. Pirsiavash和D. Ramanan用分段语法解析动作视频。在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition中,第6122[28] S. Ren,K.赫利河Girshick和J.太阳更快的R-CNN:用区域建议网络进行实时目标检测。神经信息处理系统进展(NIPS),2015年。2[29] Z. Shou,山核桃D. Wang和S.昌通过多级CNN在未修剪视频中进行时间动作定位。在CVPR,2016年。一二三四五六七八[30] B.辛格,T. K.马克,M。琼斯岛Tuzel和M.邵一种用于细粒度动作检测的多流双向递归神经网络2016年IEEE计算机视觉和模式识别会议(CVPR),第1961- 1970页2[31] Y.-- C. Su和K.格劳曼留下一些石头没有转动:用于流视频中活动检测的动态特征优先级排序。arXiv预印本arXiv:1604.00427,2016年。2[32] C.孙习谢蒂河Sukthankar和R.奈瓦提亚通过从网络图像中进行主传输来对视频中的细粒度动作进行时间局部化。第23届ACM国际多媒体会议论文集,第371- 380页ACM,2015. 2[33] D. 特兰湖布尔代夫河费格斯湖Torresani和M.帕鲁里用三维卷积网络学习时空特征。在ICCV,2015年。二、三2921[34] J. C. van Gemert,M. Jain 、E. Gati,和C. G. 斯诺克Apt:来自密集轨迹的动作本地化建议。在BMVC,2015年。2[35] L. Wang,Y.乔和X.唐结合动作和外观特征进行动作识别和检测THU-MOS 14 Action Recognition Challenge,1:2,2014. 2[36] Z. Xu,Y.Yang和A.G. 豪普特曼一种用于事件检测的判别式cnn视频表示IEEE计算机视觉与模式识别会议,CVPR,2015年。7[37] A. Yao,J. Gall,and L. V.Gool基于霍夫变换的行动识别投票框架。载于C
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功