没有合适的资源?快使用搜索试试~ 我知道了~
时空渐进学习的动作检测器
264STEP:用于视频动作检测的时空渐进学习杨希彤1杨晓东2刘明宇2肖凡毅3拉里·戴维斯1扬·考茨21马里兰大学帕克分校2NVIDIA3加州大学戴维斯分校摘要在本文中,我们提出了Spatie-TEmporalP rogressive(STEP)动作检测器-一个渐进式学习框架,用于视频中的时空动作检测。从一些粗略的建议长方体开始,我们的ap-proach逐步完善了几个步骤的行动建议。这样,高质量的提案(即,坚持动作运动)可以在随后的步骤中通过利用来自先前步骤的回归输出来逐渐获得。在每一步中,我们自适应地延长时间,以纳入更多相关的时间上下文。与以前的工作相比,在一个运行中执行动作检测,我们的渐进式学习框架能够自然地处理动作管内的空间位移我们广泛地评估了我们对UCF101和AVA的方法,并证明了优越的检测结果。值得注意的是,我们在两个数据集上实现了75.0%和18.6%的mAP,其中3个渐进步骤分别仅使用11个和34个初始建议。1. 介绍时空动作检测旨在识别视频中存在的感兴趣的动作,并在空间和时间上定位它们。受图像中对象检测领域的进展的启发[8,21],最近的工作基于标准的两阶段框架来完成这项任务:在第一阶段中,通过区域提议算法或密集采样锚点来产生动作提议,并且在第二阶段中,提议用于动作分类和定位细化。然而,与图像中的对象检测相比当考虑到视频的时间特性时,上述两个阶段都提出了新的挑战。首先,动作管(即,动作的边界框序列)通常涉及空间位移-*在NVIDIA Research实习期间完成的工作图1:动作检测的时空渐进学习的示意图从一个粗略的建议长方体开始,它逐步细化的行动的建议,并自适应地扩展建议,以纳入更多相关的时间上下文在每一步。随着时间的推移,这引入了用于预测生成和细化的额外复杂性第二,有效的时间建模成为准确的动作分类的必要条件,因为只有在时间上下文信息可用时,许多动作才是可识别的。先前的工作通常通过在剪辑处执行动作检测来利用时间信息(即,短视频片段)级别。例如,[12,17]将帧序列作为输入,并输出每个剪辑的动作类别和回归的tubelet。为了生成动作建议,他们通过随时间重复它们来将2D区域建议扩展到3D,假设空间范围在剪辑内是固定的。然而,这种假设将适用于具有大空间位移的动作管,特别是当剪辑较长或涉及演员或摄像机的因此,直接使用长长方体最近,有一些尝试使用自适应提案进行动作检测[16,20]。然而,这些方法需要离线链接过程来生成建议。265在本文中,我们提出了一种新的学习框架,Spatie-TEmporalP rogressive(STEP)动作检测器,用于视频动作检测。如图1所示,与直接在一次运行中执行动作检测的ex-task方法不同,我们的框架涉及多步优化过程,该过程逐步改进初始建议以获得最终解决方案。具体而言,STEP由两个组件组成:空间细化和时间扩展。 空间细化从少量的粗尺度建议开始,并迭代地更新它们以更好地分类和定位动作区域。我们按顺序执行多个步骤,其中一个步骤的输出用作下一步的建议。这是因为回归输出可以更好地遵循参与者,并且比输入建议更好地适应动作管时间扩展的重点是通过整合较长范围的时间信息来提高分类精度然而,简单地将较长的剪辑作为输入是低效的,并且也是无效的,因为较长的序列往往具有较大的空间位移,如图1所示。相反,我们在每一步都渐进地处理较长的序列,并自适应地扩展建议以遵循行动运动。以这种方式,STEP可以自然地处理空间位移问题,从而提供更高效和有效的时空建模。此外,STEP通过仅使用少数(例如,11)的建议,避免了生成和处理大量建议的需要(例如,>1K)的建议,由于巨大的空间和时间搜索空间。据我们所知,这项工作提供了第一个端-最后一个渐进式优化框架,用于视频动作检测。提出了作用管中的空间位移问题,并证明了该方法能自然地、有效地处理该问题广泛的评估发现,我们的方法产生优越的检测结果,而只使用少量的建议。2. 相关工作行动识别。 视频动作识别中的一大系列研究是关于动作分类的,它为动作检测提供了基本工具,例如多模态上的双流网络[28,35],用于同时进行空间和时间特征学习的3D-CNN [4,13],以及用于捕获时间上下文和处理可变长度视频序列的RNN[25,36]。另一个活跃的研究线是时间动作检测,其专注于定位每个动作的时间范围。已经提出了许多方法,从快速时间动作建议[15],区域卷积3D网络[34]到感知递归策略网络[23]。时空动作检测。受图像对象检测的最新进展的启发,已经做出了许多努力来扩展图像对象检测器(例如,R-CNN,快速R-CNN和SSD)作为帧级动作检测器[10,26,27,30,33,37,38]。扩展主要包括:首先,使用光流来捕获运动提示,其次,开发链接算法以将帧级检测结果与动作管相关联。虽然这些方法已经取得了有希望的结果,但由于对每个帧独立地执行检测,为了更好地利用时间线索,最近的几项工作已经提出了在剪辑级别执行动作检测。例如,ACT [17]将短帧序列6帧)并输出回归的小块,然后通过小块链接算法将其链接以构建动作管。Gu等人[12]通过使用较长的剪辑(例如,40帧),并利用在大规模视频数据集上预训练的I3D [4]。除了链接帧或剪辑级别检测结果之外,还开发了一些方法来在分类之前链接建议以生成动作管建议[16,20]。渐进式优化。这种技术已经在一系列视觉任务中进行了探索,[3]、图像生成[11]到对象检测[2,6,7,24]。具体来说,多区域检测器[6]引入了带有R-CNN的迭代边界框回归,以产生更好的回归结果。[7]中的AttractioNet采用多阶段过程来生成准确的对象建议,然后将其输入到Fast R-CNN。G-CNN [24]训练回归器以迭代地将边界框的网格移向对象。Cascade R-CNN [2]提出了一种用于高质量对象检测的级联框架,其中一系列R-CNN检测器通过增加IoU阈值进行训练,以迭代地抑制接近的误报。3. 方法在本节中,我们将介绍用于视频动作检测的渐进式学习框架STEP。我们首先阐述问题并概述我们的方法。然后,我们详细描述了STEP的两个主要组成部分,包括空间细化和时间扩展。最后给出了训练算法和实现细节。3.1. 框架概述继续最近的工作[12,17],我们的方法在剪辑级别执行动作检测,即,检测结果首先从每个剪辑中获得,然后链接以在整个视频中构建动作管我们假设剪辑的每个动作小块具有恒定的动作标签,考虑到剪辑的短持续时间,例如,在一秒钟内。我们的目标是通过几个渐进的步骤来解决动作检测问题,而不是一次运行就直接为了检测266我我我我我(p,l)算法1:针对剪辑It的STEP动作检测输入:视频剪辑I,初始建议B0,最大步长Smax.SMax最大值S输出:检测结果 (pi ,li)i=1图2:11个初步提案的示例:随着时间的推移复制2D盒以获得长方体。1提取视频片段的卷积特征I2fors←1 toSmaxdo3如果s== 1,则4//初始提案5Bs−1←B06其他7//时间延长(第二节)3.3)根据最大进度,用K帧剪辑It8步骤Smax,我们首先提取卷积特征Bs−1←Extend(Bs−1)对于一组剪辑I={It−SMax +1,..., 我...It+SMax −1}9端部使用诸如VGG16 [29]或I3D [4]的骨干网络。10//空间细化(第二节)3.2).SsM100- 1渐进式学习从M预定义建议11开始(pi,li)i=1←优化(B)0的情况。0M0K×412//更新建议(等式12)第一章长方体B =bii=1且bi∈R,它们是稀疏的..ΣM Σ从一个粗略的盒子网格中取样,形成初步提案。我们实验中使用的11个初始提案的示例如图2所示。然后,这些初步建议将逐步更新,以更好地对行动进行分类和定位。 在每个13Bs←更新14的端S si ii=1在步骤s中,我们通过依次执行以下过程来更新建议:• 扩展:提议在时间上扩展到广告剪辑以包括较长范围的时间上下文,并且时间扩展适应于动作的移动,如第3.3节中所描述的。• 细化:扩展的建议被转发到空间细化,空间细化输出分类和回归结果,如第3.2节所示。• 更新:使用简单的贪婪算法更新所有建议,即,每个建议被具有最高分类分数的回归输出替换:S .s s获取不同类型的信息。为了准确的行动分类,它需要在空间和时间上的上下文特征,而对于鲁棒的定位回归,它需要在帧级别上更精确的空间线索。因此,我们的双分支网络由一个全局分支和一个局部分支组成,全局分支对整个输入序列执行时空建模以进行动作分类,局部分支在每一帧执行边界框回归。给定当前步骤的帧级卷积特征和tubelet建议,我们首先通过ROI池化提取区域特征[8]。 然后我们将区域特征带到全局分支进行时空建模,生成全局特征。每一个全局特征都对一个整体的上下文信息进行bi=li(c),c=arg maxpi(c),(1)Ctubelet,并进一步用于预测分类,把ps。 此外,全局特征与其中c是一个动作类,ps∈ R(C+1)是第i个建议在C个动作类加上背景上的概率分布,ls∈RK×4×C表示其参数化坐标(用于计算等式中的局部化损失)3)在.每个帧用于每个类别,并且=指示解码PA。光栅坐标 我们总结了我们算法1中的检测算法。3.2. 空间精度在每个步骤s,空间细化解决了涉及动作分类和定位回归的多任务学习问题因此,我们设计了两个-我在每个帧处的相应区域特征以形成局部特征,其用于生成类特定的回归输出LS。我们的局部特征不仅捕获了tubelet的时空背景,而且还提取了每帧的局部细节。通过联合训练这两个分支,网络学习了两个独立的特征,这两个特征具有信息性,并且能够适应自己的任务。训练损失。我们强制执行多任务损失,以联合训练动作分类和tubelet回归。设Ps表示步骤s中选定的阳性样本集,Ns表示步骤s中的阴性样本集(采样策略见第3.4节)。我们将训练损失Ls定义为:分支体系结构,它为这两个任务学习单独的特性,如图3所示。我们的动机是Ls=ΣΣLcls(ps,ui)+λLloc(ls(ui),vi),(2)这两项任务的目标有很大的不同,267i∈{Ps,Ns}i∈Ps268我K- BSK−1+1个−1+1个−1+1个−1+1个−1图3:左侧:我们的双分支网络的架构。右:我们的渐进式学习框架的说明,其中其中,ui和vi是第i个样本的基础真值类标签和局部化目标,λ是控制两个损失项的重要性的权重我们采用多类交叉熵损失作为分类损失Lcls ( ps,ui)=−logps(ui),二、我们定义本地-引入两种方法以使得时间扩展能够是自适应的,如下所述。外推法通过假设一个动作的空间运动满足近似在一个短的时间范围,如6帧剪辑,我们可以解释,我我化损失使用的平均值,平滑之间的预测以及剪辑帧上的地面实况边界框:通过使用简单的线性外推,功能:Lloc(ls(ui),vi)=1ΣKKk=11、光滑(lsi,k(ui)− vi,k).(三)S+1,k=BssK+K−1(BssSK−K+1 )的情况。(四)我们通过使用尺度不变的中心平移和相对于边界框的对数空间高度/宽度移位,对vi,k应用与[93.3. 时间扩展视频时间信息,特别是长期时间依赖性,对于准确的动作分类至关重要[4,36]。为了利用更大范围的时间背景,我们扩展了建议,以包括更多的帧作为输入。然而,这种扩展并不是微不足道的,因为对于更长的序列,空间位移问题变得更加严重,如图1所示。最近,[12,17]也观察到了动作检测的空间位移问题造成的一些负面影响,这些问题只是简单地在时间上复制2D提案,以增加更长的时间长度。为了减轻空间位移可以将类似的函数应用于Bs以适应移动趋势,但是对于长序列将违反该假设,并且因此导致漂移估计。期待。我们还可以通过位置预测来实现自适应节奏扩展,即,训练一个前tra回归分支基于当前剪辑推测相邻剪辑中的小块位置。直觉上,预测需要网络通过当前剪辑中的动作建模来推断相邻剪辑中的运动趋势。[37]中探讨了类似的想法,其中在区域提议阶段使用位置预测。我们将我们的位置预测公式化为残差学习问题[14,22],基于两个相邻剪辑的tubelet彼此相差一个小残差的假设令x指示在步骤102转发到位置回归器Ls=f(x)的输出层f的特征。S.因此,可以获得预期位置:问题,我们逐步执行时间扩展,自适应地从第二步开始,我们扩展了tubelet pro-s=Ls+f−1(x),Ls=Ls+f+1(x),(5)一次切换到两个相邻的剪辑换句话说,在每一步1≤s< Smax,建议Bs的长度为Ks扩展为Bs=BsBsBs,长度为Ks+2K,其中f−1和f+1是预期回归量,它们是轻量级的,引入的计算开销可以忽略不计。然后将Ls和Ls解码为建议其中,n表示级联。此外,时间SBs. 位置预测的损失函数为通过利用来自前一步骤的回归小管的我们以类似于Eq的方式定义3、并结合Lcls和具有系数γ的Lloc以形成总损耗。BLB2693.4. 网络训练虽然STEP涉及多个渐进步骤,但整个框架可以端到端进行训练,以联合优化不同步骤的模型与[24]中使用的分步训练方案相比,我们的联合训练更容易实现,运行更有效,并且在我们的实验中取得了给定一小批训练数据,我们首先执行(Smax-1)步推理过程,如图3右侧所示,以获得所有进度所需的输入步骤。 实际上,检测输出{(ps,ls)}M步骤1步骤2步骤3IoU IoU IoU图4:UCF 101上步骤上输入分布的变化(输入建议和地面实况之间的IoU)。分别地,采样概率与分类得分成比例。对于第一步,最高超过-i ii=1在每一步都收集并用于选择阳性以及负样本Ps和Ns用于训练。我们对所有步骤的损失进行累加,同时反向传播以更新整个模型。分布变化。与以前在一次运行中执行检测的工作相比,我们的训练可能更具挑战性,因为输入/输出分布随着步骤而变化。如图4所示,在早期步骤中,输入分布是右偏的或集中在低IoU水平,并且在稍后步骤中反转。这是因为我们的方法从一个粗略的网格开始(见图2),并逐步细化它们以生成高质量的建议。因此,输出分布的范围(即,偏移矢量的比例)随着步长减小。受[2]的启发,我们以三种方式解决分布变化首先,在不同的步骤中使用单独的头部以适应不同的输入/输出分布。其次,我们在多个步骤中增加IoU阈值。直觉上,早期步骤的较低IoU阈值允许初始方案包括足够的阳性样本,而后期步骤的较高IoU阈值鼓励高质量检测。第三,采用硬感知采样策略,在训练过程中选择更多的信息样本。硬感知采样。我们设计的抽样策略基于两个原则:(i)阳性和阴性样本的数量应该大致平衡,(ii)应该更多地选择更难的阴性样本测量对于阴性样本的“硬度”,我们使用上一步的分类分数。具有高置信度但与任何地面真实值的低重叠的小块被视为硬样本。我们通过对目标剪辑的K因此,具有较高分类分数的阴性样本将以较高的机会被采样。形式上,给定一组建议和步骤s处的重叠阈值τs,我们首先将正标签分配给与地面真实值具有最高重叠的候选日期。这是为了确保每个地面真值管至少有一个阳性样本。之后,与任何地面实况管具有高于τs然后我们取样|Ps|阳性和|Ns|两个样本池的阴性结果,与地面真值管的重叠被用作采样的分数Ps中的每个选定的阳性被分配给与其具有最高重叠的地面真值管。请注意,单个建议只能分配给一个地面实况管。3.5. 完整模型我们还可以将我们的模型与视频动作检测的常见实践[12,17,30]相结合,例如双流融合和tubelet链接。场景上下文。它已被证明是有益的对象和动作检测[20,32]。直观地,来自场景上下文的一些动作相关语义线索可以用于改进动作分类,例如,用于识别“篮球扣篮”的篮球场。我们通过将扩展特征连接到全局分支中的原始区域特征来整合场景上下文扩展的特征可以通过整个图像的RoI池来获得因此,全局特征编码了对动作分类有用的空间和时间上下文。双流融合大多数先前的方法使用后期融合来在测试时组合结果,即,独立于两个流获得检测,然后使用平均融合[17]或联合融合[30]进行融合在这项工作中,我们还研究了双流融合的早期融合,它将通道中的RGB帧和光流图连接起来,并作为一个整体输入到网络中。显然,早期融合可以对两种模态之间的低水平交互进行建模,并且还消除了训练两个单独网络的需要。此外,还可以进行混合融合,将早期融合的检测结果与两个流进行组合。实验结果表明,早期融合优于晚期融合,混合融合取得了最好的性能。Tubelet Linking. 给定剪辑级检测结果,我们将它们在空间和时间上连接起来,以构建最终的动作管。我们遵循与[17]中描述的相同的链接算法,除此之外,我们不应用全局跨类的非最大抑制,但在链接路径上执行通常使用的临时修剪 在[20,27]中。时间修剪通过经由动态编程解决能量最大化问题来强制连续框具有平滑分类分数2704. 实验在本节中,我们描述了评估STEP的实验,并与最近的竞争算法进行了比较。我们首先进行各种消融研究,以更好地了解我们方法中每个单独组件的贡献然后,我们报告比较国家的最先进的方法,提供深入的分析,并提出定性检测结果。4.1. 实验装置数据集。我们在两个基准上评估我们的方法:[ 12 ]第101话,与其他动作检测数据集(如J-HMDB和UCF-Sports)相比,这两个基准更大,更具挑战性,更重要的是,它们是时间上未修剪的,更适合时空动作检测任务。UCF 101最初是从在线视频中收集的动作分类数据集,并且为具有3,207个视频的24个类的子集提供用于动作检测的时空注释。根据标准评估协议[17],我们报告了数据集第一次分裂AVA包含来自电影的复杂动作我们使用AVA的2.1版本,其中包括超过80个动作类的1 fps的注释按照[12]中的标准设置,我们报告了最常见的60个类的结果,每个类至少有25个验证示例。评估指标。我们报告帧级平均精度(帧mAP),IoU阈值为0.5两个数据集。该度量允许我们独立于链接算法来评估检测结果的质量。我们还使用UCF 101上的video-mAP与最先进的结果进行比较。实施详情。对于UCF101上的实验,我们使用在ImageNet [5]上预训练的VGG16 [29]作为骨干网络。虽然有更先进的模型,但为了公平起见,我们选择与[17]比较对于全局分支中的时间建模,我们使用三个3D卷积层,并沿时间维度进行自适应最大池化。所有帧的大小都调整为400×400,剪辑长度设置为K=6。与[17]类似,对于光流输入,5个连续的光流图被我们使用Adam [19]训练我们的模型35个epoch,批量大小为4。我们将初始学习率设置为5×10−5,并在20和30个epoch后以0.1的衰减率进行逐步衰减。对于AVA上的实验,我们采用在Kinetics-400 [18]上预训练的I3 D [4](直到Mixed 4f)作为骨干网络。我们采用I3D的两个层Mixed 5b和Mixed 5c来进行我们的全局分公司所有帧的大小都调整为400×400,剪辑长度设置为K=12。我们使用34个初始提案,并仅在第三步执行时间扩展为SMaxS模式F-map1234RGB66.7151.5---流63.5256.660.7--晚70.7357.161.862.6-早期74.3458.262.162.862.7混合75.0表1:使用不同步骤数(左)和不同输入模式和融合方法(右)训练的模型的帧mAP(%分类在AVA上更具挑战性,我们首先使用训练集的空间基础事实对然后,我们训练模型进行动作检测,批次大小为4,持续10个epoch。由于计算量很大,我们没有在这个数据集上使用光流,而是将两个RGB模型的结果我们的初始学习率对于骨干网络是5×10−6,对于两个分支网络是5×10−5,并且在6个epoch之后以0.1的衰减率进行阶跃衰减。对于所有实验,我们使用Brox [1]提取光流(如果使用),并在训练期间对整个帧序列执行数据增强,包括随机翻转和裁剪。更多的架构和实现细节可以在补充材料中找到。4.2. 消融研究我们在UCF 101上进行了各种消融实验,以评估我们框架中不同设计选择的影响。对于本节中的所有实验,除非另有明确说明,否则我们仅采用图2和RGB中所示的11个初始提案,并且使用帧mAP作为评估度量。空间炼化的效果。STEP的主要设计是通过几个步骤逐步解决动作检测问题。因此,我们首先通过比较不同步骤的检测结果与空间细化来验证渐进学习的有效性。在该比较中没有应用时间扩展。表1(a)展示了不同最大步长Smax下的逐步性能。由于我们的方法从粗尺度的建议开始,执行空间细化一次是不够的,以达到良好的效果。我们观察到,第二步一致地和实质性地改善了结果,表明更新后的建议具有更高的质量,并为分类和定位提供了更精确的信息。进一步的改进可以通过额外的步骤来获得,这表明我们的渐进式空间细化的有效性。我们在大多数实验中使用3个步骤,因为在此之后性能饱和。请注意,由于我们的多步联合训练的好处,使用更多的步骤也可以改善早期步骤的结果271图5:使用和不使用时间扩展训练的模型的帧mAP(%时间延长的效果。 除了空间细化,我们的渐进式学习还包含时间扩展,以便在每一步逐步处理更长的序列。我们在图5中比较了具有和不具有时间扩展的检测结果。我们显示的模型的结果K=6和K=30帧作为输入直接没有时间扩展,以及外推和预测方法的结果。注意,具有时间扩展的模型也在第三步处理30帧(扩展过程:6 →18 →30)。这 两 种 时 间 扩 展 方 法 的 性 能 都 大 大 优 于 基 线(K=6),这清楚地表明了将较长范围的时间上下文用于动作分类的好处。更值得注意的是,简单地将K=30帧作为输入而不进行时间扩展导致较差的性能,从而验证了以渐进方式自适应地扩展时间尺度的重要性。此外,我们观察到,预期表现比外推更长的序列,indi-对该预期进行跟踪可以更好地捕获非线性运动趋势,并因此生成更好的扩展。融合比较。表1(b)显示了不同融合的检测结果:晚期、早期和混合融合。在所有情况下,使用这两种模式都可以提高性能与个人相比。我们发现早期融合优于晚期融合,并将改善归因于早期阶段两种模式之间的建模。混合融合进一步利用了不同融合方法的互补信息,达到最佳融合效果。杂项。我们在第3节中描述了几种改进训练的技术,包括结合场景上下文,硬奖励采样和增加IoU阈值。为了验证三个技术的贡献niques,我们通过一次移除一个来进行烧蚀实验,这相应地导致2.5%、1.5%和1%的性能下降。此外,我们观察到,结合场景上下文提供了更多的收益为以后的步骤,这表明场景上下文是更重要的动作分类时,边界框变得紧张。图6:我们的方法在各种设置下的运行时分析:(a)使用具有和不具有时间扩展的不同步骤数的推理速度,以及(b)使用不同数量的初始提议的检测结果(绿点)和速度(蓝条)。4.3. 运行时分析虽然STEP涉及多步优化,但我们的模型是有效的,因为我们只处理少量的建议。STEP在单个GPU上使用11个初始建议和3个步骤的早期融合以21 fps运行,这与基于剪辑的方法(23 fps)[17]相当,并且比基于帧的方法(4 fps)[26]快得多图6(a)展示了在有和没有时间延伸的设置下,随着步骤数量的增加,我们的方法的速度。我们还报告了我们的方法的运行时间和检测性能(w/o时间扩展为3步),图6(b)中的初始建议数量不断增加。我们观察到大量的收益,通过增加初始提案的数量,在检测准确性,但它也会导致推理速度减慢。可以根据指定的时间预算来控制精度和速度之间的这种权衡。4.4. 与最新技术水平结果的我们将我们的方法与表2和表3中的UCF 101和AVA的最新方法进行了比较。根据标准设置,我们报告了两个数据集上IoU阈值为0.5的帧mAP和UCF 101上各种IoU阈值的视频mAP。STEP在UCF 101上的性能始终优于最先进的方法,并在帧mAP中带来明显的增益,产生5。比第二好的结果提高了5%。我们的方法也取得了优越的结果AVA,优于最近提出的ACRN的1。百分之二。值得注意的是,STEP从少数初始建议中简单地执行检测,而其他竞争算法依赖于大量密集采样的锚点或使用外部大规模图像对象检测数据集训练的额外人员检测器。4.5. 定性结果我们在图7中的不同步骤可视化我们的方法的检测结果。每一行指示在特定步骤处的检测输出。如果检测结果正确,则边界框标记为红色,否则标记为蓝色。272图7:UCF 101检测结果示例红色框表示正确检测,蓝色框表示错误分类。(a)示出了渐进式学习在步骤上改进动作分类的效果。(b)展示了在每个步骤中通过空间细化的回归输出。图8:通过我们的方法进行小规模动作检测的示例。红色框表示初始建议,橙色框表示检测输出。表2:在不同IoU阈值下,通过帧mAP和视频mAP与UCF 101上的最新方法进行比较。方法帧mAP[12]第十二话14.2I3D [12]14.7[12]第十二话15.6[32]第三十二话17.4我们18.6表3:在IoU = 0下,通过帧-mAP对AVA的最新方法的比较。五、图7(a)展示了渐进式学习对更准确的动作分类的影响。可以观察到的事实是,蓝框在后面的步骤中被消除。在图7(b)中,第一行对应于初始方案,接下来的两行显示了方案在步骤上的空间细化的效果。很明显,这些建议逐步向表演者靠拢在后面的步骤中获得更好的定位结果虽然从粗尺度的建议开始,但由于渐进的空间细化,我们的方法对各种动作尺度都是鲁棒的,如图8所示。5. 结论在本文中,我们提出了时空渐进学习框架STEP的视频动作检测。STEP涉及空间细化和时间扩展,前者从稀疏的初始建议开始,迭代更新边界框,后者逐渐自适应地增加序列长度,以包含更多相关的时间上下文。STEP被发现能够更有效地利用较长的时间信息,通过处理空间位移问题的行动管。在两个基准测试上进行的大量实验表明,STEP仅使用少数建议和几个更新步骤就能持续带来性能增益。谢谢。戴维斯承认IARPA通过内政部/内政部商业中心(DOI/IBC)根据合同号D17 PC 00345提供的支持。方法帧mAP视频mAP0.50.050.10.2MR-TS [26]65.778.877.372.9公路[30]---73.5解放军[37]-79.077.373.5RTPR [20]-81.580.776.3PntMatch [38]67.079.477.776.2T-CNN [16]67.378.277.973.1ACT [17]69.5--76.5我们75.084.683.176.6273引用[1] ThomasBrox , Andre 'sBruhn , NilsPapenberg ,andJoachimWeickert.基于翘曲理论的高精度光流估计。见ECCV,2004年。6[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:深入研究高质量的对象检测。在CVPR,2018年。二、五[3] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在CVPR,2016年。2[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。二三四六[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。6[6] 斯派罗·吉达里斯和尼科斯·科莫达基斯通过多区域和语义分割感知CNN模型进行对象检测在ICCV。2[7] 斯派罗·吉达里斯和尼科斯·科莫达基斯参加细化重复:通过输入输出本地化生成活动框建议。在BMVC,2016年。2[8] 罗斯·格希克。快速R-CNN。在ICCV,2015年。第1、3条[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。4[10] Georgia Gkioxari和Jitendra Malik。 找活动管。CVPR,2015。2[11] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。DRAW:用于图像生成的递归神经网络。ICML,2015。2[12] ChunhuiGu,ChenSun,SudheendraVijayanarasimhan,Caroline Pantofaru,David A Ross,George Toderici , Yeqing Li , Susanna Ricco , RahulSukthankar,and Cordelia Schmid.AVA:时空局部原子视觉动作的视频数据集。在CVPR,2018年。一二四五六八[13] 原贤章片冈广胜佐藤丰时空3D CNN可以追溯2D CNN和ImageNet的历史吗?在CVPR,2018年。2[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。4[15] 法比安·海尔布隆,胡安·尼布尔斯,伯纳德·加尼姆。在未修剪的视频中有效检测人类动作的快速时间活动建议。在CVPR,2016年。2[16] Rui Hou,Chen Chen,and Mubarak Shah.用于视频中动作检测的管卷积神经网络(T-CNN)InICCV,2017. 一、二、八[17] Vicky Kalogeiton,Philippe Weinzaepfel,Vittorio Ferrari和Cordelia Schmid。用于时空动作定位的动作小管检测器。InICCV,2017. 一、二、四、五、六、七、八[18] Will Kay 、 Joao Carreira 、 Karen Simonyan 、 BrianZhang、Chloe Hillier、Sudheendra Vijayanarasimhan 、Fabio Viola、Tim Green、Trevor Back和Paul Natsev。Kinetics 人 类 动 作 视 频 数 据 集 .arXiv : 1705.06950 ,2017。6[19] 迪德里克·金马和吉米·巴。Adam:随机最佳化的方法。ICLR,2015年。6274[20] 董立、赵凡秋、齐岱、姚婷、陶梅。再流tubelet建议和识别网络的行动检测。在ECCV,2018。一、二、五、八[21] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy,Scott Reed,Cheng-Yang Fu,andAlexander Berg.SSD:单次触发多盒探测器。在ECCV,2016年。1[22] 龙明生,韩柱,王建民,迈克尔·乔丹.无监督域自适应残差传输网络。InNeurIPS,2016. 4[23] BehroozMahasseni,XiaodongYang,PavloMolchanov,and Jan Kautz.使用循环策略网络的预算感知活动检测。在BMVC,2018年。2[24] Mahyar Najibi,Mohammad Rastegari,and Larry Davis.G-CNN : 一 种 基 于 迭 代 网 格 的 对 象 检 测 器 。 在CVPR,2016年。二、五[25] Yue-Hei Ng,Matthew Hausknecht,Sudheendra Vijaya-narasimhan,Oriol Vinyals,Rajat Monga,and GeorgeToderici.除了简短的片段:用于视频分类的深度网络。CVPR,2015。2[26] Xiaojiang Peng和Cordelia Schmid.用于动作检测的多区域双流R-CNN。在ECCV,2016年。 二七八[27] Suman Saha,Gurkirt Singh,Michael Sapienza,PhilipTorr,and Fabio Cuzzolin.深度学习用于检测视频中的多个时空动作管。在BMVC,2016年。二、五[28] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。NeurIPS,2014。2[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。ICLR,2015年。三、六[30] Gurkirt Singh,Suman Saha,Michael Sapienza,PhilipTorr,and Fabio Cuzzolin.在线实时多时空动作定位和预测。InICCV,2017. 二、五、八[31] Khurram Soomro 、 Amir Roshan Zamir 和 MubarakShah。UCF101:来自野外视频的101个人类动作类的数据集。arXiv:1212.0402,2012。6[32] Chen Sun,Abhinav Shrivastava,Carl Vondrick,KevinMurphy,Rahul Sukthankar,and Cordelia Schmid.以演员为中心的关系网络。在ECCV,2018。五、八[33] Philippe Weinzaepfel , Zaid Harchaoui , and CordeliaSchmid.学习跟踪时空动作局部化。在ICCV,2015年。2[34] Huijuan Xu,Abir Das,and Kate Saenko. R-C3 D:用于时间活动检测的区域卷积3D网络InICCV,2017. 2[35] Xiaodong Yang,Pavlo Molchanov,and Jan Kautz.用于视频分类的深度神经网络的多层和多模态融合。ACMMM,2016。2[36] Xiaodong Yang,Pavlo Molchanov,and Jan Kautz.使卷积网络经常用于视觉序列学习。在CVPR,2018年。二、四[37] Zhenheng Yang,Jiyang Gao,and Ram Nevatia.具有级联建议和位置预测的时空动作检测在BMVC,2017年。二四八[38] 叶远成,杨晓东,田颖丽。发现时空作用管。JVCI,2019年。二、八
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功