没有合适的资源?快使用搜索试试~ 我知道了~
互补的时间行动建议的产生JiyangGao,KanChen,Ram Nevatia南加州大学{jiyangga,kanchen,nevatia}@ usc.edu抽象。时间动作建议生成是一项重要的任务,类似于对象建议,时间动作建议旨在限制“限制”或限制所提供的时间动作建议,而不是限制动作 以往的方法可以分为两大类:滑动窗口排序和行动性得分分组。 滑动窗口均匀地覆盖视频中的所有片段,但是时间边界不精确;基于分组的方法可以具有更精确的边界,但是当动作质量分数较低时,它可能忽略一些建议。基于这两种方法的互补特性,我们提出了一种新的互补时间动作建议(CTAP)生成器。具体地说,我们应用一个建议级的行动可信度估计器(PATE)的滑动窗口的建议,以产生的概率,指示是否可以正确地检测到的行动分数,分数高的窗口被收集。然后,通过时间卷积神经网络处理收集的滑动窗口和行动性建议,以进行建议排名和边界调整。 CTAP在THUMOS-14和ActivityNet 1.3数据集上的平均召回率(AR)方面优于最先进的方法。我们进一步应用CTAP作为现有的动作检测器的建议生成方法,并显示一致的显着改进。关键词:时态行动建议;时间动作检测1介绍我们专注于在视频中生成准确的时间动作建议的任务;类似于用于对象检测的对象提议[1],时间动作提议被要求捕获“唇”或时间或所有可能包含动作的对象。在这个主题中已经有一些以前的工作,并且已经表明,正如预期的那样并且与对象提议类似,时间动作提议的质量对动作检测性能有直接影响[2,3]。高质量的行动建议应该达到高的平均召回率(AR),检索建议的数量尽可能少现有的行动建议生成方法可以被认为是-主要分为两大类。第一种类型是基于滑动窗口的,表示同等贡献。代码在http://www.github.com/jiyanggao/CTAP中。⋆ ⋆Jiyang Gao,Kan Chen,RamNevatia2调整软件+R A滑动窗口排名标签行动性评分标签调整TAG+R A行动性评分标签排名图1.一、示出了三种基线方法的架构:(1)SW+ RA:滑动窗口由用于提案排序和边界调整的模型处理例如TURN[2],SCNN [3];(2)TAG:TAG [4]基于单元级动作性生成建议;(3)TAG+ RA&:利用提议排序和边界调整来处理行动性提议。从滑动窗口作为输入,并输出建议的分数 SCNN-prop [3]是这种类型的代表;它应用二元分类器来对滑动窗口进行排序。TURN [2]在二值分类的基础上采用时间回归来调整滑动窗口的边界这种类型的架构在图1B中被概述为&1.一、滑动窗口均匀地覆盖视频中的所有片段(因此覆盖每个地面实况片段),然而,缺点是时间边界不精确,尽管使用了边界调整,并且因此在大量检索到的提议处达到高AR,如图 1B中的1.一、第二种类型的动作提议生成方法可以概括为基于动作性得分。它在更精细的水平上应用二进制分类,即单元或片段(几个连续帧)级别,以生成每个单元的动作性得分从分水岭算法[ 5 ]衍生的时间动作分组(TAG)[4]技术被设计成将连续的高分区域分组为优先级。一个操作系统的成本计算取决于它的单元操作成本的平均值。该结构在图中显示为“T A G”。1.一、只要行动性得分的质量高,则met_hod_gene_r的类型就然而,动作性分数有两种常见的失败情况:在背景片段处具有高分前一种情况导致错误的建议书的产生,而后一种情况可能会遗漏一些正确的建议书。这些导致AR性能的上限限制在低值(图中的圆圈B)。①的人。基于以上分析,排名滑动窗口和分组动作性评分方法具有两个互补性质:(1)来自基于行动的提议的边界更精确,因为它们是在更精细的水平上预测的,并且窗口水平排名可以更具区分性,因为它需要更多的全局上下文信息;(2)基于动作性的方法在动作性质量分数较低时可能会遗漏一些正确的建议,滑动窗口可以一BC互补的时间行动建议的产生3均匀地覆盖视频中的所有片段。采用第一互补特征有助于解决行动性建议的第一失败案例(即,产生错误的建议)。如图在图1中,在TAG之后应用窗级分类器来调整边界并对建议进行排名,其对应于模型“TAG+RA”&。与基于滑动窗口的方法相比,这样的组合在低数量的重新检验的建议下具有更高的AR(图1中的圆圈C)。①的人。然而,它仍然未能解决第二个故障情况,当在真实动作片段处动作性分数较低时,TAG无法生成这些亲动作性分数。建议候选人。这导致有限的性能上限,如图所示在圆B中,图1B示出了一个圆。1.一、为了解决这个问题,我们进一步探索互补的特性,并提出自适应地选择滑动窗口,以填补遗漏的行动建议。我们提出了一种新的互补时间动作建议(CTAP)生成器由三个模块组成。第一模块是初始提议生成器,其输出行动性提议和滑动窗口提议。第二个模块是建议补充过滤器,从滑动窗口收集丢失的正确的建议补充过滤器(解决动作性得分的第二个失败情况)。具体地,补充过滤器对初始提议应用二元分类器以生成指示提议是否可以被动作性和TAG正确检测的概率,该分类器被称为提议级动作性可信度估计器。第三个模块对提案进行排名并调整时间边界。具体来说,我们设计了一个时间卷积神经网络,而不是TURN [2]中使用的简单时间均值池,以保留时间排序信息。我们评估了所提出的方法上的THUMOS-14和ActivityNet v1.3;实验表明,我们的方法优于国家的最先进的方法,由一个大的利润率的行动建议的生成。我们进一步应用生成的时间建议的动作检测任务与标准的检测器,并显示显着的性能改善一致。总之,我们的贡献有三个方面:(1)提出了一种新的互补时间动作提议(CTAP)生成器,它利用动作提议和滑动窗口的互补特性来生成高质量的提议。(2)我们设计了一个新的边界调整和时间卷积的前向排序网络,它可以有效地保存建议边界上的排序信息。(3)我们在两个大规模数据集(THUMOS-14和ActivityNet v1.3)上评估了我们的方法,我们的模型在很大程度上优于最先进的方法。2相关工作在这一节中,我们介绍了相关的工作,其中包括时间的行动建议,时间的行动检测和在线行动检测。临时行动建议。时间动作建议生成已被证明是动作检测中的有效步骤,并且对于许多高级视频理解任务可能是有用的[3,6,7]。有两种类型的方法⋆ ⋆Jiyang Gao,Kan Chen,RamNevatia4第一类方法将其表述为滑动窗口上的二进制分类问题。其中,Sparse-prop [8]使用STIPS [9]和字典学习来生成提案。SCNN-prop [3]基于训练C3 D [10]网络进行二进制分类任务。TURN [2]将视频切割成单元,并将单元级特征用于提案,这提高了计算效率。TURN [2]还提出应用时间回归来调整动作边界,从而提高AR性能。这种类型的方法的性能第二类方法是基于片段级别的动作性得分,并对得分序列应用时间动作分组(TAG)[4]方法,以将连续的高分区域分组为建议。然而,TAG可能会忽略正确的建议时,质量的actionness分数低。此外,DAP[11]和SST [12]是在线提案生成器,可以在单次通过中运行视频,而无需使用重叠的时间滑动窗口。时间动作检测。此任务[3,13,14,15]侧重于预测操作类别以及操作实例的开始/结束时间在未经剪辑的视频中。S-CNN [3]提出了一个两阶段的动作检测模型,它首先生成建议,然后对建议进行分类。Lin等人提出了一种单镜头动作检测器(SSAD)[16],它跳过了建议生成步骤,直接检测未修剪视频中的动作实例。Gao等人。 [6]设计了一个级联边界回归(CBR)网络来迭代地细化动作边界。SSN [4]提出了一种对活动的时间结构进行建模的机制,从而能够区分完整和不完整的建议,以精确地检测动作。R-C3 D [17]设计了一个3D全卷积网络,它生成候选时间区域,并以两阶段的方式将选定区域分类为特定活动。Yuan等人。 [18]提出通过搜索逐帧分类得分的结构化最大和来 Shou等人 [19]设计卷积-去卷积(CDC)操作,该操作在时间上以细粒度进行密集预测,以确定精确的时间边界。Dai等人 [20]提出了一种时间上下文网络,它采用了与Faster-RCNN [1]类似的架构,用于时间动作检测。除了固定类别动作检测之外,TALL [21]提出使用自然语言作为查询来检测视频中的目标动作。在线动作检测[22,23,24]与整个视频在检测时间不可用的时间动作检测不同Geest等人。 [22]建立了一个用于在线动作检测的数据集,该数据集由16小时(27集)的电视连续剧组成,其中包含30个动作类别的时间注释。 Gao等人 [23]提出了一种用于在线动作检测和动作预测的增强编码器解码器(RED)网络。3互补时间动作建议生成器在本节中,我们将介绍互补时间动作建议(CTAP)生成器的详细信息。CTAP的管道中有三个阶段互补的时间行动建议的产生5边界单元边界单元图二. 提出了互补时间动作建议(CTAP)基因的体系结构。“BA”是指边界和边界,“PR”是指边界,“ppl”是指边界,“bdy”是指边界。第一阶段是生成初始建议,这些建议来自两个来源,一个是行动性得分和TAG [4],另一个是滑动窗口。第二阶段是互补滤波。如我们之前所讨论的,当动作性分数的质量较低(即,动作片段上的低动作性分数)时,TAG省略了一些正确的建议,但是滑动窗口均匀地覆盖视频中的所有片段因此,我们设计了一个补充过滤器,以收集高质量的补充建议,从滑动窗口,以填补遗漏的行动建议。第三阶段是边界调整和建议排名,由时间卷积神经网络组成。3.1初始提案生成在这一部分中,我们首先介绍了视频预处理,然后介绍了动作评分的产生,时间分组过程和滑动窗口采样策略。视频预处理。根据先前的工作[2],首先将长的未修剪的视频切割成视频单元或片段,每个单元包含nu个连续帧。视频单元u由视觉编码器Ev处理以提取在i上的单元级表示。在我们的实验中,我们使用两个正交CNN模型[25,26]作为视觉编码器,细节在第4.2节中给出。因此,长视频被转换为单元级特征的序列,其稍后用作基本处理单元动作性得分。基于单元级特征,我们训练一个二元分类器来为每个单元生成动作性得分。具体地说,我们设计了一个两层时间卷积神经网络,它以一个连续的单元特征作为输入,x∈Rta×df,并输出一个对一个单元特征的预测能力,当它是背景或动作时,px∈Rta.px= σ(tconv(x)),tconv(x)= F(n(F(x; W 1)); W2)(1)其中F(. ;W)表示时间卷积算子,W是其卷积核的权重。在h∈w或k时,W1∈Rdf×dm×k×k,W2∈Rdm×1×k×k(k∈s{k}…建议单位PATEt(k)>布迪特康夫pplBA滑动窗口+BDYPRactionne ss screTAG{j}过滤建议{m}BA…⋆ ⋆Jiyang Gao,Kan Chen,RamNevatia6我x我i核大小)是训练参数。 (. )是非线性激活函数,σ(. )是sigmoid函数。在为每个连续单元特征x生成概率px之后,损失被计算为批次内每个输入样本的交叉熵:1ΣNLact= −Ni=1Σylog(p)+(1−y)Σlog(1−pxi)(二)其中yi∈Rta是每个输入xi的二进制序列,指示xi中的每个单元是否包含动作(标签1)或不包含动作(标签0)。N是批量。行动性提案生成策略。我们遵循[4]并实现了一种用于图元1-D方程的Waterhdalgorithm[5]。给定单元的动作性得分,生成其单元都具有大于阈值τ的得分的原始提议。对于一些邻居原始提议,如果在定量期间的时间(即,在这些原始提议中,最大结束时间减去最小开始时间)大于整个视频长度的比率η我们迭代τ和η的所有可能组合以生成提议候选,并应用非最大值抑制(NMS)以消除冗余的提议。输出操作不包含{bj}。滑动窗口采样策略。与依赖于动作性分数分布的动作性提议不同,滑动窗口可以均匀地覆盖视频中的所有片段。目标是最大化与地面实况片段的匹配(高召回率),同时保持滑动窗口的数量尽可能低在我们的实验中,不同的窗口大小和重叠率的组合进行了测试验证集。滑动窗口表示为{ak}。详细设置见第4.2节。3.2建议补充过滤如前所述,动作性建议可能更精确但不太稳定,但滑动窗口更稳定但不太精确。第二阶段的目标是从滑动窗口收集TAG可能忽略的建议该阶段的核心是二元分类器,其输入是单元特征的序列(即,提议),并且输出是指示该提议是否可以通过单元级动作性分数和TAG正确检测的概率。该分类器被称为提议级动作可信度估计器(PATE)。PATE培训。如下收集训练样本:给定一个视频,地面实况片段{gi}与行动性建议相匹配{bj}。对于一个大的数据段,如果该索引是一个主动提供的如果具有大于阈值θ c的gi的时间交集(tIoU),则新的wel被标记为负样本(yi=0);如果不具有大于阈值θc的gi,则新的wel被标记为负样本(yi= 0)。gi内部的单元级特征平均汇集到单个提议级特征xgi∈Rdf. PATE输出可信度分数指示建议是否可以通过动作性得分和TAG正确检测:si= σ(W4(W3 × gi + b3))+b4)(3)互补的时间行动建议的产生7其中W3∈Rdf×dm,W4∈Rdm×1,b3∈Rdm, b4∈ Raretrainingparameters. 其他符号类似于Eq。1.一、通过来自每个批次的训练样本的标准交叉熵损失来训练网络(N是批次大小)。1ΣNLpate= −N i=1[yilog(si)+(1−yi)log(1−si)](4)互补滤波。在测试阶段,我们对滑动窗口{ak}中的每个建议应用可信度估计器.对于输入提议,可信度分数pt告诉我们对于滑动窗口a,k,如果pt(a,k)低于阈值θa(意味着TAG可能在该段上失败),则收集该滑动窗口从滑动窗口收集的提议和所有动作性提议被表示为{c,m},并且被发送到下一阶段,该下一阶段对提议进行排名并调整时间边界。我们称这个过程为互补滤波,这个名字来源于估计理论1中使用的有点类似的过程。3.3方案排序和边界调整CTAP的第三阶段是对建议进行排序并调整时间界限。TURN [2]也这样做,但是它使用均值池来聚合时间特征,这会丢失时间排序信息。相反,我们设计了一个时间卷积调整和排名(TAR)网络,它使用时间卷积层来聚合单元级特征。TAR架构。假设输入建议Cm的开始和结束单元(即,时间边界)是us,ue,我们在u re s处均匀地采样nctl单元-l水平fe,其中,proposal、calledpro posalu re sitsxceRnctlxdf。 我们分别在起始边界和终止边界处采样n个ctx单元特征,它们是[us−nctx/2,us+ nctx/2]和[ue−nctx/2,ue+ nctx/2],称为边界单元(denotedasxs∈Rnctx×df,xe∈Rnctx×df)。图10中示出了边界单元和预处理单元。二、这三个特征序列(一个序列用于建议单元,两个序列用于边界单元)被输入到三个独立的子网络。建议排序子网络输出动作概率,边界调整子网络输出回归偏移。每个子网络包含两个时间卷积层。其可以表示为:os=tconv(xs),pc=σ(tconv(xc)),oe=tconv(xe)(5)其中〇s、〇e、p。分别表示开始和结束边界的偏移预测以及其他符号在Eq.1.一、与TURN [2]类似,我们使用非参数化回归偏移。的1互补滤波的原始用途是在给定两个噪声测量的情况下估计信号,其中一个噪声主要是高频(可能精确但不稳定),另一个噪声主要是低频(稳定但不精确)。⋆ ⋆Jiyang Gao,Kan Chen,RamNevatia8我将 来 自 滑 动 窗 口 的 提 案 ak 的 最 终 得 分 乘 以 PATE 得 分 ( pt ( ak ) ·pc(ak))。行动性建议使用pc(ak)作为最终得分。TAR培训。为了收集训练样本,我们使用密集的滑动窗口来匹配地面实况动作片段。滑动窗口被分配给groundtruth分段,如果:(1)它具有与所有其他窗口中的某个地面实况片段重叠的最高tIoU;或者(2)它具有大于0.5任何一个地面实况片段我们使用标准的Softmax交叉熵损失来训练建议排序子网络和边界调整子网络的L1距离损失。具体地,回归损失可以表示为,Lreg=1N阳性NΣposi=1(|O 年代我∗年代我|+的|Oe我∗e我|)(6)其中os,i是预测的开始偏移,oe,i是预测的结束偏移,o*是∗ ∗s,i地面实况开始偏移,oe,i是地面实况结束偏移。li是标签,1表示阳性样品和0用于背景样品。Npos是小批次中阳性样本的数量,因为仅计算阳性样本的回归损失。类似于Eq。在图4中,计算交叉熵目标以指导每个建议的预测得分P4实验我 们 分 别 在 THUMOS-14 [27] 和 ActivityNet v1.3 [28] 数 据 集 上 评 估CTAP。4.1数据集THUMOS-14包含1010和1574个视频,用于验证和测试20个运动类别。其中,在验证集和测试集中分别有200个和212个视频被标记有时间信息。根据以前工作的设置[2,3],我们在验证集上训练我们的模型,并在测试集上进行评估。ActivityNet v1.3包含从YouTube收集的19,994个视频,标记为200个类别。整个数据集分为三个不相交的部分:培训、验证和测试的比例分别为50%、25%和25%。由于测试拆分的注释不公开用于竞争目的,我们比较并报告了不同模型在验证集上的性能。4.2实验装置单元级特征提取。我们使用twostream模型[26]作为在ActivityNet v1.3训练集上预训练的视觉编码器E v。在每个单元中,对中心帧进行采样以计算外观CNN特征,它是ResNet [29]中Flatten 673层的输出。对于运动特征,我们- -阿- -阿互补的时间行动建议的产生9在一个单元的中心对6个连续帧进行采样,并计算它们之间的光流;然后将这些光流馈送到预训练的BN-Inception模型[30]中,并提取全局池运动特征和外观特征都是2048维的,并且被连接成4096维向量(df=4096),其被用作单位级特征。在THUMOS-14上,我们使用两种设置的单元特征Flow-16和Twostream-6来测试我们的模型Flow-16仅使用denseflow CNN特征,单位大小设置为16,与[2]相同(nu= 16),Twostream-6使用双流特征,单位大小为6(nu= 6)。在ActivityNet v1.3上,使用双流特性,单位大小为16(Twostream-16,nu= 16)。滑动窗口采样策略。我们遵循TURN [2]并采用具 有 0 的 IO U 的 { 16 ,32,64,128,256,512 }的提议长度。75,其中具有可选的保留值。在ActivityNetv1.3中,使用tIOU添加{ 64,128,256,512,768,1024,1536,2048,2560,3072,3584,4096,6144 }的选项= 0.75,达到了提交中报告的最佳性能。行动性评分生成。我们将每个时间卷积的内核大小设置为3(k=3)。时间卷积的步长为1。我们选择整流线性单元(ReLU)作为非线性激活函数。第一时间卷积输出维度d,m= 1024。将Ta设置为4。批量大小为128,学习率为0.005,模型训练约10个epoch。TAG算法根据[4]的设置,我们将τ的初始值设置为0的情况。085.为了枚举(τ,η)的所有可能组合,我们首先在[0.085,1),步长为0。085.在每次迭代中,我们进一步在[0. 025, 1],步长为0.025。NMS的阈值设置为0。第95章取消多余的建议PA TE设置。我们设置第一个完整的连接层输出的尺寸为dm = 1024。在THUMOS-14和ActivityNet v1.3上,θa设置为0.1批量大小为128,学习率为0.005。PATE被训练大约10个时期。TAR设置。在THUMOS-14上,我们在每个建议内均匀地采样8个单元特征(nctl= 4),并将4个单元特征作为上下文(nctx= 4)。在ActivityNet v1.3上,我们设置nctl= 8和nctx= 4。将Dm设置为1024。使用Adam算法[31]优化TAR。批量大小为128,学习率为0.005。TAR在THUMOS-14上训练10个epoch,在ActivityNet v1.3上训练4个epoch评估指 标。对于时 态动作建议 生成任务, 通常使用 平均召回率(AR)作为评价指标。根据以前的工作,我们使用的IoU阈值设置为0.5至1.0,在THUMOS-14上的步长为0.05,在ActivityNet v1.3上的步长为0.05。我们画出曲线的AR与不同的检索建议的平均数(AN),以评估召回率和建议数之间的关系,这就是所谓的AR-AN曲线。在ActivityNet v1.3上,我们还使用AR-AN曲线下面积(AUC)作为指标,其中AN从0到100不等。对于时间动作检测的评估,我们遵循传统的平均平均精度(mAP)指标中使用的THUMOS-14。只有当预测具有正确的类别预测并且tIoU具有高于阈值的地面实况时,预测才被认为是积极的。我们使用THUMOS-14的官方工具包。⋆ ⋆10 Jiyang Gao,Kan Chen,Ram Nevatia方法AR@50 AR@100 AR@200电话:+86-21 - 8555555传真:+86-21 -85555555坦桑尼亚先令22.99 32.21 45.084.3THUMOS-14的性能评价在这一部分中,我们在THUMOS-14数据集上评估了我们的方法首先,我们将我们的建议排名和边界调整模块TAR与TURN [2]进行比较。其次,我们评估PATE和建议的补充过滤模块的有效性第三,我们比较了我们的完整模型与国家的最先进的方法,最后,我们将我们的建议,动作检测任务,以验证其性能优势。表1. TAR和TURN [2]在THUMOS-14测试集上的性能比较。TAR和TURN上使用相同的单元功能(流程-16)和测试滑动窗口,以进行公平比较。报告不同数量的平均召回率(AR)TAR vs TURN [2].如前所述,TURN [2]使用时间均值池来聚合特征,它丢失了时间排序信息,这对于边界调整很重要。TAR使用时间卷积从单元特征中提取时间信息,并采用独立的子网络进行提案排序和边界调整。为了与TURN进行公平比较如表1所示,我们可以看到,在AN=50、100和200时,TAR在所有这些点上都优于TURN,这表明TAR的有效性。互补滤波。除了使用PATE进行建议补充过滤外,我们还设计了三种基线方法来结合滑动窗口和行动建议。第一种方法是一个简单的第二种方法是“联合”+NMS,在该方法中,我们应用NMS从联合集中过滤重复的提案; NMS的阈值被设置为0.7,其在{0.5,0.7,0.9}中获得最佳性能。第三种方法基于tIoU:选择所有行动建议;我们计算滑动窗口和表2.THUMOS-14测试集上的互补滤波评估,与“U n io n”和“t I o U -select io n”进行比较报告了平均Recall(A R)a differn umbe r。方法AR@50 AR@100 AR@200联盟25.8034.7046.19联盟+NMS28.0739.7149.60互选30.3538.3442.41互补滤波31.0340.2350.13互补的时间行动建议的产生11图3.第三章。具有流-16特征(F16)和双流-6特征(TS 6)的互补结果的AR-AN曲线互补滤波建议始终优于滑动窗口(SW+TAR)和动作性建议(TAG+TAR)。如果存在滑动窗口,其最高值与所有的动作性建议都小于0.5,则选择该动作性建议。我们在“TAR vs TURN”实验中使用流-16单元特征和相同的测试滑动窗口。结果示于表2中。我们可以看到,互补滤波在每个AN(50、100和200)上都实现了最佳AR。“单位”的形式在低AN处出现,但在AN= 200处“单位”的形式更高。我们认为原因是简单的联合方法添加了太多低质量的建议从滑动窗口。Union+NMS提高了性能,但是由于TAG和SW建议缺乏优先级,NMS可能会选择具有较高分数的不准确SW建议,而不是具有较低分数的准确TAG建议。相比之下,PATE试图保留这样的优先级,并专注于挑选TAG可能失败的滑动窗口提案。tIoU选择也会受到影响,因为它仅仅基于tIoU阈值。互补过滤在不同的窗口上动态地生成可信度分数,这使得选择过程更有效。我们还显示了AR性能的两个来源,actionness建议和滑动窗口,在图。3.第三章。示出了流-16(F16)特征和双流-6(TS 6)特征两者。可以看出,在每个AN处,补充建议的性能始终高于动作性建议(TAG+TAR)和滑动窗口(SW+TAR),这表明我们的方法可以有效地从滑动窗口中选择高质量的补充建议来填充动作性建议中遗漏的建议。与最先进方法的比较。我们通过平均建议数的平均召回率(AR-AN)曲线和recall@100-tIoU曲线将我们的完整模型与THUMOS-14数据集上的最先进方法进行比较,如图所4.第一章可以看出,我们的模型在两条曲线上都比最先进的模型有很大的优势具体地,对于AR@100,CTAP的性能为约43%,而现有技术方法TURN [2]仅实现约32%。⋆ ⋆1 Jiyang Gao,Kan Chen,Ram Nevatia图4.第一章CTAP的AN-AR曲线和召回率@AN=100曲线以及THUMOS-14测试集上的最新表3.在THUMOS-14测试集上使用相同的动作检测器(SCNN)比较CTAP和其他建议生成方法,报告了平均平均精度(mAP % @tIoU=0.5)。方法稀疏[8]DAPs [11]SCNN-道具[3]转向[2]标签[4]CTAP-F16 CTAP-TS6tIoU=0.515.316.319.025.625.927.929.9用于时间动作检测的CTAP。为了验证我们的提案的质量,我们将CTAP提案输入SCNN [3],并在同一动作检测器(SCNN)上与其他提案生成方法进行结果示于表3中。我们可以看到,我们的CTAP-TS 6实现了最佳性能,并且比最先进的建议方法TURN [2]和TAG [4]高出4%以上,这证明了所提出的方法的有效性。4.4ActivityNet v1.3评估TAR。为了显示TAR的有效性,我们在表4中报告了不同模型的AR@100值和AR-AN曲线下面积。 对于滑动窗口,我们观察到TAR的预处理(SW-TAR)缓存18。与 TURN相 比 ,AR@100和 AUC改 善 29%和6.86%[2]表4. 在ActivityNet v1.3验证集上评估TURN [2]、TAR、MSAR [32]、Prop-SSAD[33]和CTAP。报告AR-AN曲线的AR@100和AUC。(The MSRA [32]的AR@100不可用。)方法SW-标签-转弯[2]转弯[4]软件-标签-TAR TARMSRA方案[33]第三十二话CTAPAR@10049.7363.4668.0264.01-73.0173.17AUC54.1653.9261.0264.6263.1264.4065.72互补的时间行动建议的产生13图五. CTAP生成的时间行动建议的可视化。前两行表示来自THUMOS-14中的2个视频的4个时间动作提议。最后两行表示ActivityNet v1.3中2个视频的4个时间动作建议(SW-TURN)。结果表明,TAR是更有效的时间边界调整和建议的排名。对于行动性建议,我们观察到TAR在AUC上比TURN [2]增加了10.70%。评估PATE。在TAR的基础上,进一步探讨了PATE的互补滤波功能。我们评估了三种不同的模型:(1)滑动窗口建议TAR(SW-TAR)(2)无动作建议TAR(TAG-TAR)(3)PATE与TAR(我们的完整模型,CTAP)互补的建议AR@100和AUC的不同模式的形式如表4所示。与SW-TAR和TAG-TAR相比,CTAP实现了AR@100和AUC的一致更好的性能,这显示了其从滑动窗口中选择补充建议以填充动作性建议中省略的建议⋆ ⋆1 Jiyang Gao,Kan Chen,Ram Nevatia表5. 在AR@100和AR-AN曲线下面积方面,对Activity Net v1.3(验证集)上的CTAP进行了概括评价。可见(100类)不可见(100类)AR@100AR-AN与最先进方法的比较。将CTAP与ActivityNet v1.3验证集上的最先进方法进行比较,通过排名前100位的建议(AR@100)的平均召回率和AR-AN曲线下面积(AUC)。在表4中,我们发现与最先进的方法MSRA [32]和Prop-SSAD [33]相比,CTAP分别实现了AR@100的2.60%和1.32%的增加。提案的概括能力。 在ActivityNet v1.3验证集上评估了CTAP的泛化能力。根据[34]的设置,我们分别评估了100个可见类别和不可见类别的AR@100和AR-AN曲线下面积(AUC)在表5中,我们观察到CTAP在100个可见类上实现了更好的性能。在看不见的100类中,AR@100和AUC只有轻微的下降,这表明了CTAP的普遍性4.5定性结果我们进一步可视化CTAP产生的一些时间的行动建议。如图5、CTAP能够从主动性建议或滑动窗口中选择最合适的初始建议,然后更精确地调整它们的时间边界。5结论以往的时间动作建议生成方法可以分为两类:滑动窗口排序和动作性得分分组,它们是互补的:滑动窗口均匀覆盖视频中的所有片段,但时间边界不精确;基于动作性分数的方法可以具有更精确的边界,但是当动作性分数的质量低时,它可以省略一些建议。我们提出了一种新的互补时间动作建议(CTAP)生成器,它可以收集高质量的互补建议,从滑动窗口和动作的建议。还设计了用于建议排序和边界调整的时间卷积网络CTAP在THUMOS-14和ActivityNet 1.3数据集上的表现远远优于最先进的方法。动作检测的进一步实验表明一致的大性能改进。确认这项研究部分得到了海军研究办公室(Office of Naval Research)的支持,资助号为N 00014 -18-1-2050,并获得了亚马逊研究奖。互补的时间行动建议的产生15引用1. Ren,S.,他,K.,格尔希克河孙杰:更快的R-CNN:利用区域建议网络进行实时目标检测。在:NIPS。(2015)1、42. 高,J.,杨志,Chen,K.,孙角,澳-地内华达河:TURN TAP:用于时间行动建议的时间单位回归网络。In:ICCV.(2017)1,2,3,4,5,7,8,9,10,11,12,133. Shou,Z.,Wang,D.,中国科学院,Chang,S.F.:基于多级cnn的未裁剪视频中的时间动作定位。在:CVPR中。(2016)1、2、3、4、8、124. 赵玉,Xiong,Y.,Wang,L.,美国,吴志,唐,X.,Lin,D.:结构化分段网络的时间动作In:ICCV.(2017)2,4,5,6,9,125. Roerdink,J.B.,Meijster,A.:分水岭变换:定义、算法和并行化策略。03TheFundamenta Informaticae(2000)6. 高,J.,杨志,内华达河:用于时间动作检测的级联边界回归。在:BMVC.(2017)3,47. 高,J.,盖河,巴西-地Chen,K.,内华达河:用于视频问答的运动-外观共记忆网络。在:CVPR中。(2018年)38. Caba Heilbron,F.,Carlos Niebles,J.,Ghanem,B.:在未修剪的视频中有效检测人类动作的快速时间活动建议在:CVPR中。(2016)第4、12页9. 拉普捷夫岛: 关于时空兴趣点。 IJCV(2005)410. Tran,D.,Bourdev,L.费格斯河托雷萨尼湖Paluri,M.:用三维卷积网络学习时空特征。In:ICCV.(2015年)411. Escorcia,V.海尔布隆足球俱乐部尼布尔斯,JC Ghanem,B.:Daps:用于行动理解的深度行动建议。In:ECCV.(2016)第4、12页12. Buch,S.,Escorcia,V. Shen,C.,加尼姆湾Carlos Niebles,J.:单流时间动作建议。在:CVPR中。(2017年)413. 瑟琳娜Y奥尔加河Greg,M.,Li,F.F.:从视频中的帧一瞥进行端到端的动作检测学习。在:CVPR中。(2016年)414. 孙角,澳-地Shetty,S.,Sukthankar河内华达河:基于网页图像域转移的视频细粒度动作时间定位。In:ACM MM.(2015)415. Yuan,J.,Ni,B.,杨,X.,Kassim,A.A.:具有分数分布特征的金字塔的时间动作定位。在:CVPR中。(2016年)416. Lin,T.,赵,X.,Shou,Z.:单镜头时间动作检测。In:MM,ACM(2017)417. 徐,H.,Das,A.,Saenko,K.:R-C3 D:用于时间活动检测的区域卷积3D网络In:ICCV.(2017年)418. Yuan,Z.,斯特劳德J.C. Lu,T.,Deng,J.:结构化最大和的时间动作定位。在:CVPR中。(2017年)419. Shou,Z.,陈,J.,Zareian,A.,Miyazawa,K.,Chang,S.F.:CDC:卷积-去卷积网络,用于未修剪视频中的精确时间动作定位。在:CVPR中。(2017年)420. Dai,X.,辛格湾张,G.,戴维斯,L.S.,秋晨Y:用于视频中活动定位的时间上下文网络In:ICCV.(2017年)421. 高,J.,孙角,澳-地杨志,内华达河:Tall:通过语言查询的时间活动定位。In:ICCV.(2017年)422. De Geest河Gavves,E.,Ghodrati,A.,Li,Z.,斯诺克角Tuytelaars,T.:在线动作检测。In:ECCV.(2016年)4⋆ ⋆1 Jiyang Gao,Kan Chen,Ram Nevatia23. 高,J.,杨志,内华达河:红色:增强的编码器-解码器网络,用于动作预测。在:BMVC.(2017年)424. Shou,Z.,Pan,J.,陈,J.,Miyazawa,K.,Mansour,H.,Vetro,A.,Giro-i Nieto,X.,Chang,S.F.:未修剪流视频中的在线动作检测建模与评估。CoRR(2018)425. 西蒙尼扬,K.,齐瑟曼,A.:双流卷积网络用于视频中的动作识别。在:NIPS。(2014年)526. Xiong,Y.,Wang,L.,美国,王志,张,B.,宋,H.,李伟,Lin,D.Qiao,Y.,凡古尔湖唐X:香港中文大学ETHZ SIAT提交activitynet Chal-lenge 2016。CoRR(2016)5,827. Jiang,Y.G.,刘杰,Roshan Zamir,A.,Toderici,G.,拉普捷夫岛Shah,M.,Suk-thankar,R.:THUMOS挑战:大量类的动作识别在:CVPR研讨会。(2015年)828. Caba Heilbron , F. , Escorcia , V. 加 尼 姆 湾 Carlos Niebles , J. :Activitynet:人类活动理解的大规模视频基准。在:CVPR中。(2015年)829. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。在:CVPR中。(2016年)830. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度网络训练。在:ICML。(2015年)931. Kingma,D.Ba,J.:Adam:随机最佳化的方法In:ICLR.(2015年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功