没有合适的资源?快使用搜索试试~ 我知道了~
BSN:一种用于生成时态行动建议的边界敏感网络林天伟1[0000−0001−5535−279X]、赵旭1[0000−0002−8176−623X]、海升苏1[0000 - 0002 - 4228 - 7439]、王崇景2、杨明11上海交通大学自动化系2中国信息通信技术研究院wzmsltw,zhaoxu,suhaisheng,wangchongjing@caict.ac.cn抽象。 时间动作建议生成是一个重要而棘手的问题,因为具有丰富动作内容的时间建议对于分析具有长持续时间和高比例不相关内容的真实世界视频是不可缺少的。这个问题要求方法不仅生成具有精确时间边界的提议,而且还使用相对较少的提议来检索提议以覆盖具有高召回率和高重叠的真实动作实例。为了解决这些困难,我们引入了一个有效的建议生成方法,命名为边界敏感网络(BSN),它采用了“局部到全局”的fashion。局部地,BSN首先定位具有高概率的时间边界在全球范围内,BSN利用边界敏感提案功能,通过评估提案是否包含其区域内的操作的置信度来检索提案。我们在两个具有挑战性的数据集上进行了实验:ActivityNet-1.3和THUMOS 14,其中BSN优于其他最先进的时间动作建议生成方法,具有高召回率和高时间精度。最后,进一步的实验表明,通过结合现有的动作分类器,我们的方法显着提高了最先进的时间动作检测性能。关键词:时态动作建议生成·时态动作检测·时间卷积·未修剪的视频1介绍随着数码相机和互联网的快速发展,视频的数量不断增加,使得视频内容自动分析方法受到广泛的需求。视频分析的一个主要分支是动作识别,其目的是对仅包含一个动作实例的手动修剪的视频片段进行然而,真实场景中的视频通常很长,未经修剪,并且包含多个动作实例以及不相关的内容。这个问题需要算法的另一个具有挑战性的任务:时间动作检测,其目的是在未修剪的视频,包括时间边界和动作类检测动作实例。它可以应用于视频推荐和智能监控等许多领域。通讯作者。本研究得到了国家自然科学基金(61673269,61273285)和中国媒体网创新合作中心(CMIC)的资助。2Tianwei Lin等人图1:我们的方法概述。给定未修剪的视频,(1)我们评估每个时间位置的边界和动作性概率,并基于边界概率生成提议,以及(2)我们评估具有提议级特征的提议的置信度得分以获得检索到的提议。与空间域中的对象检测类似,时间动作检测任务可以分为两个阶段:建议和分类。建议生成阶段旨在生成可能包含动作实例的时间视频区域,并且分类阶段旨在对候选建议的类别进行分类。虽然分类方法已经达到令人信服的性能,但在许多基准中检测精度仍然很低[6,22]。因此,最近时间动作建议生成已经受到了很多关注[4,5,9,13],旨在通过提高建议的质量来提高检测性能。高质量的提案应该具备两个关键属性:(1)建议可以覆盖具有高召回率和高时间重叠的真实动作区域,(2)检索建议,使得可以使用更少的建议来实现高召回率和高重叠,以减少后续步骤的计算成本。为了实现高质量的提案,提案生成方法应该生成具有灵活的时间持续时间和精确的时间边界的提案,然后检索具有可靠置信度分数的提案,该置信度分数指示提案包含动作实例的概率。最近的提案生成方法[4,5,9,32]通过以规则间隔滑动视频中的多个持续时间的时间窗口来生成提案,然后训练模型来评估所生成的提案的置信度得分以用于提案检索,而还有方法[13]进行外部边界回归。然而,以预定义的持续时间和间隔生成的提案可能有一些主要的缺点:(1)通常时间上不精确;(2)不够灵活以覆盖地面实况动作实例的可变时间持续时间,特别是当时间持续时间的范围较大时。为了解决这些问题并生成高质量的提案,我们提出了边界敏感网络(BSN),其采用具体而言,BSN通过三个步骤生成建议。首先,BSN评估视频中的每个时间位置是否它在地面实况动作实例的内部或外部、在或不在边界,以生成开始、结束和动作性概率序列作为局部信息。边界敏感网络3其次,BSN通过直接组合分别具有高开始和结束概率的时间位置来生成建议。使用这种自下而上的方式,BSN可以生成具有灵活期限和精确边界的提案。最后,使用由提议内和提议周围的动作性分数组成的特征,BSN通过评估提议是否包含动作的置信度来检索提议。这些提案级功能提供了全局信息,以便更好地进行评估。总之,我们工作的主要贡献有三个方面:(1) 我们引入了一个新的架构(BSN)的基础上(2) 大量的实验表明,我们的方法实现了显着更好的建议质量比其他国家的最先进的建议生成方法,并可以生成建议,在看不见的行动类具有比较的质量。(3) 将我们的方法与现有的动作分类器集成到检测框架中,可以显着提高时间动作检测任务的性能。2相关工作动作识别。动作识别是视频相关研究领域的一个重要分支,得到了广泛的研究。早期的方法,如改进的密集轨迹(iDT)[38,39],主要采用手工制作的特征,如HOF,HOG和MBH。近年来,卷积网络在许多工作中被广泛采用[10,33,35,41],并取得了很好的性能。通常,双流网络[10,33,41]分别基于RGB帧和光流场学习外观和运动特征C3D网络[35]采用3D卷积层直接从原始帧体积中捕获外观和运动特征。动作识别模型可用于在长且未修剪的视频中提取帧或片段级视觉特征。目标检测和建议。近年来,深度学习方法显著提高了R-CNN [17]及其变体[16,30]构建了对象检测方法的一个重要分支,其采用对于建议生成阶段,除了滑动窗口[11]之外,早期的工作还试图通过利用低级线索(例如HOG和Canny边缘)来生成建议[37,50]。最近,一些方法[30,25,28]采用深度学习模型来生成速度更快、建模能力更强的建议。在这项工作中,我们结合了这些方法的属性,通过评估边界的aries和actionness概率的每个位置使用神经网络,并采用LocNet [15]中也采用了边界概率,用于修改现有提案的水平和垂直边界。我们的方法的不同之处在于(1)BSN旨在生成,而LocNet旨在修改建议,以及(2)对于LocNet中的所有框重复计算边界概率,但对于BSN中的视频仅计算一次。时间动作检测和建议。 时间动作检测任务旨在检测包括时间边界和动作的4Tianwei Lin等人n=1n=1n=1类,并可分为建议和分类阶段。大多数检测方法[32,34,49]分别采取这两个阶段,而也有方法[26,3]联合采取这两个阶段。对于建议生成,早期的作品[23,29,40]直接使用滑动窗口作为建议。最近,一些方法[4,5,9,13,32]生成具有预定义的持续时间和间隔的建议,并使用多种方法来评估建议的置信度得分,例如字典学习[5]和递归神经网络[9]。TAG方法[49]采用分水岭算法,以局部方式生成具有灵活边界和持续时间的提案,但不需要用于检索的全局提案级置信度评估。在我们的工作中,BSN可以产生具有灵活边界和可靠置信度的检索建议。最近时间动作检测方法[48]基于每个位置的按类开始、中间和结束概率来检测动作实例。我们的方法在两个方面优于[48]:(1)BSN使用时间卷积来评估概率得分,以更好地捕获时间信息;(2)3我们的方法3.1问题定义未修剪的视频序列可以表示为其中,xn是X中的第n帧。视频X的注释由一组动作组成-stancesg={n=(ts,n,te,n)}Ng ,其中Ng是真值动作实例的数量在视频X中,ts,n,te,n分别是动作实例n开始和结束时间与检测任务不同,动作实例的类别不被认为是在时间的行动,行动建议生成。在训练期间使用注释集Ψg在预测期间,生成的建议集Ψp应该以高召回率和高时间重叠覆盖Ψg3.2视频特征编码为了生成输入视频的建议,首先我们需要提取特征来编码视频的视觉内容。在我们的框架中,我们采用双流网络[33]作为视觉编码器,因为这种体系结构在动作识别任务中表现出很好的性能[42]并且已经被广泛采用在时间动作检测和提议生成任务中[49,26,12]。双流网络包含两个分支:空间网络在单个RGB帧上操作以捕获外观特征,而时间网络在堆叠光流场上操作以捕获运动信息。为了提取双流特征,如图2(a)所示,首先我们组成一个片段序列S={sn}ls其中Is是片段序列的长度一片段sn=(xtn,otn)包括两个部分:xtn是X中的第t个RGB帧,并且otn是X中的第t个RGB帧。围绕中心帧xtn导出的堆叠光流场。为了降低计算成本,我们提取具有规则帧间隔σ的片段,因此Is=IV/σ。给定片段sn,我们将空间网络和时间网络的顶层中的输出分数连接起来以形成编码的特征向量ftn=(fS,tn,fT,tn),其中fS,tn,fT,tn分别是来自空间网络和时间网络的输出分数因此,给出了一个片段边界敏感网络5图2:我们方法的框架。(a)双流网络用于编码片段级的视觉特征。(b)边界敏感网络的架构:时间评估模块对输入的特征序列进行处理,评估每个时间位置的开始概率、结束概率和动作概率;建议生成模块生成具有高起始概率和高结束概率的建议,并为每个建议构造边界敏感建议(BSP)特征;建议评估模块使用BSP特征评估每个建议的置信度得分。(c)最后,我们使用Soft-NMS算法通过衰减其得分来抑制冗余建议。序列S,我们可以提取特征序列F={ftn双流特征序列被用作BSN的输入。3.3边界敏感网络lsn=1 . 这些为了实现高质量的建议,精确的时间边界和可靠的信心分数,我们采用在BSN中,我们首先生成候选边界位置,然后将这些位置组合为提案,并使用提案级特征评估每个提案的置信度得分。网络架构。BSN的体系结构如图2(b)所示,它包含三个模块:时间评估、提案生成和提案评估。时间评估模块是一个三层时间卷积神经网络,它以两个流的特征序列作为输入,评估视频中的每个时间位置,无论其是在地面实况动作实例的内部还是外部,在或不在地面实况动作实例的边界处,以分别生成开始、结束和动作性概率的序列。提案生成模块首先将具有较高起始概率和结束概率的时间位置组合为候选提案,然后根据动作概率序列为每个候选提案构造边界敏感提案(BSP)特征最后,建议评估模块,一个多层感知器模型与一个隐藏层,评估每个候选建议的BSP特征的基础上每个提案的置信度分数和边界概率被融合为最终的置信度分数用于检索。}6Tianwei Lin等人tntntni=1tn(a) 生成建议书(b)构建BSP功能图3:提案生成模块的详细信息(a)提出建议。首先,为了生成候选边界位置,我们选择具有高边界概率或者是概率峰值的时间位置。然后,我们结合候选的开始和结束位置的建议时,他们的持续时间满足条件。(b)构造BSP功能。给定一个建议和动作概率序列,我们可以在建议的开始、中心和结束区域采样动作序列来构造BSP特征。时间评估模块。时间评估模块的目标是评估每个时间位置的开始、结束和动作概率,其中需要三个二元分类器。在该模块中,我们采用了时间卷积层的特征序列,具有良好的建模能力,以捕获局部语义信息,如边界和动作概率。时间卷积层可以简单地表示为C〇nv(Cf,ck,Act),其中Cf、ck和Act分别是时间卷积层的滤波器数目、内核大小和作用函数。如图2(b)所示,时间评估模块可以被定义为Conv(512,3,Relu)-Conv(512,3,Relu)-Conv(3,1,Sigmoid)。其中三个层具有相同的步幅大小1。三个带S形激活的滤波器,最后一层用作分类器以产生开始、结束和动作性问题。能力分开。为了便于计算,我们将特征序列划分为互不重叠的窗口,作为时间评估模块的输入。给定一个特征序列F,时态评估模块可以生成三个概率序列. sls. 埃塞尔斯.aΣls爪哇PS=ptnn=1,PE=ptnn=1且PA=ptnn=1,其中ptn,ptn 而ptn是分别是时间tn中的开始、结束和动作概率。提案生成模块。提案生成模块的目标是生成候选提案并构造相应的提案级特征。我们分两步实现首先,我们定位具有高边界概率的时间位置,并将这些位置组合以形成提案。然后,对于每个建议,我们构建边界敏感的建议(BSP)功能。如图3(a)所示,为了定位可能开始的动作的位置,对于开始概率我们记录所有的时间位置tn,其中ps(1)具有高得分:S >0。9或(2)是概率峰值:stn−1和psstn+1.这些位置被分组成候选开始位置集合BS={tS,i}NS,其中NS是候选开始位置的数量。使用相同的规则,我们可以从结束概率序列PE生成候选结束位置集合BE。然后,我们生成时间通过将来自BS的每个起始位置ts和来自BS的每个结束位置te组合,可以在多个区域中创建多个区域。p> p> p边界敏感网络7Ci=1GBE. 满足d=te−ts∈[dmin,dmax]的任何时间区域[ts,te]被表示为候选提议,其中dmin和dmax是数据集中地面实况动作实例的最小和最大这样我们就可以得到候选提案集Ψp={i}Np,其中Np是提案的数量。为了构建如图3(b)所示的提案级特征,对于候选提案,我们将其中心区域表示为rC=[ts,te],将其开始和结束区域分别表示为rS=[ts− d/5,ts+ d/5]和rE=[te− d/5,te+ d/5]。然后,我们通过16个点的线性插值将rc内的动作序列PA采样为fA。在在起始区域和终止区域,我们也用8个线性插值点对动作序列进行采样,分别得到fA和fA将这些向量连接起来,我们可以得到S e边界敏感建议(BSP)特征fBSP=建议的(fA,fA,fA)。BSPs c e特征是高度紧凑的,并且包含关于对应的提议然后我们可以将提议表示为=(ts,te,fBSP)。提案评估模块。建议评估模块的目标是评估每个建议的置信度得分,无论它是否包含动作实例其持续时间使用BSP特征。我们采用一个简单的多层感知器模型,如图2(b)所示。具有512个单元的隐藏层处理具有Relu激活的BSP特征fBSP输出层输出具有sigmoid激活的置信度得分p_conf因此,生成的建议可以表示为as=(ts,te,pconf,ps,pe),其中ps和pe开始和结束的概率tt分别在ts和te这些分数在预测期间被融合以生成最终分数3.4BSN培训在BSN中,时间评估模块被训练为同时从视频特征中然后基于训练好的时态评估模块生成的概率序列,生成提案和相应的BSP特征,并训练提案评估模块学习提案的置信度得分。本节介绍培训详情。时间评估模块。给定一段视频X,构造一个长度为ls的片段序列S,从中提取特征序列F,然后在特征序列中无重叠地滑动长度为lw=100的窗口被表示为ω={Fω,Ψω},其中Fω和Ψω是窗口内的特征序列和注释分开对于Ψω中的地面真实动作实例g=(ts,te),我们表示其区域as action regionra and its starting and ending region asrs=[ts−dg/10,ts+dg/10]G g和re=[te−dg/10,te+dg/10],其中dg=te−ts。时间评估模块以Fω为输入,生成概率序列PS,ω,PE,ω和PA,ω具有相同的长度lw。对于Fω内的每个时间位置tn,我们将其区域表示为rtn=[tn−ds/2,tn+ds/2],并得到相应的概率得分ps,pe 和pa分别由PS,ω,PE,ω和PA,ω得到,其中d s=tn−tn−1n n n n nn是两个片段之间的时间间隔然后对于每个rtn,我们计算其IoPra-tio,其中Ψω中的所有g的ra、rs和re分别为,其中IoP被定义为重叠g g g与此提案的持续时间成比例的groundtruth比率所以我们可以代表-将tn的信息重新发送为φn=(pa,ps,pe,ga,gs,ge),其中ga,gs,ge是n n nnnn nnnn nnnn nn nn最大匹配重叠IoP的动作,开始和结束区域分开。8Tianwei Lin等人n=11 .一、n=1n=1pptsten=1给定匹配信息的窗口为Φω={φn}ls,我们可以定义培训该模块的目标作为三任务损失函数。总损失函数由以下组成损失的性质,起始损失和终止损失:LTEM=λ·Laction+L start+L end,(1)bl bl bl其中λ是权重项并且在BSN中被设置为2我们对所有三个任务采用二元逻辑回归损失函数Lbl的和,其可以表示为:Lbl=ΣlwΣα+·bi·log(pi)+α−·(1−bi)·log(1−pi)lwi=1、(二)其中bi=sign(gi−θIoP)是一个用于比较匹配Σing得分的双值函数gi到{0,1},其基于在BSN中被设置为0.5的阈值θ Ι ο Ρ。设l+=gi,且l−=l−l+,我们可以设置α+=lw 和α−=lw,用于平衡wl+l−训练期间的阳性和阴性样本的效果提案评估模块。使用由训练的时间评估模块生成的概率序列,我们可以使用建议生成模块生成建议规则:Ψp={n=(ts,te,fBSP)}Np.将fBSP作为输入,对于建议,con-由建议评估模块生成信任得分P_conf然后我们计算它的Intersection-over-Union(IoU),所有的交集都在交集中,表示最大重叠分数作为giou。 因此,我们可以将提案集表示为Ψp={n={ts,te,pconf,giou}}Np .我们基于g iou将Ψp分成两部分:giou>0时的Ψ pos。7和Ψ neg对于giou<0。3 .第三章。p p对于数据平衡,我们将所有提案都放入BMPOS中,并随机抽样,Ψneg以确保两组之间的比率接近1:2。该模块的训练目标是一个简单的回归损失,用于训练基于IoU重叠的精确置信度得分预测我们可以将其定义为:LP EM=1N列NΣtraini=1(pconf,i−g iou,i)2,(3)其中,Ntrain是用于训练的建议的数量3.5预测和后处理在预测期间,我们使用BSN与训练中描述的相同过程来生成.Se Np提案集n=n=(ts,te,pconf,pts,pte)n=1,其中Np是提案的数量装备为了得到最终的建议集,我们需要进行评分融合以获得最终的信心评分,然后基于这些评分抑制冗余建议。评分融合以进行检索。 为了获得更好的检索性能,对于每个候选建议,我们通过乘法将其置信度得分与其边界概率融合,以获得最终的置信度得分pf:pf=pconf·ps·pe。(四)通过评分融合,得到生成的建议集Ψp={n=(ts,te,pf)}Np 、其中Pf用于提案检索。在第4.2节中,我们探讨了召回性能-具有和不具有由提案评估模块生成的置信度得分的管理边界敏感网络9P=pF多余的建议抑制。围绕地面实况动作实例,我们可以生成具有不同时间重叠的多个提议。因此,我们需要抑制冗余的建议,以获得更高的召回率与更少的建议。Soft-NMS [2]是最近提出的一种非最大值抑制(NMS)算法,它使用分数衰减函数来抑制冗余结果。首先,所有的提案都按分数排序。然后,具有最大得分的提案矩阵该步骤被递归地应用于剩余的建议以生成重新评分的建议集。软NMS的高斯衰减函数可以表示为:.′f、ipf,i·epf,i,iou(m,i)<θ-iou(m,i)2ε,iou(m,i)≥θ(五)其中ε是高斯函数的参数,θ是预定阈值。在抑制之后-在此基础上,我们得到最终的建议集Ψ′=、n=(ts,te,p′),Np.n=14实验4.1数据集和设置数据集。ActivityNet-1.3 [6]是一个用于一般时间动作提案生成和检测的大型数据集,其中包含19994个视频,注释了200个动作类,并用于ActivityNet Challenge2016和2017。ActivityNet-1.3按照2:1:1的比例分为训练集、验证集和测试集。THUMOS14[22]数据集包含200和213个时间注释的未修剪视频,分别在验证和测试集中包含20个动作类。在本节中,我们将我们的方法与ActivityNet-1.3和THUMOS 14上的最新方法进行比较。评估指标。在时态动作建议生成任务中,通常使用多个IoU阈值计算的平均召回率(AR)作为评估指标。遵循惯例,我们使用IoU阈值集[0. 五比零05:0。95]在ActivityNet-1.3和[0. 五比零五比一。0]在THUMOS14中。为了评估召回率和提案数之间的关系,我们在两个数据集上用平均提案数(AN)评估AR,表示为AR@AN。在ActivityNet-1.3上,AR与AN曲线(AUC)也被用作度量,其中AN从0到100变化。在时间动作检测任务中,使用平均平均精度(mAP)作为评估指标,其中平均精度(AP)分别在每个动作类上计算。活泼地在ActivityNet-1.3上,具有IoU阈值{0. 5,0。75,0。95}和具有IoU阈值集[0. 五比零05:0。[95]使用。在THUMOS 14上,具有IoU阈值{0. 3,0。四,零。5,0。6,0。7)使用。实作详细数据。 对于视觉特征编码,我们使用双流网络[33]具有[45]中描述的架构,其中BN-Inception网络[20]用作时间网络和ResNet网络[18]被用作空间网络。双流网络使用Caffe [21]实现,并在ActivityNet-1.3训练集上进行预训练。在特征提取期间,片段的间隔σ在ActivityNet-1.3上被设置为16,并且在THUMOS 14上被设置为5。10Tianwei Lin等人图4:在THUMOS14数据集中,我们的建议生成方法与其他最先进的方法的比较(左)BSN可以用相对较少的提案实现显著的性能增益。(中)回顾100个提案与tIoU的对比图显示,在很少的提案下,BSN在低和高tIoU两者中都获得了性能改进。(右)回忆1000个建议与tIoU的图显示,在大量建议的情况下,BSN主要在tIoU > 0时实现改进。8.在ActivityNet-1.3上,由于视频的持续时间是有限的,因此我们遵循[27]通过线性插值将每个视频的特征序列重新缩放到新的长度lw=100,并且将对应注释的持续时间重新缩放到范围[0,1]。在BSN中,时间评估模块和建议评估模块都是使用Ten- sorflow [1]实现的.在这两个数据集上,时间评估模块以批次大小16和学习率0.001训练10个时期,然后0.0001训练另外10个时期,建议评估模块以批次大小256和相同的学习率训练对于Soft-NMS,我们通过经验验证将ActivityNet-1.3上的阈值θ设置为0.8,将THUMOS 14上的阈值θ设置为0.65,而两个数据集上的高斯函数ε设置为0.75。4.2临时提案生成以视频作为输入,建议生成方法旨在生成动作实例可能发生的时间建议在本节中,我们将我们的方法与最先进的方法进行比较,并进行外部实验来验证BSN的有效性与最先进方法的比较。如前所述,好的建议生成方法应该使用相对较少的建议来生成和检索建议以覆盖具有高召回率和高时间重叠的地面事实动作实例。我们从两个方面对这些方法进行了评价。首先,我们评估我们的方法生成和检索具有高召回率的建议的能力,这是通过不同数量的建议(AR@AN)和AR-AN曲线下面积(AUC)的平均召回率来衡量的。我们分别在表1和表2中列出了ActivityNet-1.3和THUMOS 14的比较结果,并在图4(左)中绘制了平均召回率与THUMOS 14的平均建议数曲线。在THUMOS14上,当提案数量从10到1000变化时,我们的方法优于其他最先进的提案方法特别是,当平均数量的propos- als是50,我们的方法显着提高平均召回从21。86%至37。46%,十五岁百分之六十在ActivityNet-1.3上,我们的方法优于其他最先进的建议验证集和测试集的生成方法。其次,我们评估我们的方法生成和检索具有高时间重叠的提案的能力,这是通过多个IoU阈值的召回来衡量的。我们在图4中绘制了100和1000个提案的召回率与IoU阈值的曲线边界敏感网络11表1:在AR@AN和AUC方面,我们的方法与ActivityNet-1.3的验证集上的其他最先进的提案生成方法方法Zhao等人[49个]Dai等人[七]《中国日报》Yao等人[14个]Lin等人[27日]BSNAR@100(val)63.52--73.0174.16AUC(val)53.0259.5863.1264.4066.17AUC(试验)-61.5664.1864.8066.26表2:我们的方法与THUMOS 14上其他最先进的提案生成方法在AR@AN方面的比较。特征方法@50@100@200@500@1000C3dDAPs [9]13.5623.8333.9649.2957.64C3dSCNN-道具[32]17.2226.1737.0151.5758.20C3dSST [4]19.9028.3637.9051.5860.27C3d[第13话]19.6327.9638.3453.5260.75C3dBSN + Greedy-NMS27.1935.3843.6153.7759.50C3dBSN + Soft-NMS29.5837.3845.5554.6759.482-Stream标签[49]18.5529.0039.61--流[第13话]21.8631.8943.0257.6364.172-StreamBSN + Greedy-NMS35.4143.5552.2361.3565.102-StreamBSN + Soft-NMS37.4646.0653.2160.6464.52(中)和(右)分开。图4(中心)表明,当IoU阈值从0.5变化到1.0时,我们的方法比具有100个建议的其他方法实现了显著更高的召回率。图4(右)表明,对于1000个建议,当IoU阈值高于0.8时,我们的方法此外,我们进行了一些对照实验以确认表2中BSN本身的贡献。对于视频特征编码,除了双流网络之外,在一些作品[4,9,13,32]中也采用了C3D网络[35对于NMS方法,大多数先前的工作采用Greedy-NMS [8]进行冗余建议抑制。因此,为了公平比较,我们用在UCF-101数据集上预训练的C3 D网络[35]提取的特征训练BSN,然后分别在C3 D-BSN和原始2Stream-BSN表2中的结果表明:(1)C3 D-BSN仍然优于其他基于C3 D的方法,特别是在小的建议数的情况下,(2)软NMS仅比贪婪NMS带来小的性能提升,而贪婪NMS也与BSN一起工作得很好。这些结果表明,BSN的结构本身是性能提升的主要原因,而不是输入特征和NMS方法。这些结果表明BSN的有效性。并且BSN实现了显著的性能,因为它可以生成具有以下各项的建议:(1)灵活的持续时间以覆盖具有各种持续时间的地面实况动作实例;(2)通过使用时间卷积网络学习开始和结束概率的精确时间边界,这带来了生成的建议和地面实况动作实例之间的高度重叠;(3)使用BSP特征的可靠置信度得分,其检索适当地使用建议,使得可以使用相对较少的建议来实现高召回率和高重叠。图5显示了THUMOS 14和ActivityNet-1.3数据集的定性示例。建议的普遍性。提案生成方法的另一个关键属性是为看不见的动作类生成建议的能力。为了评估该属性,12Tianwei Lin等人表3:BSN在ActivityNet-1.3上的推广评估。Seen子集:“运动、锻炼和娱乐”;看不见的子集:“社交,放松和休闲”。可见(验证)不可见(验证)AR@100 AUCAR@100 AUC使用Seen+Unseen(培训)培训的BSN72.40 63.8071.84 63.99使用Seen培训的BSN(培训)72.42 64.0271.32 63.38我们在ActivityNet-1.3上选择了两个语义不同的动作子集:“运动、锻炼和娱乐”和“社交、放松和休闲”分别作为可见和不可见的子集。可见子集包含87个动作类,具有4455个训练视频和2198个验证视频,不可见子集包含38个动作类,具有1903个训练视频和896个验证视频。为了保证实验的有效性,而不是双流网络,这里我们采用在Sports-1 M数据集[24]上训练的C3 D网络[36]进行视频特征编码。使用C3D功能,我们分别在训练集上使用可见和可见+未见视频训练BSN,然后分别在可见和未见验证视频如表3所示,在看不见的类中只有轻微的性能下降,这表明BSN具有很大的泛化能力,并且即使在语义上不同的看不见的动作中也可以学习BSN中模块的有效性。为了评估BSN中的时间评估模块(TEM)和提议评估模块(PEM)的有效性,我们在表4中展示了具有和不具有PEM的BSN的实验结果,其中TEM用于两个结果中。这些结果表明:(1)仅使用TEM而不使用PEM,BSN也可以达到比最先进的方法相当大的召回性能;(2)PEM可以在BSN中带来相当大的进一步性能提升。这些观察结果表明TEM和PEM在BSN中是有效的和不可缺少的。边界敏感建议功能。在提案评估模块中,采用BSP特性对提案的可信度进行评估。在表4中,我们还对BSP中每个组分的贡献进行了消融研究。这些结果表明,虽然从边界区域构造的BSP特征比中心区域贡献较少的改进,但当PEM用从边界和中心区域构造的BSP训练时,实现了最佳的召回性能。4.3行动检测与我们的建议为了进一步评估由BSN生成的提议的质量,我们将BSN提议放入具有最先进的动作分类器的“通过分类提议进行检测”时间动作检测框架中,其中检测结果的时间边界由我们的在ActivityNet-1.3上,我们使用分类模型[44]为视频中的所有提案生成的前1个视频级别类在THUMOS14上,我们使用UntrimmedNet [43]生成的前2个视频级类用于BSN和其他方法生成的建议,其中置信度得分和类得分的乘积用于检索检测。在前人工作的基础上,在THUMOS14上,我们还在BSN边界敏感网络13表4:BSN中的模块的有效性和THUMOS14上的BSP特征中的组件的贡献的研究,其中使用由边界区域(fA,fA)和中心区域(fA)独立地和联合地构造的BSP特征来训练PEMS e c边界中心@50@100@200@500@1000不带PEM的30.7240.5248.6357.7863.04✦35.6144.8652.4660.0064.17带PEM的✦36.8045.6552.6360.1864.22✦✦37.4646.0653.2160.6464.52表5:ActivityNet-1.3的验证和测试集上的动作检测结果,根据mAPOtIoU和平均mAP,其中我们的建议与由[44]生成的视频级分类结果相结合确认测试方法0.50.750.95平均平均Wang等人[第四十四届]42.283.760.0514.8514.62SCC [19]40.0017.904.7021.7019.30CDC [31]43.8325.880.2122.7722.90TCN [7]----23.58SSN [46]39.1223.485.4923.9828.28Lin等人[27日]48.9932.917.8732.2633.40BSN +[44]52.5033.538.8533.7234.42表 6 : 根 据 mAP@tIoU 对 THUMOS 14 的 测 试 集 的 动 作 检 测 结 果 , 其 中 由UntrimmedNet [43]和SCNN-分类器[32]生成的分类结果与由BSN和其他方法生成的建议组合。动作检测方法检测方法0.70.60.50.40.3[32]5.310.319.028.736.3手机短信[48]--17.827.836.5CDC [31]8.814.324.730.741.3SSAD [26]7.715.324.635.043.0TCN [7]9.015.925.633.3-R-C3D [47]9.319.128.935.644.8SS-TAD9.6-29.2-45.7SSN [46]--29.140.850.6CBR [12]9.919.131.041.350.1建议生成方法+操作分类器提案方法分类器0.70.60.50.40.3SST [4]SCNN-cls--23.0--[第13话]SCNN-cls7.714.625.633.244.1SST [4]UNet4.710.920.031.541.2[第13话]UNet6.314.124.535.346.3BSNSCNN-cls15.022.429.436.643.1BSNUNet20.028.436.945.053.514Tianwei Lin等人图5:由BSN在THUMOS 14(顶部和中间)和ActivityNet-1.3(底部)上生成的提案的定性示例,其中使用后处理的置信度得分检索提案。建 议 级 分类 的 建 议 , 并 采用 贪 婪 NMS 作 为 [32] 。 我 们 在ActivityNet-1.3 和THUMOS 14数据集上分别使用每个视频100和200个提案表5中所示的ActivityNet-1.3的比较结果表明,基于我们建议的检测框架优于其他最先进的方法。表6中所示的THUMOS 14的比较结果表明:(1)使用相同的动作分类器,我们的方法比其他建议生成方法实现了更好的性能;(2)与建议级分类器[32]相比,视频级分类器[43]在BSN建议上实现了更好的性能,而在[4]和[13]建议上实现了更差的性能,这表明BSN生成的置信度得分比建议级分类器生成的得分更可靠,并且足够可靠以检索动作检测任务中的检测结果;(3)基于我们的建议的检测框架显著优于现有技术的动作检测方法,特别是当重叠阈值高时。这些结果证实了BSN生成的建议具有高质量,并且在检测框架中通常工作良好。5结论在本文中,我们介绍了边界敏感网络(BSN)的时间行动建议的产生。该方法通过直接结合边界概率高的位置,生成持续时间灵活、边界精确的提案,并通过提案级特征评估提案置信度,实现准确检索。因此,BSN可以实现高召回率和高时间重叠与相对较少的建议。在实验中,我们证明了BSN在THUMOS 14和ActivityNet-1.3数据集上的表现明显优于其他最先进的提案生成方法。BSN作为完 整 检 测 框 架 的 建 议 阶 段 , 可 以 显 著 提 高 检 测 性 能 。 代 码 可 在https://github.com/wzmsltw/BSN-boundary-sensitive-network上获得。边界敏感网络15引用1. Abadi,M.,Agarwal,A.,Barham,P.,等:Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467(2016)2. Bodla,N.辛格湾切拉帕河Davis,.L.S.:用一行代码改进对象检测。arXiv预印本arXiv:1704.04503(2017)3. Buch,S.,Escorcia,V.加尼姆湾Fei-Fei,L.尼布尔斯,J.C.:端到端,单流时间-poral 动 作 检 测 未 修 剪 的 视 频 。 In : Proceedings of the British Machine VisionConference(2017)4. Buch,S.,Escorcia,V. Shen,C.,加尼姆湾尼布尔斯,J.C.:SST:单流临时行动建议。IEEE International Conference on Computer Vision(2017)5. Caba Heilbron,F.,Carlos Niebles,J.,Ghanem,B.:快速时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在:IEEE计算机视觉和模式识别会议论文集。pp. 19146. Caba Heilbron,F.,Escorcia,V.加尼姆湾Carlos Niebles,J.:Activitynet:人类活动理解的大规模视频基准。IEEE计算机视觉和模式识别会议论文集pp. 9617. Dai,X.,辛格湾张,G.,戴维斯,L.S.,Chen,Y.Q.:用于视频中活动定位的时间上下文网络2017 IEEE国际计算机视觉会议(ICCV)。pp. 5727-5736. IEEE(2017)8. Dal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功