没有合适的资源?快使用搜索试试~ 我知道了~
3889BMN:一种用于生成时态动作建议的边界匹配网络林天伟,刘晓,李欣,丁二瑞,温石磊,百度公司计算机视觉技术{lintianwei01,liuxiao12,lixin41,dingerrui,wenshilei}@ baidu.com摘要时间动作建议生成是一个具有挑战性和有前途的任务,其目的是在现实世界的视频中定位动作或事件可能发生的现有的自底向上的建议生成方法可以生成具有精确边界的建议,但不能有效地生成足够可靠的建议检索置信度。为了解决这些困难,我们引入边界匹配(BM)机制来评估密集分布的建议的置信度得分,该机制将建议定义为起始边界和结束边界的匹配对,并将所有密集分布的BM对组合成BM置信图。基于BM机制,本文提出了一种有效的、高效的、端到端的建议生成方法--边界匹配网络(BMN),它能够同时生成具有精确时间边界和可靠置信度的建议。BMN的两个分支在一个统一的框架内联合训练。我们在两个chal-challening 数 据 集 上 进 行 实 验 : THUMOS-14 和ActivityNet-1.3,其中BMN显示出显著的性能改进,具有显著的效率和可推广性。此外,结合现有的动作分类器,BMN可以实现最先进的时间动作检测性能。1. 介绍随着互联网上视频数量的快速增长,视频内容分析方法受到了学术界和产业界的时间动作检测是视频内容分析领域的一个重要任务,其目的是在具有动作类别和时间边界的长视频中定位动作实例。类似于对象检测,时间动作检测方法可以分为两个阶段:时间动作建议生成和动作分类。虽然通过动作识别方法可以实现令人信服的分类精度,但在主流基准中检测性能仍然较低[15,5]。因此,许多最近的方法都致力于提高时间动作图1.我们的方法概述。对于一个未经裁剪的视频,BMN可以同时生成(1)边界概率序列来构造建议,(2)边界匹配置信度图来密集地评估所有建议的置信度。提案时态建议生成方法除了用于时态动作检测任务外,在视频推荐、视频精彩片段检测、智能监控等领域也有着广泛的应用。为了实现高质量的建议,建议生成方法应该(1)生成具有灵活持续时间和精确边界的时间建议,以精确和详尽地覆盖地面实况动作实例;(2)生成可靠的置信度分数,以便可以正确地重新测试建议。现有的大多数提案生成方法[3,4,8,24]采用分别或同时提出建议。这些方法的主要缺点是,生成的建议通常在时间上不精确或不够灵活,以覆盖不同持续时间的地面实况动作实例。最近,边界敏感网络(BSN)[18]采用了“自下而上”的3890(1)定位时间边界并将边界组合为建议;以及(2)使用构造的建议特征来评估每个建议的置信度得分。通过利用局部线索,BSN可以生成比现有自上而下方法具有更精确边界和更灵活持续时间的建议。 然而,BSN有三个主要缺点:(1)(2)BSN中的提案特征构造过于简单,无法捕获足够的时间上下文;(3)BSN是多阶段的,但不是一个统一的框架。我们能否同时评估所有提案的信心-丰富的背景下?自上而下的方法[19,2]可以通过锚机制轻松实现这一点,其中propos- als被预先定义为非连续分布式锚。然而,由于提案的边界和期限更加灵活,锚定机制不适合于BSN这样的自下而上的方法为了解决这些困难, 我们 提出 的 边界匹配(BM)机制-密集分布的概率密度函数的置信度装备在BM机制中,建议被表示为匹配其开始和结束边界的BM对,然后将所有BM对组合为二维BM置信图,以表示具有连续开始边界和持续时间的密集分布的建议。因此,我们可以通过BM置信度图同时生成所有提案的置信度分数。提出了一种基于时间特征序列的BM层生成BM特征图,并通过一系列的卷积层从BM特征图中得到BM置信图BM特征图包含丰富的特征和时间上下文,每个建议,并给出了利用相邻建议的上下文的潜力代码可在PaddleVideo获得。总之,我们的工作有三个主要贡献:1. 我们引入边界匹配机制来评估密集分布的建议的置信度分数,这可以很容易地嵌入到网络中。2. 本文提出了一种高效、有效的端到端的临时行动建议生成方法--边界匹配网络(BMN)。时间边界概率序列和BM置信图在BMN的两个分支中同时生成,并作为一个统一的框架进行联合训练。3. 大量实验表明,BMN在时间行为检测任务中具有显著的效率、泛化能力和良好的性能,能够获得比其他方法更好的建议生成性能。2. 相关工作行动识别。动作识别是视频理解领域的一项基础而重要的任务。手工制作的功能,如HOG,HOF和MBH广泛在早期的作品中使用,例如改进的密集轨迹(iDT)[29,30]。最近,深度学习模型在动作识别任务中取得了显着的性能提升。主流网络分为两类:双流网络[9,25,32]分别利用来自RGB图像和堆叠光流的外观和运动线索; 3D网络[27,22]直接从原始视频量中利用外观和运动线索。在我们的工作中,按照惯例,我们采用动作识别模型来提取未修剪视频的视觉特征序列。相关匹配相关匹配算法广泛应用于图像配准、动作识别、立体匹配等计算机视觉任务中。具体而言,立体匹配旨在从立体图像中找到对应的像素。 对于左图像中的每个像素对于校正后的图像对,立体匹配方法需要沿水平方向在右图像中找到对应的像素点,或者说以最小代价找到正确的像素点。因此,所有左像素的成本最小化可以表示为成本体积,其将每个左右像素对表示为体积中的点。基于成本卷,许多最近的作品[26,21,17]通过使用相关层[21]或特征级联[6]直接从组合两个特征图受成本量的启发,我们提出的BM置信度图包含成对的时间开始和结束边界作为建议,因此可以使用卷积层直接为所有建议生成置信度得分我们提出了BM层,有效地产生BM特征映射,通过采样之间的开始和结束边界的每一个建议,同时。临时行动建议生成。如前所述,时间动作检测任务的目标是在具有时间边界和动作类别的未修剪视频中检测动作实例这两个阶段在大多数检测方法中被分开[24,36,35],并且在一些方法中被作为单个模型一起[19,2,14]。对于提案生成任务,大多数以前的工作[3,4,8,12,24]采用自顶向下的方式来生成具有预定义持续时间和间隔的建议,其中主要缺点是缺乏边界精度和持续时间灵活性。也有一些方法[36,18]采用自下而上的方式。TAG [36]使用时间分水岭算法生成pro-tumor,但缺乏用于检索的置信度得分。最近,BSN [18]通过局部定位时间边界和全局评估置信度得分来生成提案,并在以前的提案生成方法上实现了显著的性能提升。本文提出了一种基于边界匹配的提案可信度评估机制,该机制可以大大简化提案可信度评估的流程,提高提案可信度评估的效率和有效性。3891n=1n=1∈∈∈i、jC×NC}Lv∈--Ng图2. BM置信图的图示。同一行中的提案具有相同的持续时间,并且同一列中的提案具有相同的开始时间。右下角建议的结束边界超出了视频的范围,因此在训练和推理期间不考虑这些建议。3. 我们的方法3.1. 问题公式化我们可以将未修剪的视频X表示为帧序列X=xn其中,x n是视频X的第n个RGB帧。X的时间注释集由一组时间动作实例组成,如Ng={Nn=(t s ,n,t e,n)},其中Ng是地面实况动作实例的数量,ts,n是ac的开始时间。te,n是结束时间。与节奏动作检测任务不同,在建议生成任务中不考虑动作实例的类别。在推理过程中,建议生成方法应生成精确、详尽地覆盖所有问题的建议3.2. 特征编码。根据最近的建议生成方法[3,8,12,18],我们在从原始视频中提取的视觉特征序列上构建BMN模型。在这项工作中,我们采用双流网络[25]进行特征编码,因为它实现了很高的动作识别精度,并广泛用于许多视频分析方法[11,19,36]。 将双流网络中最上层fc层的输出分数连接起来,我们可以得到围绕帧xtn的编码视觉特征f tn R,其中C是特征的维数。因此,给定长度为lv的未修剪视频X,我们可以提取视觉图3. BM层的图示。对于每种方案,我们将采样权值与时间特征序列在T维上进行点积,生成形状为C×N的BM特征。.图MC,其由具有不同起始边界和持续时间的BM对构造。 在BM置信图中,点MC(i,j)的值表示为建议集i,j的置信度得分,起始边界ts= t j,持续时间d=t i,结束边界te=t j+t i.因此,我们可以通过生成BM置信图来生成密集分布的提案的置信度分数边界匹配层。 如何从时间特征序列生成二维BM置信图? 在BM机制中,我们引入BM层,从时间特征序列SFRC × T生成BM特征图MFRC× N × D × T,然后用MF生成BM置信图MCRD× T,其中D是预定义的最大建议持续时间。BM层的目标是在SF中的每个建议的起始边界ts和结束边界te之间均匀采样N个点,得到建议特征m f∈R丰富的上下文。通过对所有方案同时进行采样处理,可以生成BM特征图MF实现该特征采样过程存在两个困难:(1)如何在非整数点上进行特征采样;(2)如何对所有建议的相似性进行特征采样。如图3所示,我们通过点时间特征序列SF∈R特征序列F={ftnLfn=1 ∈RC× lf,其长度为lf.和采样掩码权重W∈RN×T×D ×T为了减少计算量,我们在一个注册表中提取特征典型帧间隔σ,因此lf=lv/σ。3.3. 边界匹配机制在本节中,我们将介绍边界匹配(BM)机制,以生成密集分布的提案的置信度分数首先,我们将一个时间建议表示为它的起始边界ts和结束边界维度详细地说,首先,对于每个提议i,j,我们通过在扩展的时间区域[t s-0]之间均匀采样N个点来构造权重项wi,j ∈ R N × T。25d,t e+ 0. 25d]。 对于非整数采样点t n,我们定义其对应的采样掩码wi ,j,n∈R T为如果t=floor(tn),则f l o r(tn)边界t然后,如图2所示,BM机制的目标是生成二维BM置信度如果t=fl00r(tn)+1,0,如果t=其他(一)C×T3892∈∈∈i、j−N×T图4.边界匹配网络的框架。在特征提取之后,利用BMN同时生成时间边界概率序列和BM置信图,然后基于边界概率构造建议,并从BM置信图中得到相应的置信度。其中dec和floor分别是小数和整数分数函数因此,对于建议i,j,我们可以得到权重项wi,j∈R。其次,我们将SF与wi,j在时间维上进行点积ΣT表1.提出了BMN的详细结构,其中基本模块的输出特征序列由时间评估和建议评估模块共享T和D分别是输入特征序列的长度和最大建议持续时间层内核 步幅暗淡行为输出大小基础模块Conv1d131256 ReLU256×T转换1d231128 ReLU128×T时间评估模块转换1d331256 ReLU256×T转换1d4312乙状2×T建议书评估模块BM层N -32128×32×D×TConv3D132,1,1 32,0,0 512 ReLU512×1×D×T挤压512×D×Tconv2d11,10,0128 ReLU128×D×TConv2d23,31,1128 ReLU128×D×Tconv2d31,10,02乙状2×D×T3.4. 边界匹配网络与BSN [18]的多阶段框架不同,BMN同时生成局部边界概率如图4所示,BMN模型包含三个模块:基本模块处理输入的特征序列,并输出由以下两个模块共享的特征序列:时间评估模块评估视频中每个位置的开始和结束概率以生成边界概率序列;建议评估模块包含BM层,用于将特征序列转换为BM特征图,并包含一系列3D和2D卷积层,用于生成BM置信图。基本模块。基 本 模 块 的目标是处理Fi、j[c,n]=t=1Sf[c,t]·wi,j[n,t].(二)输入特征序列,扩大感受野,作为网络的骨干,提供共享特征通过扩展w i,jR N× T至WR N× T× D × T对于BM置信图中的所有建议,我们可以使用点积生成BM特征图M FR C× N × D × T。由于采样掩码权重W对于不同的视频是相同的,并且可以预先生成,因此BM层的推理速度非常快。BM特征图包含了每个提案的丰富特征和时间上下文,并提供了利用相邻提案上下文边界匹配标签。在训练过程中,我们将BM标签图表示为GC∈RD×T,具有与BM 置信度图MC相同的形状,其中gc∈[0,1]表示提案i,j和所有基础之间的最大IoU。真相行动实例。通常,在BM机制中,我们使用BM层从时间特征序列SF高效地生成BM特征图MF,然后使用一系列卷积层生成BM置信度图MC,TEM和PEM的顺序由于未修剪视频具有不确定的时间长度,我们采用长度为lω的长观察窗口来截断未修剪的特征。长度为lf的序列 我们将一个观测窗口记为ω={t ω,s,t ω,e,fω,F ω},其中t ω,s和t ω,e分别为观测窗口的起始和结束时刻,fω和F ω分别为窗口内的标注和特征序列。窗口长度lω=tω,e tω,s根据以下条件设置:在数据集上基本模块的细节如表1所示,包括两个时间卷积层。时间评估模块(TEM)。TEM的目标是评估未修剪视频中所有时间位置的开始和结束概率这些边界概率序列用于在后处理期间生成建议。TEM的细节如表1所示,其中conv1d4层具有两个S形激活滤波器。其在BM标记映射G的监督下训练。输出起始概率序列P. slω和C S,ω=ptnn=1M3893n=1- -tntnL+D×Tl−−i、ji、j结束概率序列P. eω单独以为单位,并将最大IoU表示为gc. 由此对于观察窗ω。E,ω=ptn n=1ω生成G.=gcD,lωi、j作为PEM的标签。建议书评估模块(PEM)。PEM的目标Ci,ji,j=1是生成边界匹配(BM)的信心地图,其中包含的信心分数密集分布的建议。 为了实现这一点,PEM包含BM层和一系列3d和2d卷积层。如在第二节介绍。3.3、BM层将时间特征序列S通过S与时间维度上的采样掩码权重W的矩阵点积转换为BM特征映射MF在BM层中,采样点的数量N被设置为32,并且最大建议持续时间D取决于数据集而被设置。生成BM特征图失去TEM。 与生成的边界概率se-序列PS,ω,PE,ω和边界标号序列GS,ω,我们可以将TEM的损耗函数构造为起始损耗和终止损耗L TEM=L bl(P S,G S)+L bl(P E,GE)。(三)遵循BSN[18],我们采用加权二元逻辑回归损失函数Lbl用于起始损失和结束损失,其中Lbl(P,G)表示为:首先在样本维数上进行一层卷积,使维数长度从N减少到1,隐藏单元数从128增加到512。然后,我们进行conv2d1层1lωlω i=1.+−α·bi·log(pi)+αΣ·(1−bi)·log(1−pi)、(四)用1×1核减少隐藏单元,用conv2d2层,具有3×3内核,用于捕获相邻亲的上下文其中bi=sign(gi−θ)是一个二值函数,用于基于重叠阈值,将gi从[0,1]转换为{0,1}装备 最后,我们生成两种类型的BM置信度mapMCC,MCR∈R,带有sigmoid激活,其中MCC和MCR分别使用二元分类和回归损失函数进行训练3.5. BMN培训在BMN中,TEM学习局部边界上下文和PEM模式全局提议上下文。为实现局部模式和全局模式的联合学习,采用统一的多任务框架进行优化。本节将介绍BMN的培训细节培训数据建设。给定一个未修剪的视频X,我们可以提取长度为lf的特征序列F。然后,我们使用长度为l ω的观察窗口来截断具有50%重叠的特征序列,其中包含至少一个地面真实动作实例的窗口被保留用于训练。θ= 0。五、表示l+=b i和l −=l ωl+,加权项为α+=lw和α −=lw。失去PEM。利用生成的BM置信图MCC、MCR和BM标签图GC,构造出PEM的损失函数,即二分类的和损失和回归损失:L PEM=L C(M CC,G C)+λ·L R(M CR,G C).(五)其中,我们采用Lbl用于分类损失LC,并且采用L2损失用于回归损失LR,并且设置权重项λ= 10。为了平衡LR中阳性和阴性样本之间的比例,我们取g c>0的所有点。6例为阳性,随机抽取gc<0. 2为负,并保证正负点之间的比例接近1:1。ing. 因此,训练集n ={ωn}NωNω观测窗。构造有培训目标。 我们以多种形式训练BMN-任务损失函数,包括TEM损失、PEM损失和L2损失正则化项:标签分配。对于瞬变电磁法,我们需要生成时间边界标号序列GS,GE∈RT.遵循BSN[18],对于地面实况动作实例,对于注释集ω中的持续时间dg=te−ts,我们分别将其开始和结束区域表示为rS= [ts−dg/10,ts+dg/10]和rE=[te−dg/10,te+dg/10]然后,对于Fω内的时间位置tn,我们表示其局部重-当r tn=[t nd f/2,t n+d f/2]时,其中d f=t nt n-1是两个位置之间的时间间隔。然后分别计算了r tn与r S和rE的重叠比IoR,并将最大IoR分别记为gs和ge,其中IoR定义为与该区域持续时间成正比的地面真值的重叠比。因此,我们可以生成L=LTEM+λ1·LPEM+λ2·L2(Θ),(6)其中,权重项λ1和λ2分别设置为1和0.0001,以确保均匀地训练不同的模块3.6. BMN推理在推理过程中,我们使用BMN生成边界概率序列GS、GE和BM置信图MCC、MCR。为了得到最终结果,我们需要(1)使用边界概率生成候选建议,(2)融合边界概率和置信度得分以生成最终置信度得分,(3)并抑制冗余建议G. slω. eωS,ω=gtnn=1且GE,ω=gtnn=1作为TEM的标记。基于最终的置信度得分。3894∈对于PEM,我们需要生成BM标签映射GCRD×T。对于一个建议,j=(ts=tj,te=tj+ti),我们计算它的交并(IoU),候选人提案生成。 在BSN [18]之后,我们通过结合时间来生成候选提案,具有高边界概率的位置。 第一,定位3895tn·i=1i=1Np--ptteNptte最高起始概率位置,我们记录起始p s(1)大于0的所有时间位置t n。5最大值(p)S表2.在ActivityNet-1.3数据集的AR@AN和AUC验证集上,将我们的方法与其他最先进的时间动作建议生成方法进行比较。或者(2)是概率峰值,其中max(p)是最大-最小启动概率的视频。这些候选起始位置被分组为B S={t s,i}NS。我们可以用同样的方法生成结束位置集合B E。方法[七]《中国日报》[13个国家][20个][10个国家][18个国家]BMNAR@100(val)--73.0173.17 74.1675.01AUC(val)59.5863.1264.4065.72 66.1767.10AUC(试验)61.56 64.18 64.80 - 66.2667.19然后我们匹配BS中的每个起始位置ts和结束-- 如果位置te的持续时间小于预定义的最大持续时间D,则将位置te作为提议设置在BE中。所生成的建议向量被表示为向量=(ts,te,ps,pe,pcc,pcr),其中ps,pe分别是ts和te中的开始和结束概率,并且pcc,pcr是从[te-ts,ts]点的分类置信度得分和回归置信度得分BM置信度图MCC和MCR。因此我们可以获取候选提案集{\displaystyle {\frac {i},其中Np是表3.我们的方法与最先进的建议生成方法SCNN [24],SST[3] , TURN [12] , TAG [36] , CTAP [10] , BSN [18] 在THUMOS-14数据集上的AR@AN之间的比较,其中SNMS代表Soft-NMS。候选人的数量。评分融合。为了生成更可靠的置信度得分,对于每个建议,我们通过相乘来融合其边界概率和置信度得分,以生成最终的置信度得分pf:pf=ps·p·p cc·p cr.(七)i=(ts,te,pf)i=1,其中pf用于建议,在冗余建议抑制期间尝试。冗余提案抑制。在生成候选方案后,我们需要去除冗余方案,以达到用较少的方案获得较高的召回率,其中非最大抑制算法(NMS)被广泛用于此目的。在BMN中,我们主要采用Soft-NMS算法[1],因为它已经证明了其在pro-task生成任务中的有效性[18]。Soft-NMS算法通过衰减其置信度来抑制冗余结果。Soft-NMS生成抑制的最终建议集,,N′ϕ=(t,t,p ′)p ,其中N′是最终提案2流BMN+NMS 37.1546.7554.8462.1965.222流BMN+SNMS39.3647.7254.7062.0765.49在ActivityNet-1.3的训练集上进行预训练,其中空间和时间子网分别采用ResNet和帧间隔σ在THUMOS-14和ActivityNet-1.3上分别设置为5和16。在THUMOS-14上,我们将观察窗长度lω设为128,最大持续时间D设为64,可以覆盖98%的动作实例长度在Activi- tyNet上,按照[18,20],我们重新缩放每个特征序列到观察窗的长度L= 100使用nseFn=1pωnumber.在实验过程中,为了公平比较,我们还尝试了普通的Greedy NMS.4. 实验4.1. 数据集和设置数据集。我们在两个具有挑战性的数据集上进行实验:THUMOS-14 [15]数据集包含413个带有20个动作类别的时间注释的未修剪视频; ActivityNet-1.3 [5]是一个大规模的动作理解数据集,包含动作识别,时间检测,建议生成和密集字幕任务。ActivityNet-1.3数据集包含19994个带有200个动作类别的时间注释的未修剪视频,这些视频以2:1:1的比例分为训练集、验证集和测试集实施详情。对于特征编码,遵循以前的工作[18,12],我们采用双流网络[33]线性插值,和相应的一个持续时间-范围[0,1]的符号。最大持续时间长度D被设置为100,其可以覆盖所有动作实例的长度为了从头开始训练BMN,我们将两个数据集的学习率设置为0.001,批量大小设置为16,epoch数设置为10。4.2. 临时动作建议生成提案生成任务的目标是生成高质量的提案,以覆盖具有高召回率和高时间重叠的动作实例。为了评估提案质量,计算了多个IoU阈值下的平均召回率(AR)按照惯例,IoU阈值[0. 五比零05:0。[95]和[0。五比零五比一。0]分别用于ActivityNet-1.3我们计算不同平均提案数(AN)下的AR为AR@AN,并计算AR下的面积与AN曲线(AUC)作为ActivityNet-1.3上的度量,e特征方法@50@100 @200 @500 @1000C3dSCNN-prop17.2226.1737.0151.5758.20C3dSST19.9028.3637.9051.5860.27C3d反过来19.6327.9638.3453.5260.75C3dBSN+NMS27.1935.3843.6153.7759.50C3dBSN+SNMS29.5837.3845.5554.6759.48C3dBMN+NMS29.0437.7246.7956.0760.96C3dBMN+SNMS 32.7340.6847.8656.4260.442Stream标签18.5529.0039.61--流反过来21.8631.8943.0257.6364.172StreamCTAP32.4942.6151.97--tte2StreamBSN+NMS35.4143.5552.2361.3565.10因此,我们可以得到候选提案集2StreamBSN+SNMS37.4646.0653.2160.6464.523896其中AN在0至100之间变化。3897表4.在AR@AN、AUC和推理速度方面,ActivityNet-1.3验证集中BSN [18]和BMN之间的消融比较。这里的推理速度是使用Nvidia 1080-Ti显卡处理3分钟视频的秒成本,包括网络推理时间Tinf、建议生成和建议特征生成(对于BSN)时间Tpro和总输入。表5. BMN在ActivityNet-1.3验证集上的AR@AN和AUC的概化性评价。已浏览72.47 64.3772.46 64.47参考时间T sum= T inf+ T pro。这里的e2e是指网络联合训练。方法模块e2e @100 AUC T infT职业 T和BSNTEM-73.57 64.80 0.002 0.034 0.036BSNTEM+PEM×74.16 66.17 0.005 0.624 0.629BMNTEM-73.72 65.17 0.003 0.032 0.035BMNTEM+PEM×74.36 66.43 0.007 0.062 0.069BMNTEM+PEMC75.01 67.10 0.005 0.047 0.052图5.在ActivityNet-1.3的验证集上,BSN和BMN之间相对AR改善(%)与AN曲线的消融比较,其中相对AR改善基于BSN-TEM结果计算。与现有技术方法的比较。表2展示了ActivityNet-1.3的验证和测试集上的提案生成性能比较,其中我们的方法明显优于其他提案生成方法。特别是,我们的方法显着改善AUC的验证集从66。17%到67。10%的0。93%,这表明我们的方法可以实现整体性能提升。表3显示了THUMOS-14测试集上的建议代性能比较。由于不同的特征编码方法和冗余建议抑制方法可以在很大程度上影响性能,因此遵循BSN [18],我们采用C3 D和双流特征,正常的Greedy-NMS和Soft-NMS用于公平计算。实验结果表明:(1)无论是基于C3 D还是基于双流特征,当建议数从10到1000变化时,我们的方法都明显优于其他方法;(2)无论是贪婪网管还是软网管的方法,我们的方法明显优于其他方法;(3)软NMS可以提高平均召回率,特别是在小建议数的情况下,这有助于时间动作建议生成任务。这些结果共同表明我们的方法的有效性,其有效性主要是由于其自身的架构。定性结果如图6所示。与BSN的消融比较。 为了证实BM机制的效果,我们进行了更详细的消融研究,并比较了BSN [18]和BMN之间的有效性和效率。为了实现这一点,我们评估了BSN和BMN在多种消融配置下的建议质量和速度。实验结果如表4和图5所示,其证明:1. 在相似的网络结构和训练目标下,BSN和BMN的TEM具有相似的建议质量和推理速度,这提供了可靠的比较基线;2. 加入单独训练的PEM,BSN和BMN的性能都得到了显著的提升,表明PEM在“局部到全局”的提案生成框架中发挥了重要作用3. 联合训练的BMN比单独训练的BMN具有更高的查全率和更快的搜索速度,表明了整体优化的有效性和效率;4. 加入单独训练的PEM,BMN比BSN获得了显著的更快的速度,因为BM机制可以直接为所有建议生成置信度,而不是在BSN中逐个生成。因此,基于BM机制的PEM比原始PEM更TEM和PEM联合使用可以进一步提高效率。因此,这些消融比较实验表明了我们提出的边界匹配机制和统一BMN网络的有效性和效率,它可以快速地同时为所有建议生成可靠的置信度分数。提案的可推广性。作为一种建议生成方法,一个重要的属性是为看不见的动作类别生成高质量建议为了评估该属性,遵循BSN [18],分别选择ActivityNet-1.3的两个不重叠的动作子集:有看到看不见训练数据AR@100AUCAR@100 AUC看见+看不见72.9665.0272.68 65.053898--表6. ActivityNet-1.3的验证和测试集上的动作检测结果,其中我们的建议与[37]生成的视频级分类结果相结合。确认测试方法0.50.750.95平均平均美国疾病控制与预防中心[23]43.8325.880.2122.7722.90SSN [34]39.1223.485.4923.9828.28Lin等人[20个]44.3929.657.0929.1732.26[37]第18话46.4529.968.0230.0332.87我们的+[37]50.0734.788.2933.8536.42表7. THUMOS 14的测试集上的动作检测结果,其中视频级分类器UntrimmedNet [31]和建议级分类器SCNN-Classifier[24]与建议相结合方法分类器0.70.60.50.40.3SST [3]SCNN-cls--23.0--[第12话]SCNN-cls7.714.625.633.244.1BSN [18]SCNN-cls15.022.429.436.643.1图6.建议书和BM地图生成的可视化示例我们SCNN-cls17.024.532.240.245.7由BMN在THUMOS-14和ActivityNet-1.3数据集上进行验证。SST [3]UNet4.710.920.031.541.2[第12话]UNet6.314.124.535.346.3用于检索检测结果。 在THUMOS-14上,我们BSN [18]UNet20.028.436.945.053.5使用生成的前2个视频级分类结果我们UNet20.529.738.847.456.0由UntrimmedNet [31]和建议级SCNN分类器为每个提案生成分类结果。为87和38个动作类别,4455和1903个训练视频,2198和896个验证视频分别在可见和不可见我们采用在Sports-1M数据集[16]上预训练的C3D网络[28]进行特征提取,以保证实验的有效性。我们分别用可见和可见+未可见的训练视频训练BMN,并分别在可见和未可见的验证视频上评估BMN模型。表5中的结果表明,在看不见的类别中,性能下降非常轻微,这表明BMN实现了很大的泛化能力,可以为看不见的动作生成高质量的建议,并且可以学习动作何时可能发生的一般概念。4.3. 行动检测与我们的建议评估提案质量的另一个重要方面是将提案置于时间动作检测框架中并评估其检测性能。采用平均精度(mAP)作为时间动作检测任务的评价指标,分别计算每个动作类别的平均精度(AP)。具有IoU阈值0的mAP。5,0。75,0。95和具有IoU阈值的平均mAP [0.五比零05:0。95]用于ActivityNet-1.3,而具有IoU阈值的{0。3,0。四,零。5,0。6,0。7}用于THUMOS-14。为了达到这个目的,我们采用了两个阶段的分类建议继BSN [18]之后,在ActivityNet-1.3上,我们采用方法[37]生成的前1个视频级分类结果,并使用BMN propos的置信度得分ActivityNet-1.3和THUMOS-14数据集,我们分别使用每个视频的前ActivityNet-1.3上的实验结果如表6所示,这表明基于BMN建议的检测框架显著优于其他最先进的时间动作检测方法。在THUMOS-14上的实验结果示于表7中,其表明:(1)无论是视频级还是提案级的动作分类器,本文方法都取得了比现有提案生成方法更好的检测性能;(2)使用BMN建议,视频级分类器[31]比建议级分类器[24]实现了显著更好的性能,表明BMN可以生成足够可靠的置信度分数用于检索结果。5. 结论本文介绍了一种用于评估密集分布建议的置信度的边界匹配机制,该机制通过将建议表示为BM对并将所有建议组合为BM置信图来实现同时,我们提出了一种有 效 的 时 间 动 作 建 议 生 成 方 法 -- 边 界 匹 配 网 络(BMN),BMN通过组合高概率边界生成具有精确边界和灵活持续时间的建议,并同时基于BM机制为所有建议生成可靠的置信度大量的实验表明,BMN的表现出其他国家的最先进的建议生成方法在建议生成和时间动作检测任务,具有显着的效率和通用性。3899引用[1] Navaneeth Bodla,Bharat Singh,Rama Chellappa,andLarry S Davis.用一行代码软改进对象检测在计算机视觉(ICCV),2017年IEEE国际会议上,第5562-5570页。IEEE,2017年。6[2] 夏马尔·布赫,维克多·埃斯科西亚,伯纳德·加尼姆,李飞飞,胡安·卡洛斯·尼布尔斯.端到端,单流时间- poral动作检测未修剪的视频。在2017年英国机器视觉会议上。2[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。2017年IEEE计算机视觉和模式识别会议(CVPR),第6373- 6382页。IEEE,2017年。一二三六八[4] Fabian Caba Heilbron , Juan Carlos Niebles 和 BernardGhanem。快速时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在IEEE计算机视觉和模式识别会议论文集,第1914-1923页,2016年。一、二[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中,第961-970页,2015年。1、6[6] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议论文集,第5410- 5418页,2018年。2[7] Xiyang Dai , Bharat Singh , Guyue Zhang , Larry SDavis,and Yan Qiu Chen.用于视频中的活动局部化2017年IEEE国际计算机视觉会议(ICCV),第5727-5736页IEEE,2017年。6[8] Victor Escorcia , Fabian Caba Heilbron , Juan CarlosNiebles和Bernard Ghanem。Daps:用于行动理解的深度行动建议。欧洲计算机视觉会议,第768-784页。施普林格,2016年。一、二、三[9] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议论文集,第1933-1941页,2016年。2[10] Jiyang Gao,Kan Chen,and Ram Nevatia. Ctap:补充时间行动建议生成。在欧洲计算机视觉会议(ECCV)的Proceedings中,第68-83页,2018年。6[11] Jiyang Gao,Zhenheng Yang,and Ram Nevatia.用于时间动作检测的级联边界回归。在2017年英国机器视觉会议上。3[12] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia.Turn tap:用于临时行动建议的临时单位回归网络计算机视觉(ICCV),2017年IEEE国际会议,第3648IEEE,2017年。二三六八[13] Bernard Ghanem 、 Juan Carlos Niebles 、 Cees Snoek 、Fabian Caba Heilbron 、 Humam Alwassel 、 RanjayKhrisna、Victor Escorcia、Kenji Hata和Shyamal Buch。活动-tynet challenge 2017摘要CVPR ActivityNet研讨会,2017年。6[14] Yupan Huang,Qi Dai,and Yutong Lu.单镜头瞬时动作检 测 中 的 解 耦 定 位 与 分 类 。 arXiv 预 印 本 arXiv :1904.07442,2019。2[15] Yu-Gang Jiang,Jingen Liu,A Roshan Zamir,GeorgeToderici , Ivan Laptev , Mubarak Shah , and RahulSukthan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功