没有合适的资源?快使用搜索试试~ 我知道了~
344用于动作定位的高斯时间感知网络Fuchen Long< $,Ting YaoYuan <$,Zhaofan Qiu< $,Xinmei Tian<$,JieboLuo<$ and Tao MeiXiang†中国科学技术大学,中国合肥‡JD AI Research,北京,中国美国罗切斯特大学{longfc.ustc,tingyao.ustc,zhaofanqiu}@gmail.com;xinmei@ustc.edu.cn;tmei@live.comjluo@cs.rochester.edu摘要视频中动作的时间定位是视频理解中的一大多数现有的方法通常从图像对象检测中获得灵感并扩展了进展,例如,SSD和更快的R-CNN,用于在1D序列中生成动作的时间位置。然而,结果可能会受到鲁棒性问题的影响,LEM是由于预定时间尺度的设计,其忽略了动作的时间结构并限制了检测具有复杂变化的动作的效用。在本文中,我们建议通过引入高斯内核来动态优化每个行动建议的时间尺度来解决这个问题。具体来说,我们提出了高斯时间感知网络(GTAN)-一种新的架构,新颖地集成了利用的时间结构转化为一个阶段的动作定位框架。从技术上讲,GTAN通过学习一组高斯核来对时间结构进行建模,每个高斯核对应于特征图中的每个高斯核对应于动作提议的特定区间,并且高斯核的混合可以进一步表征具有各种长度的动作提议。此外,每个高斯曲线中的值反映了行动建议本地化的上下文贡献。在THUMOS 14和ActivityNet v1.3数据集上进行了广泛的实验,与最先进的方法相比,报告了优越的结果更值得注意的是,GTAN在两个数据集的测试集上实现了1.9%和1.1%的mAP改进。1. 介绍随着在线和个人媒体档案的巨大增长,人们正在生成、存储和消费大量的视频。这一趋势鼓励发展-*这项工作在JD AI Research进行。图1.一个典型的单阶段动作定位的直觉(上)和GTAN(下)。典型的方法固定时间尺度在每个特征图,很少探索的时间结构的行动。相比之下,我们的GTAN通过学习一组高斯核来考虑时间结构。一个有效和高效的算法来智能地解析视频数据。这些进步的成功背后的一个基本挑战在这项工作中,主要的焦点是时间动作检测/定位,这是定位的确切时间戳的开始和结束的动作,并识别一组类别的动作。时间动作定位的一种自然方式是扩展图像对象检测框架,例如,SSD [23]或更快的R-CNN [27],用于在2D图像中产生空间边界框,以在1D序列中对动作进行时间定位图1的上半部分概念化了一个典型的单阶段动作本地化过程。通常,视频序列中的帧级或剪辑级特征首先被聚合到一个特征图中,然后设计多个1D时间卷积层以增加特征图的分辨率。一维卷积一维卷积一维卷积撑杆跳0.31撑杆跳0.51撑杆跳0.83撑杆跳0.61撑杆跳0.32撑杆跳0.21撑杆跳0.33撑杆跳0.96撑杆跳0.45撑杆跳0.23345时间感受野的大小和预测行动建议。然而,每个特征图中对应于单元的时间尺度是固定的,使得这种方法无法捕获动作的固有时间结构。因此,在这种情况下,绿框中的一个地面实况行动建议被检测为三个。相反,我们建议通过学习每个单元格的高斯内核来探索动作的时间结构,从而缓解这个问题,高斯内核动态地指示动作建议的特定间隔高斯核的混合甚至可以被分组以描述动作,这对于定位具有各种长度的动作提议更灵活,如图1的底部所示。更重要的是,上下文信息自然涉及到基于高斯曲线的权重的通过深入研究动作的时间结构,我们提出了一种新的高斯时间感知网络(GTAN)架构的一阶段动作定位。给出一个视频,3D ConvNet被用作提取剪辑级特征的主干,这些特征被顺序地合并到特征图中。首先采用两个卷积层和最大池化层来缩短特征图并增加接收域的时间长度。然后,级联的1D时间卷积层(锚层)不断缩短特征图并输出锚特征图,该特征图由每个单元(锚)的特征组成在每个锚层的顶部,为每个单元学习高斯内核,以动态预测对应于该单元的动作建议的特定间隔。甚至可以混合多个高斯内核来捕获任意长度的行动建议。通过高斯池化,每个单元格的特征通过聚合由高斯曲线中的值加权的上下文单元格的特征来升级,以用于最终行动建议预测。通过最小化一个分类损失加上两个回归损失,即,局部化损失和重叠损失。这项工作的主要贡献是一个阶段的架构GTAN的设计,用于解决视频中的时间动作本地化的问题。该解决方案还导致如何利用动作的时间结构来检测具有不同长度的动作以及如何利用上下文信息来提升时间定位的优雅视图,这些问题在文献中尚未完全理解。2. 相关工作我们将相关的作品简单地分为两类:时间动作建议和时间动作检测。前者侧重于研究如何精确地本地化包含动作的视频片段,而后者进一步将这些动作分类到已知的类中。本文总结了时间行为的研究方法,主要分为两个方向:独立于内容的提案和依赖于内容的提案。内容无关建议算法的主流是视频中的均匀或滑动窗口采样[24,33,41],这导致进一步分类的巨大计算。相反,依赖于内容的建议方法,例如,[3,5,7,8,21],在培训期间使用行动建议标签。例如,Escorcia等人。 [5]利用长短期记忆细胞来学习视频序列的适当编码,作为一组判别状态来指示建议分数。虽然该方法避免了运行多尺度的滑动窗口,但仍然需要执行重叠滑动窗口,这在视频持续时间长时不适用。为了解决这个问题,单流时间建议(SST)[3]通过利用基于递归GRU的模型生成仅具有一次通过的建议,并且时间单元回归网络(TURN)[8]以金字塔方式构建视频单元以避免窗口重叠。 与上述方法不同的是-边界敏感网络(BSN)[21]以一种更灵活的方式基于三条行动曲线定位行动边界。然而,这种基于动作性的方法可能无法定位密集和短暂的动作,因为难以区分曲线中非常接近的开始峰值和结束峰值。一旦动作提议的本地化完成,时间动作检测的自然方式是将提议进一步分类为已知动作类,以两阶段的方式进行处理[4,12,29,30,38,43]。然而,建议生成和分类的分离可能导致次优解决方案。为了进一步促进节奏动作检测,最近提出了几种单阶段例如,单流时间动作检测(SS-STAR)[2]利用基于递归神经网络(RNN)的架构来联合学习动作建议和分类。受SSD [23]的启发,Lin等人。 [19]设计了1D时间卷积来生成多个时间动作锚点,用于动作提议和检测。此外,随着强化学习的发展,Yeung et al. [40]探索RNN以学习一种用于以端到端的方式预测动作的起点和终点的策略。然而,由于时间尺度的限制,大多数单阶段方法仍然面临着将所有行动建议局部化的挑战。简而言之,我们的方法属于一阶段的时间动作检测技术。与上述通常预先确定动作提议的时间尺度的一阶段方法不同,本文中的GTAN不仅通过研究通过高斯核学习时间结构,而且还研究如何更好地利用上下文信息进行动作本地化。346i=0时图2.我们的高斯时间感知网络(GTAN)架构的概述。 输入视频通过3D ConvNet编码为一系列剪辑级特征,这些特征依次连接为特征图。两个1D卷积层加上一个最大池化层,以增加感受野的时间大小。八个1D卷积层被级联以生成不同时间分辨率的多个特征图。在每个特征图的顶部,在每个单元格上学习高斯内核,以预测行动建议的特定间隔。此外,多个高重叠的高斯核被混合成一个更大的核,用于检测各种长度的长动作通过高斯池化,通过聚合由高斯曲线中的值加权的上下文单元的特征来生成动作建议GTAN与动作分类损失加上两个回归损失联合优化,即,每个建议的局部化损失和重叠损失。更好地查看原始彩色PDF。3. 高斯时间感知网络在本节中,我们将详细介绍所提出的高斯图2显示了我们的动作本地化架构的概述它由两个主要组件组成:基本特征网络和具有高斯内核的一维时间卷积层级联。基本特征网络是从连续的视频片段中提取特征图,这些特征图将被馈送到级联的1D卷积层中,以生成不同时间分辨率的多个特征图。对于一个特征图中的每个单元格,随着训练的进行,学习高斯核以控制与该单元格对应的动作建议的时间尺度。此外,设计了一种高斯核融合算法,将多个重叠度高的高斯核合并为一个更大的核,以捕获任意长度的长动作。具体地,每个动作pro-bands是通过聚合由高斯曲线中的值加权的上下文单元的特征来生成的整个网络通过动作分类损失加上两个回归损失进行联合优化,即,局部化损失和重叠损失,它们分别用于学习每个动作提议的动作类别标签、默认时间边界调整和重叠置信度得分。3.1. 基础要素网络动作定位的最终目标是在时间维度上检测动作实例给定输入视频,我们首先通过3D ConvNet从连续的视频片段中提取片段级特征具体地,从3D ConvNet中提取特征序列{fi}T-1,其中T是时间长度。我们把所有的特征转换成一个特征图,然后将该图馈送到两个1D卷积层(基本特征网络由3D ConvNet,两个1D卷积层和最大池化层组成。基础特征网络的输出被进一步用于行动建议生成。3.2. 高斯核学习给定从基本特征网络输出的特征图,用于单阶段动作定位的自然方式是堆叠1D时间卷积层(锚层)以生成用于分类和边界回归的建议(锚)。这种在每个锚层中具有预定时间尺度的结构可以捕获时间间隔与感受野大小一致的动作过程,但是对于不同长度的提议的检测存在困难。该设计限制了在具有复杂变化的局部化动作上的实用性。为了解决这个问题,我们引入时间高斯核来动态控制每个特征图中的命题的时间尺度具体而言,如图所示,基础要素网络128高斯核3DCNNσ11高斯核σ12σ12σ31σ13σ'σ2213DCNNσ14σ32σ32高斯核σσ'215σ42σ61σ2...σ8523DCNNσ17σ26σ18σ2M-2conv_a8conv_v8σ1n-2σ2M 1-σ1n-1σ2M3DCNNσ1nconv_a2conv_v2pool1conv_a1conv_v1conv1conv2F3132σ1'2σ2'F'2F82σ112 σ8F'...11F822σ82优化器提案38σ28σ18σ重叠损耗本地化损失分类损失高斯池化......................................................高斯池化高斯池化347不不不不不不不我不ii=0算法1高斯核函数输入:原始高斯核集合S={G(t,σ)}T−1;我我交集大于并集(IoU)阈值ε;输出量:混合高斯核集G;i=0时1:选择开始分组位置p= 0;2:初始化混合高斯核集合G=G;3:初始化基高斯核Gbs=G(tp,σp),结束分组位置z=p+ 1;4:当p≤T−1时,5:计算核Gbs与G(tz,σz)之间的IoU值O;6:如果O>ε,则第7组: G组而G(t,σ)到G′根据等式(1),(3),替换GBS ZZ BS图3.高斯核函数的可视化在图2中,首先级联八个1D时间卷积层(锚定层),用于以不同的时间分辨率生成动作建议对于锚层的特征图中的每个单元格,学习高斯核以预测与该单元格对应的动作建议的特定间隔。形式上,我们表示第j个层为{f}Tj −1∈ RTj ×Dj,1 ≤ j ≤ 8,其中T j和Dj是特征图的时间长度和特征维数。 对于中心位置为t的提议P j,我们通过高斯核Gj来利用其时间尺度。的Gj的标准差σj通过1D卷积学习具有新的混合核G′;8:其他9:将核Gbs添加到混合核集合G;10:p=z,Gbs=G(tp,σp);11:如果结束12:z=z+ 1;13:结束while14:返回G预测的标准偏差。然而,如果学习的高斯核彼此跨越和重叠,则这可能隐含地指示以这些高斯核中换句话说,利用这些原始高斯核的中心位置,t t t代表这个冗长建议可能不合适。到在一个3×Dj的特征图单元格上分层,并通过sigmoid运算将该值约束在(0,1)范围高斯核Gj的权重定义为:为了缓解这个问题,我们试图生成一组新的高斯核来预测长期行动的中心位置和时间尺度。灵感来自于Wj[i]1 exp(−Z我(pi−µt)22σj2),不(一)在[43]中,我们针对该目标提出了一种新的高斯核聚类算法。图3说明了时间高斯S.T. pi=Tj,µt=Tj,i∈ {0,1,.,T j− 1},t ∈ {0,1,...,T j− 1},其中Z是归一化常数。 利用高斯核Gj中σj可以作为宽度(均方根宽度,RMS)的度量的理论精神,将σj作为行动方案的区间度量Kernel 给定两个相邻的高斯核G(t1,σ1)和G(t2,σ2),其中心位置和标准差为t和σ,我们通过使用第3.2节中定义的默认时间边界的宽度aw来计算两个内核之间的时间在图3的上半部分,两个核之间的时间交集的长度是H,而并集的长度是L。如果t tPj. 具体来说,σj可以乘以某个两个内核t t比率来表示默认的时间边界:ac=(t+0. 5)/Tj,aw=rd·2σj/Tj,(2)其中ac和aw是故障时间边界的中心位置和宽度,r表示时间尺度H/L超过某个阈值ε,我们将它们合并为一个高斯核(图3的底部)。新的混合高斯核公式如下′W[i] =1 exp(−(pi−µ)),jdZ2σ′2比例 W t 也用于功能聚合,汇集机制,以产生行动建议,′S.T. pi = ,µ=不t1+t2,σ′2·T=L,2(三)将在第3.4节中详细说明。与将时间尺度固定为第j层中的1/Tj的传统1D卷积锚定层相比,我们通过利用每个建议的学习高斯内核来探索具有复杂变化的动作实例,从而采用动态时间尺度。3.3. 高斯核函数通过学习时间高斯核,大多数动作实例的时间尺度可以用i∈ {0,1,.,T − 1}。在每个特征图中,算法1详细描述了生成合并内核的分组步骤。3.4. 高斯池化利用学习的高斯核和混合的高斯核,计算基于高斯曲线上的值的特征图的加权和,得到聚合特征F。具体地,给定σ1σ2G(t1,σ1)的宽度G(t2,σ2)的宽度G(t1,σ1)与G(t2,σ2)的交LH内核扩展G(t1,σ1)与G(t2,σ2)的并σ'2348不不不不n′d/2d图4.手动扩展加平均池化策略(左)和高斯池化策略(右)涉及行动建议的时间上下文信息的比较。在第j层中的中心位置t处的高斯核Gj,其中,如果n等于地面实况动作标签c,则指示器函数In=c= 1,否则In=c= 0。我们将giou表示为该提议的默认时间边界与其对应的最接近的基础事实之间的IoU 如果这个建议的giou大于0。8、我们将其设置为前景样本。如果giou小于0。3、将其设置为背景样品。在训练期间,前景和背景样本之间的比率被设置为1.0。定位损失被设计为预测的前-后-前-后不建议Pj的聚合特征被公式化为地面建议和最接近的地面实况实例,建议,这是由计算Fj= 1Tj−1Tji=0Wj[i]·fi,(4)L锁定 =SL1(200c)— gc)+SL1(图)— GW),(8)其中表示Fj被进一步用于动作分类和时间边界回归。上述高斯池化机制固有地考虑了围绕每个动作提议的上下文贡献。与手动扩展加平均池化策略来捕获视频上下文信息(图4的左部分)相比,我们提供了一种优雅的替代方案,可以根据重要性自适应地学习加权表示3.5. 网络优化给定来自高斯池化的每个提议的表示,并行地利用三个1D卷积层行动类-其中gc和gw表示中心位置和宽度of对于重叠损失,我们采用均方误差(MSE)损失进行优化,如下所示:2Lov=(yov− giou)。(九)最终,整个网络通过惩罚这三个损失以端到端的方式进行训练3.6. 预测和后处理在动作定位的预测期间,每个候选动作提议的最终排名分数yf取决于动作分类分数ya和重叠参数yov两者:一yf= max(y)·yov.(十)分解分数ya= [ya,ya,...,[2019-01-1500:00:00]给定预测的动作实例φ={φ,φ,C,y}01CcwaF属于C行动类别的机构加上一个课局部化参数(bxc,bxw)表示相对于默认中心位置ac和宽度aw的时间偏移,其用于调整时间坐标c=ac+α 1 aw 和w=awexp(α2其中,Uc、Uw是提案的细化中心位置和宽度。α1、α2用于控制时间偏移的影响。特别是,我们定义了一个重叠参数-利用细化边界(fixed boundary,fixedw)、预测动作标签Ca和排名得分yf,我们采用软非最大值抑制(soft-NMS)[1]进行后处理。在软NMS的每次迭代中,我们将具有最大排名得分yfm的动作实例表示为φm。其他实例φk的排名得分yfk将被降低或不降低,根据到用φm计算的IoU:如果iou(φk,φm)<ρ埃捷奥夫代表亲的精确IoU预测yfk=yfk·e— iou(φk,φm)2如果iou(φk,φm)≥ρ,则为、(11)这有利于建议在预测中重新排序。在训练阶段,我们从高斯池中积累所有的建议,并通过预测层产生动作实例。我们的GTAN中的总体训练目标通过整合动作分类损失(Lcls)和两个回归损失(即,定位损失(Lloc)和重叠损失(Lov):L=Lcls+βLloc+γLov,(6)其中β和γ是权衡参数。具体来说,我们通过softmaxloss来测量分类损失LclsΣCLcls=−In=clog(ya),(7)n=0D/2平均池化349其中,λ是衰减参数,ρ是NMS阈值。4. 实验我们通过在两个流行的视频识别基准上进行时间动作定位的实验来经验性地验证我们的GTAN的优点,Activi- tyNet v1.3 [13]和THUMOS 14 [16]。4.1. 数据集ActivityNet v1.3数据集包含从YouTube收集的200个类 该数据集分为三个不相交的子集:培训、验证和测试,350d=1表1.1D时间卷积(锚)层的细节RF代表感受野的大小。ID类型内核大小通道数#strideRF1conv_a135122112conv_a235122193conv_a3310242354conv_a4310242675conv_a53204821316conv_a63204822597conv_a73409625158conv_a834096210272:1:1。 数据集中的所有视频都有时间anno1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。00的情况。00。2040608个1.0IOU(一)0的情况。80的情况。70的情况。60的情况。50的情况。40的情况。30的情况。20的情况。10的情况。0SSN SSADCTAP BSNCDCGTANSST20 40 60 80 100每个视频的平均提案数(b)第(1)款站。测试集的标签不公开,ActivityNet数据集上的动作本地化性能在验证集上报告。THUMOS 14数据集有1,010个用于验证的视频和1,574个用于测试的视频,来自20个类别。在所有视频中,在验证集和测试集中分别有在[43]之后,我们在验证集上训练模型,并在测试集上进行评估。4.2. 实验设置实现方式的 我们利用伪3D [26]网络作为我们的3D骨干。 网络输入为16帧剪辑,帧的采样率设置为8。来自池5层的2,048路输出被提取为剪辑级特征。表1总结了1D锚定层的结构。此外,我们选择了三个时间尺度比,图5. (a)Recall-IoU和(b)ActivityNet上的AR-AN曲线。表2.行动建议的AR和AUC值。IoU阈值:[0.5:0.05:1.0]用于THUMOS 14,[0.5:0.05:0.95]用于ActivityNet。方法THUMOS14ActivityNetActivityNet(测试服务器)ARARAUCAUCSST [3]37.9---CTAP [7]50.173.265.7-BSN [21]53.274.266.266.3GTAN54.374.867.167.4按时间动作分组。(2)单镜头动作检测(SSAD)[19]是单镜头检测[23]的1D变体版本,它通过多个时间锚层生成动作提议。(3)卷积-去卷积网络(CDC)[29]构建了一个3D卷积-去卷积网络,以在帧级别精确定位动作实例的边界(4)边界敏感网络(BSN)[21]通过三个动作定位时间边界-{rd}3= [20,21/3,22/3]从[22]导出。 借据Ness曲线和神经网络重新排列建议(五)将高斯分组中的阈值ε设置为0。7通过交叉值-idation平衡参数β和γ也在验证集上确定,并设置为2。0和75。ρ和ρ被设置为0。8和0。在软NMS中为75。参数α1和α2均设置为1。0交叉验证。我们在Caffe [15]平台上实现了GTAN。 在所有的实验中,我们的网络是通过使用随机梯度下降(SGD)进行训练的,0。9动量。 初始学习率被设置为0。001,每2. THU-MOS 14上的5k迭代和ActivityNet上的10k迭代。最小批量大小为16,权重衰减参数为0。0001评估指标。我们遵循每个数据集中的官方评估指标进行动作检测任务。在Activ- ityNet v1.3上,IoU阈值在0. 5和0。95(含)带台阶尺寸为0。05被用来做比较。在THUMOS 14上,具有IoU阈值0的mAP。5是测量。 我们评估前100名和前200名的表现分别在ActivityNet v1.3和THUMOS 14中返回建议4.3. 时间行动建议的评价我们首先考察了时间行动建议任务的绩效,即只评估行动建议的边界质量,而不考虑行动类别。我们比较以下先进的方法:(1)结构部门网络(SSN)[43]生成行动建议SSN SSADCTAP BSNCDCGTANSST召回平均召回351单流时间行动建议(SST)[3]构建了一个基于RNN的行动建议网络,它可以在长视频序列的单流中实现,以产生行动建议。(6)补充性临时行动建议(CTAP)[7]平衡了滑动窗口和行动性分组方法之间的优缺点。我们在两个数据集上采用不同IoU(AR)中的平均召回率的标准度量来此外,在ActivityNet的官方评估之后,我们在图中绘制了召回-IoU曲线和平均召回与每个视频的平均建议数(AR-AN)曲线5. 除了AR指标外,表2中还报告了AR-AN曲线下面积(AUC),因为AUC是ActivityNet测试服务器上的测量值总体而言,不同指标和两个数据集的性能一致表明,我们的GTAN导致性能相对于基线的提升。特别是,GTAN的AR在THUMOS 14和ActivityNet上分别达到54.3%和74.8%,与最佳竞争对手BSN相比,绝对提高了1.1%和0.6%。在ActivityNet在线测试服务器上进行评估时,GTAN的AUC超过BSN 1.1%。结果表明,利用时间结构的本地化行动的优势此外,如图5所示,在不同的IoU中不断实现改进。在AR-AN曲线方面,GTAN也表现出更好的352GTANSSAD平均地图背景骑马时间conv_a5组地面实况GTAN20.5s 30.5s 32.5s 69.7s 74.0s80.0s82.3秒90.4秒(DB)19.3s 28.9s 31.9s 67.2s 75.6s 78.3s83.5秒87.1秒GTAN20.3秒29.8秒32.1秒70.5秒73.6秒80.7秒83.1秒91.2秒图6.通过GTAN对ActivityNet的视频示例进行动作定位的可视化高斯核在“conv_a5”层的输出上学习第二个和第三个内核混合成一个更大的内核。默认框(DB)由高斯核预测表3.GTAN中每个设计的性能贡献704035603050254020表4.不同长度动作的高斯分组评价。GTAN-不包括GTAN中的高斯分组30204 5 6 78锚层数量(一)151054 5 6 7 8锚层数量(b)第(1)款不同数量的顶级返回提案的性能-S.即使在只有少于10个提案被返回的情况下,GTAN仍然表现出明显的改进,表明GTAN受益于动态优化每个提案的时间尺度的机制,并且正确的提案被排在顶部。4.4. 高斯核函数与高斯核函数的评价接下来,我们研究了GTAN中的每个设计如何影响时间动作定位任务的整体性能。固定尺度简单地为锚层中的每个单元或锚采用固定的时间间隔,并且在SSAD中采用这种方式。高斯核利用为每个锚学习一个高斯核的思想来建模动作的时间结构,并动态预测每个动作建议的时间尺度高斯核函数进一步混合多个高斯核函数来表征不同长度的动作过程在后两种情况下,利用高斯池化来用上下文信息增强每个锚点的特征。表3通过在两个数据集上考虑GTAN中的另一个因素Gaussian Kernel在THUMOS 14和ActivityNet v1.3上分别成功地将mAP性能从33.5%提高到37.1%和从29.8%提高到31.6%。这在一定程度上揭示了固定尺度的弱点,其中每个锚点的时间尺度独立于动作提议的时间属性。相比之下,高斯核模型,图7. (a)AUC和(b)在ActivityNet中具有不同数量锚层的SSAD和GTAN在时间动作建议和定位任务上的平均mAP性能。多孔结构,并预测每个锚在飞行中的特定间隔。因此,每个动作提议的时间定位或边界更准确。此外,通过高斯池的上下文聚合,每个动作建议的特征高斯分组进一步分别使mAP增加1.1%和2.7%。结果验证了混合多个高斯核函数捕获任意长度行动建议的有效性和灵活性。为了更好地验证高斯分组的影响,我们还评估了GTAN对长期行动提案的影响。在这里,我们考虑在THUMOS 14中长于128帧的动作和在THUMOS14中长于2048帧的动作。ActivityNetv1.3作为长动作,因为在THUMOS 14中动作实例的平均持续时间为1.44秒,比ActivityNet的平均持续时间(1.50秒)小得多。表4示出了 GTAN 和GTAN之间的mAP比较。它的变体GTAN-不包括高斯分组。正如预期的那样,更大程度的改善是实现长期行动的建议,涉及高斯分组。4.5. 锚固层数的评价在现有的一步法中,例如,SSAD算法中,每个锚点层的时间尺度是固定的,通过增加锚点层的数目实GTANSSADAUC方法THUMOS14ActivityNet v1.3固定比例高斯核函数CCCCCCCC地图33.537.138.229.831.634.3方法THUMOS14ActivityNet v1.3≥128所有≥2048所有GTAN−22.137.149.431.6GTAN25.938.254.234.3353现多时间尺度相反,我们的GTAN学会了354表5.THUMOS 14上的时间动作检测的性能比较,由mAP在不同的IoU阈值α下测量。THUMOS 14,mAP@α两阶段行动定位Wang等人[35]第三十五届18.217.014.011.78.3FTP [14]----13.5民主行动党[5]----13.9Oneata等人[25日]36.633.627.020.814.4Yuan et.al. [41个]51.442.633.626.118.8S-CNN [30]47.743.536.328.719.0SST [3]--37.8-23.0美国疾病控制与预防中心[29]--40.129.423.3[8]第八话54.050.944.134.925.6R-C3D [38]54.551.544.835.628.9SSN [43]66.059.451.941.029.8CTAP [7]----29.9BSN [21]--53.545.036.9一阶段动作定位Richard等人[28日]39.735.730.023.215.2Yeung等人[第四十届]48.944.036.026.417.1短信[42]51.045.236.527.817.8SSAD [19]50.147.843.035.024.6SS-TAD--45.7-29.2GTAN(C3D)67.261.156.946.537.9GTAN69.163.757.847.238.8每个锚点层中的每个锚点具有一个高斯核,并且动态地预测与每个锚点相对应的动作建议的时间尺度。多个高斯核的分组使得时间尺度更加灵活。即使锚层数量很少,我们的GTAN理论上也应该更负责定位各种长 度 的 动 作 pro-bands 。 图 7 在 ActivityNet v1.3 上 对SSAD和我们的GTAN在利用不同数量的锚层时的性能进行了经验比较。结果表明,GTAN在锚层深度从4到8的不同深度上,无论是时间动作建议还是定位任务,都一致优于SSAD。通常,更多的锚定层提供更好的AUC 和mAP性能。当减少锚定层的数量时,预计SSAD的性能比GTAN的性能下降更急剧。在4层的极端情况下,GTAN的平均mAP仍然达到26.77%,而SSAD仅达到5.12%,这再次证实了探索时间结构和预测行动建议时间尺度的优势4.6. 与最新技术我们在THUMOS 14和ActivityNet v1.3数据集上比较了几种最先进的技术。 表5列出了THUMOS 14上不同IoU阈值的mAP性能。为了公平比较,我们还使用C3D[34]作为3D ConvNet骨干实现了GTAN不同IoU值的结果一致表明,GTAN表现出比其他更好的性能。特别是 , GTAN 的 mAP@0.5 在 C3 D 骨 干 的 情 况 下 达 到37.9%,使得比也采用C3 D的一期方法SSAD和SS-1分别提高了13.3%和8.7%与最先进的两阶段方法B相比表6.ActivityNet上的时间动作检测比较ActivityNet v1.3,mAPSN,我们的GTAN使用C3D和P3D骨干网分别带来1.0%和1.9%的性能提升。GTAN的优越结果证明了通过高斯核建模动作的时间结构的优势。在ActivityNet v1.3上,我们在表6中总结了验证集和测试集的性能比较。对于测试集,我们将GTAN的结果提交给在线ActivityNet测试服务器,并评估本地化任务的性能。同样,GTAN在验证集和测试集上分别超过最佳竞争对手BSN 0.6%和1.1%此外,我们的一阶段GTAN比两阶段解决方案更简单,更快,更适用于视频中的动作定位。图6展示了来自ActivityNet的一个视频的时间定位结果。在“conv_a5”层的输出上学习的高斯核和如图所示,高斯内核很好地捕捉了每个行动建议的时间结构,并为最终的回归和分类预测准确的默认框5. 结论我们提出了高斯时间感知网络(GTAN),其目的是探索时间结构的动作时间定位。特别地,我们研究了通过学习一组高斯核来动态预测每个动作建议的时间尺度为了验证我们的说法,我们设计了一个一阶段的动作定位框架,该框架为每个锚层中的每个细胞测量一个高斯核。甚至可以混合多个高斯核,以表示具有不同长度的行动建议使用高斯核的另一个优点是通过高斯池化利用上下文信息来增强行动建议的特征,这有利于最终的回归和分类。实验在两个视频数据集上进行,即,THUMOS 14和Activi- tyNet v1.3验证了我们的建议和分析。与一阶段和两阶段高级技术相比,也观察到性能改进。致谢本工作得到了中国国家重点研发&计划项目的部分支持,合同号为:2017YFB1002203和国家自然科学基金编号:61872329。方法0.10.20.30.40.5方法验证测试0.5 0.750.95平均平均Wang等人[36个]45.114.110.0516.4114.62Singh等人[三十一]26.0115.222.6114.6217.68Singh等人[32个]22.7110.820.3311.3117.83美国疾病控制与预防中心[29]45.3026.000.2023.8022.90TAG-D [37]39.1223.485.4923.9826.05SSN [43]----28.28Lin等人[20个]48.9932.917.8732.2633.40355引用[1] Navaneeth Bodla、Bharat Singh、Rama Chellappa和LarryS. 戴 维 斯 Soft-NMS - 用 一 行 代 码 改 进 目 标 检 测 。InICCV,2017.[2] 夏马尔·布赫,维克多·埃斯科西亚,伯纳德·加尼姆,李飞飞,胡安·卡洛斯·尼布尔斯.端到端,单流时间动作检测未修剪的视频。在BMVC,2017年。[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。SST:单流临时行动建议。在CVPR,2017年。[4] 放 大 图 片 作 者 : 赵 玉 伟 , SudheendraVijayanarasimhan,Bryan Sey- bold,David A. Ross,JiaDeng,and Rahul Sukthankar.重新思考用于时间动作定位的更快R-CNN架构。在CVPR,2018年。[5] Victor Escorcia , Fabian Caba Heilbron , Juan CarlosNiebles 和 Bernard Ghanem 。 DAPs : Deep ActionProposals for Action Understanding行动理解的深度行动建议。在ECCV,2016年。[6] Adrien Gaidon 、 Zaid Harchaoui 和 Cordelia Schmid 。Acacidum作用的时间局部化。IEEE Trans. on PAMI,35(11):2782[7] Jiyang Gao,Kan Chen,and Ram Nevatia. CFAP:复杂的临时行动建议生成.在ECCV,2018。[8] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia.TURN TAP:用于时间行动建议的时间单位回归网络。InICCV,2017.[9] Roeland De Geest,Efstratios Gavves,Amir Ghodrati,Zhenyang Li,Cees Snoek,and Tinne Tuytelaars.在线操作检测。在ECCV,2016年。[10] 罗斯·格希克。快速R-CNN。在ICCV,2015年。[11] Georgia Gkioxari 和 Jitendra Malik 。 寻 找 行 动 管 。CVPR,2015。[12] FabianCabaHeilbron , WaynerBarrios , VictorEscorica,and Bernard Ghanem.SCC:语义上下文级联的有效行动检测.在CVPR,2017年。[13] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。ActivityNet:人类活动理解的大规模视频基准。CVPR,2015。[14] Fabian Caba Heilbron , Juan Carlos Niebles 和 BernardGhanem。Fast Temporal Activity Proposals for EfficientDetection of Human Actions in Untrimmed Videos. 在CVPR,2016年。[15] Yangqing Jia,Evan Shelhamer,Jeff Donahue,SergeyKarayev,Jonathan Long,Ross B.吉希克,塞尔吉奥·瓜达拉马,和特雷弗·达雷尔。Caffe:用于快速特征嵌入的卷积架构。arXiv预印本arX-iv:1408.5093,2014年。[16] Yu-Gang Jiang,Jingen Liu,Amir R.Zamir,and GeorgeToderici.THUMOS 挑战: 动作识别大量的 类。http://crcv.ucf.edu/THUMOS 14,2014.[17] 放大图片作者:Michael D. Flynn,Austin Reiter,andGregory D.海格用于动作分割和检测的时间卷积网络在CVPR,2017年。[18] 董立、赵凡秋、齐岱、姚婷、陶梅。Recurrent TubeletProposal and Recogni
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功