没有合适的资源?快使用搜索试试~ 我知道了~
13658基于视频自拼接图网络的时间动作定位陈昭阿里·塔比特伯纳德·加尼姆阿卜杜拉国王科技大学(KAUST),Thuwal,沙特阿拉伯{Chen.Zhao,Ali.Thabet,Bernard.Ghanem} @ kaust.edu.sa摘要视频中的时间动作定位(TAL)是一项挑战性的任务,特别是由于动作时间尺度的大变化。短动作通常在数据集中占有很大的比例,但往往具有最低的性能。在本文中,我们面对的挑战,短的行动,并提出了一个多层次的跨尺度的解决方案被称为视频自缝合图网络(VSGN)。我们在VSGN中有两个关键组件:视 频 自 拼 接 ( VSS ) 和 跨 尺 度 图 金 字 塔 网 络(xGPN)。在VSS中,我们专注于视频的一小段时间,它沿着时间维度以获得更大的尺度。我们在一个输入序列中缝合原始剪辑和放大的对应部分,以利用两个尺度的互补特性。xGPN组件通过跨尺度图网络的金字塔进一步利用跨尺度相关性,每个金字塔包含混合模块以聚合来自跨尺度以及相同尺度内的特征。我们的VSGN不仅增强了特征表示,而且还为短动作和更短的训练样本生成更多的正锚实验结果表明,VSGN在THUMOS-14和ActivityNet-v1.3上的定位性能达到了最新水平,并明显提高了短动作的VSGN代码可在https://github.com/coolbay/VSGN上获得。1. 介绍由于互联网上视频内容的快速生成,目前工业界和学术界对视频理解的兴趣越来越大。未裁剪视频中的时间动作定位(TAL)是该领域的一个重要任务,其目的是确定动作的开始和结束时间以及识别其类别。TAL不仅是各种应用的关键技术,例如在体育运动中提取亮点,而且还为其他更高级别的任务奠定了基础,例如视频接地[10,13]和视频字幕[17,27]。虽然许多方法(例如,[1、2、8、19、20、23、40、图1. 短动作在数量上占多数,但性能最低。a)ActivityNet-v1.3中的动作持续时间分布[6]。动作分为五个持续时间组(以秒为单位):XS(0,30]、S(30,60]、M(60,120]、L(120,180]、和XL(180,inf)。b)不同方法对不同持续时间作用的鲎试剂性能。41,42,44])近年来不断打破TAL性能的记录,但阻碍其实质性改进的主要挑战是作用持续时间的大变化。在现实世界的场景中以及在数据集中,动作可以持续几分之一秒到几分钟[6,14]。我们绘制了数据集ActivityNet-vl.3 [6]中动作持续时间的分布,如图la)所示。我们注意到,短于30秒的动作占主导地位的分布,但它们的性能明显不如所有不同TAL方法的较长动作(图1)。1 b))。因此,短动作的准确性是确定TAL方法的性能的关键因素为什么短动作难以本地化?短动作具有较小的时间尺度和较少的帧,因此,它们的信息容易在深度神经网络中丢失或失真文献中的大多数方法处理视频而不管动作持续时间,其结果是牺牲了短动作的性能。最近,研究人员试图将特征金字塔网络(FPN)[21]从对象检测问题纳入TAL问题[23,26],该问题在不同的网络级别生成不同的特征尺度,每个级别具有不同的候选动作大小。虽然通过这种方式,短动作可以通过更少的池化层以避免被过度缩减,但是它们的原始小规模13659因为问题的根源仍然限制了性能。那么,我们如何解决短期行动的小规模问题呢? 一种可能的解决方案是在时间上放大视频以获得更多的帧来表示动作。最近的文献示出了在馈送到网络中之前经由线性插值来重新缩放视频的实践[2,19,20,42,46],但是这些方法实际上缩小而不是放大视频(例如,放大视频)。在ActivityNet-v1. 3上仅使用100个片段)。即使我们可以采用一种方法来使用更大规模的输入,我们如何确保放大的视频包含足够准确的信息来检测动作?此外,这使得问题更加困难,重新缩放通常不是在原始帧上执行,而是在不满足线性度的视频特征上执行。放大视频可以将短动作变换为长动作,但是可能丢失用于局部化的重要信息。因此,原有规模和扩大规模都有其局限性和优势。原始视频尺度包含原始完整的信息,而放大的视频尺度更易于网络检测。与其他使用原始比例视频或缩小比例视频的作品相比,在本文中,我们使用两者来利用它们的互补特性并相互增强它们的特征表示。具体来说,我们提出了一个视频自S-拼接图网络(VSGN),以提高性能的TAL问题中的短动作。我们的VSGN是一个多层次的跨尺度框架,包含两个主要组件:视频自拼接(VSS);交叉尺度图金字塔网络(xGPN)。在VSS中,我们专注于一个短时间段的视频和放大它沿时间维度,以获得一个更大的规模。然后使用我们的自拼接策略,我们将原始比例的剪辑和它的放大器对应物拼凑成一个单一的序列作为网络输入。在xGPN中,我们通过跨尺度图网络的金字塔逐步聚合来自跨尺度和相同尺度的因此,我们使两个特征尺度之间的直接信息传递成为可能。与简单地使用一个尺度相比,我们的VSGN通过学习本地化动作来自适应地校正任一尺度中的畸变特征除了增强功能之外,我们的VSGN还使用更多的短动作来增强数据集,以减轻学习过程中对长动作的偏见,并使更多的锚点,即使是那些具有大规模的锚点,也能够预测短动作。我们将我们的贡献总结如下:1) 据我们所知,这是第一个工作,揭示了问题的短期行动的任务时间行动本地化。我们提出了一种新的解决方案,利用跨尺度的多层次特征的相关性,以加强其表示和促进本地化。2) 我们提出了一种新的时间动作定位框架VSGN,其具有两个关键组件:视频自拼接;交叉尺度图金字塔网络(xGPN)。为了有效的特征聚合,我们设计了一个跨尺度的图形网络的每一个层次在xGPN的时间分支和图形分支的混合模块。3) 与其他并发方法相比,VSGN在短动作上有明显的改进在THUMOS-14上,VSGN达到52.4%mAP@0.5,而 在 相 同 特 征 下 的 先 前 最 佳 分 数 为 40.4% 。 在ActivityNet-v1.3 上 , VSGN 达 到 了 35.07% 的 平 均mAP , 而 在 相 同 的 功 能 下 , 之 前 的 最 佳 得 分 为34.26%。2. 相关工作2.1. 目标检测时间动作定位类似于图像中的对象检测的任务,尽管图像中的尺度变化已经提出了多种方法来处理图像中的小物体[3,28]或一般的物体尺度变化[4,21对象尺度不变性的代表性工作是特征金字塔网络(FPN)[21],其使用编码器和解码器金字塔的架构生成多尺度特征。近年来,FPN已经成为用于许多对象检测方法的流行的基础架构(例如,[29、34、35、45])。 在FPN之后,提出了一些方法来进一步改进架构以获得更高的效率和更好的准确性,诸如PANet[24]、NAS-FPN [11]、BiFPN [33]。我们提出的跨尺度图金字塔(xGPN)采用FPN的思想,并建立了一个金字塔,在时间域的视频特征,而不是在空间域的图像此外,我们嵌入跨尺度图网络的金字塔水平。解决规模问题的另一个视角,特别是对于小规模,是数据增强,例如YOLOv4 [ 4 ]中的马赛克增强,将四个图像拼接成一个大图像,并裁剪中心区域进行训练。它帮助模型学习不要过分强调大对象的激活,以提高小对象的性能我们的VSGN受到马赛克增强的启发,但它沿着时间维度缝合不同尺度的相同视频剪辑,而不是不同的视频。2.2. 时间动作定位最近的时间动作定位方法通常可以基于它们处理输入序列的方式分为两类。第一类是BSN [20]、BMN[19]、G-TAD [42]、BC-GNN [2]等著作将每个视频重新缩放到固定的时间长度(通常是诸如100个片段的小长度),而不管原始视频持续时间。使用该策略的方法是有效的。13660图2. 所提出的视频自缝合图网络(VSGN)的架构。它需要一个视频序列,并生成检测到的动作的开始/结束时间以及它们的类别。它有三个组成部分:视频自拼接(VSS)、跨尺度图金字塔网络(xGPN)以及评分和定位(SoL)。VSS(红色虚线框,见图3)包含四个步骤来准备视频序列作为xGPN输入。xGPN由多级编码器和解码器金字塔组成。编码器通过交叉尺度图网络(xGN)的堆栈(黄色梯形区域,见图10)聚合不同级别的特征。4详情);解码器恢复时间分辨率并生成用于检测的多级特征。SoL(蓝色虚线框)包含四个模块,前两个预测动作得分和边界,后两个产生补充得分和调整边界。由于小的输入规模,这是有效的,但会损害短动作,特别是长视频中的短动作,因为这些短动作基本上被缩小了规模,并且它们的信息容易丢失或失真。然而,对于受其架构限制的这些方法而言,将视频放大作为输入是不平凡的。例如,BSN依赖于开始/结束曲线来识别提议候选,但是当使用更多帧时,曲线将具有太多的峰和谷而不能生成有意义的提议。在G-TAD中,如果内插太多片段并且相邻片段变得相似,则其倾向于仅在时间附近找到图邻居(称为缩放诅咒)。第二类是使用滑动窗口将原始视频裁剪成多个输入序列。这可以保留每个帧的原始信息。属于这一类的作品R-C3 D [40],TAL-NET [8],PBRNet [23]执行池化/跨步卷积以获得多尺度特征。这两个类别相比,我们提出的VSGN使用的原始视频剪辑和其放大的对应,并利用其互补的属性,以提高其表示。2.3. 图神经网络在TAL图神经网络(GNN)是一种用于开发不规则结构中相关性的有用模型[16]。随着它们在不同的计算机视觉领域变得流行[12,36,38],研究人员也发现它们在时间动作定位中的应用[2,42,44]。G-TAD [42]打破了对视频片段的时间位置的限制,并使用图来聚合来自不位于视频片段中的片段的特征时间邻域它将每个片段建模为节点,将片段之间的相关性建模为边缘,并应用边缘卷积[36]来聚合特征。BC-GNN [2]通过将时间建议的边界和内容建模为图神经网络的节点和边来改进本地化。P-GCN [44]将每个建议视为一个图节点,可以将其与建议方法相结合以生成更好的检测结果。与这些方法相比,我们的VSGN在视频片段上构建图作为G-TAD,但不同的是,除了从相同尺度建模片段之外,VSGN还利用跨尺度片段之间的相关性并定义跨尺度边缘以打破缩放诅咒。此外,我们的VSGN包含金字塔架构中的多级图神经网络,而G-TAD仅使用一级。3. 视频自拼接图网络图 2 展 示 了 我 们 提 出 的 视 频 自 拼 接 G 图 网 络(VSGN)的总体架构。它由三个组件组成:视频自拼接(VSS)、跨尺度图金字塔网络(xGPN)、评分和本地化(SoL),这些组件将在第2节中详细说明。分别为3.2、3.3和3.4。在深入研究细节之前,在SEC。3.1我们首先介绍我们的想法背后的这些组件来处理短动作的问题。3.1. 短动作更大尺寸的剪辑。为了解决短动作尺度的问题,让我们首先考虑当人们发现自己对一个短视频片段感兴趣时,他们会如何反应。13661t=1t=1- -不 t=1联系我们特征,如果它是长的,则切割成多个短剪辑,沿着时间维度放大每个短剪辑,并且将每对原始剪辑和放大的剪辑缝合在一起成为一个序列。请注意,除了使用VSS生成多尺度输入之外,我们还直接使用所有原始长视频作为输入,以便也检测长动作。特征提取(Fig. 3a))。让我们表示一个视频序列X={xt}T∈RW×H×T×3,其中W×H图3. 视频自拼接(VSS)。a)针对整个视频提取片段级特征。b)长视频被剪切成多个短剪辑。c)沿着时间维度放大每个视频剪辑。d)原始剪辑(绿点)和放大剪辑(橙色这里,“空间分辨率”是指空间分辨率,T是帧的总数。我们使用特征编码方法(例如TSN [39],I3D [7])在片段基础上提取其特征(一个片段被定义为τ个连续的视频帧)。我们为每个片段生成一个特征向量,并获得点)被缝合成具有间隙的一个特征序列。表示为F={ft}T/τ∈RT/τ×C,其中C是特征尺寸。视频切割(图3b))。 假设要求匆匆离去他们会滚动回剪辑,并以较低的速度重新播放,例如暂停和播放。我们在准备视频时模拟这个过程,然后将其输入神经网络。我们建议聚焦于视频的短时间段,并沿着时间维度放大它以获得更大时间尺度的视频剪辑(图1中的VSS2,见二。3.2详情)。更大的时间尺度,不仅能够通过网络聚合和池化保留更多的信息,而且与更大的锚点相关联,更容易检测。多尺度输入。放大过程可能不可避免地损害剪辑中的信息,因此包含原始完整信息的原始视频剪辑也是必要的。为了利用这两种尺度的互补特性,我们设计了一种视频拼接技术,将它们拼接在一起作为一个单一的网络输入(图2中的VSS,参见第2节)。3.2详情)。该策略使得网络能够在一个单次通过中处理两个尺度,并且剪辑具有不同尺度的更多正锚这也是一种有效的方法来增加数据集。跨尺度相关性。原始剪辑和杂志剪辑尽管不同,但是高度相关,因为它们包含相同的视频内容。如果我们能够利用它们的相关性并在它们的特征之间绘制连接,则放大剪辑中的受损信息可以由原始剪辑纠正,并且在池化期间原始剪辑中丢失的信息为此,我们提出了一种跨尺度图金字塔网络(图2中的xGPN,参见第2节)。3.3),它不仅聚合来自同一尺度的特征,而且聚合来自交叉尺度的特征,并且在多个网络级别上逐步增强两个尺度的3.2. 视频自拼接视频自拼接(VSS)组件将视频转换为网络的多尺度输入。如示于图3、它取一段视频序列,提取片段级我们的网络输入是L个片段特征1F0=f0LRL×C。 我们将短片段定义为包含不超过γL个片段的片段,其中0<γ <1称为短因子。在训练中,如果一个序列不超过γL,我们直接使用整个序列而不进行剪切;否则,我们需要将其剪切成多个短片段。在确定剪切位置时,我们在一个短剪辑中包括尽可能多的动作,并向内移动剪辑边界以排除被切成两半的边界动作如果动作长于γL,则我们不将其包括在视频自拼接阶段中(注意,长动作仍然会被检测到,因为我们还直接使用所有原始序列而因此,短夹子的长度可随切割位置而变化在推理中,我们不切割序列。剪辑放大(图3c))。为了获得更大的尺度,我们通过放大策略(例如线性插值[20])沿时间维度放大每个短剪辑对于短剪辑,放大比例取决于其自身的比例。具体地,如果短剪辑包含M个剪切特征,则其被放大到长度L G M,其中G是表示间隙长度的常数(参见下一段落)。换句话说,放大的剪辑将填充网络输入F0中的剩余空间。剪辑越短,其放大的对应片段将越长。这不仅充分利用了输入空间,而且还将更多的注意力放在较短的剪辑上。自缝合(图3d))。然后,我们将原始短剪辑(剪辑O)和放大剪辑(剪辑U)缝合到一个序列中。如果我们直接将两个片段并排连接,则会出现一个问题,即网络很容易将拼接序列误认为长序列,并且倾向于生成跨越两个片段的预测。为了解决这个问题,我们设计了一个简单的策略:插入1如果视频序列包含多于L个片段特征,则我们沿着时间维度以步幅L/4滑动长度L的窗口以生成多个子序列,每个子序列在以下步骤中用作独立序列13662不不tkc=1不不i2i不t ∈{s|(v,v)∈E}tkC不t=1t=1不t=1不t=1不S2||两个夹子之间的间隙,如图所示。3 d)。我们简单地在间隙中填充零,使网络通过识别零来学习区分长序列和拼接序列。这是一种有效的方法。3.3. 跨尺度图金字塔网络受FPN [21]的启发,它计算具有不同级别的多尺度特 征 , 我 们 提 出 了 一 种 跨 尺 度 图 金 字 塔 网 络(xGPN)。它通过一个时间分支和一个图形分支的混合模块,在多个网络层次上逐步聚合来自交叉尺度和相同尺度的特征。如图在图2中,我们的xGPN由多级编码器金字塔和多级解码器金字塔组成,它们在每一级通过跳过连接来连接。每个编码器级别包含一个交叉在排除那些已经具有与目标节点的自由边的节点之后,满足该条件的那些节点在特征相似性方面排在前K/2这些跨尺度边缘加强不同尺度的缝合的两个剪辑之间的相关性。它使两种尺度能够交换信息,并利用其互补性质相互增强表征。此外,由于它使边缘超出节点的时间附近,它解决了缩放诅咒(见第二2.2)在内插特征上使用图形网络。特征聚合。对于节点fi的所有边缘,我们执行边缘卷积运算[36]以聚合其所有相关节点的特征。具体地说,我们先将目标节点fi与其相关节点fi中的每一个连接,1≤k≤K,并且应用多层感知器规模图网络(xGN),更深的级别具有更小的(MLP),其中权重矩阵W={wc}C∈R2C×Cto时间尺度;每个解码器级包含由去卷积层组成的放大网络,更深的级具有更大的时间尺度。变换每个连接的特征。 然后,我们把以逐通道方式产生最大值,以产生聚集特征~fi。该过程被表述为跨尺度图网络。xGN模块包含- 时间分支,用于聚合时间相邻区域中的特征i=max.fi||(1)第一章:KS不不borhood,以及一个用于聚合要素的图形分支规模内和跨规模的位置。然后将聚集的特征汇集到更小的时间尺度中。 其架构如图所示。4.第一章时间分支包含Conv1d(3,1)2层。在图分支中,我们在来自剪辑O和剪辑U的所有特征上构建一个图,并应用边缘卷积[36]进行特征聚合。图形构建。 我们将有向图表示为G=哪里C是沿着信道维度的级联。我们融合的聚合功能,从图分支和那些从时间分支的特征求和。最后,在应用激活和池化之后,我们生成下一级别i+1的特征。这被公式化为Fi+1=σmax. 。F~ i+FiΣΣ,(2)其中V={vt}J是节点,并且E={Et}I其中F~i={~fi}J是图的聚集特征是指向每个节点的边假设我们在第i层有输入特征Fi={fi}J∈ RJ×C。我们建立分支,Fi是时间分支的输出,是rec.最大化线性单元(ReLU),并且σmax是指最大池化。这样一个有向图,每个节点vt是一个特征fi,它具有K个内边,公式化为Et={(v tk,v t)|1 ≤ k ≤K,t,k}。 边属于以下两种情况之一类别:自由边和跨比例边。我们在图中说明了这两种类型的边缘4.第一章我们使一个节点的K/2条边成为自由边,这些自由边仅基于节点之间的特征相似性来确定,而不考虑源剪辑。我们使用两个节点的负均方误差(MSE)来衡量两个节点vt和vs之间的特征相似性,公式为−¨f−f¨/C。只要一个图4. 跨尺度图网络(XGN)。 顶部:颞叶分支;底部:图形分支。这两个分支由节点是目标节点在特征相似度方面,它具有自由的边缘指向性到目标节点。 由于自由边没有限制在两个节点的裁剪类型上,它们可以连接同一比例内的要素或跨不同比例的要素。我们使其他K/2个边成为跨尺度边,其仅连接来自不同剪辑的节点,这意味着来自剪辑O的节点只能与来自剪辑U的节点具有跨尺度边,反之亦然。给定一个目标节点,我们从2为了简洁起见,我们使用Conv1d(m,n)来表示内核大小为m且步长为n的一维卷积。添加,随后是激活函数和池化。每个点代表一个特征,绿点来自剪辑O,橙色点来自剪辑U。在图形分支中,蓝色箭头表示自由边,紫色箭头表示跨比例边。3.4. 评分和本地化如图1B的评分和定位组件所示。2,我们使用四个模块来预测动作位置和得分。在顶部区域中,位置预测模块(M_loc)和分类(M_cls)模块进行粗略分类。13663- -- -LLL L LL--L··直接从每个解码器金字塔级别进行预测。在底部区域中,边界调整模块(Madj)和补充评分模块(Mscr)进一步改进来自顶部两个模块的每个预测片段的开始/结束位置和评分Mloc和Mcls各自包含4个Conv1d(3,1)块,组归一化(GN)[37]和ReLU层,后面是一个Conv1d(1,1),用于生成每个锚片段的位置偏移和分类分数(锚片段是均匀分布的时间位置处的多尺度窗口,作为预测模块的参考在这里,我们使用预定义的锚定段用于M_loc,而对于M_cls,我们通过应用它们从M_loc模块的预测偏移来更新锚定段(我们使用与[40]中相同的机制来更新具有预测偏移的段边界这两个模块由所有解码器级共享。为了进一步改进从M_loc生成的边界,我们设计了受[23]中的FGD启发的M_adj。对于来自Mloc的每个更新的锚定段,我们分别从其开始和结束位置周围采样3个特征。然后,我们在时间上连接来自每个位置的3个特征向量,并应用Conv1d(3,1)ReLUConv 1d(1,1)用于预测开始/结束偏移。通过将两个偏移量分别添加到起点和终点,可以进一步调整锚点段。端位置分别。mscr,由堆栈组成Conv 1d(3,1)ReLU Conv 1d(1,1)预测每个序列的动作/开始/结束分数[20]。在训练中,我们使用基于四个模块的输出的多任务损失函数,其公式为L=Lloc+λclsLcls+λadjLadj+λscrLscr,(3)其中loc,cls,辩证scr是分别对应于四个模块的损耗,并且λcls、λadj和λscr是它们对应的折衷系数。分别基于更新/调整的锚点段与它们对应的地面实况动作之间的距离来计算损失Ioc和adj为了表示距离,我们采用广义交-交-并(GIoU)[30]并使其适应时间域。将片段缩放到序列的开始,并将它们缩小到原始比例以获得它们的位置。4. 实验4.1. 数据集和设置数据集和评价指标. 我们目前我们的实验结果 在 两 个 代 表 性 的 数 据 集 THUMOS-14 ( 简 称THUMOS ) [14] 和 ActivityNet-v1.3 ( 简 称ActivityNet)[6]。THUMOS-14包含413个时间注释的未修剪视频,具有20个动作类别,其中200个视频用于训练,213个视频用于验证3。ActivityNet-v1.3在200个动作类别中有19994个节奏拉力赛注释的未修剪视频,这些视频以2:1:1的比例分为训练,验证和测试集。对于这两个数据集,我们使用不同tIoU阈值下的平均精度(mAP)作为评估指标。在THUMOS-14上,我们使用tIoU阈值0。3,0。四,零。5,0。6,0。7;在ActivityNet-v1.3上,我们在范围[0. 5,0。95],步长为0.05,作为遵循官方评估实践的tIoU阈值。实施详情。 为了实现更高的性能,一些作品直接处理视频帧并以端到端的方式学习用于时间动作定位(TAL)任务的特征[23,40]。然而,这对GPU存储器和计算能力有巨大的要求。相反,我们遵循使用现成的预提取特征的实践,而不对目标TAL任务进行进一步[2,18,20,42]。对于THUMOS,我们以每个视频的原始帧速率进行采样,并使用在Kinects [15]上训练的双流网络TSN [39]预提取特征。对于ActivityNet,我们评估两种不同类型的功能:TSN每秒5个片段,I3D[7]每秒1.5个片段(两个网络都在Kinetics [15]上训练)。我们使用输入序列长度L=1280,整个网络的通道维度C=256,短因子γ=0。4.第一章我们在编码器和解码器金字塔中分别具有5个级别,长度为L/2(1+1),其中1 ≤l≤5为水平指数。对于每个级别,我们有对于LCLS[ 22 ]我们在预测的类别之间使用焦点损失[232 不同的锚定尺寸{s1×2(l−1),s2×2(l−1)},其中sification分数和地面实况类别。scr的计算方式与[20]中的TEM损耗相同为了确定锚点片段是正还是负,我们计 算 其 与 所 有 地 面 实 况 动 作 实 例 的 时 间 交 并(tIoU),并使用tIoU阈值Lloc和Lcls为0.6,Ladj为0.7。在推断中,每个预测片段的得分s =(ts,te,s)用来自Mcls的置信度得分c ψ、来自Mscr的开始概率ps和结束概率pe计算,公式化为s=c ψps(ts)pe(te)。我们使用来自剪辑O和剪辑U的预测对于来自剪辑U的预测,我们移动每个检测到的边界对于THUMOS,s1和s2分别为4和6,对于ActivityNet,s1和 s 2分别为32和48每个节点的边的数量是K=10,并且间隙是G=30。λ cls=λ adj=λ scr=0。对于THUMOS,λcls=λadj=λscr = 1;对于ActivityNet,λ cls=λ adj = λ scr=1。所有这些超参数都是根据经验选择的。两个数据集的训练批次大小都是32。我们以0.00005的学习率为THUMOS训练了10个epoch,以0.0001的学习率为ActivityNet训练了15个epoch。我们直接预测THUMOS的20个动作类别;我们进行二进制分类,然后融合我们的 预测分数,3THUMOS的训练集和验证集分别是来自UCF101 [32]的验证集和测试集的时间注释视频13664表1.THUMOS- 14的验证集上的动作检测结果,由不同tIoU阈值下的mAP(%)测量。我们的VSGN在tIoU阈值0.5(通常采用的标准)处实现了最高的mAP,显著优于所有其他方法。方法0.30.40.50.60.7短在THUMOS上为TAL进行端到端学习/微调TCN [9]-33.325.615.99.0-R-C3D [40]44.835.628.9---PBRNet [23]58.554.651.341.829.5-预提取特征*重新实施与我们相同的功能。我们用1D卷积替换3D卷积以适应特征尺寸。[39]中的视频级分类分数,ActivityNet遵循[20]。在后处理中,我们应用软NMS [5]来抑制冗余预测,保留200个THUMOS预测和100个Activi-tyNet预测用于最终评估。4.2. 与最新技术水平我们将我们提出的VSGN的性能与文献中最近的代表性方法分别在表1和表2中的两个数据集上进行比较。 在这两个数据集上,VSGN都达到了最先进的性能,在THUMOS上tIoU 0.5时达到 mAP 52.4%,在ActivityNet上平均达到mAP 35.07%。它明显优于使用相同功能的所有其他方法。更值得注意的是,我们的VSGN使用预先提取的特征而无需进一步微调,与TAL端到端微调特征的当前方法除了评估一般的所有行动,我们还提供了VSGN以及其他方法,具有检测结果可用的短动作的平均mAP 。 这 里 , 我 们 将 短 于 30 秒 的 动 作 实 例 在ActivityNet上,有54.4%的做空行为,而在THUMOS上,有99.7%的做空行为。我们可以看到,我们在短动作上的性能增益比其他方法更明显。4.3. 消融研究我们提供了VSGN中关键组件VSS和xGPN的消融研究,以验证它们对这两个组件的有效性表2. ActivityNet-vl.3的验证集上的动作定位结果,由不同tIoU阈值下的mAP(%)和平均mAP测量我们的VSGN实现了最先进的平均mAP和最高的短动作mAP请注意,我们的VSGN使用预提取的特征而无需进一步微调,显著优于使用相同预提取特征的所有其他方法。它甚至可以与并发方法相媲美,后者可以为TAL端到端微调ActivityNet上的功能。方法0.5 0.75 0.95平均值短在ActivityNet上为TAL进行端到端学习/微调CDC [31]45.30 26.000.2023.80-R-C3D [40]26.80----PBRNet [23]53.96 34.978.9835.01-预提取的I3D特征TAL-Net [8]38.2318.301.3020.22-P-GCN [44]48.2633.163.2731.11-[第46话]43.4733.919.2130.1214.8[23]第二十三话51.3233.337.0933.0817.6VSGN(我们的)52.3235.238.2934.6818.8预提取的TSN特征*重新实施与我们相同的功能。我们用1D卷积替换3D卷积以适应特征尺寸。表3. VSGN组件对THUMOS-14的有效性。VSS是非常有效的短期行动和xGPN进一步提高,证明了整体性能。基线VSS xGPN0.30.40.50.60.7短✓56.78 50.11 42.54 31.14 19.93 45.1✓✓61.41 55.16 45.52 33.43 21.32 48.7✓✓63.77 58.66 50.24 39.44 28.36 53.4✓✓✓66.69 60.37 52.45 40.98 30.40 56.6表4. ActivityNet的VSGN组件的有效性- v1.3。VSS对于短动作非常有效。xGPN有益于不同长度的动作,并提高了整体性能。基线VSSxGPN0.50.750.95Avg.短✓51.2334.918.5334.2517.5✓✓51.6735.179.7934.7018.3✓✓50.8733.999.0933.7919.7✓✓✓52.3836.018.3735.0719.9分别在表3和表4中的数据集。基线是通过将xGPN中的每个xGN模块替换为Conv1d(3,2)和ReLU层来实现的,而不是在VSS中使用剪切,放大和拼接。视频自拼接(VSS)。对于这两个数据集,VSS显示其有效性,无论是使用或不使用xGPN的改善短动作。对于THUMOS来说,因为大部分动作都很短,所以整体性能也有提升TAL-Net [8]53.248.542.833.820.8-P-GCN [44]63.657.849.1---[第46话]53.950.745.438.028.549.1[26]第二十六话53.946.837.429.521.3-BSN [20]53.545.036.928.420.0-[18]第十八话57.849.439.830.221.7-BMN [19]56.047.438.829.720.5-TSI [25]61.052.142.633.222.4-G-TAD [42]54.547.640.230.823.444.2BC-GNN57.149.140.431.223.1-[23]第二十三话54.849.242.333.123.043.6VSGN(我们66.760.452.441.030.456.6BSN [20]46.4529.968.0230.0315.0BMN [19]50.0734.788.2933.8515.2G-TAD [42]50.3634.609.0234.0917.5TSI [25]51.1835.026.5934.15-BC-GNN50.5634.759.3734.26-[23]第二十三话51.4134.358.6633.9018.0VSGN(我们的)52.3836.018.3735.0719.913665表5. 剪辑O和剪辑U的互补属性(ActivityNet-v1.3)。组合来自两个剪辑的预测会比使用其中任何一个产生更高的性能。的预测0.50.750.95 Avg.短剪辑O52.26 36.03 7.98 34.9619.3剪辑U51.80 34.79 8.68 34.3219.3剪辑O +剪辑U52.38 36.01 8.37 35.0719.9关于VSS对于ActivityNet,VSS牺牲了长动作,因为它减少了对更短训练样本的长动作的偏见。我们设计xGPN来减轻这种影响。跨尺度图金字塔网络(xGPN)。从表3和表4可以看出,xGPN明显提高了短动作的性能以及整体性能。一方面,xGPN在多级特征中利用长程另一方面,xGPN在与VSS一起使用时能够利用跨尺度相关性,从而进一步增强短动作。剪辑O和剪辑U。在表5中,我们比较了仅从剪辑O、仅从剪辑U以及从具有相同的良好训练的VSGN模型的两者我们可以看到,这两个剪辑仍然导致不同的性能,即使在他们的功能是aggre- gated整个网络。剪辑0在较低的tIoU阈值处更好组合两个预测可以利用两个剪辑的互补属性,并且比使用它们中的任何一个产生更高的性能。4.4. xGPN的观察结果在表6中,我们将VSGN与仅在某些编码器级别使用xGN模块的模型进行当我们只在一个级别中使用xGN时,在中间级别中使用它可以实现最佳性能。我们的VSGN对所有编码器级别使用xGN,从而实现最佳性能。在表7中,我们表6. xGPN中的xGN级别(ActivityNet-v1.3)。我们示出了在不同的tIoU阈值下的mAP(%)、平均mAP以及当在不同的xGPN编码器级别下使用xGN时针对短动作(小于30秒)的mAP。的列中的水平✓使用xGN,空白列中的使用Conv1d(3,2)层代替。xGN水平tIoU阈值Avg.最大平均接入点(%)1234 50.50.750.95Avg.短✓✓✓✓✓✓ ✓ ✓ ✓ ✓51.2251.9251.6151.1051.1052.3834.1434.4534.9434.8334.6836.018.228.899.268.908.508.3733.8234.1734.4634.1934.0335.0719.519.619.219.319.019.9表7. 每个xGN模块的边类型(ActivityNet-v1.3)。我们示出了在不同tIoU阈值0.5、0.75、0.95处的mAP(%)、平均mAP以及当在xGN中使用不同类型的边缘时针对短动作(小于30秒)的 mAP边缘类型0.50.750.95 Avg.短无钾51.59 35.23 7.77 34.4819.0K交叉标度52.33 35.79 7.91 34.7519.7K/2自由+K/2跨尺度52.38 36.01 8.37 35.0719.9表8. ActivityNet验证集的推断时间。*我们使用相同的预提取特征重新实现在VSS中的GNN,并且在xGPN中具有与G-TAD中的GNN类似的成本。此外,它使用较少的锚点(1240 vs4950),并且没有ROIAlign阶段,因此它比G-TAD运行得更快。5. 结论本文针对时间动作定位中动作尺度变化大的问题,提出了一种基于时间尺度的动作定位方法比较在xGN中使用不同边缘类型的mAP我们提出的VSGN使用顶部的K/2边缘作为自由边缘,然后从其余部分中选择K/2跨尺度边缘如果我们只使用K个自由边或K个跨尺度边,则性能下降K交叉尺度边缘优于K自由边缘,示出了使用跨尺度边缘的有效性4.5. 计算复杂度我们在表8中比较了1080ti GPU上ActivityNet验证集上不同方法的推理时间。与PBRNet等端到端框架相比,BMN、G-SVM和VSGN等使用预提取特征的方法可以重用提取的特征用于其他任务,并且这些方法在TAL架构中没有引入复杂的3D卷积,因此具有明显更低的推理时间。我们的VSGN的计算能力可以忽略不计-方法PBRNetPBRNetBMN G-TAD VSGN时间(秒)160012812018315813666(TAL)问题,我们针对短动作,并提出了一个多层次的跨尺度的解决方案,称为视频自缝合图网络(VSGN)。它包含一个视频自拼接(VSS)组件,生成一个更大规模的剪辑和缝合它与原始规模的剪辑,以利用不同规模的互补性。它具有跨尺度图金字塔网络(xGPN),以聚合来自不同尺度以及相同尺度的特征。这是第一项针对TAL中短动作问题的工作,并且在短动作性能以及整体性能上取得了显着的改善。致 谢 。 这 项 工 作 得 到 了 阿 卜 杜 拉 国 王 科 技 大 学( KAUST ) 赞 助 研 究 办 公 室 通 过 视 觉 计 算 中 心(VCC)的资助。13667引用[1] Humam Alwassel,Silvio Giancola,and Bernard Ghanem.Tsp:视频编码器的时间敏感预训练,用于定位任务。arXiv预印本arXiv:2011.11479,2020。1[2] 白悦然,王莹莹,童云海,杨洋,刘启月,刘俊辉。边界内容图神经网络用于临时动作建议生成。在欧洲计算机视觉会议(ECCV)的论文集,第121-137页一二三六七[3] Yancheng Bai , Yongqiang Zhang , Mingli Ding , andBernard Ghanem.Sod-mtgan:通过多任务生成对抗网络进行小目标检测。在欧洲计算机视觉会议(ECCV)的会议记录中,第206- 221页,2018年。2[4] Alexey Bochkovskiy、Chie
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功