没有合适的资源?快使用搜索试试~ 我知道了~
13516为时间动作本地化丰富局部和全局上下文子欣朱1魏唐2王乐1*南宁郑1刚华31西安交通大学人工智能与机器人研究所2伊利诺伊大学芝加哥分校3Wormpex AI研究摘要有效地解决时间动作局部化(TAL)的问题需要共同追求两个混淆目标的视觉表示,即,用于时间定位的细粒度我们要解决这个问题-板球保龄球开始时间结束时间(a) 片段级本地上下文时间(秒)时间(秒)通过在流行的两阶段时间本地化框架中丰富本地和全局上下文,其中首先生成动作建议,然后是动作分类和 时 间 边 界 回 归 。我 们 提 出 的 模 型 被 称 为ContextLoc,可以分为三个子网络:L-Net、G-Net和P-Net。L-Net通过片段级特征的细粒度建模丰富了本地上下文,这被公式化为查询和检索过程。G-Net通过更高级别的模型丰富了全球背景跳远提案提案背景缺失部分全球背景跳高提案缺少部分背景提案全球背景(b) 视频级全局上下文分类跳远或跳高?按 提 案 分 类 : 困难按提案+全球背景分类:简单视频级表示的执行。此外,我们引入了一个新的上下文自适应模块,以适应不同的建议的全球背景。P-Net进一步对上下文感知的提议间关系进行建模。在我们的实验中,我们探索了两个在THUMOS 14(tIoU@0.5时 为 54.3% ) 和 Activ- ityNet v1.3 ( tIoU@0.5 时 为56.01%)数据集上的实验结果验证了我们提出的方法的 有 效 性 , 这 超 过 了 最 新 的 技 术 水 平 代 码 可 从https://github.com/buxiangzhiren/ContextLoc网站。1. 介绍时间动作定位(TAL)是视频理解中的一项基本它的目的是在一个未修剪的视频分类动作的立场,并定位其时间边界。最近,TAL由于其广泛的应用(如动作检索,视频摘要和智能安全)而引起了研究界越来越多的关注[32,41,31,18]。现有TAL方法可分为两类。单阶段方法[14,47,2,30]分类和定位-*通讯作者。图1.(a)每项提案都包括若干视频片段。片段是少量的连续帧,并且用作特征提取的基本单元。捕捉动作的开始和结束时间的片段在动作本地化中起着重要作用。(b)视频级全局上下文是重要的,因为它涉及背景和高级活动信息,这些信息对于区分相似外观和运动模式的动作类别可能是关键的。在单个镜头中从输入视频中选择动作实例。两阶段方法首先生成类别不可知的动作建议[20,21,10,25,11,50,1],然后为每个建议执行动作分类和时间边界细化[48,43,45,4,7]。它们有各自的优点。单阶段方法可以很容易地以端到端的方式进行训练,而两阶段方法通常可以获得更好的性能。有效地处理TAL的任务需要共同追求两个混淆目标的视觉表示,即,用于时间局部化的细粒度鉴别和用于动作分类的充分视觉不变性。本文解决了这一挑战,利用丰富的本地和全球背景下的视频,在我们提出的两个阶段的方法。片段片段当地情况片段提案边界回归本地上下文13517本地上下文指的是提案中的片段。它们包含对定位至关重要的细粒度时间信息如图1(a)所示,我们通过投球和抓住板球的时刻来定位动作因此,正是捕捉这些特殊时刻的片段促进了时间域中的定位然而,现有方法通过将时间最大池化应用于其中的片段的特征来获得提案的特征,这不可避免地丢弃了细粒度的时间信息。全局上下文是指整个视频。它提供了一个动作分类的建议的功能互补的歧视性信息如图1(b)所示,为了区分“跳远”和“跳高”,我们不仅需要检查动作持续时间的最后几帧,而且需要检查持续时间之外的背景帧。此外,全局上下文提供高级活动信息,对应该出现在其中的活动类别强制执行强优先级。例如,不太可能在家庭活动的视频中看到体育动作。不幸的是,现有的TAL模型在很大程度上忽略了视频级全局上下文。我们引入了一种新的网络架构,称为上下文位置,模拟本地和全球的情况下,在一个统一的框架TAL。它由三个子网组成:L-Net、G-Net和P-Net。受自我注意力[40]的启发,L-Net执行查询和检索过程。但与自我注意不同的是,我们的L-Net中的查询,键和值对应于不同的语义实体,它们是专门设计来丰富本地上下文。具体地,将提案的特征向量作为查询以匹配该提案内的片段的关键特征向量,使得可以检索本地上下文中的相关细粒度值并将其聚合到该提案。G-Net通过整合每个提案的视频级表示和特征来模拟全球环境。然而,这两个的朴素级联将是不够的,因为前者不仅包含相关线索,而且包含不相关的噪声。此外,增强不同提案所需的背景部分也不同。为了有效地整合视频级信息与建议级功能,我们提出了全球范围内的适应。它出席的视频级表示,以本地的情况下,在每个建议,使全球范围内分别适应他们P-Net对上下文感知的提议间关系进行建模。这包括由本地上下文增强的提议级特征之间的交互以及适应不同提议的全局上下文之间的交互。我们使用现有的模型作为P-Net并调查两个候选者:P-GCN [48]和非本地网络[44]。值得注意的是,我们的ContextLoc不同于P-GCN[48]。P-GCN只考虑提案之间的关系,并且通过将时间最大池化应用于其中的片段的特征来获得提议的特征。相比之下,ContextLoc经由片段级特征的细粒度建模来丰富局部上下文,并且经由视频级表示的更高级建模来丰富全局上下文。我们认为P-GCN或其相对作为一个有用的组成部分,我们的框架,即,P-Net,并表明,本地和全球的背景下,我们提倡的是互补的建议间的关系。我们评估我们提出的方法对两个流行的基准标记TAL。在THUMOS14 [16]上,它达到了54。在tIoU 0.5时,3%mAP,其优于先前的最佳方法PBRNet [23]。在ActivityNet v1.3 [13]上,它达到了56。在tIoU 0.5下 , 其 具 有 01% 的 mAP , 其 优 于 最 先 进 的 方 法PBRNet。本文的贡献概述如下。• 据我们所知,这是第一个尝试利用片段级局部上下文和视频级全局上下文来增强两阶段TAL框架内的提议级• 我们介绍了一种新的网络架构,称为ContextLoc,由三个子网络,即,L-Net、G-Net和P-Net。 L-Net是同类中第一个使用提案来查询其中的片段并检索本地上下文以用细粒度的时间信息来补充它的网络。G-Net通过集成视频级表示来增强每个提案的功能。我们引入了一种新的上下文自适应过程,以适应不同的建议的全球背景。虽然P-Net是建立在现有的网络,我们表明,P-Net,无论其实例化,是我们的L-Net和G-Net的补充。我们的ContextLoc统一了这三个子网络各自的优势,实现了更有效的TAL。• ContextLoc在两个流行的TAL基准上优于或可与最 先 进 的 性 能 相 媲 美 , 即 THUMOS14 和ActivityNet v1.3。2. 相关工作动作识别。动作识别[38,39,42,36,9,15,3]是视频理解中的一项基本任务,在过去几年中得到了广泛的研究。在本文中,我们使用在Kinet-ics [17]上预训练的I3 D网络[3]从视频中提取片段级特征。我们使用两个流的策略,如Simonyan等人。[36]融合对RGB帧和光流的预测有几种方法可以探索动作识别的全局上下文。He等人[12]在局部空间-时间特征图上应用时间卷积来对13518j=1关于我们…全球适应…全局全局自适应上下文…G-net查询当地情况…查询和检索…新提案功能输入未修剪视频扩展提案L-Net全局最大池本地最大池级联按元素相乘图2.我们的ContextLoc的管道输入是由非重叠片段组成的未修剪视频从片段、提案和视频中提取多级特征L-Net、G-Net和P-Net分别通过局部上下文、全局上下文和上下文感知的提议间关系来增强每个提议的表示最后,我们通过全连接层对每个提案进行动作分类和时间边界细化。ContextLoc处理原始建议和扩展建议,并融合它们的预测。全局时空关系Liu等[24]通过随时间融合局部运动特征来建立全局时间模板。与他们不同的是,我们的全球背景下,通过聚合的提议级和片段级的功能,它的动作分类和时间边界本地化,以适应每一个建议。时间动作定位。TAL是时间域中基于图像的对象检测的镜像问题[6,33一些方法[27,29,28,26,49]通过关注视频片段(片段)来解决这个任务例如,Zhaoet al. [51]通过结构化的时间金字塔对每个动作实例的时间结构进行建模。Shou等人[35]通过三个基于段的3D ConvNets利用深度网络在时间动作定位中Xu等[46]进一步考虑图卷积网络的时间和语义其他一些作品侧重于提案。Lin等[21]以高概率定位时间边界,然后直接将这些边界组合成建议,并评估建议是否包含动作。Chen等人[5]选择更可靠的提案,并随后在后处理期间通过方差投票来细化提案边界。与这些先前的TAL方法不同,我们用片段级局部上下文和视频级全局上下文来细化提案级特征,而这些片段级局部上下文和视频级全局上下文被忽略。我们的ContextLoc与最近的基于图的方法不同:[46]第四十六章. G-TAD应用图卷积网络(GCN)来更新片段的特征,每个片段被认为是片段图中的节点,并且 将 TAL 转 换 为 子 图 定 位 问 题 。 相 比 之 下 ,ContextLoc通过丰富-使用局部片段级上下文和全局视频级上下文,然后将其用于动作分类和时间边界细化。视频中的上下文。时间上下文信息对于视频理解很重要,并且已经在各种任务中被利用,例如视觉关系检测[22],问答[8]和表示学习[32]。具体而言,Liuet al.[22]提出了一种新的滑动窗口方案,以同时预测短期和长期关系。Qiu等[32]通过卷积神经网络对这两种表示之间的扩散进行建模,从而更新局部和全局特征。不同于以往的工作,我们的本地和全球背景的探索对于建议,代码段是本地的,而建议是全局的。对于视频,提案是本地的,而视频是全局的。前者用L-Net建模,后者用G-Net建模。此外,在我们提出的模型中,局部和全局上下文通过P-Net相互作用。3. ContextLoc模型3.1. 概述问题陈述。ContextLoc的输入是一个由N个不重叠片段组成的未经修剪的视频每个片段是少量的连续帧。我们使用I3D网络[3]从每个片段中提取特征,并将所有片段级特征的集合表示为xj研发N ,其中Xj是第j个片段的特征,并且D是特征维度。遵循双流策略[36],对RGB帧和opti帧G-net视频功能建议书特点…L-Net…合并建议书功能片段功能………L-NetG-netP-Net 2P-Net 1FC层FC层边界回归动作分类13519{|}∈∈{|}我12K我LΣi,j2y=σ(W yi+Σ∈∈CAL流被融合。 输出是一组动作实例ψ i ψ i=(ti,s,ti,e,ci),其中ti,s,ti,e和ci分别是第i个实例的开始时间、结束时间和动作类别。多层次表达。如图2所示,ContextLoc显式地对三个不同的查询和关键字之间的注意力映射,然后基于注意力权重聚集值。注意地图。提议i和片段j之间的注意力权重S(i)测量它们的相关性,并确定将从该片段检索多少信息。它被计算为等级:片段级表示x∈RD(局部上下文)、提议级表示yRD和视频-Di,j=Σσ(s(yi,xj))σ(s(yi,xk))、(1)水平表示z∈R(全球背景)。 提议-k∈S(i)als由BSN [21]获得,并且每个提议i具有开始时间和结束时间。第i个建议的初始特征(表示为yi)是经由在其持续时间XjjS(i)内对片段级特征进行时间最大池化来获得的,其中S(i)表示其持续时间为事件的开始时间和结束时间之间提议类似地,通过在时间上最大池化视频中的所有片段级特征来获得表示为z的初始视频级特征网络架构。ContextLoc由三个子网络组成:L-Net、G-Net和P-Net。它们分别通过局部对比增强了每个建议的代表性。其中σ是ReLU函数,s是两个向量之间的余弦相似性ReLU函数将负相似值设置为0。因此,在检索过程中将忽略那些不相关的片段。归一化确保所有片段的注意力权重总和为1。本地上下文聚合。 我们首先通过全连接层变换每个片段的特征来计算值,然后通过注意力权重线性组合它们。该局部背景最终与提案的变换特征聚合,以获得该提案的新表示:文本、全局上下文和上下文感知提议间关系。根据以前的工作[34,48,21,19],我们还将ContextLoc应用于每个具有en的扩展提案L LI1j∈S(i)aLWLxj),(2)大的持续时间。原始建议的最终表示用于动作分类(通过一个完全连接的层),而扩展的建议用于完整性预测和时间边界细化。将这些分类和完整性得分逐元素相乘以进行最终的分类预测。下面我们分别在3.2、3.3和3.4节介绍L-Net、G-Net和P-Net我们处理扩展建议的方式与以前的方法有很大的不同。我们将在3.5节中详细说明。3.2. L-Net(Local Context)通过时间最大池化获得的提案的初始特征是不足的,因为丢失了对本地化至关重要的细粒度时间信息。L-Net通过在提案中找到与提案最相关的片段并将其聚合以保留信息特征来解决这个问题。我们称这些片段为本地上下文,因为它们的时间范围在提案内,并且它们处于较低的语义级别。受自我注意力[40]的启发,L-Net执行查询和检索过程。查询、键和值分别是每个提议的特征、每个提议的特征和每个提议的特征。其中yLRD/2是一种新的提议级表示法携带细粒度的时间信息,σ是ReLU函数,并且WL,WLR(D/2)×D是可训练权重。在实践中,我们发现将从所有片段中汇集的特征视为特殊片段并将其包含在S(i)中可以略微提高性能。3.3. G-Net(全球背景)视频级全局上下文是重要的,因为它涉及背景和高级活动信息,这些信息对于区分相似外观和运动模式的动作类别可能是关键的。丰富全局上下文的一种简单方法是连接视频级表示z和每个建议的特征。然而,这是不够的,因为全局表示不仅包含相关的上下文,而且还包含不相关的噪声。此外,处理不同提案所需的背景是不同的。这一分析思路促使我们在整合每一项提案之前,根据全球背景调整其内容。适应全球环境 为了使全局上下文适应第i个提议,我们首先将视频级表示z涉及到该提议yi的特征以及其中的片段级特征{xj:j ∈ S(i)}:每个方案中的代码段,以及Gσ(s(z,x,j))(三)这些片段 具体来说,匹配一个查询提议本提案中的关键片段,以便相关ai,j=Σ、σ(s(z,x))+σ(s(z,y))可以检索本地上下文中的细粒度值bG=σ(s(z,yi)),(4)汇总到这个提案。这是通过建立一个我k∈S(i)σ(s(z,xk))+σ(s(z,yi))一k∈S(i)13520i、j我我我我我--我我12i、j我我我我其中,G是视频级和视频级之间的注意力权重ContextLoc原始提案处在视频级表示与第i个建议的第j个片段之间的注意力权重中,bG是视频级表示与第i个建议之间的注意力权重。利用注意力权重,通过以下公式计算经调整的全局上下文:zG=σ(WGz+WG(ΣaGxj+bGyi)),(5)j∈S(i)延伸区域原提案延伸区域其中zG∈RD/2是适应于第i我G G(D/2)×D基线建议,W1,W2∈R是可训练的重量。原始提案处全局上下文聚合。最后,G-Net协调了适用于第i个建议的全球环境,即: zG∈RD/2,并且从下式获得该建议的特征:L-Net,即, yL∈ RD/2:扩展提案分支(Dim:D)(尺寸:D)yG=yLzG,(6)其中表示级联,yG∈RD是输出第i个提案的G-Net。3.4. P-Net(提案间关系)P-Net将yG作为输入,并为每个建议输出一个新的表示。我们使用现有的模型作为P-Net并调查两个候选者:P-GCN [48]和非本地网络[44]。P-GCN构造一个行动建议图。每个提议被视为一个节点。存在两种类型的关系边。一个连接重叠的建议,另一个连接不同但相邻的建议。然后,一个GCN是applied更新的建议级功能的基础上,他们的关系。与P-GCN不同,非局部网络在所有提议上构建完整的图,并基于它们的成对相似性动态地计算边权重我们将对它们作为ContextLoc中的构建块的有效性进行深入调查。由于每个yG是两个部分的级联,如等式(1)中所示。(6),P-Net模型不仅是由局部上下文增强的提议级特征之间的交互,而且是适应于不同提议的全局上下文之间的交互我们将在实验中表明,后者有助于提高TAL的性能。请注意,我们不要求我们在P-Net中采用的任何特定网络架构作为我们的贡献。我们想展示的是,P-Net,regardless其实例化,是我们在本文中倡导的本地和全球背景的补充,并作为一个有用的组件,在拟议的ContextLoc。3.5. 扩展提案TAL [34,48,21,19]中的常见做法是在两端扩展每个建议(例如,时间持续时间的50%)。如3.1节所述,将从这些扩展建议和原始建议中获得的预测进行融合。像P-GCN的现有方法处理扩展的图3.处理扩展建议书的不同方法为了更好地突出原始和扩展的建议,我们不包括其他实体(例如,视频和视频),在这张照片中。底部:以前的方法将扩展的建议视为单个建议,并在单独的分支中处理它上图:我们的新方法将扩展提案视为L-Net和G-Net中的三个提案。P-Net,即“P-Net 2”, treats anextended proposal as a独立于原始提案的单个提案。正如我们将在实验中展示的那样,这种策略对于L-Net和G-Net并不适用。一方面,设置的扩展建议的特征维度远大于原来的建议可以占扩大的持续时间,但显着增加了模型的复杂性。另一方面,将扩展提案的特征维度设置为与原始提案的特征维度相同会导致较差的性能。此外,扩展建议书和原始建议书是分开处理的。它们内部连接(即,原始提议是扩展提议的一部分)被忽略。为了解决这个问题,我们将扩展的建议视为L-Net和G-Net中的三个建议,即,原始提议和两侧的扩展区域。每个扩展区域的持续时间是原方案的50%。如图3所示,L-Net和G-Net分别处理这三个提议,但使用共享权重。然后,我们连接它们的新表示。最后,P-Net,即“P-Net 2” in Figure 注意对原件(Dim(D)扩展提案分支(Dim(D)(Dim:D)(尺寸:P-Net 1扩展建议书功能原始提案特征扩展区域特征权重共享P-Net 2P-Net 1级联P-Net 2G-netG-netG-netG-Net 1L-NetG-Net 2L-NetL-NetL-Net 1L-Net 2(Dim:(Dim:13521----L-Net和G-Net中的提案现在是扩展提案处理的一部分这不仅减少了模型的规模和计算的复杂性,但也反映了原建议和扩展之间的联系4. 实验数据集。THUMOS14 [16]数据集包含大量真实环境中人类行为的开源视频。它包括四个部分:训练集、验证集、背景集和测试集。训练集基于UCF-101数据集[37],视频经过编辑(每个视频通常包含一个实例)。对于剩余的三个部分(验证、背景和测试集),视频是未修剪的。遵循THUMOS14中的常见设置,我们应用验证集中的200个视频进行训练,并对测试集中的213个带注释的视频进行评估ActivityNet v1.3[13]是目前最大的视频动作分析数据集,包括20,000个Youtube视频和200个动作类别。训练集包含大约10,000个视频。验证集和测试集都包含大约5,000个视频。平均来说,每个视频有1.5个动作实例。按照标准实践,我们在训练视频上训练我们的方法,并在验证视频上测试它。评价指标。我们使用不同tIoU阈值下的平均精度(mAP)值来评估ContextLoc的性能。在THUMOS 14上,从0.3、0.4、0.5、0.6、0.7中选择tIoU在Activi-tyNet v1.3上,tIoU阈值为0.5、0.75、0.95,我们还报告了tIoU阈值在0.5和0.95之间的平均mAP,步长为0.05。实作详细数据。我们将每个输入视频分成64帧片段,并通过I3D网络[3]获得片段级特征(1024维特征向量)我们使用PyTorch实现了ContextLoc。它在三个NVIDIA GeForce GTX TITAN XP GPU上进行了训练,批量大小为32。采用随机梯度下降(SGD)求解器进行优化。在THUMOS14上,初始学习速率为0.01,并且在15个时期之后除以10。在ActivityNet v1.3上,前15个时期的初始学习率为0.01用于计算mAP的最终得分通过将动作分类和完整性预测的得分相乘来获得。以5:6的比例融合来自RGB和光流的预测非最大抑制(NMS)删除重复的行动建议并获得最终预测建议。除非另有说明,否则P-GCN被视为P-Net。损失函数。用交叉熵损失训练原始方案的动作分类,用铰链损失训练完整性预测,用平滑L1损失训练边界回归。方法RGB流融合tIoU@0.5P-Net(非本地)[44]32.1635.1339.7645.81+L-Net34.4838.1342.6450.46+G-Net34.3136.9741.3347.74+L-Net + G-Net35.7740.0744.0351.00P-Net(P-GCN [48])34.9339.2642.4349.10+L-Net36.4040.4845.1253.17+G-Net36.1540.4243.5150.11+L-Net + G-Net37.2342.5245.7054.30表1. L-Net和G-Net有效性的消融研究。P-Net被视为强基线。报告了tIoU阈值从0.1到0.9的平均mAP(%)和tIoU@0.5在THUMOS14测试装置上。适应。中间截留RGB流融合类别%34.9839.4542.2776.2✓37.1540.6244.1477.835.2641.0543.2376.8✓37.2342.5245.7078.5✓✓表2.对G-Net中全局上下文自适应的个体和组合效应的消融研究(表示为“Adapt”)。和适应全球背景之间的相互作用实现的P-Net(表示为tIoU阈值的平均mAP(%)从0.1到0.9,动作分类准确度(分类%)为在THUMOS 14测试集上报告。4.1. 消融研究为了探索每个组件在受控设置下的有效性,我们在每个消融实验中移除或改变ContextLoc的相应部分,同时保持其他部分(未提及)相同。所有结果均在THUMOS14上报告。ContextLoc子网。由于先前的工作已经证明,建模建议间的关系有助于TAL,我们把P-Net作为一个强大的基线,以验证L-Net(本地上下文)和G-Net(全球上下文)的有效性,这是本文的主要贡献。我们考虑P-Net的两个实例,即P-GCN和非本地网络。结果示于表1中。当非本地网络被视为P-Net时,在其之前单独添加L-Net平均提高了2.88%的mAP和4.65%的tIoU 0.5。在P-Net之前单独添加G-Net,平均mAP提高1.57%,tIoU提高1.93%0.5.我们的完全ContextLoc(L-Net+G-Net+P-Net)进一步提高了性能。当P-GCN作为P-Net时,在其改进2之前单独添加L-Net。69%平均mAP和4. 07%在tIoU0.5. 在P-Net之前单独添加G-Net可提高1。08%在平均mAP和1. 01%在tIoU 0.5。完整的ContextLoc(L-Net+G-Net+P-Net)进一步提高了性能。比较通过不同方法13522即,{z}。我--方法Dim.融合tIoU@0.5#参数Flops基线102440.0445.876.5M3.6G基线307244.5752.6825.6M16.2G我们307245.7054.306.7M3.1G表3.对处理扩展建议书的不同方法的消融研究(如图3所示)。“暗淡。”表示扩展建议的特征的维度。平均地图tIoU阈值从0.1到0.9的百分比(%)和tIoU@0.5的mAP在THUMOS14测试集上报告。方法Dim.融合tIoU@0.5#参数FlopsP-GCN102442.4349.104.6M1.7G深P-GCN102442.2048.766.4M2.6G更深的P-GCN102442.0348.868.8M3.3GContextLoc102445.7054.306.7M3.1GContextLoc51244.2752.323.4M1.6G让全局上下文聚合在提议级特征通过P-Net之后发生具体来说,我们首先发送从L-Net获得的提议级特征,即,yL到P-Net,然后将每个建议的新表示与它们对应的适应的全局上下文连接,G我结果示于表2中。我们可以看到,全局上下文适应和适应的全局上下文之间的交互都提高了性能。前者比流动流更有利于RGB流,而后者在流动流中起更重要的作用。它们共同帮助ContextLoc实现最佳性能。扩展提案。先前的方法将扩展的提议作为单个提议来处理。相反,我们将其作为L-Net和G-Net中的三个建议进行处理,并在P-Net中处理更新特征的级联。结果示表4.模型大小和复杂性的比较。Deep P-GCN和Deeper P-GCN分别添加了一个和两个图con-i。层到P-GCN。 表示建议的特征的尺寸,即,D.平均mAP(%)在0.1至0.9的tIoU阈值结果报告在THUMOS14测试集。方法类别%tIoU%P-Net(P-GCN)74.378.2+ L-Net75.981.4+ G-Net77.479.1+ L-Net + G-Net78.582.0表5.消融分型定位研究。动作分类准确度(类别%)和tIoUw.r.t. 在 THUMOS14 测 试 集 上 报 告 了 回 归 后 的 真 实 数 据(tIoU%)。在P-Net的实例化中,我们可以观察到P-GCN胜过非本地网络,而不管P-Net是单独工作还是与其他子网络集成。原因是非本地网络不是专门为TAL设计因此,在所有其他实验中,我们将使用P-GCN作为P-Net。从这个实验中可以得出几个结论。(1)通过L-Net建模的局部上下文或通过G-Net建模的全局上下文都有利于TAL。(2)地方语境、全球语境和建议间关系是互补的。我们的ContextLoc结合了它们的 优 势 , 实 现 了 最 佳 性 能 。 (3)L-Net 、 G-Net 和ContextLoc的有效性不依赖于P-Net的任何他们在强基线上持续改进性能。全局上下文适应在适应的全局上下文之间的交互。本消融研究调查的个人和组合的全球背景适应G-网和适应的全球背景之间的相互作用实现的P-网。为了使后者失效,我们表3所当基线方法中的扩展建议的特征维度与原始建议的特征维度相同时,即,1024,其性能比我们的新方法差得多当基线方法中的扩展建议的特征维度远大于原始建议的特征维度时,即,3072,它的性能变得更好(有更多的参数和触发器),但仍然不如我们。模型大小复杂性。我们的ContextLoc的模型大小和计算复杂度分别为6.7M和3.1G触发器。相比之下,P-GCN具有4.6M参数和1.7G触发器。这是预期的,因为Context-Loc包括P-Net作为构建组件。为了进行公平的比较,我们通过分别向P-GCN添加一个和两个图卷积层来构建深度P-GCN和更深的P-GCN。表4表明,单纯地增加模型复杂度和网络深度并不能提高性能。这进一步证明,我们所倡导的地方和全球背景是对提案间关系的补充。我们还通过将特征尺寸减半来对ContextLoc的轻型版本进行实验。它的参数(3.4M对4.6M)和触发器(1.6G对 1.7G) 比 P-GCN 少 ,性 能 比P-GCN 高 3。tIoU@0.5时为22%。这再次验证了我们的ContextLoc的有效性不是由更大的模型大小或更多的触发器引起的。具体分析。 表5报告了高质量提案的分类和本地化准确性,其tIoUw.r.t. 地 面 真 值 大 于 0.7 。 结 果 表 明 , L-Net 对 定 位(tIoU%)的贡献更大,G-Net对分类的贡献更大,其功能与预期一致。4.2. 与最新方法的THUMOS 14. 如表6中所总结的,我们的Context-Loc在THU-MOS 14测试集上优于所有比较的方法。在tIoU 0.5时,ContextLoc比先前最好的方法PBRNet [23]好3倍。0%绝对杂质13523时间(秒)地面实况81.25s铅球87.34sContextLoc(我们的)81.55秒铅球86.02秒P-GCN79.49秒铅球84.58秒地面实况119.39s烤饼干131.73sContextLoc(我们的)118.95s烤饼干134.82sP-GCN126.85s烘焙饼干135.19s(a) 来自THUMOS 14测试集(顶部)的示例和来自ActivityNet v1.3验证集(底部)的示例的定性结果表明,我们的ContextLoc比P-GCN更准确地定位时间边界。地面实况69.11s跳高78.41s时间(秒)ContextLoc(Ours)71.04s跳高78.31sP-GCN65.48秒跳远75.56秒地面实况18.00s扳手腕60.94s表6. THUMOS14测试集的结果。报告了不同tIoU阈值下的mAP(%粗体表示最佳性能。方法0.5 0.750.95平均R-C3D [45]26.80---TAL-Net [4]三十八点二十三分十八点三十分1.3020.22SSN [51]43.26 28.705.6328.28BSN [21]46.45 29.968.0230.03BMN [20]50.07 34.788.2933.85G-TAD [46]50.36 34.609.0234.09Zhao等人[50个]33.919.2130.12PBRNet [23]53.96 34.978.9835.01P-GCN [48]42.90 28.142.4726.99ContextLoc(我们的)51.24 31.402.8330.59P-GCN*[48]48.26 33.163.2731.11ContextLoc*(我们的)56.01 35.193.5534.23表7. ActivityNet v1.3验证集的结果。报告了不同tIoU阈值下的mAP(%)和0.5至0.95的IoU阈值的平均mAP。符号(*)表示我们─执行外部视频级类预测。粗体表示最佳性能。证明这证明了为TAL丰富当地和全球背景的好处ActivityNet v1.3. ActivityNet v1.3 的 结 果 如 表 7 所示。Zeng等人[48]发现考虑到UntrimmedNet [43]预测的视频级类别有助于提高P-GCN的性能。我们也采用相同的策略来获得ContextLoc*。具体地,我们添加视频 级 表 示 z 的 分 支 以 预 测 视 频 级 类 别 。 有 关ContextLoc*的 更多详细信息,请参阅补充材料。在tIoU 0.5处,ContextLoc* 达到56的mAP。01%,即2。05%高于ContextLoc(我们的)9.61秒掰手腕58.95秒P-GCN42.37秒跪61。30 s(b) 来自THUMOS 14测试集(顶部)的示例和来自ActivityNet v1.3验证集(底部)的示例的定性结果表明,我们的ContextLoc正确地分类了P-GCN失败的动作实例。图4.来自地面实况、ContextLoc和P-GCN的结果分别使用蓝色、橙色和绿色条示出。当前最佳53. 96%由PBRNet实现[23]。在tIoU为0.75时,ContextLoc* 比先前最佳方法PBRNet的表现好0。百分之二十二在tIoU 0.95时,ContextLoc* 的性能不如先前的方法,并且仅略微优于P-GCN。在补充材料中,我们可视化了一些结果来解释这一差距。4.3. 定性结果为了验证时间边界位置和动作分类的有效性,我们分别在图4(a)和图4(b)中可视化定性结果与P-GCN相比,ContextLoc为这些示例预测了更精确的时间边界和分类。5. 结论本文介绍了一种新的网络架构,称为上下文位置,TAL。它在一个统一的框架中对本地上下文、全局上下文和上下文感知的提议间关系进行建模。受控设置下的消融实验表明ContextLoc的每个组件的有效性。两个数据集上的结果表明,ContextLoc优于最先进的TAL方法。谢谢。 这项工作是支持部分由国家重点研发计划资助2018AAA0101400,国家自然科学基金资助62088102,61976171,和61773312,以及CAST Grant 2018QNRC001的青年精英科学家赞助计划。方法0.30.40.50.60.7美国疾病控制与预防中心[34]40.129.423.313.17.9TCN [7]-33.325.615.99.0旋转攻丝[11]44.134.925.6--R-C3D [45]44.835.628.9--SS-TAD45.7-29.2-9.6SSN [51]51.941.029.8--BSN [21]53.545.036.928.420.0[25]第二十五话53.946.837.429.521.3BMN [20]56.047.438.829.720.5G-TAD [46]54.547.640.230.823.4TAL-Net [4]53.248.542.833.820.8Huang等人. [14个] 60.254.144.232.319.1Zhao等人[50个]53.950.745.438.028.5P-GCN [48]63.657.849.1--PBRNet [23]58.554.651.341.829.5ContextLoc(我们的)68.363.854.341.826.213524引用[1] 白悦然,王莹莹,童云海,杨洋,刘启月,刘俊辉。边界内 容图 神经 网络 用于 临时动 作建 议生 成。 参见ECCV,第121-137页[2] Shyamal Buch,Victor Escorcia,Bernard Ghanem,LiFeiFei,and Juan Carlos Niebles.端到端、单流、未修剪视频中的时间动作检测。在BMVC,2017年。[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页[4] 作者:赵玉伟,Sudheendra Vijayanarasimhan,BryanSey-bold , David A. Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR中,第1130-1139页[5] 陈云泽,陈梦娟,吴锐,朱家刚,朱正,顾青衣。使用时间动作定位中的不确定性的边界回归的精化。在BMVC,2020年。[6] Zhao-Min Chen,Xin Jin,Borui Zhao,Xiu-Shen Wei,and Yanwen Guo.用于基于区域的对象检测的层次上下文嵌入。在ECCV,第633-648页[7] 戴希阳,巴拉特·辛格,张古月,Larry S.戴维斯和严秋晨。 用于 视频 中活 动定 位的时 间上 下文 网络 。在ICCV,第5727-5736页[8] Chenyou Fan,Xiaofan Zhang,Shu Zhang,WenshengWang,Chi Zhang,and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。在CVPR中,第1999-2007、2019页[9] 维托里奥·加莱塞,卢西亚诺·法迪加,莱昂纳多·福加西,还有吉·阿科莫·里佐拉蒂.前运动皮层的动作识别Brain:A Journal of Neurology,119(Pt 2):593[10] Jiyang Gao,Ka
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功