无锚点时间动作定位模型的高效性与准确性

170 浏览量更新于2024-01-22 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3320学习显著边界特征的无锚点时间动作定位林楚明1，徐成明2，罗东浩1，王亚彪1，应泰1，王成杰1，李吉林1，黄飞跃1，付延伟21腾讯优图实验室2复旦大学{chuminglin，michaelluo，caseywang，yingtai，jasoncjwang，jerolinli，garyhuang}@ tencent.com{cmxu18，yanweifu}@ fudan.edu.cn摘要时间动作定位是视频理解中一项重要而又具有挑战性的任务。通常，这样的任务旨在推断动作类别以及长的未修剪视频中的每个动作实例的开始帧和结束帧的定位。虽然目前大多数型号视频解码器特征⋯动作：投掷虽然通过使用预定义的锚点和许多动作来实现良好的结果，但是这样的方法可能受到大量输出和对应于不同锚点的位置和大小的大量调整的困扰。附加分类器“扔”锚调整“throw”相反地，无锚方法更轻，摆脱“throw”冗余的超参数，但很少得到关注。在本文中，我们提出了第一个纯无锚不规则性无锚效标时间定位方法，这是高效和有效的。我们的模型包括（i）一个端到端可训练的基本预测器，（ii）一个基于显着性的细化模块，用于通过新的边界池为每个提议收集更有价值的边界特征，以及（iii）几个一致性约束，以确保我们的模型可以找到给定任意提议的准确边界。大量的实验表明，我们的方法击败了所有基于锚点和动作指导的方法，在THUMOS 14上具有显着的优势，实现了最先进的结果，并且在ActivityNet v1.3上具有可比性。代码可在https://github.com/www.example.com 上找到。1. 介绍近来，随着技术的进步，已经存储了数量急剧增加的视频并且可从各种日常活动访问。时间动作损失*表示平等捐款。这项工作是在Chengming Xu在腾讯优图实验室实习时完成的傅彦伟为通讯作者。图1.与动作化和主播化方法相比无锚方法更有效和灵活，产生更少的建议，而无需任何额外的分类器和预定义的锚。缩放（TAL）作为视频理解的一个基本方面，因此在现实生活中起着重要的作用，在诸如视频分析和摘要、人类交互等的若干实际应用中延伸。与以中等范围视频为输入、仅需要类标签作为预测的动作识别相比，TAL不仅要对每个视频中的每个动作实例进行分类，还要寻找它们的准确时间位置当前的TAL模型主要关注于学习每帧的动作性[20，18，17，26，27，24]或调整预定义的锚点[38，23，22]，命名为动作引导方法和基于锚点的方法，如图1所示。尽管在基准数据集上取得了相当好的结果，但这些方法仍然局限于以下几点：（1）这两种方法都会产生一堆冗余的建议。例如，给定一个T帧的视频，我们必须支持-分别为“交流引导”BSN [ 20 ]和“基于锚点的”R-C3 D[ 38 ]提出O（T2）和C·T建议这里C是预定义锚点的数量。这些问题导致在计算和分析中的计算成本过高，3321计算训练损失和后处理以用于测试。(2)精确度引导的方法只能提供时间边界的预测，而它们必须依赖于额外的模型，如S-CNN [33]和P-GCN [41]用于分类。启动时刻的背景悬崖跳水端弯矩的背景第然而，两个阶段的模型是孤立的，因此不能共享端到端更新的信息（3）通常，基于锚点的方法对一些关键的超参数非常敏感，例如预定义锚点的数量和大小;并且在现实世界的应用中调整这些超参数是非常重要的或者，一个有效的本地化方法是重新排序到无锚方法，它不需要预定义的锚。典型地，这种类型的方法仅以一对值的形式为每个时间位置生成一个建议，所述一对值分别表示开始时刻和结束时刻到当前位置之间的距离。与已有的方法相比，无锚模型节省了大量的预定义锚，同时将边界回归和分类集成在一个模型中，具有较高的生产率。此外，尽管一些试点研究，例如，，Yang et. [40]观察到无锚点方法的结果相对较弱，但对象检测[ 42 ]中的支持证据表明，具有精心设计的网络结构和训练策略的此类方法原则上应与基于锚点的方法相当。为此，在本文中，我们提出了一种新的纯无锚TAL框架称为无锚显着性检测器（AFSD）。从本质上讲，我们首先构建一个朴素的无锚预测器，包含一个端到端的可训练骨干网络，一个特征金字塔网络和一个简单的预测网络，输出动作类和每个位置的开始和结束的时间距离。为了学习更准确的边界，我们参考了以前的TAL方法[20，18]，指出了边界或上下文特征的重要性。这些工作主要是通过合并与卷积或均值池的开始和结束时刻的邻居来获得这样的特征。然而，我们认为事实上时刻级特征比区域级特征更有价值来区分动作是开始还是结束。如图2所示，开始时刻和结束时刻附近的背景区域显示的是其他不相关的场景，而动作内部的区域几乎相同，无法提供任何信息来判断动作是否开始或结束。这样的例子表明了力矩级特征的重要性。因此，我们提出了一种新的边界池，而不是聚合整个区域，试图找到最显着的时刻级功能的开始和结束区域。我们进一步配备了边界池与新提出的边界一致性学习（BCL）策略，以规范池操作，为每个动作提供正确的边界特征。详细地，我们采用指示开始和结束运动的修改的地面实况信号图2.悬崖跳水的动作实例。注意，动作的开始时刻和结束时刻比其他时刻更显著，这可以为我们判断动作的边界和完整性提供重要信息。引导模型。然后，我们重新安排的视频片段，以帮助模型区分背景和动作特征的自监督对比学习。我们在THUMOS 14和ActivityNet1.3上进行了大量的实验在THUMOS 14上，我们的模型相对于最先进的方法在mAP@0.5上获得了3.7%的改进。ActivityNet1.3上的结果也具有可比性。总之，我们的论文有以下贡献：1. 我们，第一次，提出了一个纯粹的锚无时间动作定位模型。该模型不仅具有更少的超参数调整和更少的输出处理，但也有更好的性能，从而使两个世界的最佳。2. 为了充分利用无锚框架，我们讨论了边界特征的影响，并提出了新的边界池方法，其输出与粗建议一起使用，以生成细粒度的预测。此外，我们引入了一种新的边界一致性学习策略，可以限制模型学习更好的边界特征。2. 相关工作效标定位效标定位模型依赖于调整预定义的锚。TURN [10]从基本视频单元聚合特征用于剪辑级特征，其用于对活动进行分类并回归时间边界。 R-C3 D需要来自Faster-RCNN的灵感[31]，它利用了一个流线型，包括提案生成，提案池化和最终预测。GTAN[23]修改了池化过程，通过可学习的高斯内核为每个提议采用加权平均值。由于固定的预定义锚点，当涉及到各种操作类时，这些方法并不灵活。与它们不同的是，我们的模型不需要调整额外的超参数锚，因此更有效。与基于锚点的方法不同，动作引导的方法主要关注评估，对视频中的每个帧或剪辑评估动作性随后被后处理以生成动作提议。Zhao et.设计的SSN [44]，其中课程pro-prints首先分为三个语义部分，学习3322m=1我我locCLSlocCLS我t=1分别接下来，预测活动和完整性的概率，并用于合并不同的建议。Lin et.等人提出了BSN [20]，它学习预测每个时间位置的开始，结束和动作。通过收集具有高开始和结束概率的位置来生成建议，其中低置信度的位置被评估模块进一步放弃。他们后来将这个框架改进为BMN [18]，它还生成了一个边界匹配置信度图，以帮助获得更好的建议。虽然动作引导方法不需要预定义的锚点，但这些方法注释X可以被描绘为元组{（φ m，y m）}MX，其中M X是X中的动作实例的数量，φ m=（φ m，y m）表示开始时间、结束时间，并且y m指示动作类别。我们的目标是训练一个模型来预测在测试集T检验上具有高召回率和精确率的类分数的建议。概述我们提出了一个纯粹的无锚体系结构命名为AFSD，如图3所示。具体地说，X，我们首先用骨干网络和特征金字塔网络对视频进行处理。以RGB帧为例，对于每个视频X，我们使用Kinetics预训练′ ′ ′ ′更像是枚举方法，其中所有可能的组合-国家的时间位置被认为是，因此，完全I3D [6]模型来提取3D特征F∈RT×C×H×W，′ ′ ′ ′其中T，C，H，W 表示时间步长、通道、高度与无锚定位不同，直接预测每个时间步长。与TAL类似，在对象检测中使用无锚方法的情况激增。YOLO [30]是最著名的无锚方法，其中神经网络模型直接用于从原始图像预测边界框的坐标。这样的框架过于简单，因而性能不佳。接下来的工作主要集中在通过设置不同的预测目标和使用更详细的特征来提高性能。CornerNet [16]让模型学习预测每个边界框的左上角和右下角关键点。FCOS [35]旨在了解每个空间位置到边界的距离，并利用不同尺度的对象的特征BorderDet [28]将RoI池修改为BorderAlign，以获得更强大的提议级功能。我们从这些方法中得到启发，设计了一个基本的无锚定位器，并充分利用视频的时间洞察力，提出了新的细化策略和一致性学习。对比学习在无监督学习中的应用越来越受到人们的关注与对比学习在图像理解中的应用[8，13]相比，对比学习在视频理解中的贡献较少。纪尧姆等al. [25]提出了一种动作识别的时间对比训练策略，和宽度。之后，该特征沿着最后三个维度被展平为1D特征序列。这样的序列可以包含整个视频的时间和空间信息。然后，我们施加一个特征金字塔网络，包括几个时间卷积，其中的细节显示在我们的补充，合并的空间维度和时间维度在不同的水平。的金字塔特征进一步用于利用基本无锚预测模块生成粗略建议序列{（pyramidi，pyramidi，y_C）}（第二节）。3.1），其中包括一个简单的重新-gressor和classifier。然后，对于每个建议，预测的3.2）。边界特征与特征pyra一起被利用mid输出细粒度预测{（i，i，yR）}用于时间回归和动作分类。3.1. 基本预测模块我们首先建立一个基本的无锚点预测模块，以获得粗略的时间边界。例如，对于第l层FPN的特征fl∈RTl×C，我们首先将其投影到嵌入在两个潜在空间中的特征fl和fl，这两个潜在空间分别对应于两个分支的定位和分类分别具有两个时间卷积。这两个特征fl和fl两者都利用在所有FPN层之间共享的一层时间卷积来处理，以得到粗略的开始和结束边界距离（ds，de）和类别在给定I i的情况下，使用SIVE模型来预测未来的视频段足够的信息，然后将预测与地面事实进行比较。Gonget. [12]采用了对比评分方法来评估无监督的行动建议每个位置i的得分为yi。然后我们就可以开始了第i级中第i个时间步长的时间如下：ψˆi=i∗2l−dˆs,推理阶段的时间定位。与这些工作相比，我们进一步尝试利用对比学习来帮助训练一个有监督的时间局部，我ξˆi=i∗2l+dˆe.（一）化模型，这是以前从未研究过的。3. 方法将视频数据集表示为T ={T train，T test}，每个数据实例{X，T}包含具有T个RGB帧或光流的视频X={x t}T。相应的总共为第1个FPN层生成T1个提议这一个简单的框架已经可以以无锚点的方式检测动作，其优点包括不需要预定义的锚点和更少但更准确的预测，如第2节所讨论的。1.一、在接下来的章节中，我们将重点讨论如何为无锚TAL方法设计合适的模块和训练策略，使其具有更好的性能。3323SSe图3.我们的方法概述。给定一个输入视频X，我们采用I3D模型来提取特征，并构建一维时间金字塔特征。然后，利用每个金字塔特征通过基本预测模块生成粗略的建议。最后，我们的基于显着性的细化模块将调整类分数，开始和结束边界，并预测每个粗略建议的相应质量分数。请注意，我们的模型是一种完全端到端的方法，并使用I3D特征提取网络进行训练，无需任何预处理。其中σ和GN表示ReLU和群归一化[37]。通过投影，该模型可以分别学习开始和结束敏感信号，从而为FPN特征留下更少的学习负载，以进行更好的训练。联系我们然后，给定粗略边界结果{（k，k）}k=1对应的第l个FPN级别的第k个开始和结束K K区域Ts，Te 被构造为：Σ ΣTk=ψˆk− 沃贝克δa，k+ 沃贝克、δbTk= Σξˆk−k，k+Σ沃贝克、（三）（b）第（1）款图4. (a)基于显著性的细化模块：利用粗边界、FPN特征和帧级特征构造显著性边界特征。(b)边界池：在输入特征的边界区域中搜索显著矩特征。3.2. 基于显著性的细化模块如第1、已有的一些工作已经表明了边界特征在TAL中的重要性，特别是对于时间距离的预测。然而，由于不同的动作实例可能具有不同的长度，由于有限的感受野，很难通过几个简单的时间卷积来因此，我们提出了一个基于显着性的细化模块，如图4（a）所示，其中我们利用FPN特征以及粗略的建议来帮助我们的模型收集边界特征以细化预测。为了简单起见，我们在下面的细节中省略了代表FPN层的下标。以本地化特征floc为例，首先我们通过卷积层将其分别投影到对开始和结束活动敏感的两个潜在空间中fs=σ（GN（ Conv1（floc）））∈RT1×C，eδb δa其中wk=k−k表示提案的长度，δa、δb是控制提案外部和内部选定区域比例的超参数。接下来，将聚合函数A应用于fs，并且分别在开始和结束区域中进行，以收集相关的边界特征。尽管有很多关于在以往的工作中，如均值池[10]、高斯加权平均[23]和直接收集和关联[17]，这些方法都会引入无用的知识。帧的边缘不代表动作边界，从而阻碍了模型的精确预测。因此本文提出了一种新的边界池化方法来获得矩水平边界特征f∈s，f∈RTl×C，如图10所示4（b）. 边界池的工作原理如下：fs（k，i）=maxf s（j，i） i=1，···，C，j∈Tk（四）f∈e（k，i）=maxf e（j，i）i=1，···，C.j∈Tk利用最大化，旨在选择最大的激活细胞，即，，最显著的时刻，对于每个通道fe=σ（GN（ Conv 2（floc（2）∈RTl×C，（2）沿着颞区。请注意，随着FPN的深入，��公司简介��质量保证ℓ重新确定的边界��ℓ��金字塔特征回归器回归器ℓ��联系我��+I ×C��×C�� ×Ci3D�� ×C��×C基于凸细化��−i��−�� ×CCcoarseclass�� ×C精致的等级��分类器ℓ��1000×2C分类器ℓ��帧级功能精确预测粗预测特征提取视频FPN特征粗边界公司简介��^,^=帧级特征1000×2C��2C×边界合并��2C×��2C×��1000×5C��^Conv1d（一）^^��˜��˜��边界合并粗边界我们的团队2CC^^2C⋯⋯⋯w3324，f一个2BG的1BG一个2BGBG一个2BG的1的1∈f，f一个2BG的1一个2时间维度减小到对于边界来说太小S eA1A1），（fse）、（fse）.总的来说，自A1混合池，以找到合适的边界。因此，我们通过应用up-和A2是连续的，应该彼此相似并且远离fs和fs和fe样本和几个卷积到底部FPN特征，其中，对于每个建议，利用与等式（1）中相同的投影和池化过程，对开始和结束帧-1水平特征f_s、f_e进行估计2、Eq。四、如果我们将边界池化限制为仅利用动作内的几个帧（即，，方程中的大δb。3）。然而，当模型在背景上被学习为高激活时在这种情况下，在边界池化之后，通过以下方式构建细化的要素：e会接近fs和fs将接近于fE。连接原始特征和所有边界特征。应用时间卷积来减少通道：f=Co n v（f||fs||菲埃||fs||（5）其中·||·表示逐通道级联。这些fea-因此，对这些特征进行对比学习，加大动作片段敏感特征与背景的距离，是保证特征匹配的一个好方法。形式上，它可以通过利用以下三元组目标函数来实现：这些数据再次被用作简单网络用时间卷积来预测回归的偏移跳闸=最大值（Δfes2−fe-fBg=2+ 1，0），（9）（，），可以将其添加到粗预测中以获得细粒度的预测（，）和细化的类得分yR。其中fBg.SeBg BgΣ. 在实践中，我们首先计算3.3. 边界一致性学习虽然边界池可以提取最显著的特征，但它不能保证池化的特征代表真实的动作边界。这样的属性是关键的，因为如果边界池集中在背景帧上，模型就不能有足够的有用信息，从而被误导到错误的结果。为了规范我们的边界池，我们进一步提出了边界一致性学习（BCL），它有两个组成部分：激活引导学习和边界对比学习。具体来说，我们重新缩放敏感特征fs和fe，并取通道平均值：gs=mean（tanh（f s）），ge=mean（tanh（f e））。（六）这两个特征可以被看作是置信度，揭示了开始或结束时刻发生的概率。我们可以通过以下定义获得地面真值gs，ge∈RT一个视频中的最小动作长度Wmin。接下来，如果视频具有长度大于2·wmin的操作实例和一个长度为wmin的背景剪辑，我们包括这个视频到我们的对比学习池中，并实现上述分割过程。这样，分割动作和背景都足够长以被区分。总之，我们的边界一致性学习可以总结为以下形式：con=（十）3.4. 训练和推理对于粗略预测，当满足条件时，我们将每个位置i作为正样本分配给地面真值j对于精细预测，我们计算每个粗略边界之间的时间IoU（tIoU）元预测和相应的地面真相。如果位置i的tIoU得分大于0.5. 将NC、NR表示为阳性样本数，gs（i）=I（i∈ B（m），其中m∈[1，MX]），（七）分别进行粗略和精细预测训练一旦有了粗糙和精细的预测，ge（i）=I（i∈B（m），其中m∈[1，MX]），其中B（·）表示邻居，I（·）是指示符时间边界和类标签的关系，我们可以用以下目标函数优化模型：功能然后我们可以计算交叉熵：CCLSClocRCLSRloc +γq，（11）BCE（gs，gs）+BCE（ge，ge），（8）CR其中BCE表示二进制交叉熵。以gs和ge为指导，我们可以约束特征在每个动作的发生和结束时具有高激活。其中，λ、γ是超参数，λ_cls、λ_cls是softmax fo。C. 两种分类预测之间的损失估计[21]yC，yR和ground truth标签y：1Σ（f），f，fF-fL=0+λ公司简介+λ3325loc边界对比学习考虑一个视频X对比跟踪动作实例A和其他背景。如果我们分割动作并填充背景的随机部分cls（{yfocal（y我我们会有两个不完整的动作片段A，A和其中N∈ {NC，NR}。CQC是粗糙和粗糙1 2锁定背景B之间。应用边界池-边界φi =（i，i）和相应的基础对这三个区域的操作导致三对特征真值φi=（i，i）。EURR是L1损失，3326locl我l我Roffseti=（i，i）和对应的of fset标签i=（并将视频分割成片段。每个剪辑T的长度被设置为256帧。相邻剪辑的时间重叠为C（{φ1ΣI（yi≥1）（1−N我|φˆi|φˆiφ i|）的情况下，φ i|（十三）M帧，并且在训练中将M设置为30，在测试中将M设置为128。在ActivityNet1.3上，我们使用不同的fps对帧进行采样，并确保每个帧R（{Σ I（y）≥1）（|∆ˆ--|）的。视频.因此，每个视频只有一个768帧的剪辑。lociii ii i ii质量损失是一种质量损失，用于抑制低质量的建议。作为对象检测中的对应物，FCOS [35]提出将每个空间位置的中心度作为质量目标。然而，由于难以确定确切的帧是动作的开始信号还是结束信号，因此这种动作的中心性的定义是模糊的，因此在TAL中直接使用中心性是不合适的。为了更好地预测建议的质量，我们利用边界预测φ和位置标签之间的tIoU 作为从细化特征f生成的质量置信度η的学习目标：在两个数据集上，帧空间大小均设置为96×96。随机裁剪，水平翻转被用作数据增强-在训练中为了提取剪辑的特征，我们微调了一个在Kinetics上预训练的I3D [6我们的模型使用Adam [15]训练了16个epoch，学习率为10−5，权重衰减为10−3。批量大小设置为1。我们将δa设为4，将δb设为100，对于其他损失项，将δb设损失权重λ在THUMOS 14上设置为10，在ActivityNet 1.3上设置为1，γ根据经验设置为1。在测试阶段，RGB和光流帧的结果进行平均，以获得最终的位置和类得分。Soft-NMS中的tIoU阈值设置为0.5对于THUMOS 14和对于ActivityNet 1.3为0.85。（{η}）=1 Σ I（y）|φ˜i∩φi|≥1）BCE（η，）。（十四）我们报告的平均精度（mAP）在所有q iNi我|φ˜i φ i|实验阈值为[0。三比零。一比零。7]对于THU-MOS 14和[0. 五比零05：0。95]对于ActivityNet1.3。对于训练中的每一批，我们首先用L.然后，我们寻求在第二节中可用于BCL的数据。3.3并用Eq. 10个。对于第1个FPN层中的第i个时间位置通过来自我们的模型的所有输出来形式化最终预测，包括粗略的预测nl，i，y，C和精细的预测nl，i，y，c，r，i，以以下形式：wl，i=l，i−l，i，ψ˜=ψˆ1ˆ4.2.主要结果我们将我们的模型与Tab中的最新方法进行比较。1并报告每种方法使用的骨架，包括TS [34]、 C3D[36]、P3D [29]和I3D [6]。对THUMOS 14，我们的AFSD在所有阈值上的表现都超过了最强的竞争者 A2 Net 和 G-Cash ，特别是在 mAP@0.6上的7.7%。显著的改进伴随着高效率，从而使我们的模型更适合真实的TAL场景。注意l，il，i+2wl，il，i，1（十五）虽然A2Net也有一个无锚模块，但性能I=I+Iwl，il，i，2他们合并后的模式比我们的要差得多，提到唯一的无锚分支，这证明了苏-y∈ C =1（y∈C+y∈R）η。我们的体系结构的无锚方法的优势。l我2l，il我l我在ActivityNet1.3上，结果仍然具有可比性。我们然后，我们组装所有预测并使用Soft-NMS [3]处理它们以抑制冗余的建议。4. 实验4.1. 数据集和设置数据集为了验证我们的模型的有效性，我们对常用的基准测试THUMOS 14 [14]和ActivityNet 1.3 [5]进行了广泛的实验。THUMOS 14由来自20个类别的200个验证视频和212个测试视频组成，标记为时间定位。Ac-tivityNet 1. 3有19，994个视频和200个动作类。我们遵循前一个设置[20]将该数据集以2：1：1的比例分成在THUMOS 14上，我们以每秒10帧（fps）的速度模型获得最好的mAP@0.75和平均mAP com-kind到最强的竞争对手GTAN。值得注意的是，虽然所有的行动导向方法的平均m AP都比我们的要小，但它们中的大多数都享有更高的m AP@0.95。一个可能的原因是，它们可以替代所有潜在的建议，因此，地面实况建议已经包含在替代预测集中。有了这样的枚举策略，基于动作的方法在处理更难的数据集时会更好，比如ActivityNet1.3。与行动导向的方法相比，我们的模型是更有效的意义上产生更少的建议，并获得更好的整体性能时，考虑多个阈值。此外，与THUMOS 14相比，ActivityNet的注释不太好，正如官方报告[1]所解释的那样，该报告显示CR我3327I=i=1类型模型骨干THUMOS 14 ActivityNet1.30.30.40.50.60.7Avg.0.50.750.95Avg.SSAD [19]TS43.035.024.6-------[10]第10话C3d44.134.925.6-------效标R-C3D [38]CBR [11]C3dTS44.835.628.9---26.8---50.141.331.019.19.930.3----TAL [7]i3D53.248.542.833.820.839.838.218.31.320.2GTAN [23]P3d57.847.238.8---52.634.18.934.3[32]第三十二话-40.129.423.313.17.922.845.326.00.223.8SSN [44]TS51.041.029.8---43.228.75.628.3BSN [20]TS53.545.036.928.420.036.846.530.08.030.0不规则性BMN [18]TS56.047.438.829.720.538.550.134.88.333.9[第17话]TS57.849.442.833.821.741.1----[39]第三十九话TS54.547.640.230.823.439.350.434.69.034.1[43]第四十三话i3D53.950.745.438.028.543.343.533.99.230.1BC-GNN [2]TS57.149.140.431.223.140.250.634.89.434.3A2Net [40]i3D58.654.145.532.517.241.643.628.73.727.8其他[41]第四十一话i3D66.460.451.637.622.947.8----无锚我们i3D67.362.455.543.731.152.052.435.36.534.4表1.与THUMOS 14和ActivityNet 1.3上的最新方法的性能比较，由不同IoU阈值下的m AP测量，并在[0. 三比零。一比零。7）在THUMOS 14和[0. 五比零05：0。95]在ActivityNet1.3上。到轻微的改善。4.3.消融研究为了进一步验证我们的贡献的有效性，我们对THUMOS 14进行了几次消融研究，重点是子模块和超参数质量置信度的有效性。3.1训练和推断有和没有拟议的质量信心表。2（a）.此外，我们利用FCOS中提出的中心度结果表明，中心度导致mAP@0.7下降1.3%，对训练TAL模型没有帮助相比之下，具有质量损失的模型是14）可以具有1.0%的平均mAP改善，这支持了我们的主张，即中心度的定义在TAL中在某种程度上是不适当的，因此不能直接应用。与此相对应，我们的质量损失补偿q是一个更适合抑制低质量行动建议的目标函数。选择信号规范化在行动指导学习-ing介绍了第二节。3.3.采用双曲正切函数对特征向量进行归一化处理我们将此实例与另外两个实例进行比较。一个是[0，1]之间的硬裁剪。另一种是使用以下形式的简单标准化，在Tab中表示为0-1范数。2（b）：f（i）−minT1f（i）f（i）=.（十六）边界为中心点，记为δa=δb。（2，3）聚焦于背景或作用的两个非对称区域。通过结果，我们可以有把握地说，它是更好地保持较大比例的区域内的粗糙动作比背景。可能的原因是我们的朴素预测器已经可以产生相对准确的预测。如Tab.所示2（a）、基线的性能可以击败Tab中的大多数竞争对手。1，即使竞争者融合RGB和光流模型进行最终预测，我们的基线仅利用RGB帧作为输入。表中边界细化的有效性2（d）比较了四种边界细化的形式，包括：（1）朴素的：只有几个时间卷积直接应用于floc，fcls以得到另一个预测。以这种方式，用于细化的信息是由卷积引入的堆叠近邻。(2)Self：基于显著性的细化模块在没有f帧的情况下使用，因此一致性学习仅计算与FPN特征相对应的损失。(3)帧级：在时域细化中只采用f帧，而放弃FPN特征。(4)全部：包括所有可用的功能，这是我们的最终模型。结果表明：（1）边界信息比邻域信息更有价值。(2)帧级特征只能作为FPN特征的补充仅使用帧级功能将导致1.1%不i=1 f（i）−minTf（i）针对朴素细化模型的平均mAP下降结果表明，使用tanh可以有0.9%和0.6%的平均mAP的优势比两个替代品。选项卡中边界区域的选择。2（c）我们评估用于汇集边界特征的边界区域的选择，该边界区域由（1）具有粗边界池的实例化我们将我们提出的边界池与以下三个实例进行比较：（1）平均值：最大操作被平均值取代。(2) Conv：我们对每个重新采样三个时间位置，gion，并且将1层时间卷积应用于ag。Max3328模型0.5 0.6 0.7Avg.基线43.1 31.0 19.0 40.4+中心43.3 31.6 17.7 40.2+质量44.0 32.0 19.8 41.4模型0.5 0.6 0.7Avg.0-1夹45.3 34.6 22.4 42.60-1范数45.4 34.9 21.6 42.9tanh45.9 35.0 23.4 43.5模型0.50.60.7Avg.δa=δb45.0 33.4 21.242.3δa> δb45.3 34.7 21.842.6δa δb45.9 35.0 23.443.5(a) 训练策略：我们将我们的质量置信度与FCOS中提出的中心性损失进行比较。模型0.50.60.7Avg.天真44.9 32.5 19.941.6自我44.6 33.9 22.342.4帧42.9 31.9 20.240.5所有45.9 35.0 23.443.5(d)细化：我们比较不同的信息来源进行细化。(b) 特征规范化：在约束条件下，比较了不同的特征规范化选择。模型0.50.60.7Avg.是说45.1 34.6 22.1 42.7conv44.8 34.4 22.3 42.6堆叠44.9 33.6 22.3 42.9Max45.9 35.0 23.4 43.5(e)实例化：我们比较了不同形式的边界特征提取。（c）边界特征提取：比较了不同的边界区域选择。模型0.5 0.6 0.7Avg.不含BCL44.3 34.1 21.2反作用45.6 34.4 22.3 42.7跳脱45.5 34.8 22.4 42.7联系我们45.9 35.0 23.4 43.5(f)一致性学习：我们的一致性模型随着边界一致性学习而变化。表2. THUMOS 14上RGB模型的消融研究，通过0.5、0.6和0.7处的m AP测量，以及[0. 三比零。一比零。7]。在假设中重新发送开始和结束信号。推理时间的比较如前所述，所提出的AFSD是高效的。为了验证这一说法，我们报告了THUMOS 14上的推理速度，如果不同型号之间的fps在Tab中。3 .第三章。因此，结果表明，我们的模型比现有的方法要快得多。主要原因是，在提取特征之后，我们可以使用更轻的预测器和由1D卷积组成的更轻的细化模块，这是由于表3. THUMOS 14推理速度比较让他们团聚。(3)堆栈：类似于（2），而不是使用卷积，我们直接将这三个特征连接到一个边界特征中。请注意，所有模型都是通过边界一致性学习进行训练的。结果见表1。第2段（e）分段。在所有实例化中，使用max的池化获得了最佳性能，平均mAP分别比mean、conv和stack有0.8%、0.9%和0.6%的优势。值得注意的是，我们的模型比其他模型在m AP@0.7上的改进大于1.0%，这表明矩级边界特征有助于模型生成更准确的建议。边界一致性学习的有效性我们通过将我们的完整模型与仅用L（Eq.11）和无菌条件下（Eq. 10）。结果见表1。2（f）建议在没有任何条件的情况下进行培训尽管如此，该模型不能学习用于边界池化的良好表示。因此，在精化过程中缺乏有用的信息会导致性能变差此外，每个损失项带来平均0.7%的改进，通过组装mAP和Eqact8）和跳闸（方程式9）综合起来，我们的模型最终取得了最好的性能。为了进一步验证BCL的有效性，我们获得了动作实例及其相邻背景的帧级特征f帧，其中每一半都可以代表无锚机制此外，我们的模型产生的propos- als的数量比这些方法少，这也有助于加快我们的模型。5. 结论在本文中，我们探讨了一种新的形式的时间动作定位模型的可能性我们讨论了基于锚点的方法和动作指导的方法的优点，并设计了一个专用的无锚点模型。我们的模型包括一个端到端的可训练的基本预测器和一个时间细化模块。对于细化模块，我们分析了现有的方法来提取边界特征的缺点，并提出了一种新的边界池与边界一致性学习策略。我们在THU-MOS 14上取得了显著的效果，在ActivityNet1.3上也取得了相当的效果。结果表明，无锚模型是解决时间动作局部化问题的一致谢。这项工作得到了部分支持，国家自然科学基金项目（ U62076067 ）、上海市科委项目（19511120700、19ZR1471800）、上海市研究与创新功能计划（17DZ2260900）、上海市科技重大专项（2018SHZDZX01）和ZJLab。模型GPUFPSS-CNN [33]-60民主行动党[9]-134[32]第三十二话泰坦Xm500[4]泰坦Xm701R-C3D [38]泰坦Xm569R-C3D [38]泰坦Xp1030我们1080 Ti32593329引用[1] Humam Alwassel ， Fabian Caba Heilbron ， VictorEscorcia，and Bernard Ghanem.诊断时间动作检测器中的错误。在欧洲计算机视觉会议（ECCV）的会议记录中，第256-272页，2018年。6[2] 白玉宇，王盈盈，童云海，杨洋，刘启月，刘俊辉。边界内容图神经网络用于临时动作建议生成。欧洲计算机视觉会议，第121施普林格，2020年。7[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页，2017年。6[4] 夏马尔·布赫，维克多·埃斯科西亚，伯纳德·加尼姆，李飞飞，胡安·卡洛斯·尼布尔斯.端到端、单流、未修剪视频中的瞬时动作检测。2019. 8[5] Fabian Caba Heilbron ， Victor Escorcia ， BernardGhanem，and Juan Carlos Niebles. Activitynet：用于人类活动理解的大规模视频基准。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第961-970页，2015中。6[6] Joao Carreira和Andrew Zisserman你说的是行动识别吗新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，第6299-6308页，2017年。第三、六条[7] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey- bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构以实现时间动作局部化。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。7[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁兹，和葛·奥弗里·辛顿.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。3[9] 维克多·埃斯科西亚，法比安·卡巴·海尔布隆，胡安·卡洛斯·尼布尔斯和伯纳德·加尼姆。Daps：用于行动理解的深度行动建议。欧洲计算机视觉会议，第768-784页。Springer，2016. 8[10] Jiyang Gao，Zhenheng Yang，Kan Chen，Chen Sun，and Ram Nevatia.Turn tap：用于时间行动建议的时间单位回归网络。在IEEE国际计算机视觉会议论文集，第3628-3636页二、四、七[11] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检测的级联边界回归。arXiv预印本arXiv：1705.01180，2017。7[12] 龚国强，王星汉，穆亚东，田奇。学习时间共同注意模型用于无监督视频动作定位。在IEEE/CVF计算机视觉和模式识别会

下载后可阅读完整内容，剩余1页未读，立即下载