视频时域定位算法的边界敏感预训练方法

175 浏览量更新于2023-10-13 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7220BSP（我们的）？✓时间定位基于边界敏感预训练的视频时域定位算法XuXiang1，2*Juan-Manuel Pe´ rez-Ru´a3Victor Escorcia1BraisMartinez1Xiatian Zhu1Li Zhang4Bernard Ghanem2Tao Xiang51英国剑桥三星人工智能中心2沙特阿拉伯阿卜杜拉国王科技大学3英国Facebook AI 4中国复旦大学数据科学学院5英国萨里大学mengmeng. kaust.edu.sa，jmpr@fb.com，v. samsung.com，brais. gmail.com，eddy. gmail.com，lizhangfd@fudan.edu.cn，bernard. kaust.edu.sa，t. surrey.ac.uk摘要许多视频分析任务需要用于检测内容变化的然而，为这些任务开发的大多数现有模型都是在一般视频动作分类任务上进行预训练的这是由于未修剪视频中的时间边界的大规模注释是昂贵的。因此，不存在能够以对时间边界敏感的方式进行预训练的合适的数据集。在本文中，我们第一次调查模型预训练的时间定位，通过引入一种新的边界敏感的借口（BSP）的任务。我们建议在现有的视频动作分类数据集中合成时间边界，而不是依赖于昂贵的时间边界的手动注释通过定义合成边界的不同方式，BSP然后可以简单地通过边界类型的分类以自我监督的方式这使得能够学习更可转移到下游时间定位任务的视频表示。大量的实验表明，所提出的BSP是优于和补充现有的基于动作分类的预训练对应，并实现了新的国家的最先进的性能在几个时间定位任务。请访问我们的网站https://frostinassiky.github.io/bsp了解更多详情。1. 介绍最近，视频分析的焦点已经从传统的视频动作分类转移到视频时间定位。这是因为在许多现实世界应用中，代替短的（例如，短的）。几秒钟长）的视频剪辑，通常呈现长的、未修剪的视频（例如，，来自社交媒体网站如YouTube、Instagram），其中包含不感兴趣的背景和前景两者，例如，一个感兴趣的特定动作。这需要视频模型*在三星AI中心实习期间完成的工作。预训练数据集任务✓✓图1. 针对不同任务的预训练数据集。用于图像和视频分类模型优化的良好建立的预训练-然后微调范例是有效的，这归功于大的相关数据集（例如：ImageNet和Kinetics）。然而，对于视频时间定位任务，现有数据集对于模型预训练来说太小，或者由于缺乏时间边界注释而不太有效。我们解决这个问题，通过引入一种新的边界敏感的借口（BSP）的任务。来执行时间定位任务。这些任务的示例包括时间动作定位[65，5]，视频接地[2，44]和步骤定位[79]。与大多数其他视觉识别任务一样，最近为视频时间定位设计的模型基于深度学习。因此，模型预训练至关重要。特别地，通常采用两阶段模型训练策略[19，56，18，4]：首先，视频编码器在大动作分类数据集上进行预训练（例如，视频编码器在大动作分类数据集上进行预训练）。， Kinnetics [6]1 ， Sports-1 M[28]），然后，在目标小规模时间定位上训练时间定位头。1通过在手动标记为包含目标动作的帧周围修剪10s剪辑来创建动力学。因此，未修剪视频的其余部分不能被视为背景。图像分类动作识别动力学7221×视频数据集，使视频编码器固定。因此，在视频编码器的预训练与目标任务之间存在明显的失配。理想情况下，模型预训练应该在时间边界敏感的任务上进行。然而，由于缺乏具有时间边界注释的大规模视频数据集，这是不可能的这是因为时间边界在本文中，我们研究了未充分研究的关键问题，即视频中时间定位的模型预训练。由于收集具有时间边界注释的大规模视频数据集的困难，我们提出通过变换现有的修剪视频动作分类数据集来合成具有边界注释的一旦预训练数据问题得到解决，我们就专注于定义和评估一些能够通过自我监督利用合成数据的特殊性特别地，第一个关键挑战归结为如何以可扩展和廉价的方式获得具有时间边界信息的为此，我们介绍了一种简单而有效的方法，用于使用现有的动作分类视频数据（例如：动力学）。更具体地说，我们生成人工时间边界对应于视频内容的变化，通过拼接修剪的视频包含不同的类，拼接两个视频实例的同一类，或通过操纵视频实例的不同部分的速度。用于训练视频模型的相关联的借口任务使用监督分类学习，其中任务是区分如上定义的时间边界的类型。我们的实验表明，这样的任务提供了优越的性能，其他可能的借口任务，如回归的时间边界位置，并结合不同的边界类型到一个多类分类问题，lem优于所有的二进制分类任务隔离。在这项工作中作出了以下贡献：（I）我们研究了视频中的时间定位任务的模型预训练问题，这在很大程度上是研究中的，但对视频分析特别重要。（II）提出了一种可伸缩的视频合成方法，可以生成大量具有时间边界信息的视频该方法不仅解决了缺乏大量预训练数据的关键挑战，而且便于模型预训练的设计。(III)大量的实验表明，时间动作定位，视频接地，和步骤定位任务可以显着受益于所提出的模型预训练，产生引人注目的或新的国家的最先进的性能在许多基准数据集。2边界标注 3 .第三章。8比类注释更昂贵[23，75]2. 相关工作时间定位任务。视频中的时间定位包括诸如时间动作定位（TAL）、视频接地和步骤定位的任务。尽管这些任务具有其自身的特殊性，但它们共享相同的目标：识别视频的语义内容改变的特定时间点TAL专注于预测未修剪视频中动作实例的时间边界和类别[23]。相反，视频接地- ing通过不依赖于动作类别的预定义集合[2，15，54]来概括时间动作本地化，任务是本地化视频中最匹配给定语言查询的片段步骤定位[79]与在教学视频[42]中执行复杂任务（例如，更换轮胎教学视频是高度编辑的视听教程与美学过渡和削减。由于计算成本的限制，这些任务的解决方案通常不基于端到端训练。相反，视频编码网络在动作分类任务上被预训练以实现大规模训练。然后使用固定的特征提取主干训练时间定位模型。视频编码网络。在现有技术的方法中，使用预先训练的网络作为视频编码器是常见的。这种网络使用标准交叉熵在分类任务上进行训练，通常在大规模数据集上进行训练，例如Kinetics [29，71]。例如，它对于TAL是常见的。，[33，32，65，3]，以使用用双流[51]TSN模型[58，77]提取的特征。也就是说，该模型包括两个TSN网络，一个具有在RGB上训练的ResNet 50[21]骨干，另一个具有在光流上训练的BN-Inception骨干[26其他方法使用基于3D CNN的模型，诸如双流I3D模型[6]，例如、[20，70]或伪3D [47]，例如，[38]。或者，一些方法利用下游时间定位数据集上的时间片段注释来定义分类任务，并使用它来预训练视频编码器[32，65，12，44]。这导致域差距较小，但代价是大规模培训。一些方法还直接在下游任务上添加端到端微调阶段，例如R-C3D [63]，PBR-net [36]。然而，端到端培训是通过牺牲其他重要方面来实现的，例如：使用1的批量大小，导致在实践中较低的性能。虽然通过交叉熵训练的动作分类器可以表示视频片段的整体内容，但是以这种方式训练的特征提取器不被调整为对特定的时间局部化结构（诸如动作的开始或结束）敏感。相反，我们提出了一个边界敏感的自我监督预训练，结果7222i=1--在具有所需的时间局部灵敏度的特征时间定位头。时间动作定位方法遵循两阶段或一阶段方法。两阶段方法首先生成候选动作段（例如，建议）[5，24，13，37，14]，然后对每个建议使用分类器以获得类得分[49，48，70，76，33]。单阶段方法预测节奏动作边界或生成建议，并将其分类到共享网络中[22，7，63，69，65，38，32，3]。视频接地类似于时间动作本地化，但需要一个语言模型。目前的文献也可以分为两组。(1)基于建议的方法采用流水线[11，17，34，39，40，9，68，73]，其首先依赖于非常类似于用于节奏动作定位的建议模型，然后基于预测与文本查询的相似性对预测进行排名[16，53，8，57，67，72]。(2)无建议方法[2，35，62，44]直接从多模态融合特征信息回归查询时刻的时间边界教学视频中的步骤定位。该任务对应于完成任务所需的一组步骤的对齐，以文本条目的形式，以及举例说明该任务的视频[42]。最近，[80]在使用基于动作的建议生成方法时，显示了多个模型的改进步骤定位性能。为了示出我们提出的边界敏感预训练的益处，我们采用了一组最近公开可用的方法，其代表了用于这些任务的当前技术状态：G-TAD [65]、LGI [44]和2D-TAN [74]。为了与先前的工作保持公平的比较，我们不对下游数据集上的视频编码网络进行微调。当将我们的BSP功能与这些模型结合使用时，我们使用各自作者定义的默认训练配置，并使用提供的评估脚本报告性能。视频中的自我监督学习。虽然当前的临时本地化文献集中在通过监督学习进行预训练，但自监督学习的快速发展使其成为回避端到端训练的有前途的替代方案[1，4，41，43，61]。其中，大量的研究集中在寻找有效的时间相关的借口任务。一些作品考虑了帧排序，要么通过帧的三元组[43]学习，要么通过对序列进行排序[30]，或者通过区分序列是向前还是向后播放[61]。或者，与视频速度相关的借口任务最近变得流行[4，66，56]。在[27]中提出了关于该主题的有效变体，其中剪辑经历一组可能的增强中的一个，并且同时还以一组可能的帧速率中的一个进行采样前提任务是正确地分类这两个游戏-后退速度和应用的时间增强。替代方法包括预测运动相关的统计[55]和将成功的基于图像的对比学习方法更直接地扩展到视频领域[46]。这些方法利用特定于视频的特性来迫使网络关注视频内的语义内容，从而诱导捕获长期时间语义关系的表示，但是迫使动作内的采样片段的相对定位不变性因此，它们不能用于预先训练时间损失，尺度化模型3. 方法3.1. 问题上下文我们考虑了用于视频中的时间定位的模型预训练问题。这是常见的第一预训练骨干，然后训练定位头部范例的第一阶段，并且在此上下文中的下游任务包括时间动作定位[65]、视频接地[2]和步骤定位[79，80]。vanilla预训练方法简单地对大型视频数据集（例如，动力学）Dtr=VIN，其中动作类别标签作为地面实况监督。这为模型带来了动作内容感知。因此，这样的预训练模型通常优于那些具有随机初始化和在图像数据上预训练的模型（例如，，ImageNet）。然而，该方法在捕获时间局部化任务所需的时间边界信息方面受到限制，因为边界注释在现有的大型视频数据集中不可用。为了克服基于动作分类的预训练的上述限制，我们的目标是直接解决视频中边界标签的不可用性，这是直观但不平凡的。由于需要大量的视频数据进行预训练，因此该方法必须是可扩展的，而无需昂贵的手动注释。因此，我们采用数据综合的方法。现有的修剪视频数据集被选择作为视频源，因为它们存在于大规模。在我们的实现中，选择Kinetics [6]，因为它是文献中视频编码器模型的vanilla预训练的最常见选择。此外，这种选择允许避免额外的训练数据，这进一步确保了准确的评估和公平的比较。给定带有动作类别标签的裁剪视频数据，我们引入了四种时间边界的概念，包括不同类别边界，相同类别边界，不同速度边界，相同速度边界。它们都需要在视频合成零额外的注释，因此使我们能够生成任意数量的视频样本的边界标签。接下来，我们将描述所提出的边界敏感视频合成方法。7223i=1i=112ϵ22ϵ我 i=1i=1i=1联系我们- -我图2. 我们的边界敏感视频合成的插图。对于每组三行，我们从上到下显示：（a）来自ActivityNet的具有真实动作类边界的真实剪辑;（b）来自Kinetics-400的剪辑，没有边界;以及（c）通过所提出的方法之一使用来自具有合成边界的Kinetics-400的样本的合成视频。（顶部）Diff-class边界（▼）;两个剪辑来自不同的类别在帧#5周围被平滑地合并（中）同级边界（▼）;来自同一Kinetics类别的两个剪辑从第4帧拼接在一起（底部）差速边界（▼）; Kinetics中的一个剪辑从帧#4开始被人为加速3.2. 边界敏感视频合成时间边界指的是镜头或镜头之间的过渡。合成，其中每个帧形成为：f1,ii∈[1,τ−ϵ],场景，或动作内容的变化。在这项工作中，我们...从视频源的两个角度来看：类语义学fdc=ω1（i）f1，i+ω2（i）f2，i−τ+εi∈（τ−ε，τ+ε]，f2，i−τ+εi ∈（τ + ε，2τ].（一）和运动速度，这两项都在Kinetics中可用(i.e.、类标签和帧速率）。然后，如下面详细描述的那样制定四个不同的边界类。(1) Diff-class边界。此边界定义为来自不同类的两个动作实例之间的边。这是最直观的边界，如通常在具有连续发生的不同动作的未修剪视频中呈现的。为了合成具有该边界的视频，我们使用从不同的视频中随机采样的两个视频V1和V2输入操作类别。具体来说，我们首先在每个视频中进行均匀的帧采样，F1={f1，i}τ +ε V1和F2={f2，i}其中f1，i（f2，i）表示第i个其中，控制动作过渡的时间段通过加权混合方法进行转换，其中权重定义为ω（i）=1（τ+ε i），ω（i）=1（i τ+ε）。这种过渡会从一个动作向另一个动作注入一些平滑效果结果，输出视频Sdc消除了突然的内容变化，使得以下模型预训练有意义而没有琐碎的解决方案。(2) 同级边界。作为对不同类边界的补充，这旨在模拟重复和连续发生相同动作的场景。这在具有连续的相同动作类的多个不同镜头的未修剪视频中经常观察到同样地，我们从同一动作类中选择两个视频V1和V2每个视频。则新视频S dc={f dc}2τ（图2（a））并且样本τ帧F1={f1，i}τ且F2={f2，i}τ差速边界同类边界合成动力学ActivityNet合成动力学ActivityNet合成动力学 ActivityNetDiff-class边界7224（（（跳远同级尊巴差级尊巴差级板球差速板球差速分类器分类器concat香草BSP编码器编码器双头编码器香草老师特征提取编码器BSP老师联系我们--∈−2τ- −∈我······从每个选定的视频。新的视频Ssc={fsc}2τ(Fig.2（b））通过级联合成为：f sc=. f1，ii∈[1，τ]，i i=1（二）f 2，i−τ i ∈（τ，2τ].在这种情况下不应用转换，因为语义内容在两个输入视频中相似。(3) 差速边界该边界类由内容改变的速度从背景（例如，背景）变化的观察来驱动。没有动作）到前台（例如具有动作）以及从一个动作实例到另一个动作实例因此，速度变化捕获了潜在有用的时间边界信息。形式上，我们从取样随机视频V ={f1，f2，. . . }从源数据。图3. 将BSP与vanilla动作分类预训练集成。（a）两个独立训练的特征流产生级联为输出的普通动作和BSP特征。（b）具有双头分类的单个特征流(c)任务专业化通过从两个教师流中提取功能来执行，这些教师流预先接受了香草和BSP任务的培训。然后，具有两个不同速度的新视频Sds={fds}2τ我率（图2（c））是由i=1边界类y0，1，2，3每个视频x S根据其边界类型。有了目标视频fds =. fii≤t（原始速率），我（三）模型θ，我们预测边界分类向量p=f t+γ（i−t） i> t（新速率）。p0，p1，p2，p3对于给定的训练视频x. 预训练在模型中，我们使用交叉熵损失函数。的其中t是速度的变化点，γ1表示该方法的主要优点是容易适应不同的视频合成中引入的采样率。当γ（0，1）时，触发时间上采样。当γ >1时，发生时间下采样通过改变γ，可以模拟大量的速度变化情况在帧索引t+γ（i，t）不是整数的情况下，我们简单地使用最近的帧。可以考虑更复杂的帧内插，然而发现其在性能上没有(4) 同速边界。这是作为一个非边界类的概念完成。对于这个类别，来自源集合的相同视频在每个视频中的所有帧中以相干原始速率为了符号一致性，我们将这种类型的视频表示为Sss。总的来说，我们将所有四种类型的边界敏感视频表示为S ={Sdc，Ssc，Sds，Sss}。3.3. 边界敏感预训练给定如在Sec. 3.2，我们现在描述如何将它们用于视频模型预训练，使得预训练的模型可以有益于时间定位下游任务。为了简单和易于采用我们的方法，我们考虑两个常见的监督学习算法的基础上的综合边界信息。按分类进行预训练（默认选择）。直观的预训练方法是通过将每种类型的合成视频视为唯一类来进行监督分类。也就是说，四向分类任务。形式上，我们首先标记以原则性的方式进入边界监管类型。这允许有效地使用我们的合成视频数据。回归预训练。使用我们的训练数据进行预训练的另一种方法是变点回归。为了更稳定的学习，我们将地面实况变化点μ转换为1D高斯热图y=[y1，，yt，，y L]作为回归目标，y t=[1（tµ）2]对于t[1，L]，其中我们采样一个片段。pet，其包括来自长度为L的视频的τ个帧。令模型预测输出为 r=[r1 ， ··· ， rt ， ··· ， rL] 。我们最小化（y−r）的光滑L1范数。3.4. 与基于动作分类的预训练集成我们将我们的方法与基于分类的预训练功能相结合，以增强时间定位下游任务所需的边界意识。考虑三种架构设计：双蒸汽、双头和特征蒸馏。双流该设计由两个并行的流组成，一个用于基于动作分类的预训练，另一个用于我们的边界敏感预训练（图2）。3（a））。为了简单起见，我们对两者使用相同的主干为了整合它们的信息，在倒数第二层采用特征连接。双头与双流设计相比，这是一种更紧凑和高效的架构，除了分类层之外，所有层都共享两个任务（图11）。第3（b）段）。一个隐含的假设是两种类型的特征表示可以在整个过程中很好地融合。72252∥∥ − ∥ ∥−----通过端到端的联合训练，特色升华。双流或双头网络设计的另一种方法是采用单个网络，并通过施加特征匹配损失来训练它以产生与独立网络相同的特征（图12）。3（c））。特别地，设fv是通过对动力学的标准监督训练的网络，并且fb是以所提出的自监督方式训练的网络。然后我们训练一个网络fs和两个逐点训练表1. ActivityNet-1.3验证集上的TAL。“*” indicates RGB-onlyKinetics pre-trained TSM feature without投影层h1和h2，以最小化特征匹配-2以fv（x）h1（fs（x））2+fb（x）h2（fs（x））2的形式表示的损耗，如图3（c）中的虚线所示。在实践中，我们还使用标准的交叉熵损失两个特征匹配损失。4. 实验4.1. 实验装置时间定位任务。在我们的评估中，考虑了未修剪视频的三个代表性时间定位任务：时间动作定位[23]、视频接地[2，15]和步骤定位[80]。如第2，这些任务共享识别视频的语义内容改变的特定时间点这三个任务的解决方案使用相同的两步训练范式：首先用BSP方法预训练视频编码器，然后用我们的BSP模型冻结作为视频特征提取器来训练特定于任务的模型。这允许明确地检查模型预训练的质量和有效性。数据集。我们使用三种不同的视频数据集来评估时间定位任务的性能。(1) ActivityNet-1.3[23]是时间动作本地化的流行基准它包含19，994个带注释的未修剪视频，其中包含200个不同的动作类。train：val：test的分流比为2：1：1。每个视频平均有1.65个动作实例。按照通常的做法，我们在训练和验证集上训练和测试模型。(2) Charades-STA[15]是从动作识别数据集扩展的常用视频基础数据集Charades [50].它包含了9848个日常室内活动的视频，训练集和测试集分别包含了12408个和3720(3) CrossTask[79]是一个描述复杂任务的教学视频数据集，例如做煎饼。我们根据动作性预测评估步骤定位性能[80]。根据[80]中描述的评估协议，我们专注于具有时间注释的18个主要任务，即具有3：1训练：测试分割比的2750个视频。评估指标。我们采用特定于每个下游任务的标准性能指标。对于暂时的交流-在不同的时间交集与并集（tIoU）阈值下，使用平均精度（mAP）。在官方评估设置之后，我们报告了三个tIoU阈值为0的mAP评分。5，0。75，0。95和十个阈值上的平均mAP为[0。05：0。95]，对于ActivityNet-1.3，步长为0.05。对于视频接地，我们在三个不同的tIoU阈值0. 3，0。5，0。7用于Charades-STA数据集。我们还遵循LGI对于步骤定位，我们根据动作性预测对其进行评估[80]。我们遵循其评估协议，将测试视频划分为非重叠的0.2s片段，并报告逐帧二元平均精度（AP）。与步骤注释相关联的任何段被认为是前景（正），否则被认为是背景（负）。实作详细数据。在整个实验中，我们只使用RGB输入来计算视频表示，因为光流是计算昂贵的，并增加了复杂性的特征提取模型。然而，当前的标准特征依赖于TSN [58]，其对时间不敏感。因此，去除光流流可能具有非常负面的影响。为了缓解这个问题，我们采用了时间移位模块（TSM）架构[31]。给定一个可变长度的视频，我们首先每8个连续帧采样一个片段。然后，我们将片段馈送到预训练的模型中，并在完全连接层之前保存特征因此，我们获得了一组片段级功能的未修剪的视频。对于视频接地任务中所需的语言表示，文本查询的预处理包括小写转换和标记化。然后使用预先训练的GloVe模型[45]来获得初始的300维单词嵌入。接下来是一个三层LSTM [25]来生成句子表示。对于现有技术的时间定位模型，方法0.50.750.95平均Singh等人 [五十二]34.47---Wang等人 [59个]43.65---Chao等 [七]《中国日报》38.2318.301.3020.22SCC [22]40.0017.904.7021.70美国疾病控制与预防中心[48]45.3026.000.2023.80R-C3D [63]26.80---BSN [33]46.4529.968.0230.03P-GCN [70]48.2633.163.2731.11BMN [32]50.0734.788.2933.85BC-GNN50.5634.759.3734.26G-TAD [65]50.3634.609.0234.09G-TAD*50.0135.078.0234.267226片段2（无bnd）低绝对差高绝对差BSP（我们的）基线时间注释表2.Charades-STA视频接地。我们使用LGI和2D-TAN的原始评估代码2D-TAN可以表3. CrossTask数据集上的步骤本地化结果。模型性能显示为灵敏度预测的逐帧平均精度（AP），如[80]所示。不计算R@0.3和mIoU，因此未报告。方法HowTo100M动作性AP方法R@0.3R@0.5R@0.7Miou预训练监督CTRL [15]-21.427.15-线性clf.[80] ✓✓56.2SMRL [60]-24.369.01-朱可夫等人 [80]✓✗47.6线性clf.46.9分线性clf. +BSP✓48.1我们选择G-100 [65]用于Activity-1.3上的时间动作定位，2D-TAN [74]和LGI [44]用于Charades-STA上的视频接地。一个简单的线性分类器[78]用于CrossTask中的步骤定位4.2. 与最新技术水平的在本节中，我们比较了不同任务和不同时间定位网络下所提出的BSP功能的性能。我们将BSP特征与使用基于分类的预训练以双流方式获得的那些特征相结合，如SEC。三点四分。在TAL任务中，我们的BSP功能可以显著提高G-TAD的性能，请参见表1。1.一、添加BSP功能可在0.5IoU时将性能提高0.93%，在平均mAP时提高0.5%。与G-TAD最初使用的特征相比，我们的方法不需要耗时的计算来提取光流，也不需要在ActivityNet上微调我们的视频编码器。为了进一步验证我们的方法，我们在THUMOS-14和HACS-1.1数据集上对仅RGB基线进行了实验。我们观察到+9的增益。66%mAP@IoU =0.5和+0。78%。详情请参阅我们的补充质询。我们还验证了我们的BSP功能的视频地面- ING任务在选项卡。二、我们的BSP既有利于基于锚点的方法，如2D-TAN [74]，也有利于无锚点的方法，如LGI[44]。后者也可与Charades-STA的最先进性能相媲美。LGI遵循[12]在下游数据集上使用预先训练的视频编码器。为了与 BSP进行公平的比较，我们只包括在Charade-STA上不进行微调的方法表3示出了在动作性预测方面的步骤定位的结果。我们的基准线，线性clf.，仅在Kinetics400上进行预训练，可获得具有竞争力的结果。朱可夫等人 [80]（47.6% vs. 46.9%）。增强线性clf。与我们的BSP功能，提高了性能图4. BSP片段特征和普通片段特征的可视化。上图：我们将BSP和vanilla视频编码器的连续片段特征差异可视化。比较绝对差异，我们的BSP编码器产生可区分的片段表示敏感的边界。底部：来自BSP和vanilla编码器的边界和非边界片段的绝对差的分布示出了vanilla编码器未能正确地捕获边界信息。…成功：PlayingSquash…失败：水肺潜水图5. BSP（我们的）和基线的成功和失败案例。1.2%）。这些结果证明了我们的预训练的多功能性，以捕获不同视觉域（即教学视频）的语义时间变化4.3. 可视化特征可视化我们比较了图中4.第一章具体地说，我们从两个连续片段中可视化特征表示的绝对差异，而自然边界仅出现在BSP编码器Vanilla编码器SAP [10]-27.4213.36-MLVI [64]54.7035.6015.80-[第72话]-46.5322.72-DRN [71]-53.0931.75-2D-TAN [74]-42.8023.25-2D-TAN*-48.3627.88-2D-TAN*+BSP-51.6429.57-LGI*[44]60.6745.6523.8743.40片段1（bnd）LGI*+BSP68.7653.6329.2750.55diff？7227×--联系我们--------------第一个片段要素制图表达将重新塑造为32个矩阵，并且绝对差在图32的右上方可视化。4.第一章从BSP视频编码器的上部矩阵包含更多的高差异（红色）值，表明我们的方法产生可区分的片段表4. 不同的边界敏感借口任务。我们用两个损失函数来组合四个借口任务。随机基线是指随机初始化的视频编码器，而普通基线是指以完全监督的方式在Kinetics-400上预训练的视频编码器。我们在ActivityNet 1.3数据集上比较了G-TAD的性能。对边界敏感的表示。此外，委员会认为，我们计算来自BSP和vanilla编码器的两个片段的绝对差的分布，并在图的底部将它们4.第一章从直方图中，我们可以观察到相同的结果，即vanilla编码器缺乏捕获边界信息的能力。为了更好地进行比较和可视化，特征向量为从2048到64 ×32进行了归一化和整形。在图5中，顶部示出了只有BSP通过成功地检测第2帧和第3帧之间的场景变化来精确地预测PlayingSquash在底部，两种方法都无法找到ScubaDiving的起点，但BSP4.4. 消融研究为了验证我们提出的边界敏感预训练策略的有效性，我们对不同的边界敏感任务和融合方法以及骨干深度进行了深入的消融分析（参见补充材料）。所有消融研究均采用ResNet18主干。边界敏感任务我们首先在Tab中显示。4多个任务的性能结果。给定四种类型的增广数据，S=S dc，Ssc，S ds，S ss，我们考虑在第2节中描述的回归损失。3.3对于每个单独的任务，针对每个借口任务的二进制分类任务，以及最终的4路分类任务。我们还包括随机初始化的视频编码器作为基线。虽然四个不同的边界类在一起（S）输出最佳的总体性能，速度的变化（Sds，Sss）比等级的变化（Sdc，Sss和Ssc，Sss）给出更多的提升。此外，分类任务始终优于回归任务。我们认为这是由于它是一个更具挑战性的学习任务，并且无法利用原始源数据。此外，对于时间定位，模型需要理解片段是否完成，即，是否存在。边界存在，而不是边界确切在哪里。同样清楚的是，与基于分类的预训练相比，仍然存在显著的性能下降。仅利用边界信息不足以本地化动作，因为还需要全局语义信息。这是通过基于分类的预训练给出的。特征整合我们进一步研究了整合两种特征的不同方式，包括双流、双头、版本任务0.50.750.95平均随机-基线40.4424.996.85二十五点五十八分S直流调节器40.8826.645.73二十六点五六Sscreg42.4827.786.56二十七点七五Sdsreg44.0029.054.82二十八点七七Sdc，Ssscls44.3229.166.66二十九点十七分Ssc，Ssscls44.2429.206.25二十九点零九分Sds，Ssscls45.0029.896.47二十九点七五Scls45.3930.266.33二十九点九七香草-基线49.6434.167.68三十三点五九表5. 不同的特征融合方法。我们比较了三种融合方法：双流、双头和特征蒸馏。通过Charades上的2D-TAN的召回率（%）和ActivityNet 1.3数据集上的G-TAD的mAP（%）来测量性能。方法2D-TANG-TAD朝声0.50.70.50.750.95Avg香草39.7822.1549.6434.167.6833.592-Stream44.0124.9550.0934.667.9533.96双头39.9522.8549.5034.008.3833.54费特区44.6524.7349.6734.407.7433.74和特征蒸馏。我们在G-TAD和2D-TAN上进行实验。根据Tab。5，双流方法给出了时间本地化任务的最佳整体性能。在单网络解决方案中，特征提取优于多任务学习（2-head）。5. 结论在这项工作中，我们已经调查了未充分研究的问题，通过引入一种新的边界敏感的预文本（BSP）的任务，在视频中的时间定位任务的模型预训练。除了对修剪的视频数据进行常规预训练之外，我们利用了大量具有不同类型的合成时间边界信息的视频，并使用这些边界敏感视频探索了许多借口任务设计。我们广泛地评估了BSP模型上的三个代表性的时间定位任务，不同的输入方式和运动的复杂性。结果表明，我们的BSP可以大大增强香草模型与边界敏感的功能表示，产生竞争力或新的国家的最先进的性能，这些时间定位任务。致谢这项工作得到了阿卜杜拉国王科技大学（KAUST）赞助研究办公室的支持，通过视觉计算中心的资金。7228引用[1] Humam Alwassel、Dhruv Mahajan、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。在NeurIPS，2020年。3[2] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。用自然语言对视频中的元素进行本地化。InICCV，2017. 一、二、三、六[3] 白悦然，王莹莹，童云海，杨洋，刘启月，刘俊辉。边界内容图神经网络用于临时动作建议生成。在ECCV，2020年。二、三、六[4] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。SpeedNet：学习视频中的速度。在CVPR，2020年。第1、3条[5] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。SST：单流临时行动建议。在CVPR，2017年。第1、3条[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和Kinetics数据集。在CVPR，2017年。一、二、三[7] 放大图片作者：赵玉伟， SudheendraVijayanarasimhan，Bryan Sey- bold，David A. Ross，JiaDeng，and Rahul Sukthankar.重新思考用于时间动作定位的更快的R-CNN架构。在CVPR，2018年。三、六[8] Jingyuan Chen，Xinpeng Chen，Lin Ma，Zequn Jie，and Tat-Seng Chua.视频中的时间接地自然句子。在EMNLP，2018年。3[9] Shaoxiang Chen，Wenhao Jiang，Wei Liu，and Yu-GangJiang.学习模态互动在时间句子定位和事件字幕在录影。arXiv预印本，2020年。3[10] 陈少祥和蒋玉刚。基于句子查询的视频活动定位语义建议。在AAAI，2019年。7[11] 陈少祥和蒋玉刚。通过语言进行时间活动定位的层次视觉-文本图在ECCV，2020年。3[12] Cristian Rodriguez-Opazo 、 Edison Marrese-Taylor 、Fatemeh Sadat Saleh、Hongdong Li和Stephen Gould。使用引导注意的视频中自然语言查询的无建议时间矩定位。在WACV，2020年。二、七[13] Victor Escorcia ， Fabian Caba Heilbron ， Juan CarlosNiebles和Bernard Ghanem。DAP：行动理解的深度行动建议。在ECCV，2016年。3[14] Jiyang Gao，Kan Chen，and Ramakant Nevatia.CTAP：补充时间行动建议生成。ECCV，2018年。3[15] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. TALL ：通过语言查询的时间活动定位InICCV，2017. 二六七[16] Runzhou Ge，Jiyang Gao，Kan Chen，and Ram Nevatia.MAC：挖掘基于语言的时态本地化的活动概念。在WACV，2019年。3[17] Soham Ghosh、Anuva Agarwal、Zarana Parekh和Alexan-der Hauptmann。ExCL：使用自然语言描述的提取剪辑定位。在ACL，2019年。3[18] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的记忆增强密集预测编码。在ECCV，2020年。1[19] Tengda Han，Weidi Xie，and Andrew Zisserman.用于视频表示学习的自监督协同训练。在NeurIPS，2020年。1[20] Kai m ingHe，RossGirshick，andPiotrDoll a'r. 重新思考ImageNet预训练。在CVPR，2019年。2[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。2[22] Fabian Caba Heilbron、Wayner Barrios、Victor Escorcia

下载后可阅读完整内容，剩余1页未读，立即下载