基于对比编码器的半监督视频段落定位

144 浏览量更新于2023-10-25 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2466基于对比编码器的半监督视频段落基础北京大学计算机科学与工程学院未来媒体中心北京大学计算机科学与工程学院电子科技大学2美团3鹏程实验室摘要视频事件基础的目的是根据给定的自然语言查询，从未经裁剪的视频中检索最相关的以前的大多数作品集中在视频句子接地（VSG），它本地化的时刻与句子查询。最近，研究人员将此任务扩展到视频段落接地（VPG），通过检索段落中的多个事件然而，我们发现前VPG方法可能在上下文建模上表现不佳，并且高度依赖于视频段落注释。为了解决这个问题，我们提出了一种新的 VPG 方法称为半监督视频段落Transformer（SVPTR），它可以更有效地利用段落中的上下文信息，并显着减少对注释数据的依赖。我们的SVPTR方法包括两个关键部分：（1）一个基本模型VPTR，它使用对比编码器学习视频段落对齐，并解决了缺乏文本级上下文交互的问题;（2）一个具有多模态特征扰动的半监督学习框架，它降低了对注释训练数据的要求。我们在三个广泛使用的视频接地数据集上评估我们的模型ActivityNet-Caption、Charades-CD-OOD和TACoS。实验结果表明，我们的SVPTR方法在所有数据集上建立了新的最先进的性能。即使在较少的注释条件下，它也可以达到与最近的VPG方法相比具有竞争力的结果。1. 介绍在给定的未修剪的视频中定位事件是一个具有挑战性的视频理解任务，这是由[1，7]首次提出的。根据他们的工作，提出了一系列有前途的方法[16，20，45-然而，大多数现有的方法集中在视频句子接地（VSG）上，以“单-多“方法解决这个问题*通讯作者。穿红短裤的人发球。12.91秒13.63秒多-多定位0s15.67s28.73 秒73.78秒105.12秒130.59秒(b)视频段落接地图1.VSG和VPG的说明性示例：（a）VSG旨在用单个句子检索特定时刻。(b)VPG接收由多个句子组成的段落作为查询，并在未修剪的视频中定位多个事件。根据单个句子查询的不同事件。相比之下，如图1（b）所示，最近由[2]提出的视频段落接地（VPG）以“多-多“方式处理视频事件接地任务具体来说，在VPG任务中，给定描述多个事件的段落而不是单个句子，期望定位未修剪视频中的所有相关时刻。由于按时间顺序由多个句子组成的段落比单个句子输入包含更多的时间信息，因此对于视频中的时刻检索更有意义。以前的VPG方法[2，6，50]首先为每个句子生成pro-promise，然后学习这些建议之间的时序和语义关系以选择所需的候选项。然而，这些方法存在三个问题。首先，从语篇情态的角度来看，它们依赖于段语的时间信息例如，如图1（b）所示，段落中的所有句子都是描述性的。(a)视频句子接地段落：两个年轻女孩站在厨房里准备做饭。然后他们打开一盒布朗尼然后，两个人继续搅拌内容一旦饼干当他们完成后，他们2467两个女孩在厨房里做饭，每一个句子都与围绕烹饪主题的其他上下文相关。最近，非正式工作[30]试图用Transformer [34]解决VPG，这证明了全局上下文在此任务中起作用。然而，包括[30]在内的这些方法仍然存在第二个缺陷：在段落输入的情况下，它们只关注建议-句子匹配而忽略视频-段落匹配，这可能导致跨模态融合的失准。最后，与句子注释相比，视频段落注释数据更昂贵且难以生成。所有这些VPG方法都需要使用时间标记数据进行训练，这给这项任务带来了沉重的代价。虽然也有一些弱监督的视频接地方法[5，19，43]，但大多数是为了解决这些问题，我们首先提出了一种新的基础模型，称为视频段落Transformer（VPTR），它引入了对比学习和半监督学习到VPG。我们进一步将其扩展到半监督版本，半监督视频段落 Transformer（SVPTR），以减少对时间注释的依赖。具体来说，作为图2所示的我们提出的SVPTR方法的一般框架，为了探索隐藏在段落中的上下文信息，我们提取了分层文本特征，并在解码器中设计了一个基于上下文的查询机制。通过这种设计，单个句子查询与特定的单词和其他句子进行交互，从而可以提取更多的上下文信息。此外，为了避免建议时刻和句子之间的错位，对比学习被引入到多模态编码器中，以指导视频段落级别的如图所示2、对比编码器分别对两种模态进行编码，并通过自监督学习将它们投影到公共空间中。最后，提出了一种基于教师-学生框架的半监督学习VPG方法SVPTR，有效地减少了视频段落时间标注的消耗。这项工作的主要贡献如下：• 我们利用层次化的文本特征和基于句子的查询机制来挖掘段落查询中的上下文信息。它有效地提高了未修剪视频中事件定位的精度。• 我们结合自监督学习来优化视频段落接地中的跨模态融合特别地，我们在视频段落级别上设计了对比损失，而没有提出候选时刻。• 我们设计了一个VPG的半监督学习框架，并取得了令人满意的结果，数据据我们所知，我们是第一个探索视频段落接地的半监督学习为了评估所提出的SVPTR方法，我们对三个广泛使用的数据集进行了广泛的实验：ActivityNet-Caption[12]，Charades-CD-OOD [44]和TACoS [27]。综合的结果表明，我们的SVPTR方法的优越性相比，一个手的国家的最先进的VPG方法在全监督和半监督设置。2. 相关工作视频句子接地。视频句子接地（VSG）首先由[1，7]提出，它通过查询语句确定单个事件的VSG [1，7，8，45，48，50]中的早期作品采用两阶段模型，首先生成提案候选，然后联合建模这些视频片段和句子查询。同时，VSG方法[15，20，22，47]的一部分遵循无命题模型，并将VSG视为直接预测时间戳的回归任务。最近，研究人员[16，39，49，51]正在研究新的框架来定位目标事件。值得注意的是，Zhanget al. [49]将Trans- former [34]引入到VSG中以提高跨模态建模的质量，这证明了其对视频地面任务的有效性。此外，还有弱监督方法[5，19，43]从克服时间注释成本的角度解决VSG问题。由于缺乏位置信息，这些方法通常比流行的全监督方法性能差得多。最近，一项非正式的工作[18]提出了一种新的VSG框架，该框架通过半监督学习实现了注释成本和性能之间的权衡。然而，这些方法大多局限于单事件接地，不适合同时定位多个事件。视频段落接地。与VSG不同的是，VPG将视频事件的背景处理成一个“多-多”的问题。具体地，VPG中的自然语言查询是描述未修剪视频中的多个事件的长段落。VPG首先由Bao等人定义。[2]作为密集视频字幕的逆问题[35]。在VPG的这项初步工作[2]中，他们首先将两种以前的方法[6，50]扩展到基线，然后设计了一种新的VPG模型DepNet。在此之后，最近的一项非正式工作[30]提出了一种利用Transformer [34]来处理此任务的方法。尽管与传统的VSG方法相比，上述方法取得了很好的改进，但它们忽略了隐藏在段落中的关键上下文信息或段落输入引起的注释成本高，这激励我们开展这项工作。2468··VPGSeii=1Se我i=1我我i=1=J j=1图2.我们的SVPTR方法概述。顶部的第一部分显示了我们方法的半监督框架，它维护了一个教师模型和一个学生模型。两个模型通过多模态特征扰动接收不同的输入。我们使用指数移动平均（EMA）而不是反向传播来更新教师模型。黄色框中的第二部分说明了建议的基础模型VPTR的细节。半监督学习。在半监督学习中，VPG任务可以用公式表示如下：(SSL)是机器学习中的一类主要方法，从有限的标记数据和大量的未标记数据中学习M（V，P）→ {（t，t）}K ，t t，（1）一般来说，它可以大致分为两种类型：伪标签生成和一致性正则化。前者[14，25，40]通常通过在标记数据上训练的模型进行预测，以估算未标记数据的近似标签，而后者[13，31]鼓励模型减少扰动数据点的预测之间的差异最近，一些作品[10，18，37]将半监督学习引入视频理解任务。Ji等人[10]基于平均教师框架设计了两个连续扰动。Wang等人[37]结合了自我监督学习和SSL，以减少对时间行动建议的标记数据的依赖。同时，Luoet al. [18]最近探索了VSG中的SSL，这与我们的工作最相关。其中（ts，te）i是P中第i个句子3.2.视频段落Transformer示于图2.首先提出了一个基本模型VPTR，它解决了语境信息的学习和两种模态的对齐问题。视频模态。给定一个未修剪的视频V与lV帧，我们把它们分成一组小的剪辑，没有重叠，每个剪辑包含相同的常数的帧。之后，我们用预先训练的C3D主干提取视觉特征[32]，其中IF表示视频特征的总长度设mv（）为3D CNN骨架和φv（）是具有正常-化，视频特征提取可以表示为FF=φ（m（V））={f}l.3. 该方法v v vii=13.1.问题公式化给定一个未修剪的视频V和一个由K个句子组成的段落P，我们的目标是定位视频中与这些句子最相关的具体来说，我们代表未经修剪的文本模态。VSG [15，16，51]中的大多数现有作品将查询表示为一组单词级特征。然而，在VPG中，我们从par-graph查询中接收多个句子，其中每个句子包含不同的语义。为此，我们从段落输入中分层提取文本特征。具体来说，我们首先从整个段落中提取词级特征进行学习视频V作为V={v}lV 其中IV是帧号，全局语义接下来，我们摘录句子-弧菌段落P表示为P={Si}K哪里每个句子的水平特征。给予S表示- 段落中的第10句。让i=1被段落查询{S}lS{W}lW，我们使用2-一个目标视频片段的开始时间和结束时间重新分层双向GRU以获得词级特征原始特征未标记数据标记数据视频功能随机移位截形六.D..EOSVPTR（教师）第五句：...文本嵌入EMA第二条：SSSEENTENNCEEE。3.第三章。第四章：第二句：SSEEntennceee。3.第三章。第四章：第五句：条款1：第一句：...垫随机掩码增强特征VPTR（学生）两个年轻女孩都站球出界了...的界限。......位置嵌入（P.E.）移动视频特征...视频体育对比编码器规范回归C级联标记增强特征C无障碍字体育简体中文隐藏的单词嵌入GRU规范对比编码器解码器总句话体育 ...GRUC3d手套我ts和te=2469K··.Σ。ΣS我i=1Kk−1S我i=1vWWvWvWF+，F+，F−F+，F+，F−S.Σ。lWSWFw={wj}j=1，其中l，l表示sen-1的数目。段落中的时态和词尊重第j个词的特征，而不注意第j个词的特征。此外，我们将段落分成句子，每个句子都由GRU单独编码。段落中第i个句子的句子级特征是通过两个方向上的隐藏状态的级联获得的，记为si。从而得到了整个段落的段落级特征(a) 对比编码器的一个例子F ={s}lS.形式上，语言特征提取可以表示如下：.si= BiGRU。我，我，wj=BiGRU（wj，hj−1），The man serves the man with red球又来了。短裤发球。其中wi表示第i个句子中的第k个单词，时间信息上下文信息简体中文h是GRU的隐藏状态。之后，通过具有归一化φw（）的投影层来处理词级特征Fw，这类似于视频模态。对比编码器。在多个成功案例的启发下，模式Transformer [33]，最近的工作[49]将其引入VSG并取得了有竞争力的结果。然而，我们观察到编码器的混合输入导致学习模态内信息的退化。为了保持模态内建模并获得VPG的模态间对齐，我们设计了一个对比编码器，通过自我监督学习语义一致性[42]。如图3（a）所示，我们的对比编码器将视频特征Fv和单词级文本特征Fw投影到一个公共子空间中进行语义对齐[41]。目标-我们的对比度编码器的目的是拉积极的视频(b) 句子级上下文建模图3. VPTR的详细说明。(a)对比编码器将具有相似语义的多模态对投影得更近。圆形和三角形分别表示文本特征和视频(b)基于句子的解码器维护句子级别的时间和上下文信息。线条的粗细代表了上下文连接的强度。这些句子之间的上下文信息挖掘不足。为了克服这一缺陷，我们的解码器从段落查询中接收段落级特征，而不是可学习的嵌入。如图3（b）所示，该机制进行了句子级上下文建模，使每个句子在时间和上下文上相关。具体地说，给定双级特征F={s}l，和段落对放在一起，把否定的段落对推开。具体地，如图1所示2、我们应用反式-前一个编码器[3] Φ（）和归一化层Norm，以获得传输的视频特征F_ v=Norm（Φ（F_v））和第二个特征F_ w=Norm（Φ（F_w））。另外，我们构造三元元组F+，F+，F−，其中F+，F+我们首先使用位置嵌入层来编码TEM，通过自我注意层进行句子之间的交互之后，每个句子查询生成用于经由交叉注意层描述来自多模态记忆的利用层次化文本特征，是一对双胞胎，F+，F−aneg ativ epair，对于我们的对比学习设Tv和Tw表示三元组vWW和Wvv分别，解码器来学习更多的上下文信息。最后，采用并行回归层来计算时间-每一个细节的夯实的程序传输损耗可以表示为：T=MLP（M（F，F）），（4）LCT=2016年10月24日，中国科学院院士、中国科学院院士李世石（Tv）+2016年01月01日@上午10时30分（Tw），，（三）SSSESENNNe. - 是的句话句子1：两个女孩站在厨房里准备做饭。S eSneSenSennne. .1.我的朋友：球出界了。S eSeeSennttetenenccee.e. .tnetenece1.：一个棕色的沙网球玩体育。球过了的界限。球过了又一次的束缚穿绿衣服的人捡起了球。（二）特征还可以与特定的单词交互，基于码元的解码器被公式化如下：2470L·伊什（F<$ +，F<$ +）F<$−F−其中，（·）表示Transformerv w w v其中T（）[19]确保正对同时，将编码后的视频和段落特征串接在一起，作为解码器的存储器。令[;]表示连接操作，我们获得多模态记忆F=[Fv;Fw]。基于句子的解码器在以前的工作中，多个句子带来了更多的时间信息，然而，在句子层次上进行位置嵌入T是由1S个有效时间戳组成的定位结果。3.3.半监督VPTR基于教师-学生框架，我们将VPTR扩展为半监督VPTR（SVPTR），它由两个基本模型和一个多模态特征扰动模块组成。有了这样一个半监督学习管道，我们大大减少了注释数据的消耗。2471Σ1LLΣLLΣ我特征扰动。在以前关于半监督学习的工作中[31，37]，已经发现随机扰动对于提高模型的鲁棒性是有效的。此外，扰动也可以被视为监督损失引导我们的模型从注释数据中学习位置信息。具体地，对于总共N个事件，我们将监督损失表示如下：有助于自我监督学习的数据增强如图2所示，我们在两种模态上进行特征扰动。对于视频模态，我们遵循[37]，NSP=Ni=1.Ti−T.Ti，Ti+Lattn（ai，ai），（八）采用随机时间移位作为我们的视频扰动模块。具体来说，我们随机选择µ通道首先，向前移动µ/2个特征通道，然后向后移动其他µ/2个通道。与传统的时间移位不同，随机选择带来了更多的多样性进入扰动，这增强了半监督学习和自监督学习的视频模态特征。在文本情态方面，受BERT [4]的启发，我们随机屏蔽整个段落中的一部分词。此外，我们还在两种模态上应用具有概率超参数λ的丢弃教师框架。 Mean Teacher [31]是一种基于一致性正则化的半监督学习方法。如图2所示，保持两个基本模型：学生VPTR模型Γ和教师VPTR模型Γ′。学生模型Γ从注释的数据中学习，对比编码器也允许我们用自监督学习来训练它。教师模型Γ'是学生模型的复制品，其权重在训练期间通过指数移动平均（EMA）策略使用一系列学生模型进行更新。具体而言，平均教师框架可以表述如下：Γ′t=τΓ′t−1+（1−τ）Γt，（5）其中t、τ分别表示训练迭代次数和平滑系数每次迭代的输入由标记和未标记的数据组成。在训练期间，学生VPTR从特征扰动模块接收输入并预测时间戳，而教师VPTR由原始数据提供以获得预测。使用来自两个模型的预测，我们计算一致性损失，这导致我们的模型联合从标记和未标记数据中学习：N其中，Ti、Ti分别表示预测和地面实况iou是基于GIoU损失的时间IoU损失[28]。attn是参考[20]的解码器中的交叉注意层的注意引导损失，其中，a1和a2表示有效视频特征的注意权重和第i个α、β、γ是用于平衡损失的不同部分的超参数。4. 实验4.1.实验设置根据之前的VPG方法[2，50]，我们在三个基准数据集上评估了我们的SVPTR方法：ActivityNet-Caption（Activity）。[12]它是视频接地任务中最大的数据集，包含约20k开放域视频。平均每个视频包含3.65个查询，每个查询平均有13.48个单词。由于原始测试集没有发布，我们遵循之前的工作[2]，并将数据集分为10009/37421，4917/17505和4885/17031视频/句子，其中val 2用于测试。Charades-CD-OOD（Charades）. [7，44]该数据集包含6672个室内日常生活视频，由 Gao 等人首次发布。 [7] 即 Charades-STA 。为了更好地评估现有VSG 方法的有效性，Yuanet al.[44]重新组织原始数据集，并将其分成分别具有4563/11071、333/859和1442/3375视频/句子的训练、验证和测试OODTACoS。[27，29]它基于MPII烹饪复合活动视频语料库[29]，并由Regneri等人丰富。[27]使用自然语言描述和节奏注释。所有的视频都在厨房里，视频比其他两个数据集长得多。一CS=1Γ（X）Nii=1-Γ′（X′）<$2，（6）标准分割包括用于训练、验证和测试的75/10146、27/4589和25/4083视频/句子对。其中，X和X′分别表示增强特征和原始特征，N表示每个输入中的事件总数3.4.目标函数该方法的损失函数由监督损失、对比损失和一致性损失三部分组成。我们将总体损失描述如下：Ltotal= αLSP+ βLCT+ γLCS。（七）实施详情。根据之前的工作[2，7，50]，我们使用未经微调的预训练C3D[32]模型来提取视频特征，并采用GLoVe嵌入[24]来接收文本矢量表示。对于Activity，视频特征通过PCA进行预处理[12]。首先将所有视频特征均匀采样到固定长度L。对于短于L的视频，我们使用零填充，并使用填充掩码来避免无效的填充我们将所有数据集的编码器和解码器层的数量设置为2。平滑系数-2472××--联系我们--平均教师中EMA的cient设置为0.999。在特征扰动中，µ和λ分别设置为64和0.2。我们使用Adam optimizer [11]训练模型，它具有固定的学习率4 10−5。权重衰减因子对于三个数据集设置为1 10−5此外，我们遵循大多数视频接地工作中采用的度量，表示为Recall@k，IoU=m，其中k是生成的候选项的数量，m是阈值。在我们的方法中，k被设置为1，因为SVPTR直接预测时间戳，而m被设置为0.3、0.5、0.7、0.3、0.5、0.7和0.1、0.3、0.5，用于Activity 、Charades和TACoS 恢复。我们还采用了mIoU指标，它显示了我们模型的平均效果。补充材料中报告了更详细的实施情况。4.2. 总体比较结果我们将我们提出的SVPTR与现有的最先进的VPG方法DepNet [2]以及Bao等人报道的两种自然扩展方法Beam Search和3D-TPN进行了比较。[2]的文件。此外，为了显示该模型在探索隐藏在段落中的上下文信息方面的优越性，我们还将该模型与最近的VSG方法进行了比较，包括 CTRL [7] ， ACRN [17] ， WSSL[5]，ABLR[46]，[38]，2D-TAN [50]，DRN [47]，CBP [36]，LGI[20]，CPNet [15]、BPNet [39]、CBLN [16]、DeNet [51]、MATN[49]，I2 N [21].此外，Luoet al. [18]最近将半监督学习引入VSG，我们比较了他们在相同设置下对Charades的非正式工作。请注意，*DepNet上的实验是我们基于开源项目[2]实现的。比较VSG方法对Charades的结果见[44]。表1.与活动的最新技术进行比较方法IoU=0.3IoU=0.5IoU=0.7MiouLGI [20]（CVPR58.5341.5123.0741.13DRN [47]（CVPR-45.4524.36-CPNet [15]（AAAI-40.5621.6340.65BPNet [39]（AAAI58.9842.0724.6942.11CBLN [16]（CVPR66.3448.1227.6-[51]第51话61.9343.79--MATN [49]（CVPR-48.0231.78-[6]第六话62.5346.4327.12-3D-TPN [50]（AAAI67.5651.4930.92-[2]第二届中国国际汽车工业展览会72.8155.9133.46-SVPTR（我们的）78.0761.7038.3655.91与全监督学习的比较。为了公平比较，我们首先用100%标记的数据训练我们的方法，并将测试结果与最近的SOTA全监督方法进行比较。表1、表2和表3中分别报告了Activ- ity、Charades和TACoS的实验结果。基于这些结果，我们列出了以下观察结果：（1）在所有数据集上，我们提出的SVPTR在相同的标记比例下，在大多数指标不-表2.与最先进的猜字游戏进行比较。方法IoU=0.3IoU=0.5IoU=0.7MiouCTRL [7]（ICCV44.9730.7311.97-[17]第十七届中国国际汽车工业展览会44.6930.0311.89-ABLR [46]（AAAI44.6231.5711.38-TSP-PRL [38]（AAAI31.9319.376.20-2D-TAN [50]（AAAI43.4530.7711.75-DRN [47]（CVPR40.4530.4315.91-[18]第十八话48.3030.399.79-*DepNet [2]（AAAI45.6127.5910.6929.30SVPTR（我们的）55.1432.4415.5336.01表3.与TACoS上的最新技术进行比较方法IoU=0.1IoU=0.3IoU=0.5MiouDRN [47]（CVPR--23.17-[26]第二十六话39.5533.87--2D-TAN [50]（AAAI47.5937.29--BPNet [39]（AAAI-25.9620.9619.53[21]第21届中国国际航空航天博览会-31.4729.25-CBLN [16]（CVPR'21）49.1638.9827.65-CPNet [15]（AAAI-42.6128.2928.69[6]第六话48.4638.1425.72-3D-TPN [50]（AAAI55.0540.3126.54-[2]第二届中国国际汽车工业展览会56.1041.3427.16-SVPTR（我们的）67.9147.8928.2231.42值得注意的是，如表1所示，在100%标记数据的情况下，我们的方法在与DepNet一致的所有度量上带来至少 4.9% 的改进。（ 2 ）与 VSG 方法相比，我们的SVPTR方法也显示出明显的优势。原因是我们的SVPTR方法接收一个段落作为输入，而不是一个单独的句子。通过设计良好的基于模态的解码器，我们的SVPTR方法有效地挖掘句子之间的上下文信息，并从两个模态中联合学习更多的时间特征。(3)与以前的工作相比，我们的SVPTR方法显示优越性的mIoU度量。实验结果表明，该方法具有更稳定的性能，定位精度更高。与半监督学习的比较。我们列出了SVPTR方法的半监督训练结果，并将其与表4中的几种最先进的方法进行了比较，其中ρ1，ρ2，ρ3遵循上述三个数据集的相同设置。“结果表明：（1）SVPTR方法成功地利用了未标记数据，显著提高了接地性能。具体来说，在相同的情况下，我们的SVPTR方法在所有数据集上的表现都明显优于DepNet。(2)仅使用更少的标记数据，我们的方法实现了与完全监督方法相似或更高的性能兼容性。它证明了我们的SVPTR方法的优越性，减少了对昂贵的视频段落注释的依赖，并更有效地利用标记的数据（3）提出的方法2473无上下文时间随机播放无时间单向性能（%）性能（%）L60L55453015SVPTR发现一个公平的时间注释成本和性能之间的权衡。与弱监督方法相比，在R1@IoU=0.5的度量下，我们的方法在Activity上提高了20%以上，在Charades上提高了约(4)实验结果表明，该方法比基本模型VPTR具有更好的性能，充分体现了半监督学习策略的优越性。然而，我们也注意到，在TACoS上，6462605856545250484644102030405060708090 100标示数据（%）4038363432302826102030405060708090 100标示数据（%）数据集，SVPTR的优势被削弱。一个可能的原因是该数据集中视频的多样性较差，这对训练鲁棒模型有负面影响表4.与使用较少时间注释的最新方法进行比较。数据集类型方法IoU=ρ1IoU=ρ2IoU=ρ3Miou活动FS三维全肠外营养67.5651.4930.92-DepNet@100%72.8155.9133.46-WSWSSL41.9823.34-28.23*DepNet@10%61.4645.1426.7844.11SSVPTR@10%72.8053.1429.0750.08SVPTR@10%73.3956.7232.7851.98字谜FSSTLG@100%48.3030.399.79-*DepNet@100%45.6127.5910.6929.30WSWSSL35.8623.678.27-STLG@30%46.1529.439.38-SS*DepNet@30%43.0325.0710.1428.09VPTR@30%45.1324.9810.2228.92SVPTR@30%50.3128.5012.2732.13玉米饼FS三维全肠外营养55.0540.3126.54-DepNet@100%56.141.3427.16-*DepNet@50%40.2726.9516.5418.68SSVPTR@50%61.3140.5921.3926.59SVPTR@50%63.0640.1920.0526.104.3. 进一步分析结构的有效性了解每个模块如何图4.分析活动数据集上注释的比例。质量的半监督学习框架，我们评估了我们的VPTR和SVPTR的不同比例的标签数据。为了公平比较，我们还在相同条件下训练了最近的方法DepNet。限于篇幅，我们报告的实验结果的活动。更多有关猜字游戏的结果，请参阅补充资料。如示于图（1）我们的两个模型VPTR和完全模型SVPTR的性能都明显优于以前的方法DepNet，这表明了我们方法的鲁棒性和有效性(2)与基本模型VPTR相比，SVPTR取得了很好的效果，特别是在标注数据较少的情况下。实验结果表明，该方法具有很好的优越性，降低了对标注数据的要求. (3)我们的方法的性能可以提高更多的标记数据。特别是，与10%标记数据的结果相比，我们的SVPTR方法在两个度量上都高出约5%75的SVPTR执行接地，我们进行struc-7050在活动和Charades数据集上进行的真实消融研究，10%和30%标记数据。如Ta-5540所表5，我们研究了以下组分的有效性：50高级查询（S.Q.），多模式编码（M.E.），40 25对比度丢失（LCT）、一致性丢失（LCS）和特征2035扰动（F.P.）。根据结果，我们可以得到-25R1@0.3R1@0.5R1@0.7Miou10R1@0.3R1@0.5R1@0.7Miou（1）多模态编码执行信号，ActivityNet-标题，标签@100%Charades-CD-OOD，标签@100%在VPG中的重要作用。具体来说，通过多模态编码，两个数据集上大多数度量的精度都得到了提高。原因是它允许词级文本特征和剪辑级视频特征之间的细粒度跨模态交互。(2)一致性损失CS对于整个半监督学习框架是必不可少的。如果没有CS，模型在未标记数据上的泛化能力将大大降低，从而导致在半监督条件下的性能变差。(3)使用对比损失和特征扰动提高了最终结果。一个可能的原因是视频扰动为多模态特征带来了更多的多样性，这已经被证明[9，23]对于对比学习至关重要注释比例的有效性研究图5.分析与相关层面的背景。上下文的有效性。我们设计了四个消融模型来研究段落的上下文信息如何影响接地质量，如图5所示：（1）(2) “(3) “(4) “比较这些结果，我们可以观察到，我们的完全模型在接地精度上取得了显着的提高，这再次证明了上下文信息是VPTRDepNet（AAAI'21）VPTRDepNet（AAAI'21）无上下文时间随机播放无时间单向召回@1，IoU=0.5（%）召回@1，IoU=0.7（%）45353024740s22.81秒136.87s114.06s148.27s182.49秒0秒30.11s36.50s114.05s117.67s182.49s29.06s0s32.86秒121.50s116.36s182.46s3.52秒14.61秒0s11.47秒29.47秒44.37秒32.65s查询表5.对10%标记数据的活动和30%标记数据的字谜进行消融研究S.Q.法医LCTL硫脲F.P.活动字谜IoU=0.3IoU=0.5IoU=0.7MiouIoU=0.3IoU=0.5IoU=0.7Miou√73.2473.6772.8074.3673.4674.6973.3952.9853.4153.1454.5053.7855.9856.7228.4528.5629.0730.0029.5731.6332.7850.0250.3450.1451.0450.4251.7051.9846.0147.3845.1349.0149.4446.8750.3126.1628.3624.9829.5429.8727.0228.5011.6710.6710.2211.4410.9410.8112.2730.2530.8128.9231.7131.5130.2532.14√√√√√√√√√√√√√√√√√√√√√这对于在未经修剪的视频中定位事件至关重要然而，我们也注意到，一个根本原因是，与后者相比，Charades包含大量由稀疏事件组成的视频因此，它导致了一个缺乏的事件级上下文信息，削弱了我们的SVPTR方法的优势。man stands in a bull ring.一个一只公牛向那个人跑那个人被公牛击中了这名男子然后跑来跑去被公牛追赶地面实况0s6.22秒3.33秒13.32s11.32s26.42s44.40s27.30sSVPTR（我们的）（一）一个孩子正在一条空荡荡的街道上滑滑板另一个孩子在第一个孩子后面滑板然后他们两个一起沿着街道之字形前进地面实况DepNet（AAAI'21）SVPTR（我们的）（b）第（1）款图6.活动数据集上的两个示例的可视化。一个女人对着镜头说话，开始包装一个盒子。她把纸沿着盒子推了一圈，然后把两边塞进去。她用胶带把盒子粘下来，然后把它呈现在摄像机前。时间145.01s142.88s210.05s0s63.98s60.78秒地面实况图7.跨模态注意力权重的可视化。定性分析为了说明所提出的SVPTR方法的定位质量，我们可视化两个局部-使用不同长度的视频进行示例化，并将其与DepNet的结果进行比较[2]。在图6（a）中，我们提出的SVPTR方法精确地定位了所有的目标时刻，而先前的方法DepNet未能检索到第二个事件。此外，如图所示。如图6（b）所示，长视频示例更具挑战性，因为对理解上下文的要求很高。DepNet只关注命题-句子匹配，忽略了段落中的关键上下文，对第一个事件给出了绝对错误的结果，其中几乎包含了整个视频。相比之下，我们的SVPTR方法有效地避免了这个致命的缺陷，视频段落对齐和段落级上下文建模。此外，为了展示所提出的方法SVPTR是如何工作的，我们可视化了来自基于字幕的解码器的句子和视频特征之间的交叉注意权重如图7所示，我们可以观察到每个句子在相关时刻上获得更多的注意力，并正确地保持时间顺序。5. 结论在这项工作中，我们引入了一种新的视频段落接地（ VPG ）框架，称为半监督视频段落 Transformer（SVPTR），从段落中学习上下文信息，并显着减少对注释数据的依赖我们在三个公共数据集上对SVPTR方法进行了评估，并进行了大量的实验来证明其有效性和鲁棒性。结果表明，我们提出的SVPTR模型取得了有竞争力的结果与较少的注释数据。此外，通过完全监督的训练，SVPTR优于最新的VPG方法。在未来的工作中，我们将在此基础上进一步研究性能和成本之间的权衡，我们相信这将激发更多的研究视频事件接地。6. 确认这项工作得到了国家自然科学基金资助（编号61976049和62072080）;四川省科学技术计划（编号2019 ZDZX 0008，2020 YFS 0057）和美团的部分支持。4.16s2.78sDepNet（AAAI41.63s29.13秒 44.4秒12.49秒33.30秒2475引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议上，第5803一、二[2] 包培军，钱铮，穆亚东。密集的事件在视频中接地。在AAAI人工智能会议上，第920-928页，2021年。一二四五六八[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议上，第12346卷，第213-229页4[4] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会会议：人类语言技术，第4171-4186页，2019年。5[5] Xuguang Duan ， Wen-bing Huang ， Chuang Gan ，Jingdong Wang，Wenwu Zhu，and Junzhou Huang.视频中的弱神经信息处理系统年会，第3063-3073页，2018年二、六[6] Markus Freitag和Yaser Al-Onaizan。用于神经机器翻译的波束搜索策略。在第一次神经机器翻译研讨会论文集，第56- 60页一、二、六[7] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。在IEEE计算机视觉国际会议上，第5267-5275页，2017年。一、二、五、六[8] Soham Ghosh ， Anuva Agarwal ， Zarana Parekh ， andAlexan- der G.豪普特曼Excl：使用自然语言描述的提取剪辑本地化。在计算语言学协会北美分会上，第1984-1990页，2019年。2[9] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在IEEE计算机

下载后可阅读完整内容，剩余1页未读，立即下载