基于高斯对比建议学习的时间句子背景定位方法

181 浏览量更新于2023-10-25 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15555基于高斯对比建议学习郑明航1黄艳杰1陈庆超2彭宇欣1刘扬1，3*1王轩北京大学计算机技术研究院2北京大学国家健康数据科学研究院3北京通用人工智能研究{明航，庆超.陈，彭宇新，杨柳}@ pku.edu.cn摘要时间句子背景的目的是检测与自然语言相问：一个男人戴上手套准备清理车上的雪………积极的建议否定的建议来自未修剪视频的查询。由于标记时间边界是劳动密集型和主观的，弱监督方法最近受到越来越多的关注。现有的弱监督方法大多通过滑动窗口生成建议，建议内容无关，质量不高。此外，他们训练他们的(a) 现有方法问：一个男人戴上手套准备清理车上的雪。55.6秒GT90.9秒时间模型来区分积极的视觉语言对与消极的随机收集从其他视频，忽略，否定的建议积极的建议(b) 我们否定的建议在同一个视频中插入高度混淆的视频片段。在本文中，我们提出了对比建议学习（CPL），以克服上述局限性。具体来说，我们使用多个可学习的高斯函数来生成同一视频中的积极和消极建议，这些建议可以表征长视频中的多个事件。然后，我们提出了一个可控的容易硬否定建议挖掘策略，收集同一视频中的否定样本，这可以简化模型优化，使CPL区分高度混乱的场景。实验表明，该方法在Charades-STA和Activi-tyNet Captions数据集上取得了较好的性能。代码和型号可在https://github.com/minghangz/cpl获得。1. 介绍时间句子基础旨在定位由未修剪视频中的给定自由形式的自然语言查询描述的时刻的开始和结束时间。时空句子背景技术使我们能够有效地找到感兴趣的视频时刻，而不是遍历整个视频，这在视频监控[6]，视频摘要[20]，*通讯作者图1. (a)现有的方法通过滑动窗口生成建议，并侧重于将负面建议与其他视频区分开来。(b)我们使用多个可学习的高斯函数来生成肯定和否定的建议，以表征事件的时间结构。我们的负面建议是在同一个视频和收集从容易到难。等全监督时态句子基础近年来取得了巨大的成就，但它需要对每个查询的时态边界进行人工标注因此，在训练过程中只需要视频和自然语言查询的弱监督学习方案由于其低标注成本和合理的效率而受到越来越多的关注。现有的弱监督解决方案采用基于多实例学习（MIL）或基于重构的范例。具体而言，基于MIL的方法[11，12，19，21]通常将匹配和不匹配的视频-语言对定义为正样本和负样本，并通过对齐视频级视觉-文本关系来学习潜在的跨模态语义空间基于重构的方法[18，24，39]通过具有重构损失的联合学习来解决任务，假设建议重量一个人出现拿出手套戴上手套拿起刷子一个戴手套的人用刷子（开始）（climax）（ending）轻松硬清扫积雪硬容易………15556与文本匹配的查询应该最好地重建整个查询。然而，这两种范例都具有以下限制：首先，大多数现有方法通过滑动窗口为所有样本生成相同的propos- als（如图所示）。1（a）），而不管其内容和难度，这是低效和低质量的。CNM [39]提出使用可学习的高斯掩码作为可以表征事件的固有时间结构的正向建议然而，未经裁剪的长视频通常包括若干事件，并且这些事件通常包含相似的特征和背景。这使得该模型很容易优化的一些次优的解决方案时，只有预测，ing一个积极的建议，从而降低召回率。CNM [39]直接用正高斯掩模减一作为负掩模，描述负事件的时间结构是不现实的，模型容易区分。其次，大多数现有方法严重依赖于随机选择的阴性样本（其他未配对视频）的质量，如图1（a）所示，这些样本通常很容易区分，无法提供强有力的监督信号。然而，该模型对于时间句子基础所需要的是区分同一视频中高度混淆的视频片段（例如，如图1（b）所示，一个人戴手套，一个人戴手套）。然而，在训练初期，直接将正面建议之外的视频片段作为负面建议使用，会导致一些负面建议被错误识别，不利于模型训练为了解决上述限制，我们引入了一种新的弱监督方法，即对比建议学习（CPL），通过生成多个内容相关的建议，并在同一视频中从容易到困难地挖掘负面样本。一方面，为了表征长视频中的多个事件，我们使用多个可学习的高斯函数来生成正（图1（b）中的绿色曲线）和负（图1（b）中的橙色曲线）方案，其中负方案应该在正方案之外并且不覆盖对应的正方案1。此外，为了区分每个视频中的积极和消极建议，我们引入整个视频作为参考点，因为它包含地面真相和大量冗余信息。我们要求肯定的建议和查询之间的语义对齐度应该高于整个视频的语义对齐度，而否定的建议的语义对齐度应该较低。另一方面，与从未配对视频中随机选择的否定样本学习相反，我们提出了一种可控的易硬否定建议挖掘策略。我们在同一个视频中收集负面建议并执行负面建议-1我们在图1（b）中绘制了一个正面建议作为示例，实际上，我们通过高斯函数生成多个正面建议以提高召回率。在早期训练阶段，ALS进一步远离正的，而在后期阶段学习更接近正的建议。因为我们观察到，离正面提议较近的负面提议通常比离正面提议较远的更难区分，这主要是由于事件的平滑过渡（类似于图1（b）所示的背景和语义）。这种动态课程策略挖掘样本可以逐渐减少模糊性，从而有助于学习可靠的视频内样本并简化模型优化。我们的贡献总结如下：（1）我们提出使用多个高斯函数从同一视频中生成通过引入整个视频作为参考点，我们的亲-视频生成是内容相关的和有效的。(2)我们提出了一种可控的Easy to Hard Negative样本挖掘策略，以收集视频中的负面建议并简化模型优化。这使我们的网络能够区分高度混乱的场景。(3)Charades-STA [10]和ActivityNet Captions数据集[2，15]上的实验证明，我们的方法显着优于现有的弱监督方法。2. 相关工作完全监督的时间句子基础。在完全监督设置中，在训练中需要每个视频和查询对的精确开始和结束时间-标记注释[10，22，30，31，38，40]。具体来说，TALL [10]首次尝试集成查询和视频功能，以直接预测开始和结束时间戳。结构化多级交互网络（SMIN）[31]构建了一个结构化多级交互模块，以优化查询和视频片段之间的逻辑关系。然而，完全监督的方法需要费力的人工注释的时间边界，从而限制了其可扩展性和实用性。此外，如[22]中所研究的，时间边界注释有时是主观的，并且可能在不同注释器之间不一致。这些问题没有被许多现有的方法充分考虑。弱监督的时间句子基础。与完全监督设置不同，在弱监督时间句子基础的训练期间，开始和首先，在[5，12，18，21，26，32]中提出的方法使用滑动窗口来生成建议。这些方案与内容无关，严重依赖于对特定数据集的地面真值长度分布的先验知识，给预处理带来了大量额外的计算开销。[13]建议使用可学习的网络来生成门形掩码，作为动作本地化任务的建议然而，门形掩码假设提案中的所有帧都同等重要，这不是15557LLL联系我们最适合句子本地化，因为自由形式的自然语言查询中描述的事件具有更复杂的时间结构。CNM [39]提出使用单个可学习的高斯掩码作为正建议，并使用一减去高斯掩码作为负建议。然而，未经修剪的长视频通常包括具有相似人物和背景的若干事件，这使得仅预测单个提议容易优化到次优解。此外，这种方法没有反映出负面提案的时间结构，这是很容易的模型来区分它们与积极的。在我们的方法中，我们利用多个高斯函数来有效地生成具有可学习参数的正和负内容相关建议，并设计多样性损失以要求这些高斯函数专注于视频中的不同事件这些建议将共同参与推理过程，从中选择最相关的建议其次，一些方法，如弱监督语义完备网络（SCN）[18]，假设与查询配对的视频片段可以更好地重建句子。然而，他们没有考虑未配对视频和查询中包含的在我们的方法中，我们也使用重建机制来衡量语义对齐，但利用否定建议进行对比学习。此外，其他作品[12，21，35]训练模型以区分对齐的视频查询对和从其他视频中收集的非对齐的视频查询对。然而，他们的视频查询样本通常很容易区分，忽略了模型真正需要区分的是同一视频中的高度混淆片段此外，RTBPN[36]和CNM [39]考虑了由视频查询对组成的帧内和帧间样本的对抗。然而，如果在训练的早期阶段犯了错误，随着训练的继续，正确的视频片段将被抑制，这将损害模型的训练在我们的算法中，我们收集积极建议之外的消极建议我们的负面建议更难区分，使我们的网络能够区分高度混乱的场景。另外，在训练初期，我们的负面建议与正面建议相差甚远，这就减少了在训练初期正面建议准确率不高的情况下引入负面建议课程学习。课程学习方法模仿人类的学习行为[1，25]。它有许多应用（例如，图像分类[27]、目标检测[16]等）。据我们所知，我们第一次尝试探索了一种基于时间句的简单到困难的否定建议挖掘策略，并验证了其有效性。3. 该方法3.1. 总体框架CPL包括建议生成模块和掩模条件重建模块（在图1中）。2）。对于建议生成模块，我们使用高斯掩码来表示同一视频中的正面和负面建议。每个事件中的帧特征将基于高斯曲线中的权重进行聚合，高斯曲线表征事件的固有时间结构为了区分正面和负面的建议，我们引入整个视频作为参考，要求正面的建议和查询之间的语义相似度应该高于参考和负面的建议的语义相似度应该较低。为了简化模型优化，我们在同一个视频中挖掘否定的建议，从容易到困难收集它们（逐渐接近积极的建议，但从不重叠，如图3所示）。请注意，我们生成了多个积极的建议，并试图通过多样性损失div使它们多样化，以提高召回率。对于掩码条件重建模块，我们使用每个建议中的视频帧通过Transformer来重建原始查询，以测量建议-查询对齐，假设对齐更好的建议可以更好地重建查询。由于否定的建议不包含任何框架在地面真相，我们不应该要求他们重建查询。因此，重构损失rec仅由正建议和参考的交叉熵损失组成。最后，引入了一种视频内对比度损失IVC，以保证正向建议的重建结果优于整个视频，而负向建议的重建结果应该更差。3.2. 多个积极建议生成在该模块中，我们融合了视频和文本的信息在CNM[39]之后，我们使用高斯掩码作为建议，它可以表征事件的固有时间结构。与CNM [39]仅生成单个积极提案不同，我们同时预测多个积极提案，并通过多样性损失鼓励这些提案不同。由于长视频通常包含多个事件，我们的方法可以有效地发现潜在的感兴趣的事件，提高召回率。特征提取。给定一个未裁剪的视频和一个自然语言查询，我们首先将它们编码成特征向量。具体来说，查询的每个词都使用GloVe [23]嵌入，并且查询表示为T=t1，t2，...，t MRM×DT，其中M是词的数量，D T是词的特征维数。视频15558LLL联系我们F--·∈∈·∈--··吉普K建议生成模块掩模条件重建模块图2.我们方法的框架。建议生成模块使用高斯掩码来表示同一视频中的正面和负面建议。为了区分积极和消极的建议，我们介绍了每个样本的整个视频作为参考。请注意，我们生成了多个积极的建议，并试图通过div使它们多样化，以提高召回率。掩码条件重构模块使用以提议掩码为条件的帧特征来重构查询，作为提议和查询之间的相似性的度量。rec用于优化我们的网络，以实现更好的重建，IVC执行建议之间的对比，要求建议与查询之间的语义相似度从大到小依次为肯定、引用和否定。用预先训练的3D卷积网络编码[3，28]，其中cp，wp是第k个正K K并表示为V=v1，v2，.，v NRN×DV，其中N是提取的视频特征的数量，D V是特征维度。提案生成。我们使用Transformer [29]来其中，σ是控制高斯曲线宽度的超参数。为了使K个建议尽可能不同，我们将[17]中引入的多样性损失Ldiv应用于mp：处理视频和文本的多模态交互。首先，对帧特征进行池化，得到视频代表，Ldiv 为||m p m p<$−λI||2（二）表示，我们在视频功能的结尾处向kenvcls[7]附加一个额外的可学习的[CLASS]：为哪里||·||F表示矩阵的Frobenius范数，并且λ∈[0，1]是一个超参数，它控制着v1，v2，…v N，vcls. 我们使用Transformer来进行交叉-嵌入文本T和视频特征V之间的模态交互，并获得隐藏特征H=h1，h2，.，h N，hcls，其结合了语义和视觉信息：H=D（V（T ），E（T））RN×DH，其中E（）是Transformer编码器，D（）是Transformer解码器，D H是隐藏特征的维数。更多de-关于E（）和D（）的尾部将在第二节中提供。4.第一章为了确保我们模型的端到端训练，我们采用高斯-西安功能作为提案。由于hcls结合了所有的帧和单词特征，因此我们预测中心c pRK和宽度w pRK我们的积极建议通过hcls与Sigmoid函数激活的全连接层。为了提高召回率，我们将预测K个高斯掩码mp∈RK×N作为潜在的正建议候选：1（i/N−cp）2p提案之间的重叠。损失鼓励propos- als有较少的重叠，防止他们收敛到相同的中心和宽度，并提高召回率。3.3. 负面建议挖掘与CNM [39]直接使用1减去正样本的高斯掩码作为负样本不同，我们指出负建议应该具有与正建议相同的事件时间结构，但与查询的语义无关。因此，我们也用高斯函数来表示它们.在课程学习的启发下，我们从易到难收集负面建议，以缓解优化。我们观察到，当否定的pro-pronounces接近的积极的，他们更容易混淆，由于相似的背景和语义。因此，我们执行的负面建议进一步远离posi-M=2π（w/σ）exp（−pk），2（wk/σ）2（一）在早期培训阶段，积极的一面都是在以后的阶段学习的最后利用k= 1，… K; i = 1，…N所述掩模条件重建模块测量所述掩模条件重建模块的所述掩模条件重建模块的所述阈值。查询方式：把鞋脱了。��∈ℝ��×��议案1Transformer议案1提案2负面建议挖掘提案2整个视频��∈ℝN×��骨干提议3提议3时间正面提案面具��∈ ℝK×N时间消极建议面具��∈ ℝK×N时间参考掩模��∈ ℝK×Nℒ��ℒ�� ∈ℝ��ceℒ��ℒ�� ∈ ℝℒ��重构十字架熵损失面罩调节Transformer��∈ℝN×��ℒI��<<骨干ℒ�� ∈ℝ��ℒ��ℒ��小型大型废弃物目标：把鞋脱了。��∈ℝ��×��对比按浏览次数屏蔽查询：人的面具>他们的面具>关闭。关注关注关注15559负面建议挖掘培训121 =2 为12120112时间21·LcecececececeIVCcece12克策测测图3.我们挖掘了负面建议的困难，认为那些接近正面建议的负面建议更难区分。我们从易到难学习它们来缓解模型优化。建议和查询之间的语义相似度，以及正反建议之间的对比来训练我们的模型。负面建议挖掘。如图3、生成两个否定方案（在肯定方案之前和之后）。我们将两个否定提议的一端固定在视频的边界处，并且通过否定提议的宽度wn 1、wn 2与肯定提议的对应边的宽度w1、w2的比率来表示否定提议与肯定提议之间的距离η其中R（）是测量查询Q与由掩码m指定的提议之间的语义相似性的函数。掩码条件语义完成。为了在正面和负面建议之间进行对比，我们使用由SCN [18]和CNM [39]启发的掩码条件重建完成模块我们用一个特定的符号随机屏蔽原始查询中1/3的单词我们使用GloVe [23]嵌入掩码查询，并使用CNM [39]中提出的掩码条件Transformer基于每个正和负pro-prism内的视觉特征重建原始查询。在聚合上下文信息之前，掩码调节的Transformer将通过注意力图来叠加掩码，以防止视觉特征泄漏最后，我们使用交叉熵损失来衡量重建查询和原始查询的相似性我们将正建议、负建议和参考的交叉熵损失表示为Lp，Ln1，Ln2∈ RK，Lr ∈ R.w1=cp−wpp2，w=1−c−中国（3）2虽然我们预测了K个积极的建议，但只有一个视频片段对应于查询。因此，我们只保持具有最小损失Lp的第k个正方案，wn1w1=WN2w2=η（4）ce因为它在语义上与查询最相关：随着训练的进行，η将逐渐增加，以使负向建议接近正向建议：k= arg min（Lp[k]）（8）（1）e）0. 5∈[0，1]（5）由于只有肯定的建议和参考文件才包含与查询相关的段，只有Lp[k]和Lr 将-emax其中，e是当前训练时期，emax是总训练参与我们重建网络的优化。最终重建损失Lrec被公式化为：训练时期的数量。由于否定方案的一端是固定的，所以否定方案的中心cn1，cn2Lrec=Lp[k]+Lr（九）可以通过以下公式计算：c n1 =wn1，c n2 =1−wn2. 然后，如（7）所示，位置之间的语义相似性2 2肯定的建议，否定的建议，和参考应该类似于Eq。（1），我们可以分别得到否定方案mn1，mn2为了帮助模型区分积极和消极的建议，我们将整个视频作为每个样本引入满足某种关系。遵循CNM [39]，我们使用视频内对比损失IVC来对比正面和负面建议：参考编号：L=max（Lp[k]− Lr+β，0）+m r=[1，1，.，1] ∈ RN（6）ma关注15560LLcecex（Lp[k]−Ln1[k]+β2，0）+（十）max（Lp[k]− Ln2[k]+β2，0）由于整个视频包含地面实况片段以及大量冗余信息，因此建议和查询的语义相似性应满足：R（mp，Q）> R（mr，Q）> R（mn，Q）（7）测测其中β1和β2是满足β1<β2的超参数。IVC要求正方案的损耗ce至少比参考方案的损耗ce小β1，β2小于负方案。15561联系我们∈LLce−克克Lce3.4. 模型训练与推理在本节中，我们将描述我们优化的损失函数，以训练我们的网络和模型推理过程。训练我们的网络包括三个部分的损失：表1. Charades-STA数据集的评价结果（n1，5，m 0。3，0。5，0。（七）.粗体的数字是最好的结果，下划线的数字是第二好的结果。我们的CPL在推理过程中使用了基于损失的策略，CPL在推理过程中使用了基于投票的策略重构损失在Eq.（9）用于帮助模型通过我们的建议内的视频特征来重建查询，用作建议和查询之间的对齐的测量;（10）用于训练模型，以生成语义上最相关的积极建议，查询;多样性损失div 由方程式（2）用于鼓励该模型产生多个不同的积极建议。最后，我们计算多任务损失，以端到端的方式训练我们的网络，表示为：L=Lrec+α1LIVC+α2Ldiv（11）其中α1，α2是平衡损失的超参数推理。首先，我们可以在等式中获得中心cp和宽度wp。（1）我们预测的K正提案。为了从我们的K个建议中选择前1个预测，我们设计了两种选择策略：基于损失的策略和基于投票的策略。对于基于损失的策略，重构查询的交叉熵损失p用作每个建议的可靠性的度量。因此，我们选择具有最小损失的正概率作为我们的最终预测。对于基于投票的策略，每一个积极的提案都将参与选择。受集成学习[41]的启发，我们使用K个积极的建议来相互投票，以确定哪一个是我们最终的前1个预测。具体来说，对于每个积极的提议，我们用剩余的K计算IoU1个积极的提案，IoU的总和为获得的票数。最后我们选择投票数最高的一个作为最终预测。最后，对于所选的第k个正方案，我们的预-口述的开始时间戳和结束时间戳是：ActivityNet 标题。 ActivityNet Captions 包含 10 ，009/4917/5044个视频和37，417/17，505/17，031个视频查询对，用于训练/验证/测试。我们报告了val 2分裂的结果。4.2. 评估指标为了测试我们的方法，类似于在以前的工作中所做的[12，18]，我们选择“R@n，IoU=m”的计算结果特别是，这个指标意味着在我们的前n个预测中，IoU值大于m的预测时刻的百分比我们报告R@1和R@5p p在Charades-STA和ActivityNet标题数据集上。st=max（ck−wk/2，0）持续时间（十二）en=min（cp+wp/2，1）4.3. 实现细节为了获得前k个预测，我们对所有正数据预处理进行排序。我们对每个视频都进行了降采样-L p的建议从小到大，输出起始帧8帧，并使用和结束时间戳，（12）对于top-k正概率。4. 实验4.1. 数据集为了评估我们方法的有效性，我们在两个公开的数据集上进行了实验：Charades-STA[10]和ActivityNetCaptions [2，15]。Charades-STA 。 Charades-STA 数据集包含5338/1334个视频和12，408/3720个视频查询对，用于训练/测试。我们报告我们的测试分裂的结果。ActivityNet标题的C3 D [28]模型和Charades-STA的I3 D[3]模型我们使用预先训练好的手套[23] word2vec用于每个单词标记提取单词嵌入。我们将最大描述长度设置为20，词汇表大小为8000。模型设置。对于Transformer 和掩码条件下的Transformer，编码器和解码器都有3层4个关注头。其隐藏状态的维数为256。对于正面建议的数量，我们将 Charades-STA 的 K 设置为 8 ， ActivityNetCaptions的K设置为5 对于超参数，我们设置σ = 9，λ = 0。15，β1= 0。1，β2= 0。15，两个数据集的α1=1我们发现方法IoU=0.3R@1IoU=0.5IoU=0.7IoU=0.3R@5IoU=0.5IoU=0.7TGA [21]32.1419.948.8486.5865.5233.51新加坡[5]39.827.312.9---SCN [18]42.9623.589.9795.5671.8038.87WSTAN [32]43.3929.3512.2893.0476.1341.53酒吧[34]44.9727.0412.23---VLANet [19]45.2431.8314.1795.7082.8533.09LoGAN [26]48.0431.7413.7189.0172.1737.58MARN [24]48.5531.9414.8190.7070.0037.40WSRA [9]50.1331.2011.0186.7570.5039.02CCL [37]-33.2115.68-73.5041.87CRM [12]53.6634.7616.37---VCA [33]58.5838.1319.5798.0878.7537.75LCNet [35]59.6039.1918.8794.7880.5645.24RTBPN [36]60.0432.3613.2497.4871.8541.18全国妇女委员会[39]60.3935.4315.45---CPL（我们的）66.4049.2422.3996.9984.7152.3715562ce表2. ActivityNet Captions数据集上的评估结果表3.我们不同损失的消融研究。（n∈ {1，5}且m∈ {0。1，0。3，0。5}）。粗体数字是最好的结果，下划线的是第二好的结果。使用损失R@1我们的CPL在推理过程中使用了基于损失的策略，IVCLdivIoU=0.3 IoU=0.5 IoU=0.7mIoU在推理过程中使用投票策略。✓’我的天✓ ✓ ✓54.24 20.49 6.7412.95 37.9866.40 49.24 22.39 43.48表4.积极和消极建议产生过程的消融研究积极的消极的建议R@1IoU=0.3 IoU=0.5 IoU=0.7 mIoU固定没有一55.0728.9710.1334.06可学习没有一61.6845.4720.1440.43可学习可学习其他视频视频内65.6466.4047.5649.2421.3722.3942.3443.48表5. 消融研究我们的训练策略，只有具有最小Lp的正方案参与最优方案，我们的模型对α2敏感。我们在Charades- STA上将α2设置为1，在ActivityNet Captions上将α 2设置为0.1或1（详细信息请参见第2节）。4.4）。对于模型训练，我们使用 Adam [14] opti- mizer ，学习率设置为0.0004。4.4. 与最新技术水平的选项卡. 1和Tab。2比较了CPL与以前的作品，其中CPL使用基于损失的推理策略和CPL的基于投票的推理策略的整体性能。我们可以得出以下结论：（1）在Charades-STA数据集上，与以往的方法相比，我们的CPL达到了10。在“R@1，IoU= 0.5”时，绝对增益为05%。我们的基于损失的策略和基于投票的策略在Charades-STA 数据集上具有相似的性能（ 2 ）在ActivityNet Captions数据集上，对于R@1，我们的表现优于所有mization（a）（b）基于投票策略的现有方法我们发现ActivityNet Captions的重建准确率相对较低，投票选择最终预测结果更可靠。对于R@5，通过仔细选择α2=1以鼓励多个提案之间的更多多样性，我们的模型表现最好。 (3)在实际应用中，α2可以可根据不同的应用需求灵活设置主要原因是，包含多个事件的复杂关系的查询更难以重建，导致在选择图4.图图4a显示了从易到难学习负性专业知识的有效性图4b显示了不同数量的积极建议的消融研究。4.5. 消融研究为了证明CPL不同组件的有效性，我们采用基于损失的策略对Charades-STA进行消融研究不同损失的有效性。作为Tab。三场演出，我们最好的一个从那些积极的建议与一个大潜水员-浓度评估L的有效性rec，LIVCLdiv. 的2直接将CRM与其他公司（包括我们的CPL）进行比较是不公平的。CRM要求培训中的每个视频都有一个段落描述注释（按顺序描述多个事件），但并不总是可用。具有所有这三种损耗的模型表现最好，表明所有这些损耗的设计对我们的网络都很重要。我们还发现，多样性损失可以显着提高模型的性能，这证明了生成战略R@1IoU=0.3 IoU=0.5 IoU=0.7 mIoU所有（相等）所有（加权）一个w/最小LPCE18.49 36.2854.94 37.49 17.4866.40 49.24 22.39 43.48方法IoU=0.1R@1IoU=0.3IoU=0.5IoU=0.1R@5IoU=0.3IoU=0.5WS-DEC [8]62.7141.9823.34---VCA [33]67.9650.4531.0092.1471.7953.83[4]68.4844.2924.16---MARN [24]-47.0129.95-72.0257.49SCN [18]71.4847.2329.2290.8871.5655.69酒吧[34]-49.0330.73---RTBPN [36]73.7349.7729.6393.8979.8960.56新加坡[5]74.244.323.6---WSLLN [11]75.442.822.7---LCNet [35]78.5848.4926.3393.9582.5162.66CCL [37]-50.1231.07-77.3661.29WSTAN [32]79.7852.4530.0193.1579.3863.42CRM2 [12]81.6155.2632.19---全国妇女委员会[39]78.1355.6833.33---CPL，α2=0。179.8653.6731.2487.2463.0543.13CPL ε，α2=0。182.5555.7331.3787.2463.0543.1315563cecececeLLLL多个不同的积极建议有利于更准确地定位长视频中的感兴趣事件。提案生成的有效性。(1)作为选项卡中的前两行。4显示，我们评估我们可学习的积极建议的有效性。“固定”意味着我们使用SCN [ 18 ]使用的滑动窗口和策略梯度算法来选择积极的建议，而“无”意味着没有使用消极的我们可以看到，我们可学习的建议是高质量的。(2)作为选项卡中的最后两行。4显示，我们评估我们的负面建议在同一个视频的效果。它揭示了这样一个事实，即挖掘视频中的负面建议在提高我们的方法的性能方面起着(3)此外，如图所示4a、从易到难对引入负面建议的有效性进行评价当消极的建议总是远离积极的建议（即。η=0。2），它们很容易区分，提供的信息很少。当他们总是接近积极的建议（即。η=1），它们可能带来错误的信息，尤其是在早期训练阶段，其中肯定建议的准确性较低。动态调整η和由易到难学习可以有效地平衡这两种情况。多个积极建议的效果。（1）如图4b所示，我们评估了积极提案数量的有效性我们可以看到，一般来说，积极提案的数量越多但是当积极提案的数量大于8时，收益非常小。继续增加肯定提案的数量(2)选项卡.5显示了我们的训练策略的有效性，即只有具有最小p的正建议参与优化。“均等”意味着所有的正命题平等地参与，“加权”意味着p越小的正命题参与越我们可以看到，4.6. 定性结果图5显示了一些定性的例子。P1和P2（蓝色）是我们的积极建议，具有最低的前2个损失p。(1)如图5（a）和（b）所示，我们的方法可以获得比SCN更好的结果，证明我们的负面建议和参考文献可以提供更多的信息。（2）如图5（a）、（b）和（c）所示，比较P1和P2，排名越高，语义含义与基础事实的相关性（3）图。5（c）表明，当查询包含多个事件的复杂关系这可能是由于在这种情况下重建精度低造成的。查询：某人阅读一本书中的某些页面。0.00sGT8.70s11.09sSCN 19.50s0.00s0.33s我们的（P1）我们的8.88s11.49s（一）问：一个人在房子里跑来跑去0.00sGT3.34sSCN0.02s0.00s我们的（P1）我们的10.80s11.3s10.73s8.3s（b）第（1）款问题：第一个人喝了一杯啤酒，然后昏倒了，第二个人在离开前把一个乒乓120.69sGT140.42s151.81s7.95sSCN65.16s我们的（P1）151.81s21.04s我们的（P2）（c）第（1）款图5.我们的前两个预测的定性例子。图5（a）和（b）分别来自Charades-STA数据集，图5（c）来自ActivityNet Captions数据集。5. 结论在这项工作中，我们提出了一种新的弱监督视频时刻定位方法，称为对比前-后向学习（CPL）。我们的CPL生成几个可学习的高斯掩码作为建议，这是有效的，高质量的。我们提出了一种新的方法来挖掘同一视频中的否定建议，并引入整个视频作为参考，这使得网络能够区分高度混乱的场景。在课程学习的启发下，随着训练的进行，否定命题的难度逐渐增加，有利于优化。在Charades-STA和Activi- tyNet Captions数据集上的实验表明了CPL的优异性能。广泛的消融研究也证实了组件在CPL中的有效性。局限性讨论：在这项工作中，我们专注于探索如何通过视频中积极和消极建议的对比来学习高质量的建议然而，我们发现当查询描述多个具有复杂关系的事件（具有指定的时间顺序）时，我们的方法可能会失败。如何更好地挖掘和再现不同事件之间的复杂关系，可以在今后的工作中进行研究。6. 确认本工作得到了国家自然科学基金项目（61925201，62132001 ， U21B2025 ）和浙江省重点实验室（NO.2022NB0AB05）的资助。15564引用[1] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会集，ICML'09，第41-48页，美国纽约州纽约市，2009年计算机协会。3[2] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：用于人类活动理解的大规模视频基准。在 Proceedings of the IEEEconference on computer vision and pattern recognition，第961-970页，2015中。二、六[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。四、六[4] 陈少祥和蒋玉刚弱监督密集事件字幕中事件字幕和句子定位器的桥接在IEEE/CVF计算机视觉和模式识别会议论文集，第8425-8435页7[5] Zhenfang Chen，Lin Ma，Wenhan Luo，Peng Tang，and Kwan-Yee K Wong.更好地贴近地面：视频中句子的弱监督时间基础。arXiv预印本arXiv：2001.09308，2020。二六七[6] Robert T Collins ， Alan J Lipton ， Takeo Kanade ，Hironobu Fujiyoshi ， David Duggins ， Yanghai Tsin ，DavidTolliver，NobuyoshiEnomoto，OsamuHasegawa ， Peter Burt ， et al. A system for videosurveillance and monitoring. VSAM最终报告，2000（1-68）：1，2000年。1[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。4[8] 段旭光，黄文兵，甘闯，王敬东，朱文武，黄俊洲。视频中的弱监督密集事件字幕。arXiv预印本arXiv：1812.03849，2018。7[9] 方志远、孔舒、王哲、查尔斯·福克斯、杨业洲。时间-文本关联学习的弱监督和参考注意力，2020。6[10] 高吉阳，孙晨，杨振恒，拉姆 · 涅瓦蒂娅 . Tall ：Temporal activity localization via language query，2017.二、六[11] Mingfei Gao ， Larry S Davis ， Richard Socher ， andCaiming Xiong. Wslln：弱监督自然语言本地化网络。arXiv预印本arXiv：1909.00239，2019。 1、7[12] 黄佳波，刘洋，龚绍刚，金海林。视频活动定位中的跨句时间和语义关系。在IEEE/CVF国际计算机视觉会议集，第7199一二三六七[13] 陈菊，赵培森，陈思恒，张雅，王艳峰，田琦.分而治之的单帧时间动作定位。在IEEE/CVF计算机视觉国际会议论文集，第13455-13464页，2021年。2[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[15] R. Krishna，K. Hata、F.伦湖，澳-地飞飞和J.C.尼布尔斯视频中的密集字幕事件。2017年IEEE国际计算机视觉会议（ICCV），2017年。二、六[16] 李思扬，朱祥新，秦煌，徐浩，和C.C. 郭杰。弱监督对象检测的多实例课程学习，2017年。3[17] Zhouhan Lin ， Minwei Feng ， Cicero Nogueira dosSantos，Mo Yu，Bing Xiang，and Yoshua Bengio.一个结构化的

下载后可阅读完整内容，剩余1页未读，立即下载