视频活动定位中的跨句子时间语义关系

172 浏览量更新于2023-10-15 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7199视频活动定位中的跨句子时间语义关系* 酒店JIABOHUANG，广州*jiabo. qmul.ac.uk杨柳宾馆2*yangliu@pku.edu.cn韶钢工一s. qmul.ac.uk海林金3号hljin@adobe.com1伦敦玛丽女王大学2北京大学WICT3 Adobe Research摘要视频活动定位最近获得了越来越多的关注，由于其在自动定位最突出的视觉片段对应的一个人投掷标枪。几个人跑向着陆点。然后男人庆祝。按时间顺序...？？一个人投掷标枪。他们的语言描述（句子）从未经修剪和非结构化的视频。对于监督模型训练，必须给出句子（视频时刻）的每个视频片段的开始和结束时间索引的时间注释。这不仅非常昂贵，而且对歧义和主观注释偏差敏感，这是非常严重的。（a）完全监督（b）弱监督联盟按时间顺序......之前后一个人扔在几个人跑去比图像标签更难的任务。在这项工作中，我们开发标枪着陆点。通过引入更精确的弱监督解决方案(c) 时间一致性(d) 语义一致性跨句关系挖掘（CRM）在视频时刻建议生成和匹配时，只有一个段落的活动描述，没有每句时间的一个符号是可用的。具体来说，我们探索两个跨句子关系约束：（1）时间顺序和(2)视频活动的段落描述中句子之间的语义一致性。现有的弱监督技术在训练中只考虑句子内视频片段的相关性，而不考虑跨句子段落上下文。这可能由于单独的具有视觉上不可区分的视频时刻建议的单个句子的模糊表达而产生误导。在两个公开的活动定位数据集上的实验表明，我们的方法优于最先进的弱监督方法，特别是当视频活动描述变得更加复杂时。1. 介绍通过自然语言的视频活动定位是一项重要但具有挑战性的任务，其目的是在未修剪（并且通常是非结构化的）视频中对最佳对应于查询语句的视频片段（时刻1）进行节奏定位[21，8]。大多数现有的方法以完全监督的方式解决这个任务[22，6]，即。未修剪的*通讯作者。1本文中视频片段和时刻可以互换使用图1：不同的视频活动定位方法：（a）给定段落描述和每个句子的节奏注释（开始和结束时间索引），全监督方法学习将句子与地面实况语义匹配的视频时刻对齐[6，22]。（b）在没有细粒度时间注释的情况下，弱监督模型通常在学习最佳视觉-文本对齐之前生成与段落中的句子相对应的视频片段的建议[20，18]。（c）CRM模型探索段落中不同句子的时间顺序，以最小化在段落的上下文中将最佳视频时刻与特定句子匹配时的歧义。（d）为了处理描述中的歧义表达，CRM进一步探索合理的句子扩展，例如：将两个句子配对（连接）作为更复杂的查询，以约束成对视频时刻建议的定位。这探讨了跨句子语义一致性。视频数据由段落描述和每个句子的精确开始和结束时间索引上的每个句子的时间边界来注释，在段落描述中，每个句子描述视频感兴趣时刻（MoI）。考虑到这种细粒度的标签，模型可以从原始视频中生成MoI，以学习MoI与其描述的最佳对齐（图2）。1（a））。为了避免高注释成本和主观注释偏差2，最近的工作集中在2不同的时间边界被标记为相同的句子[1]。Concat一个男人扔了一个标枪。庆祝时间7200在训练中没有每句时间边界注释的弱监督学习[8，11，21]。现有的弱监督解决方案[37，25，18]单独地定位不同的MoI（图12）。1（b）），这不是最佳的，因为它忽略了段落中的跨句子关系在节奏定位多个MoI中起重要作用的事实。重要的是，单个句子有时在其段落内容之外是模糊的[30，24，39]。例如图在图1（c）中，在不考虑与第二句子的时间关系的情况下，第一查询句子（紫色）可以容易地与不正确的视频片段不匹配，这在视觉上与地面实况时刻不相区分。我们对ActivityNet-Captions [15]的分析表明，最新模型[18]预测的超过65%的矩对的时间关系与其描述的真实顺序相矛盾。然而，由段落描述的MoI在其对应的句子中彼此语义相关。例如图1（d），如果忽略蓝色查询中的“theman”与先前句子的语义关系，则其表现出歧义。我们还观察到ActivityNet-Captions [15]中超过38%的描述包含模糊的表达方式，例如代词总而言之，将单个句子错误定位到孤立的视频片段中存在较大的误差在这项工作中，我们介绍了一种弱监督的方法，视频活动本地化的自然语言称为跨句子关系挖掘（CRM）。关键思想是探索段落中的跨句子关系作为约束，以更好地解释和匹配视频中的复杂时刻时间和语义关系。给定一对一时刻-句子映射，固有的交叉时刻关系是未知的，并且在视频中不能直接建模，但在段落描述中本质上可用因此，我们将相同的交叉判决关系施加到其潜在匹配的视频时刻，以获得更可靠的建议选择。所提出的CRM方法与现有的弱监督模型[37，20，25]显著不同，现有的弱监督模型单独定位每句查询。它们根本上缺乏在模型训练中利用跨句关系进行时刻即使这样的关系信息不如每句细粒度时间注释完整，它也不需要注释，并且避免了来自时间标记中固有模糊性的主观偏见[1]。具体地，通过假设视频中的不同活动被顺序地描述，我们制定了时间一致性约束以鼓励所选择的时刻根据它们在段落中的描述在时间上排序（图1）。1（c））。这不同于自监督视频学习中的时间借口任务，其中在单个模态内采用时间约束。我们在交叉模态设置中利用它，即附，附通过文本模态中的句子顺序对视觉模态中事件的时间顺序进行应变。此外，我们鼓励年龄的时刻建议的选择，以满足跨句子更广泛的语义在上下文中，以尽量减少视频文本匹配的歧义。为此，我们引入语义一致性约束，以确保为段落中的两个句子的任何配对（连接）选择的时刻与每个句子的所选片段的并集一致（重叠）（图11）。1（d））。我们的贡献是：（1）据我们所知，这是第一个想法，开发一个模型，使用跨句子的关系在一个段落中，以显式地表示和计算跨时刻的关系，在视频活动定位，以减轻歧义的每个单独的句子。（2）提出了一种新的弱监督的自然语言活动定位方法--跨句关系挖掘（CRM），该方法利用时间和语义的跨句关系训练模型，以提高测试中每句时间边界的预测能力。（3）我们的方法在两个可用的活动本地化基准上实现了最先进的性能，特别是在给定更复杂的查询描述的情况下。2. 相关作品通过自然语言对视频活动定位的早期研究主要集中在利用时间注释来学习具有强监督的视觉-文本对齐[9，2，12，34，33，6]。然而，由于细粒度时间边界的标注代价太高，近年来越来越多的研究工作转向仅使用视频级的时刻描述来解决这一问题监管不力[8，11，21，18，28，37]。强监管。在时间符号的帮助下，完全监督方法在帧或片段级别中定位未修剪视频中的SAP [5]提出计算视频中句子和每一帧的视觉语言相关性MCN [13]替代地将视频预划分成在不同位置具有不同长度的候选片段（提议），以便进行片段级语义对齐。最新的方法要么遵循SAP来预测跨帧边界的概率[3，33，6，4，22]，要么以与MCN相同的精神从由显式滑动窗口[9，19]或隐式多粒度锚点[34，29，32]构建的一组预定义的提议中进行选择。最近，DPIN [27]提出通过双路径交互网络将这两种定位策略结合起来，以便利用两者的优势。尽管它们取得了显着的成功，但全监督方法严重依赖于细粒度的时间注释，这不仅昂贵，而且容易产生主观偏见[1]。在这项工作中，我们建议7201∈∈联系我们{···}∈i=1k=1我j=1我我我我j=1我j=1我我jLc--{|}{···}∈LQ{}∈√进一步利用MoI的视频级描述以及它们的关系，以便在没有额外注释成本的情况下减少弱监督模型和全监督模型之间的差距。监督不力。在没有时间边界注释的情况下，大多数现有的弱监督方法要么基于多实例学习[14]（MIL），要么与重建任务联合学习。基于MIL的方法[11，25，20，37]通过最大化视频的匹配分数以及在数据集上手动注释的其对应描述，同时抑制视频和其他描述的匹配分数，来学习视频级中的视觉-文本对齐。然后应用这种学习的视觉-文本对齐来定位与推理中的给定查询最佳匹配的时刻另一种通常采用的策略[18，8]旨在选择可以在最大程度上帮助完成重建任务的视频片段，例如。WS-DEC [8]联合优化句子本地化和视频字幕任务，以便识别产生与查询一致的字幕的视频片段。尽管在过去的几年里已经取得了显着的进展，这些方法都没有在这项工作中，我们建议探索段落中句子的关系，以约束训练中时刻的选择，使得只有具有一致关系的可靠视频片段才会与查询句子对齐。时间动作定位[10，17，38]是一个类似的任务，它在未修剪的视频中定位预定义的动作类然而，语言查询通常由具有复杂相关性的多个动作组成，这使得其更实用但具有挑战性。3. 弱监督活动本地化假设我们有N个未修剪的视频V={Vi}N，其中每个视频由固定持续时间内的Lc个不相交的剪辑Vi= c组成。对应于每个视频，我们有一个描述段落，由Lq个文本查询句子组成Q i={Q j}Lq 一对一描述Vi中的MoI。给定视频查询对（Vi，Qj），通过将未修剪在这里，我们制定了一个跨句子关系挖掘（CRM）的方法，这项任务。图2示出了概述。我们首先学习视频级的视觉-文本对齐，将视频-查询对馈送到模态匹配网络（MMN），该网络预测查询和每个建议的匹配得分，并通过二进制交叉熵损失来监督得分的最大池化然后，我们探讨了两个描述的段落图的顺序，并优化他们的联合匹配分数的propos- als对一致的时间关系。此外，我们通过在段落中形成成对的句子（连接）来合成较长的查询，并鼓励其成对本地化在语义上与为每个句子单独选择的建议的联合一致。这是为了最大限度地减少句子中的歧义，以便在更复杂的量刑背景下改善模型3.1. 视频句子对齐我们从两种不同模态的表示对齐开始，即未修剪的视频V=c1，c2，，c LcRLc×Dv和查询语句 Q j=wj ， 1 ， wj ， 2 ，， wj ， LwRLw×Dt，其中L w字。为了探索V和Qj的关系并实现视觉-文本交互，首先分别通过两个独立的全连接层将两个表示投影到D维空间中。为了清楚起见，我们在投影后重复使用符号VRLv×D和Q jRLw×D。然后，视频V和查询Q j都将被馈送到模态匹配网络（MMN）中，该MMN将通过滑动窗口[18，20]生成一组候选时刻（提议）S1，S2，…，S1，…，S2，…，S1，…，S2 ， … ， S 2 ， … ， S 3 ，S 2 ， … ， S 2 ， … ， S 3 ， S 2 ， … ， S3 ， S 4 ， S 4 ， … ， S 4 ， S4 ， S 5 ， S 6 ， … ，S 4 ， S5 ， S 6 ， … ， S 6 ， S 7 ， S 8 ， S 8 ， … ， S 8 ， S8 ， S 9 ， … ， S1，S1，S1，S1，S1，S1，S1，S1 第2（a）段）。受Transformer [26，7]在序列分析上的显着成功的启发，MMN由一堆注意力单元组成，以探索模态内和模态间的相关性。各单位注意。作为MMN的构建块，注意单元在学习目标序列与参考序列中每个元素如果有目标-将视频Vi分成L个候选片段{Sk}L个使用滑动序列Xt∈RLt×D和一个参考序列Xr∈RLr×D，且windows [18，20]作为建议ik=1注意单元F（Xt，Xr）如下使用Xr注意Xt，我们的目标是选择所有方案中与Qj最一致的S k √A=Softmax（Xt WqWk Xr/D) ∈RLt×Lr在语义学上。为了简单起见，我们将单个视频V及其描述段落Q ={Q，j}作为下面的示例。F（X t，X r）= FC（X t+ AX r Wv）∈ RLt×D.（一）下面讨论并不赞成下标i。虽然视频-查询（多句子）关系在训练中可用，但不能访问每句子的地面实况时间边界。这是一个弱监督学习问题，其中视频建议Sk与文本查询Qj交互，以发现视频片段和文本句子之间最合理的匹配。在等式（1）中的概念Wq;Wk;WvR3×D×D。（1）是三个可学习的矩阵，并且系数1/ D是为了抵消由大D引起的小梯度的影响[26]。 Softmax（·）是反向softmax归一化，A是目标-参考元素对的相关性得分。FC（·）是具有连续性的线性投影7202k=1k=1{S}|{S}k=1|k=1||联系我们{|}{·联系我们(a) 多示例学习段落顺序一个人投掷标枪。(b) 时间一致性一个人投掷标枪。然后男人庆祝。+一个人投掷标枪。(c) 语义一致性图2：建议的跨句子关系挖掘（CRM）方法概述。（a）模态匹配网络（MMN）由自我和交叉注意单元组成，并由MIL目标训练。（b）优化两个查询对一对建议的联合匹配分数，以鼓励跨句子和跨时刻时间关系的一致性。（c）较长的查询由段落中的成对句子（连接）合成，其成对定位被约束为与为每个句子选择的两个提议的并集一致。帐篷投入产出尺寸。关注的结果用作线性投影的代表。在此之后，联合代表--靶序列的更新表示。为了研究视觉-文本匹配关系，不仅要探索模态内上下文，而且还要探索跨模态交互[20]。因此，MMN由自注意和交叉注意块两者构成。首先将视频V和查询Qj分别馈送到两个独立的自关注块中，其中目标和参考输入来自相同的模态：V← FV2V（V，V），Qj← FQ2Q（Q j，Q j）。（二）通过这样做，通过考虑视频或句子的上下文来突出显示输入视频/查询中的显著剪辑/单词然后采用常规的滑动窗口策略[18，20]将视频划分为L个建议将语句{Ek，j}Ls馈送到线性分类器中：p（Sk|Q j）=σ（Ek，jW+B）.（五）变量W，BRD+1是分类器的权重，σ（）是sigmoid函数。产生的概率p（S kQ j）Ls（0，1）用作建议和查询之间的匹配分数，其缩写为p k，j。多实例学习。在没有时间边界的情况下，地面实况时刻是不可知的。因此，我们在视频级优化匹配分数，以促进视觉文本对齐。为此，匹配视频V和查询Q j之间的得分通过所有建议的得分p（V）的最大池化来获得|Q j）←max （ {pk ， j}Ls ）。对于给定的每个正对（ V ，Qj），kLsk=1∈RLs×D。每项提案都由Arbi-k=1通常在数据集上，我们构造两个负的对应物V中的trary连续剪辑，并由最大池化其包含的剪辑的功能。之后，两个表示通过交叉注意块进行交互：V← FQ2V（V，Qj），Qj← FV2Q（Qj，V），（3）通过用来自小批量的随机采样的视频V-或句子Q-替换V或Q j，并以与p（V Q j）相同的方式计算它们的匹配分数。然后采用二进制交叉熵（BCE）损失函数作为视频查询对准监督信号：其通过另一模态参与一个模态以抑制j冗余文本和无关的视觉信息。匹配分数。给定视觉特征V=LBCE（V，Q）= 2 *− log p（V |Q）-lo g（1− p（V|Q−））− lo g（1− p（V−|Q（j）），（六）kLsk=1并且第二表示Qj={wj，k}Lw 得双曲余切值.其中系数2被应用于正项con。建议-查询对的匹配得分p（Sk Qj）是预先确定的。根据这两种方式口述。句子代表-首先通过聚合所有单词来计算表示：cmax（wj，kLw ）其中cmax（）表示列最大池化函数，然后将其与每个建议的表示融合[ 9，13 ]：Ek，j=（Sk+Q j）（SkQ j）FC（SkQj）。（四）概念（··）指示逐元素乘法，并且（··）是两个向量的级联，而FC（·）提案的匹配分数...池化模态匹配网络滑动窗口V2V/Q2QSelf-attention...V2Q/Q2V交叉注意一个人投掷标枪。然后男人庆祝。几个人跑向着陆点。时间=7203平衡正负对。Eq.（6）假设一个视频中的MoI通过最小化p（VQ−）和p（V−Q），V中具有与Qj不同语义的不正确建议的预测也将被隐式地最小化，使得学习的匹配分数可以揭示固有的视觉-文本关系。这采用了MIL [14]的精神，将建议视为包（视频）中的实例，并使用包级注释进行学习7204L∥||∪S∪|∈∪JSRRRL∪k，k=1不j′+jn2*n我我Σ123.2. 跨句关系挖掘Eq.中的BCE（6）将查询与在所有候选者中产生最大匹配分数的建议对齐。然而，由于视频中存在的视觉无差别时刻建议和单个句子中的文本歧义，预测的分数可能是不可靠的，这将导致训练中的视觉-文本错位。因此，我们探索跨句关系，以选择具有一致跨矩关系的可靠建议。时间一致性。由于视频帧按时间顺序自然地展示给观看者，因此不同MoI的时间关系本质上应按其在段落中的描述的顺序进行编码。利用这样的假设，我们可以识别与相应查询都产生高预测匹配分数但在时间关系上不一致的提议对，这可能是不正确的。给定任意查询从视频V的描述段落中选取的句子对（Qj ，Qj′），其各自的选定片段（Sk，Sk′）应满足与它们相似的时间结构，即：SK对于一个模型，通过在更广泛的上下文中关联其他表达的对象/动作，考虑超出单个句子的更广泛的语义[22]。然而，显式地这样做是不平凡的，因为对象/动作的信息在没有细粒度注释的情况下丢失。在这种情况下，我们提出通过在相同视频中级联来形成MoI对：Qj，j′=Qj，Qj′，并训练模型以定位连接。在考虑每一行中的两个句子的情况下指定较长的查询。给出了等式（1）中最大p（Sk，Sk′Qj，Qj′）的建议Sk和Sk ′。在等式（8）中，Qj、j’和视频片段Sl的匹配分数被优化以鼓励Sl和 Sk的一致性Sk′（Fig. 第2段（c）分段）。如在时间约束中，我们将预测得分p（S1Qj，j’）划分为两个子集：对于视频V中的所有建议S1，p（S1Qj，j′）Ps−ifIo U（Sl，SkSk′）<τ，P+由与SkSk′最一致的Sl组成。τ决定两个提案如何被视为关于它们的交集联合得分（IoU）不一致，IoU是设置为0。5在实践中对Sl和Sk∪Sk’的语义构成的约束被公式化为：应该出现在视频中的Sk′之前，如果Qj在Qj′ 在段落中，反之亦然。若Sk在Sk′之前开始，则两个方案的时间顺序R（Sk ，Sk′）=0否则R（Sk ，Sk′）=1。类似地，LSMT（V，Q，Q）=−log（max（P+））-lo g（1−max（Ps−））。（九）（Qj， Qj′）=1[j>=j′]其中j和j′是位置段落中的句子。时间约束然后被公式化以确保（Sk，Sk′）=（Qj，Qj′）。通过假设不同查询对任何提议的匹配分数是独立的，Qj和Qj’与Sk和Sk’分别匹配的联合概率为：p（Sk，Sk′|Q j，Q j′）=p（Sk|Q j）·p（Sk′|Q j′）。（七）如图在图2（b）中，我们将查询的顺序作为用于命题组的时间关系的基础事实。Giv enQj和Qj′，联合概率集{p（Sk，Sk′|然后，Qj，Qj′）}Ls′被分成两个子集合：对于所有建议对（ Sk ， Sk′），联合概率 p（Sk，Sk′）|Qj ，Qj′）∈P+如果R（Sk ，Sk′）=R（Qj，Qj′），为了最小化SMT，模型被显式地训练以考虑Qj和Qj′的语义当定位Qj，j′时，以确保Sl和Sk的重叠Sk′。通过在模型训练中引入由成对句子合成的额外较长查询，它增强了模型视频时刻，这在实践中是关键的，因为未修剪的原始视频通常是非结构化的。3.3.模型训练在每次训练迭代中，我们随机采样n个视频，每个视频具有一对查询，每个查询来自其段落描述作为小批量，并且总损失通过以下公式计算否则属于Pt−。MIL损失重新公式化为n2在时间约束下：LTMP（V，Q，Q）=−log（max（Pt））（八）L=1Σ ΣLBCE（V，Qj）i=1j=11+L（V，Q，Q）（十）- log（1 −max（Pt−））。ni=1nTMPii i通过使用LTMP进行训练，模型学习对齐propos-+1ΣLSMT（V，Q1，Q2）。只有当它们在时间上一致时才与查询匹配。这避免了模型在ab中的视觉-文本不对齐。ni=1我我我j′7205L地面实况时间注释的意义。语义一致性。为了最大限度地减少孤立的模糊句子表达的负面影响，并探索段落的上下文，这是有益的由于Eq. （10）是可微的，采用常规的随机梯度下降算法在Alg中总结了训练迭代的总体过程。1.一、7206--VQmax（e，e~）min（s，s~）------算法1CRM视频活动本地化输入：未修剪的视频，段落说明。输出：更新的视频活动定位模型。对随机小批量视频进行采样;对每个视频从其段落中采样两个查询;每个视频查询对将视频和查询映射到D维空间;进行V2 V和Q2 Q自我注意（等式（2））;通过滑动窗口生成建议;进行V2 Q和Q2 V交叉关注（等式（3））;将每个提议的特征与查询融合（等式10）。计算提议-查询匹配分数（等式（4））; （5））;端前计算目标损失（等式通过反向传播更新模型权重。4. 实验数据集。在两个视频活动定位数据集上进行实验：（1）Charades-STA [9]包含来自5338/1334个视频的12，408/3720个视频查询对，分别用于训练和测试。查询语句平均由7.2个单词组成，目标视频时刻和未修剪视频的平均持续时间为8.1和30.6秒;（2）ActivityNet-Captions [15]是一个更大规模的数据集，由19，290个视频组成，其中37，417/17，505/17，031个MoI在train/val 1/val 2分割中。查询的平均长度为14个单词，而MoI和未修剪视频的平均长度为36.2和117.6秒。这两个数据集中捕获的活动具有不同的复杂性：只有6%的描述涉及一个以上的行动在字谜游戏，而44%在ActivityNet与12%相比。44%的人[16]。性能指标。我们遵循先前的工作[8，28，6]以通过“IoU@ m”度量来评估活动定位结果给定目标时刻的时间边界（s，e）和具有最大预测匹配分数的所选分段建议（s~，e~），计算两个视频分段之间的IoU通过max（0，min（e，e~）-max（s，s~））。如果预测与地面实况的IoU大于预测，则预测被认为是正确的定义的IoU阈值设置为{0. 1，0。3，0。ActivityNet上的{5 }和{0。3，0。5，0。7}on Charades [8，28].实施.我们使用 VGG （ 4096-D ）和ResNet 152（2048-D）特征表示，分别与Charades和ActivityNet中的每帧表示数据集一起正式发布。视频在Cha rades中被均匀地截断（并且零填充）成128个剪辑，在ActivityNet中被截断成256个剪辑，其中每个剪辑由5个连续帧的特征的最大池化表示。预训练的GloVe嵌入[23]被采用作为单词特征表示（300-D），并且最大句子长度被设置为20个单词。剪辑和单词的表示被线性映射到256-D空间，然后被送入MMN。滑动窗口步幅为8，在Charades中窗口大小为8、12、20、32、64，在ActivityNet中为8、16、32、64、128在预测它们的匹配分数之前，通过额外的自我注意单元来探索视频片段在相同查询语句方面的时间依赖性由于段落描述在两个数据集上被预先划分成单独的句子，因此我们通过MoI的地面实况开始时间来恢复段落中的句子的顺序请注意，时间戳在建议选择中不可用，无论是在培训还是测试中。建议的CRM由Adam optimiser训练50个时期，批量大小为64，学习率为1e4。跨句子关系仅用于训练，在测试中没有额外的计算成本。4.1. 与最新技术水平的表1比较了CRM与最先进的视频活动本地化模型（包括完全监督和弱监督方法）的性能。我们观察到：（1）毫不奇怪，完全监督模型明显优于弱监督模型。然而，CRM在IoU = 0时将ActivityNet上的性能差距缩小了41%以上。3 .第三章。（2）发现与用于建议选择的相同句子相关的不同视频时刻已经被实现。通过现有方法以注意力[18，20]或2D时间卷积[36，35]的形式利用以获得良好的效果。然而，与这些方法相比，CRM的显著更好的性能进一步证明了在段落内使用跨句子时间和语义关系的额外优势，用于学习更好的视觉-文本对齐并有利于测试中的每句本地化。（3）CRM全面超越了最先进的弱监督方法，除了Charades上的IoU@0.3这有力地证明了 CRM的有效性，从建模明确的跨句子关系。我们在ActivityNet-Captions [31]的OOD分割上的优势进一步表明CRM4.2. 成分分析我们调查了CRM模型设计中不同组件的影响，以研究它们各自的贡献。采用ActivityNet的跨句子关系的影响。我们评估了施加跨句子关系一致性的有效性，通过训练基线模型（BCE）与时间（BCE+TMP）或语义（BCE+SMT）的约束，以及与两者（BCE+TMP+SMT）。图3示出了两个约束单独地是有益的，并且当它们被联合采用时，益处变得更加清楚更多-7207Ln9080706050403020100(a) ActivityNet-Captions方法一刻查询IoU@0.3 IoU@0.5 IoU@0.7DPIN [27]✓✗-47.9826.962D-TAN [35]✓✗-39.8123.25DRN [33]✗✗-53.0931.75LGI [22]✓✗72.9659.4635.48[6]✗✗61.3747.2723.30TGA [21]✗✗29.6817.046.93SCN [18]✓✗42.9623.589.97LoGAN [25]✓✗51.6734.6814.54酒吧[28]✓✗44.9727.0412.23RTBPN [36]✓✗60.0432.3613.24VLANet [20]✓✗45.2431.8314.17CCL [37]✓✗-33.2115.68CRM（我们的）✓✓53.6634.7616.37(b) Charades-STA表1：视频活动局部化方法的性能比较。完全和弱监督方法分别显示在每个表的上部和下部。 “时刻”列指的是通过利用对应于相同句子的多个视频时刻来训练的方法，而“查询”列指的是通过跨句子时间排序和段落上下文中的句子配对来训练的 The ‘Split’ columndenotes the different data splits in the ActivityNet-Captions used in 折扣召回率 [31] 是针对 ActivityNet-Captions的“OOD”分割报告的以上，ActivityNet上的性能改进比Charades上的性能改进更显著。考虑到ActivityNet中通常更复杂的活动，这表明在成对判决的组合上训练CRM作为语义一致性约束（等式1）。（9））在针对更复杂的查询描述的活动定位中具有其独特的优点时间一致性。为了验证我们对时间顺序的假设，我们比较了在有和没有TMP的情况下学习到的正确预测的数量（等式10）。（8））反对地面-真相。具体地，对于由η个MoI组成的每个视频，我们构建了C2MoI对并测量了Consis-1的比率图3：跨句子关系挖掘的BCE是仅具有MIL目标的基础模型训练（等式1）。（6））。TMP和SMT是所提出的对时间的约束（等式1）。（8））和语义（Eq.（9）关系一致性。火车测试时间ActivityNet字谜ActivityNet字谜✗64.2873.8845.0273.91✓82.4374.8870.8274.65表2：MoI对的描述与其所选提议之间的时间一致性。度量：准确性。火车测试语义ActivityNet字谜ActivityNet字谜✗55.7635.3457.8431.01✓68.1455.4671.3051.33表3：两个MoI的片段的并集与被选择用于它们的描述的级联的片段之间的语义一致性。指标：IoU = 0时的预测召回率。五、通过比较两个地面实况时刻的顺序和所选建议的顺序来确定帐篷对。表2显示，通过使用跨句子时间顺序约束显式训练CRM，CRM选择的视频片段在ActivityNet上的时间关系比没有它的基础模型更加一致。虽然测试集中的不同时刻是独立本地化的，但这些优点仍然是显而易见的。此外，令人惊讶的是，由Charades上的基础模型产生的跨矩时间关系与真实顺序相当一致，但时间约束仍然有利于定位结果。这意味着在学习有效的视觉-文本对齐中，优化矩对的联合匹配分数与其描述的潜在优势。语义一致性。在时间一致性的分析中，我们列举了相同视频中所有可能的MoI对，并通过将MoI对的联合作为对应于其描述的级联的地面实况时刻来更具体地，给定两个M0I及其时间边界Si和Sj的句子描述，我们将两个M0I的句子描述串联起来。公元前BCE+SMTBCE+TMPBCE+SMT+TMPIoU=0.1 IoU=0.3 IoU=0.5 IoU=0.3ActivityNetIoU=0.5Charades-STAIoU=0.7召回率分裂方法一刻查询IoU@0.1 IoU@0.3 IoU@0.5值2DPIN [27]2D-TAN [35]DRN [33]LGI [22][6]✓✓✗✓✗✗✗✗✗✗-----62.4059.45-58.5257.6047.2744.5142.4941.5140.15Val 1WS-DEC [8]WSLLN [11]酒吧[28]✗✗✓✗✗✗62.7175.4-41.9842.849.0323.3422.730.73CRM（我们的）✓✓76.6651.1731.67值2SCN [18]RTBPN [36]CCL [37]✓✓✓✗✗✗71.4873.73-47.2349.7750.1229.2229.6331.07CRM（我们的）✓✓81.6155.2632.19OOD WS-DEC [8]✓✗30.7117.007.177208∪∪∪0.0141.5 一个光头男子走到猴架前，16.0144.0他走回猴吧。92.188.0然后他走向一根较低的杆子。219.3216.0两个每句查询，并识别出产生与级联的最大匹配分数的视频片段Sk然后，我们计算SISj和Sk之间的时间IoU，其中如果IoU（SISj，Sl）> 0，则Sk被认为在语义上与SISj一致。五、注意，两个时刻不必在时间上连续，使得我们的语义假设可以成立，因为由级联描述定义的边界元总是匹配它们的时间并集。表3示出了在没有等式1中的语义约束的情况下训练的基线（9）在定位成对查询中产生合理的性能。这表明CRM隐式地学习通过注意力单元考虑查询的用显式语义约束训练的CRM的高级结果这就解释了为什么业绩广告-100806040200100806040200(a) Self-attention(b) 交叉注意在ActivityNet中本地化更复杂的活动时，CRM的优势更为显著。9.98.0然后一只猫开始舔另30.3第一只猫然后停止和14.816.037.436.937.4另一只会在之后舔0.00.06.5一个人坐着13.724.0喝酒的人6.613.323.2吃三明治一杯水。图4：定性示例示出了相同视频中的MoI绿色条表示地面实况MoI仅在给定空间限制的情况下简化查询语句以用于说明。定性示例。图4显示了ActivityNet和Charades的一些定性示例。他们展示了相同视频中的不同MoI如何彼此交互，使得它们的关系可以用于优化段落上下文中的每句活动定位。很明显，通过每个句子独立地定位视频时刻是不可靠的，例如。在第一个例子（顶行）中，男子在走向下杆之前和之后都到达了单杠。“Thefirst cat”通过明确地探索跨句子关系，CRM避免了这样的歧义，并最大限度地减少视频-文本错位。注意力单位的影响。作为3.1节中MMN主干的构建块，注意单元在探索视频和句子数据以及它们的相关性方面起着重要作用。我们通过比较构建的CRM的预测召回率来图5：注意力单位的影响。模型的构建和训练不同数量的自我注意和交叉注意的单位，以调查其效果。不同数量的注意力单元，显示其在序列分析和视觉文本交互中的优势（图1）。（五）。另一方面，由于可用于训练的视频数据有限（ActivityNet/Charades上的10 K/5 K），堆叠张力层无法进一步使CRM受益，导致可能由于过拟合而导致的5. 结论在这项工作中，我们提出了一种新的跨句子关系挖掘（CRM）的方法，学习视频活动的本地化，每句时间的一个符号的情况下。CRM探讨跨句子的关系内的每个段落描述的长视频，以优化视频时刻建议选择培训，以提高每句话的本地化测试.CRM通过根据时间排序和成对判决来约束它们的选择，作为在视频的段落描述的上下文中的扩展查询，来最小化训练期间个别句子与视频时刻提议的这显著提高了CRM两个可用的活动定位基准数据集上的实验表明，所提出的CRM方法在广泛的国家的最先进的弱监督模型的性能优势。广泛的消融研究进一步提供了CRM中单个组件有效性的深入分析确认这项工作得到了国家留学基金管理委员会、VisionSemantics Limited 、 Alan Turing Insti- tute TuringFellowship和Adobe Research的支持。0x 1x2x 3xIoU=0.1 IoU=0.3 IoU=0.5 IoU=0.3 IoU=0.5IoU=0.7ActivityNet Charades-STA召回率0x 1x2x 3xIoU=0.1 IoU=0.3 IoU=0.5 IoU=0.3 IoU=0.5IoU=0.7ActivityNet Charades-STA召回率7209引用[1] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。在IEEE计算机视觉国际会议论文集，第5803-5812页，2017年。一、二[2] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间在Proceedings of the Empirical Methods inNatural Linguage Processing，第162-2018年11月。计算语言学协会。二个[3] Jingyuan Chen，Lin Ma，Xinpeng Chen，Zequn Jie，and Jiebo Luo.在视频中本地化自然语言。AAAI人工智能会议论文集，33（01）：8175- 8182，7月。2019. 二个[4] Long Chen，Chujie Lu，Siliang Tang，Jun Xiao，DongZhang，Chilie Tan，and Xiaolin Li.重新思考基于查询的视频定位的自底向上在AAAI人工智能会议论文集，第34卷，第10551-10558页，2020年。二个[5] 陈少祥和蒋玉刚。基于句子查询的视频活动定位语义建议。在AAAI人工智能会议论文集，第33卷，第8199-8206页，2019年。二个[6] 陈少祥和蒋玉刚。通过语言进行时间活动定位的层次视觉-文本图在欧洲计算机视觉会议论文集，第601-618页中Springer，2020年。一、二、六、七[7] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。三个[8] 段旭光，黄文兵，甘闯，王敬东，朱文武，黄俊洲。视频中的弱监督密集事件字幕。在神经信息处理系统会议论文集，第3059-3069页，2018年。一二三六七[9] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。IEEEInternational Conference on Computer Vision ，第 5267-5275页，2017年。二、四、六[10] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.用于时间动作检

下载后可阅读完整内容，剩余1页未读，立即下载