视频字幕中的语法感知动作定位

37 浏览量更新于2023-10-23 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13096用于视频字幕的语法感知动作定位齐郑超越王大成陶UBTECH悉尼人工智能中心，计算机科学学院，工程学院，悉尼大学，达灵顿，新南威尔士州2008年，澳大利亚{齐.郑，chaoyue.wang，大成.陶}@ sydney.edu.au摘要视频字幕的目的是用自然语言描述视频中的对象及其交互。现有的方法在视频对象识别方面做了大量的工作，但很少有人强调对象之间的相互作用的预测，这通常是由动作/谓词在生成的句子中表示。与句子中的其他成分不同，谓语既依赖于视频中的静态场景，也依赖于视频中的动态动作由于忽略了这种唯一性，现有方法生成的动作可能严重依赖于对象的同现，例如，在本文中，我们提出了一个语法感知的动作定位（SAAT）模块，明确学习行动，同时参考的主题和视频动态。具体来说，我们首先通过绘制多个对象之间的全局依赖来识别主体，然后从融合主体嵌入和视频时间特征的公共空间解码动作。在两个公开数据集上的验证结果表明，该模型提高了生成的动态视频中动作的准确性，与视频中的动态内容具有更好的语义一致性。代码可在https://github.com/SydCaption/SAAT 上获得。1. 介绍视频字幕的目标是自动生成一个完整和自然的句子来描述视频内容，理想情况下封装其最丰富的动态[58，17，13]。这种动态通常揭示视频剪辑中的特定动作，例如跑步、进食和跳跃。与旨在描述图像中静态场景的图像字幕[2，31，20，8]相比，视频字幕更强调动作，并在计算机视觉和人工智能领域引起越来越多的关注。它具有广泛的应用，如视觉问题查询（VQA）[57，16]，人机交互[32]和视频检索[64，14]。图1：使用和不使用SAAT模块的字幕生成示例。虚线演示了使用常规编码器-解码器框架的字幕，实线显示了使用涉及SAAT的字幕的结果。由于最近在使用深度学习的对象识别方面取得的进展[42，41，18]，在视频字幕方面取得了令人兴奋的进展。具体地，现有方法[35，66，65，1，56，59，6，55]的趋势是它们设计了不同的模块来识别视频剪辑中的对象。由于至少两个优点，这大大提高了生成的字幕和给定视频一方面，由于从视频片段中提取了丰富的静态信息，字幕者更有可能描绘视频中的目标实例另一方面，物体的同现有助于字幕者的记忆<视频，描述>对.在[38]中可以找到一个清晰的例子，其中字幕是通过回忆学习记忆中的类似场景来生成的。这些方法的缺点是对动作的无知（即，句子的谓语）学习，其比句子中的其他成分需要更多来自视频的动态信息。这是记忆力所无法弥补的。例如，学习的模型可能在很大程度上依赖于它在训练过程中所看到的内容，例如同现的先验，以生成视频的字幕。如图所示1、当人和汽车都被检测时，常规的编码器-解码器框架倾向于给出人正在驾驶汽车，即使该人在车外并且汽车没有向前移动。这造成了巨大的SAAT一个男人推着一辆车。一个男人在开车。编码器解码器13097·}{生成的描述和视频中的原始内容之间的差异。不幸的是，这种分歧很难通过最小化重复级交叉熵损失来减少，因为剩余的单词可以精确地匹配人类注释的句子中的单词，尽管动作是错误的。无论是哪种情况，在错误操作预测[37]的情况下，生成的字幕仍然可以在BLEU [36]，METEOR [10]和CIDER [51]等自动度量中获得高分为此，我们提出了一种语法感知的动作目标（SAAT）模型的视频字幕在本文中。通过统计视觉相关语法成分（即，主语、宾语和谓语），我们明确地针对视频片段中的动作值得注意的是，与工作[54]不同，其中预测每个单词的POS（词性）标签来指导字幕过程，我们只关注向目标动作传达最视觉信息并指导字幕生成的组件。具体来说，我们的模型首先通过学习自我注意模块[50]使用区域 RGB特征和区域位置从经验上讲，我们使用Faster R-CNN [42]作为对象检测器来生成区域propos- als并提取区域特征，其中也可以采用其他检测器。学习的自我参与表示被期望在场景内的然后，通过设置不同的查询，从表示中解码出句法成分主语、宾语和谓语在瞄准行动后，即。谓词，动作引导字幕被设计为生成输入视频的描述。学习目标动作和先前预测的单词上的注意力分布，以指导下一个单词的预测。整个模型以端到端的方式进行训练，目标是最小化分量预测和字幕生成造成的损失的加权和。总之，本文的贡献是三方面的：我们提出了一个语法感知模块，该模块形成一个自我关注的场景表示来建模视频对象之间的关系，然后通过设置不同的查询，以视频剪辑中的动作为目标。我们设计了一个动作引导的字幕，学习注意力分布动态融合的信息，从谓词和以前预测的话，避免错误的动作预测生成的字幕。基准数据集上的大量结果表明，所提出的方法的优越性，在A-BLEU，METEOR，ROUGE和CIDER的度量。与常规字幕（即，（2）相对于2。7%和5.MSVD和MSR-VTT数据集上的CIDEr评分分别提高了9%，提高了生成字幕的质量2. 相关作品2.1. 视频字幕大多数早期的视频字幕方法都是基于特定的模板，例如谁对谁做了什么，以及他们在哪里和如何做[26，9，4]。这些方法需要大量的手工设计的语言规则，并处理有限类别的对象，动作或属性。随着深度神经网络的兴起，在[53]中首次提出了一种编码器-解码器框架来克服这些限制。这个框架探索了CNN的力量视频表示和RNN的顺序学习。最重要的是，提出了诸如条件随机场（CRF）[12]和递归神经网络（RNN）[12，52]等方法来取代编码器中的原始均值池例如，Xu等人。[60]提出了广泛使用的软注意（SA）编码器-解码器模型。hRNN [63]在句子生成过程中采用了时间和空间注意力机制，并且还学习了段落生成器来捕获句子间的依赖性。多模态特征也被利用.例如，LSTM-E [34]同时探索了LSTM的学习和视觉语义嵌入。DMRM [61]引入了双记忆递归模型，以合并全局特征和感兴趣区域特征的时间结构最近的最新作品包括对编码器-解码器框架的各种调整。M3 [56]建立了视觉和文本共享记忆，以模拟长期的视觉-文本依赖，并进一步引导视觉注意力没有描述的视觉目标。MA-LSTM [59]利用多模态流和时间注意力，在句子生成过程中选择性地关注特定元素。Chen等人 [6]提出了一种帧拾取模块（PickNet），用于从视频中选择信息帧RecNet [55]在生成描述的同时采用反向流来再现视频特征。OA-BTG [65]利用其时间动态捕获显著对象。GRU-EVE [1]使用短傅立叶变换嵌入视频特征，然后使用门控递归单元对其进行编码。由于这些方法的局限性，很难建立正确的对应之间的一个词（如。动作）和视频内容，MARN [38]利用记忆结构来探索单词及其变体之间的全谱对应关系。我们的视觉环境。2.2. 使用语法信息的字幕句法成分被认为包含更多的语义信息，其作用在句子/文本生成中得到了强调由于字幕是一项涉及自然语言处理和计算机视觉的任务，因此利用视觉相关的··13098--1KK视频剪辑全局特征yt-1Cxd解码器ht-1SAAT编码层一个男人在举重。编码层编码层编码层编码层编码层对象检测器嵌入层嵌入层中心框架CXECXD部件条件CXE3D CNN2D CNNsubjactionobj信号FFN层范数自注意图2：我们的语法感知动作定位（SAAT）的架构涉及解码过程。SAAT模块由两个模块组成：1）分量提取器-编码器（Cxe），其基于边界框的自关注来计算场景表示; 2）分量提取器-解码器（Cxd），其基于不同语法分量自身的条件来预测不同语法分量。2D、3D-CNN和对象检测器用于从输入视频剪辑中提取特征。Cxe学习一种自关注的场景表示，并通过Cxd解码包括主语、宾语和谓语在内的语法成分。最后，有针对性的行动被利用来指导描述的生成。语法信息已经被用于图像/视频字幕。例如，Lebret等人 [27]分析了标题中的短语，并建议学习图像和短语表示的公共空间Tan和Chan [47]提出了一种基于短语的分层LSTM模型，该模型由短语解码器和缩写句解码器组成。Ling和Fidler [30]探索了通过纠正错误短语来描述图像的教学机器。这些方法通常解决多任务问题。除此之外， He 等人。 [19] 发现句子的词性（POS）标签是指导基于长短期记忆（LSTM）的单词生成器的有效线索。Desh- pande等人。 [11]建议将POS预测为图像的摘要，基于此生成字幕。POS- CG[54]同时学习POS序列生成器和描述生成器。与这些工作不同的是，我们综合利用句法信息来定位动作，进而指导字幕的生成。3. 方法站，并使用该行动（即，谓词）来指导字幕生成。在第3.3节中，我们详细介绍了训练和推理过程。总体框架如图所示。二、3.1. 自助场景表示视频的RGB特征是帧级的，其可以被视为视频的全局上下文。另一方面，对象区域的特征提供了更精细的局部信息。与其他将对象区域视为独立框的方法不同，我们希望学习由其语义信息和空间位置组成的表示，这有望帮助模型理解场景。受自然语言处理中的自注意机制[50]的启发，我们设计了一个基于自注意的编码器，以绘制场景中多个对象之间的全局依赖关系，如图所示。2.这里，分量提取器-编码器Cxe映射输入序列区域特征V b=（vb，. - 是的- 是的，vb）到一个连续的序列，′ ′ ′连续表示 =（vb，. . .，vb），其中K是1′K给定一个视频，我们的模型将从视频中提取的多模态特征V=Vr，Vm，Vb作为输入，例如，分别从2D CNN的RGB特征，C3D网络的时间特征和对象检测器的局部区域特征。我们的模型首先通过学习自我注意模块从可用特征生成场景表示，这将在第3.1节中描述。在第3.2节中，我们概述了如何解码语法组件，如对象区域的数量。给定Vb，分量提取器-解码器Cxd然后生成POS标签，即，主语谓语宾语根据[50]，给定key，value>pairs的查询Q的缩放点积注意力由下式产生：QKTfatt（Q，K，V）=softmax（softdV）（1）作为来自场景的主语、谓语和宾语表示-其中dk是查询和键的维度。在我们的例子中，13099RGB特征设置为主题场景表现时间特征德奥克德一个男人在举重。yt-1行动对象主题SvMOβ′全局特征obj的附加查询查询、键和值都是区域特征的投影。与自然语言中序列顺序的重要性类似，空间位置对于确定视觉内容所传达的语义信息至关重要因此，我们添加了对象位置的嵌入，通过连接（Q，K，V）=（RcWQ，RcWK，RcWV）（2）其中，投影{WQ，WK，WV}∈Rdc×dk是要学习的参数矩阵，dc是输入特征的维数，dk是我们模型的单元数，并且Rc=ReLU（[WTRl;WTVb]）（3）图3：从自参与场景表示解码语法组件的图示。l b特征作为主题的查询，它给出了其中[·;·]表示两个矩阵的级联R1=[X，Y，W，H]=[r11，r12，. - 是的- 是的，rlK]提供信息-s=argmaxw∈vocabpθ（w|Vb′，V（4）区域的中心坐标、宽度和高度的关系，其通过视频帧的大小归一化为pθ（w|Vb′，Vr）= softmax（WTfatt（V′r，V′b，V′（b））（5）rl=[xi，yi，wi，hi]T，其中wf和hf是宽度r′国际妇女联合会hfWFhf其中V是视频的投影全局特征，即，和视频中帧的高度与[50]类似，该模块可以很容易地扩展到其多头版本，由于空间限制，该版本被省略。这种建模背后的物理解释是，由多个对象组成的场景不仅是确定的，Vr′=WTVr，Vb′是学习的场景表示。θ表示要学习的参数。然后，在给定视频中的主题和时间变化的情况下，对谓词不仅与实物的数量和种类有关，而且与实物的空间排列有关。通过嵌入相关-a=argmaxw∈vocab pθ（w| s，V m）（6）p（w |s，V m）= softmax（W TReLU（[Es; Vm′]））（7）物体的位置，学习场景表示θaVB′包含了空间关系，对象除此之外，诸如主语、宾语和谓语之类的句法成分可以从场景中解码，因为与句子中的其他成分相比，它们与视觉场景更相关。3.2. 可感知的操作目标字幕其中s是预测的主题，V m′是视频的投影运动特征，即， V m= W TV m，E是词汇表中单词的嵌入。最后，在给定谓词和场景表示的情况下，解码对象′我们认为现有方法的局限性o=argmaxw∈vocab pθ（w |a、V b）（8）在常规编码器-解码器框架[60]上，描述中生成的动作与pθ（w|a、V′b）= softmax（WTfatt（Eo，Vb′，Vb′））（9）视频中的动态内容。为此，我们克服了这个问题，首先针对视频中的动作，然后用它来指导字幕过程。直觉、主语和宾语更多地依赖于区域的空间外观，而谓词则需要视频片段中的时间信息。在我们看来，预测用来描述视频中动作的词也取决于特定的主题。例如，当主语属于有生命的生物时，可能的动作可以是跑步、走路、打架、做饭等;当主语属于无生命的物体时，可能产生被动语态的动作。为了定位视频中的动作，我们首先解码子-嵌入13100其中a是预测动作，设置为对象的查询。为了生成与动作相关的视频描述，我们设计了一个语法引导的字幕，它使用由SAAT模块产生的动作值得注意的是，传递给标题者的特定指导是灵活的。我们采用的行动指导字幕，因为我们观察到，大多数ob-bushion在视频中可以正确地预测一个定期的解码器。我们用LSTM实现了captioner为了使字幕者能够共同参考来自句法成分的信息和来自先前预测的单词的信息，学习从前一节给出的自我关注场景表示中排除如图3、设置全局RGBβt，j=softmax（vTtanh（WβhEyj+Whht−1+bβ））（10）13101不1：Ti其中t表示如在常规差分编码器中的时间步长{ya，yt−1}，j是对应的ind e x和jβt，j=1。单词yt的概率分布由下式产生：Σ4. 实验我们比较了我们的方法与现有的两个流行的基准数据集从文献中的视频字幕，即。微软视频描述（MSVD）数据集[17]pθ（yt|2016- 05- 2500：00：00（Jβt，jEyj，Wvv<$，ht−1）（11）和MSR-Video To Text（MSR-VTT）数据集[58]。我们首先给出两个数据集和预处理执行的细节其中v<$表示全局特征Vr和Vm在时间-空间上的平均值，Wv是要学习的投影矩阵。 y0是由bos到ken的given，h0是零矢量r。3.3. 训练和推理我们模型的目标是最小化损失的总和来自SAAT模块的Ls和来自字幕机的损失LcL（θ）=Lc+λLs（12）其中λ是平衡两项的超参数，并且在这项工作中，然后我们讨论了实验结果。4.1. 数据集微软视频描述语料库（MSVD）。[17]该数据集包含1，970个YouTube开放域视频剪辑。一般来说，每个片段主要只显示一个单一的活动，跨度超过10到25秒。该数据集提供多语言人工注释的句子。如果只考虑英文字幕，则有85，550个字幕，每个片段大约有40个对于基准测试，我们遵循1，200/100/670个样本的常见数据分割进行训练/验证/测试[62，52，1]。ΣNLc=−ΣTilogpθ（yt=yθ|y1：t−1，ya）（13）MSR-video to text（MSR-VTT）[58]该数据集包含10 K网络视频剪辑和200K剪辑-句子对i=1t=1ΣN∗ ∗∗[b，r，m]总共它涵盖了各种各样的内容，和剪辑大致分为20类。后Ls=−i=1logpθ（（s，a，o）=（s，a，o）|V）（14）根据官方网站2上的说明和[58]中的设置，数据集被分成由6，513个训练集组成的训练集。其中y*是人工注释的标题和（s，a，o）是由NLP工具1生成的语法成分。通过计算视觉相关语法成分（即，主语、宾语和谓语），我们显式地将动作作为目标，这些动作比句子中的其他成分需要更多的动态信息。然后，预测的动作通过在生成动作相关描述之前向字幕者提供除语言之外的额外指导来指导字幕过程。在训练过程中，对于所有样本，对象编号K是固定的，以允许小批量训练。从每个视频的中心帧中提取K个对象区域的RGB特征和位置，以学习场景表示。在我们的实验中，我们设定K=10。如果检测到多于K个对象，则选择具有最高置信度的K个对象。如果小于K，则其中一些将出现不止一次，此时位置信息可用于区分重复区域。在推断期间，K对于输入视频可以是任意的我们观察到，预先训练的对象检测器有时无法从视频中捕获所需的对象，这可能是由视频帧的低分辨率和对象的大小引起的。因此，在学习语法感知场景表示期间，我们向K个选定对象区域添加额外的空区域以允许对象丢失的情况。1https://www.nltk.org夹子，497个夹子的确认组和2，990个夹子的测试组。每个片段由20个单句描述，由1327个亚马逊土耳其机器人（AMT）注释。工人这是最大的数据集之一剪辑句子对的视频字幕任务。4.2. 实现细节4.2.1数据预处理评价通过在阈值为3的训练分割中去除那些稀有词，我们分别获得了MSVD数据集和MSR-VTT数据集的大小为4，064和10，536的词汇表，其中包括四个额外的标记，bos，eos，pad和unk.我们做最小的预处理的注释字幕，即。将它们转换为小写并删除标点符号。我们在每个标题的开头和结尾分别添加bos和eos，词汇表中不包含的单词用unk标记替换。我们把句子的长度固定为30，在这里我们截断那些过长的句子，并在长度不足的句子的末尾添加pad为了将我们的模型的性能与其他方法进行比较，我们使用Microsoft COCO服务器[5]报告了七个无模型自动评估指标2http://ms-multimedia-challenge.com/2017/13102数据集13103∼∼×模型特征检测器B@1B@2B@3B@4MRC培训美国[60]M3 [56]MA-LSTM [59]视频实验室[40][23]第二十三话PickNet [6]RecNet本地 [55]OA-BTG [65]MARN [38]GRU-EVE [1]POS-CG [54]POS-CG [54]VNet+C3DVNet+C3DGNet+C3D+ARes152+C3D+A+CaC3D+A+CaRes152+Ca起始V4Res200Res101+C3D+CaIRV 2 +C3D+标签IRV 2 +I3D+CaIRV 2 +I3D+Ca✗✗✗✗✗✗✗C✗C✗✗82.373.6--------75.780.065.759.3--------63.066.449.748.3--------50.452.336.638.136.539.142.641.339.141.440.438.338.339.625.926.626.527.728.827.726.628.228.128.426.827.5--59.860.661.759.859.3-60.760.760.161.3--41.044.146.744.142.746.947.148.143.450.8XEXEXEXEXEXERLXEXEXEXEXE基线基线SAATSAATIRV 2 +C3D+CaIRV2+C3D+Ca IRV2+C3D+CaIRV2+C3D+Ca✗CcC78.979.180.279.664.865.166.265.951.951.452.652.140.539.340.539.927.927.028.227.759.959.960.961.246.147.149.151.0XEXEXERL表1：在BLEU@14、METEOR、ROUGE L和CIDER评分（%）方面，MSR-VTT数据集测试集上不同方法的性能比较。 VNet 、 GNet 、 C3 D 、 Res-N 、 IRV 2 和 A 分别表示 VGG 19 、 GoogLeNet 、 C3 D 、 N 层 ResNet 、InceptionResNet-v2和音频特征。Ca和Labels分别表示由MSR-VTT数据集提供的（20-）类别信息和由检测器提供的对象标签。XE和RL分别是交叉熵和强化学习训练策略的缩写。I.E. BLUE@14）[36]是基于精确度的，ME-TEOR [10]是计算句子级相似度分数的，CIDEr [51]是基于共识的，ROUGE L [29]使用最长公共子序列来估计句子之间的相似度它们分别表示为B0N、M、C、R，其中N的范围为1至4。其中，CIDEr是专门为字幕设计的，被认为更符合人类评价[51]。4.2.2实验装置为了提高效率，如[62，28]中所做的那样，我们从每个视频剪辑中选择28个均匀间隔的帧。我们使用InceptionResnetV2（IRV2）[46]和C3D [48]分别作为2D前者的最后一个平均池化层和后者的fc6层被认为是提取层。2D CNN在ImageNet数据集[44]上进行预训练，Sports 1M数据集[24]用于C3D的预训练。我们重新调整每个视频的帧大小，以匹配这些网络的输入对于3DCNN，我们使用16帧剪辑作为8帧重叠的输入，如[1]所示。更快的R-CNN [42]在我们所有的实验中都用作对象检测器。我们对每个单词应用独热编码，并将它们嵌入到512-dim空间中在每次迭代中，我们的模型在MSVD数据集上加载8个视频片段的小批量特征，在MSR-VTT数据集上加载64个视频片段的小批量特征为了减少无法正常解析的带注释描述的影响，我们将每个描述的CIDEr得分作为交叉熵损失的权重 Adam [25]优化器在我们的实验中用于训练，固定学习率为1 10−4。最终性能由在验证集上表现最佳的训练模型确定。我们使用波束搜索[45]，波束大小为5进行评估。4.3. 实验结果MSR-VTT数据集上的结果。我们全面地比较了我们的方法对当前国家的最先进的视频字幕MSR-VTT数据集。具体来说，我们选择i）基本方法，包括SA [60]，M3 [56] ， MA-LSTM [59] ， VideoLab [40] ， v2 tnavigator [23]，ii）最新的最先进的方法，包括PickNet [6]、RecNetlocal[55]、 OA-BTG [65]、 MARN [38]、 GRU-EVE [1]和POS-CG3。基线模型通过移除SAAT模块进行比较来实现，其中带有探测器的模块模拟BUTD [2]。在表1中，我们显示了MSR-VTT数据集测试集上不同方法的结果。当采用交叉熵策略进行训练时，所提出的SAAT模型在CIDER，BLEU@2和BLEU@3方面取得了最佳性能，而在METEOR和METYL上分别排名第二和第三。使用强化学习（SCST [43]），我们的模型在CIDER方面取得了最佳结果，在其他指标上排名第二。通过比较可以看出，融合多模态特征的方法比传统的方法具有更好的识别效果3这是由https：//github上发布的代码复制的。© 2019 XGating.保留所有权利13104行动目标模块。为此，我们首先进行烧蚀实验，以显示字幕的结果与不同的指导，从模块。我们使用自动度量进行比较。然后，我们评估了不同模型在不同场景下的动词准确性。最后，我们提供了多个例子，从两个数据集，以显示改进的语义质量生成的字幕。表2：在BLEU@4、ME-TEOR、ROUGE L和CIDER评分（%）方面，在MSVD数据集的测试集V、G和C分别是VGGNet19、GoogLeNet和C3D功能的缩写。OF表示光流特征。与SA [60]，这表明多个特征源的重要性。GRU-EVE[1]使用的高级语义信息（如标签）有助于描述的质量，这由高CIDEr分数表示。编码器-解码器架构的精心设计也有利于字幕效果，正如最新的最先进的方法所证明的那样。与这些方法和基线相比，我们的模型明确地针对视频中的动作，并大大提高了CIDEr分数。MSVD数据集上的结果。在MSVD数据集上，我们将使用交叉熵策略训练的模型与当前最先进的视频字幕方法进行比较，这些方法严格遵循[52]提供的训练/验证/测试分割，包括基线， S2 VT [52]， hRNN [63] ，HRNE [33]，4.4.1消融研究不同的语法指导。实际上，我们的语法感知动作定位模块可以被看作是一个插件，可以很容易地插入到现有的流行解码器。但在这里我们更感兴趣的是这个模块的具体指导对字幕解码器的影响，即。没有任何指导（即，基线）、来自所有三个语法组件（即，《易经》中，只有“道”，才是“道”。SAAT）。模型B@4MRCACC基线40.527.959.946.159.0Trip-G39.927.260.446.160.5SAAT40.528.260.949.160.4表3：变体在MSR-VTT数据集测试集上的性能比较，包括BLEU@4、ME-TEOR、ROUGE L、CIDER评分（%）和同品种器械的准确预测（%）。在表3中，我们显示了基线、Trip-G和SAAT的结果。可以看出，来自语法组件的指导在ROUGE和CIDEr分数方面改进了字幕结果。有趣的是，Trip-G模型的CIDEr评分低于SAAT。我们认为这是因为对于一些谓词，如跑步和游泳，预测的对象可以是eostoken（如NLP工具生成的地面真值），这会导致生成的字幕提前停止。LSTM-E [34]，SCN-LSTM [15]，DMRM [61]，LSTM-[35]，[36]，[37]，[38]，[39]，EVE [1].表2列出了不同方法的结果MARN [38]获得了最高的CIDER分数，这表明它对小规模数据集相当有效。根据统计，该数据集中只有882/88/522个训练/验证/测试视频片段。通过比较其在MSR-VTT数据集上的相对性能，可以推断出场景记忆方法对新场景的适应能力比我们的方法差除了MARN之外，我们的模型在CIDER分数方面远远优于其他方法。4.4. 讨论在本小节中，我们进行了定量和定性评估，以调查我们的语法感知的效果模型加-减dist-decACC-SAAT体育食品烹饪BUTD55.523.4-56.549.263.6POS-CG56.635.2-63.046.555.5基线59.023.9-63.650.863.6Trip-G60.517.355.361.455.165.5SAAT60.418.056.664.559.569.1表4：解码器（ac-dec）和在不同场景下（例如，运动）、到GT-动词的平均距离（dist-dec）和SAAT模块的动词准确度（%）（acc-saat）。动词的准确性。给定生成的字幕，我们收集中间和解码器表4建议（1）采用SAAT模块的模型可实现更低的距离，模型特征B@4MRCS2VT [52]V+OF-29.2--h-RNN [63]V+C49.932.6-65.8HRNE [33]G43.833.1--LSTM-E [34]V+C45.331.0--SCN-LSTM [5]R152+C51.133.5-77.7DMRM [61]G+V51.133.6-74.8LSTM-TSA [35]V+C52.833.5-74.0BAE [3]R50+C42.532.4-63.5PickNet [6]R15246.133.169.276.0M3 [56]V+C52.833.3--MARN [38]R101+C48.635.171.992.2GRU-EVE [1]IRV 2+C47.935.071.578.1基线IRV 2+C44.833.669.078.913105∼GT：“A man drawing a star on a piece of paper”，“A man is drawing a circleand a star”，“A man is drawing on a piece of paper”，“A person drawing on apiece of paper”}基线：“一个人正在折叠一张纸”SAAT：“一个人正在画一张纸”GT：“两个人在演奏乐器”，“一个男人在演奏大提琴，一个女人在演奏钢琴”，“一个男人在演奏乐器”，“一个男人和一个女人在演奏乐器”}基线：“一个男人在舞台上发表演讲《一个男人在弹钢琴》GT：“女人们穿着名牌服装在不同的地方摆姿势”，“模特们为推销产品而穿的不同衣服而烦恼”，"几个女人穿着时髦的衣服摆姿势“}基线：“有一个女人在地板上行走SAAT：“一个女人正在为时装秀摆姿势GT：“有一个人在晚上骑自行车”，“一个骑摩托车的人在高速公路上开车”，“这个人在晚上骑得很快”，“这个人和一群人一起骑摩托车”}基线：“一个男人正在玩视频游戏”SAAT：“一个男人骑着摩托车在路上”GT：“一个人解释如何解决魔方”，“一个人指着魔方”，“一个人讨论如何解决正方形难题”，“一个人正在解决魔方”，“一个人展示如何解决魔方”}基线：“一个人正在折叠一张纸”SAAT：“一个人正在解魔方”GT：“一个男人把一个杯子放进微波炉”，“一个男人使用微波炉”，“一个男人在微波炉里加热一杯咖啡”，“一个男人在操作微波炉”}基线：“一个男人正在做饭”SAAT：“一个男人正在把一个容器放进微波炉。”图4：通过MSR-VTT和MSVD数据集测试集的示例，对基线和SAAT模型进行了定性比较每个视频剪辑显示三个帧。3列出了5个人类注释描述用于说明。蓝色文本突出显示句子中的主题绿色和红色的单词分别显示基线和SAAT预测的操作在生成的字幕中具有更高的准确性和更高的动词准确性，特别是对于涉及更精细和多样化动作的运动/食物/烹饪场景;（2）SAAT模块的准确性低于解码器的准确性。这是合理的，因为模块被设计为提供动词的粗略方向，而解码器学习预测更精细的方向。4.4.2定性分析为了更深入地了解SAAT模块从视频中学到了什么，以及它如何连接视觉和语言，我们提供了几个示例，以定性地将我们的模型与图4中的基线进行比较。根据生成的描述，我们可以看到，基线和我们的SAAT模型都可以正确地预测主题，但前者未能捕捉到视频的动作由于空间有限，我们没有在图中列出所有GT描述。结果表明，语法感知的动作定位模块的有效性。研究结果还表明，改进的动作识别有利于生成字幕，例如。当绘画、摆姿势被预测时，相关场景如一张纸、一场时装秀被更容易被正确预测。5. 结论本文提出了一种用于视频字幕的语法感知动作标注模型SAAT，以提高字幕生成的质量。这是通过解释性地预测动作来实现的，以提供字幕者除了语言先验之外的额外指导。尽管我们观察到的一个明显的限制是，3D CNN提供的全局时间信息并不总是足以学习视频片段中的更精细动作，例如区分烹饪和进食，推和举。因此，我们希望可以捕捉到更好的视觉动态，以提高动作的识别，从而进一步提高生成的字幕的质量。确认这项工作得到了澳大利亚研究委员会项目 FL-170100117和DP-180103424的支持。我们要感谢郭家贤的初步讨论。13106引用[1] Nayyer Aafaq 、 Naveed Akhtar 、 Wei Liu 、 SyedZulqarnain Gilani和Ajmal Mian。时空动态和语义属性丰富的视频字幕视觉编码。在CVPR中，第12487-12496页[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中，第6077-6086页，2018年。[3] Lorenzo Baraldi Costantino Grana和Rita Cucchiara 用于视频字幕的高性能边界感知神经编码器在CVPR中，第1657-1666页[4] Andrei Barbu ， Alexander Bridge ， Zachary Burchill ，Dan Coroian ， Sven Dickinson ， Sanja Fidler ， AaronMichaux，Sam Mussman，Siddharth Narayanaswamy，Dhaval Salvi，et al.视频在句子出来。InUAI，page 102[5] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft coco字幕：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。[6] Yangyu Chen ， Shuhui Wang ， Weigang Zhang ， andQingming Huang.少即是多：为视频字幕挑选信息帧。在ECCV，第358-373页[7] LeonardDahlmann，EvgenyMatusov，PavelPetrushkov，and Shahram Khadivi.神经机器翻译在混合搜索中利用基于短语的模型。在EMNLP，2017年。[8] 戴波和林大华。图像加帽的对比学习。在NeurIPS，第898-907页[9] Pradipto Das ， Chenliang Xu ， Richard F Doell ， andJason J Corso.短短几句话就有一千帧：通过潜在主题和稀疏对象拼接对视频进行语言描述。在CVPR，第2634-2641页[10] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估在SMT，第376-380页[11] Aditya Deshpande ， Jyoti Aneja ， Liwei Wang ，Alexander G Schwing，and David Forsyth.快速，多样和准确的图像字幕引导的词性。在CVPR中，第10695-10704页[12] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在CVPR，第2625-2634页[13] Jianfeng Dong，Xirong Li，Weiyu Lan，Yujia Huo，andCees GM Snoek.视频字幕的早期嵌入和后期重排序。在ACM Multimedia，第1082-1086页，2016年。[14] Jianfeng Dong，Xirong Li，Chaoxi Xu，Shouling Ji，Yuan He，Gang Yang，and Xun Wang.用于零示例视频检索的双重编码在CVPR中，第9346-9355页[15] Zhe Gan，Chuang Gan，Xiaodong He，Yunchen Pu，Kenneth Tran，Jianfeng Gao，Lawrence Carin，and LiDeng.视觉字幕的语义合成网络。在CVPR中，第5630-5639页[16] Daniel Gordon ， Aniruddha Kembhavi ， MohammadRaste-gari，Joseph Redmon，Dieter Fox，and Ali Farhadi.Iqa：交互式环境中的可视化问答。在CVPR中，第4089-4098页[17] Sergio Guadarrama 、 Niveda Krishnamoorthy 、 GirishMalkar-nenkar 、 Subhashini Venugopalan 、 RaymondMooney、Trevor Darrell和Kate Saenko。Youtube2text：使用语义层次和零触

下载后可阅读完整内容，剩余1页未读，立即下载