硬注意力机制在多模态视频字幕生成中的应用

需积分: 21 13 浏览量更新于2024-08-13 收藏 1.2MB PDF 举报

"本文主要探讨了基于硬注意力机制的多模态视频字幕生成模型，该模型通过结合视频和音频的多模态信息，利用编码器-解码器框架，并在解码过程中引入硬注意力机制，提升了视频描述的准确性。在MSR-VTT数据集上的实验结果显示，该模型相比基础模型在机器翻译指标上有0.2%至3.8%的提升，证明了其在视频字幕生成中的优越性。" 正文: 视频字幕生成是人工智能领域的一个重要研究方向，其目标是自动生成能够准确反映视频内容的文字描述。传统的视频字幕生成方法通常基于编码器-解码器架构，其中编码器负责捕获视频的特征，而解码器则负责生成相应的字幕。在编码阶段，卷积神经网络(CNN)被广泛用于提取视频的视觉信息；而在解码阶段，长短期记忆网络(LSTM)被用来生成连续的文本序列。然而，视频不仅包含视觉信息，还有音频信息，且视频内容往往具有时间上的相关性和多模态特性。因此，为了更好地捕捉这些特性，文章提出了一种混合型模型，即基于硬注意力的多模态视频字幕生成模型。这种模型在编码阶段采用多模态融合策略，整合视频和音频两种模态的信息。融合模型的设计可以有效地结合两种模态的特征，增强模型对视频整体理解的能力。在解码阶段，模型引入了硬注意力机制。传统的注意力机制允许模型在解码时动态关注输入序列的不同部分，但通常是以软的形式，即注意力权重是连续的分布。硬注意力机制则不同，它使得模型在解码时只能关注输入序列的特定位置，这在某些情况下可能更有利于选择关键信息，从而提高生成字幕的精确度。实验在MSR-VTT数据集上进行，这是一个大规模的视频到文本的转换数据集。结果表明，基于硬注意力的多模态混合模型在机器翻译指标上相较于基础模型有显著提升，提高了0.2%至3.8%。这一提升证明了硬注意力机制在处理多模态视频信息时的有效性，特别是在生成精准视频描述字幕方面。基于硬注意力机制的多模态视频字幕生成模型是当前研究的一种创新方法，它充分利用了视频的多模态信息，并通过硬注意力机制增强了模型的聚焦能力，从而生成更准确的字幕。这种方法不仅有助于提升自动视频字幕生成的性能，也为其他多模态信息处理任务提供了有益的参考。未来的研究可能将进一步探索如何优化注意力机制，以实现更高效、更精准的视频理解。

收稿日期：２０１９１１０８；修回日期：２０２００１０５　　

作者简介：郭宁宁（１９９７），女，山西长治人，硕士研究生，主要研究方向为视频处理（ｑｎｉｎｇｊ＠１６３．ｃｏｍ）；蒋林华（１９７７），男，上海人，教授，

博导，主要研究方向为图像处理．

基于硬注意力机制的多模态视频字幕的处理

郭宁宁，蒋林华

（上海理工大学光电信息与计算机工程学院，上海２０００９３）

摘　要：传统的视频字幕生成模型大多都采用编码器—译码器框架。在编码阶段，使用卷积神经网络对视频进

行处理。在解码阶段，使用长短期记忆网络生成视频的相应字幕。基于视频的时序相关性和多模态性，提出了

一个混合型模型，即基于硬注意力的多模态视频字幕的生成模型。该模型在编码阶段使用不同的融合模型将视

频和音频两种模态进行关联，在解码阶段基于长短期记忆网络的基础上加入了硬注意力机制来生成对视频的描

述。这个混合模型在数据集ＭＳＲＶＴＴ（Ｍｉｃｒｏｓｏｆｔｒｅｓｅａｒｃｈｖｉｄｅｏｔｏｔｅｘｔ）上得到的机器翻译指标较基础模型有

０２％～３．８％的提升。根据实验结果可以判定基于硬注意力机制的多模态混合模型可以生成视频的精准描述

字幕。

关键词：编码器—解码器；多模态融合；注意力机制

中图分类号：ＴＰ１８３　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２１）０３０６２０９５６０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．１１．０６９１

Ｈａｒｄａｔｔｅｎｔｉｏｎｂａｓｅｄｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎｆｏｒｖｉｄｅｏｃａｐｔｉｏｎｇｅｎｅｒａｔｉｏｎ

ＧｕｏＮｉｎｇｎｉｎｇ，ＪｉａｎｇＬｉｎｈｕａ

（ＳｃｈｏｏｌｏｆＯｐｔｉｃａｌＥｌｅｃｔｒｉｃａｌ＆ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｈａｎｇｈａｉｆｏｒＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｇｈａｉ２０００９３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｍｏｓｔｏｆｔｈｅｔｒａｄｉｔｉｏｎａｌｖｉｄｅｏｃａｐｔｉｏｎｇｅｎｅｒａｔｉｏｎｍｏｄｅｌｓａｄｏｐｔｅｎｃｏｄｅｒｄｅｃｏｄｅｒｆｒａｍｅｗｏｒｋ．Ｉｎｔｈｅｅｎｃｏｄｅｒｓｔａｇｅ，ｔｈｅ

ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｅｕｓｅｄｔｏｄｅａｌｗｉｔｈｔｈｅｖｉｄｅｏ．Ｉｎｔｈｅｄｅｃｏｄｅｒｓｔａｇｅ，ｔｈｅＬＳＴＭａｒｅｕｓｅｄｔｏｇｅｎｅｒａｔｅｔｈｅｃａｐｔｉｏｎ

ｏｆｖｉｄｅｏ．Ｂａｓｅｄｏｎｔｈｅｔｅｍｐｏｒａｌｃｏｒｒｅｌａｔｉｏｎａｎｄｍｕｌｔｉｍｏｄａｌｉｔｙｏｆｖｉｄｅｏ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｈｙｂｒｉｄｍｏｄｅｌ，ｗｈｉｃｈｗａｓａｍｕｌｔｉ

ｍｏｄａｌｖｉｄｅｏｃａｐｔｉｏｎｇｅｎｅｒａｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎｈａｒｄａｔｔｅｎｔｉｏｎ．Ｉｎｔｈｅｅｎｃｏｄｅｒｓｔａｇｅ，ｉｔｕｔｉｌｉｚｅｄｔｈｅｍｏｄｅｌｏｆｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎ，

ｗｈｉｃｈｃｏｕｌｄｍａｋｅｔｈｅｔｗｏｋｉｎｄｓｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃｓｒｅｓｏｎａｔｅｄｔｏｇｅｎｅｒａｔｅｄｔｈｅｆｉｎａｌｆｅａｔｕｒｅｏｕｔｐｕｔｓ．ＩｔｕｓｅｄＬＳＴＭｗｉｔｈｈａｒｄａｔ

ｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｉｎｔｈｅｄｅｃｏｄｅｒｓｔａｔｅｔｏｇｅｎｅｒａｔｅａｄｅｓｃｒｉｐｔｉｏｎｏｆｖｉｄｅｏ．Ｔｈｅｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｉｎｄｅｘｏｂｔａｉｎｅｄｂｙｔｈｉｓｈｙｂｒｉｄ

ｍｏｄｅｌｏｎＭＳＲＶＴＴｉｓ０．２％～３．８％ｈｉｇｈｅｒｔｈａｎｔｈｅｂａｓｉｃｍｏｄｅｌ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎｂａｓｅｄ

ｏｎｈａｒｄａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍｃａｎｇｅｎｅｒａｔｅａｃｃｕｒａｔｅｄｅｓｃｒｉｐｔｉｏｎｃａｐｔｉｏｎｓｏｆｖｉｄｅｏ．

Ｋｅｙｗｏｒｄｓ：ｅｎｃｏｄｅｒｄｅｃｏｄｅｒ；ｍｕｌｔｉｍｏｄａｌｆｕｓｉｏｎ；ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ

０　引言

根据一段视频生成对该视频的描述，是一个视频序列到文

本序列的任务。视频可以拆分成一帧一帧的图像，视频生成字

幕可以理解为多张在时间上相关的图像生成的字幕。无论是

图像字幕生成还是视频字幕生成，都是基于神经网络的编码—

解码框架

［１］

。

在图像字幕生成项目中，最开始取得不错成果的研究使用

的框架就是卷积神经网络—长短期记忆网络结合的编码—解

码框架

［２，３］

。在编码阶段，使用卷积神经网络来对图片进行处

理，生成相应的特征集，将特征集映射到一个定长的向量中作

为解码器的输入

［４］

；在解码阶段，使用长短期记忆网络中特殊

的门变换，将编码阶段得到的向量进行编译，得到最后的字幕

输出

［５，６］

。视频字幕生成与图像字幕生成较为相似，但由于视

频本身不像图像，包含的信息为单模态信息，所以早期的视频

字幕生成工作都是只针对于视觉方面的模态来进行研究，即只

从视频中提取相对应的视觉特征用来生成字幕

［７］

。此时，视

频字幕生成与图像字幕生成的差别点在于，图像字幕生成采用

基础的卷积神经网络框架即可，但在视频字幕生成中由于视频

的视觉模态是包含时间顺序的，需要从空间和时间的维度来提

取视频的特征，所以进行特征集生成处理时采用的卷积神经网

络是

３ＤＣＮＮ

［８，９］

。对于解码阶段，视频字幕生成与图像字幕

生成是相同的，都采用了长短期记忆网络来处理

［１０，１１］

。

但视频所包含的信息比图片包含的信息要复杂，人们了解

一个视频的基本内容，不仅需要通过视觉方面来进行了解，还

要进一步地基于听觉方面来进行了解。因此，在处理视频字幕

问题时，要从两个基本模态考虑，即视频模态和音频模

态

［１２～１７］

。另外，加入音频特征集会提升实验进行的难度，如果

不能很好地将两种不同的模态进行处理使之产生共振

［１８］

，反

而会影响实验的精确度，因此，如何将两种模态进行融合以及

融合后如何使模型达到最高的精确度都是挑战。

随着进一步的研究工作，研究人员提出了一系列改进的工

作用来提高字幕生成的精确度，其中，加入注意力机制的研究

最为广泛

［１９～２５］

。其原理为在解码阶段，动态地选择之前提取

的图片特征用于最后字幕的生成，其根据上下文信息可以对不

同的特征加入不同的权重，从而只关注于比较重要的部分，使

最后生成的字幕更加精确。注意力机制一般分为两种：ａ）软

注意力机制，是对所有提取出来的特征都赋予加权和；ｂ）硬注

意力机制，只对当前时间状态下，某个时间区域内的特征赋予

一定的权重

［２６，２７］

。

本文的核心思想工作分为三步：ａ）在编码阶段需要从视

频中提取出视觉特征集和音频特征集；ｂ）采用融合框架使得

两种特征集产生共振；ｃ）在解码阶段依据被处理好的特征集

第３８卷第３期

２０２１年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３８Ｎｏ３

Ｍａｒ．２０２１

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38666232

粉丝: 3
资源: 923

硬注意力机制在多模态视频字幕生成中的应用

Attention(注意力机制代码)

ChatGPT技术与多模态对话问答系统中的图像与视频理解与生成能力研究.docx

英文视频caption生成模型

适合多模态的注意力机制

什么是多模态交叉注意力机制

跨模态注意力机制和交叉注意力机制有什么区别

多模态交叉注意力机制

多模态注意力融合机制

跨模态多头注意力机制

最新资源