基于教师推荐学习的视频字幕对象关系图

187 浏览量更新于2023-10-25 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13278基于教师推荐学习的视频字幕对象关系图张子琪1，3张，石亚亚2张，袁春峰1<$，李兵1，6，7王佩进3，5胡伟明1，3，4查正军21中国航天工业大学模式识别国家重点实验室2中国科学技术大学3中国科学院大学4中国科学院脑科学与智能技术卓越中心5中国科学院航天信息研究所6PeopleAI，Inc.7传播内容认知国家重点实验室，人民{zhangziqi2017}@ ia.ac.cn，{shiyaya，zhazj}@ mail.ustc.edu.cn，{cfyuan，bli，wmhu}@nlpr.ia.ac.cn摘要充分利用视觉和语言的信息是视频字幕任务的关键经验模型由于忽略了对象之间的交互而缺乏足够的视觉表示，并且由于长尾问题而缺乏对内容相关词的足够训练在本文中，我们提出了一个完整的视频字幕系统，TRL前的词频%TRL后的词频%包括一个新的模型和一个有效的培训策略。具体来说，我们提出了一个基于对象关系图（ORG）的编码器，它捕获更详细的交互特征，以丰富视觉表示。同时，我们设计了教师推荐学习（TRL）方法，充分利用外部语言模型（ELM），将丰富的语言知识整合到字幕模型中。ELM生成更多语义相似的单词建议，其扩展用于训练的地面实况单词以处理长尾问题。在MSVD、MSR-VTT和VATEX三个基准测试平台上的实验结果表明，所提出的ORG-TRL系统达到了最先进的性能。广泛的消融研究和可视化显示了我们系统的有效性1. 介绍视频字幕的目的是根据视频的视觉信息自动生成自然语言描述视频字幕有很多美好的愿景，如盲人辅助和自动驾驶辅助。视频字幕需要考虑视频内容的空间外观和时间动态*同等缴款。†通讯作者。图1.标题语料库的长尾问题显示了MSR-VTT的前50个单词频率在TRL的指导下，更多潜在的特定于内容的单词被暴露给标题模型。与之前相比，尾区的词频得到了全面提升。这是一个充满希望和挑战的任务[20，37，39，52]。在这个任务中的关键问题是双重的：如何提取区分特征来表示视频的内容，以及如何利用现有的视觉特征匹配相应的字幕语料库。最终目的是跨越视觉和语言之间的鸿沟。对于视觉表示，先前的作品[48，50，25，24，38]总是利用关键帧的外观特征和片段的运动特征来表示视频内容。这些特征提取的是全局信息，难以捕捉视频中对象的详细时间动态最近的作品[53，13]应用预训练的对象检测器来获得每个关键帧中的一些对象建议，并使用空间/时间注意力机制来融合对象特征。然而，它们忽略了对象之间的时间和空间域的关系在视觉提问、图像字幕甚至动作识别等领域的研究表明，对象之间的关系是至关重要的，它对生成更详细、更多样的视频描述起着重要的作用。对于句子生成，根据单词的统计头尾13279通过对字幕语料库中出现频率的分析，发现字幕语料库中出现的词汇以虚词和常用词为主。“the”和“man”，这在数量上远远超过了真正的内容专用词。这就是所谓的“长尾”问题，如图所示。1.一、这个问题会导致对大量有意义的单词的训练不足。虽然可以通过给不同的词赋予不同的权重来缓解长尾问题[9]，但不能从根本上解决此外，一个字幕模型不仅要理解视觉信息，而且要用如此少量的样本来掌握语言能力，这是一个非常繁重的任务！为什么不使用现成的ELMe.G. BERT [8]或GPT [28]作为教师，直接将语言知识传授给字幕模型，以减轻样本不足引起的问题本文提出了一种新的视频字幕训练模型，该模型克服了原有训练策略的不足，解决了视频字幕的上述两个问题：1）构建了一个可学习的ORG模型，以充分挖掘对象之间的时空关系。借助图卷积网络（GCN）[17]，可以在关系推理过程中增强对象表示具体来说，我们探索了两种图：部分对象关系图（P-ORG）连接同一帧中的对象，而完全对象关系图（C-ORG）为视频中的所有对象建立连接。缩放的点积用于隐式地计算每个对象之间的关系，这是在训练期间可学习的。最后，对象特征由GCN更新为更具信息性的特征。2）一般来说，字幕模型在每个训练步骤都被迫学习地面实况词，因此我们称这个过程为教师强制学习（TEL），这些词作为硬目标。然而，TEL没有考虑长尾问题。因此，我们提出了一种TRL方法，充分利用外部语言模型（ELM），产生一些词的建议，根据预测概率的当前地面真理的话。这些建议被称为软目标，它们通常在语义上与地面实况词相似，并扩展了它们。具体而言，ELM是在大规模外部语料库上离线训练的，并且它被聘为经验丰富的教师，他们拥有丰富的语言知识。相比之下，字幕模型可以被视为学生。在TRL的指导下，将ELM中的优秀语言知识转化为字幕模型。本文的主要贡献可以概括为：1）构造了新颖的ORG来连接视频中的各个对象，并利用GCN实现了关系推理，进一步丰富了细节对象的表示2）TRL是对TEL的补充，它将ELM中的语言知识整合到字幕模型中。在每个时间步长上训练的单词比以前多几次对缓解长尾型lem，提高字幕模型的泛化能力3）在MSVD、MSR-VTT和新的VATEX三个基准测试中，我们的模型达到了最先进的性能。2. 相关作品视频字幕。最近的研究主要集中在基于序列学习的方法[34，48，50，25，24，38，27]，其采用编码器-解码器结构。Yao等人 [48]提出了一种时间注意机制来动态地总结视觉特征。Wang等人[38]尝试通过从解码隐藏状态再现帧特征来增强生成的字幕的质量。最近，有一些关于对象级信息的研究[47，53，13]。Zhang等人[53]使用双向时间图来捕获视频中显著对象Hu等人 [13]使用两层堆叠的LSTM作为编码器，依次在帧级和对象级构建时间结构。然而，这些方法主要工作在全局信息或显着对象的时间结构，而没有考虑帧中每个对象之间的相互作用。在这项工作中，我们提出了一个基于图的方法，它构建了一个时空图上的所有对象在一个视频增强对象级表示。视觉关系推理。一些研究表明，视觉关系推理对于计算机视觉任务是有效的，例如图像字幕[49，46]，VQA [23，22，18]和动作识别[41，42]。 Yao等人 [49]利用从场景图解析任务[51]中学习的预定义语义关系，并通过使用修改的GCN将图结构嵌入到矢量表示中。Li等[18]使用显式图和可学习的隐式图来丰富图像表示并应用GAT[33]注意权重的更新关系Wang等人 [42]计算视频中每个对象的隐式相似关系和相对位置关系，然后应用GCN进行推理。很少有努力利用关系推理的视频字幕。Seq2Seq生成任务的外部语言模型。 ELM已被应用于许多自然语言生成任务，如神经机器翻译（NMT）和自动语音识别（ASR）。在[10]中使用ELM进行NMT的早期尝试也被称为浅融合和深融合。Kannan等人[14]充分探索了不同ELM的浅融合特性，并在大规模ASR任务中对其进行了测试。Sriram等人[30]提出冷聚变以改善ASR性能。这些融合方法显示了很好的性能，但也有一定的局限性。由于语言模型和任务模型之间的数据分布差异，直接使用输出逻辑时，浅层融合深度融合在推理过程中也需要ELM，而冷融合则依赖于额外的门控机制-13280.对key帧进行分解并提取其特征R=r ，i=K∈M {}∈F {}∈我∈i jj∈ ∈∈图2.我们提出的ORG-TRL系统的概述它主要由左上方框中呈现的基于ORG的对象编码器和右上方框中具有时间/空间注意力的分层解码器组成我们的模型是在左下框中的新颖TRL和右下框中的常见TEL的共同指导它还说明了训练过程中的一个虚拟示例：当t=3时，TEL迫使模型学习“说话”，但TRL建议模型通过ELM的知识学习更多的单词。anisms和网络，这将给任务模型带来繁重的计算和复杂性受[2]的启发，本文提出的TRL方法在训练过程中只计算“软目标”与任务模型输出分布之间的KL散度，可以很好地克服上述局限性。3. 方法图2说明了我们系统的概述编码器-解码器框架如下。通过不同的网络提取外观，运动和详细的对象特征。具体地说，我们构造了一个基于图的对象编码器，其核心是一个可学习的对象关系图（ORG），它可以动态地学习不同对象之间的交互。描述生成器通过在空间和时间上集中视觉特征，逐步生成每个词。在学习过程中，不仅使用了常规的教师强制学习（TEL），而且还使用了建议的教师推荐学习（TRL）策略来分别学习任务特定知识和外部语言知识。3.1. 基于对象关系图的视觉编码器形式上，给定一个视频帧序列，我们统一提取T帧作为关键帧，并收集关键帧周围的短距离视频帧作为反映视频时间动态的片段. 采用预先训练好的二维CNN和三维CNN分别提取每个关键帧的外观特征=fi和每个片段的运动特征=mi，其中fi和mi分别表示第i帧和第i片段的特征; i=1，. -是的-是的，L;L表示关键帧的数量人们总是根据视频中物体与其他物体的关系来描述物体为了得到详细的对象表示，预训练的对象检测器是ap-t的。用于捕获几个类不可知的对象提案，我我K1、. -是的-是的，L，k=1，. -是的-是的，N，其中ri表示第i 个关键帧中的第k个对象特征，L是关键帧的数量，N是每个帧中的对象的数量这些原始对象特征是独立的，它们在时间和空间上彼此没有相互作用为了从周围的对象中学习关系信息，我们为对象集定义了一个关系图，然后使用它来更新对象特征。具体来说，给定K个对象，每个对象都被认为是一个节点。设RRK×d表示K个具有d维特征的目标节点，AR K×K表示K个节点之间的关系系数矩阵。我们定义A为：A = φ（R）·φ（R）T（1）φ（R）=R·Wi+bi，φ（R）=R·Wj+bj （2）其中W，WRd×d′和bRd，bRd′是可学习的参数。随后，A被归一化以使连接到相同节点的边的总和等于1：A=softmax（A，dim=1）（3）其中A可以被看作是中心对象从周围对象获得的信息量。我们应用GCN来执行关系推理，然后将原始对象特征R更新为R_n：R=A·R·Wr（4）其中R 其中RK×d是增强的对象特征，具有对象间的交互信息，WrRd ×d是可学习的参数。我们探索两种关系图，如图所示3、P-ORG和C-ORG。具体地说，P-ORG只在对象编码器ORG关注LSTMGCN时间注意力语言LSTM2DCNN3DCNN外部语言模型GroundTruth两位厨师一边讲解如何烹制猪排，一边演示制作过程。描述生成器此外乘法连接教师推荐学习教师强制学习SoftmaxSoftmax空间注意检测器13281日××∈Rαc=βut，j JR不R--视频特征v<$=v，前一个词是watit−1不不不··Jc=αvt，iiJB不一不Language全球..ΣΣ∈不，h;h我我我我我分享分享P-ORGTop-k排序10C-ORG图3.拟定的P-ORG和C-ORG图每个彩色方块代表对象的矢量。A是相对系数矩阵。A∈RN×N关系图是一个连续的关系图，结构化。请注意，关系图的可学习参数其中αt，i是第t个解码步骤中第i个全局特征的权重;L是关键帧的数量;wa、Wa和Ua是可学习参数。对于局部对象特征，首先将不同帧中的对象对齐以合并在一起，然后空间注意力模块选择应该聚焦于哪些对象。我们使用一种简单但有效的方法来对齐不同帧中的对象。该过程显示在图中的左图2，虚线轨迹表示对象对齐。我们将第一帧中的对象设置为锚点，定义simi（j，j′）为jth之间的余弦距离锚帧中的对象和第i帧中的j′是的，我是。j，j′s=cos.r1，ri′（7）与所有L帧共享虽然出现在不同帧中的对象建议可能属于同一实体，但由于不同的状态，它们被认为是不同的节点。同时， C-ORG 构造了一个完全图 AR （ N×L ） ×（N×L），该图将视频中的每个对象与所有其他NL个对象连接起来。将中心节点与所有N L个节点直接连接是有噪声的，因此我们选择前k个最后，通过执行关系推理来计算增强的对象特征。它们与外观和运动特征一起足以呈现视频。3.2. 描述生成在获得足够的视频特征后，我们提出了一个带有时空注意力模型的分层解码器，逐步生成语言描述。该算法的解码器由Attention LSTM和Language LSTM组成。首先，注意力LSTM是根据历史隐藏状态hlang总结当前的语义hattn的tLSTM，与均值池t−1连接1L解码步骤t：其中j，j′=1，. -是的-是的，N;i=2，. -是的-是的，L.考虑到两个对象之间的相似性，我们使用原始对象特征来计算相似度，而不是使用增强特征来计算相似度。根据最大相似性将每帧中的对象与锚对齐。理想情况下，这些对齐的对象属于同一图元。增强功能对齐对象组之后的“0”是加权和通过α t，i，i=1，. -是的-是的，L. 以这种方式，根据对准操作和时间注意力，将不同帧中的对象合并到一个帧中作为局部对准特征R~。然后，空间注意力模块决定（ob-xi）要参加的地方，并抽象出局部的ob-xi特征cl：NLtj=1βt，j=softmaxxwTtanhWbuj+Ubhattn（8）其中ujR表示N个局部对准特征之一;Wb、Wb和Ub是可学习的参数。最后，LSTM语言总结全局和局部上下文特征，以生成当前隐藏状态hlang。首先得到字幕模型Pt的概率分布，然后用单层感知器和hattn=LSTMattn。v'，Wewt−1langattn（5）t−1 t−1在解码步骤t的softmax操作：hlang=LSTMlang。cg，cl，hattn;hlang（九）其中v=[f，m]，f∈F，m不∈M，是连接t t tt−1的外观特征和运动特征，We是学习-能字嵌入矩阵。遵循当前语义hattn，时间注意模块动态地决定何时（帧）注意，并抽象全局上下文特征cg：Pt=softmax（Wzhlang+bz）（10）其中[，]表示连接;Pt是词汇量的D维向量; W z和b z是可学习的参数。3.3. 通过外部教师推荐学习L语言模型不i=1αt，i=softmax x.我的天啊。Wavi+Uahattn（6）为了对特定于内容的单词进行足够的训练，所提出的模型在公共TEL和所提出的TRL的指导下进行联合训练。不G13282.Σ∈不∈不−∈不P1Q2Ts不12Ts不我不KL不不D·X∈t=4一个穿绿衣服的女人软目标长金发短卷曲布朗黑色红色黑暗白色粉红色...概率0.0470.0250.0200.0190.0170.0160.0150.0140.0110.011t=6一女人与绿色头发教学软目标示出示出表明展示解释解释教教学告诉描述...概率0.0860.0660.0650.0330.0230.0150.0140.0140.0130.012t=13一女人与绿色头发教学如何到装饰花在一个花瓶软目标花瓶花园温室院子房间菲尔德树后院花花束...概率0.0740.0510.0150.0150.0140.0100.00950.00810.00680.0061表1.在同一个句子的三个位置上出现“软目标”和“硬目标”（有色词）的例子给定“硬目标”之前的单词，ELM生成10个“软目标”，并按降序排列它们的概率。对于传统的TEL过程，字幕模型被迫在每个时间步长生成地面实况词这个词就是所谓的“硬目标”，表示为hard = x h，x h，.。-是的-是的，x h，其中x h是第t个解码步骤处的一个地面实况词; Ts表示给定句子的总训练步骤。我们将我们设计的字幕模型称为CAP，CAP的输出概率分布为Pt=CAP（w

下载后可阅读完整内容，剩余1页未读，立即下载