基于图神经网络的视频字幕动作知识

161 浏览量更新于2024-01-23 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于图神经网络的视频字幕动作知识Willy Fitra Hendria，Vania Velda，Bahy Helmi Hartoyo Putra，Fikriansyah Adzaka，Cheol Jeong韩国首尔市广津区内洞路209号世宗大学智能机电一体化工程系和智能无人机融合工程系阿提奇莱因福奥文章历史记录：2023年1月9日收到2023年2月27日修订2023年3月10日接受2023年3月16日网上发售保留字：图形神经网络视频字幕视觉表示A B S T R A C T许多现有的视频字幕方法通过利用从动作识别模型提取的特征来捕获视频中的动作信息。然而，直接使用的动作功能，没有对象特定的表示可能无法很好地捕捉对象的相互作用。因此，所生成的字幕在描述场景中的动作和对象时可能不够准确为了解决这个问题，我们建议将动作特征作为边特征纳入图神经网络，其中节点表示对象，从而捕获对象-动作-对象关系的更精细的视觉表示。以前的基于图的视频字幕方法通常依赖于预先训练的对象检测模型来创建节点表示。然而，对象检测模型可能会错过检测一些重要对象。为了缓解这个问题，我们进一步引入了一个基于网格的节点表示，其中的节点表示的特征提取网格的视频帧。使用这种表示方法，可以更全面地捕捉场景中的重要对象。为了避免在推理过程中增加任何复杂性，通过知识蒸馏将所提出的图的知识转移到另一个神经网络。我们提出的方法在两个流行的视频字幕数据集上取得了最先进的结果，即，MSVD和MSR-VTT ，所有指标。我们提出的方法的代码可在 https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍视频字幕（Venugopalan等人，2015），也称为视频描述或视频到文本，由于场景中事件的复杂性，是一项具有挑战性的任务。与图像加帽相比（Vinyals等人，2015年），它只需要描述一个图像，视频字幕还应该描述跨多个帧发生的事件，从而导致要考虑的更多种类的动作。因此，为了在这种具有挑战性的情况下生成准确和详细的字幕，需要具有帧内和跨帧的关系的从视频中提取的视觉表示对生成的字幕的质量具有显著影响许多存在-*通讯作者。电子邮件地址：willyfitrahendria@sju.ac.kr（W.F. Hendria），vaniavelda@sju.ac.kr（V. Velda），bahy@sju.ac.kr（B.H.H.Putra），fadzaka@sju.ac.kr（F.Adzaka），cheol. jeong@ieee.org（C. Jeong）。沙特国王大学负责同行审查ing视频字幕的作品（Pei等人，2019; Yao等人，2015年; Pan等人，2016年; Yang等人，2021; Ryu等人， 2021）依赖于连接从二维卷积神经网络（2D CNN）提取的特征（He等人， 2016）和三维CNN（3D CNN）（Tran等人， 2015）模型。具体而言，对于3D CNN模型，它通常在动作识别数据集上进行预训练，例如，动力学（Kay等人， 2017）或UCF101（Soomro等人， 2012），并且用于在给定视频片段作为输入的场景中捕获动作知识。对于2D CNN模型，它通常用于提取表示视频帧的全局信息的单个特征向量。简单地连接从2D CNN和3D CNN提取的全局特征可能无法很好地捕获对象级（或局部）信息以及它们的交互，例如，谁在做饭，什么样的食物正在烹饪。因此，在全局特征的级联上训练的模型可能错误预测字幕中的对象和动作为了捕获场景中的对象级信息，许多作品（Yan等人，2020年; Hu等人，2019年; Zhang等人，2020; Pan等人，2020; Lin等人， 2021a）使用预训练的对象检测模型。Yan等（Yan等人，2020）和Hu等人（Hu等人，2019）从预训练的对象检测模型中提取对象特征并应用注意力机制（Bahdanau等人，2015），而不显式地对对象之间的关系进行建模。为了显式地对https://doi.org/10.1016/j.jksuci.2023.03.0061319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comW.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报51对象交互，几个作品通过将对象表示为图中的节点来利用图模型（Zhang等人，2020;Pan等人，2020; Lin等人，2021年a）。图模型可以显式地捕获节点之间的关系，即，对象，在图中。Zhang等人（Zhang等人，2020）和Lin等人（Lin等人，2021a）用对象特征的可学习点积对对象交互进行建模。Pan等人（Pan等人， 2020）采用对象之间的交集和余弦相似性来对交互进行建模。然而，这些工作并没有利用行动知识，即，3D CNN特征作为对象之间的显式关系，这限制了很好地捕获对象和动作关系的能力。在本文中，我们将行动的知识到一个图模型捕捉明确的对象-动作-对象的关系。具体地，我们利用动作知识作为图神经网络（GNN）中的边缘特征（Scarselli等人，（2009年）其中节点表示对象。与此图表1不同类型视频特征的视频字幕方法比较表。全局特征：例如， NACF（Yang等人，2021），是指2D CNN和3D CNN之间的简单级联。地方特色：例如，STAT（Yan等人，2020），是指添加额外的对象功能，以突出显示与字幕最相关的对象。基于对象的图形：例如，STG-KD（Pan等人，2020）使用图形表示对场景中的对象之间的关系进行建模。在该方法中，节点基于对象特征构造，边基于对象的同现，例如IoU。基于网格的动作图：我们提出的方法，其中网格特征被用作节点的表示，动作特征被用作边缘表示。这种方法不同于以前的方法，依赖于对象的功能，节点和它们的关系，以构建图形表示。我们的图目前具有固定大小的网格，这对于某些视频或其他域数据集可能并不理想，因为捕获相关信息所需的网格大小可能会因视频内容而异。在我们的图中使用动态或多尺寸网格，这超出了这项工作的范围，将是有趣的，在未来的工作中进行调查。视频功能优势劣势通过这种方法，动作和对象交互的更精细的视觉表示可以用于视频字幕。最近的作品（Zhang et al.，2020; Pan等人，2020; Lin等人，2021a）利用图结构对视觉表示进行建模，其中图中的节点基于从对象检测模型提取的对象特征来构造。然而，对象检测模型可能会错过检测一些重要的对象。因此，场景中的对象交互可能无法在图模型中完全捕获。我们引入了一个基于网格的节点特征来表示我们图的节点，而不是使用从对象检测模型中提取的特征。具体地，如图1所示，我们将视频帧划分为网格，即，补丁，并使用特征提取器从每个补丁中提取特征，该特征提取器在用于视频字幕任务的相同数据集上进行预训练。这些特征然后被用作图中的节点特征。通过这种方式，我们的方法不依赖于检测性能和对象检测模型的可用性。通过这种方法，可以更彻底地捕捉场景中的对象。作为一个额外的优势，这个网格-全局特征（Yang等人，2021; Zhang等人，2021; Ryu等人，2021年）地方特色（Yan等人，2020年; Ye等人，2 0 2 2 a）基于对象的图（Zhanget al.，2020; Pan等人， 2020年）基于网格的动作图（建议）提供视频的足够的空间和时间信息。具有通常快速和简单的提取过程。更好地了解场景中的对象细节。能够通过图形结构对对象之间的交互进行建模。提供更明确的对象-动作-对象关系信息。不依赖于对象检测模型性能没有足够的容量来捕获对象级（本地）信息。在捕捉对象之间的交互方面在对象关系建模方面能力有限依靠对象检测性能对对象关系进行建模。在对象关系建模中没有显式的操作信息。由于网格大小固定，可能在理解多尺度上下文信息方面能力有限。基于的方法也有助于捕捉明确的关系在物体和背景之间，即，上下文信息，并且具有比使用预训练的对象检测模型更少的计算消耗尽管一个补丁可能只包含一部分一个裁剪的对象，一个完整的对象最终将被捕获从不同的补丁之间的相互作用此外，我们通过重叠补丁来减轻这种裁剪对象问题（Liu等人，2021年; Lee等人，2022）以向节点提供关于相邻节点的本地信息的知识。我们在表1中总结了以前方法和我们提出的方法的优点和缺点。Fig. 1.我们提出的具有重叠网格的图模型的插图。我们的图利用动作特征作为图模型中的边特征，其中节点特征由基于网格的节点特征表示。在本文中，我们提出了一种新的方法来提取视觉表示的输入视频捕捉对象-动作-对象的关系明确。具体地，图中的节点由基于网格的节点特征表示，并且边由动作知识表示，即，3D CNN功能。然后通过GNN学习该图结构以增强图表示，并且可以将所学习的知识转移到任何现有的视频字幕模型中以提高性能。提取基于图的特征会降低推理速度。为了避免在推理过程中增加任何复杂性，我们采用了知识蒸馏框架。具体地，我们同时训练我们的基于图的网络和基于CLIP的网络，即，现有的视频字幕模型，通过知识蒸馏。在推理过程中，我们只需要使用基于CLIP的网络，因为从基于图的网络中学习的知识已经通过知识蒸馏转移到基于CLIP的网络中。我们采用了基于CLIP的网络（Tang等人， 2021）作为主要模型，因为它是撰写本文时的最新模型。其应用于其他现有的模型是留给未来的工作。虽然我们的方法也可以为非英语视频字幕提供益处（Zaoad等人，2022年;Alfretamak等人，2019; Singh等人， 2022）或其他视频相关任务，即，视频异常检测（Kim等人， 2022）、视频检索（Cao等人，2022）和视频问答（Kim等人，2021），我们只专注于英语视频字幕在本文中。该方法在其他任务和语言上的应用可为今后的研究提供参考。W.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报52×概括而言，我们的主要贡献及动机如下：我们设计了一种新的方式来建模的视觉交互，利用行动功能的边缘图表示。据我们所知，这是第一个工作，动作图模型被利用作为视频字幕的特征表示。这种新颖的视觉表示的动机，因为现有的方法可能有有限的能力，在捕捉对象和动作的关系很好。当节点由对象特征表示时，将动作特征表示为边有助于提高性能，即，所述特征从对象检测模型提取。为了实现更高的性能，然后，我们提出了一个新的基于网格的节点表示与建议的边缘表示。通过这种方式，场景中的对象被更彻底地捕获，并且我们的方法不依赖于对象检测模型的检测性能和可用性。此外，这种方法还有助于捕获对象与背景的关系，并且比添加额外的预训练对象检测模型具有更低的计算复杂度。大量的实验结果表明，我们在两个基准数据集上的所有指标上都达到了最先进的性能，通过更准确的单词选择细节提高了生成字幕的质量2. 相关工作2.1. 可感知视频字幕预训练的 3D CNN ，例如，卷积 3D （ C3D ）（ Tran 等人，2015）、膨胀3D ConvNet（I3D）（Carreira和Zisserman，2017）和ResNet 3D（R3D）（Hara等人，2017）通常用作视频字幕中的特征提取器以捕获视频中的运动信息。这些模型通常在动作识别数据集上进行预训练，例如，Kinetics-400或UCF 101，能够识别给定视频帧的动作。先前在视频字幕方面的工作（Pei等人，2019; Yao等人，2015年;Pan等人，2016年; Yang等人，2021; Ryu等人，2021; Zhang等人，2021）已经尝试将3D和2D CNN特征连接起来以生成视频的全局表示，并且已经成功地实现了良好的性能。代替简单地连接3D和2D CNN特征，几个作品（Zheng等人，2020; Bai等人，2021年）已经尝试利用3D CNN功能，即，动作特征，不同。Zheng等人（Zheng等人，2020）通过动态地融合来自预测谓词的知识与先前预测的单词来利用动作特征作为动作引导字幕。Bai等人（Bai等人，2021）将长短期记忆（LSTM）模型应用于动作特征以增强特征表示。代替基于CNN的模型，Lin等人（Lin等人，2022）使用基于变换器的动作识别模型来提取视频表示。随后，从这些工作中，我们使用从动作识别模型中提取的特征，作为图模型中的边特征，其中节点表示对象。通过动作特征对对象之间的交互进行建模，有助于我们的方法生成具有更准确动作和对象的字幕。2.2. 对象感知视频字幕预训练的对象检测模型，例如， Faster R-CNN （ Ren 等人，2017 ）、 Mask R-CNN （ He 等人， 2017 年 a ），你只看一次（YOLO）（Redmon等人，2016），已经在视频字幕的现有作品中被用来提取对象级信息。最近的工作（Ye et al.，2022 a）利用对象级信息-通过预训练的Faster R-CNN。然后，基于外观和IoU对提取的对象特征进行分组，并将其馈送到Transformer编码器-解码器架构中，以便突出显示与字幕最相关的对象。在（Zheng等人，2020），他们使用提取的对象特征作为基于自我注意的模块的输入，以绘制对象之间的依赖关系。几项工作（Zhang et al.，2020; Pan等人，2020;Lin等人，2021a）将对象特征作为节点并入图表示中，以捕获它们之间的显式交互。与以前的方法相比，我们的方法通过使用网格级特征来创建图的节点通过采用该技术，可以更彻底地提取对象级信息，而与对象检测模型的检测性能2.3. 用于视频字幕的图神经网络在以前的视频字幕工作中，图形数据结构已经被用来对视觉交互进行建模。该数据结构通常由GNN利用（Scarselli等人，2009）来捕捉对象之间的交互。具体来说，他们使用了图卷积网络（GCN）（Kipfet al.，2017）在加权图上，即，边上只有一个数字的图Zhang等人（Zhang等人，2020）利用对象特征的点积对对象交互进行建模，并通过GCN处理特征。Pan等人（Pan等人，2020）采用IoU和余弦相似性来建模对象交互，并采用GCN来卷积图。与这些现有的方法不同，其中在图中使用一维边缘特征，我们的方法使用多维边缘特征表示，包括从3D CNN模型中提取的特征。我们的多维边缘特征捕获丰富的信息，以细粒度的方式区分对象之间的关系。为了利用这种边缘特征，我们采用图形注意力网络（ GAT ）（ Velickovic et al. ， 2018 ）、 GATv2（Brody等人，2022）和图形Transformer网络（Shi等人， 2021年，在我们的实验中。3. 方法如图2（a）所示，我们的方法的整体框架由两个网络组成：基于图的网络H1和基于CLIP的网络H2。给定具有M帧的输入视频，我们从视频中采样T帧序列。该方法将每帧图像分割成网格的G-G块，并利用CLIP-ViT算法提取接下来，我们使用动作识别模型为M帧内的每个K帧序列提取动作然后，我们构建了一个基于网格的动作图，其中的边缘功能是动作功能和节点表示的网格功能。利用图神经网络来增强基于网格的动作图，然后将其用作H1中字幕生成器的输入。这种方法利用场景中对象和动作之间的关系，从而使用更精细的视觉表示生成更准确的字幕。对于H2，输入视频的采样方式与H1相同。然而，字幕生成器的输入在H2中不是基于网格的动作图，而是通过CLIP-ViT获得的视频特征。在训练过程中，我们采用知识蒸馏方法同时训练H1和H2，这使得我们的方法在推理阶段具有计算效率。请注意，动作识别模型和CLIP-ViT在训练过程中被冻结我们在H1和H2中使用相同的两层编码器-解码器基于变换的网络用于字幕生成器。在推理阶段，只有H2是用来生成基于输入视频的字幕。●●●W.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报53K、、、××ðþ Þ× ðþÞ不K不T-1不t;1t;Nact、、、图二、（a）我们的基于网格的动作图通过合并从CLIP-ViT模型和动作识别模型提取的特征来构建图模型只有一个CLIP-ViT模型用于H1和H2网络。然而，对于字幕生成器，我们使用两个具有相同结构的独立网络。(b)演示采样过程，以构造T、K、M值分别为3、2和10的图形表示。节点特征由视频中第t个采样帧提取的每个特征来表示，而边缘特征由第t个采样帧对应的动作特征来表示3.1. 动作图表示法动作图是其中边由动作特征表示的图，即，从动作识别中提取的特征然后，使用这些特征来表示节点特征的集合Ht;1;ht;2;. . ;h^t;Ntg，其中Nt表示节点的数量，即，在第t帧中，h^t;i2R1×N节点是节点要素其由在所述点处从片i提取的特征表示模型。给定长度为M的视频帧序列，我们提取边缘的表示，即，边缘特征，以及第t帧，以及N节点是h^的维数t;i.我们背后节点的表示，即，节点特征，以构建H1的图形表示。为了训练我们的模型，我们只在M上取T个样本，在第一帧和最后一帧之间均匀采样，采样率为每秒1帧3.1.1. 边缘特征动作识别模型可以用于为K帧的每个非重叠序列提取动作特征。有几个动作识别模型的例子，如I3D（Carreira 和Zisserman ，2017），C3D（Tran等人，2015）、R3D（Hara等人，2017）、R（2 + 1）D（Tran等人，2018）和MViT（Fanet al.， 2021年）。在本文中，我们用三种不同的模型进行实验，即，I3D、R（2 + 1）D和MViT模型，并选择I3D模型作为最终的动作特征提取模型具体来说，对于M帧中的每个K帧序列，我们从模型的最后一个池化层提取动作特征，以获得一组动作特征A 1/4 fa 1; a 2;. ; a Sg，其中S 1/4 M，即，在给定M帧的情况下，提取的动作特征的个数，as2R1×Nact表示第s个动作特征，Nact是as的维数.边缘fea-将第t个采样帧处的实际动作2R1×N动作设置为s0，即，eact1/4as0，基于网格的节点的特点是，它被期望捕获对象，级别信息，其中特征表示特定对象而不是整个图像。尽管单个对象可能不能完全捕获在单个片块内，即，对象可以被多个块裁剪，块之间的交互最终将捕获一个完整的对象信息。尽管补丁可能不包含对象的任何部分，即，虽然它只支持背景，但我们希望它也可以帮助对对象与背景的交互进行建模。此外，重叠的补丁包括相邻节点的本地信息。因此，它也有助于缓解裁剪对象问题。3.1.3.基于对象的节点特征除了基于网格的节点功能，我们还研究了基于对象的节点功能，建议的动作图。这些基于对象的节点特征也用于基线方法。为了构造该节点表示，对象检测模型，例如，单次激发探测器（SSD）（Liu等人， 2016 ）， Faster R-CNN （ Ren et al. ， 2017 ）和 YOLOv5（Jocher等人， #20222;需要。我们预测每个帧上对象的边界框，如（ZhangTT等人， 2020; Pan等人， 2020; Lin等人，2021年a）。对于每一帧，其中t2f1;2;. . . ;Tg;s01/4dm0e;m01/4M-1Δt-1Δ t1，as02A。动作特征as0是其中K帧序列包括第t个采样帧的动作特征。我们在图中举例说明了采样过程。第2段（b）分段。3.1.2.基于网格的节点特征我们首先将每个具有相同高度和宽度的帧划分为G G块的网格，使每个补丁的大小为qq像素的非重叠的情况下。如果视频帧的高度和宽度不相等，我们将裁剪较长的边，使其与较短的边相等。具体来说，我们执行中心裁剪以获得具有相同高度和宽度的帧。如果我们用重叠的百分比-年龄P来重叠补丁，补丁大小变成q2Pqq 2Pq像素.然后，我们使用然后我们应用RoIAlign（He等人，2017 b）以从每个边界框提取对象特征。然后，每个提取的对象特征被用作Ht中的节点特征表示。我们将每一帧的边界框的最大数量限制为Nt。如果帧中检测到的对象的数量大于Nt，我们只取Nt个置信度最高的物体。置信度得分低于0.5的对象也被过滤掉。如果帧中检测到的对象的数量是XNt，则我们<设置h^t;X1h^t;X2.. . 1/4h^t;N1×N节点，其中01×N节点是个零-大小为N节点的值行向量。3.1.4. 动作图形使用提取的节点特征Ht和边缘特征eact，然后构建动作图来代表H2中使用的相同特征提取器，即，CLIP-ViT。每一个这样的fea-节点，我们构造一个张量Aact;... ;一种行为gouffe，在W.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报54不t;v2不2ðÞ2不Xt;i;j不N行v2A0At;vt;vt;v不.7CLIP4Clip模型的编码器，并使用要素作为输入767tv不一个act2RNt×Nt×Nact，dstacksC {\displaystyle C}对集合C中的所有矩阵沿第三轴执行深度堆栈操作，并且Aact2RNt×Nt通常定义为：一个行动，一个行动，一个行动其中，e act表示e act的第v个元素，其中v^l; 2;. ;Nact. 的3.2.2.图神经网络由于我们具有H2和Aspat-temp两者，它们一起表示具有多维边缘特征的图，因此我们然后使用GNN层的L具体来说，我们采用并比较了三种图神经网络算子，即，GAT（Velickovic等人， 2018）、GATv2（Brody等人， 2022年），图Transformer（Shi等人， 2021），它可以利用多维-矩阵Z tRNt×Nt 是一个邻接矩阵，其元素是0或1。第i行和第j列中的零值意味着第i和第j块之间没有连接，即，当节点特征中的任一个为零时。张量Aact将动作连接描述为的第i和的jth补丁其中i 1;. ;Nt，1;.. . ;Nt.如（1）所述，同一e行为功能将被使用对于第t帧处的每个动作连接，因为该特征可能仅对于不同的时间步长t是可区分的。在这种表示的帮助下，我们可以利用对象之间的交互以及动作，以生成具有更准确描述的句子。3.2. 时空图神经网络3.2.1. 时空图动作可以在视频中改变，例如，一个男人在视频片段的开头笑了，但是同一个男人在视频片段的中间跳舞。动作信息仅包含本地动作信息，即，从K帧序列中提取。为了捕捉动作的变化，我们在视频帧上用相似性关系在时间上连接补丁（Wang和Gupta，2018; Pan等人， 2020年）。我们先做一个成本空间边缘特征。在我们的方案中，每个GNN层的操作表示如下：Hl1ReLUHlflHl;Aspat-temp4其中HlRN×N网是I层的特征表示，Nnet是GNN层的维度，ReLU是整流线性激活单元（Nair和Hinton，2010）。输入节点要素H0是一个可学习的线性投影将第二轴维度从N个节点转换为N个网。图神经网络算子flHl;spat-temp通过与相邻节点的表示进行聚合来更新Hl以及Aspat-temp中的边缘特征。具体来说，边缘特征在一个spat-temp被纳入计算注意力分数。关于聚合操作和注意力分数计算的进一步细节，请参考（Velickovic et al.，2018; Brody等人，2022; Shi等人，2021年）。对于图形Transformer运算符，边要素也会添加到运算的输出中，以更新Hl中的节点表示（Shi等人， 2021年）。然后，我们将残差连接添加（4）中的第一项，并将ReLU激活函数应用于每个特征值。我们将最后一层H LRN×N网的输出在节点总数N上取平均值对于每个对应的第t帧，邻接矩阵Asim2RNt×Nt<$1通过测量余弦相似性最终特征Fa2RT×N净 .这些最终功能将用于在每个相邻帧上的补片之间：作为H1网络中字幕生成器的输入。的simexpcosh^t;i;h^t1;j2t; i; j ¼Nt1expcosh^t;i;h^t1;j第1页第3.3节。基于夹具特征表示CLIP特征在视频到文本检索任务中得到了广泛的研究，但是很少有作品将此特征用于视频字幕其中，Asim表示中的第i行和第j列中的元素，矩阵Asim，其表示第i个补丁和第j个补丁之间的相似性连接。运算符cosmx;y=测量x和y之间的余弦相似度。然后我们把Aact和Asim合并成任务CLIP4Caption（Tang等人，2021）采用CLIP功能进行视频字幕，并表明其可以提高MSR-VTT数据集的性能。按照（Tang等人，2021），我们首先预训练CLIP4Clip（Luo et al.，不初裂温度不temp2022年）模型，并在所有时代中选择最佳模型，单个3D张量Aspat-temp/dstack = A 1-;. 一个spat-gestion，其中Aspat-temp2RN×N×N起作用。矩阵Aspat-temp2RN×N定义为：验证集作为我们的特征提取器。为了与现有技术方法进行公平比较（Tang 等人， 2021 ）在撰写本文时，我们使用了相同的CLIP（ViT-B/32）模型。不同第一幕SIM10个.. . 03来自（Tang等人， 2021），我们不使用时间段网络（TSN）采样（Wang等人， 2019年）对模型进行预训练。相反地，法62;vvSIM2.. .0我们使用相同的T样本，即，均匀间隔采样，吐出-温度1/460 0Aact..... .0..ð3Þ我们发现比使用TSN采样更好然后我们3;v. ..提取CLIP特征Fc2RT×N网使用预先训练的视频4其中N¼PT000.. .第五幕Nt是所有帧上的面片总数H2网络中的字幕生成器3.4. Caption generatort1/20是零值矩阵。为了将相似性关系，我们只在v = 1时将Asim放入Aspat-temp中，即，零值我们同时训练两个字幕生成器模型，基于（Luo等人， 2020年，在H和矩阵在Asim的地方，v>1。时空张量1不spat-temp表示具有多维边缘特征的空间和时间关系。相应地，节点特征Ht也在所有帧上合并，使得我们得到单个视频的组合节点组合的节点特征由H^^k^fh^1;1;h^1;2;表示。 . . ;h^t;i;.. . ;h^T;NTg，其中k B沿第一轴和H^2RN×N节点对集合B中的所有特征执行堆栈操作。H2分别使用Fa和Fc具体来说，我们使用一个序列-基于序列变换器的网络（Sutskever等人，2014）具有N个编码层编码器和N个解码层解码器结构。为了与现有技术方法进行公平比较（Tang等人， 2021）在撰写本文时，这些字幕生成器模型也用统一视频和语言预训练模型（UniVL）的权重初始化（Luo et al.，2020）预先培训如何100米（Miech等人， 2019）dataset. 我们的字幕生成器型号一一T;v..W.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报55¼¼¼¼¼¼¼¼ ¼¼通过最小化语言交叉熵损失 LH1 和 LH2 用标准程序训练，如（Venugopalan等人，2015年）。这些损失分别测量H1和H23.5. 目标函数除了交叉熵损失之外，受（Zhang et al.，2020; Pan等人，2020;Lin等人，2021 a），我们还采用Kullback-Leibler（KL）发散损失L KL来最小化我们两个网络之间的单词概率分布的距离，即，H1和H2。因此，总损失公式如下：L¼LH1aLH2bLKL5其中a和b是分别对H2的交叉熵损失和KL发散损失进行加权的超参数。最小化LH1和LH2的目标是使预测字幕更接近地面实况字幕，并且最小化LKL有助于将由H1学习的动作图知识传递到H2。在推理过程中，我们只用氢气因为知识已经被提炼出来了。4. 实验在本节中，我们将讨论我们实验的细节，并将实验结果与现有方法和基线方法进行比较。为了公平比较，基线方法使用两个网络结构，具有与H2中的特征提取器相同的CLIP-ViT模型。在H1中，基线方法通过将IoU合并为从YOLOv5提取的边缘和基于对象检测的特征来捕获对象交互（Jocher等人，2022 a）作为图模型中的节点（Wang和Gupta，2018;Pan等人， 2020年）。4.1. 数据集和评价指标在我们的实验中，我们使用两个流行的视频字幕数据集：微软研究视频描述语料库（MSVD）（Chen和Dolan，2011）和微软研究视频到文本（MSR-VTT）（Xu等人，2016），这是许多研究人员常用的（Tang et al.，2021; Ye等人，2022 b; Pan等人，2020; Bai等人，2021; Yan等人，2022年）。如（Venugopalan et al.，2015），我们将MSVD分为1200、100和670个片段，分别用于训练、验证和测试集。对于MSR-VTT，我们使用如（Xu等人，2016年），即，6513、497和2990个剪辑分别用于训练、验证和测试集。我们使用四个常用的指标来评估我们提出的方法：双语评估表2我们实验中使用的参数的总结参数描述值不从视频20K3D CNN16N行为作用特征1024Ntt-h帧上的节点数9G每帧3P重叠斑块百分之五十N网网络的维度512LGNN层数3NencTransformer编码器层数2NdecTransformer解码器层数2gmsvdMSVD数据集1e-4gmsrvttMSR-VTT数据集3e-4BmsvdMSVD数据集128BMSRVTTMSR-VTT数据集1024一交叉熵损失权LH24BKL发散损失的权重1用4克（BLEU@4）作为替补（Papineni等人， 2002）、具有显式排序的翻译评估度量（METEOR）（Banerjee和Lavie，2005）、用于排序评估最长公共子序列（ROUGE-L）（Lin，2004）和基于共识的图像描述评估（CIDER）（Vedantam等人，2015年）。然后，我们根据用作特征提取器的预训练模型对每帧进行预处理。除非另有说明，我们在所有实验中使用的参数和细节与本节中描述的参数和细节相同。根据相应数据集调整所有超参数，消融研究报告见第4.3节。参数值总结见表2。4.2. 实现细节4.2.1. 特征提取器1) 对于H1网络，我们首先从视频中采样T20帧序列. 然后根据预训练的特征提取器对每个帧进行预处理使用在Kinetics-400数据集上预训练的I3 D提取边缘特征I3D模型的输入是来自视频的每个非重叠帧序列（K16）。然后，我们从最后一个池化层获取输出，以获得具有N的动作特征，动作1/41024。节点功能用N t提取 9，即， G 3和P 百分之五十从CLIP-ViT模型中提取基于网格的节点特征。对于基于对象的节点特征，从YOLOv5模型中提取特征。提取的边缘特征和节点特征最后用于构造时空图Aspat-temp.2）对于H2网络，我们对CLIP4Clip模型进行预训练，并使用CLIP4Clip的视频编码器提取视觉特征，即，CLIP-ViT，其中对于T个样本中的每个帧，N净1/44.2.2. 其他细节对于GNN架构，我们将三个GNN层（L1/43）与N网512和四个注意头堆叠。我们利用PyTorch Geo- metric（Fey和Lenssen，2019）库来实现GNN架构，该架构提供了各种GNN运算符。对于cap- tion生成器，我们使用Nenc2和Ndec2分别用于编码器和解码器。为了训练模型，我们将学习率和批量大小设置为gmsrvtt<$3e- 4和Bmsrvtt<$41024，MSR-VTT数据集，以及MSVD的gmsvd<$4和Bmsvd<$4数据集，分别。这些学习率在3e-5和1 e-3之间调整。对于这两个数据集，我们在（5）中设置a4和b1。对于每个实验，我们运行50个epoch，并根据验证集上的CIDEr得分选择所有epoch中的最佳模型。一旦CIDER分数在10个epoch后没有增加，我们就执行早期停止以停止训练过程。每个时期的损失和CIDEr评分图见下页图3为了生成字幕，我们使用波束搜索（Freitag和Al-Onaizan，2017），波束大小为5。如果字数超过，则截断数据集中的标题48.我们的方法使用PyTorch实现，并在Linux环境计算机中进行了实验，该计算机具有4个NVIDIA RTX A6000、Intel Xeon（R）Gold6226 R CPU和376.5 GB RAM。在所有这些设置下，我们的实验在MSVD和MSR-VTT数据集上分别花费了大约5和16 h。4.3. 定量结果4.3.1. 与现有方法的下一页的表3显示了我们提出的方法，其他以前的方法和基线方法在MSVD和MSR-VTT数据集上为了与现有方法进行公平比较，我们不比较我们的W.F. Hendria，V.Velda，B.H.H.Putra等人沙特国王大学学报56图三. (a)MSVD数据集上的训练、验证和测试损失，（b）MSVD数据集上的训练、验证和测试CIDEr分数，（c）MSR-VTT数据集上的训练、验证和测试损失，（d）MSR-VTT数据集上的训练、验证和测试CIDEr分数。虚线是我们根据验证集上的CIDEr分数选择的最佳检查点。表3在MSVD和MSR-VTT数据集的测试集上与现有方法进行了性能比较。对于SwinBERT所示的性能（Lin等人，2022）是在（Lin et al.，2021 b）。方法参考文献MSVDMSR-VTTB4MRCB4MRCSAAT（Zheng等人， 2020年）CVPR 2046.533.569.481.040.528.260.949.1STG-KD（Pan等人， 2020年）CVPR 2052.236.973.993.040.528.360.947.1SGN（Ryu等人， 2021年）AAAI2152.835.572.994.340.828.360.849.5APML（Lin等人，2021 年a）AAAI2158.039.276.2108.343.830.363.652.2NACF（Yang等人， 2021年）AAAI2155.636.2-96.342.028.7-51.4D-LSG（Bai等人， 2021年）ACMMM2160.937.675.2100.844.628.862.351.2OpenBook（Zhang等人， 2021年）CVPR 21----42.829.361.752.9SwinBERT（Lin等人， 2022年）CVPR 2258.241.377.5120.645.430.664.155.9HMN（Ye等人，（2022 b）CVPR 2259.237.775.1104.043.529.062.751.5CLIP4Caption（Tang等人， 2021年）ACMMM21----46.130.763.757.7基线（IoU +对象）-61.9041.0077.96116.7747.9831.3065.1758.98我们的（动作+对象）-62.5641.5378.62120.6448.3131.3565.3460.00我们的（行动+网格）-62.9041.8178.80119.0749.1031.

下载后可阅读完整内容，剩余1页未读，立即下载