视频字幕的全局-局部表示粒度——GL-RG框架的研究

73 浏览量更新于2024-02-04 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文GL-RG：视频字幕的全局-局部表示粒度严立奇1、2、8分，王启凡3分，崔一鸣4分，冯馥莉5分，全晓军6分，张翔宇7 刘东方8†1复旦大学2西湖大学3Meta AI4佛罗里达大学5中国科学技术大学6中山大学7普渡大学8罗切斯特理工学院yanliqi@westlake.edu.cn，wqfcr@fb.com，dongfang. rit.edu摘要视频字幕是一项具有挑战性的任务，它需要将视觉理解准确地转化为自然语言描述。到目前为止，现有技术的方法不足以跨视频帧对全局-局部在这项工作中，我们从一个新的角度来处理视频字幕任务，并提出了一个GL-RG框架的视频字幕，即一个G-L局部表达Granularity。我们的GL-RG展示了三个优势：1）我们明确地利用来自不同视频范围的广泛的视觉表示来改善语言表达; 2）我们设计了一种新颖的全局-局部编码器来产生丰富的语义词汇以获得跨帧的视频内容的描述粒度;3）提出了一种增量式训练策略，该策略以增量方式组织模型学习，以产生最佳字幕行为。在具有挑战性的MSR-VTT和MSVD数据集上的实验结果表明，我们的DL-RG明显优于最近的最先进的方法。代码可在https://github.com/ylqi/GL-RG上获得。1介绍视频字幕具有很大的社会意义，对许多现实世界的应用具有然而，孤立的视频帧可能遭受运动模糊或遮挡，这在字幕任务的视觉理解中引入了很大的混乱。因此，如何利用丰富的全局-局部特征进行跨框架的一致性和单帧的融合，平等的贡献。[2]通讯作者。图1：帧间剧烈场景变化的定性示例。通过在视频中使用全局-局部表示，我们的方法实现了视频内容的细粒度描述，与最先进的方法ORG-TRL相比。视频内容中的帧信息，以缩小从视觉理解到语言表达的差距尽管取得了重大进展，现有的视频字幕方法不足以捕捉本地和全球的代表性。各种工作将深度神经网络应用于原始像素以构建更高级别的连接[Wanget al. ，2019;Zhang and Peng，2019].这些方法只关注局部对象特征，而忽略了对象之间的变换或交互.对局部对象特征进行建模的努力是视频字幕的原始解决方案，因为跨帧的时间连接没有被精细地探索，因此对虚假关联敏感。为了研究全局-局部相关性的问题，其他相关的视觉任务利用使用图神经网络（GNN）的图表示。例如，[Tsaietal. ，2019]通过使用视频时空图对对象关系进行建模，并显式地在高层实体之间建立链接。受上述成功的启发，最近的视频字幕研究扩展了基于图的方法，并使用GNN来建模全局-局部推理[Zhanget al. ，2020b;Panet al. ，2020]。在这些工作中，[Zhang和Peng，2019]使用连接将局部特征与全局特征合并;[Ghoshet al. ，2020]增加了时空特征本地关键帧编码器：热狗 T恤餐厅短距离编码器：dining 吃热狗品尝食物显示组食品桌不同凡响n.诉adj.远程编码器：人他们年轻吃几一个男人在谈论食物。Ours（GL-RG）：一群人正在吃食物。准确不准确不在乎arXiv：2205.10706v1 [cs.CV] 2022年5月+v：mala2277获取更多论文作为图中的单独节点然而，实验结果表明，使用图来表示全局-局部相关性是次优的，因为它经常遇到训练中的过度平滑可替代地，许多视频字幕方法直观地利用多模态融合（即，视觉或音频特征）以丰富预测中的特征表示[Rahmanet al. ，2019]。然而，这些简单的为了解决上述问题，我们尝试以更灵活的方法来解决视频字幕，该方法利用全局-局部视觉表示粒度。具体而言，我们做出了以下贡献：• 我们设计了一个称为GL-RG的简单框架，即全局-局部表示粒度，它对广泛的视觉表示进行建模，并生成丰富的战略[Yaoet al. 2015]使用时间注意力方法来描述全局-局部连接。[Wanget al. ，2019]利用解码隐藏状态来增加节奏特征表示。最近，[Huet al. ，2019; Yanget al. ，2017年; Zhang和Peng，2019年]利用对象特征对跨帧的对象移动进行建模。例如，[Zhang and Peng，2019]采用双向时间图来捕获视频中显著物体的详细运动;[Huet al. ，2019]设计了一个堆叠的LSTM来编码帧级和对象级的时间信息。然而，上述工作主要集中在从全局内容的特征显着性与较少的描述的全局-局部表征推理。相比之下，我们建模全局-局部表示，以实现lexi- cal粒度，使用长距离的时间对应关系，短距离的对象运动，和本地的空间外观的视频内容。培训战略。培训视频的流行策略[基于不同视频内容的词汇特征字幕模型是范围.• 我们提出了一种新的全球本地编码器，它利用丰富的时间表示的视频字幕。编码器联合编码长距离帧以描述时空对应关系，短距离帧以捕获对象运动和趋势，局部关键帧以保留更精细的对象外观和位置细节（图1）。• 我们引入了一个渐进的两阶段训练策略。在第一个播种阶段，我们为非强化学习设计了一个区分性交叉熵，它解决了人类注释区分的问题。在第二个提升阶段，我们为强化学习调整了一个不一致的奖励，它稳定地估计了每个单独视频的预期奖励的偏差• 我们在MSR-VTT上评估我们的方法[Xuet al. ，2016]和MSVD [Chen和Dolan，2011]数据集。广泛的实验结果表明，我们的方法优于最新的最好的系统，并使用更短的训练时间表。2相关工作视频字幕。受其他视觉任务成功的启发，开创性的工作[Venugopalanet al. ，2015]扩展了用于视频字幕任务的编码器-解码器架构。遵循相同的范式，[Chenet al. ，2018;Venugopalanet al. ，2015]探索使用注意力机制来描绘对象移动的视频上的时间模式。[Peiet al. ，2019 b]设计了一种MARN方法，该方法将来自单个视频的描述概括为具有高语义相似性的其他视频。[Houet al. ，2019]开发了特征融合的思想，以指导视频内容的句子生成。不同于现有的努力，我们显式地探索全局-局部表征的句子生成。全球-地方代表性。为了对全局-局部视觉表示进行建模，许多方法 [Liuet al. ， 2021a; Zhanget al. ， 2021;Liuet al. [2020年]采用序列学习Zipser，1989]，其已被广泛用于训练视频字幕任务[Zhanget al. ，2020a]。最近，许多研究尝试探索不同的训练方法来提高字幕表现[Wanget al. ，2018 b; Rennieetal. ，2017; Houet al. ，2019; Ryuet al. ，2021]。例如，[Pasunuru和Bansal，2017]使用混合损失函数来优化视频字幕算法，该算法利用了交叉熵和重新增强学习的加权组合。类似地，[Rennieet al. ，2017]采用强化学习的范式，并设计了一个自我批判的基线来奖励模型学习，以训练视频字幕网络。尽管证明了有吸引力的监督性能[Denget al. ，2021; Liuet al. ，2021b]，上述方法通常需要复杂的流水线来训练，具有用于优化的计算开销。基于从并行方法中吸取的经验教训，我们提出了一种增量培训策略，该策略可以轻松地在我们提出的GL-RG上进行培训。实验结果表明，我们的培训策略可以作为一个很好的补充，以促进进一步的培训增益现有的培训计划。3GL-RG3.1概述GL-RG 的框架如图 2 所示。 Following [Panet al. ，2020]，GL-RG也采用编码器-解码器架构。更具体地说，我们包括一个全球本地编码器和字幕解码器。全局-局部编码器选择不同范围的帧作为输入，并将它们编码成不同的词汇特征。所有获得的特征被聚合在一起，以丰富跨视频帧的全局-局部视觉表示。然后，在增量训练策略的监督下，我们在下面详细阐述拟议的GL-RG。3.2全局-局部编码器我们的全局-局部编码器包括三个基本部分：远程编码器，短程编码器和关键帧编码器+v：mala2277获取更多论文预测句预测句预测句<公司简介��Ƹ0��Ƹ��−2简体中文�� (��)加权XE��−��LSTM LSTM LSTM细胞细胞细胞��0�� 1�� −1��−��DXE引晶阶段联系我们电子邮件��0Ƹ<公司简介0��Ƹ��−2��−2顶部顶部奖励局部关键帧编码器LSTM LSTM小区小区01LSTM细胞��−1奖励长距离编码器短距离编码器全局-局部编码器字幕解码器预测句提升阶段Gr oundTruthSentence��预测句0.60.41. 老妇人准备一盘菜。2. 女人做饭。Gr oundTruthSentence��（博士−±−−| 联系我们图2：GL-RG的架构框架。我们的全局-局部表示编码器包括：1）。长距离编码器捕获远距离帧（T n到T+n帧）之间的时间对应，并且使跨帧表示对于外观变化和形状变形是鲁棒的; 2）。短距离编码器关注运动和趋势，其描述了在短时刻（T10帧）内对象运动的局部一致性局部关键帧编码器聚焦于每个对象，这可以保留更好的对象空间信息和对象外观方面的更精细细节。在训练中，我们的方法通过增量策略进行训练，该策略包括播种阶段和增强阶段。播种阶段监督我们的方法，以获得一个入口模型，可以很容易地在第二个提升阶段训练。(see图2）。总的来说，我们的编码器可以丰富视频字幕任务的全局-局部视觉表示。远程编码器我们对随机全局视频帧进行编码，以基于训练中的随机关键帧ft生成全局词汇表。请注意，我们的训练迭代将完全饱和整个视频剪辑，因为每次迭代将从视频中随机选择不同的帧（总数是固定的）。我们的远程编码器首先对输入执行2D卷积（即，，ftn和ft+n1）来识别相关的上下文特征。的输出要素第一步由3D卷积网络（CNN）处理为了增加共识，我们从基础事实句子中选择前K个词选择（最高频率）来指导词汇生成作为K分类任务。密集层的输出定义为：W={w1，w2，.，wk... w K}，w k∈（0，1）（1）其中W是预测的远程词汇的集合因为W包括了从基本事实中选择单词的所有可能性（即，MSR-VTT [Xuetal. ，2016]和MSVD [Chen和Dolan，2011]），它可以提供视频中的时间内容的描述。它由前K个常用词组成（如动词、名词和形容词，不包括“is”、“be”和“do”，ext.）从所有注释的GT句子中的所有视频中，即、MSR-VTT和MSVD。短距离编码器我们的短距离编码器是捕捉物体的运动和趋势。具体地说，同时取两个近邻（a.k.a. ft10和ft+10）的关键帧、2D CNN和3D-Resnet 18 [Tranet al. ，2017]产量语义和运动表征。之后，这些表示被堆叠并馈送到密集的其中n是大于25帧的随机范围。用于操作分类的图层。给定J动作的最高频率（在Kinetics-400、UCF 101或HMDB数据集中），我们的短程编码器输出如下。A={a1，a2，. aj，.a J}，a j∈（0，1），（2）其中A是j的集合，j是来自短程动作数据集的第j个动作的预测置信度本地关键帧编码器。局部语义的词汇知识通过残差网络学习[Xie etal.， 2017]，其从关键帧Ft提取显著对象特征。给定图像分类数据集中的图像类的数量（例如，ImageNet）是M，我们本地编码器的输出是：C={c1，c2，.，cm，.， c M}，c m∈（0，1），（3）其中，C是c_m的集合，c_m是该局部帧的第m一旦从不同范围的所有词汇特征，我们执行融合编码。我们首先使用一个由线性层组成的特征池，将每个词汇特征投影到一个相同大小的嵌入中，然后将它们聚合在一起以产生融合特征F：F= Concat（（W），（A），（C））（4）3.3字幕解码器我们的字幕解码器将融合的特征翻译成1字2序列S=（ s1， s2，...，s jj1，.，l构成预测的句子。具体来说，我们使用LSTM在第i步生成隐藏状态h t和单元状态c t：hi，ci=LSTM（[hi−1，Φ（si−1，si−1，F）]，ci−1），（5）2l（即，在我们的实验中为30）表示句子的最大长度。采样增量训练+v：mala2277获取更多论文−···− −−Σ--Σ∼≈∇∇|G其中[，]表示级联。 hi1、si1、si1、F和c i1分别是先前的隐藏状态、预测的单词、地面实况、来自编码的融合特征和单元状态。Φ（）是退火方案，它使用每个先前的令牌来预测下一个单词。我们采用时间表采样技术，使用随机变量<$∈{0，1}随机选择令牌si−1或si−1：i=1;通过将更高的权重分配给写得很好的真实句子来生成具有高度量分数的字幕的概率。DXE的梯度由预测和所有目标描述之间的加权差计算。因此，我们DXE鼓励特征学习，这增加了生成具有高度量分数的字幕的概率。m（）的结果被认为是一个缺点。我们的损失函数。每个GT句子都有不同的计算值。因此，我们要鼓励预测--Φ（si−1，si−1，F）=si−1，（i >1，n=0）;si−1，（i>1，i=1），（六）分数更高的人。实证结果与我们的假设一致。当i=0时，LSTM的初始输入是融合特征F;当i>1时，我们在每个历元中逐渐增加f=1的概率，直到f绝对等于1。然后，我们通过降低n=1的概率来对抗这个过程。因此，预测单词的概率为：pθ （ si|hi ） =softmax （ Wo·hi ），（7）其中h i是来自等式（1）的隐藏状态。Wo是权重矩阵，其将隐藏状态hi映射到词汇大小嵌入，以便在句子中找到上下文匹配的单词。3.4增量训练与加权损失熵（手动为所有类别分配权重以解决不平衡数据的问题）不同，我们的DXE的权重m（S）是通过度量自动计算的，评估所有注释之间的质量。我们的DXE为高质量的注释分配更高的权重，帮助模型生成更接近它们的标题启动阶段。在播种阶段之后，我们使用了缰绳-使用差异奖励（DR）进行学习，以进一步提高我们的GL-RD模型的性能为了优化模型参数θ，使用强化学习的传统方法在训练中执行不可微的奖励：我们的增量训练包括一个播种阶段，然后是一个提升阶段（见图2）。这两个培训阶段实现不同的学习目标。种子阶段的目标是<$θL DR（θ）= −r（S）<$θp（S|F;θ）S=−ES<$p [r（S）<$θ log p（S|F; θ）]，（九）以产生入口模型，以促进第二阶段中的平滑训练，而提升阶段利用强化学习（RL）来提升性能增益。播种阶段。现有的模型[Peiet al. ，2019 a; Zhang andPeng，2019; Zhanget al. ，2020 b]通常用交叉熵（XE）损失来训练，交叉熵损失测量所生成的句子和所有基础事实句子的平均相似性。由于不同的注释器可以不同地对视频内容进行解译，因此来自训练数据集的地面实况可以包括注释偏差。我们认为，直接比较的字幕预测地面真相不能产生最佳的训练结果。我们因此将所有地面实况的度量得分m（S）作为一个差，在计算交叉熵的犯罪权重，使我们训练偏向于那些写得很好的基本事实。可以理解的是，手动注释的地面真理有严重的偏见，也就是说，一些地面真理句子写得很好，而另一些是模糊的或不合适的。Metric分数鼓励训练专注于写得好的句子。 m（S）可以使用不同的选项，例如BLEU 4，METEOR，ROUGE L [Sharmaet al. ，2017]，以及CIDEr [Vedantamet al. ，2015]。每个选项的分析将在实验中报告。提供每个视频由G个句子S=S（1），S（2），.，S级（G），则判别式纠错（DXE）损失函数为：G其中ESp表示分布的期望值，奖励r（S）是采样句子的评估度量得分，并且F是从我们的全局-局部编码器提取的融合特征。这种训练策略的一个问题是，奖励函数r（S）总是正的，因为度量分数在0和1之间。因此，我们只能在学习中鼓励特征表示，而不能进行抑制。为了解决这个问题，我们的DR等于原始奖励r（S）减去偏差b，这是基线。有了偏差项，我们的学习可以对预测的变化更加鲁棒。那么策略梯度可以定义为：<$θL DR （ θ ） =−ES<$p[ （ r （ S ） −b ） <$θlogp（S|F;θ）]，（10）其中b E[r（S）]。先前的自我批评方法SCST [Rennieetal. ，2017]利用贪婪输出在测试时的奖励作为基线bscst，以运行成本在每次训练迭代中再次进行推理在我们的实现中，基线b有两个变体：1.b1通过G地面实况字幕获得;以及2.b2在向前步骤期间由具有最高得分的模型采样的前Q个句子注意，由于Sb θ p（SF; θ）= 0，任一基线（b1或b2）都可以减小梯度的方差而不改变梯度的期望值。当更新梯度时，该梯度θ可以通过单个训练示例的所以我们的差异奖励的最终梯度是：LDXE （θ）=−1<$m（S<$（j））logp（S<$（j））|F;θ），（8）<$θLDR（θ）<$−（r（S）−r（Sbj））<$θlogp（S|F;θ），（11）j=1其中m（）可以被认为是一个常数，用每个句子的每个地面真值来计算我们的DXE损失增加了其中，Sbj 可以由基线（b1或b2）使用。在我们的实验中，我们进行了消融研究，以发现b1和b2对字幕性能的影响。+v：mala2277获取更多论文××↑培训方法时代特征B@4MSR-VTTM RCB@4MSVDM RC当地短长SA-LSTM [Xuet al. ，2016年]100CCCCCCC××C×CC××××××C×36.325.558.339.945.331.964.276.2RecNet[Wanget al. ，2018年a]-39.126.659.342.752.334.169.880.3ORG-TRL[Zhanget al. ，2020b]-43.629.762.150.954.336.473.995.2STGraph[Panet al. ，2020年]5040.528.360.947.152.236.973.993.0XESGN [Ryuet al. ，2021年]O2NA[Liuet al. ，2021 b]-5040.841.628.328.560.862.449.551.152.855.435.537.472.974.594.396.4RCG [Zhanget al. ，2021年]-42.829.361.752.9----我们的（GL-RG）3045.530.162.651.255.537.874.794.3DXE我们的（GL-RG）30CCC46.930.463.955.057.738.674.995.9RLHRL[Wanget al. ，2018年b]PickNet [Chenet al. ，2018]POS RL[Wanget al. ，2019]VRE [Shiet al. ，2019]SAAT RL[Zhenget al. ，2020年]-300--两百CCCC×C×C××××××41.338.941.343.239.928.727.228.728.027.761.759.562.162.061.248.042.153.448.351.0-46.153.951.746.5-33.134.934.333.5-69.272.171.969.4-76.091.086.781.0RL+DR我们的（GL-RG + IT）100CCC46.931.265.760.660.538.976.4101.0表1：与MSR-VTT和MSVD数据集上最先进方法的比较最好的和第二好的方法是突出显示。在训练列中 “IT” in our method standsfor incremental training, which optimizes the CIDEr metric in boosting4实验4.1实现细节数据集。我们在MSR-VTT数据集上评估了我们的GL-RG[Xu功能B@4MRCLocal短长单个特征等人，2016]。每个视频都与不同工作人员提供的20个地面实况字幕相关联。我们跟踪了6513个用于训练的视频，497个用于验证的视频和2990个用于测试的视频的数据分割。我们还在MSVD数据集上评估了我们的GL-RG[Chen和Dolan，2011]。我们将数据集分为1，200个训练集，100个验证集和670个测试集。评价我们评估我们的方法在四个COM-C × ×× C ×× × CC CC CC CC C31.7 24.0 54.5 35.332.3 23.9 54.143.8 28.7 61.2组合特征36.7↑ 5. 026.0↑ 2. 057.9↑ 3. 442.3↑ 7. 045.1↑ 13. 4 29.3↑ 5. 362.0↑ 7. 553.0↑ 17。745.6↑ 13. 9 29.3↑ 5. 362.9↑ 8. 453.9↑ 18。646.9 ↑15. 2 30.4 ↑6. 463.9 ↑9. 455.0 ↑19。7主要使用的指标 BLEU 4 、 METEOR 、 ROUGE L[Sharmaet al. ，2017]和CIDEr [Vedantamet al. ，2015]，分别表示为B@4、M、R和C。培训设置。我们的远程编码器是预先训练的从MSR-VTT或MSVD提取的视频到文字数据集（K=300个字）。我们的短程编码器在Kinetics-400数据集上进行了预训练[Carreira和Zisserman，2017]，其中包括J=400个动作。我们的局部关键帧编码器在ImageNet上进行了预训练，其中包括M=1000个对象。我们的解码器在种子阶段的学习率为0.0003，在提升阶段的学习率为0.0001。对于每个视频，分别在MSR-VTT或MSVD的20或17个地面实况字幕上进行训练。4.2与最先进技术的MSR-VTT数据集的评价结果见表1。通过更短的训练时间表，我们可以实现与其他最先进方法相同的性能。我们经过充分训练的模型在所有指标上都超过了所有的COM方法。此外，当使用相同水平的监督时，我们的边际（XE训练的模型）超过了下一个最佳方法（ORG-TRL [Zhanget al. 2020 b] ）的平均值分别为 1.9% 、0.4%、0.5%和0.3%。我们可以通过在M、R和C指标上使用DXE来实现进一步的性能增益我们进一步比较我们的表2：在播种阶段使用不同特征（局部、短程和长程特征）的比较。DXE损耗被使用。是从使用单一特征的基线的增加。GL-RG与MSVD数据集上最近的一些主要方法进行比较（见表1）。当通过DXE训练时，我们的边缘超过了下一个最佳方法（O2NA [Liuet al. ，2021b]）在B@4、M和R上分别为2.3%、1.2%和0.4%。值得一提的是，我们的XE和DXE结果来自第30纪元（作为播种阶段）。可以看出，它们不仅优于那些最新的最好的系统，而且使用更短的训练时间表。请注意，所有之前的RL方法都是使用自批判基线bscst训练的。图3展示了一些定性的例子。4.3消融研究在本节中，我们进行了广泛的消融研究，以分析GL-RG中可配置组件的影响。全局-局部特征。我们使用不同的全局-局部特征来衡量模型的性能（见表2）。在表2的较高级别，我们评估了使用单个特征进行上限预测的不同方法的性能。结果表明，使用远程具有最高的性能在所有指标。在表2的较低水平，我们研究了逐步组合的影响，C×+v：mala2277获取更多论文↑↓↑SA-LSTM：“ORG-TRL：“RCG：“我们的（GL-RG+IT）：“SA-LSTM：“ORG-TRL：“RCG：“我们的（GL-RG+IT）：“SA-LSTM：“ORG-TRL：“RCG：我们的（GL-RG+IT）：准确不准确不关心图3：MSR-VTT的定性结果我们提出了与最先进的方法SA-LSTM，ORG-TRL和RCG的比较m（S（i））B@4MRCXE-45.530.162.651.246.4↑32. 9 30.5↑14。4 65.0↑18。9表3：在接种阶段中使用不同加权度量m（Si）用于DXE的比较。并指出了从XE训练的方法的性能变化。表5：使用不同基线作为差异奖励的绩效。表示从“-”（无基线）增加。我们在播种阶段使用DXE。错误的模型参数，并进一步提高性能的升压阶段比使用XE在训练中。在升压阶段使用b1和b2。表5显示了使用不同的差异（b1和b2）的模型的结果。与自我批评基线相比（b科学技术委员会）. 使用表4：在加强阶段中使用XE或DXE训练的进入模型的比较↑表示从接种阶段开始的增加。将不同的特征结合在一起。我们的完整模型使用所有三个功能优于所有其他同行。播种阶段的不同加权指标。播种阶段训练很重要，因为它为接下来的提升阶段产生入口模型。因此，我们评估了使用不同加权度量（也称为B@4、M、R和C）（见表3）。在R和C上，不同DXE损失训练的模型都优于XE训练的模型。同时，在DXE训练中使用CIDEr作为度量权重，在所有度量上都获得了最佳结果。增量训练分析。我们调查了增加心理训练是否能有效地提高我们的方法表现。表4显示了从接种阶段开始，加强阶段的结果稳定使用DXE从接种阶段开始的加强阶段比使用XE的对应阶段获得更高的这证明了在种子阶段使用DXE作为监督可以产生更多的优化，基于模型抽样的前Q句的b2基线奖励可以帮助我们的GL-RG获得比基于G句的b1基线奖励更好的性能。这两个模型与b1或b2的执行方法，而不使用差异奖励或自我批评奖励（bscst）。5结论视频字幕是一个重要的研究课题，它有各种下游应用。在本文中，我们提出了一个GL-RG框架的视频字幕，它利用全局-局部视觉表示，以实现细粒度的字幕视频内容的增量训练策略。两个基准测试的实验结果证明了我们的方法的有效性。在未来，我们计划探索动态加权方案，以捕捉不同粒度的偏好。我们还计划研究整合更多的多模态信息。从R开始播种阶段-62.6C51.2XEDXE提升阶段63.3↑ 0.765.7 ↑3.160.6↑9.455.3↑ 4.1B@445.5↑044.5↓ 1.045.2↓ 0.346.9 ↑1.429.7↓ 0.429.8↓ 0.329.0↓ 1.130.4 ↑0.363.0↑ 0.462.9↑ 0.363.5↑ 0.963.9 ↑1.351.4↑ 0.252.4↑ 1.252.5↑ 1.355.0 ↑3.8DXEMRCBB@4MRC-13.516.146.112.7bscst我们的（b1）我们的（b2）44.6↑31。146.9↑33. 430.2↑ 14.131.2↑15. 164.3↑ 18.265.7↑19. 656.4↑43。758.1↑45。460.6↑47。9+v：mala2277获取更多论文引用[CarreiraandZisserman，2017]JoaBazioCarreiraandAndre wZisser-man. Quo vadis，action recognition？一个新的模型和kinetics数据集。在CVPR，2017年。[Chen and Dolan，2011] David L. Chen和W.多兰收集高度并行的数据进行释义评估。在ACL，2011年。[Chen et al. ， 2018] Yangyu Chen ， Shuhui Wang ， WeigangZhang，and Qingming Huang.少即是多：为视频字幕挑选信息帧。在ECCV，2018年。[Deng et al. Chaorui Deng，Shizhe Chen，Da Chen，Yuan He，and Qi Wu.草图、地面和细化：自上而下的密集视频字幕。在CVPR，2021年。[Ghosh et al. Pallabi Ghosh，Yi Yao，L.戴维斯和阿杰·迪瓦卡兰。用于动作分割的堆叠时空图卷积网络。在WACV，2020年。[Hou et al. ，2019] Jingyi Hou，X. Wu，Wedan Zhao，JieboLuo，and Y.贾视频字幕的联合语法表示学习和视觉提示翻译。在ICCV，2019年。[Hu et al. ， 2019] Yaosi Hu ， Zhenzhong Chen ， Zheng-JunZha，and Feng Wu.视频字幕的层次化全局-局部时序建模在ACM MM，2019年。[Liu et al. ，2020] Dongfang Liu，Yiming Cui，Yingjie Chen，Jiyong Zhang，and Bin Fan.视频对象检测自动驾驶- ING：运动辅助功能校准。神经计算，409：1-11，2020。[Liu et al. ，2021 a] Dongfang Liu，Yiming Cui，Wenbo Tan，and Yingjie Chen. Sg-net：用于单阶段视频实例分割的空间粒度网络。在CVPR，2021年。[Liu et al. ，2021 b] Fenglin Liu，Xuancheng Ren，Xian Wu，Bang Yang，Shen Ge，and Xu Sun. O2NA：一种面向对象的非自回归可控视频字幕方法。在ACL/IJCNLP，2021年。[Pan et al. 潘博晓，蔡浩业，黄院长，李宽辉， AdrienGaidon，E. Adeli和Juan Carlos Niebles。时空图与知识提炼的视讯字幕在CVPR，2020年。[Pasunuru 和 Bansal ， 2017] Ramakanth Pasunuru 和 MohitBansal。强化视频字幕与蕴涵奖励。在EMNLP，2017年。[Pei et al. ，2019a] W. Pei，Jiyuan Zhang，Xiangrong Wang，Lei Ke，Xiaoyong Shen，and Yu-Wing Tai.视频字幕记忆参与递归网络。在CVPR，2019年。[Pei et al. ， 2019 b] Wenjie Pei ， Jiyuan Zhang ， XiangrongWang，Lei Ke，Xiaoyong Shen，and Yu-Wing Tai.视频字幕的记忆参与递归网络。在CVPR，2019年。[Rahman et al. ， 2019] Tanzila Rahman ， Bicheng Xu ， andLeonid Sigal.看，听，说：多模态弱监督密集事件字幕。在ICCV，2019年。[Rennie et al. Steven Rennie，E. Marcheret，Youssef Mroueh，Jarret Ross，and Vaibhava Goel.图像字幕的自我批判序列训练。在CVPR，2017年。[Ryu et al. ，2021] Hobin Ryu，Sunghun Kang，Haeyong Kang和C. 哟用于视频字幕的语义分组网络在AAAI，2021年。[Sharma et al. Shikhar Sharma，Layla El Asri，Hannes Schulz，and Jeremie Zumer.面向任务的对话中用于评估自然语言生成的无监督度量的相关性。CoRR，abs/1706.09799，2017年。[Shi et al. Shi Xiangxi，Cai Jianfei，Shafiq R.乔迪，和古九良。观看两次：使用重新聚焦的视频编码器的视频字幕在ACM MM，2019年。[Tran et al. ， 2017] Du Tran ， Jamie Ray ， Zheng Shou ，S.Chang和Manohar Paluri。用于时空特征学习的Convnet体系结构搜索。ArXiv，abs/1708.05038，2017年。[Tsai et al. Yao-Hung Hubert Tsai ， Santosh Kumar Divvala ，Louis-Philippe Mod，Ruslan Salakhutdinov，and Ali Farhadi.基于门控时空能量图的视频关系推理。在CVPR，2019年。[Vedantam et al. ，2015] Ramakrishna Vedantam，C. Zitnick和Devi Parikh 。苹果酒：基于插图的图像描述评估。在CVPR，2015年。[Venugopalanetal.SubhashiniVenugopalan，MarcusRohrbach ， Jeffrey Donahue ， Raymond Mooney ， TrevorDarrell ，and Kate Saenko. 序列到序列- 视频到文本。在ICCV，2015年。[Wang et al. ，2018 a] Bairui Wang，Lin Ma，Wei Zhang，andWei Liu.用于视频字幕的重构网络。在CVPR，2018年。[Wang et al. ，2018 b] Xin Wang，Wenhu Chen，Jiawei Wu，Yuan-Fang Wang，and William Yang Wang.基于神经网络强化学习的视频字幕在CVPR，2018年。[Wang et al. ，2019] Bairui Wang，L.马，W。Zhang，WenhaoJiang，Junling Wang，and W.刘某基于门控融合网络的pos序列引导可控视频字幕。在ICCV，2019年。[Williams and Zipser，1989] Ronald J Williams and David Zipser.连续运行的全递归神经网络的学习算法神经计算， 1（2）：270[Xie et al. 谢赛宁、罗斯·吉希克、彼得·多勒、Z.涂，何开明。深度神经网络的聚合残差变换。在CVPR，2017年。[Xu et al. Jun Xu，Tao Mei，Ting Yao，and Yong Rui. vtt：一个大型视频描述数据集，用于连接视频和语言.在CVPR，2016年。[Yang et al. ， 2017] Ziwei Yang ， Yahong Han ， and ZhengWang.捕捉视频字幕的时间感兴趣区域。在ACM MM，2017年。[Yao et al. Li Yao，Atousa Torabi，Kyunghyun Cho，NicolasBallas ， Christopher Jiang ， Hugo Larochelle ， and AaronCourville.利用时间结构描述视频。在CVPR，2015年。[Zhang and Peng，2019] Junchao Zhang and Y.朋用于视频字幕的具有双向时间图的对象感知聚合。在CVPR，2019年。[Zhang et al. 张文，杨峰，孟凡东，狄友，刘群。弥合神经机器翻译的训练和推理之间的差距。在IJCAI，2020年。[Zhang et al. ，2020b] Z. Zhang，Yaya Shi，Chunfeng Yuan，Bing Li，Peijin Wang，Weiming Hu，and Z.扎。对象关系图与教师推荐学习视频字幕。在CVPR，2020年。[Zhang et al. Zhongang Qi，Chunfeng Yuan，Ying Shan，BingLi，Ying Deng，and Weiming Hu.具有检索-复制-生成网络的开卷视频字幕。在CVPR，2021年。[Zheng et al. ，2020] Qi Zheng，Chaoyue Wang，and D.涛. 用于视

下载后可阅读完整内容，剩余1页未读，立即下载