弱监督密集视频字幕生成

58 浏览量更新于2023-10-15 收藏 13.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

This paper focuses on a novel and challenging visiontask, dense video captioning, which aims to automaticallydescribe a video clip with multiple informative and diversecaption sentences. The proposed method is trained withoutexplicit annotation of ﬁne-grained sentence to video region-sequence correspondence, but is only based on weak video-level sentence annotations. It differs from existing videocaptioning systems in three technical aspects. First, we pro-pose lexical fully convolutional neural networks (Lexical-FCN) with weakly supervised multi-instance multi-labellearning to weakly link video regions with lexical labels.Second, we introduce a novel submodular maximizationscheme to generate multiple informative and diverse region-sequences based on the Lexical-FCN outputs. A winner-takes-all scheme is adopted to weakly associate sentences toregion-sequences in the training phase. Third, a sequence-to-sequence learning based language model is trained withthe weakly supervised information obtained through the as-sociation process. We show that the proposed method cannot only produce informative and diverse dense captions,but also outperform state-of-the-art single video captioningmethods by a large margin.19160Zhiqiang Shen †�，Jianguo Li ‡，Zhou Su ‡，Minjun Li †0†上海智能信息处理重点实验室，复旦大学计算机科学学院‡Intel Labs China0弱监督密集视频字幕生成0‡{jianguo.li, zhou.su, yurong.chen}@intel.com0Yurong Chen ‡，Yu-Gang Jiang †，Xiangyang Xue †0摘要0最近，使用自然语言句子自动描述图像或视频引起了计算机视觉界的广泛关注。对于图像，研究人员已经研究了使用一句话[52, 50, 5, 1, 7, 26, 47]或多个句子[17, 16,33]进行图像字幕生成。对于视频，大部分工作都集中在生成仅一个短视频片段的字幕上，这些方法基于特征在帧上的均值池化[49]、软注意力机制[53]或视觉-语义嵌入[30]。一些最近的工作进一步考虑了视频的时间结构，例如序列到序列学习（S2VT）[48]和分层循环神经编码器[29]。然而，使用单个句子无法很好地描述图像/视频中丰富的内容。因此，提出了密集图像字幕生成的任务，旨在为图像中不同检测到的对象位置生成多个句子[16, 17,19]。然而，这种设置需要区域级别的字幕注释进行监督训练。众所周知，与图像相比，视频更加复杂，因为额外的时间维度可以提供丰富的内容，例如对象的不同视角、对象的运动、程序事件等。为密集视频字幕生成提供区域-序列级别的句子注释非常昂贵。缺乏这样的注释大大限制了密集视频字幕生成的进展。本文的工作受到以下两个问题的启发。首先，大多数现有数据集都有多个视频级别的句子注释，通常01. 引言0�本工作是在Zhiqiang Shen在Intel Labs China实习期间完成的。Jianguo Li和Yu-GangJiang是对应的作者。0图1：密集视频字幕生成（DenseVidCap）的示意图。每个区域序列用白色边界框突出显示，并伴随着底部对应的预测句子。右侧显示了真实的句子。0仅使用基于帧特征的均值池化[49]、软注意力机制[53]或视觉-语义嵌入[30]等方法在短视频片段中生成一个字幕，这种方法无法很好地描述图像/视频中丰富的内容。因此，提出了密集图像字幕生成的任务，旨在为图像中不同检测到的对象位置生成多个句子[16, 17,19]。然而，这种设置需要区域级别的字幕注释进行监督训练。众所周知，与图像相比，视频更加复杂，因为额外的时间维度可以提供丰富的内容，例如对象的不同视角、对象的运动、程序事件等。为密集视频字幕生成提供区域-序列级别的句子注释非常昂贵。缺乏这样的注释大大限制了密集视频字幕生成的进展。本文的工作受到以下两个问题的启发。首先，大多数现有数据集都有多个视频级别的句子注释，通常…CNNCNNCNN………Video Ground-truth Descriptions:1. 'a woman is taking a picture of children.'2. 'a man involving three children.’3. 'a group of people are looking at and taking pictures of a horse.'4. 'a short clip showcasing a champion horse.'5. 'a woman in a red blouse takes a picture.'6. 'kids are in playful mood.'7. 'kids are posing for a picture and being interviewed.'8. 'lady taking pictures of horse.'20. 'three man is describing a car.'LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM…………"woman""taking"!"children"⎡⎣⎢⎢⎢⎢⎤⎦⎥⎥⎥⎥…Lexical Model Loss(MIML Learning)Language Model Loss(Bi-S2VT Learning)19170帧 3 x Wx H0锚点特征 R x C xX x Y0选定的3个区域的特征 1 x C xX x Y0一个女人0进行000编码器0词汇标签0基于WTA的句子到区域序列的关联0LSTM LSTM LSTM … LSTM LSTM LSTM LSTM LSTM …0 0 0区域序列生成0解码器0词汇-FCN模型语言模型0图2：我们密集视频字幕生成框架的概述。在语言模型中，表示句子开头标记，表示句子结尾标记。当时间步骤没有输入时，我们使用零作为。最佳观看效果请使用彩色显示。0总体上，现有的视频字幕生成方法仅使用一个全局视觉表示来表示所有句子描述。然而，视频片段的不同部分（区域/片段）往往描述了非常多样化的方面。这种一对多的映射远非准确。因此，研究是否存在一种自动的方式（即使是弱关联）将句子与区域序列关联起来是非常有趣的。其次，是否可能以弱监督的方式（即句子与区域序列之间没有强1对1的映射）进行密集视频字幕生成？在本文中，我们提出了一种通过仅使用视频级别句子注释进行弱监督学习来生成多样且信息丰富的字幕的方法。图2展示了所提方法的架构，包括三个主要组件：视觉子模型、区域序列子模型和语言子模型。视觉子模型是一个使用弱监督多实例多标签学习训练的词汇-FCN，它建立了句子词汇与网格区域之间的弱映射。第二个组件解决了区域序列生成问题。我们提出了子模块最大化方案，根据词汇-FCN的输出自动生成信息丰富且多样化的区域序列。在训练阶段，我们提出了一种赢者通吃的方案，将句子弱关联到区域序列。第三个组件使用基于序列到序列学习的语言模型为每个区域序列生成句子输出。主要贡献如下：0（1）据我们所知，这是第一个只使用视频级别句子注释进行密集视频字幕生成的工作。（2）我们提出了一种新颖的密集视频字幕生成方法，该方法使用Lexical-FCN对视觉线索进行建模，使用子模块最大化发现区域序列，并使用序列到序列的方法解码语言输出。0尽管该方法是通过弱监督信号进行训练的，但我们证明可以生成信息丰富且多样化的字幕。（3）我们通过衡量与oracle结果的性能差距和密集字幕的多样性来评估密集字幕生成结果。结果明确验证了所提方法的优势。特别是，所提方法生成的最佳单个字幕在MSR-VTT挑战赛上的表现大大超过了现有技术的结果。02. 相关工作0最近在视频的多句描述方面已经有了各种研究[37, 41, 54, 3,18]。其中大多数工作[54, 41,37]侧重于生成长字幕（类似故事），首先通过动作定位[41]或不同级别的细节[37]对视频进行时间分割，然后使用自然语言处理技术为这些片段生成多个字幕并将它们连接起来。然而，这些方法仅考虑了时间分割，忽略了帧级别的区域注意力和区域级别对象的运动序列。Yu等人[54]考虑了时间和空间注意力，但仍然忽略了句子和视觉位置之间的关联或对齐。相比之下，本文试图利用时间和空间区域信息，并进一步探索句子与区域序列之间的对应关系，以实现更准确的建模。基于词汇的CNN模型在图像/视频字幕生成方面具有很大的优势，因为基于ImageNet的CNN模型只能捕捉有限数量的对象概念，而基于词汇的CNN模型能够捕捉各种语义概念（用于对象和场景的名词，用于形状和属性的形容词，用于动作的动词等）。这是一个非平凡的问题。womantakesblouse womantakesblouse red peoplewomantakesblouse peopleredMulti-Instance LearningMulti-Label LearningMulti-Instance Multi-Label Learning…………frameFigure 3: Three paradigms of learning a lexical model.to adopt/ﬁne-tune the existing ImageNet CNN models withlexical output.Previous works [7, 1, 47, 38, 19] haveproposed several ways for this purpose. For instance, [7]adopted a weakly supervised multiple instance learning(MIL) approach [27, 56] to train a CNN based word detec-tor without the annotations of image-region to words corre-spondence; and [1] applied a multiple label learning (MLL)method to learn the CNN based mapping between visualinputs and multiple concept tags.Sequence to sequence learning with long short-termmemory (LSTM) [13] was initially proposed in the ﬁeld ofmachine translation [43]. Venugopalan et al. (S2VT) [48]generalized it to video captioning.Compared with con-temporaneous works [53, 51, 30] which require additionaltemporal features from 3D ConvNets [45], S2VT can di-rectly encode the temporal information by using LSTM onthe frame sequence, and no longer needs the frame-levelsoft-attention mechanism [53]. This paper adopts the S2VTmodel [48] with a bi-directional formulation to improve theencoder quality, which shows better performance than thevanilla S2VT model in our experiments.3. ApproachOur ultimate goal is to build a system that describes in-put videos with dense caption sentences. The challengesare two folds. First, we do not have ﬁne-grained training-data annotations which link sentence captions to region-sequences. Second, we must ensure the generated sentencesbeing informative and diverse. As discussed earlier, the pro-posed approach consists of three components (see Figure 2):lexical-FCN based visual model, region-sequence genera-tion and language model. We elaborate each of them in thefollowing.3.1. Lexical FCN Model3.1.1Multi-instance Multi-label Lexical ModelWe adopt multi-instance multi-label learning (MIMLL) totrain our lexical model, which could be viewed as a com-bination of word detection [7] (MIL) and deep lexical clas-siﬁcation [1] (MLL). Figure 3 illustrates the comparison ofthe three methods.Multi-instance learning [27, 56, 7] assumes that theword label ywiis assigned to a bag of instances Xi ={xi1, . . . , xij} where i is the bag index, xij 2 Rd is a d-dimensional feature vector for the j-th instance. The worddetection method [7] used fc7 features of VGG-16 as theinstance representations. The bag is positive with a wordlabel ywi = 1 if at least one of the instances in Xi containsthe word w, although it is not exactly known which one con-tains the word. The bag is negative with label ywi = 0 if noinstance contains the word w.Multi-label learning assumes that each instance xi hasmultiple word labels: yi = {y1i , . . . , yki } where k is thenumber of labels. For this purpose, we usually train a deepneural network with a sigmoid cross-entropy loss [1].Multi-instance multi-label learning [57] is a naturalgeneralization of MIL. It takes as input pairs {Xi, yi},where each Xi is a bag of instances labeled with a set ofwords yi = {y1i , . . . , yki }. In MIMLL, each instance usu-ally has one or multiple word labels. For instance, we canuse “woman”, “people”, “human” or other synonyms in thelexicon to describe a female (see Figure 3 for one exam-ple). Now we deﬁne the loss function for a bag of instances.As each bag has multiple word labels, we adopt the cross-entropy loss to measure the multi-label errors:L(X, y; θ) = − 1NNXi=1[yi · log ˆpi + (1 − yi) · log(1 − ˆpi)],(1)19180其中�是模型参数，N是包的数量，y i是包X i的标签向量，ˆpi是相应的概率向量。当包中的所有实例都为负时，我们将包标记为负，因此使用了一个噪声OR公式来组合包中各个实例为负的概率：0ˆ p wi = P(y wi = 1 | X i; θ) = 1 - 0x ij 2 X i (1 - P(y wi = 1 | x ij; θ)), (2)0其中ˆ pwi是第i个包中单词w为正的概率。我们定义一个sigmoid函数来建模单个单词的概率：0P(y wi = 1 | x ij; θ) = σ(ww x ij + bw), (3)0其中ww是权重矩阵，bw是偏置向量，σ(x) = 1 / (1 +exp(-x))是逻辑函数。在我们的Lexical-FCN模型中，我们使用最后的池化层（ResNet-50为pool5）作为实例x ij的表示，下面将详细介绍。0Lexical-FCN模型的详细信息。0Lexical-FCN模型建立了帧区域和词汇标签之间的映射关系。Lexical-FCN的第一步是A⇤ = arg maxA✓SvR(xv, A),(4)R(xv, A) = wvT f(xv, A),(5)We brieﬂy introduce submodular maximization and showhow to learn the weights wv. A set function is called sub-modular if it fulﬁlls the diminishing returns property. Thatmeans, given a function f and arbitrary sets A ✓ B ✓Sv \ r, f is submodular if it satisﬁes:f(A [ {r}) − f(A) ≥ f(B [ {r}) − f(B).(6)L(wv; r) = R(At−1 [ {r}) − R(At−1)= wvT f(xv, At−1 [ {r}) − wvT f(xv, At−1).(7)At = At−1 [ {rt}; rt = arg maxr2StL(wv; r),(8)19190从视频字幕训练集中构建词汇表。我们提取整个训练数据集中每个单词的词性。这些单词可以属于句子的任何部分，包括名词、动词、形容词和代词。我们将一些最常见的功能词视为停用词，并从词汇表中删除它们。我们保留那些在MSR-VTT训练集中至少出现5次的剩余单词，并最终获得一个包含6,690个单词的词汇表V。Lexical-FCN的第二步是使用上述MIMLL损失训练CNN模型。我们不是从头开始训练，而是从一些最先进的ImageNet模型（如VGG-16或ResNet-50）开始，并在MS-VTT训练集上用MIMLL损失进行微调。对于VGG-16，我们将全连接层转换为卷积层以获得FCN。对于ResNet-50，我们移除最后的softmax层，并保留最后的平均池化层以获得FCN。03.1.3 基于卷积锚点的区域0为了获得密集的字幕，我们需要将句子与感兴趣区域（ROI）的序列进行关联。早期的目标检测解决方案采用区域提议算法生成区域候选框，并使用额外的ROI池化层训练CNN模型。由于我们在训练过程中没有任何单词或概念的边界框真值，因此我们无法采用这种方法。相反，我们借鉴了YOLO的思想，并从最后一个FCN层的锚点生成粗糙的区域候选框。在训练和推理阶段，我们对视频帧进行采样，并将两个维度的尺寸调整为320像素。在通过FCN进行前向传播后，我们得到一个4x4的响应图（VGG-16为4096通道，ResNet-50为2048通道）。响应图中的每个锚点表示原始帧中的一个区域。与目标检测方法不同，这里不进行边界框回归过程，因为我们没有边界框的真值。我们直接从这16个非常粗糙的网格区域开始考虑信息丰富的区域序列生成问题。03.2 区域序列生成0不同帧之间的区域进行匹配并按顺序连接，以产生区域序列。由于每个帧有16个粗糙区域，即使每个视频剪辑被降采样为30帧，我们也需要面对大小为16x30的区域序列生成的搜索空间。即使对于具有视频级句子注释的训练案例，这对于常规方法来说也是难以处理的。然而，我们的Lexical-FCN模型为每个区域提供了词汇描述。01 功能词包括'is'、'are'、'at'、'on'、'in'、'with'、'and'和'to'。0这样我们就可以从不同的角度考虑问题。03.2.1 问题建模0我们将区域序列生成任务形式化为一个子集选择问题[22,9]，从一个空集开始，逐帧将最具信息性和连贯性的区域添加到子集中，并同时确保不同区域序列之间的多样性。设Sv为视频v的所有可能区域序列的集合，A是一个区域序列子集，即A �Sv。我们的目标是选择一个区域序列A�，使得一个目标函数R最优：0其中xv是视频v的所有区域特征表示，我们将R(xv,A)定义为线性组合的目标函数0其中f=[finf, fdiv,fcoh]T，描述了区域序列的三个方面，即信息性、多样性和连贯性。当Sv随着视频长度呈指数级增长时，问题4的优化问题很快变得难以处理。我们将目标函数f限制为单调子模块函数，将wv限制为非负数。这使得我们能够以高效的方式找到一个近似最优解。03.2.2 子模块最大化0对于非负权重，子模块函数的线性组合仍然是子模块的。更多细节请参考[28,22]。子模块函数具有许多类似于凸函数或凹函数的性质，这对于优化是有利的。以前的研究[28, 22,9]表明，使用贪婪算法最大化子模块函数可以得到接近最优解的近似解。在本文中，我们使用了一种常用的成本效益懒惰前向（CELF）方法[22]来实现我们的目的。我们定义了一个边际增益函数，如下所示：0CELF算法从一个空序列A0=;开始，在每一步中将rt添加到区域序列中，使得边际增益最大：…!"#!$#!%#&!'()"&!'()$&!'()%*̂#!""!$"!%"*̂"!"2!$2!%2*̂2……………minwv≥01NNXi=1maxr2ri Li(wv; r) + λ2 kwvk2,(9)fi =Xw2Vs; pw≥θpwi ,(10)finf(xv, At) =Xw pw;pw = maxi2Atpwi .(11)fcoh =Xrs2At−1hxrt, xrsi,(12)fdiv =NXi=1Zwpwi log pwiqw dw.(13)19200最大信息性0最大化多样性0最大化多样性0LM0LM0LM0连贯性：0连贯性：0连贯性：0迭代0图4：区域序列生成的示意图。rji是第i帧中的第j个区域序列，“LM”表示语言模型。0其中St表示第t帧中的区域集合。给定N对已知对应关系{(r,s)}，我们通过以下目标函数优化wv：0其中max-term是广义铰链损失，这意味着通过某个边界，真实值或者由oracle选择的区域r的得分应该高于其他任何区域。我们的训练数据没有(r,s)对，即句子到区域序列的对应关系。我们通过一种类似于交替方向优化的方式解决了这个问题：(1)我们初始化wv=1（所有元素都等于1）；(2)我们使用wv进行子模块最大化，得到一个区域序列；(3)我们使用赢者通吃（WTA）方案将句子弱关联到区域序列（稍后描述）；(4)我们使用获得的句子到区域序列的对应关系来优化wv；(5)我们重复步骤2到4，直到wv收敛。WTA方案在给定一个真实句子s时有四个步骤。首先，我们基于词汇表V从s中提取词汇标签，并形成一个词汇子集Vs。其次，我们通过pwij=maxjpwij来计算第i个区域序列中词w在第j帧中的概率pwij，其中pwij实际上来自每个区域的Lexical-FCN输出。第三，我们使用阈值�对pwij进行阈值处理，即如果pwij<�，则重新定义pwij=0（在我们的研究中，�=0.1）。最后，我们通过计算匹配分数来确定匹配程度。0并通过 i � = arg max i f i获得最佳区域序列。该目标表明我们应该生成在句子中得分较高的区域序列。03.2.3 子模函数0基于子模函数的性质[25，28]，我们描述如何定义以下三个组件。区域序列的信息量定义为每个区域信息量的总和：0如果已知训练案例中或通过oracle已知视频级别的句子注释，则将定义替换为Eq-10，该定义将单词限制为句子词汇Vs。连贯性旨在确保区域序列的时序连贯性，因为区域内容的显著变化可能会使语言模型混淆。与视觉跟踪中的一些工作[2，14]类似，我们尝试选择时间上变化最小的区域，并将连贯性组件定义为0其中x r t是第t步的区域r t的特征，x rs是前（t-1）步中的一个区域特征，h，i表示两个归一化特征向量之间的点积操作。在实践中，我们还将区域r t的搜索空间限制在前一步区域的9个邻域位置内。多样性度量候选区域序列与所有现有区域序列之间的差异程度。假设{p w i} N i =1是现有N个区域序列的概率分布，qw是候选区域序列的概率分布，则多样性定义为使用Kullback-Leibler散度计算的0我们首先选择最具信息量的区域序列，并将其输入语言模型（LM）以生成句子输出。然后，我们迭代地选择最大化多样性的区域序列以生成多个句子输出。图4展示了我们的区域序列生成方法。详细算法请参见补充文件。03.3. 语言模型0我们使用序列到序列学习框架（S2VT）[48]对区域序列和句子之间的弱关联时序结构进行建模，该框架是一种编码器-解码器结构。S2VT使用LSTM对区域序列的视觉特征进行编码~V=（v1，∙∙∙，vT），并将视觉表示解码为一系列输出单词~u=（u1，∙∙∙，uS）。LSTM用于在编码器部分和解码器部分对序列进行建模。作为RNN的一种变体，LSTM能够学习传统RNN难以捕捉的长期时序信息和依赖关系[13]。我们的LSTM实现基于[55]，对所有LSTM单元进行了dropout正则化（dropout比例为0.9）。我们通过双向编码器扩展了原始的S2VT，因此Figure2中的S2VT学习堆叠了三个LSTM模型。第一个LSTM对正向视觉特征序列{~V}进行编码，第二个LSTM对反向视觉特征序列进行编码{0V}。这两个LSTM网络构成了编码器部分。我们将在后面展示双向LSTM编码的好处。第三个LSTM将正向传播和反向传播的视觉编码解码为单词序列（句子）。为了进一步提高准确性，我们提出了一种基于类别的语言模型扩展。视频可能属于不同的类别，例如新闻、体育等。不同的视频类别具有非常不同的视觉模式和句子风格。类别化语言模型定义为visual codes from both the forward pass and backward passinto sequences of words (sentences).To further improve accuracy, we propose a category-wiselanguage model extension. Videos may belong to differentcategories, such as news, sports, etc. Different video cate-gory has very different visual patterns and sentence styles.The category-wise language model is deﬁned ass⇤ = arg maxs P(s|c, v)P(c|v),(14)19210图5：MSR-VTT数据集上的词法训练损失。0其中c是类别标签，v是视频特征表示，s是预测的句子。P(s|c,v)是在给定类别c和视频v的条件下的概率，P(c|v)是视频v属于类别c的先验置信度，可以从通用视频分类模型中获得。类别语言模型可以被视为最大后验估计。04. 实验04.1. 数据集和实现细节0我们在MSR-VTT数据集[51]上进行实验，该数据集是最近发布的大规模视频字幕基准。该数据集包含来自20个类别的10,000个视频片段（6,513个用于训练，497个用于验证和2,990个用于测试），包括新闻、体育等。每个视频片段都手动注释了20个自然句子。从句子数量和词汇量的角度来看，这是目前最大的视频字幕数据集。尽管该数据集主要用于评估单句字幕的结果，但我们假设每个片段的20个句子包含非常多样化的注释，并且可以在密集字幕的任务中使用（稍后将讨论一些冗余性）。对于单句字幕的评估，该基准的作者提出了基于机器翻译的度量标准，如METEOR[21]，BLEU@1-4 [32]，ROUGE-L [23]和CIDEr[46]。对于密集视频字幕的结果，我们提出了自己的评估协议来证明结果的有效性。所有的训练和测试都是在一台配备12GB内存的Nvidia TitanXGPU上完成的。我们的模型在测试阶段非常高效。它可以在TitanXGPU上处理一个30帧的视频片段，大约需要840毫秒，其中包括570毫秒用于CNN特征提取，90毫秒用于区域序列生成，以及180毫秒用于语言模型。0模型 METEOR BLEU@4 ROUGE-L CIDEr0单向（VGG-16）25.2 32.7 56.0 31.1 双向（VGG-16）25.4 32.8 56.5 32.9单向（ResNet-50）25.7 32.1 56.4 32.5 双向（ResNet-50）25.9 33.7 56.9 32.60表1：双向编码器在MSR-VTT验证集上的单句字幕准确率。0模型 METEOR BLEU@4 ROUGE-L CIDEr0MIL（双向）23.3 28.7 53.1 24.4 MIMLL（双向）25.9 33.7 56.9 32.60表2：MIL和MIMLL在MSR-VTT验证集上的单句字幕准确率。0测试阶段。它可以在TitanXGPU上处理一个30帧的视频片段，大约需要840毫秒，其中包括570毫秒用于CNN特征提取，90毫秒用于区域序列生成，以及180毫秒用于语言模型。04.2. 单句字幕消融实验0我们首先通过单句字幕实验评估了几个设计组件的效果，这些实验产生了通过公式11定义的最大信息得分的字幕（即图4中的ˆs0）。网络结构的有效性。我们比较了VGG-16和ResNet-50在词汇-FCN模型中的效果。由于GPU内存限制，我们没有尝试更深的网络，如ResNet-152。图5显示，ResNet-50的训练损失优于VGG-16，这与它们在ImageNet上的结果一致。表1总结了两个网络在MSR-VTT验证集上的单句字幕结果。可以看出，在所有情况下，ResNet-50的表现优于VGG-16。基于这些结果，在后续的研究中，当没有明确说明时，我们选择ResNet-50作为我们的网络结构。双向编码器的有效性。接下来，我们比较了双向和单向S2VT模型在语言建模中的性能。结果也显示在表1中。显然，双向模型在所有评估指标上都优于单向模型。双向模型的好处并不那么显著。我们推测这是因为区域序列已经包含足够的时间和局部信息。然而，为了更好的准确性，在所有后续的研究中都采用了双向模型。MIMLL的有效性。我们的词汇-FCN模型是在视频帧上训练的。与图像级别的词汇学习[7,1]相比，我们的设置更具挑战性，因为句子是在视频级别上的，很难确定哪些单词对应哪些帧。这里我们展示了MIMLL在两个方面的有效性。首先，我们比较了MIMLL和MIL在表2中的单句字幕结果。可以看出，MIMLL在所有四个指标上的准确性都优于MIL。其次，我们比较了MIMLL和MIL的单词检测准确性。我们首先计算每个单词的最大概率，其中包括...19220区域序列的评估。如果一个词的最大概率大于阈值（0.5），我们认为该词被检测到。我们观察到，在这项研究中，MIMLL在检测准确性方面优于MIL（43.1%对41.3%）。这两个结果都证明了所提出的MIMLL对于Lexical-FCN模型的有效性。类别化语言模型的有效性。所有以前的研究都是基于不使用视频类别信息的语言模型。在这里，我们研究了类别化语言模型的好处，如等式14所定义。结果显示在表3的倒数第二行和倒数第三行。我们观察到，与不进行类别化建模的模型相比，类别化语言模型的准确性要好得多。这个好处是因为类别信息提供了关于视频内容的强先验知识。与现有技术的比较。我们还将我们的单句字幕结果与MSR-VTT基准测试中的现有技术方法进行比较。为了获得更好的准确性，该实验在训练过程中采用了数据增强，类似于比较方法。我们将每个视频剪辑预处理为30帧，采用不同的采样策略（随机，均匀等），并为每个视频剪辑获得多个实例。我们首先在MSR-VTT的验证集上将我们的方法与mean-pooling[49]，soft-attention [53]和S2VT[48]进行比较

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

弱监督密集视频字幕生成

基于腾讯云AI录音文件识别让无字幕视频自动生成字幕python源码+项目使用文档.zip

然后完成视频自动生成字幕

java根据视频生成字幕

语音视频自动生成字幕

无字幕在线视频添加字幕

python视频自动生成字幕

PR2024 自动生成字幕插件

ffmpeg 生成字幕文件

简单写个图像字幕生成代码

基于OCR视频字幕提取研究步骤

视频打点自动生成字幕轨

视频字幕如何去除，添加新的字幕

有什么软件能根据视频字幕配音

手机如何去除视频字幕文字

哔哩哔哩api视频字幕

视频号直播如何实现实时字幕

Android Studio实现用百度语音识别API生成已有视频的字幕文件

ffmpeg 播放视频加载字幕

视频硬字幕提取 内嵌字幕提取工具

opencv提取视频字幕

最新资源

视频硬字幕提取内嵌字幕提取工具