没有合适的资源?快使用搜索试试~ 我知道了~
8918视频字幕的联合学习和视觉提示侯静怡1、吴新晓1 *、赵问天1、罗杰波2、贾云德11北京理工大学计算机学院智能信息技术北京实验室,北京2计算机科学系,罗切斯特大学,罗切斯特NY 14627,美国摘要视频字幕是一项具有挑战性的任务,它不仅涉及视觉感知,而且涉及语法表示学习。视频字幕的最新进展是通过视觉感知来实现的,但是语法表示学习仍然没有得到充分的探索。我们提出了一种新的视频字幕方法,该方法同时考虑了视觉感知和语法表示学习,以生成准确的视频描述。具体来说,我们使用由词性(POS)标签组成的句子模板来表示字幕的语法结构,并且相应地,通过从视频中直接推断POS标签来执行syn-tax表示学习。视觉感知是由一个混合模型实现的,该模型将视觉线索转换为词汇,这些词汇是以学习到的句子的句法结构为条件的。因此,视频字幕任务由两个子任务组成:视频POS标记和视觉提示翻译,它们以端到端的方式联合建模和训练。在三个公共基准数据集上的评估表明,我们提出的方法比最先进的方法获得了更好的性能,这验证了语法表示学习和视觉感知的联合建模视频字幕的优越性。1. 介绍自动生成视频的自然语言描述,在视频语义搜索、聊天机器人的视觉智能以及帮助人们感知周围世界等方面有着重要的应用,因此受到了广泛的关注。先前的作品[21,23,16,33]描述了使用基于模板的方法的视频,该方法首先手动创建固定结构的句子模板,然后用相应的单词填充模板最近,越来越多的研究表明,深度学习对* 通讯作者:吴新晓视频字幕,由于深度神经网络在计算机视觉和自然语言处理方面的巨大成功。许多深度学习方法[11,38,37,29]通常构建编码器以将输入视频压缩为特征表示,并构建解码器以生成给定视频特征的描述。大多数现有的视频字幕方法[48,41,13,30,4,12,8,1]主要集中在通过利用信息语义来研究各种视觉感知模型,而不考虑学习用于生成句子的同义词表示。在本文中,我们提出了一种新的视频字幕方法,它同时考虑到视觉感知和语法表示学习,以生成准确的句子的视频。在与自然语言理解的类比中,句法结构信息对于解释视频的句子显然是例如,“狼在吃羊”和“狼和羊在吃”这两个句子有着相似的语义基元,但在不同的句法结构下,它们的意义却有所因此,学习视频字幕的语法表示将对视频字幕的制作有很大的具体地,我们使用由词性(POS)标签组成的句子模板来表示字幕的语法结构,并且相应地,通过从视频中直接推断POS标签来执行语法表示学习。视觉感知是通过将视觉线索翻译成词汇来实现的,以利用以相应的POS标签为条件的语义原语。因此,我们的方法中的视频字幕任务同时执行两个子任务:视频词性标注和视觉提示翻译。为此,构建了一个端到端的可训练网络来联合建模和训练这两个子任务。为 了 用 POS 自 动 标 记 视 频 , 采 用 序 列 到 序 列(S2S)模型从输入视频生成POS序列。词性序列可以看作是对视频文本描述的句法结构的解释。由于POS标签类别比单词类别少得多,因此使用S2S模型来生成POS序列比使用真实的8919BESDT在DTVBGNNNN判决:POS标签:视频:图1.我们的方法的主要过程为视频字幕。对于输入视频,我们首先通过视频词性标注来学习其语法表示,然后通过混合模型将视觉提示翻译为给定推断的词性的单词。句话一般来说,一个完整的句子是由各种语法成分构成的。因此,我们引入了一个简单而有效的约束条件,以多样化的词性在每个生成的句子,以保证字幕的完整性。约束项通过使用二语规范化来鼓励每个词性在生成的句子中至少出现在将视觉线索翻译成单词时,字幕中的词频分布是极不平衡的,即,一小部分词比其他词出现得更频繁,这被称为自然语言中词分布的齐普菲定律。因此,直接用不平衡的数据来训练softmax词分类器的解码器,会导致词偏差问题,从而降低了分类器的性能。为了解决这个问题,提出了一种新的显式混合模型来生成以POS标签为条件的词的概率分布,该模型通过感知相关的视觉线索来捕获内在语义原语,在混合模型中,每个组件对特定的视觉线索敏感,用于生成与视觉线索语义相关的单词。由于语言学的开闭特性,词可以根据词性相对均等地分为多个子集。在每个子集中,单词的频率不会发生显著变化,因此每个子集的单词分类器不会受到偏见问题的影响。该方法将多个词分类器作为视觉线索的特定成分,以相应的词性为条件构成混合模型,使最相关的成分主导词汇的生成。我们的视频字幕方法的主要过程如图1所示。总体而言,主要贡献如下:我们提出了一种新的视频字幕方法,共同学习的语法表示和翻译视觉提示以生成准确的文本描述。建立了一个端到端的可训练网络,通过同时捕获句法结构和利用语义原语来建模POS序列和字幕词的联合概率。我们设计了一个多个视觉线索特定成分的混合模型来处理语言数据中固有的不平衡类别所导致的单词偏见问题,并在可解释和可访问的POS标签的指导下。在三个公开数据集上的实验全面验证了该方法在视频字幕上的优越性能。2. 相关工作早期的视频字幕方法主要基于在模板上,句子模板应该是预定义的。[21]是通过提取视频的语义原语并将它们与模板的组成部分相关联以形成句子来描述视频中的Krishnamoorthy等人[23]开发了一种整体的方法,直接选择最好的主谓宾三元组作为视频字幕。Guadarrama等人[16]建立语义层次结构并填充单词以生成视频的字幕,其中动词是通过零镜头动作识别技术生成的这些方法生成具有有限自然语言多样性的固定结构的句子与这些基于模板的固定句法结构的方法不同,该方法能够从输入视频中自动推断出人类可理解的词性,从而生成准确多样的句子。最近,基于序列到序列的方法在视频字幕中已经变得流行[38]提取CNN特征来表示输入视频,并使用LSTM生成视频描述。最近已经在探索更好的视频表示方面做出了一些努力。 S2VT[37]将帧级特征编码为视频的全局特征,并通过编码器-解码器LSTM将其解码为句子[29,4]利用视频的分层结构进行字幕。具体地说,[29]使用分层LSTM随时间对视频进行编码,[4]将分层LSTM的单元调整为边界感知,以更好地表示视频。Chen等人[8]使用强化学习方法来选择用于视频字幕的信息帧其他几种方法设法利用视频字幕的语义线索或概念。[33]首先通过条件随机场学习视频的语义表示,然后使用统计机器翻译将其翻译成字幕。Donahue等人[11]延伸[33]通过改变统计机器翻译方法一只狗在蹦床上猛扑视觉提示翻译DT NN BESVBG IN DTNN句法表示···8920|S公司简介LSTM [19]解码器。[48,41,13]介绍了视频字幕的注意机制,其中[48,41]选择显著的时空特征来生成句子,[13]使用分层注意力来捕获用于字幕的时间动态。Wang等人[39]通过编码器-解码器-重建器利用视频和字幕之间的双向线索[30,12]使用可解释的线索作为视频和自然语言之间的权衡。Aafaq等人[1]同时考虑了时空动态和高层语义概念,并采用短时傅立叶变换来丰富视频字幕的视觉表现。与这些基于语义概念的方法不同,该方法不仅学习语义原语,而且还学习视频的语法表示,进一步提高了生成句子的准确性。有几个研究利用POS图像字幕。 He等人[18]直接使用的POS标签当前单词以局部地引导下一单词的预测,而我们的方法学习全局语法表示(即,POS标签序列)来生成准确的字幕。Deshpande等人[10]通过聚类从图像中预定义1,024个POS模板,并将具有图像的模板馈送到S2S模型中以生成字幕,而我们的方法灵活地从视频中生成POS标签序列,并利用多个视觉线索来提升视频字幕。我们的方法预测句子条件的POS标签通过混合模型,充分利用视频的视觉线索,精确的字幕生成。我们的方法也不同于两阶段的图像captioning方法[24,27,42],其首先生成与对象实体相关的句子模板,然后填充“A dog ispouncing on之前的话词嵌入器POS标签生成器POS-NN特征提取器混合模型单词视频视觉提示翻译表示学习图2.我们方法的整体架构。有两个关键模块:语法表征学习和视觉提示翻译。句法表示学习模块以特征提取器提取的视频特征和嵌入的前一个词作为输入,输出词性序列。视觉线索翻译模块由多个组件的混合实现,其中每个组件将特定的视觉线索特征作为输入以输出词汇词。一句话。ti表示第i个POS标签,属于预定义的POS标签集T,该POS标签集T包括26个POS标签和1个表示句子结束的标签,即,ti∈ T。si表示属于固定词汇表S的第i个单词,即,si∈ S。建立一个概率有向无环图来学习POS序列t和字幕s的联合概率。给定视频v,t和s的联合概率由下式表示:YN使用物体探测器的插槽我们的方法同时学习不仅视觉概念,但也语法表示,p(t,s|v;θ)=p(ti|s,生成第一单词并将其与前一输入一起馈送到模型中以生成第二单词。重复该过程,直到预测到结尾to- ken或达到最大长度。我们使用大小为5的beam搜索来生成最终句子。3.4. 混合模型在本小节中,我们从不平衡类的角度对3.2节中的混合模型进行理论分析。在语言学中,不同词性的词之间存在着开闭之分。功能词(例如,连词)频繁出现,但它们的数量有限且相对较少(英语中约为150个),而实词(例如,(名词)正好相反。受益于这一特点,我们的混合模型可以解决不平衡类的问题,划分成四个子集的话。一般来说,在使用不平衡数据进行训练的反向传播过程中,大多数类将对参数更新产生主要贡献,这导致模型对大多数类中的数据更加敏感。在所提出的模型中,损失函数Ls的梯度为从大词汇表中捕捉所有合适的单词。我们的混合模型在Eq.(6)将四个softmax集成在一起,这提供了非线性函数,即,log-sum- exp,并且该矩阵可以是任意高秩的。通过这种方式,softmax瓶颈问题得到缓解。4. 实验4.1. 数据集MSVD[6]包括从Youtube收集的1,970个视频片段,每个片段都有大约40个字幕。在[37]之后,我们将视频分为三组,包括1,200个训练视频,100个验证视频和670个测试视频。MSR-VTT[44]包含10 K视频片段,每个片段有20个字幕。与[44]一样,我们使用6,513个视频进行训练,497个用于验证,2,990个用于测试。ActivityNet Captions[22]包含20K个视频,注释了100K个时间本地化的句子。我们使用该数据集中的地面实况建议和相应的标题来评估我们遵循[22]中θLs=哪里联系我们v∈Vs∈Svi=1−第1、(10)条θs p(s i|t i,v; θ s)4.2. 实验装置评估指标。我们使用BLEU-4(B@4)[31],METEOR[9],ROUGE-L [26]和CIDER[36]用于MSCOCO工具包的评估[7]。为所有θs p(s i|t i,v; θs)=度量值越高表示性能越好。J .Σα jjp(s i|t i,v;θ)+p(s i|t i,v;θ)θαj.(十一)要素表达。 输入视觉提示表示-θss stj=1从Eq中的第一项推断。(11)当POS标签将词识别为内容词时,将强调词对模型参数视频字幕数据集中实义词的数量大于虚词的数量,因此实义词的整体影响会更大。在Eq中的第二项公式(11)保证了仅当正确预测单词时才更新POS的概率。我们还发现,所提出的混合模型可以缓解[46,20]揭示的自然语言中的softmax瓶颈问题。softmax的瓶颈是关于一个softmax函数在网络的顶部使用,以获得概率-词类别上的分布,这被称为linear-softmax层。当输出category的数量,即,词汇表中的所有单词远大于表示维度,则linear-softmax层将限制表示能力。对softmax瓶颈的详细解释来自于经典的矩阵分解理论,对数概率矩阵的低秩特性阻碍了linear-softmax层的精确混合模型的各站包括四种不同类型的视频特征,即,上下文、RGB、运动和局部特征。从S2S模型中提取上下文特征,用于词性标注其他三种类型的特征是由几个现有的CNN从视频中提取的。提取这些特征的详细信息可以在第4.3节中找到。因此,可以通过以不同方式组合四种类型的视频特征来由于对象通常位于视频的局部区域中,因此通过经由软注意操作根据当前时间步长处的上下文特征软分配局部特征来计算作为对象特定组件的输入的对象线索表示。运动提示表示作为运动特定组件的输入通过连接运动和上下文特征来获得。属性提示表示作为属性特定组件的输入是通过将RGB和上下文特征相关联来获得的。 RGB特征表示视频中的全局信息···8923特征提取器方法MSVDMSR-VTTB@4流星ROUGE-L苹果酒B@4流星ROUGE-L苹果酒HRL [41]----41.328.761.748.0ResNet-152PickNet [8]52.333.369.676.541.327.759.844.1我们52.133.769.880.641.428.962.048.1ResNet-152+C3DSCN [12]51.133.5-77.7----我们52.433.770.281.340.728.961.748.3Incpetion-v4RecNet [39]52.334.169.880.339.126.659.342.7我们52.534.470.383.040.728.360.445.3IRv2+C3D+YOLOGRU-EVE [1]47.935.071.578.138.328.460.748.1IRv2+C3D我们52.836.171.887.842.329.762.849.1表2.我们的方法使用相同的功能与最近的国家的最先进的方法上的MSVD和MSR-VTT数据集的性能评估。跳转我们应用RGB特征作为属性提示表示,因为通过参考全局视频可以更好地描述一些属性,例如作为上下文特定组件的输入的上下文线索表示由上下文特征组成实作详细数据。使用[2]中默认参数设置的ConvCap网络作为视频词性标注的S2S模型使用没有最后注意力操作的Con-vCap网络的最顶层输出作为上下文特征以充分表示词之间在混合模型中,每个视觉提示特定组件由一个具有RReLU激活层[43]和softmax分类器的全连接层构建为了在空间上对齐特征,在所有连接之前应用层归一化操作[3]。所提出的方法在具有12G内存的TitanX GPURMSprop [15]用于优化我们的模型,学习率设置为1e−4。4.3. 与最新技术为了评估我们的视频字幕方法中语法表示学习和视觉感知的联合建模的有效性为公平比较,该等方法的相同特征用作我们方法的输入,详情如下。ResNet-152:RGB和局部特征分别从ResNet-152的平均池化层和res 5 b层中提取 [17]通过对RGB特征使用时间注意操作来生成运动ResNet-152+ C3 D:RGB和局部特征与(1)相同。从C3D的pool5层提取运动特征[35]。启动-v4:RGB和局部特征分别来自Inception-v4的平均池化层和Reduction-B层[34]。的运动功能的计算,通过使用时间atten- tion操作的RGB功能。IRv 2 + C3 D:RGB特征和局部分别来自IRv 2的平均池化层和Reduction-B层[34]。从C3D的pool5层中提取运动特征。具体来说,我们以3fps的速度对每个视频的帧进行采样以获得RGB特征。通过C3D提取的运动特征是使用16帧剪辑作为8帧重叠的输入来获得的。对于局部特征,我们随机采样4个RGB帧作为特征提取器的输入,用于注意力操作,以降低计算成本。表2显示了MSVD和MSR-VTT数据集的比较结果很明显,当与使用相同特征的其他方法相比时,我们的方法获得了令人满意的性能请注意,与GRU-EVE [1]相比,为了计算简单,我们没有使用YOLO模型来检测对象以提取更好的表示,我们的方法仍然比GRU-EVE获得了更好的结果。这充分验证了我们的方法在同时探索句子的句法结构和感知视频字幕的语义原语方面的优越性。此外,我们还分别在表3和表4中提供了其他最先进方法的视频字幕结果,用于对MSVD和MSR-VTT数据集进行全面比较。在这个实验中,我们使用IRv2+C3D作为特征提取器来获得输入特征表示。很明显,对于大多数评估指标,我们的方法在MSVD和MSR-VTT数据集上的表现始终优于最先进的方法。注意·····8924方法B@4流星ROUGE-L苹果酒基线S2S50.134.369.477.0不含Ls51.734.370.782.1不含Lt52.535.171.285.6不含信用证51.334.770.783.3我们52.836.171.887.8表6.MSVD数据集上的消融实验结果表3.与MSVD数据集上的最新方法进行比较。方法B@4流星ROUGE-L苹果酒SA-LSTM [47]37.128.4--[13]第十三话38.026.1-43.2M3[40]38.126.6--RecNet [39]39.126.659.342.7HRL [41]41.328.761.748.0PickNet [8]41.327.759.844.1GRU-EVE [1]38.328.460.748.1我们42.329.762.849.1表4.与MSR-VTT数据集上的最新方法进行比较。方法B@4流星ROUGE-L苹果酒[22]第二十二话1.68.9-25.1DVC [25]1.610.3-25.2SDVC [28]1.313.1-43.5我们1.911.322.444.2表5.与ActivityNet Captions数据集上的最新方法进行比较。我们的方法在B@4下的改进并不像其他评价指标那样显著。可能的原因是我们的方法旨在学习句法结构表示以生成句子,并且B@4是基于词汇而不是句法匹配的度量[14]。在以前的工作中也发现并解释了这种整合- ten的句法信息不能提高BLEU分数的现象[5]。我们还在表5中显示了ActivityNet标题验证集的比较结果。为了公平比较,我们的输入特征是分段级C3D特征,与比较方法相同。在我们的模型中的RGB特征是从C3D特征的平均池中导出的我们对C3D特征应用自注意操作来计算局部特征。通过使用LSTM对C3D特征进行编码来获得每个提案从表5中可以明显看出,我们的方法在更大的范围内通常优于最先进的方法。挑战数据集4.4. 消融研究为了更深入地了解我们方法的每个组成部分,我们将我们的方法与四种变体进行比较:没有POS标记和混合模型(基线S2 S),没有混合模型(w/oLs),没有POS标记(w/oLt)和没有约束项Lc(w/oLc)。Baseline S2S使用ConvCap [2],它与我们方法中的POS标签生成器具有相同的网络架构,除了最后一个1D卷积层使用注意力机制直接生成字幕。它具有相同的词嵌入器和特征提取器与我们的方法。w/oLs使用softmax分类器而不是混合模型来在推断的POS标签的指导下生成单词。w/oLt直接使用混合模型来生成给定输入特征呈现的句子,而无需视频POS标记。w/oLc从损失函数中移除约束项Lc。使用IRv2+C3D作为特征提取器,在MSVD数据集上进行这些消融研究。结果见表6。 我们可以有以下-观察结果:(1)我们的方法取得了最好的结果,这明显验证了我们方法中每个个体分量的重要性;(2)与“w/o L s“相比,本文提出的混合模型可以有效地解决词偏置问题,并利用学习到的句法结构进一步提高性能;(3)我们的方法优于“w/o L t“,这清楚地表明,通过视频词性标注来学习句子的语法表示有助于生成准确的视频描述。(4)当去除约束Lc时,性能下降,这验证了鼓励每个句子的POS变化的重要性。4.5. 定性分析图3显示了来自六个视频的视频字幕的一些定性结果。对于每个视频,···方法B@4流星ROUGE-L苹果酒SA-LSTM [47]41.929.6-51.7HRNE [29]46.733.9--h-RNN [48]49.932.6-65.8BAE [4]42.532.4-63.5TSA [30]52.833.5-74.0[13]第十三话50.833.361.174.8SCN [12]51.133.5-77.7M3[40]52.833.1--RecNet [39]52.334.169.880.3PickNet [8]52.333.369.676.5GRU-EVE [1]47.935.071.578.1我们52.836.171.887.8·8925GT:我们的:一个男人正在从烤肉上切去肥肉。 一个男人正在切肉。基线S2S:无左侧t:一个男人在做饭。一个男人正在切肉。不含Ls:不含Lc:一个人正在把一块肥肉放上去一个人正在把肉铺好。肉.GT:我们的:一个女孩把头发扎一个女人正在做头发。基线S2S:w/oLt:一个女人在说话。一个女人正在梳理她的头发。不含Ls:不含Lc:一个女人正在打电话。一个女人正在梳理她的头发。(a)(b)第(1)款不含Lc:一个女人在游泳池上跳。不含Ls:一个男人在玩水。基线S2S:无左侧t:一个女孩在游泳。一个女孩从墙上跳下来。我们的:一个人在游泳池上跳。GT:那个人跳进了游泳池。GT:我们的:有人拿着一只小蟾蜍。有人在玩青蛙。基线S2S:w/oLt:一只青蛙在玩耍。这个人正在玩什么不含Ls:不含Lc:一个人在玩手指。一个人在玩青蛙。(c)(d)其他事项不含Lc:一只猫在玩。不含Ls:一只猫正在玩一个盒子。基线S2S:无左侧t:一只猫在玩。一只猫正在玩玩具。我们的:一只猫正跳进一个盒子里GT:一只猫正跳进一个盒子里w/oLt:一个女人在揉面。不含Lc:一个人在做饭。基线S2S:一个男人在做饭。不含Ls:一个女人在揉肉。GT:我们的:一个女人在给猪排涂涂层。这位女士在肉上撒了面粉。(e)(f)第(1)款图3.视频字幕的定性结果。有六个视频。对于每个视频,选择三个帧进行说明,并显示六个句子,包括地面实况(GT)句子,由我们的方法生成的句子(我们的),以及由我们的方法在消融研究中的四个变体生成的其他四个句子(基线S2 S,w/oLs,Lt和Lc)。选择用于说明。有趣的是,我们的方法可以生成具有更准确的语义和语法的句子来描述视频。与(c)中的w/oLs方法相比,该方法生成的句子通过有效地解决词偏向问题,表达了更精确的语义。(d)表明使用Lt学习句子的句法表示对于我们的方法是必不可少的。约束Lc的效果可以从(e)和(f)中观察到,其中由没有Lc的方法生成的句子缺乏句法结构的多样性。根据这些观察,我们得出结论,我们的方法中提出的所有模块都有助于生成准确的视频字幕。5. 结论我们提出了一种新的方法,联合学习语法表示和翻译视觉线索,视频字幕它可以通过视频词性标注同时捕获句子的句法结构,并通过一种新的混合模型来感知内在语义基元混合模型可以成功地解决自然语言数据中固有的单词偏见问题。建立了一个端到端的可训练网络来建模POS序列和词汇词的联合概率,该网络能够生成准确和多样化的视频描述。在三个公开数据集上的实验表明,我们的方法优于最先进的视频字幕方法致谢这项工作得到了部分支持国家自然科学基金项目(61673062)。8926引用[1] Nayyer Aafaq 、 Naveed Akhtar 、 Wei Liu 、 SyedZulqarnain Gilani和Ajmal Mian。时空动态和语义属性丰富的视频字幕视觉编码。在CVPR中,第12487-12496页[2] Jyoti Aneja,Aditya Deshpande和Alexander G. 施温卷积图像字幕。在CVPR中,第5561- 5570页[3] Lei Jimmy Ba、Ryan Kiros和Geoffrey E.辛顿层归一化。CoRR,abs/1607.06450,2016。[4] Lorenzo Baraldi Costantino Grana和Rita Cucchiara 用于视频字幕的高性能边界感知神经编码器在CVPR中,第3185-3194页[5] Chris Callison-Burch,Miles Osborne,and Philipp Koehn.重新评价bleu在机器翻译研究中的作用。在EACL,2006年。[6] David L.Chen和William B.多兰收集高度平行的数据进行释义评估。在ACL,第190[7] 陈新蕾,方浩,林宗毅,罗摩克里希纳·韦丹坦,索拉布·古普塔,彼得·多尔,和C.劳伦斯· 齐特尼克。Microsoft COCO 字 幕 : 数 据 收 集 和 评 估 服 务 器 。CoRR,abs/1504.00325,2015。[8] Yangyu Chen , Shuhui Wang , Weigang Zhang , andQingming Huang.少即是多:为视频字幕挑选信息帧。在ECCV,第367-384页[9] Michael J. Denkowski和Alon Lavie。流星通用:针对任何目标语言的特定语言翻译评估。在ACL,第376-380页[10] Aditya Deshpande , Jyoti Aneja , Liwei Wang ,Alexander G. Schwing,and David A.福赛斯快速,多样和准确的图像字幕引导的词性。在CVPR中,第10695-10704页[11] JeffDonahue 、 LisaAnneHendricks、SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Trevor Darrell和Kate Saenko。用于视觉识别和描述的长期递归卷积网络在CVPR,第2625-2634页[12] Zhe Gan,Chuang Gan,Xiaodong He,Yunchen Pu,Kenneth Tran,Jianfeng Gao,Lawrence Carin,and LiDeng.视觉字幕的语义合成网络。在CVPR中,第1141-1150页[13] 高连利,赵国,张汉王,徐兴,沈衡涛。基于注意力的LSTM 和 语 义 一 致 性 的 视 频 字 幕 。 IEEE Trans.Multimedia,19(9):2045[14] 我是吉姆·内兹,我是马尔克斯。用于自动评估异质机器翻译系统的语言特征InWMT@ACL,2007.[15] 亚历克斯·格雷夫斯使用递归神经网络生成序列。CoRR,abs/1308.0850,2013。[16] 作 者 : Sergio Guadarrama , Niveda Krishnamoorthy ,GirishMalka-rnenkar,SubhashiniVenugopalan,Raymond J. Mooney Trevor Darrell 和 Kate SaenkoYoutube2text:使用语义层次和零触发识别来识别和描述任意活动。在ICCV,第2712[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[18] Xinwei He,Baogang Shi,Xiang Bai,Gui-Song Xia,Zhaox-iang Zhang,Weisheng Dong.具有词性引导的图像字幕生成。模式识别快报,2017年。[19] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[20] Sekitoshi Kanai,Yasuhiro Fujiwara,Yuki Yamanaka,and Shuichi Adachi. Sigsoftmax:重新分析softmax的瓶颈。在NeurIPS,第284-294页[21] Atsuhiro Kojima,Takeshi Tamura,and Kunio Fukunaga.基于动作概念层次的视频图像人类活动自然语言描述IJCV,50(2):171[22] Ranjay Krishna、Kenji Hata、Frederic Ren、Li Fei-Fei和Juan Carlos Niebles 。 视 频 中 的 密 集 字 幕 事 件 。 在ICCV,第706-715页[23] 放 大 图 片 作 者 : Niveda Krishnamoorthy , GirishMalkarnenkar,Raymond J. Mooney,Kate Saenko,andSergio Guadarrama.使用文本挖掘知识生成自然语言视频描述在AAAI,第541-547页[24] 作者:李敏,李晓. Berg和Tamara L.伯格。Babytalk:理解和生成简单的图像描述。IEEE TPAMI,2013年。[25] Yehao Li,Ting Yao,Yingwei Pan,Hongyang Chao,and Tao Mei.联合定位和描述密集视频字幕的事件在CVPR中,第7492-7500页[26] 林金耀。Rouge:一个用于自动评估摘要的软件包。InWAS,2004.[27] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.神经宝宝的谈话。在CVPR中,第7219-7228页[28] 门宗焕,杨林杰,周仁,徐宁,韩宝亨.精简密集的视频字幕。在CVPR中,第6588-6597页[29] Pingbo Pan , Zhongwen Xu, Yi Yang , Fei Wu , andYueting Zhuang. 用于视频表示的分层递归神经编码器在CVPR,第1029-1038页[30] Yingwei Pan,Ting Yao,Houqiang Li,and Tao Mei.具有转移语义属性的视频字幕。在CVPR中,第984-992页[31] Kishore Papineni,Salim Roukos,Todd Ward,and Wei-Jing Zhu. Bleu:一种机器翻译的自动评测方法。在ACL,第311-318页[32] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W,2017年。[33] Marcus Rohrbach , Wei Qiu , Ivan Titov , StefanThater,Man-fred Pinkal,and Bernt Schiele. 将视频内容转换为自然语言描述。在ICCV,第433-440页,2013年。[34] Christian Szegedy、S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功