密集视频字幕的时间依赖性建模及其性能优化

14 浏览量更新于2023-10-18 收藏 818KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1精简的密集视频字幕Jonghwan Mun1，5杨林杰2周仁3徐宁4BohyungHan51POSTECH2字节跳动AI实验室3Wormpex AI研究4亚马逊Go5首尔国立大学1jonghwan. postech.ac.kr2linjie. bytedance.com3zhou.ren邮件bianlifeng.com4 5ninxu@amazon.combhhan@snu.ac.kr摘要时间密集的视频字幕是一项极具挑战性的任务，因为准确和连贯的描述视频中的事件需要整体理解的视频内容以及上下文推理的个别事件。现有的大多数AP-1剧集：街头表演34处理这个问题的方法是首先检测事件的发生，从视频中截取，然后在提案的一个子集上加上字幕。因此，生成的句子往往是冗余的或不一致的，因为它们没有考虑事件之间的时间依赖性。为了解决这一挑战，我们提出了一种新的密集视频字幕框架，该框架明确地对视频中事件的时间依赖性进行建模，并利用先前事件的视觉和语言这一目标是通过以下方式实现的：1）集成事件序列生成网络以自适应地选择事件提议序列，以及2）将事件提议序列馈送到我们的序列视频字幕网络，该网络通过具有两级奖励的再增强学习来训练-在事件和情节级别-以更好地进行上下文建模。在大多数指标上，该方法在ActivityNet Captions数据集上取得了优异的性能1. 介绍理解视频内容是计算机视觉中的一个重要课题。通过引入大规模数据集[9，31]和深度学习技术的最新进展，对视频内容理解的研究不再限于活动分类或检测，而是解决更复杂的任务，包括视频字幕生成[1，4，13，14，15，22，23，26，28，30，33，35，36]。视频字幕对于整体视频描述是有效的。然而，由于视频通常在视频级故事的上下文中包含多个相互依赖的事件（即，一个句子可能不足以描述视频。因此，密集视频字幕任务[8]具有这项工作是在Snap Research的实习计划期间完成老人1：一个老人正在给一个老人家打一场戏广告2：一个女人走到舞台上，向年长的男人简要地说几句话女孩3：我们还没有和钢琴家一起唱歌演员4：即使是最年长的一个，她也在玩耍，拥抱那个女人，观众鼓掌图1. 一个关于街头表演的密集视频字幕的例子事件，由四个相互依存的事件组成。最近才被引进并越来越受欢迎。这个任务在概念上比简单的视频字幕更复杂，因为它需要检测视频中的各个事件并理解它们的上下文。图1呈现了街头表演插曲的密集视频字幕的示例，其由四个有序事件组成尽管问题复杂，但大多数现有方法[8，10，27，37]仅限于使用两个子任务（事件检测和事件预防）来描述事件，其中事件提议网络负责检测事件，而字幕网络独立地为所选提议生成字幕。我们提出了一个新的框架密集的视频字幕，ING，它认为时间依赖的事件。与图中所示的现有方法相反。图2（a）中，我们的算法从视频中检测事件序列并顺序地生成字幕，其中每个字幕以先前事件和字幕为条件，如图2所示。第2段（b）分段。我们的出租车有以下程序。首先，给定一个视频，我们从事件提案网络中获得一组候选事件提案。然后，事件序列生成网络从事件建议候选中自适应地选择一系列有序事件。最后，我们使用顺序字幕网络为选定的事件提案生成字幕通过使用事件和情节级别奖励的强化学习来训练字幕网络;65882658912341234(a) 常规方法123→ → →��4事件序列检测1234(b) 我们的方法句子和视频的联合嵌入空间[14]，递归编码器[1，13]，属性增强解码器[4，15，36]，多模式存储器[28]和反射损失[26]。尽管它们的表现令人印象深刻，但它们仅限于使用单个句子描述视频，并且只能应用于包含单个事件的短视频因此，Yuet al. [35]提出了一个分层递归神经网络来生成一个长视频的段落，而Xionget al. [30]介绍了一种基于事件建议段落生成方法，图2.现有方法与我们的方法的比较用于密集视频字幕。我们的算法生成字幕的事件顺序的条件下，通过检测视频中的事件序列。事件级奖励允许精确地捕捉每个事件中的特定内容，而剧集级奖励驱动所有生成的字幕以制作连贯的故事。拟议办法的主要贡献概述如下：我们提出了一个新的框架检测事件序列密集视频字幕。所提出的事件序列生成网络允许字幕网络对事件之间的时间依赖性进行建模，并生成一组连贯的字幕来描述视频中的情节。我们提出了具有两级奖励的强化学习，情节和事件级别，这驱动了字幕模型，以提高生成的字幕之间的一致性和每个事件的描述质量。与基于现有框架的方法相比，该算法在ActivityNet Captions数据集上实现了最先进的性能。本文的其余部分组织如下。我们首先讨论我们在第2节中工作的相关工作。第3节和第4节分别详细描述了所提出的方法及其训练方案我们在第5节中给出了实验结果，并在第6节中总结了本文。2. 相关工作2.1. 视频字幕最近的视频字幕技术通常包含受图像字幕成功启发的编码器-解码器框架[11，16，17，25，32]。基本算法[22，23]使用卷积神经网络（CNN）或递归神经网络（RNN）对视频进行编码，并使用RNN将表示解码为自然句子然后提出了各种技术，通过整合时间注意力来提高生成字幕的质量[33]，模块确定哪些提议需要以渐进的方式用于字幕生成。与这些任务相反，这些任务只是为输入视频生成一个句子或段落，密集视频字幕需要同时定位和描述事件。2.2. 密集视频字幕最近的密集视频字幕技术通常尝试使用两个子任务-事件检测和字幕生成来解决这个问题[8，10，27，37];事件保护网络找到一组候选提案，并且采用字幕网络来独立地为每个提案生成字幕。该方法的性能受到手动阈值策略的影响，以选择用于字幕生成的最终事件提案。基于该框架，Krishnaet al.[8]采用多尺度行动建议网络[3]，并引入一个字幕网络，利用来自过去和未来事件的视觉上下文，并带有注意力机制。在[27]中，采用双向RNN来提高事件提案的质量，并提出了字幕生成中的上下文门控机制，以自适应地控制周围事件的贡献。Li等[10]结合时间坐标和相关性回归，以精确定位事件建议，并采用属性增强字幕网络[34]。Rennie等人[37]利用事件建议和字幕网络的自注意力[20]，并提出一个掩码网络，用于将事件建议转换为可区分的掩码，以及两个网络的端到端学习。与先前的工作相比，我们的算法识别出一小组代表性事件建议（即，事件序列）来生成连续的字幕，这使得我们能够通过利用所选事件的视觉和语言上下文来生成连贯和全面的字幕。请注意，现有的作品未能利用语言背景，因为字幕网络被独立地应用于事件提案3. 我们的框架本节详细描述了我们的主要思想和算法的深度事件检测···6590D{}∈P123图3.提出了算法的总体框架给定一个输入视频，我们的算法首先使用事件建议网络（第3.2节）提取一组候选事件建议（p1，p2，p3，p4，p5）。从候选集合中，事件序列生成网络通过从候选事件建议中选择一个来检测事件序列（e1→e2→e3）（第3.3节）。最后，顺序字幕网络获取检测到的事件序列，并以先前的事件为条件顺序地生成字幕（d，d，d（第3.4节）。这三个模型以监督的方式进行训练（第4.1节），然后优化顺序字幕网络此外，使用两级奖励的强化学习（第4.2节）。3.1. 概述假设视频V包含事件集合E ={e1，. . . ，eN}，具有对应的描述=d1，. . . .，dN，其中N个事件使用它们的起始和结束时间戳。现有方法[8，10，27，37]通常将整个问题分为两个步骤：事件检测之后是对检测到的事件的描述。这些算法通过最小化事件和字幕对的负对数似然之和来训练模型，如下所示：ΣN事件提议由事件提议网络生成然后，我们的事件序列生成网络通过顺序地选择候选事件提议之一来提供一最后，我们使用提议的顺序字幕网络从选定的提案中生成字幕，其中每个字幕都是根据先前的提案及其字幕生成的。字幕网络通过使用事件和情节级别奖励的强化学习进行训练。3.2. 活动建议网络（EPN）=n=1ΣN=n=1— logp（dn，en|（五）— log p（en|V）p（dn|en，V）。（一）EPN在选择事件候选人方面起着关键作用。我们采用单流时间动作建议（SST）[2]，因为它在通过单次扫描找到语义有意义的时间区域方面具有良好的然而，视频中的事件具有时间依赖性，并且应该是关于单个主题的故事。因此，识别事件的有序列表以描述与事件的组成相对应的连贯故事是至关重要的。考虑到这一点，我们将密集视频字幕表示为检测事件序列，然后按顺序生成字幕，如下所示：L= − log p（E，D|（五）YN的视频。SST将输入视频划分为一组具有固定长度的非重叠段（例如，16帧），其中每个片段的表示由3D卷积（C3D）网络给出[19]。通过将每个片段视为事件提议的结束点，SST从k个先前片段中识别其匹配的起始点，所述k个先前片段由来自每个时间步长处的门控递归单元（GRU）的k维输出向量表示在提取前1，000个事件提案后，我们获得Mcandi-日期建议，P ={p1，. . . ，pM}，通过消除高度=− log p（E|（五）n=1p（dn|d1，. . . ，dn−1，E，V）.（二）使用非最大抑制的重叠的。注意该EPN提供每个提议p的表示，其是在开始处的两个隐藏状态的级联向量我们提出的算法的总体框架在图中示出。3.第三章。对于给定的视频，一组候选SST中的结束和结束段这个可视化表示，用Vis（p）表示，用于其他两个网络。pp2p3p4p51�P于我� �（p2）�P于我��（p3）�P于我��（第5地面实况字幕事件评估器指针网络（PtrNet）端�P�P�Pp5p3p2�系1 2 �系�系3�系4p结束p1 p2 p3p4 p5�P于我��P于我��P于我��视觉定位视觉�P于我��P于我��P于我��活动建议网络事件序列生成网络顺序字幕网络010��C3dGRUC3dGRUC3dGRUC3dGRUC3dGRURNN编码RNN编码RNN编码RNN编码RNN编码RNNptrRNNptrRNNptrRNNptrRNNεRNNeRNNεRNNeRNNεRNNe事件评估员L6591PE{} ≤0不不≥tt−13.3. 事件序列生成网络给定一组候选事件提案，ESGN选择一系列高度相关的事件，并组成视频的一集为此，我们采用了指针网络（PtrNet）[24]，该网络旨在通过采用注意力模块使用递归神经网络在输入集上产生PtrNet非常适合选择建议的有序子集，并考虑其时间依赖性生成连贯的如图3，我们首先编码一组候选提案，通过将提案以其开始时间的递增顺序馈送到编码器RNN，并使用编码表示初始化PtrNet的第一个隐藏状态以指导提案选择。在PtrNet中的每个时间步，我们3.4. 顺序字幕网络（SCN）SCN采用分层递归神经网络，根据检测到的事件序列生成连贯的字幕。序列n=en1，. . . ，eNs ，其中Ns（M）是数字选定的事件。如图3、SCN由两个RNN--事件RNN和事件RNN--分别由RNNE和RNNe表示。情节RNN在检测到的事件序列中逐个接受建议，并隐式地对情节的状态进行建模，而事件RNN为每个事件提议顺序地生成字幕中的单词，条件是该事件的隐式表示，即，根据当前事件的背景。形式上，用于检测到的事件序列中的第t个事件提议事件的字幕生成过程由下式给出：计算候选事件提议上的似然性然后从所有提案中选出可能性最大的一rt=RNNE （V）（e），gt−1，rt−1），（7）可用的提案。重复该过程，直到PtrNet碰巧选择END事件建议pend，这是指示事件序列结束的特殊建议。整个过程总结如下：hptr= RNN enc（Vis （p1），. . . ，Vis（pM）），（ 3）hptr=RNNpt r（u（e≤t−1），hptr），（ 4）at= ATT （hptr，u（p0），. . . ，u（pM）），（5）其中，hptr是PtrNet中的隐藏状态，ATT（）是计算建议上的置信度分数的注意力函数，并且PtrNet中的建议p的表示u（p）=[Loc（p）; Vis（p）]由视觉信息Vis（p）以及位置信息Loc（p）给出。此外，e_t是在时间步t处的选择的事件提议，其由下式给出：et=pj和j=argmaxaj，（6）j∈{0，.，M}其中p0对应于pend。注意，位置特征Loc（p）是二进制掩码向量，其中对应于事件的时间间隔的元素被设置为1，否则被设置为0。这有助于识别和忽略与先前选择严重重叠的建议。我们的ESGN对于密集视频字幕有明显的优势具体来说，它自适应地确定事件的数量和顺序，这有利于紧凑，全面和上下文感知的字幕生成。值得注意的是，在现有方法中存在太多检测到的事件（例如，50）由手动阈值给出。相反，ESGN平均仅检测到2.85个事件，这与ActivityNet Caption数据集中每个视频的平均事件数3.65相当。尽管对事件提议进行排序是一个定义不清的问题，但由于它们的两个时间戳（起点和终点），ESGN自然地以数据驱动的方式基于单个视频中的语义和上下文来学习提议的数量和6592e∗gt=RNN（C3D（et），Vis（et），rt），（8）其中rt是来自第t个事件提议的情节特征，并且gt是由展开的事件RNN的最后隐藏状态给出的生成的字幕特征。C3D（e_t）表示位于第t个事件提议的时间间隔中的所有段的C3D特征的集合情节RNN提供当前情节特征，使得事件RNN生成上下文感知的字幕，该字幕被返回给情节RNN。虽然这两个网络在概念上都可以用任何RNN实现，但我们采用具有512维隐藏状态的单层长短期记忆（LSTM）作为情节RNN，并采用[27]中提出的具有时间动态注意力和上下文门控（TDA-CG）的字幕网络作为事件RNN。TDA-CG从通过选通视觉特征Vis（e）计算的特征生成以及从分段特征提取获得的关注特征。scriptors C3D（e）.请注意，顺序字幕生成方案en-能够利用视觉上下文（即，其他事件看起来如何）和语言语境（即，如何描述其他事件），并允许我们在明确的上下文中生成标题尽管现有方法[8，27]也利用上下文来生成字幕，但由于独立字幕生成方案的架构约束，它们仅限于视觉上下文和没有语言依赖性的模型，这将导致不一致和冗余的字幕生成。4. 培训我们首先学习事件建议网络，并在其他两个网络的训练过程中固定其参数。我们以监督的方式训练事件序列生成网络和序列字幕网络，并进一步优化基于强化学习的字幕网络，具有两个级别的奖励-事件和情节级别。6593不不ˆ不RLˆP {}nnn··EDE{}D{}E4.1. 监督学习事件建议网络设ck为EPN中时间步t处第k个用yk来表示pro-proposal的地面实况标签，如果事件提议具有大于0.5的地面实况事件的时间交并（tIoU），则将其设置为1，否则设置为0。然后，对于给定的视频V和地面实况标签y，我们通过迷你训练EPN。4.2. 强化学习受图像字幕任务成功的启发[16，17]，我们进一步采用强化学习来优化SCN。虽然类似于自我批评序列训练[17]方法，但我们的字幕网络学习目标被修改为最小化样本字幕的负面预期奖励损失的形式是最大化以下加权二进制交叉熵损失：LEPN（V， Y）=RLSCN （V，E，D）=−ΣNsEDnn=1ΣΣR（dn）、（十二）Tc其中D={d1，. . . ，dNS}是一组采样描述-yklogck+（1 −yk）log（1 −ck），（9）根据检测到的事件序列E，其中N个事件来自t t t t t tt=1k=1其中Y={yk|1≤t≤Tc，1≤k≤K}，K是在末尾包含每个段的建议的数量，Tc是SESGN，R（d）是单个样本描述d的奖励值。然后，样本集D上的期望梯度由下式给出：视频中的片段数量事件序列生成网络对于具有地面实况事件序列E={e1，. . . ，eN}和一组公司简介（V，E，D）=−ΣNsEDnn=1ΣNsΣ ΣR（dn）logp（dn）候选事件提议=p1，. . .，p，M，ESGN的目标是选择与n=1R（dn）logp（dn）.（十三）地面实况事件e，其通过最小化以下二进制交叉熵损失之和来实现：我们采用了两个层次的奖励函数：情节和事件水平。这鼓励模型生成连贯的ΣNLESGN（V， P，E）=−ΣMtIoU（pm，en）logam（十）通过反映视频的整体背景，同时促进在描述中选择更好的候选词n=1 m=1+（1−tIoU（pm，en））log（1−am），其中，tIoU（，）是两个提议之间的时间交并值，并且m是第m个事件提议被选择为第n个事件的可能性顺序字幕网络我们利用地面实况事件序列及其描述通过教师强制技术学习我们的SCN [29]。具体来说，为了在SCN中学习两个RNN，我们分别为情节RNN和事件RNN提供地面实况事件和字幕作为输入。然后，通过最小化地面实况字幕的单词上的负对数似然来训练字幕网络，如下所示：根据上下文来分析单个事件。另外，莫-在[6，16，17]的激励下，我们使用从使用地面实况建议生成的字幕中获得的奖励作为基线，这有助于减少梯度估计的方差这促使模型生成至少与地面实况提议生成的字幕一样具有竞争力的字幕，尽管事件提议的间隔与地面实况提议的间隔不具体地说，对于一个采样事件序列，我们发现一个参考-事件序列E1=E1，E2=E2，E3=E3，E4=E3，E3=E3。 . . ，eNs及其描述=d . . ，dNs ，其中参考事件E由下式给出：其中一个地面实况建议与最高的重叠率与采样事件的估计。然后，第n个采样的描述d_n由下式给出：R（dn）=（14）Σ陈文Σ Σ Σˇ˜ ˆ ˜ˇ˜LSCN（V， E，D）= −n=1logp（dn|en）（11）f（dn，dn）−f（dn，dn）+f（D，D）−f（D，D），ΣN Tdn其中f（·，·）返回两个上限之间的相似性分数=−log p（wt|w1，. . . ，wt−1，e），或者两组字幕，并且D={d1，. . . ，dNs}de-n=1 t=1无无无无无无无注意从参考事件序列生成的描述两项在Eq. (14)鼓励我L≈ −6594n·们的模型-其中p（）表示来自事件RNN的词向量上的预测分布，并且wt和Tdn表示第t个地面实况词和第n个事件的地面实况描述的长度。增加其分数高于从地面实况事件提议生成的字幕的结果的采样描述的概率注意，第一项和第二项是在当前事件和情节上计算的6595·表1. 事件检测性能，包括在ActivityNet Captions验证集上的联合时间交集（@tIoU）的四个阈值下的召回率和精度。粗体数字表示每个指标的最佳性能。方法@0.3召回（@tIoU）@0.5@0.7@0.9平均@0.3精密度（@tIoU）@0.5@0.7@0.9平均MFT [30]46.1829.7615.545.7724.3186.3468.7938.3012.1951.41ESGN（我们的）93.4176.4042.4010.1055.5896.7177.7344.8410.9957.57表2. 密集的视频字幕结果，包括Bleu@N（B@N），CIDER（C）和METEOR（M），用于我们的模型和ActivityNet Captions验证集上的其他最先进的方法。我们报告从地面实况（GT）的建议和学习的建议获得的性能。星号（Asterisk）代表使用较新的评估工具重新评估的方法，星号（Star）表示利用其他模式（例如，光流和属性）用于视频表示。粗体数字表示每个指标的最佳方法B@1B@2与GTB@3建议B@4CMB@1关于LearnB@2 B@3建议B@4 CM[8]18.138.434.091.6025.128.8810.814.571.900.7112.435.69DVC [10]19.579.904.551.6225.2410.3312.225.722.270.7312.616.93[37]第37话23.9312.165.762.7147.7111.169.964.812.421.159.254.98TDA-CG [27]-----10.8910.755.062.551.317.995.86MFT [30]------13.316.132.821.2421.007.08SDVC（我们的）28.0212.054.411.2843.4813.0717.927.992.940.9330.688.82分别我们使用两个著名的字幕度量ME-TEOR和CIDE r来定义f（·，·）.5. 实验5.1. 数据集我们在ActivityNet Captions数据集[8]上评估了所提出的算法，该数据集包含平均长度为120秒的20kYouTube视频。该数据集包括10，024、4，926和5，044个视频，分别用于训练、验证和测试。这些视频平均有3.65个快速定位的事件和描述，其中描述的平均长度为13.48个单词。5.2. 度量我们使用2018年ActivityNet字幕挑战赛提供的性能评估工具1，该工具衡量本地化和描述事件的能力2。为了评估，我们测量了事件提议检测的召回率和精确率，以及密集视频字幕的 METEOR 、 CIDER 和BLEU。指标的得分通过基于tIoU阈值0的平均值进行汇总。3，0。5，0。7和0。9个给出了确定的建议并生成了标题。我们使用METEOR作为比较的主要指标，因为当只有少量参考描述可用时，它与人类判断的相关性比其他人更高[21]。1https://github.com/ranjaykrishna/densevid_eval2 2017年2月11日，官方评估工具修复了一个关键问题;对每个视频的多个不正确预测中只有一个被计数。这导致性能高估[27，37]。因此，我们收到了作者的原始结果，并报告了新指标测量的分数表3. ActivityNet Captions评估服务器上的结果。音频流视觉合奏流星RUC+CMU√√√√√√√√是的8.53YH Technologies没有8.13山东大学是的8.11SDVC（我们的）没有8.195.3. 实现细节对于EPN，我们使用具有512维隐藏状态的两层GRU，并在每个结束段生成128个建议，这使得等式中的Ct（九）128.在我们的实现中，基于SST的EPN将用于训练的整个视频跨度作为网络的输入，这使得网络能够考虑所有地面实况propos- als，而原始SST [2]是用滑动窗口方法给出的密集采样剪辑进行训练的。对于ESGN，我们分别采用单层GRU和单层LSTM作为EncoderRNN和RNNptr，其中隐藏状态的维度都是512。我们用一个100维的向量表示建议的位置特征，用Loc（）当使用强化学习学习SGN时，我们为每个视频采样100个事件序列在所有实验中，我们使用Adam[7]来学习具有mini-batch size 1视频和学习率0.0005的模型5.4. 与其他方法我们将提出的流线型密集视频字幕（SDVC）算法与几种现有的最先进的方法进行比较，包括DCE [8]、DVC [10]、掩蔽Transformer [37]和TDA-CG [27]。我们还报告6596表4.Activ- ityNet Captions验证集上四个tIoU阈值（0.3、0.5、0.7和0.9）的平均召回率、精确率和METEOR的消融结果我们还提出了平均提案数粗体数字表示最佳性能。方法提案EPN模块ESGN字幕模块eventRNN episodeRNNRL数量建议召回精度流星EPN-Ind√√√√77.9984.9728.104.58ESGN-IndESGN-SCNESGN-SCN-RL（SDVC）√√√√√√√2.852.852.8555.5855.5855.5857.5757.5757.576.736.928.82MFT [30]的结果，其最初被提议用于视频段落生成，但是其事件选择模块也能够从候选事件提议生成事件序列;它在选择用于字幕生成的每个建议和跳过它之间进行选择，并且隐式地构造事件序列。对于MFT，我们比较了事件检测和密集字幕的表1显示了ESGN和MFT在ActivityNet Captions验证集中的事件检测性能。ESGN在大多数具有较大裕度的tIoU上的性能优于MFT中的渐进式事件选择模块，特别是在重新调用时。这证实了我们所提议的活动序列选择算法表2说明了密集视频字幕算法的性能评估ActivityNet字幕验证集。我们用真实的建议和学习的建议来衡量分数，其中各个算法中预测的建议的数量可能不同;DCE、DVC、Masked Transformer和TDA-CG使用1，000、1，000，平均提案数分别为226.78和97.61，而SDVC的平均提案数仅为2.85。根据表2，与所有其他方法相比，SDVC显著提高了盖的质量。Masked Transformer实现了与我们的使用地面实况建议相当的性能，但不能很好地与学习建议一起工作。请注意，除了视觉特征之外，它还使用光流特征，而SDVC仅在视觉特征上进行训练。由于来自光流特征的运动信息始终提高了其他视频理解任务的性能[12，18]，因此将运动信息纳入我们的模型可能会导致额外的性能增益。MFT在现有方法中具有最高的METEOR分数，这部分是因为MFT考虑了字幕之间的时间依赖性。表3显示了来自评估服务器的测试拆分结果。SDVC仅基于基本的视觉特征实现有竞争力的性能，而其它方法利用附加的模态（例如，音频和光流）来表示视频和/或集合模型以提高精度，如[5]中所述。5.5. 消融研究我们在ActivityNet Captions验证集上进行了几项消融研究，以调查指标的贡献。表5.在ActivityNet Captions数据集上进行的不同奖励水平的再学习性能比较。事件级奖励√√剧集级别奖励√√流星8.738.298.82我们的算法中的vidual组件。在这个实验中，我们训练了模型的以下四个变体：1）EPN-Ind：独立于所有候选事件提议生成字幕，这是类似于大多数示例框架的基线，2）ESGN-Ind：仅根据由我们的ESGN识别的事件序列内的事件使用eventRNN独立地生成字幕，3）ESGN-SCN：根据检测到的事件序列使用我们的分层RNN顺序地生成字幕，以及4）ESGN-SCN-RL：我们的ESGN-SCN-RL。完整模型（SDVC），使用强化学习进一步优化字幕网络。表4总结了该消融研究的结果，我们有以下观察结果。首先，基于ESGN（ESGN-Ind）的方法比简单地依赖于所有事件提议（EPN-Ind）的基线更有效此外，ESGN显著地减少了候选提议的数量，平均从77.99减少到2.85，METEOR得分显著第二，通过层次化的结构（即，事件RNN+情节RNN）与不考虑上下文的独立字幕生成方法（ESGN-Ind）相比增强了性能最后，ESGN-SCN-RL成功集成强化学习，有效提高生成字幕的质量。我们还分析了用于强化学习的两个奖励水平-事件和情节-的影响结果如表5所示，它清楚地表明了两个级别的奖励培训的有效性。5.6. 定性结果图4示出了定性结果，其中检测到的事件序列和生成的字幕被一起呈现。我们将我们的模型（SDVC）生成的标题与模型（ESGN-Ind）生成的标题进行比较，SDVC依次生成标题，ESGN-Ind生成的标题独立于模型（ESGN-Ind）。6597时间广告1：两个人是如何在pl ay ingrac ke tball l第二步：他们拿着一个袋子，男人们从地上的球上爬起来。第3章：他的另一个背景被打破了，开始播放一个节目一个男人在一个房间里站着，一个男人在房间里走来走去，ESGN-IndSDVC广告2：他将在比赛中扮演角色，并在球上做广告。主持人3：他的男朋友可以在房间里玩角色扮演，第一名：两个人在球场上打篮球问题2：这是一个令人遗憾的问题他们不能玩游戏时间广告1：一个人看到的是一个让他进入一个GYM的每个角色的角色的角色。通用流程图2：在计算机流量被关闭的情况下，在一个计算机上查看多个操作第三节：在体育馆里飞来飞去的人都是为了找机会数据库1：一个人在一个蓝色的机器上做了一个简单的尝试ESGN-IndSDVC广告2：Amanisdoin ggymnas ti csonabe am第3章：我的天啊，我的天啊广告1：一个人似乎在寻找一个机会，同时也在寻找机会第二步：机器人跳到机器人上，然后从机器人上跳下来问题3：由于这种情况，无法通过简单的操作来完成所有的检查和检查图4. ActivityNet Captions数据集上的定性结果。箭头表示地面实况事件（红色）和来自输入视频的事件序列生成网络（蓝色）的预测事件序列中的请注意，事件序列中的事件是按照其索引的顺序选择的。对于预测的事件，我们显示了独立生成的标题（ESGN-Ind）和顺序生成的标题（SDVC）。通过我们的顺序字幕网络可以获得更一致的字幕，其中用于比较的单词用黑体标记与检测到的事件序列不同请注意，所提出的ESGN有效地识别输入视频的事件序列，并且我们的顺序字幕生成策略有助于通过利用视觉和语言上下文来更连贯地描述事件例如，在图1的4、SDVC捕捉语言语境（e1中的“两个人”在e2和e3中都由“他们”表示）以及事件之间的时间依赖性（e3中的“继续”的表达），而ESGN-Ind只是将e2和e3识别和描述为独立发生的6. 结论我们提出了一个新的密集视频字幕框架，它考虑了视觉和语言背景，通过明确地对视频中事件的时间依赖性进行建模来生成连贯的字幕。具体地说，我们引入了事件序列生成网络来自适应地检测一系列事件提案。给定检测到的事件序列，通过在我们的顺序字幕网络中对先前事件进行条件化来生成字幕序列我们以监督的方式训练字幕网络，同时通过强化学习进一步优化，并使用两级奖励来更好地进行上下文建模。我们的算法在METEOR方面在ActivityNet Captions数据集上实现了最先进的准确性。致谢这项工作得到了Snap Inc.的部分支持，MSIP/IITP资助的韩国ICT研发项目[2016-0-00563，2017-0-01780]和SNUASRI。1223地面实况预测131Predi cted 第1223地面实况36598引用[1] 洛伦佐·巴拉尔迪，科斯坦蒂诺·格拉纳，丽塔·库奇亚拉。用于视频字幕的分层边界感知神经在CVPR，2017年。[2] Shyamal Buch、Victor Escorcia、Chuanqi Shen、Bernard Ghanem和Juan Carlos Niebles。SST：单流临时行动建议。在CVPR，2017年。[3] Victor Escorcia ， Fabian Caba Heilbron ， JuanCarlos Niebles 和 Bernard Ghanem 。 DAPs： DeepAction Proposals for Action Understanding行动理解的深度行动建议。在ECCV，2016年。[4] Zhe Gan，Chuang Gan，Xiaodong He，YunchenPu ， Kenneth Tran ， Jianfeng Gao ， LawrenceCarin，and Li Deng.视觉字幕的语义组合网络。在CVPR，2017年。[5] Bernard Ghanem ， Juan Carlos Niebles ， CeesSnoek，Fabian Caba Heilbron，Humam Alwassel，维克多·埃斯科西亚、兰杰·克里斯纳、夏马尔·布赫和崔德道。ActivityNet大规模活动识别挑战2018 总结。 arXiv 预印本 arXiv ： 1808.03766 ，2018。[6] Jiuxiang Gu ， Jianfei Cai ， Gang Wang ， andTsuhan Chen.堆栈标题：图像字幕的粗到精学习。在AAAI，2018。[7] Diederik P Kingma和Jimmy Ba。亚当：一种随机优化方法。2015年，国际会议[8] Ranjay Krishna 、 Kenji Hata 、 Frederic Ren 、 LiFei-Fei和Juan Carlos Niebles。视频中的密集字幕事件。InICCV，2017.[9] Yuncheng Li，Yale Song ，Liangliang Cao ，JoelTehrult，Larry Goldberg，Alejandro Jaimes，andJiebo Luo. TGIF：一个新的GIF动画描述数据集和基准。在CVPR，2016年。[10] Yehao Li ， Ting Yao ， Yingwei Pan ， HongyangChao，and Tao Mei.联合定位和描述密集视频字幕的事件。在CVPR，2018年。[11] Jonghwan Mun，Minsu Cho，and Bohyung Han.图像字幕的文本引导注意模型。InAAAI，2017.[12] Nguyen ， Ting Liu ， Gautam Prasad ， and Bo-hyung Han.基于稀疏时间池网络的弱监督动作定位。在CVPR，2018年。[13] Pingbo Pan，Zhongwen Xu，Yi Yang，Fei Wu，and Yueting Zhuang.用于视频表示的分层递归神经编码器及其在字幕中的应用。在CVPR，2016年。[14] Yingwei Pan，Tao Mei，Ting Yao，Houqiang Li，and Yong Rui.联合建模、嵌入和翻译，架起视频和语言的桥梁。在CVPR，2016年。6599[15] Yingwei Pan，Ting Yao，Houqiang Li，and TaoMei. 具有转移语义属性的视频字幕在CVPR，2017年。[16] Zhou Ren ，Xiaoyu Wang ，Ning Zhang ， XutaoLv，and Li-Jia Li.基于深度强化学习的嵌入奖励图像字幕。在CVPR，2017年。[17] Steven J Rennie 、 Etienne Marcheret 、 YoussefMroueh、Jarret Ross和Vaibhava Goel。图像字幕的自我批判序列训练。在CVPR，2017年。[18] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别在NIPS，2014。[19] Du Tran ， Lubomir Bourdev ， Rob Fergus ，Lorenzo Tor- resani，and Manohar Paluri.使用3D卷积网络学习时空特征。在ICCV，2015年。[20] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Vukasz Kaiser和Illia Polosukhin。注意力就是你所需要的。在NIPS，2017年。[21] Ramakrishna Vedantam，C Lawrence Zitnick，andDevi Parikh. CIDER：基于图像描述的评估。CVPR，2015。[22] Subhashini Venugopalan 、 Marcus Rohrbach 、Jeffrey Donahue 、 Raymond Mooney 、 TrevorDarrell和Kate Saenko 。序列到序列-视频到文本。在ICCV，2015年。[23] Subhashini Venugopalan，Huijuan Xu，Jeff Don-ahue，Marcus Rohrbach，Raymond Mooney，andKate Saenko.使用深度递归神经网络将

下载后可阅读完整内容，剩余1页未读，立即下载