端到端密集视频字幕的并行解码

139 浏览量更新于2023-10-13 收藏 825KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6847并行解码的端到端密集视频字幕王腾1、2、张瑞茂3、4、卢志超2、郑峰2 *、程冉2、罗平11香港大学2南方科技大学3香港中文大学（深圳）4深圳大数据研究院tengwang@connect.hku.hkieee.orgpluo@cs.hku.hkranchengcn@gmail.comieee.orgluzhichaocn@gmail.com摘要密集视频字幕旨在从视频中生成多个与其时间位置相关联的字幕。以前的方法遵循复杂的在本文中，我们提出了一个简单而有效的框架，端到端的密集视频字幕并行解码（PDVC），制定密集字幕生成作为一组预测任务。在实践中，通过在Transformer解码器的顶部堆叠新提出的事件计数器，PDVC精确地将视频分割成holis下的多个事件片段视频特征字幕两阶段法段PDVC字幕视频内容的动态理解，这有效地增加了预测字幕的连贯性和可读性与现有技术相比，PDVC具有几个吸引人的优点：（1）不依赖于启发式非最大值抑制或递归事件序列选择网络来去除冗余，PDVC直接产生具有适当大小的事件集;（2）与采用两阶段方案不同，我们将增强的事件查询表示并行地馈送到定位头和标题头中，通过优化使这两个子任务紧密相关，相互促进;（3）在ActivityNet Captions和YouCook 2上进行的大量实验表明，PDVC能够产生高质量的字幕结果，当其本地化准确性与最先进的两阶段方法相当时，超过了它们。代码可在https://github.com/ttengwang/PDVC上获得。1. 介绍作为视频理解的一个新兴分支，视频字幕近年来受到越来越多的关注[2，12，13，21，32，10，15，19，20]，其目的是生成一个自然的句子来描述一个主要事件。* 通讯作者图1：事实上的两级流水线与建议的PDVC。两阶段的PDVC采用视觉Transformer来学习不同帧的意图交互，其中嵌入可学习的事件查询以捕获帧与事件之间的相关性两个预测头在查询功能上并行运行，利用两个任务之间的相互利益，并一起提高它们的性能一个短片然而，由于真实视频通常是长的、未修剪的，并且由具有不相关背景内容的各种事件组成，因此上述单句字幕方法倾向于生成具有较少信息的平淡句子为了避免上述困境，密集视频字幕（DVC）[5，7，25，29，37]被开发用于自动定位和字幕视频中的多个事件，这可以揭示详细的视觉内容并生成连贯和完整的描述。直观地，密集视频字幕可以分为两个子任务，称为事件定位和事件字幕- ING。如图1、以往的方法通常通过两阶段的“定位-描述”流水线来解决这个问题。它首先预测一组具有精确边界的事件建议。通过提取细粒度的语义线索提案发生器特征编码器本地化字幕头头视频特征编码器事件查询解码器选择建议字幕发生器方案选择(e.g. ESGN、NMS）Transformer6848和视觉上下文，最后由字幕生成器对详细的句子描述进行解码上述方案是简单的，但存在以下问题：1）通过将字幕视为下游任务，这种方案的性能高度依赖于所生成的事件提议的质量，这限制了这两个子任务的相互促进。2)先前方法中的提议生成器的性能取决于仔细的锚设计[5，31，7，24，9，34]和提议选择后处理（例如，非最大抑制[5，31，7，24，9，34]）。这些手工制作的组件引入了高度依赖于手动阈值策略的附加超参数，阻碍了向完全端到端字幕生成的进展。为了解决上述问题，本文提出了一个纯端到端的密集视频字幕框架与并行解码称为PDVC。如图1，而不是调用两阶段方案，我们直接将用于建议生成的中间表示馈送到与本地化头部平行的字幕头部中。通过这样做，PDVC旨在直接利用特征级的任务间关联。中间特征向量和目标事件可以以一对一的对应进行匹配，使得特征表示对于识别特定事件更具区分性。在实践中，我们认为密集的视频字幕任务作为一个集预测问题。所提出的PDVC通过应用两个并行的预测头，即，定位头和字幕头。由于事件集的适当大小是密集字幕质量的重要指标[9，48]，因此新提出的事件计数器也堆叠在Transformer解码器的顶部，以进一步预测最终事件的数量。通过引入这样一个简单的模块，PDVC可以在对视频内容整体理解的情况下，将视频精确地分割成若干个事件片段，避免了由于事件数目估计不可靠而导致的信息丢失和重复字幕的产生。我们在两个大规模的视频基准点上评估我们的模型，ActivityNet Captions和YouCook2。即使使用轻量级标题头（vanilla LSTM），我们的方法也可以实现与采用精心设计的基于注意力的 LSTM [24 ， 34] 或Transformer [31]的最先进方法相当的性能。此外，我们定量和定性地表明，所产生的propos- als增益受益于并行解码设计。即使在弱监督设置（没有位置注释），我们表明我们的模型可以隐式地从字幕中学习位置概括起来，本文的主要贡献有三个方面。1)我们提出了一种新的端到端密集视频通过将DVC公式化为并行集合预测任务，显著简化了高度依赖于手工制作组件的传统流水线，开发了名为PDVC的字幕框架。2)我们进一步改进PDVC与一个新的事件计数器来估计在视频中的事件的数量，大大增加了可读性生成的字幕，避免不切实际的事件数量估计。3）在ActivityNet Captions和YouCook2上进行的扩展实验显示了现有方法的最新性能。2. 相关工作临时事件提案。时间事件提议（TEP），也称为时间动作提议，旨在预测包含未修剪视频中的事件实例的时间片段。主流方法可分为两类：基于锚点和基于边界。基于锚点的方法[51，49，56，47]以不同的尺度以规则的间隔预先定义大量的锚点然而，预定义的尺度和间隔不能覆盖所有的时间模式，特别是在具有可变时间尺度的视频基于边界的方法[59，55，54，53]将具有高置信度的突出帧结合起来，以局部到全局的方式形成建议。两种类型的方法都包含手工设计（例如，NMS和基于规则的标签分配），这需要仔细的手动阈值选择，并且不是严格的端到端方法。密集的视频字幕。密集视频字幕是一个结合事件定位和事件字幕的多任务问题。Krishna等人[5]提出了第一个密集视频字幕模型，包含用于定位的多尺度建议模块和用于上下文感知字幕生成的基于注意力的LSTM。以下一些工作旨在通过上下文建模[24，28]、事件级关系[34]或多模态特征融合[35，36]来丰富事件表示，从而实现更准确和信息化的字幕生成。上述方法的限制之一是本地化模块不能受益于字幕模块。一些研究者试图探索两个子任务之间的交互作用。Li等[7]介绍了一种代理任务，即，预测生成的句子的语言奖励，作为本地化模块的附加优化目标。Zhou等人。[31]提出了一种差分掩蔽机制，将字幕丢失的梯度流与提案边界联系起来，从而实现两个任务的联合优化。我们认为，无论是二进制掩码向量[31]还是标量描述性得分[7]都没有携带足够的语言线索的信息梯度，以在反向传播训练期间指导提案模块中的内部特征相反，所提出的PDVC通过强制两个子任务共享任务间的交互来利用任务间的交互。6849wj，t-1q~jLSTM单元wjthjtzjt注意力权重{fl}可变形软注意力秩CNN~定位字幕头头联系我们Transformer解码器多尺度帧特征{fl}N个事件查询特征编码并行解码Transformer编码器N个片段，N个字幕【0.00，43.77】一个人铲掉人行道[ 9.58，43.77]一只狗跳了进来他正在撒[45.07，51.80]文字出现在屏幕预测结果事件计数器图2：所提出的方法的概述。首先，我们采用一个预先训练的视频特征提取器和一个Transformer编码器，以获得帧级特征序列。一个Transformer解码器和三个预测头，然后提出了预测的位置，字幕，和事件的数量给定的可学习的事件查询。我们提供了两种类型的字幕头，分别基于vanilla LSTM和可变形软注意增强LSTM。在测试阶段，我们通过对字幕得分和本地化得分进行排名来选择检测到的最高事件，而不需要通过非最大抑制来去除冗余。相同的中间特征。此外，我们采用中间特征向量和目标事件实例之间的一对一匹配，以获得区分功能的上限，显着不同于以前的方法与多对一的锚分配策略。另一个有前途的方向集中在生成的字幕的一致性早期的工作[5，7，31，24]通常会生成大量的提议字幕对（比地面实况事件的数量多10倍）以获得高召回率，其中大量冗余大大降低了生成的字幕的可读性和连贯性。SDVC [9]是第一个通过引入“本地化-选择-描述”管道来解决这个问题的。考虑到TEP模型产生的输出建议，他们开发了一个基于RNN的事件序列生成网络（ESGN）来选择一小组建议，将预测的建议数量从100减少到平均2.85。虽然取得了令人鼓舞的性能，但SDVC不是端到端模型，涉及将对象检测视为一组预测任务并且不依赖于任何手工制作的组件的对象检测虽然它提供了有前途的性能，DETR遭受高的训练时间，由于缓慢的收敛的全局注意机制。提出了可变形变换器[38]，以通过关注图像的稀疏空间位置并结合多尺度特征表示来加快网络训练并获得更好的性能。受DETR风格的检测器在图像域中的简单设计和有前途的性能的启发，我们将变形Transformer扩展到视频域中更具有挑战性的3. 方法为了简化密集的视频字幕流水线，并探索本地化任务和字幕任务之间的相互利益，我们直接检测一组时间本地化的具有适当大小{（ts，te，S）}N集合的字幕，其中多步骤的培训策略是必要的。循环性ej jjj=1也限制了ESGN的应用程序处理具有大量事件的长我们将本地化、选择和字幕任务并行化到一个端到端的框架中，在很大程度上简化了流水线，同时能够生成准确和连贯的字幕。基于变压器的检测器。Transformer [17]是一种基于自然语言处理的注意力机制的编码器-解码器架构。受益于捕获远程关系的显著能力，Trans-former已成功应用并在计算机视觉中显示出有前途的性能[46，57，50，58，45]。检测Transformer（DETR）[39]是一种新兴的解决方案t j、t j、S j分别表示事件的开始时间、结束时间和标题。集合大小N集合也由PDVC预测。具体而言，采用具有编码器-解码器结构的可变形Transformer来通过注意机制捕获帧间、事件间以及事件-帧交互，然后，两个并行预测头同时预测每个事件查询事件计数器预测从全局视图设置的事件数N通过选择具有高置信度的前N个集合图2示出了所提出的PDVC的概述。6850j=1l=1∈ΣΣMSD Att（q，p，X）=AWxj jjlkJl=1×J--J J联系我们j=1--3.1. 初步：变形TransformerDeformable Transformer [38]是一种基于多尺度可变形注意力（MS-DAtt）的编码器-解码器架构。MSDAtt通过关注参考点周围的一组稀疏采样点，缓解了Transformer中处理图像特征图时自关注[17]的缓慢收敛问题给定多尺度特征图X= XlL其中xlRC×H ×W，aquery el-元素qj和归一化参考点pj[0，1]2的加权和，MSDAtt输出上下文向量在L个尺度上跨特征图的K×L个采样点查询）qjN，以及它们对应的标量所指点p j。注意，p j是通过在q j上具有S形激活的线性投影预测的。事件查询和参考点用作事件的特征和位置（中心点）的初始猜测输出查询特征和参考点表示为q~j，p~j。定位主管。定位头执行框预测和二进制分类的每个事件查询。框预测旨在预测地面实况片段w.r.t.的2D相对偏移（中心和长度）参考LK点。二进制分类的目的是生成前景Lp~jlkl=1k =1（一）每个事件查询的置信度箱预测和二元分类都是由多层感知器实现的。p~jlk=l（pj）+∆pjkl，创。在那之后，我们获得元组的集合{ts，te，cloc}N以其中p~jkl和Ajkl分别是第j个查询元素的第l个尺度的第k个采样键的位置和注意权重W是关键元素的投影矩阵。l将归一化的参考点投影到第l级的特征图中。是采样偏移w.r.t.l（pj）。Ajkl和Δpjkl都是通过线性投影到查询元素上获得的。请注意，原始的MSDAtt应用多头注意机制，而在这里，为了更好地理解，我们展示了单头版本。可变形Transformer用可变形注意力模块替换了变换器编码器中的自注意力模块和变换器解码器中的交叉注意力模块，从而在对象检测中实现了快速收敛速度和更好的表示能力。3.2. 特征编码为了捕捉视频中丰富的时空特征，我们首先采用预先训练好的动作识别网络（例如C3D [16]，TSN [22]）来提取帧级特征。我们通过插值将特征图的时间维度重新缩放然后，为了更好地利用多尺度特征来预测多尺度事件，我们添加L个时间卷积层（步幅=2，内核大小=3）以获得从T到T/2L 的多个分辨率的特征序列。多尺度帧特征及其位置嵌入[17]被馈送到可变形Transformer编码器中，提取跨多个尺度的帧-帧关系输出帧特征表示为{f1}L。3.3. 并行解码解码网络包含可变形变换器解码器和三个并行头，用于字幕生成的字幕头，用置信度分数预测事件边界的定位头解码器的目的直接从以N个可学习嵌入为条件的帧特征查询事件级特征（称为事件表示检测到的事件，其中c_loc是事件查询q~j 的定位置信度。字幕头。我们提供两个字幕头，一个轻量级的和一个标准的。轻量级头部简单地在每个时间戳将q~j馈送到vanillaLSTM中。单词w_jt由FC层预测，然后在LSTM的隐藏状态h_jt上进行softmax激活。然而，轻量级字幕头仅接收事件级表示q~j，缺乏语言线索和帧特征之间的交互。软注意（SA）[26，24，9]是视频字幕中广泛使用的模块，它可以在生成单词时动态确定每个帧的传统的两阶段方法[24，9]通过将注意力区域限制在事件边界内来对齐事件片段及其字幕，但是我们的字幕头不能访问事件的边界，从而增加了学习语言词和帧之间的关系的优化难度。为了缓解这个问题，我们提出了可变形软注意力（DSA），以执行软注意力的权重集中在一个小区域周围的参考点。具体地，当生成第t个单词w，t时，我们首先从以语言查询h，j，t和事件查询q~j两者为条件的每个fl生成K个采样点，遵循等式（1）。 1，其中hjt表示LSTM中的隐藏状态。然后，我们将KL个采样点视为k∈y/v值，并且将[hjt，q~j]视为软注意中的查询。由于采样点分布在参考点p∈j 周围，DSA的输出特征zjt被限制在相对较小的区域上。LSTM将上下文特征z，j，t、事件查询特征q~j和前一个词w，j，t-1的级联作为输入。下一个字的概率w_jt由FC层在h_jt上利用softmax激活来获得。随着LSTM的发展，我们得到一个句子Sj=wj1，...，w jMj，其中M j是句子长度。事件计数器。考虑到适当的事件编号是密集字幕质量的基本指标6851--JT}{--JJMjγJT过多的事件会导致重复的字幕和较差的可读性; 2检测到的事件过少则意味着信息缺失和故事不完整事件计数器旨在检测视频的事件编号它包含最大池化层和具有softmax激活的FC层，其首先将事件查询q~j的最显著信息压缩为全局特征向量，然后预测固定大小的向量r_len，其中每个值指的是特定数字的可能性。在推断阶段期间，通过Nset= argmax（rlen）获得预测事件数。通过从N个事件查询中选择具有准确边界和良好字幕的前N个集合事件来获得最终输出。每个事件查询的置信度计算如下：MJ4. 实验4.1. 实验设置数据集。我们使用两个大型基准数据集ActivityNetCaptions [5]和YouCook2 [30]来评估所提出的PDVC的有效性。ActivityNet Captions包含20k长的各种人类活动的未修剪视频平均而言，每个视频持续120秒，并且用3.65个时间本地化的句子进行注释。我们遵循标准分割，使用10009/4925/5044视频进行训练、验证和测试。YouCook2有2000个未经修剪的烹饪过程视频，平均时长为320秒。每个视频具有7.7个带注释的片段和关联的句子。我们使用1333/457/210c=cloc+µglog（ccap）（2）其中c_cap是所生成的单词的概率。我们观察到，平均字的信心是不是一个令人信服的句子水平的信心，因为captioning头往往产生高估的信心短句的测量。因此，我们增加了一个调制因子γ来反映字幕长度的影响µ是平衡因子。设置预测损失。在训练期间，PDVC产生具有其位置和标题的N个事件的集合。为了在全局方案中将预测事件与地面事实相匹配，我们使用匈牙利算法[39]来找到最佳的二分匹配结果。匹配成本被定义为C=αgiouLgiou+αclsLcls，其中Lgiou表示预测的时间片段和真实片段之间的一般化IOU [61]，Lcls表示预测的分类分数和真实标签之间的焦点损失[60选择匹配的对来计算集合预测损失，其是gIOU损失、分类损失、计数损失和字幕损失的加权和其中Lcap测量预测单词概率与由字幕长度归一化的基础事实之间的交叉熵，Lec也是预测计数分布与基础事实之间的交叉熵损失。注意，我们遵循[39，38]将预测头添加到Transformer解码器的每一层。最后的损失是所有层的集合预测损失的总和。用于段落字幕的PDVC。段落字幕[33，42，27]是密集视频字幕的简化版本，其专注于生成连贯的段落，并且不需要预测每个句子的时间位置。PDVC可以很容易地扩展到段落标题，通过删除本地化功能，并采取预先提取的建议作为输入事件查询。具体来说，我们考虑的线性嵌入的建议然后，PDVC仅使用字幕丢失进行训练。评估指标。我们从三个方面评估我们的方法：1）对于本地化性能，我们使用在0.3、0.5、0.7、0.9的IOU上的平均精确度、平均召回率及其调和平均值F1得分。2）对于密集字幕性能，我们遵循ActivityNet Challenge2018提供的官方评估工具，该工具计算生成的字幕和地面实况之间的匹配对的平均精度（由BLEU4 [11]，METEOR [6]和CIDER [18]测量），IOU阈值为0.3，0.5，0.7，0.9。然而，官方评分员并不考虑讲故事的质量，即所生成的字幕能够多好地覆盖视频的整个故事。我们进一步采用SODA c [48]进行总体评价。3)对于段落字幕性能，我们通过根据其开始时间对生成的字幕进行排序来形成段落，并报告段落级字幕性能。请注意，ActivityNet Captions有两组用于验证集的注释对于SODA c，我们通过两组独立地对其进行评估，并报告其平均得分。实作详细数据。对于ActivityNet字幕，我们使用在Sports1M [ 52 ]上预训练的C3D [ 16 ]来提取帧级特征。为了与最先进的方法进行公平比较，我们还基于[31]提供的TSN [22]功能和[36]提供的I3D+VGGish功能测试了我们的模型对于YouCook2，我们使用与[31]中相同的TSN功能我们使用具有多尺度（4级）可变形注意力的两层可变形Transformer。可变形变压器使用的MSDAtt层和前馈层中的隐藏大小为 512 和 2048 。 ActivityNetCaptions/YouCook 2的事件查询数为10/100我们使用vanilla LSTM字幕器实现了一个轻量级PDVC（称为PDVC light），并使用LSTM-DSA字幕器实现了标准PDVC。字幕头中的LSTM隐藏维度对于事件计数器，我们选择ActivityNet Captions/YouCook 2的最大计数为10/20。在等式中2，长度调制因子γ被设置为2，并且对于PDVC光/PDVC，折衷比μ被设置为0.3/1.0t=1培训、验证和测试视频。6852表1：ActivityNet Captions验证集上的事件本地化方法特征地面实况建议B4 M C预计提案B4 M C SODA cDCE [5]C3d1.608.8825.120.17 5.69 12.43-TDA-CG [24]*C3d-9.69-1.31 5.867.99-DVC [7]C3d1.6210.3325.240.73 6.93 12.61-SDVC [9]C3d----6.92--高效[37]C3d---1.35 6.21 13.82-欧洲人权公约[34]C3d1.9610.5839.731.29 7.19 14.713.22PDVC灯C3d2.6110.4847.831.51 7.11 26.215.17PDVCC3d2.6410.5447.261.65 7.50 25.875.26MT [31]*TSN2.7111.1647.711.15 4.989.25-PDVCTSN3.0711.2752.531.78 7.96 28.965.44MDVC [35]† †I3D+VGGish1.9811.0742.671.01 6.867.77-BMT [36]I3D+VGGish1.9910.9041.851.88 7.43 11.94-PDVC†I3D+VGGish3.1211.2653.651.96 8.08 28.595.42表 3 ： ActivityNet Captions 验证集上的密集字幕。 B4/M/C 是 BLEU4/METEOR/CIDER的*表示由同一评估工具包重新评估的结果†表示部分数据集的结果（9%的视频缺失）。方法预测提案B4 M C SODA c[31] 2016年12月28日[34]-3.82--PDVC灯0.894.5623.074.34PDVC0.804.74 22.71表2：YouCook2上的密集字幕方法特征B4 M C地面实况建议HSE [41] V9.84 13.78 18.78[42]第四十二话10.33 15.68 23.42美国[31]9.75 15.64 22.16Trans-XL [43] V+F10.39 15.09 21.67GVD [44] V+F+O11.04 15.71 21.95GVDsup [44] V+F+O11.30 16.41 22.94AdvInf [33] V+F+O10.0416.60 20.97PDVCV+F11.8015.9327.27预计提案MFT [40]V+F10.2914.73 19.12PDVCV+F10.2415.80 20.45表4：Activi-tyNet标题ae-val集上的段落标题[44]。V/F/O是指视觉/流动/对象特征。二分匹配中的成本比为αgiou：αcls =2：1，损失比为βgiou：βcls：βec：βcap =2：1：1：1。我们使用Adam[4]优化器，初始学习率为5e-5，小批量大小为1个视频。4.2. 与最先进方法的本地化性能。事件本地化质量比较见表1。SDVC和MFT通过复杂的“本地化-选择-描述”工作流生成事件提案相比之下，PDVC去除了传统提案模块中的手工设计，并以并行方式直接输出提案，这比递归对应物更有效地处理长序列。我们大大超过了MFT并达到类似（略好）的性能SDVC，这表明在我们的方法中的并行集预测的有效性。此外，字幕头的选择对查准率和查全率的平衡也有一定的影响。密集字幕性能。在表3中，我们列出了具有交叉测量的最先进模型的性能事实上，PDVC在BLEU4和CIDEr上实现了对最先进技术的相当大的改进，这表明可变形Transformer加上LSTM字幕器可以提供良好的字幕质量。根据预测结果，具有 C3D 功能的 PDVC 在 BLEU4/METEOR/CIDEr/SODA c上实现了最佳性能，相对于最先进的分数，相对提高了22.22%/4.31%/75.87%/63.35%。我们发现，PDVC与地面真理的建议并没有表现出太多的优越性，在METEOR ECHR，但超过ECHR与预测的propos- als，表明生成的建议PDVC是更好的。即使使用轻量级LSTM 作为字幕， PDVC light 也可以超越 BLEU4/CIDEr/SODA c上的大多数两阶段方法。其原因主要在于字幕头和定位头的并行解码，有助于生成描述性高、内部表征有区别的提案。表2显示了YouCook2验证集上的密集字幕性能。我们的方法实现国家的最先进的性能与相当大的性能增益超过其他方法的所有指标。ActivityNet Captions上的熵训练1 以地-更复杂的字幕网络（例如，层次RNN [27]）和额外的-1一些方法[9，34]在交叉熵训练后结合了强化学习（RL）[14请注意，我们不与这些方法进行比较，因为RL训练需要训练时间长，这与PDVC的设计理念相反。此外，RL训练倾向于产生具有重复短语的较长句子[23]，降低了生成的标题的连贯性和可读性。方法0.30.5召回0.70.9avg0.30.5精度0.70.9avgF1MFT [40]46.18 29.76 15.54 5.77二十四点三十一分86.34 68.79 38.3033.01SDVC [9]93.41 76.4042.40 10.1096.71 77.7344.84 10.9956.56PDVC灯88.78 71.7445.70 17.45 55.9296.83 78.01 41.05 14.6956.77PDVC89.47 71.91 44.63 15.6797.16 78.0942.68 14.4058.0756.716853段落字幕性能。表4示出了PDVC和最新段落之间的比较。方法BAF-CG [24] 中文（简体） PDVC轻型PDVC时间（秒）2.39 2.050.09 0.16字幕方法通过地面实况提案，PDVC使用变形Transformer加上基于注意力的LSTM可以超越几个基于变换器的字幕模型，如MART，VTrans和Trans-XL，表明编码器-解码器和LSTM-DSA中的变形注意力的强大表示能力。这是有希望的PDVC得到进一步的性能提升，通过纳入Transformer字幕。我们把这个留给未来的工作。即使有预测的建议，我们观察到PDVC具有与先前的方法与地面实况建议相当的性能，这表明查询功能包含丰富的信息，覆盖视频中的主要部分。虽然大多数以前的段落字幕方法在测试时需要地面实况注释，但我们的模型通过并行解码减少了字幕模块效率我们在表5中的相同硬件环境下比较了PDVC与两阶段方法TDA-CG [24]、MT [31]的推理时间。我们的方法是更有效的，因为：1）只有几个事件的建议与他们的标题是并行预测; 2）我们不需要一个密集到稀疏的建议选择像NMS; 3）由于稀疏采样，MSDAtt是有效的算子。4.3. 本地化字幕之间的交互在这一部分中，我们深入研究了两个子任务之间的相互影响很简单，本地化可以帮助字幕，因为本地化监督将查询特征引导到特定的地面实况区域，其包含与目标字幕匹配的丰富语义。因此，本文着重研究字幕任务对提案质量的影响字幕监督有助于生成具有描述性的建议。为了更好地研究PDVC生成的提案的质量，我们使用相同的预训练事件上限模型[26]来评估不同模型生成的提案的可靠性我们还重新实现了两个主流的建议生成模块SST和SST+ESGN进行比较。SST和SST+ESGN都是仅用定位损失来训练的，而PDVC是用定位和字幕损失来训练的。如表6所示，PDVC获得了略低的F1评分，但在四种模型中获得了我们将每个生成的建议与具有最高重叠的一个地面实况片段相匹配。图3展示了匹配结果的统计。令人惊讶的是，结合字幕监督在高精度提案的字幕质量方面产生了相当大的提升（即，IOU> 0.9）。原因可能是字幕头是基于表5：推断速度。我们报告了使用单个Tesla V100 GPU的100个采样视频的方法损失#p Rec. Pre.F1 B4 M C SST [1] loc. 3.00 42.0060.99 49.74 0.98 6.70 17.34SST+ESGN [9]位置2.79 53.80 61.37 57.33 1.09 6.80 19.67我们的地盘只有地盘。 3.26 56.35 58.69 57.49 0.98 6.71 19.36我方（PDVC）位置+章3.03 55.42 58.07 56.711.24表6：具有不同损失类型的提案质量。建议/前/ F1测量本地化性能，而B4/M/C测量密集字幕性能。#p是提案的数量。METEOR-IOU111090.3-0.40.4-0.50.5-0.6之间0.6-0.70.7-0.80.8-0.90.9-1BLEU4-IOU10860.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1CIDER-IOU302520150.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1百分比-借据0.20.100.3-0.40.4-0.50.5-0.60.6-0.70.7-0.80.8-0.90.9-1图3：字幕质量与欠条我们用IOU<0.3 (less超过所有对的2%）。在事件查询特征上对应于准确的建议，因此PDVC学习以增强高精度建议的描述性。最后一个子图显示了匹配对的 SST产生的大多数建议不是很准确（主要是0.5 IOU 0.8）。当进一步结合ESGN用于自适应建议选择时，大多数建议具有0.6 IOU 0.9。Ours和Ours loc只实现了与SST+ESGN类似的IOU分布，但没有引入任何手工制作的组件，如锚点生成和NMS。一般来说，在一个理想的标题下，主动性与提案的精确性呈正相关。然而，现有字幕机的性能仍然远远不能令人满意，这意味着它们为一些提案生成错误或为了减少对最终结果的不适当的字幕，不仅要生成位置准确的方案，而且要生成字幕感知的方案。我们的模型提供了一个有效的解决方案，探索本地化和字幕并行解码之间的互利字幕监督有助于学习位置感知功能。并行解码的另一个优点是可以直接去掉定位头来研究字幕头的性能。我们训练一个事件提案生成模块，仅基于字幕监督，通过6854初始化时期1时期4时期7时期10时期13地面实况P：13.56R：24.14P：8.25R：13.10P：13.11R：26.84P：12.50R：25.02P：13.08R：26.85P：14.24R：30.32图4：没有本地化监督的预测建议的分布。我们绘制了YouCook2验证集中200个随机采样视频水平轴和垂直轴分别表示提案的重新缩放的中心位置和重新缩放的长度每个子图包含30个具有不同颜色的聚类，对应于30个输入事件查询。R和P分别是指30个生成的建议的召回率和精确率。#q 计数器记录 Pre.M SODA cγRec. Pre.MSODA c(a) 消融可变形手术(b) 可变查询号事件计数器(c) 变γ表7：ActivityNet Captions验证集的消融研究分图（b）和（c）以PDVC灯为基础对原始PDVC进行一些修改以稳定训练，例如固定解码器中的采样偏移和在二分匹配中使用字幕成本。更多详情请参见补充材料。在解码器中迭代细化后，我们直接将最后一个解码器层中事件查询对应的参考点作为事件建议。图4示出了YouCook2上的预测建议的位置分布我们还报告了定量结果，如召回率和精度。随着训练时期的增加，建议的中心倾向于均匀分布，并且建议的长度倾向于集中在相对小的值上。虽然预测提案和地面实况提案的分布之间存在明显的差距，但我们看到预测提案在训练期间逐渐接近地面实况在epoch 13时的召回率/精确率为30.32/14.24，这比初始化时的召回率/精确率（24.14/13.56）更好。基于上述发现，我们认为，我们的方法可以隐式地捕获的位置感知功能的字幕监督，帮助优化的事件定位。4.4. 消融研究可变形零部件。如表7a中所示，当从可变形变压器或LSTM-DSA移除可变形操作时，性能显著降低。我们的结论是：1）将局部性添加到变换器中有助于提取用于局部化感知任务的时间敏感特征; 2）关注提案周围的一小段而不是整个视频有助于优化事件字幕。查询编号事件计数器。如表7b所示，仅几个查询就足以获得良好的性能。过多的查询导致高精度和METEOR，但低召回率和SODA c。我们选择了一个合适的查询号码，以达到召回率和精度的平衡。最后的事件号也控制着精确度和重调用的平衡.事件计数器可以预测合理数量的事件实例，使得生成的字幕揭示视频中的整个故事。长度调制。表7c示出了调制字幕长度（γ>1）比平均（ γ=1 ）或求和（ γ=0 ）单词分数获得了METEORSODA c和精确5. 结论本文提出了PDVC，一个端到端的密集视频字幕框架与并行解码，它formulates密集的视频字幕作为一组预测任务。PDVC直接产生一组时间本地化的句子，而无需密集到稀疏的建议生成和选择过程，从而显著简化了传统的用于事件本地化和事件字幕的预测头并行运行以利用任务间的互利。在两个基准数据集上的实验表明，PDVC可以生成高质量的字幕，并超越了最先进的方法。鸣谢。本工作得到了国家自然科学基金项目 No.61972188、61903178、61906081和U20 A20306，通用Re-搜寻香港基金编号27208720号、广东省引进创新创业团队计划（粤ICP备15000770号）。2017ZT07X386。Transformer香草可变形字幕头LSTM SA DSAM SODA c√√√√√√√√√√6.107.116.157.503.065.173.405.265√57.46 57.105.020.0 48.67 47.355.2310√55.92 57.65 7.115.170.5 50.63 50.085.2530√53.35 59.08 7.184.901.0 51.52 53.31 7.355.02100√51.88 59.27 7.334.592.0 57.65 7.115.1710×77.67 44.88 6.624.303.0 55.72 57.875.196855引用[1] S. Buch，V. Escorcia，C.申湾Ghanem和J. C. 尼布尔斯，“SST：Single-stream temporal action proposals”，在Proc.IEEE Conf. Comput.目视模式识别。，2017，pp. 6373-6382 7[2] L. Gao，Z. Guo，H. Zhang，X. Xu和H. T. Shen，“Videocaptioningwithattention-basedLSTMandsemanticconsistency，”IEEE Trans. Multimedia，vol. 19，no.第9页。2045- 2055年9月2017. 1[3] R. Girdhar，J.卡雷拉角Doersch和A.Zisserman，“VideoAction Transformer Network ， ”in Proc. IEEE会议Comput.目视模式识别。，2019，pp. 244-253. 3[4] D. P. Kingma 和 J. Ba ， “Adam ： A method for stochasticoptimization，”inProc. Int. Conf. 学习. 代表。，2015，pp.1-13. 6[5] R. Krishna ， K. Hata 、 F. 伦湖，澳 - 地 Fei-Fei 和 J. C.Niebles，“视频中的密集字幕事件”，Proc. IEEE国际Conf.Comput.目视，2017，pp. 706-715. 一二三五六[6] A. Lavie和A. Agarwal，“METEOR：A automatic metricfor MT evaluation w

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

端到端密集视频字幕的并行解码

Python人工智能项目开发实战_视频字幕应用_编程案例实例详解课程教程.pdf

音视频-编解码-协作通信关键技术研究.pdf

举例几种端到端的视频transformer模型

TVM如何并行处理端到端的任务

DVC 端到端编解码

端到端视频编码DVC 环境配置

transformer模型 端到端模型

端到端点云配准算法的端到端是什么意思

实时会议语音端到端时延拓扑

端到端语音识别系统如何实现端到端

端到端算法相较于非端到端算法的优势

什么是端到端slam

transformer是解码器结构吗

4G端到端和5G端到端的区别

基于Transformer的端到端目标检测模型

计算机网络端到端原则

端到端语音识别是怎么样的架构

什么是端到端机器学习

什么是端到端卷积神经网络

DIF端到端是指什么

最新资源

transformer模型端到端模型