通过强化学习快速转发视频的文本数据使用方法

101 浏览量更新于2023-10-25 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1直奔主题：通过使用文本数据的强化学习快速转发视频华盛顿拉莫斯1米歇尔·席尔瓦1埃德森·阿劳霍1莱昂德罗·索里亚诺·马尔科利诺2埃里克森·纳西曼托11巴西米纳斯吉拉斯联邦大学2英国兰开斯特大学1{washington.ramos，michelms，edsonroteia，erickson}@ dcc.ufmg.br，2l. lancaster.ac.uk摘要发布的视觉数据量的快速增长和用户的有限时间带来了对处理未经修剪的视频以产生传达相同信息的较短版本的需求。尽管摘要方法已经取得了显着的进步，但大多数方法只能选择少数帧或略读，这会造成视觉间隙并破坏视频上下文。在本文中，我们提出了一种新的方法的基础上，再学习公式，以加快教学视频。我们的方法可以自适应地选择不相关的帧来传达信息，而不会在最终视频中产生间隙。我们的代理是文本和视觉导向，以选择哪些帧删除缩小输入的视频。此外，我们提出了一种新的网络，称为视觉引导的文档注意力网络（VDAN），能够生成一个高度区分的嵌入空间来表示文本和视觉数据。我们的实验表明，我们的方法在F1分数和视频段级别的覆盖率方面取得了最好的性能。1. 介绍从数字革命的黎明到今天，我们目睹了数据的指数增长，特别是文本和视觉数据，如图像和视频。社交媒体和智能手机等新技术极大地改变了我们交换和获取信息的方式。例如，互联网上有大量的文本教程和教学视频，教导各种任务，从如何烹饪墨西哥卷饼和玉米卷，一直到如何求解偏微分方程（PDE），以及设备操作手册。尽管许多文本教程和教学视频分享了不断增长的可用数据和内容，但它们在用户的一个关键方面有所不同：他们需要多长时间来消费这些内容。一般来说，信息图1.我们的快进方法的示意图。在创建了用于编码文档和视频帧的嵌入空间之后，我们训练了一个代理，该代理观察编码的文本和帧并选择一个动作（例如，增加、减小或保持加速速率）以强调输入视频的高度语义段由生产者编码的文本数据比他们使用视觉数据时更简洁。例如，一个玉米卷的食谱或一个解释如何解决偏微分方程的教程用几句话描述。教学视频可能有几分钟的时间显示与任务无关的信息，例如一个人打开冰箱，拿起铅笔或擦黑板。这样的片段可以快进，而不会丢失输入视频中编码的关键信息，以理解任务。因此，理想情况下，教学视频应该是简洁的，类似于文本描述，但仍然具有任务的所有主要步骤的视觉丰富的在本文中，我们解决了使用文本文档加速未修剪视频的问题（见图1）。例如，可以使用1093110932作为从烹饪玉米卷视频中选择相关帧的指南。注意，这个问题不同于视频分段[41]或摘要[12，6，15，37]，因为对于用户理解任务的流程和时间相干性，有些部门应该加快，但不应取消。我们的方法遵循编码-解码框架来创建由一组句子引导的快进视频（即，文件）。我们将快进任务制定为顺序决策过程，其中强化学习代理观察编码的文本和视频帧，并决定增加，减少或保持视频的加速速率。用户文档和视频帧的嵌入空间由一种新颖的视觉引导文档注意力网络（VDAN）生成，该网络生成文本和视觉模态的代表性特征向量。在这个嵌入空间中，当表示相同的语义概念时，向量将是接近的，否则将是远离的。图1显示了我们方法中主要步骤的示意图。尽管摘要方法[12，6，15，37]有显著的进步，但大多数现有的方法没有考虑时间连续性，即，摘要技术将输入视频分割成几个片段，这在连续的视频片段之间产生视觉间隙，并且不保留视频上下文。最近，快进视频的算法已经成为处理在不丢失时间连续性的情况下检索有意义片段的任务的有效方法[11，17，23，26]。另一方面，快速前进方法受到缺乏定义良好的语义定义的限制本文基于内容的语义向快速转发视频迈出了一步。通过使用文本数据来指导代理，寻求最佳的一组帧被删除，我们的方法强调高度语义的内容段，同时保持时间的连续性。我们在具有挑战性的YouCook2数据集上评估了我们的方法[41]。实验表明，我们的方法在F1 Score和cov方面取得了最好的性能在视频段级别上的erage。捐款. 本文的贡献可以概括如下：i）一种基于强化学习公式的新的快进方法，它能够根据具有文本数据的帧相似性分数来加速视频; ii）新颖的视觉引导文档注意网络（VDAN），其能够为文本和视觉数据生成高度区分的嵌入空间。2. 相关工作在文献中已经提出了各种方法来处理使用不同方法缩短视频的任务，例如摘要[12，6，15，37]，快速沃德[22，9，23，25，11]，跨模态技术[21]和强化学习[11]。在下文中，我们将介绍与我们最相关的作品，以及每种方法中最具代表性的技术。视频摘要。在过去的几年里，视频摘要方法在处理缩短视频的任务时发挥了重要作用[12，6，15，37]。较短的版本通常是输入视频的摘要，由关键帧的故事板或具有最可区分的片段的视频略读组成[4]。大多数求和方法使用宽松或不存在的时间限制来选择帧或略读，从而导致视觉间隙并破坏视频上下文。研究人员采用的创建总结的策略从聚类帧的视觉特征[15]和训练神经网络推断视频片段的代表性[35，37]，到采用其他信息，如用户查询，外部传感器[12]或文本注释[21]。Lee等[12]，在第一人称视频的上下文中，分析了诸如社交互动、凝视和对象检测等属性，以创建输入视频的故事板摘要。Zhang等人[37]提出了一种通过使用双向长短期记忆（LSTM）递归网络对视频帧之间的长程依赖关系进行建模来创建故事板或略读的方法。Yao等人[35]执行了相关片段的选择，融合了来自空间和时间深度卷积神经网络（DCNN）的信息，以识别体育视频中的突出时刻。强化学习也被应用于视频摘要[40，11]，其动机是它已成功应用于许多具有挑战性的任务，例如掌握Go[29]，Shogi [28]等复杂游戏，以及在Atari游戏中实现超人的表现[31]。此外，它在视觉任务中有很大的应用，包括视觉跟踪[36]和主动物体识别[18]。Zhou等[40]提出了一个端到端的非监督框架，也是基于强化学习范式。他们的方法通过应用多样性代表性奖励来总结视频，该奖励引导代理创建更多样、更有代表性的摘要。语义快进。从视频摘要方法产生的间隙中出现的上下文的缺乏对教学视频的消费者造成了困扰。间隙的存在也可能使用户对整个过程感到困惑。换句话说，如果原始视频是未知的，则用户将不知道是否在间隙中错过了重要步骤。基于快进的方法在帧采样中添加时间约束，这导致输入视频的较短且连续的版本。10933一些方法还在对帧进行采样时处理视觉稳定性约束，通过将采样步骤建模为优化问题来实现平滑的最终视频[22，9，10，23]。在教学视频中应用不必要的快进方法的缺点是整个视频将被加速。例如，一个食谱视频可能有一个漫长而简单的步骤，就像煮蔬菜一样。这一步的速度和一个更短、更复杂的任务（如鱼片）的速度一样快。另一方面，语义快进方法强调具有高语义负载的段。通过以与应用于视频的其余部分的速率相比更低的加速速率加速相关片段来实现强调效果。Okamoto和Yanai [17]提出了一种快进引导视频的方法，强调包含人行横道或街角转弯运动的视频片段。Ramos等人[23]提出了一种用于第一人称视频的语义快进方法，该方法处理具有面部/行人重点的视觉稳定性约束Silva等人[26]扩展了拉莫斯等人的工作，包括基于粒子群优化（PSO）算法的自动参数设置，基于互联网用户偏好分配帧分数的卷积神经网络 Silva等人[25]建议通过将帧采样建模为最小稀疏重建问题，实现了第一人称视频的语义快进。这项工作的缺点是，它需要一个耗时的预处理步骤，并依赖于其他方法的准确性。在最近的一项工作中，Lanet al.[11]介绍了快速前进网（FFNet）。他们的方法使用一种基于强化学习的方法对视频进行动态总结，根据人类标记的数据选择具有最难忘视图的帧。与FFNet和Zhou等人类似，我们还应用了一个由强化学习范式训练的代理;然而，我们的方法是朝着训练代理在跨模态嵌入空间中工作迈出的一步跨模态嵌入。最近，跨模态嵌入算法已经成为处理各种任务的有前途和有效的方法，例如视频描述[19]和基于文本的图像或视频检索[16，5，1，19]，仅举几例。实际上，所有这些方法都依赖于创建一个共享的嵌入空间，在这个空间中可以比较来自多个模态的特征。Plummer等人提出了一种跨模态方法的成功应用。[21 ]第20段。作者创建了一种视频摘要方法，该方法通过分析视频片段的视觉特征（例如，代表性、一致性和有趣性）以及视觉语言建模。Salvador等人[24]应用多模态神经模型来学习一个共同的嵌入空间的图像和食谱，并解决了检索的任务，食谱从图像查询。Carvalho等人[2]扩展了Salvador等人的方法。使用不同的损失函数。Wang等人[32]提出了一个对抗性学习战略，以调整这两种模式。大多数这些作品执行文档检索作为查询的图像表示的最终结果的配方。另一方面，我们提出的跨模态嵌入（VDAN）提供了教学视频中每个帧与文档中描述的文本步骤之间的语义距离，即，食谱3. 方法我们的方法是基于一个编码-解码框架工作，以创建快进的视频。我们的方法的第一阶段由新颖的视觉引导的文档注意力网络（VDAN）。VDAN为文档和图像编码创建了一个嵌入空间。在第二阶段，我们将快进任务表述为一个顺序决策过程。我们训练了一个强化学习代理，它观察编码的文本和视频帧，并将它们解码成一个分布在动作上，用于增加，减少或保持输出视频的当前图2说明了我们方法的主要步骤。3.1. 视觉引导文件注意力网络由于我们的最终目标是通过丢弃给定输入文档的非相关帧来创建快进视频，因此我们提出了视觉引导文档注意力网络（VDAN）。我们的网络以文档和图像作为输入，并在视觉特征的指导下，为两种模式创建代表性的特征向量。通过训练VDAN，我们的目标是创建一个文本和视觉特征对齐的嵌入空间。我们认为对齐的嵌入向量帮助我们的代理理解框架和文档之间的语义接近度，然后学习丢弃与文档无关的框架的最佳策略（例如，食谱）。形式上，令D={p1，p2，· · ·，pN}是由N个句子组成的文档，并且I是馈送该文档的图像。网络在我们的任务中，D由一组文本指令组成的文档表示，I是视频帧。VDAN产生d维嵌入eD∈Rd，eI∈Rd分别用于文本和视觉数据，给定参数θE={θD，θI}。文档编码器。为了对D进行编码，我们采用了分层递归神经网络（H-RNN），在每个级别中结合了软注意力机制[34，39]，因为H-RNN可以捕获长距离时间依赖性[38]。我们的H-RNN由两级编码组成：如图所示，i）文件级和ii）文档级10934IJ图2.我们的方法包括两个主要阶段。首先，我们采用我们的视觉引导文档注意力网络（VDAN）创建一个跨模态嵌入，编码用户文档和输入视频帧。然后，遵循强化学习范式，我们训练一个代理来选择要删除哪些帧，执行增加、减少或保持加速率的动作在图2中每个级别包含双向GRU [3]单元，产生隐藏的状态向量。这些向量为注意力层提供信息。令wi1，wi2，···，wi Mi表示每个词在语义上的分布词表示[20]滕斯皮岛给定单词嵌入wij、前一个隐藏状态hi（j−1）和参数θRp，隐藏级编码器在每个时间步j产生隐藏状态向量hij=fp（wij; hi（j− 1），θRp）。正如杨[34]所说，词对句子的意义有不同的贡献因此，我们将hij馈送给attention模块，定义为：uij=tanh（Wphij），（1） exp（ucp）模块，由Wd和cd参数化。因此，在将所有向量p i馈送到文档级编码器之后，它产生文档级编码d。最后，我们使用由θD参数化的全连通网络f D将d投影到嵌入空间中。因此，eD=f D（d; θ D）。图像编码器。为了产生图像嵌入eI，我们首先使用ResNet-50 [8]编码器提取图像特征，产生中间向量φ（I）∈Rz。然后，我们使用由θI参数化的全连通网络fI将φ（I）投影到嵌入空间中，如下eI=fI（φ（I）;θI）。为了引导文档级注意力模块注意到正确的句子，我们将第一个隐藏的αij=Σ JIJexp（ucp）、（二）文档级编码器的状态向量为h0= φ（I）。然而，对于高度水平，我们设置hi0=0。pi = Σαijhij，（3）JBoth document and image encoders also include an ℓ2归一化层，以使eD和eI单位范数向量。其中uij是hij的隐藏表示，αij给出每个hij的重要性权重，pi是句子pi的句子级嵌入，cp是词级上下文向量，其充当固定查询以找到信息词，Wp是投影矩阵。c p和uij之间的比对定义了用于计算α ij的分数。在文档级编码中，每个pi用于产生隐藏状态向量hi=f d（pi; hi−1，θ Rd）。不同的句子也可能对句子的结构做出不同的贡献。文档.在我们的方法中，文档的教学特性增加了给定视频帧类似于仅一个指令的概率。因此，与高级对应物类似，我们也使用注意力注意力模块学习注意正确的单词，句子以产生与eI更对齐的嵌入eD。训练对于训练集中的每个图像I，我们创建一个正文档和一个负文档D+和D-，以组成训练对和。肯定文档D+由描述图像I的句子和另外描述随机选择的图像I′的句子组成。添加不描述图像的句子的策略有助于文档级注意力模块在训练时注意到适当的句子。为了创建负文档D-，我们随机选择另外两个图像I′和I′′，并收集它们各自的感测值。10935πtences. 在每个训练步骤中，为了泛化的目的，我们会对文档中的所有句子进行为了创建更多对齐的嵌入，我们通过最小化余弦嵌入损失来优化θenc={θRp，Wp， cp，θRd，Wd，cd，θE，θD}.语义上与输入文本匹配的文本以较低的速度呈现，而其它文本以较高的速度呈现。因此，智能体的动作空间A有三个动作：i）减速; ii）什么都不做; iii）加速。如前所述，智能体具有当前速度v，因此会跳过下一个v它所采取的任何行动的框架。减速和加速-Lenc（D，I;θENC）= 1−cos（eD，eI），如果y= 1max（0，cos（eD，eI）−η），否则，erate更新agent的速度和加速度状态对于decrease，v=v−ω和ω=ω−1，v=v+ω（四）其中，D和I分别是文档和图像的训练，如果D和I对应，则y等于1，并且η是边缘参数，在我们的问题中设置为0。3.2. 语义快速前向网络In the second stage of our methodology, we define ourdecoding phase, in which the agent observes the encodedvectors eD and eI and sample an action over the actionspace to adjust the speed-up rate accordingly.我们制定的问题，选择帧作为一个马尔可夫决策过程（MDP）。在我们的公式中，我们训练一个代理人最大化预期的贴现ω=ω+1表示加速，而什么都不做则保持电流V和ω。此外，加速度和速度sat-分别在某些值ωmax和vmax处尿酸盐，并且它们总是大于或等于1。请注意，ω并不对应于物理加速度，允许智能体在语义级别发生变化时快速调整速度以收集更多奖励。奖励功能。智能体的目标是学习策略π（a|s t，θ π），它表示给定状态s t和参数θ π，主体采取某个动作a∈ A的概率。奖励应该鼓励代理人提高或降低视频的速度，奖励：Rt=ETn=0Σγnrt+n、（五）视觉和文本数据在即将到来的框架。因此，我们设计了一个与文本和框架特征对齐成比例的即时奖励。因此，在训练时，在采取行动其中t是当前时间步长，rt+n 是n次的奖励a tπ（a|s t，θ π）在第t步中，代理接收以下信息：步到未来，T是时间步的总数在每个时间步，选择一个帧;因此，t还指示所选帧的当前数量γ∈（0，1]是一个折扣因子。然而，在我们的例子中，未来的奖励同样重要，因此我们使用γ=1。在这个问题中，代理观察视频和文本，并且必须采取行动来创建输入视频的最佳加速版本。由于我们希望保持视频的整体连贯性，而不是对其进行修剪，因此我们对在视频空间中导航的代理进行建模。即，代理具有速度v和加速度ω，并且基于当前速度选择下一帧。因此，代理遍历整个视频，但根据动态变化的速度跳过帧。在每个时间步，代理可以增加、减少或保持其当前加速度，这反过来又会影响速度。由于我们应用了无模型强化学习，因此转换函数不需要预先定义，也不需要学习;因为代理直接专注于学习最佳策略。在下面，我们降低奖励信号：rt= eD·eI。请注意，如果eD和eI，代理将获得更高的奖励在嵌入空间中指向相同的方向，鼓励其降低速度并累积更多的奖励，因为时间相邻帧更可能产生更高的奖励值。Objective. 除了对齐VDAN产生的文本和视觉特征之外，我们框架的总体目标还试图在每个时间步t最大化期望的累积奖励Rt。我们遵循REINFORCE算法[33]来学习参数θπ，以最大化预期效用ΣJ（θ π）= π（α|s t，θ π）R t.（六）a∈A为了提高学习性能，我们采用优势函数方法[30]，并最大化预期优势：定义我们MDP配方中使用的所有元素。状态和动作。为了让一个代理人能够-J′（θπ）=Σa∈Aπ（α|s t，θ π）（R t− v（s t|θv）），（7）为了有效地导航通过视频空间，我们将状态向量定义为文档和帧嵌入的级联，即，st=[eD; eI]∈ S.为了使用文本输入创建快进视频，我们的代理自适应地调整加速率，使得视频片段其中v（s t|θ v）是由θ v参数化的函数，预测了我们在状态t的预期累积奖励。J′的梯度<$θJ′（θπ）由下式给出：Σπ（α|s t，θ π）（<$θπlogπ（a|s t，θ π））（R10936t−v（s t|θ v））。（八）a∈A10937通常，由于动作序列空间的高维度，应用蒙特卡罗采样，导致梯度的以下近似：Σ在视频段级别。虽然F1分数由精确度和召回率的加权平均值组成，但视频片段级别的覆盖率给出了手动注释为相关的帧的覆盖质量。我们认为J′（θπ）∇θπ不logπ（a t|s t，θ π）（R t−v（st|θ v）），（9）如果由一个其中at是在时间t采取的动作。因此，我们最小化以下损失函数：ΣL′（θ π）= − （logπ（a t|s t，θ π））（R t− v（s t|θ v））。（十）不此外，通常建议添加策略输出H（π（a t））的熵|s t，θπ））进入损失，以便有更大的动作多样性[13]。因此，我们的最终保单损失为方法高于阈值，即命中数。基线。我们将我们的方法与FFNet [11]和Silva等人的工作进行比较。[25]关于稀疏自适应采样（SSFF）。虽然SSFF在语义快进方面拥有最先进的技术，但FFNet与我们的方法类似，是一种基于强化学习范式的快进方法。实施详情。在我们的实验中，我们使用MSCOCO数据集[14]来合成阳性和阴性Ldec（θπ）= L′（θπ） −Σβ·H（π（α t|s t，θπ）），（11）不对来训练VDAN。MSCOCO包含113，287个训练图像，每个图像有5个标题，5，000个图像分别用于验证和测试。对于VDAN，我们使用其中β是平衡熵重要性的常数。在我们的实验中，我们将β设置为0。01.此外，我们还需要学习状态值函数v（s t|θ v）。我们通过最小化均方在维基百科2014和Pennington等人提供的Gigaword 5集合中预训练的手套嵌入集合。[20 ]第20段。我们设置d =128作为嵌入空间的维数，隐藏状态向量hij和hi的大小为1024错误类型：Lv（θv）=Σ（v（s t|θ v）−R t）2.（十二）不分别为2048年f I和f D被实现为两个一个独立的全连接神经网络，由512个神经元的单个隐藏层我们训练VDAN现在可以使用随机梯度下降来最小化损失Lv和Ldec在测试时，我们使用arg maxaπ（a|s t，θ π）作为智能体在给定时间步t中的选择动作。4. 实验在本节中，我们研究了我们的方法在不同食谱视频上定性和定量评估的性能。4.1. 实验装置数据集和评估指标。我们从YouCook2数据集中提取了一个视频子集[41]来组成训练和测试我们方法的集合。数据集中的视频收集自YouTube，分布在烤奶酪、鹰嘴豆泥等89种食谱上。每个视频具有多达16个由时间戳本地化的英语句子，并且这些句子中的每一个对应于其中正在执行指令的视频片段。由于我们的目标是创建传达原始视频相同信息的较短视频，因此我们仅在指令段对应于其长度的最多25%的视频中评估了我们的方法，总共有121个视频。为了评估每种方法的性能，我们计算了F1评分，并遵循Gygli等人的方法。[7] Lanet al.[11]，我们还根据覆盖率对于30个时期，批次大小为64，并获得模型在验证方面表现最好策略网络π（a t|st，θ π）和值态函数v（st|θ v）被实现为两个独立的神经网络，具有分别由256个和128个神经元组成的两个隐藏层。我们在100个纪元中训练了我们的代理人。VDAN网络和SFF-RL都是使用Adam训练的，学习率为0。00001优化。然而，值状态近似器是以0的学习率训练的。001更快的收敛。我们将ωmax和vmax分别设为5和20。我们训练了兰等人。的代理与我们的相同的时期数，探索延迟为0。0001如作者所建议的，设置其他参数。我们的方法已在PyTorch库，并在单个 NVIDIA GeForce GTX 1080TiGPU上进行实验。4.2. 结果定量结果。表1显示了结果，准确率，召回率和F1分数。标有* 符号的食谱呈现两段视频;因此，我们计算了这些视频的平均值，以在表中呈现。精确度，召回率和F1分数的结果表明，我们的方法实现了更好的性能相比，国家的最先进的技术。我们值得我们的代理的泛化能力为更高的召回值。在测试时，我们的代理成功地将帧10938测试集精确回忆F1评分SSFF FFNet我们的SSFF FFNet我们的SSFF FFNet我们的华道夫沙拉0的情况。200的情况。190的情况。340的情况。150的情况。040的情况。720的情况。170的情况。070的情况。46烤奶酪0的情况。220的情况。230的情况。270的情况。160的情况。040的情况。390的情况。190的情况。070的情况。32玉米热狗0的情况。140的情况。170的情况。180的情况。080的情况。050的情况。200的情况。100的情况。080的情况。19土豆煎饼0的情况。270的情况。220的情况。320的情况。160的情况。040的情况。290的情况。200的情况。070的情况。31香肠和土豆泥0的情况。210的情况。290的情况。320的情况。110的情况。120的情况。690的情况。150的情况。170的情况。44鹅肝酱 *0的情况。180的情况。210的情况。170的情况。160的情况。130的情况。420的情况。160的情况。150的情况。24蜗牛0的情况。330的情况。230的情况。300的情况。260的情况。080的情况。260的情况。290的情况。120的情况。28德国泡菜 *0的情况。280的情况。220的情况。250的情况。190的情况。090的情况。370的情况。230的情况。130的情况。30炖牛肉0的情况。200的情况。300的情况。270的情况。140的情况。130的情况。870的情况。170的情况。180的情况。41红酒炖牛肉0的情况。250的情况。250的情况。260的情况。110的情况。050的情况。300的情况。160的情况。090的情况。28维也纳炸0的情况。280的情况。230的情况。290的情况。170的情况。060的情况。240的情况。210的情况。090的情况。26Pasta e fagioli*0的情况。240的情况。430的情况。330的情况。120的情况。220的情况。540的情况。160的情况。290的情况。41鹰嘴豆0的情况。300的情况。250的情况。520的情况。190的情况。050的情况。950的情况。230的情况。090的情况。67乌冬面汤0的情况。220的情况。180的情况。110的情况。180的情况。040的情况。050的情况。200的情况。070的情况。07印度咖喱羊肉 *0的情0的0的情0的情0的0的0的情0的情 0的情10939况。17情况。23况。16况。11情况。13情况。16况。13况。16况。16达尔马哈尼0的情况。220的情况。380的情况。200的情况。140的情况。130的情况。230的情况。170的情况。190的情况。22云吞面0的情况。210的情况。190的情况。200的情况。150的情况。090的情况。960的情况。170的情况。120的情况。33马萨拉多萨0的情况。110的情况。140的情况。160的情况。080的情况。100的情况。740的情况。090的情况。120的情况。27是说0的情况。220的情况。240的情况。260的情况。150的情况。090的情况。470的情况。180的情况。120的情况。31STD0的情况。060的情况。070的情况。090的情况。040的情况。050的情况。290的情况。050的情况。060的情况。13表1.我们测试集的精确度、召回率和F1得分结果* 符号表示我们收集了两个配方并报告其平均值的配方在大多数情况下，我们的方法优于基线竞争对手。最佳结果以粗体显示。指令在嵌入空间中没有很好地对齐，使得代理在短时间内加速甚至减速这种情况如图5所示。图3描述了细分市场的覆盖率结果。图中的每个点表示特定命中数的覆盖率我们的方法实现了最好的性能，考虑到所有的命中数，覆盖约20%的重要段时，使用较高的阈值。图3.在我们的测试集上比较段级覆盖率。我们的方法在所有命中数上都优于竞争对手。和要关联的文档。然后，它降低了速度和加速度，以在保持高精度的同时捕获尽可能多的相关帧请注意，我们的方法在几种情况下在精度方面也优于竞争对手。一个值得注意的例外是“乌冬面汤”食谱的视频在这种情况下，我们的方法实现了定性结果。我们在图4中展示了定性结果。彩色条表示每种方法选择的帧，而连续的黑色块表示地面实况片段。框架及其相关说明在条形图上方显示。请注意，当视频中显示配方指令时，我们的方法会呈现更密集的帧选择，在这两种情况下，这表明代理学习了合理的策略。即，通过观察配方和视频帧，当在视频中导航时，代理正确地动作。消融研究。为了验证词级注意力有助于VDAN创建的嵌入空间的成功，我们计算了对应和非对应之间的余弦距离分布F1分数为0。07.这样的分数的原因是由VDAN沿着具有对应的图像和文档对。我们观察到，当添加单词级别的注意力时，10940图4.视频中配方“腐殖质”的比较方法的定性结果。彩色条表示由方法产生的帧选择，黑色连续块表示地面实况片段。请注意，在a）和b）两种情况下，我们的代理在与配方相关的视频片段中执行更密集的采样。由于这种轻微的改善，我们在所有实验中都使用了单词和重复水平的注意力。图5.我们方法论的失败案例。彩色条表示由所述方法产生的帧选择，并且连续的黑色块表示地面实况片段。VDAN为该视频生成了未对齐的矢量，这将代理引导到一个糟糕的选择。从0开始变化。804比0 807对应的对，从0. 007到0 006不对应的5. 结论在本文中，我们提出了一种基于强化学习公式的新方法我们还提出了一种称为视觉引导文档Atten- tionNetwork（VDAN）的新型网络，该网络创建了一个高度区分的嵌入空间来表示文本和视觉数据。我们的方法优于FFNet和SSFF方法的F1分数和覆盖率在视频段级别。致谢。我们感谢 CAPES 、 CNPq 、 FAPEMIG 和Petrobras 等机构为这项工作的不同我们还要感谢NVIDIA公司捐赠TITAN Xp GPU。10941引用[1] 尤瑟夫·艾塔卡尔·冯德里克安东尼奥·托拉尔巴看，听，读：深度对齐表示。arXiv预印本arXiv：1706.00932，2017。3[2] MicaelCarv alho ， Re' miCade' ne ， Da vidPicard ，LaureSoulier，Nicolas Thome，and Matthieu Cord.烹饪环境中的跨模态检索：学习语义文本图像嵌入。在第41届国际ACM SIGIR信息检索研究发展会议上，第35-44页3[3] KyunghyunCho ， BartvanMerrienboer ， CaglarGulcehre，Dzmitry Bahdanau，Fethi Bougares，HolgerSchwenk，and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。2014年自然语言处理经验方法会议（EMNLP），第1724-1734页，2014年。4[4] Ana Garcia del Molino，Cheston Tan，Joo Hwee Lim和Ah Hwee Tan。以自我为中心的视频总结：全面调查。IEEE Trans. on Human-Machine Systems，47（1）：65-76，Feb 2017. 2[5] J. Dong，X. Li和C. G. M.斯诺克从文本预测视觉特征用于图像和视频字幕检索。 IEEE Transactions onMultimedia，20（12）：3377-3388，Dec 2018. 3[6] Mengjuan Fei，Wei Jiang，and Weijie Mao.令人难忘的丰富视频摘要。 Journal of Visual Communication andImage Representation，42：207- 217，2017。2[7] M.吉格利H. Grabner和L.范古尔通过学习目标的子模块混合物进行视频总结在IEEE会议计算机视觉和模式识别（CVPR），第3090-3098页，2015年6月。6[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别（CVPR）上，第7704[9] Neel Joshi 、 Wolf Kienzle 、 Mike Toelle 、 MattUyttendaele和Michael F.科恩通过最佳帧选择实时创建hyperlapse 。 ACM Transactions on Graphics ， 2015 。二、三[10] 放大图片作者：Michael F. Cohen和Richard Szeliski。第一人称超延时视频ACM事务处理图表，33（4），2014年7月3[11] S.兰河Panda，Q. Zhu和A. K.罗伊·乔杜里FFNet：通过强化学习实现视频快进。在IEEE计算机视觉和模式识别（CVPR）上，第6771-6780页，2018年6月。二、三、六[12] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。在IEEE会议计算机视觉和模式识别（CVPR），第1346-1353页，2012年6月。2[13] Debang Li ， Huikai Wu ， Junge Zhang ， and KaiqiHuang.A2- RL：用于图像裁剪的美学感知强化学习在IEEE会议计算机视觉和模式识别（CVPR），第8193-8201页，2018年。6[14] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C. 劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在欧洲会议中计算机视觉（ECCV），第740- 755页，Cham，2014年。施普林格国际出版社. 6[15] Behrooz Mahasseni、Michael Lam和Sinisa Todorovic。使用对抗性LSTM网络进行无监督视频摘要。在IEEE计算机视觉和模式识别（CVPR）会议上，第202-211页，2017年。2[16] Niluthpol Chowdhury Mithun ， Juncheng Li ， FlorianMetze，and Amit K.罗伊·乔杜里用于视频文本检索的多模态线索联合嵌入International Journal of MultimediaInformation Retrieval，8（1）：3-18，2019。3[17] 冈本雅也和柳井敬二。摘要自我为中心的运动视频生成步行路线指南.在Pacific-Rim Symposium on Image andVideo Technology，第431-442页，2013年。二、三[18] 卢卡斯·帕莱塔和阿克塞尔·平兹基于视图整合和强化学习的主动物体识别。Robotics and Autonomous Systems，31（1）：71-86，2000. 2[19] Yingwei Pan，Tao Mei，Ting Yao，Houqiang Li，andYong Rui.联合建模、嵌入和翻译，搭建视频和语言的桥梁。在IEEE计算机视觉和模式识别（CVPR）会议上，第4594-4602页，2016年。3[20] Jeffrey Pennington，Richard Socher，Christopher D.曼宁GloVe：单词表示的全局向量。自然语言处理中的经验方法，第1532-1543页，2014年四、六[21] 布莱恩 A.Plummer ， Matthew Brown ， and SvetlanaLazebnik.通过视觉语言嵌入增强视频摘要在IEEE会议计算机视觉和模式识别（CVPR），第1052-1060页，2017年7月。二、三[22] Yair Poleg，Tavi Halperin，Chetan Arora，and ShmuelPeleg.自我采样：以自我为中心的视频的快进和立体声。在IEEE计算机视觉和模式识别（CVPR）上，第4768-4776页，2015年6月。二、三[23] W. L. S. Ramos，M. M.席尔瓦，M。F. M. Campos和E.R.纳希门托基于语义提取的视频快进。在2016年IEEE图像处理国际会议（ICIP），第3334-3338页，9月。2016. 二、三[24] Amaia Salvador，Nicholas Hynes，Yusuf Aytar，JavierMarin，Ferda Ofli，Ingmar Weber，and Antonio Torralba.学习烹饪食谱和食物图像的跨模态嵌入。在IEEE会议计算机视觉和模式识别（CVPR），2017年7月。3[25] M. Silva ， W. Ramos ， J. Ferreira ， F. Chamone ， M.Cam- pos和E. R.纳希门托一种用于语义快进第一人称视频的加权稀疏采样和平滑帧转换方法。在IEEE/CVFConf.在计算机视觉和模式识别，第2383-2392页，2018年6月。二、三、六[26] 米歇尔·M Silva，Washington L.S.菲利普·拉莫斯查蒙，乔·阿托罗·P. K。 MarioF. M. Ferreira Campos和Erick-sonR.纳希门托长话短说：一个多重要性快进自我中心的视频与相关的对象的embrands。视觉传达和图像表示杂志，53：55- 64，2018。二、三[27] 我是梅洛·西尔，瓦辛顿·路易斯·苏扎·拉莫斯，乔·佩罗·克罗克·费雷拉，马里奥·费尔南多·蒙特内哥罗·坎波斯和埃里克森·兰赫尔·纳西曼托。语义快进和稳定的自我中心的视频。在港华和10942Herve'Je

下载后可阅读完整内容，剩余1页未读，立即下载