基于人类注视数据的视频字幕注意模型

146 浏览量更新于2023-10-15 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

490基于人类注视数据的视频字幕神经注意模型Youngjae Yu<$ Jongwook Choi<$ Yeonhwa Kim<$ Kyung Yoo<$ Sang-Hun Lee<$ Gunhee Kim<$†计算机科学与工程系韩国首尔国立大学脑认知yj. vision.snu.ac.kr{wookayin，billygma，yookyung20484，visionsl，gunhee}@snu.ac.kr摘要深度神经网络中的注意力机制受到人类注意力的启发这些模型中的注意力参数是以端到端的方式进行隐式训练的，但很少有试验明确地将人类视线跟踪纳入监督注意力模型。在这篇文章中，我们研究注意力模型是否可以受益于显式人类注视标签，特别是对于视频字幕的任务。我们收集了一个新的数据集，称为VAS，包括电影剪辑，以及相应的多个描述性句子以及人类视线跟踪数据。我们提出了一个名为凝视编码注意网络（GEAN）的视频字幕模型，它可以利用凝视跟踪信息来提供句子生成的空间和时间注意。通过Ama- zon mechanical Turk对语言相似性度量和人类评估的评估，我们证明了由人类凝视数据指导的空间注意力确实提高了多种字幕方法的性能。此外，我们表明，所提出的方法不仅在我们的VAS数据集，而且在标准数据集（例如， LSMDC [24] 和 Hollywood2[18]）。1. 介绍最近，基于注意力的模型作为一种强大的深度神经网络架构，各种应用，包括图像字幕[35]、视频字幕[15]、动作识别[27]、对象识别[1]和机器翻译[2]。注意力模型受到人类视觉注意力机制的启发，人类不会立即将注意力集中在整个场景上，而是随着时间的推移依次调整场景不同部分的焦点。虽然注意力模型模拟了人类公司人类视线跟踪标签来监督注意机制。通常注意力模型是以端到端的方式训练的，因此注意力权重是隐式学习的。在本文中，我们的目的是调查是否显式的人类注视标签可以更好地指导注意力模型，并最终提高其预测性能。我们专注于视频字幕的任务，其目标是为给定的视频剪辑生成一个描述性的句子。我们选择视频字幕，因为注意机制可能有更多的空间来发挥作用，总结一系列帧，可能包含太多的信息，一个简短的输出句子。值得注意的是，我们的目标不是针对每个用例替换现有的视频字幕方法，因为人类凝视数据的获取是昂贵的。相反，我们研究了人类注视对注意机制的监督作用，这在以前的文献中还没有讨论过。我们收集了一个名为VAS（视觉注意力脚本）的新数据集，由15秒长的电影视频组成，具有多个描述性句子和凝视跟踪数据。对于模型的预训练和评估，我们还利用了大规模仅字幕LSMDC数据集[24]和仅凝视Hollywood2眼动数据集[17，18]。为了明确建模的视线预测句子生成，我们提出了一种新的视频字幕模型命名为凝视编码注意力网络（GEAN）。编码器不仅根据视频中的内容和运动生成视觉特征池，还根据递归凝视预测（RGP）模型预测的解码器通过动态关注特征池的最相关子集来生成单词序列。通过使用Amazon Mechanical Turk（AMT）的语言计量和人类评估进行定量评估，我们表明人类凝视确实有助于提高注意力模型的视频字幕准确性一个有前景的结果是，我们的模型从VAS和Hollywood2数据集的相对少量的注视数据中学习，并在没有注视注释的情况下提高了LSMDC数据集上的字幕质量它暗示我们有可能以半监督的方式利用凝视信息，并应用于491域适应或迁移学习以进一步提高性能。在引言的最后，我们强调了这项工作的主要贡献如下。(1) 据我们所知，我们的工作是第一个研究监督的影响，人类的注视数据的注意机制，特别是对视频字幕的任务。我们的经验表明，多个视频字幕方法的性能随着从人类视线跟踪数据中学习到的空间注意力而增加。(2) 我们收集了称为VAS的数据集，包括15秒长的电影片段，以及相应的多个描述性句子和人类视线跟踪标签。据我们所知，还没有与字幕和凝视信息相关联的视频数据集。(3) 我们提出了一种新的视频字幕模型命名为凝视编码注意力网络（GEAN），有效地结合了空间注意力的凝视预测模型与时间注意力的语言解码器。我们证明，GEAN不仅在我们的VAS数据集而且在标准数据集（例如，LSMDC [24]和Hollywood2 [18]）。相关的工作。简要回顾了视频字幕的几篇代表性论文。虽然一些早期的模型成功地解决了基于CRF框架的视频字幕[25]，主题模型[6]和层次结构，cal语义模型[9]，深度神经模型的最新进展为视频字幕带来了实质性进展。特别是多模态递归神经网络模型已被开发为一种占主导地位的方法;一些没有表格的例子包括[7，22，33，34]。这些模型采用编码器-解码器架构;编码器通过卷积神经网络表示视频输入的视觉内容，解码器通过递归神经网络从编码的视觉摘要中生成单词序列在这组论文中，[15]和[36]可能与我们的论文关系最密切，因为它们也是基于字幕生成的注意机制。与以前的视频字幕方法相比，我们的工作的新颖之处在于利用人类视线跟踪标签来监督注意力。此外，我们的实验表明，这样的凝视信息确实有助于提高视频字幕的性能。2. 用于字幕和凝视的视频数据集我们使用三个电影视频数据集，包括（i）仅字幕LSMDC [24] ，和（ii ）仅凝视 Hollywood2 EM （眼动）[17，18]，以及（iii）我们新收集的具有字幕和凝视跟踪数据的VAS数据集。由于LSMDC和Hollywood2EM比我们的VAS规模更大，因此它们被联合用于预训练。表1总结了数据集的一些基本统计数据。LSMDC[24].该数据集是最近发布的两个大型电影数据集MPII-MD [23]和M-VAD [30]的组合。它总共包含108，470个片段，每个片段关联大约一个句子。文本是从电影的描述性视频服务（DVS）获得的。MPII-MD和M-VAD的片段分别来自72和92部商业电影，平均长度分别为3.02和6.13秒。[17]第十七话该数据集最初是为69部电影中的12类动作识别而提出的。后来[18]收集了16名受试者使用SMI iView X HiSpeed 1250眼动仪，对所有1，707个视频片段进行跟踪。VAS。视觉注意力脚本（VAS）数据集包括144个15秒长的情感诱发片段。对于每个视频片段，我们使用EyeLink 1000 plus眼动仪收集了受试者注视和瞳孔大小的多个跟踪数据我们邀请了31名受试者，他们每个人都生成了48个片段的眼睛注视数据。我们让受试者自由观看一段视频片段来记录视线追踪，然后要求用三个不同的句子（即：一个概括的句子，两个关于故事情节的重点句子，以及背景人物）。由于片段是从商业电影中采样的此外，一个15秒的剪辑往往包括很多内容;受试者可以更容易地用短句的不同方面来解决他们的理解。我们将数据收集和分析的细节推迟到补充部分。3. 方法我们提出了凝视编码注意力网络（GEAN），如图所示。1.一、我们首先提取每帧场景、运动和中央凹的三种CNN特征（第3.1节）。递归凝视预测（RGP）模型从人类凝视中学习，以决定要聚焦场景的哪些部分（第3.2节）。编码器使用视频中的内容和运动创建特征池，其中空间注意力由RGP模型引导（第3.3节）。解码器通过顺序地关注特征池中最相关的子集来产生单词序列（第3.4节）。3.1. 视频预处理和描述我们从视频中每五帧等距采样一帧，以减少帧冗余和内存消耗，同时最大限度地减少信息丢失。我们将视频帧的数量表示为N。我们提取了三种类型的视频特征（即场景、运动和中央凹特征），所有这些都具有1，024的尺寸。(1)场景：为了呈现每个视频场景的整体视图，我们从GoogLeNet [29]的pool 5/7x 7s 1层中提取场景描述，该层在Places 205 [37]数据集上进行了预训练。每个输入帧都被缩放到256×256，并被中心裁剪到227×227的区域。(2)运动：我们提取时空运动492MFS τ=1zzRr#视频#句子(per视频）词汇大小中值长度句子# gaze数据(per视频）受试者数量VAS1444，032（28）2,515101，488（1031LSMDC [24]108,470108，536（122,8986––好莱坞2 EM [17]1,707–––27 312（16）16表1：我们的新型VAS、仅字幕LSMDC和仅凝视Hollywood2 EM数据集的统计数据来自Conv5B层的表示（即，R7×7×1，024）在Sports-1 M数据集[11]上预训练的C3 D网络[对于每一帧，我们将前16帧的序列输入到C3D。输入帧被缩放到112×112。(3)中央凹：我们从incep-tion 5 b层提取帧表示（即，R7×7×1，024）在ImageNet数据集[26]上进行预训练，然后通过空间注意力进行加权。输入帧被缩放到227×227，没有中心裁剪，以确保外围区域不会被我们将空间注意力如何对这些特征加权的细节推迟到第3.3节。为了构建字典，我们首先使用 NLTK 工具箱的wordpunct tokenizer对LSMDC和VAS数据集中除标点符号外的所有单词进行标记[4]。我们采用小写和保留生僻字的方法来保留字幕数据集的原始性.在字幕中，我们用SOMEONE标记替换专有名词，如角色3.2. 重复凝视预测（RGP）模型RGP模型的目标是在从人类注视跟踪数据学习之后，预测输入视频的每帧注视图在帧τ处的输出注视图gτ被定义为l1归一化（49×49）矩阵，其指示在49× 49网格中要注意的位置的概率分布。我们设计了基于GRU（门控递归单元）[3，5]的 RGP模型，然后是三层卷积转置（即，解卷积）、1 × 1卷积和平均池化层。图图1（b）示出了结构。我们选择GRU，因为它们在经验上优于具有较少参数的长期时间依赖性模型由于我们处理帧序列，因此我们使用GRU的变体（即，[3]中的GRU-RCN），其用卷积运算替换GRU中的全连接单元zτ=σ（W<$xτ+U<$hτ−1），（1）rτ=σ（W<$xτ+U<$hτ−1），（2）hτ=tanh（Wxτ+U（rτhτ−1）），（3）隐藏状态、更新门和复位门分别位于τ处，其尺寸均为（ 7×7×128 ）。模型参数 W 和 U 是大小为k1×k2×Ox×Oy的2D卷积核，其中k1×k2是卷积核。核大小，以及Ox和Oy是输入和输出通道维度。我们设置k1=k2=3作为内核大小。由我们-对k1×k2空间k个核，给出了hτ（i，j），zτ（i，j），位置（i，j）处的rτ（i，j）取决于输入xτ的局部邻域和先前的隐藏状态映射hτ−1。因此，隐藏的递归表示hτ可以融合3D卷积运动特征随时间变化，同时保持空间局部性。然后，我们应用一系列的三个转置卷积，然后是另一个1×1卷积，和softmax到hτ，以获得预测的凝视图gτ，形状（49×49）。图图1（b）还示出了每个层操作的尺寸和过滤器尺寸。3.3. 视觉特征图的构建我们使用3.1节中讨论的场景、运动和中央凹的特征构建了三种类型的特征池。由{ v τ } N表示的第一特征池是每个帧的场景特征的简单集合，其中τ是从1到N的帧索引。对于接下来的两个特征池，我们使用预测的凝视图作为空间注意力权重。其基本原理是，人类以具有更多神经元的高视敏度感知聚焦区域，而外围场景场以具有较少神经元的低分辨率感知[13]。粗略地模拟这样的机制发生-在人视网膜聚焦中心凹区的一个圆环上，通过对g τ∈ R49 × 49进行均值池化，并加入强度为λ的均匀分布，得到空间注意图α τ ∈ R7 × 7。我们的经验发现是，增加一个均匀分布导致更好的性能-mance;仅依赖于非常集中的区域可能会有风险，从而忽略场景中太多的相关部分我们使用λ = 0。6通过交叉验证。最后，我们对ατ进行l1-归一化以产生概率图。接下来，我们定义运动和中央凹特征池（即，{vτ}N（v）N ）如下。我们mτ=1f τ=1hτ =（1−zτ）hτ−1 +zτhτ，（4）将帧τ处的每个vτ/vτ计算为以下项的加权和：τα之间的逐元素点积和运动/中央凹其中σ是sigmoid函数，σ表示卷积，特征，两者的尺寸均为（7×7×1，024）是一个元素的乘法。输入xτat如第3.1节所示。例如，每个vτ∈R1，0247帧τ是在第10节中讨论的C3D运动特征。计算为vmτ（k）=i=1j=1α（i，j）fτ（i，j，k），M4933.1 ，通过线性变换投影到（7×7×512）作用（即，1×1卷积）。hτ、zτ和rτ表示其中fm是帧τ处的C3D conv5b运动特征。然后，我们设置池的最大长度，494空间关注−1凹attRGP1特征池{}1（×1024）软时间注意力att运动先前字-1RGP特征软时间注意力池{}（×1024）多式GRU场景Softmax特征RGP软时间池{}（×1024）关注预测词场景CNNMotion C3D中央凹CNN场景CNNMotion C3D中央凹CNN场景CNNMotion C3D中央凹CNN聚合层GRU注意（7×7×512）（7×7×128）(23×23×64）(49×49×32）(49×49×12）1x1卷积（1×1×12×1）转置转换（5×5×32×12）转置转换（5×5×64×32）转置转换（5×5×128×64）GRU-RCN（3×3×512×128）1x1卷积（1x1x1024x51ττττattattτs，m，fτq qattqatt帧凝视编码器注意解码器运动C3D（7×7× 1，024）凝视地图（49×49）(a) GEAN架构（b）RGP模型图1：拟议的凝视编码注意力网络（GEAN）架构的图示。在每帧提取三种类型的CNN特征后，编码器使用视频中的内容和运动生成视觉特征池，并通过递归凝视预测（RGP）模型生成的空间注意力进行解码器通过顺序地关注特征池的最相关子集来生成词序列在RGP模型中，我们在框内呈现过滤器大小，并在箭头旁边输出尺寸根据视频剪辑的平均长度，场景、运动和注意力特征的Nmax如果N Nmax，我们再次从通过对每个池中的所有特征{vτ}τ第一帧的特征;否则，我们统一采样ΣNut =βtvτ，其中βt=ττexp（qt）、（五）帧将适合于限制长度。我们用一个较小的游泳池场景的大小为P，因为它在剪辑中的变化是ττ=1τ �exp（qt�）比其他类型的特征更小。我们要提醒的是，所有合并的特征的维数都是1024。3.4. 字幕生成解码器我们的字幕生成解码器是基于软注意机制[2]设计的，该机制也已应用于视频字幕应用（例如，[15、36]）。因此，解码器通过每次对三个池中的不同特征进行选择性加权来顺序地生成单词。如图1中，解码器由时间注意模块、注意GRU、聚合层和多模式GRU组成qt=wTφ（Wvτ+Uht−1+b），（6）其中，每个注意力权重βt通过将顺序softmax应用于标量注意力分数{qt}τ来获得。在所有时间步上，每个特征池共享的参数包括w∈R64×1，Wq∈R64×1 ，024，Uq∈R64×512.激活φ是缩放的双曲正切函数（即，stanh（x）=1。7159·tanh（2x/3）），ht−1∈R512是注意力GRU的先前隐藏状态，这将是下面讨论格鲁乌注意我们的注意力GRU具有与正常GRU相同的形式[5]，如下所示：暂时注意力模块。针对每个特征zt=σ（Wxt+U ht−1+b），（7）attzattzattz池{vτ}τ，我们计算一组注意力权重rt=σ（Wxt+U ht−1+b），（8）{{β1}，···，{βL}}，每次βt=1attrattrattrτττττ=1τ赫拉特= tanh（Wxt+ U（rt�ht−1）），（9）步骤t，其中N是每个视觉池的长度，L是att哈特哈特att输出句子长度。这里t表示a的步长ht=（1−zt）�ht−1+zt�h˜t.（十）输出字序列;它与以前的τ不同，attattattattatt节，这意味着帧索引。每一个字输入xt是前一个单词的嵌入：t时，分布{βt}τ决定时间注意。tatt=Bwt−1，其中wt−1是V×1独热向量，并且因为我们有三组视觉池{vτ我们B∈R512×V 是单词嵌入参数。隐藏的也有三组注意力权重{β}。我们让状态表示是输入到注意机制，每个池是独立的;为了简单起见，我们在下面去掉下标s、m、f。我们计算单个聚合特征向量NX495ut∈R1，024注意模块和聚合层;也就是说，它不仅影响对特征池的关注，而且影响下一个可能单词的生成。496MMs mfM聚合层。注意，注意力特征向量在方程。（5）分别为场景、运动和中央凹的每个通道获得：Ut、Ut和Ut，然后将其馈送到聚集层。qt=φ（（[Wsut<$Wmut<$Wfut]+bg）�Ught）然后应用具有σ = 2的高斯滤波。0和l1-归一化以获得（49×49）地面实况凝视图，其可以被视为眼睛注视的有效概率分布。我们使用预测和GT凝视图之间的平均逐帧交叉熵我们使用Adam优化器最小化损失[12]，初始学习率为gsgmgFatt（十一）10- 4。为了进一步减少过拟合，我们使用图像镜像的数据扩充。其中，表示向量级联，并且参数GEAN模型的培训。我们限制了包括W∈R256×1，024，Wm∈R256×1，024，Wf∈GR512× 1024，bm∈R1，024×1G且Ug∈R1，024×512G.我们...训练句子的长度L为80个单词。公司现采用国际预测词和GT词之间的交叉熵损失，使用dropout正则化[28]，速率为0.5，聚合层，通过隐藏l2-正则化以避免过拟合。我们对两个GRU使用正交随机初始化，对卷积层和嵌入层使用Xavier初始化[8]我们使用请GRU注意然后输出一个矢量-4attqt∈R1，024，多模态GRU基于此生成下一个可能的词。多模式GRU。多模态GRU具有与注意力GRU相同的结构，唯一的区别在于输入xt是聚合层的输出和先前单词嵌入的级联：[qt，Bwt−1]∈R 1，536.也就是说，多式联运GRU夫妇参加了六，嵌入前一个单词的sual特征隐藏状态ht被馈送到字典中所有单词的softmax层，以预测下一个单词的索引亚当优化器[12]，初始学习率为10。4. 实验我们首先在第4.1节中验证了用于凝视预测的递归凝视预测（RGP）模型的性能，然后在第4.2节中报告了基于注意力的字幕上人类凝视监督的定量结果。最后，我们在第4.3节中提出了基于AMT的字幕质量人工评估结果。我们把更全面的实验结果推迟到补充部分。我们计划p（wt|w1：t−1）= softmax（W出来t+ bh ），（十二）公开源代码和VAS数据集。为了进行评价，我们将VAS数据集随机分为其中参数包括W_out∈R_V×512和b_h∈R_V×1。我们使用一个贪婪的解码方案，以选择最好的字wt，最大化方程。（12）在每一个时间步。时间和空间的注意力。建议GEAN模型利用空间和时间的注意力。的空间注意力用于生成由RGP模型预测的凝视图加权的特征池时间注意力用于选择特征池的子集，以供解码器中的模块生成单词通过顺序地运行这两个注意，我们可以显着降低时空注意计算的维数，以其他先前的工作（例如。[27，36]），这允许我们用更少的训练数据来训练模型。此外，它也类似于人类3.5. 培训我们首先训练RGP模型，然后在固定RGP模型参数的同时学习整个GEAN模型。这种两步学习导致比允许参数更新更好的性能。RGP模型的训练。我们从VAS和Hollywood2的训练集中的人类注视跟踪数据获得注视图的基础事实。在[18]之后，我们首先从原始凝视数据构建（49 ×4960/40%作为训练集和测试集。对于LSMDC和Holly-wood 2数据集，我们使用原始论文[24]和[18]分别。4.1. 凝视预测的评价我们通过测量测试集的预测和地面实况（GT）凝视图之间的相似性来我们遵循[10，18，19]的评价方案。每种算法都为每帧预测一个（49×49）凝视图，我们对其应用高斯滤波，σ=2。0的情况。然后，我们使用双线性插值将其上采样到原始帧大小。GT凝视图通过对多个受试者的注视点取平均值，然后进行σ = 19的高斯滤波来获得在[0，1]范围内的预测和GT凝视图的最小-最大归一化之后，我们计算每个测试剪辑的所有帧的平均性能指标。性能指标包括相似性度量（Sim）、线性相关系数（CC）、混洗AUC（sAUC）和AUC（AUC）的Judd实现，其详细信息见[21]。为了与[18]中的结果相一致，我们遵循[18]的评估过程;我们从测试视频剪辑中均匀采样10组3，000帧，并报告平均性能。基线。ShallowNet [19]是显着性或固定预测的最先进方法之一。由于它是为图像而不是视频设计的，我们测试了两种不同的H497VAS好莱坞2 EM度量SIMCCsAUC AUCSIMCCsAUC AUC[19]第十九话0.3610.4070.4980.8210.3690.4330.5010.855ShallowNet+GRU0.3380.4140.4950.8560.3500.4380.5080.884C3D+Conv0.3470.3990.6430.8600.4450.5610.6630.907C3D+GRU0.3440.4250.5070.8610.4660.5540.5700.909RGP（我们的）0.4830.5860.7020.9120.4780.5880.6820.924表2：VAS和Hollywood 2数据集上的注视预测评价方法随机均匀[18]第十八话SF+MF+CB [18]人类[18]RGP（我们的）AUC0.5000.8400.8710.9360.924表3：好莱坞2数据集的以AUC表示的注视预测结果帧GTRGP（我们的）ShallowNet(a)(b)（c）第（1）款图2：（a-b）中好莱坞2视频剪辑和（c）中VAS的注视预测示例。在每个集合中，我们展示了剪辑的五个代表性帧，以及GT和通过不同方法预测的预测凝视图。版本 ; 我们将其单独应用于单个帧，由（ShallowNet）表示，并将其与GRU [5]集成用于序列预测，由（ShallowNet+GRU）表示我们还实验了我们的模型的两个变体来验证递归组件的效果;（C3D +Conv）是我们的（RGP），不包括GRU-RCN部分，而（C3 D +GRU）用香草GRU替换了递归结构。定量结果。表2报告了VAS和Hollywood2 EM数据集上多个模型的注视预测结果。ShallowNets的变体不能准确地捕获人类凝视序列，即使是（ShallowNet+GRU）的递归模型。由于C3D运动特征的代表性能力和我们的循环模型的有效性，所提出的（RGP）模型在所有评估指标中以较大的裕度显著优于所有基线RGP模型的另一个优点是，与其他基线相比，它需要相对较少的参数，有利于与视频字幕模型集成，而没有过拟合的风险。表3将我们的结果与[18]中报告的好莱坞2的最佳结果在AUC度量方面进行了比较。我们的AUC为0.924，显著高于[18]中报告的最佳AUC 0.871，仅略低于人类水平0.936。对于VAS评估，我们使用VAS和Hollywood2的组合训练集训练模型，因为VAS数据集大小相对较小。对于Hollywood2评估，我们使用Hollywood 2训练数据仅用于公平比较-与[18]的结果一致。定性结果。图2显示了VAS和Hollywood2数据集上不同方法和GT之间的注视预测结果的比较。而基线（包括（ShallowNet）和（ShallowNet+GRU））无法正确定位偏向中心的注视点。另一方面，我们的模型可以有效地定位帧序列上的注视点。4.2. 视频字幕在前一节中，我们验证了所提出的凝视预测实现了最先进的性能。基于这种依赖性预测的凝视地图，我们测试它们在多大程度上有助于改善基于注意力的字幕模型。为了评估，每个视频字幕方法预测一个句子的测试视频剪辑，我们衡量的性能，通过比较其预测和地面实况句子。我们使用四种不同的语言相似性度量， BLEU [20] ， METEOR [14] ， ROUGE [16] 和CIDER [32]。基线。我们比较了四个国家的最先进的视频字幕方法。首先，（Temp-Attention）[15]是用于视频字幕的第一个软时间注意力模型之第二，S2VT [33]是序列到序列直接学习帧序列到单词序列之间的映射的模型。我们根据帧表示VGGNet-16和GoogLeNet测试了由（S2VT + VGG 16）和（S2 VT +GNet）表示的两个变体。最后，498没有空间注意力的凝视地图（即无RGP）[15]第十五话2019 - 04 - 25 00：00：002019 - 04 - 28S2VT+VGG16[33]2019- 05 - 24 00：00：002017年12月31日S2VT+GNet[33]2019 - 04 - 28 00：00：002019 - 05 - 24 00：00：00 00：00h-RNN+GNet+C3D[36]2019 - 03 - 25 00：00：002019 - 06 - 25 00：00：00GEAN+GNet2019 - 05 - 22 00：00：002019 - 05 - 25 0.153 0.091GEAN+GNet+C3D0.264 0.105 0.0422019 - 05 - 25 00：00：00GEAN+GNet+C3D+场景2017年12月31日星期一2019 -05-25 00：00：00空间注意的RGP预测凝视地图（即。（RGP）[15]第十五话2019 - 04 - 26 00：00：002019 - 05 - 25 00：00：00 00S2VT+GNet[33]2019 - 04 - 25 00：00：002019 - 06 -23 00：00：00h-RNN+GNet+C3D[36]2019 - 04 - 23 0.101 0.045 0.073 0.1960.0732017年12月31日GEAN+GNet2019年12月31日2019 - 05 - 22 00：00：00GEAN+GNet+C3D+场景0.306 0.125 0.0492019 - 05 - 25 00：00：00 00：00表4：VAS和LSMDC数据集使用或不使用RGP模型的视频字幕评价对于语言指标，我们使用BLEU（B），METEOR（M），ROUGE（R）和CIDER（Cr），所有这些都是越高越好。数据集（GEAN）w/RGP均匀随机凝视中央凝视周边凝视LSMDCVAS0.0720.0840.0690.0750.0560.0620.0610.0730.0570.068表5：学习和各种固定凝视权重之间的METEOR评分比较（h-RNN+GNet）[36]是一个分层RNN模型，它也利用软注意力方案来生成多个句子。对于（ Temp-Attention），我们使用原作者提出的源代码。对于（ S2VT+* ），我们将原始 Caffe 代码转换为TensorFlow，以便与凝视预测模块集成。我们自己实现（h-RNN+*），因为没有代码可用。定量结果。表4示出了用于视频字幕的不同方法我们还根据不同的特征组合运行我们的GEAN模型的多个变体（GEAN+*我们进行了两组实验，有或没有使用水疗中心-通过凝视映射的注意力，这是RGP模型预测的。没有RGP模型的基线意味着，按原计划执行。为了公平比较，我们使用GoogLeNet inception5b层作为所有基线的特征，除了（S2VT+VGG16）。我们从LSMDC挑战赛的排行榜中获得了LSMDC数据集的（S2VT+VGG16）结果。除此之外，我们自己生成所有结果。我们总结了一些实验结果如下。首先，所提出的GEAN模型在每组实验中对两个数据集以及有或没有RGP模型都达到了最佳性能。其次，我们观察到，大多数方法的性能随着使用RGP预测的凝视图的空间注意力而增加，尽管GEAN方法从凝视预测中受益最多。LSMDC中的这种改善不如VAS数据集显著，主要是因为LSMDC具有没有用于训练的注视跟踪数据。我们提醒RGP模型是用VAS和Hollywood2数据集训练的。最后，实验确保GEAN模型使用所有三个视觉特征池是最好的，因为（GEAN+GNet+C3D+Scene）在所有四组实验中达到最高值。不同凝视权重的影响。表5比较了RGP模块内不同注视权重之间的字幕性能。为了简单比较，我们仅报告METEOR评分。在表格中，我们的模型在学习凝视的情况下的表现位于第一列，其他基线的表现紧随其后。均匀凝视将均匀的1/49权重分配给7×7网格。随机凝视随机地选择单个箱，而中心凝视挑选网格中的中心（4，4）然后，通过具有σ = 1的高斯滤波来平滑随机和中心注视的那些一个热矩阵。0的情况。最后，外围注视是中心注视的l1如表5所示，通过我们的模型学习的凝视导致最佳的字幕性能。在固定的注视权值中，均匀的注视是最好的，这暗示了使用整个场景比关注场景的错误部分更好定性结果。图图3示出了针对（a）正确描述、（b）相关描述和（c）不正确描述的视频字幕结果的三个示例。在帧中，我们提出了GT人眼固定与彩色圆圈，和注视预测与白色的出席地区。我们还显示了通过不同方法预测的字幕以及GT。我们观察到，我们数据集VASLSMDC语言指标B1B2B3MRCRB1B2B3MRCR499（GEAN）w/ RGPvs（S2VT）带RGP（h-RNN）w/RGP（Temp-Attention）w/RGPLSMDC58.7%（176/300）59.3%（178/300）73.7%（221/300）VAS61.0%（183/300）69.7%（209/300）76.7%（230/300）表6：Amazon Mechanical Turk（AMT）在LSMDC和VAS数据集上的成对偏好测试结果我们提出了土耳其人投票支持（GEAN）w/ RGP的响应百分比，而不是RGP基线。（GEAN）（S2VT）（h-RNN）（注意）LSMDC65.3%（196/300）58.0%（174/300）59.7%（179/300）60.7%（182/300）VAS67.0%（201/300）60.7%（182/300）62.7%（188/300）63.3%（190/300）表7：有或没有RGP的模型之间的AMT成对偏好检验的结果。例如，第二列显示了Turkers投票支持（S2VT）和RGP的百分比，（一）(b)(c)有人在俱乐部里和某人跳舞。（Temp-Attention）某人走开了，某人面对着某人。（S2VT+GNet）团队正在与一位穿着白色连衣裙的红发女子跳舞。（GT）（1）人们和松鼠在聚会场所跳舞。（2）一只松鼠从汽车上滑下来，在有游泳池的俱乐部里跳舞。（3）人和仓鼠在房子（GEAN）汽车停了下来，一辆黑色SUV沿着道路行驶，道路因碰撞而被封锁。有人开卡车。（S2VT+GNet）汽车拉起汽车，卡车撞到路上。（GT）（1）汽车在隧道中快速行驶，有人瞄准时发生爆炸。（2）有人逃离警察，造成大量伤亡。有个女人在舞台上和别人跳舞。一个穿西装的男人脱掉了他的夹克。（S2VT+GNet）两个女孩在观众席上跳舞。（GT）（1）有人用剑与周围的人战斗。(2)有人一个人对抗很多穿西装的人。图3：（a）正确，（b）相关和（c）不正确描述的视频字幕示例。在每一帧中，我们用彩色圆圈呈现地面实况（GT）人眼注视，并用白色对关注区域进行注视预测。我们展示了通过不同方法预测的字幕以及GT。我们在补充资料中提供更多、更清晰、更大的例子方法与GT人眼注视点匹配良好，并且由我们的方法生成的描述比基线更准确。我们提出更多，更清楚，更大的例子，在补充。4.3. 通过AMT进行人体评价我们使用Amazon Mechanical Turk（AMT）进行用户研究我们进行成对比较（A/B测试）;在每个AMT任务中，我们以随机顺序显示由不同方法生成的剪辑和两个字幕，并要求turkers在不知道哪个来自哪个方法的情况下选择一个更好的。对于测试用例，我们从LSMDC和VAS数据集中随机抽取100个样本。我们为每个测试案例收集三个特克人的答案。表6显示了LSMDC和VAS数据集上的AMT测试结果，其中我们将我们的（GEAN）与RGP模型与RGP基线进行了比较，包括（ h-RNN ），（ S2 VT ）和（Temp-Attention）。我们观察到，一般的AMTturkers喜欢我们的方法的输出句子的基线这些反应幅度比语言度量差异更重要。表7总结了两个实施例之间的AMT测试的结果500使用或不使用RGP的方法。也就是说，对于我们的模型和其他基线，我们评估RGP的注视预测在多大程度上改善了一般用户感知的字幕质量因此，即使使用RGP模型的基线也比没有RGP的基线获得更多的投票这可能是另一个证据，表明凝视监督有助于甚至基线产生更好的描述性句子。5. 结论我们提出了凝视编码注意力网络（GEAN），利用人类凝视数据来监督基于注意力的视频字幕。通过对我们新收集的 VAS ，仅字幕 LSMDC 和仅凝视Hollywood2数据集的实验和用户研究，我们表明多种基于注意力的字幕方法受益于凝视信息，以获得更好的字幕质量。我们还证明了GEAN模型优于最先进的视频字幕替代品。鸣谢。本研究部分由韩国国家研究基金会融合研究中心（2015R1A5A7037676）支持。Gunhee Kim是通讯作者。501引用[1] J. Ba，V.Mnih和K.Kavukcuoglu 具有视觉注意的多目标2015年，国际会议。1[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。1、4[3] N.巴拉斯湖姚角，澳-地Pal，和A. C.考维尔Delv-深入卷积网络学习视频表示。ICLR，2016年。3[4] S. Bird，E. Loper和E.克莱恩用Python进行自然语言处理。O'Reilly Media Inc. 2009. 3[5] K. 乔湾，巴西-地 VanMerrienboe r，C. Gul cehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用RNN编码器-解码器学习短语表示在EMNLP，2014年。三、四、六[6] P. Das，C.许河，巴西-地F. Doell和J. J·科索一句话一千句话：通过潜在主题和稀疏对象拼接的视频语言描述。CVPR，2013。2[7] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期回流卷积网络。CVPR，2015。2[8] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。AISTATS，2010年。5[9] S. 瓜达拉马 N. 克里希那穆西 G. 马尔卡南卡，S. 韦努戈帕兰河 Mooney ， T. Darrell 和 K. 萨恩科YouTube2Text：使用语义层次和零拍消除识别和描述任意活动。InICCV，2013. 2[10] M. Jiang，S. Huang，J. Duan，and Q. 赵洋葱：语境中的显着性。 CVPR，2015。5[11] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。CVPR，2014。3[12] D. Kingma和J. BA. Adam：一种随机优化方法。2015年，国际会议。5[13] A. M. Larson和L.C. 洛斯基中心视觉与周边视觉对场景要点识别的贡献视觉杂志，2009年。3[14] S. B. A.

下载后可阅读完整内容，剩余1页未读，立即下载