视频数据集和模型的研究及探索

128 浏览量更新于2023-10-17 收藏 12.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

68840通过填空问答理解视频数据的数据集和模型探索0Tegan Maharaj 1 Nicolas Ballas 2 Anna Rohrbach 3 Aaron Courville 20Christopher Pal 1 1 Polytechnique Montr´eal 2 Universit´e de Montr´eal3 Max-Planck-Institut f¨ur Informatik, Saarland Informatics Campus01 tegan.maharaj,christopher.pal@polymtl.ca 2 nicolas.ballas,aaron.courville@umontreal.ca03 arohrbach@mpi-inf.mpg.de0摘要0虽然深度卷积神经网络在涉及静态图像的基准任务中经常达到或超过人类水平的性能，但将这一成功扩展到移动图像并不简单。视频理解对许多应用程序都很重要，包括内容推荐、预测、摘要、事件/对象检测和理解人类视觉感知。然而，许多领域缺乏足够的数据来探索和完善视频模型。为了满足对开发和理解视频的简单、定量基准的需求，我们提出了MovieFIB，这是一个基于对视觉障碍者的描述性视频注释的填空问答数据集，包含超过300,000个示例。除了提供数据集的统计和描述，我们还对5种不同模型的预测进行了详细分析，并将其与人类表现进行了比较。我们研究了语言、静态（2D）视觉特征和动态（3D）视觉特征的相对重要性；数据集大小的增加、采样的帧数以及词汇量大小的影响。我们证明了：单靠语言模型无法解决这个任务；我们结合2D和3D视觉信息的模型确实提供了最佳结果；所有模型的表现都明显低于人类水平。我们对不同模型给出的回答进行了人工评估，并发现MovieFIB评估的准确性与人类判断相符。我们提出了改进视频模型的途径，并希望MovieFIB挑战对于衡量和促进这个非常有趣的领域的进展有所帮助。01. 引言0目前大多数研究多模态问答（QA）的工作要么侧重于问题的自然语言方面，要么侧重于静态图像中的QA。0图1. 我们填空数据集训练集中的两个示例。0我们的目标是使用问答（QA）来消除自然语言评估中的歧义，以便针对视频模型的基准测试和开发。更具体地说，我们对移动视觉信息的模型感兴趣，这将用于另一种模态的任务 -在本例中是基于文本的问答。我们提出的数据集MovieFIB用于LSMDC（大规模电影描述和理解挑战）的填空轨道。01.1. 视频理解0计算机视觉研究中的一个长期目标是对视觉场景进行完全理解：识别实体，描述它们的属性和关系。在视频数据中，这个困难的任务由于需要理解和记忆时间动态而变得复杂。自动将包含丰富和开放领域活动的视频翻译成自然语言（或其他模态）的任务需要解决上述挑战，这对于计算机视觉来说是一个开放问题。引发物体类别识别方面令人印象深刻的最近进展的一个关键因素是大规模图像识别数据集的开发。因此，已经提供了几个大型视频数据集。68850提出了解决将视频翻译成自然语言问题的方法。这些数据集依赖于电影中作为视觉障碍者辅助工具的描述性视频服务（DVS）的转录，以获得基于文本的电影场景描述。DVS提供了与电影相关的视觉信息最重要方面的音频叙述，通常包括人类动作、手势、场景和角色外貌的描述。虽然从DVS中提取场景描述已被证明是一种可靠的自动关联视频和文本描述的方法，但DVS每个视频片段只提供一个文本描述，尽管对于给定场景来说，通常有多个描述同样适用和相关。从评估的角度来看，这是有问题的。用于视频到自然语言翻译任务的标准评估指标，如BLEU、ROUGE、METEOR或CIDEr，在目标描述很少的情况下与人类评估的相关性不高。因此，依靠这些自动化指标来评估和比较不同方法在这些数据集上的表现是有问题的。01.2. 我们的贡献0为了解决评估视频模型的问题，我们提出将视频描述问题重新构造为一个更直接的分类任务，通过将描述重新构造为一个填空问题回答（QA）问题。具体而言，给定一个视频和它的描述，其中有一个词被遮挡，我们的目标是预测缺失的词，如图1所示。我们创建填空问题的方法允许它们可以从一组视频描述中轻松自动生成；它不需要额外的手工工作，因此可以扩展到大量的查询。通过这种方法，我们已经创建了超过300,000个填空问题-答案和视频对。这些问题涉及实体、动作和属性。因此，回答这些问题意味着模型必须在一定程度上理解场景的视觉内容，以便能够检测对象和人物，以及它们的外观、活动和互动，以及视频的一般场景背景特征。我们在MovieFIB上比较了7个模型的性能；其中5个由我们运行，2个由使用我们数据集的独立工作运行，并且还与人类性能的估计进行了比较。我们让人类比较所有模型的回答。我们讨论结果，通过实验证明在MovieFIB上的分类准确性与人类判断相关，并提出未来工作的方向。数据集和挑战：sites.google.com/site/describingmovies/lsmdc-2016/download代码：github.com/teganmaharaj/movieFIB02. 相关工作02.1. 视频字幕生成0填补视频和自然语言之间的鸿沟的问题近年来引起了相当大的关注。早期处理视频字幕的模型，如[16,30]，专注于有限的领域，视频中的活动和物体出现有限，并且严重依赖于手工制作的视频特征，然后采用基于模板或浅层统计机器翻译的方法。然而，最近的模型，如[4, 10,40,42]，已经转向了更通用的编码器-解码器神经网络方法来解决开放领域视频字幕问题。在这种架构中，通常使用卷积神经网络将视频编码为向量表示，然后将其输入到通常使用循环神经网络实现的字幕解码器中。这些编码器-解码器模型的发展得益于大规模数据集的发布，如[37,28]。特别是，[37,28]利用描述性视频服务（DVS）数据构建了具有大量视频剪辑的字幕数据集。DVS是一种为视觉障碍者设计的叙述方式；它通过详细描述场景的视觉内容来补充电影的原始对话和音轨，并且适用于许多电影和电视节目。这种描述方式非常适合机器学习方法，因为所描述的事物往往与情节相关，但它们也可以作为与相关视觉内容的事件和物体的“局部”描述独立存在。在[29]中，作者创建了一个由200部高清好莱坞电影组成的数据集，分为128,085个短片（4-5秒），与转录的DVS音轨和电影剧本对齐。该数据集被用作2015年和2016年的大规模电影描述挑战（LSMDC）的基础。尽管这些数据集的开发已经产生了可以在句法和语义质量方面产生令人印象深刻的描述的新模型，但对这些技术的评估是具有挑战性的[29]。对于给定的图像，可能有许多不同的描述是有效的，并且正如我们上面所提到的，常用的度量标准，如BLEU、METEOR、ROUGE-L和CIDEr，与人类对描述质量和实用性的判断相关性较差[29]。02.2. 图像和视频问答0最早的大规模视觉问答数据集之一是在[3]中介绍的视觉问答（VQA）挑战。它由来自MSCOCO[19]数据集的254,721张图像组成，以及来自抽象场景数据集[46]的卡通般的绘图。每个图像有3个问题，总共有764,163个问题，共10个01 https://sites.google.com/site/describingmovies/68860每个问题的真实答案。该数据集包括可能的回答是是、否或可能，以及由人类提供的开放式和自由形式的问题和答案。其他工作已经研究了将MSCOCO描述算法转化为问题格式，创建了COCO-QA数据集[27]。[21]中介绍了真实世界图像问答数据集（DAQUAR），它是在包含1,449个RGBD图像的NYU-DepthV2数据集的基础上构建的[31]。他们收集了12,468个人类问题-答案对，重点关注涉及识别894个对象类别、对象颜色和场景中对象数量的问题。[43]中，作者采用了与我们类似的方法，将描述任务转化为关于图像的填空问题。在这项工作之后，[45]编制了各种视频描述数据集，包括TACoS[26]、MPII-MD [28]和TRECVID MEDTest 14[1]。与我们的工作一样，他们将描述重构为QA任务，并使用编码器-解码器RNN架构来检查解决此问题的不同方法的性能。他们的工作与我们的方法不同；他们评估描述过去、现在和未来的问题。它还不同之处在于他们使用了多项选择格式，因此可能答案的选择对模型的性能有重要影响。为了避免这些问题，我们在这里使用了开放词汇填空格式来进行视频QA的制定。最近的其他工作开发了MovieQA，这是一个基于QA制定的数据集和评估，使用了与电影相关的视频和文本资源[36]。MovieQA由408部带有来自维基百科的电影摘要、从互联网电影剧本数据库（IMSDb）获得的剧本（几乎有一半的电影可用）以及使用MPII-MD[28]注释的描述性视频服务（DVS）注释的电影组成。MovieQA的组成使其在很大程度上面向故事理解；有14,944个问题，但只有6,462个与视频片段配对（见表1）。03. MovieFIB：一个填空问题回答数据集0接下来，我们将描述数据集的创建过程并提供一些统计和分析。03.1. 创建数据集0LSMDC2016描述数据集[29]是我们提出的填空问题数据集（MovieFIB）和评估的基础。我们从注释中生成填空问题的过程很简单。对于每个注释，我们使用预训练的最大熵解析器[25,20]0表1.MovieFIB数据集与MovieQA[36]数据集的统计数据比较。单词数包括MovieFIB的空白。0MovieQA数据集训练集验证集测试集总计0#电影 93 21 26 140 #片段 4,385 1,098 1,288 6,771平均片段时长（秒）201.0 198.5 211.4 202.7 ± 216.2 #QA 4,318886 1,258 6,462 平均问题中的单词数9.3 9.3 9.5 9.3 ± 3.50MovieFIB数据集训练集验证集测试集总计0#电影 153 12 17 180 #片段 101,046 7,408 10,053 118,507平均片段时长（秒）4.1 4.1 4.2 4.1 #QA 296,960 21,689 30,349348,998 平均问题中的单词数9.94 9.75 8.67 9.720使用自然语言工具包（NLTK）[2]对注释中的所有单词进行词性标注（POS）。我们将名词、动词、形容词和副词作为候选空白，并通过手动筛选的停用词列表进行过滤（见补充材料）。最后，我们只保留在训练集中出现≥50次的单词。03.2. 数据集统计和分析0在3.1节描述的过程中，我们得到了348,998个示例，平均每个原始LSMDC注释有3个示例。我们将带有空白（例如'Sheherhead'）的注释称为“问题句子”，将填充空白的单词称为“答案”。我们按照LSMDC2016数据集的训练-验证-测试划分创建了296,960个训练集、21,689个验证集和30,349个测试集的问答对。验证集和测试集来自于与训练集不重叠的电影。我们只使用公共测试集，以免为字幕挑战中使用的盲测集提供真实答案。训练集中的一些示例如图1所示，表1比较了我们的数据集与MovieQA数据集的统计数据。有关视频文本数据集的更全面比较，请参见[29]。0图2是训练集答案计数的直方图，显示大多数单词出现100-200次，最常见的单词（her）的频率高达12,541次。为了方便查看，我们将出现频率最高的20个单词放在最后一个红色区间中。图3显示了出现频率最高的前100个单词的词云，并列出了最常见的20个单词及其计数。图4展示了按词性标记（POS）的分布情况，显示了每个类别中最常见的单词。0500100015002000Training set answer word count050100150200Word count frequencyL(θ) = 1log p(yi | vi, qi), θ).(1)68870训练集前20个（计数 > 1950）0图2.直方图显示训练集中答案（空白）的计数频率。请注意，直方图的最后一个红色区间覆盖了区间[1,950 :12,541]，其中包含了出现频率最高的20个单词，这些单词在图3中列出。0图3.单词云显示训练集答案中出现频率最高的前100个单词（字体大小按频率缩放），并列出了出现频率最高的20个答案的计数。04. 视频填空问题回答的神经框架0在本节中，我们描述了一种基于神经网络的通用方法来解决填空视频问答问题。这个神经网络为我们所有基准模型提供了基础。我们考虑一个训练集 ( v i , q i , y i ) i ∈ (1 ..N ) ，其中包含视频 v i，问题 q i 和它们相关的答案 y i。我们的目标是学习一个模型，给定 v i 和 q i 预测 y i。我们首先使用编码器网络 Φ v 和 Φ q分别从视频和问题中提取固定长度的表示，如图5所示。然后，将固定长度的表示输入到分类器网络 f 中，输出一个概率分布 p ( y | vi , q i ) = f (Φ v ( v i ) , Φ q ( q i ))。f是一个具有softmax的单层MLP。我们通过最大化训练集上的模型对数似然来估计模型参数 θ，包括编码器和分类器网络的参数 θ ={ θ v , θ q , θ f }。0图4.饼图显示训练集答案单词按POS标记超类（名词、动词或其他）划分，每个类别显示了最常见的五个单词。0图5. 填空模型架构，显示视频编码器 Φ v ，问题编码器 Φ q和MLP分类器网络 f 。0将概率分布 p ( y | v i , q i ) = f (Φ v ( v i ) , Φ q ( q i ))y 作为不同答案的概率分布。f是一个具有softmax的单层MLP。我们通过最大化训练集上的模型对数似然来估计模型参数θ，包括编码器和分类器网络的参数 θ = { θ v , θ q , θ f}。0N/A04.1. 问题编码器0递归神经网络已经成为编码文本的标准神经方法，因为文本数据由可变长度的符号序列组成。给定由单词 w t组成的问题 q 的序列，我们将我们的编码器函数定义为 h t= Φ q ( h t − 1 , w t )，其中 h 0是一个学习的参数。对于填空任务，一个由 l个单词组成的问题 q 可以写成 q = { w 0 , . . . w k − 1 , b, w k +1 , w l }，其中 b是表示被空白替换的单词的符号。为了利用这种结构，我们将我们的编码器 Φ q 分解为两个递归网络，一个前向RNNΦ f q 应用于序列 { w 0 , . . . , w k − 1}，一个反向RNN应用于反转的序列。t˜ot˜gt = BN(Wwwt, γw) + BN(Whht−1, γh) + b(2)ht=σ(˜ot) ⊙ tanh(BN(ct; γc) + bc)(4)ǫ(5)Text-only33.834.4GoogleNet-2D34.134.9C3D34.034.5GoogleNet-2D Finetuned34.735.3GoogleNet-2D + C3D Finetuned35.035.7Vocabulary* Text-only34.335.0Vocabulary* 2D + C3D Finetuned35.436.3VGG-2D-MergingLSTMs [22]-34.2ResNet-2D-biLSTM-attn [44]-38.068880{ w l , . . . , w k +1 } 。前向隐藏状态 h f k − 1和后向隐藏状态 h b k +1被连接并作为输入提供给分类器网络 f。在[22]中探索了类似的填空QA网络结构。前向和后向函数 Φ f q 和 Φ b q可以使用普通RNN实现，但是使用随机梯度下降训练这样的模型因梯度爆炸/消失问题而闻名[5,12]。虽然解决梯度稳定性问题在根本上是困难的[5]，但可以通过LSTM [13]，GRU[6]等架构变化来减轻影响。在这项工作中，我们依赖于批量归一化的LSTM变体[7]：�0其中 c t = σ ( ˜ i t ) ⊙ tanh( ˜ g t ) + σ ( ˜ f t ) ⊙ c t − 1 (3)0而 BN( x ; γ ) = γ ⊙ x − � E [ x ] �0是批量归一化变换，其中 � E [ x ] ， � Var[ x ]是从小批量样本中估计的激活均值和方差。 W h ∈ R d h× 4 d h ， W w ∈ R d w × 4 d h ， b ∈ R 4 d h，初始状态 h 0 ∈ R d h ， c 0 ∈ R d h 是模型参数。σ 是逻辑sigmoid函数， ˜ i t ， ˜ f t ， ˜ o t ，和 ˜ g t是LSTM门， ⊙ 运算符表示Hadamard乘积。04.2. 视频编码器0根据最近关于视频建模的工作[10, 33]，我们使用2D（或3D2，如指示）卷积神经网络将每个帧（或帧序列）映射为一个序列向量。视频编码器 Φ v然后从组成视频的2D帧序列中提取一个固定长度的表示。如问题编码器的描述，我们依赖于批量归一化的LSTM[7]来建模向量序列。05. 实验和讨论0首先，在第5.1节中，我们描述了5个基准模型，这些模型研究了2D与3D特征的相对重要性，以及文本信息的早期与后期融合（通过使用问题编码来初始化视频编码器，然后进行微调）。使用这些模型，我们在第5.2节中研究了文本和视频预处理的各个方面的重要性以及数据集大小的影响。然后，我们在第5.3节中描述了在MovieFIB上获取人类表现估计的设置和结果。接下来，第5.4节描述了两个独立工作[44,22]的模型和结果，这些工作使用了我们的数据集。所有这些结果在表2中总结。最后，在第5.5节中，我们对所有这些不同模型的回答进行了人类评估，并展示了使用准确性作为比较模型的标准度量得到的结果与人类评估高度相关。02 在这项工作中，2D =（高度，宽度），3D =（高度，宽度，时间）0表2.单个模型的准确性结果和估计的人类表现（两个人类实验都是在测试集的569个示例中进行的）。Finetuned表示问题编码器是使用Text-only模型的参数进行初始化的。Vocabulary*表示输出softmax仅考虑训练集中频率≥50的单词。0模型验证测试0人类文本-只有 30.2 人类文本+视频- 68.70在第5.3节中，我们描述了在MovieFIB上获取人类表现估计的设置和结果。接下来，第5.4节描述了两个独立工作[44,22]的模型和结果，这些工作使用了我们的数据集。所有这些结果在表2中总结。最后，在第5.5节中，我们对所有这些不同模型的回答进行了人类评估，并展示了使用准确性作为比较模型的标准度量得到的结果与人类评估高度相关。05.1. 基准模型的比较0文本预处理。我们使用NLTK工具包[2]中的wordpunct分词器对问题和答案进行预处理。然后我们将所有单词标记转换为小写，并得到一个包含26,818个唯一单词的词汇表。在第5.2节中，我们分析了改变词汇表大小的影响。0视频预处理。为了利用视频输入，我们研究了2D（静态）和3D（动态）视觉特征。我们使用在ImageNet上预训练的GoogLeNet卷积神经网络[35]提取静态特征。特征从pool5/7x7层提取。我们使用在Sports-1M上预训练的C3D模型[38]提取3D动态特征。我们将C3D应用于视频中连续16帧的块，并提取“fc7”层的激活。在训练过程中，我们不对2D和3DCNN参数进行微调。为了减少内存和计算需求，我们仅考虑不同视频中的固定数量的帧/时间段。除非另有说明，我们考虑每个视频25帧/时间段。这些帧/时间段在训练过程中是随机采样的。68890图6.文本（Text-only）、2D（GoogleNet-2D）和3D（Googlenet-2D+C3D）的定性示例，显示了视觉信息的重要性，特别是识别动作中3D特征的重要性。0在验证集和测试集上进行推理时，我们对训练过程中等间隔采样的帧进行了研究。我们在第5.2节中研究了采样不同数量帧的影响。0语言、静态视觉（2D）和动态视觉（3D）信息。我们基于第4节中描述的框架，测试了视频填空任务的模型变体。具体而言，我们研究了仅使用问题编码器（即语言模型）的基准模型，称为“Text-only”，以及2D和3D特征以及它们的组合对性能的影响。我们使用Adam更新规则的随机梯度下降训练基准模型[15]。模型超参数可以在补充材料中找到。结果在表2中报告。虽然仅使用文本的基准模型本身可以得到合理的结果，但是以任何形式（2D、3D或组合）添加视觉输入都可以提高准确性。我们观察到不同视觉特征的贡献似乎是互补的，因为它们可以组合在一起进一步提高性能。为了定性地说明这一点，在图6中我们展示了两个例子，其中“Text-only”模型答错了，但是GoogleNet-2D+C3D模型答对了。与MovieQA作者发现添加视频信息实际上会降低性能[36]不同，我们的实验证明了我们的数据集在针对视频理解方面的实用性，与MovieQA专注于故事理解不同。我们还比较了参数随机初始化的模型和具有直接从“Text-only”基准模型初始化问题编码器参数的模型，我们在表2中称之为“Finetuned”。Finetuned初始化可以得到更好的结果；我们经验性地观察到它倾向于减少模型的过拟合。05.2. 数据量和数据预处理的影响0词汇表大小。我们首先看输入词汇表大小的影响。除了第5.1节中描述的文本预处理外，我们还从词汇表中删除了罕见的标记。0图7.在测试集上对GoogleNet-2D（微调）的性能表现，仅使用两个采样帧即可达到可比较的性能。0仅考虑在训练集中出现超过3次的单词，将罕见单词替换为“unknown”标记。这导致词汇表大小为18,663。我们还减小了输出softmax的词汇表大小，仅考虑在训练集中出现超过50次的单词，结果得到大小为3,994的词汇表。我们在表2中将这种变体称为“Vocabulary*”，观察到减小词汇表大小可以提高性能，突出了文本预处理的重要性。0输入帧数的影响我们还研究了GoogleNet-2D基线模型的输入帧数的重要性。结果如图7所示。我们观察到验证性能迅速饱和，当我们从验证集的视频中采样2个帧时，几乎达到了最佳性能。0增加数据集大小的影响正如在ImageNet等大型数据集上的性能所证明的那样，可用的训练数据量可以成为深度学习模型成功的重要因素。我们有兴趣知道数据集大小是否是视频模型性能的重要因素，特别是是否通过增加可用的训练数据量可以期望看到现有模型性能的提高。图8报告了在增加训练视频数量时，文本模型和GoogLeNet-2D+C3D基线模型的验证和测试准确性。它显示在10％的训练数据（9,511个视频）时，文本模型和视频模型的性能非常相似（文本模型在验证集上的准确率为20.7％，GoogleNet-2D+C3D在验证集上的准确率为21.0％）。这表明在10％的训练数据中，没有足够的视频示例供模型利用，这些示例可以推广到来自视觉输入的未见示例。然而，我们观察到增加训练数据对于基于视频的模型的性能有更大的好处，相对于只有文本的模型。随着数据的增加，视频模型的性能增长速度比只有文本的模型更快。这表明现有的视频模型实际上能够从视觉输入中获得一些泛化能力。102030405060708090100% of training videos20222426283032346890036准确性0只有文本的验证，只有文本的测试，GoogleNet-2D+C3D的验证，GoogleNet-2D+C3D的测试0图8.填空准确性结果，文本模型和GoogleNet-2D+C3D微调模型在验证集和测试集上的结果，训练数据的百分比为10％，20％，50％和100％，显示出相对于验证集的测试性能的更大增益（注意，使用100％训练数据训练的模型的结果与表2中报告的结果相同）。0图9.GoogleNet-2D+C3D-5frame模型每个答案单词的真正阳性率（TPR），按照训练集中答案单词频率绘制（注意对数刻度），显示出TPR（也称为召回率、敏感性）与答案单词频率的相关性。0足够的训练样本。因此，图8突出显示增加数据集大小对于基于视频的模型来说应该更有益处。图9显示了每个单词的真正阳性率（TPR）与训练集中答案普遍性的高度相关，表明增加每个目标的示例数量可能也会增加性能。为了简洁起见，我们在这里只绘制了GoogleNet-2D +C3D的结果，但是对于所有模型都可以看到类似的相关性，可以在补充材料中查看。05.3.测试集上的人类表现0为了评估测试集上的性能，我们使用Amazon MechanicalTurk雇佣人员回答了569个测试问题的样本，这个样本在95%的置信度下代表了测试集（+/-4）。为了模拟神经网络模型所获得的信息，我们要求人员使用预定义词汇中的单词来填写空白，并提供一个可搜索的下拉菜单。为了确保回答的质量，我们遵循[8]的做法，让3个人回答每个问题。如果两个或更多人对同一个问题给出相同的答案，我们将其作为答案；如果所有人都不同意，我们随机选择一个回答作为答案。我们在这个设置下进行了两个实验：只有文本的人类实验和文本+视频的人类实验。在只有文本的实验中，工作者只看到问题，而不看视频片段；而在文本+视频的设置中，工作者既看到视频片段又看到问题。与自动化模型一样，我们观察到添加视频输入极大地提高了人类的表现。这证实了视觉信息对于解决这个任务至关重要。我们还观察到在表2中，我们最好的自动化模型与最好的人类表现之间存在显著差距（在文本+视频上），为未来的视频模型的改进留下了空间。有趣的是，我们注意到我们的只有文本模型的表现优于人类的只有文本准确率。描述性视频服务（DVS）的注释是由电影行业专业人士编写的，并且具有一定的语言风格，这似乎在文本数据中引入了一些统计规律。我们的只有文本基线直接在DVS数据上进行训练，能够利用这些统计规律，而不熟悉DVS写作风格的MechanicalTurk工作者可能会忽略这些规律。05.4. 使用MovieFIB的相关工作0我们已经公开发布了MovieFIB数据集，并且最近的两个研究已经使用了它。我们在比较中包含了这些模型的结果，并报告了这些模型在2中的最佳单模型性能。在[44]中，作者使用一个LSTM对预训练的ResNet[11]的conv5b层的ImageNet特征进行视频编码，使用帧的时间注意力和一个双向LSTM与MLP对问题进行语义注意力编码。我们将这个模型称为ResNet-2D-biLSTM-attn，它在我们的数据集上报告的准确性目前最高-单模型的准确性为38.0%，集成模型为40.7。在[22]中，作者使用了与我们基线模型类似的模型，使用一个LSTM对预训练的VGG[32]特征进行视频编码，并结合两个反向运行在问题上的LSTM的输出，通过MLP进行融合。我们将这个模型称为VGG-2D-MergingLSTMs。他们的方法与我们的方法不同之处在于，他们首先训练了一个Word2Vec[23]的问题嵌入空间。与我们一样，他们发现使用预训练的问题编码可以提高性能。68910图10. 不同模型答案的人工评估0图11.测试集上的性能和根据人工评估的性能，表明这些指标相吻合。05.5. 结果的人工评估0我们雇用了众包工人对表2中描述的模型的回答进行排名。工人们会得到视频片段和问题，以及不同模型的回答列表（包括正确答案）。图10显示了人类如何评估不同模型的回答。有趣的是，人类在大约80%的例子中评估地面真相是“完美的”，另外11%的例子是“对句子和视频有意义，但不完美”，对于3%的地面真相答案（16个例子），工人们说地面真相“一点也不合理”。我们观察到，在大多数这些例子中，问题似乎是语言风格的问题；例如，“Heher”中地面真相是“eyes”。对于一些工人来说，这可能是一种不熟悉的语言用法，这也得到了人类仅文本结果的支持（见第5.3节）。图11显示了准确性在测试集上与人工评估的良好对应，换句话说，MovieFIB上的准确性是一个有代表性的指标。06. 结论0我们提出了MovieFIB，一个基于描述性视频注释的填空问答数据集，用于视觉障碍者，拥有超过300,000个0问题-答案和视频对。为了探索我们的数据集，并更好地理解视频模型的能力，我们评估了五种不同的模型，并将它们与人类表现以及使用我们的数据集的两个独立作品[22,44]进行了比较。我们观察到同时使用视觉和时间信息对于模型在这个任务上的性能至关重要。然而，所有模型在使用视频方面的表现仍然明显低于人类水平。我们研究了训练数据数量的重要性，表明利用视觉输入的模型比仅使用文本的模型更能从训练样本的增加中受益。这表明通过增加训练数据的数量可以进一步提高性能。最后，我们对迄今为止数据集上所有模型的回答进行了人工评估。这些结果表明，MovieFIB上的准确性是一个稳健的度量标准，与人类评估相吻合。我们希望MovieFIB数据集能够有助于开发和评估更好地理解视频移动内容的模型，并且能够促进该领域的进一步研究和进展。对于未来的工作，我们建议：（1）将一个难以评估的任务（例如模态之间的“翻译”，生成等）转化为分类任务是一个广泛适用的想法，对于模型的基准测试非常有用；（2）探索时空注意力；（3）确定哪些因素对于改善视频模型性能最有帮助-增加数据量，改进现有架构，开发新的时空架构等；（4）进一步研究视频中的多模态融合（例如更好地结合文本和视觉，利用音频）。0参考文献0[1] Trecvid med 14. http://nist.gov/itl/iad/mig/ med14.cfm .访问日期：2016-11-13.0[2] S. B. aand Edward Loper and E. Klein.Python自然语言处理 . O’Reilly Media Inc., 2009.68920[3] S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L.Zitnick, and D. Parikh. Vqa: 视觉问答. In ICCV , 2015. [4] N.Ballas, L. Yao, C. Pal, and A. Courville.深入研究卷积网络以学习视频表示. ICLR , 2016. [5] Y. Bengio, P.Simard, and P. Frasconi. 用梯度下降学习长期依赖关系是困难的.神经网络, IEEE Transactions on , 1994. [6] K. Cho, B. VanMerri¨enboer, C. Gulcehre, D. Bahdanau, F. Bougares, H.Schwenk, and Y. Bengio.使用RNN编码器-解码器学习短语表示以进行统计机器翻译.arXiv:1406.1078 , 2014. [7] T. Cooijmans, N. Ballas, C. Laurent,C¸ . G¨ulc¸ehre, and A. Courville. 循环批归一化.arXiv:1603.09025 , 2016. [8] J. Deng, W. Dong, R. Socher, L.-J.Li, K. Li, and L. Fei- Fei. ImageNet: 一个大规模的分层图像数据库.In CVPR , 2009. [9] M. Denkowski and A. Lavie. Meteoruniversal: 任何目标语言的语言特定翻译评估. In Ninth Workshopon Statistical Machine Translation , 2014. [10] J. Donahue, L.Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K.Saenko, and T. Darrell. 长期循环卷积网络用于视觉识别和描述.arXiv:1411.4389 , 2014. [11] K. He, X. Zhang, S. Ren, and J.Sun. 深度残差学习用于图像识别. CoRR , abs/1512.03385, 2015.[12] S. Hochreiter. 动态神经网络的研究. Master’s thesis ,1991. [13] S. Hochreiter and J. Schmidhuber. 长短期记忆.Neural computation , 1997. [14] A. Karpathy, G. Toderici, S.Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei.使用卷积神经网络进行大规模视频分类. In CVPR , 2014. [15] D.Kingma and J. Ba. Adam: 一种用于随机优化的方法.arXiv:1412.6980 , 2014. [16] A. Kojima, T. Tamura, and K.Fukunaga.基于动作概念层次结构的视频图像中人类活动的自然语言描述.IJCV , 2002. [17] A. Krizhevsky, I. Sutskever, and G. E. Hinton.使用深度卷积神经网络进行ImageNet分类. In NIPS , 2012. [18]C.-Y. Lin. Rouge: 用于自动摘要评估的软件包. In Textsummarization branches out: Proceed- ings of the ACL-04workshop . Barcelona, Spain, 2004. [19] T.-Y. Lin, M. Maire, S.Belongie, J. Hays, P. Perona, D. Ra- manan, P. Doll´ar, and C. L.Zitnick. Microsoft coco: 上下文中的常见对象. In ECCV , 2014.[20] G. Malecha and I. Smith. 在nltk中进行最大熵词性标注,2010. [21] M. Malinowski and M. Fritz.基于不确定输入的关于真实场景的问题回答的多世界方法. In NIPS, 2014. [22] A. Mazaheri, D. Zhang, and M. Shah.使用合并LSTMs进行视频填空. arXiv:1610.04062 , 2016.0[23] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J.Dean. 词和短语的分布式表示及其组合性. In Advances in neuralinforma- tion processing systems , pages 3111–3119, 2013.[24] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu. Bleu:一种用于自动评估机器翻译的方法. In ACL , 2002. [25] A.Ratnaparkhi. 用于词性标注的最大熵模型. In EMNLP . 1996. [26]M. Regneri, M. Rohrbach, D. Wetzel, S. Thater, B. Schiele, andM. Pinkal. 在视频中基于场景描述行动. ACL , 2013. [27] M. Ren,R. Kiros, and R. Zemel. 探索模型和数据进行图像问答. In NIPS ,2

下载后可阅读完整内容，剩余1页未读，立即下载