从上述论述总结出以下20字中文标题：从视频中自动生成问题和答案

8 浏览量更新于2023-10-13 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1686Just Ask：Learning to Answer Questions from Millions of Narrated Videos（提问：从数百万个视频中学习回答问题）AntoineY ang1，2，Antoine Miech1，2，+，Josef Si vic3，Iv an Laptev1，2，Cordelia Schmid1，21InriaParis2De´partement d'informatiquehttps://antoyang.github.io/just-ask.html摘要最近的视觉问答方法依赖于大规模的注释数据集。然而，视频的问题和答案的手动注释在这项工作中，我们建议避免手动注释，并生成一个大规模的训练数据集的视频问答利用自动跨模态监督。我们利用一个在文本数据上训练的问题生成Transformer，并使用它来演讲：再次将它们对折，形成三角形。生成的问题：你怎么做一个三角形？生成的答案：再对折一次演讲：这架钢琴的声音太棒了生成的问题：这是什么乐器的声音？生成的答案：钢琴从转录的视频叙事生成问题-答案对给定叙述视频，我们然后自动生成具有69 M视频-问题-答案三元组的HowToVQA 69 M数据集为了处理该数据集中不同答案的开放词汇，我们提出了一种基于视频-问题多模态Transformer和答案变换器之间的对比损失的我们介绍了零镜头视频问答任务，并显示出优异的成绩，特别是对于罕见的答案。此外，我们证明了我们的方法在MSRVTT-QA，MSVD-QA，ActivityNet-QA和How2 QA上显着优于现有技术。最后，为了进行详细的评估，我们引入了iVQA，这是一个新的VideoQA数据集，具有减少的语言偏见和高质量的冗余手动注释。1. 介绍回答有关视频的问题需要详细了解视觉内容及其与自然语言的关联事实上，考虑到问题的多样性，用于视频问题回答（VideoQA）的方法应该推理场景、对象和人的动作以及它们的复杂的时间交互。VideoQA的当前方法依赖于在具有问题和答案对的手动注释数据集上训练的深度全监督模型[22，31，34，35，40，42，48]。然而，收集和注释VideoQA数据集是麻烦的、耗时的、昂贵的，并且因此不可扩展。因此，当前VideoQA数据集相对较小（参见图2）。这种限制阻碍了3布拉格捷克技术大学捷克信息学、机器人学和控制论研究所图1：给定带有转录叙述的视频，我们杠杆-年龄语言模型和跨模态监督，以获得大规模的视频问答数据。上面是我们数据集中的两个例子。这是该领域的进步，因为最先进的VideoQA模型需要大量的训练数据。在这项工作中，我们使用一种自动生成VideoQA数据集的新方法来解决规模问题，参见图1的示例。这个想法是利用跨模态监督与纯文本工具一起生成问题，并自动注释VideoQA 大量现成的有解说的视频。受使用基于转换器的语言模型[10]的语言生成的最新进展的启发，我们利用在问答文本语料库上训练的转换器来从文本中生成一组不同的非脚本问题和相应的开放词汇答案。通过将这些转换器应用于大规模HowTo100 M数据集[58]的叙述视频的语音转录，我们创建了HowToVQA 69 M，这是一个开放式的VideoQA数据集，具有6900万个视频-问题-答案三元组和超过1600万个独特答案的多样化集合（见图3）。如图2所示，我们的HowToVQA69M比之前的VideoQA数据集大两个数量级。考虑到现有数据集的有限多样性，当前方法通常将视频问题回答简化为分类问题，其中频繁的答案被分配给唯一的类。通常，考虑多达5K个唯一的可能答案。然而，这种方法不能扩展到我们数据集中16M不同答案的开放词汇表。为了解决这个问题并启用具有高度多样化问题的视频问答1687和答案，我们介绍了一个训练过程的基础上对比学习之间的视频问题多模态Transformer和答案变换器，可以处理自由形式的答案。这样就不需要定义一组离散的答案类。我们工作的目标是为VideoQA提供真正开放为了评估泛化，我们提出了一个新的零拍摄视频QA任务，我们亲-任何人工监督的视觉数据在训练过程中。我们的VideoQA模型，在HowToVQA69M上训练，在多个现有设备上展示了出色的零爆结果-108107106105104HowToVQA69M（我们的）MSRVTT-QA视频QAYouTube2Text-QASVQATVQAActivityNet-QATGIF-QAMSVD-QAHow2QAKnowIT VQADramaQA社会智商MovieQAPororoQA103104105106的视频数据集，尤其是罕见的答案。此外，当在目标数据集上进行微调时，我们的模型在MSRVTT-QA [84]、MSVD-QA [84] ActivityNet-QA [91]和How2 QA [46]上的表现明显最初的实验表明，开放式VideoQA [84，91]的现有基准包含语言偏见[28]，即，他们的问题通常可以在不看视频的情况下得到回答。为了更好地评估视频问答中视觉信息的影响，我们引入了一个新的开放式视频问答数据集（iVQA），其中包含手动收集的问题和答案，其中我们排除了无需观看视频即可回答的问题。此外，为了考虑多个可能的答案，iVQA包含每个问题的五个独立收集的答案。总之，我们的工作提出了以下三个贡献：(i) 本文介绍了一种自动生成大规模视频质量分析数据集HowToVQA69M的方法。基于跨模态监督，我们使用在现有的纯文本问答语料库上训练的转换器，并从视频和转录的叙述中生成视频问答三元组。(ii) 我们在HowToVQA69M上训练了一个VideoQA模型，并在多模态视频问题Transformer和答案转换器之间进行了对比学习。我们在新的零拍摄VideoQA任务中展示了我们模型的效率，并在四个现有的VideoQA基准测试中表现优于最先进的水平： MSRVTT-QA 、 MSVD-QA 、 ActivityNet-QA和How2QA。(iii) 最后，我们介绍了一个新的手动注释的开放式VideoQA基准iVQA，排除非视觉的问题，并包含多个可能的答案，swers为每个问题。代码，数据集和训练模型可在[1]中获得。2. 相关工作视觉问答（VQA）。VQA通常通过将图像-问题（或视频-问题）表示分类到固定的答案词汇表已经提出了将空间图像表示和顺序问题表示相结合的各种方法[7，9，24，55，83，85，88]。更具体地涉及图2：我们提出的大规模How-ToVQA 69 M数据集与现有VideoQA数据集的比较。视频域（VideoQA）中，在运动和外观方面的时空视频表示已经在[22，26，31，33，34，35，40，41，42，48，84，86，94，102]中使用。上述方法仅限于预定义的答案词汇表，并且难以应用于特定数据集之外。为了解决这个问题，Huet al.[30]提出了一种联合嵌入，其中图像问题表示可以与自由形式的答案相匹配。我们的VideoQA模型遵循这一想法，但不是依赖于有限规模的手动注释数据集，而是在我们自动生成的大规模VideoQA数据集上对其进行训练。与使用附加视频功能（如字幕）的一些先前作品相比[12，36，37，43，44，46，74，80，87]，我们的视频表示完全基于视觉信息，因为我们专注于视频的视觉理解。为了评估VQA模型的泛化，Teney和Hengel [75]通过回答以前未见过的问题来定义零激发VQA，这是一项相关但与我们在第6.2节中提出的零激发VQA任务相比挑战性较小的任务。Vatashsky和Ullman [78]使用COCO图像注释[51]解决VQA我们提出的零拍摄VQA任务类似于零拍摄视频检索[57]或零拍摄动作识别[61]。可视化问题生成（VQG）已在[59]中引入。[50]和[67]中的方法提出联合学习VQG和VQA以改进图像VQA任务。然而，这些工作不生成问题以获得额外的训练数据，而是使用可视化数据注释来生成问题作为额外的损失。VideoQA数据集。手动收集和注释视频问答三元组是麻烦的、昂贵的并且难以扩展。因此，当前VideoQA数据集[11，16，17，21，27，33，38，43，46，60，69，74，84，90，91，92，93]大小有限，因为最大的TGIF-QA [33]仅包含72 K注释剪辑（更多细节请参见图2）。为了解决这个问题，一些作品已经探索了手动注释视频描述[33，79，84，93，95、96、97]，用于自动生成视频QA数据集，使用基于规则的方法[29，64]一些问题1688Ç√图3：我们的自动方法，用于从叙述（字幕）视频大规模生成视频-问题-答案三元组。首先，在仅语言训练阶段（左），在手动注释的仅文本问答语料库上训练基于变换器的答案提取器Ta和问题生成器Tq[62]。然后，视频-问题-答案三元组从叙述视频自动生成（右）。使用标点符号p从ASR转录的叙述中提取各个句子。用答案提取器Ta和问题生成器Tq分析每个提取的句子以产生答案a和问题q。叙述的时间戳被用于获得与所提取的句子临时对齐的视频剪辑v，以形成输出的视频-问题-答案三元组（v，q，a）。相反，我们建议使用视频叙述，可在大规模没有人工监督。此外，基于规则的生成需要由专家手动创建规则，这是昂贵的，并且最近也被我们的方法中使用的神经问题生成[20，89，99]所超越。大规模的视觉和语言预训练。几种最新的方法[5，15，18，32，45，47，49，53，54，70，使用具有图像帽的数据集预训练多模态视觉语言表示，诸如变换器，例如，COCO [14]，概念说明[68]和视觉基因组[39]。这些方法通常使用通用目标进行优化，例如掩蔽语言损失和文本图像匹配和图像标题生成的损失。在我们的工作中，我们使用大量的叙事视频来预训练模型。与以前工作中的任务不可知的预训练相比，我们展示了特定于任务的预训练对我们的目标VideoQA任务的好处。从视频中学习。在这项工作中，我们从最近的HowTo100M数据集[58]中挖掘了未标记的教学视频使用这种现成数据的方法在几项任务上显示出显著的改进，包括视频检索，动作定位，动作识别和视频字幕[25，56，57，58，71，72，100]，有时优于完全监督的基线。最近的一些作品使用视频问答的叙述视频。Amrani等人[6]提出了一种文本视频预训练方法，并对VideoQA进行了微调。Li等[46]提出HERO，一种限制于多项选择VideoQA的预训练方法，其中问题和答案被视为单个文本流。Seo等人[66]提出了一种基于下一个话语预测和微调的视频质量评估预训练方法与这些具有任务不可知预训练的方法不同，我们提出了一种专门用于VideoQA的预训练方法，使用自动生成的问题和来自叙述视频的回答对，并在第6节中显示了我们方法的优越性。3. VideoQA数据本节介绍了我们从视频和描述视频内容的转录叙述生成大规模VideoQA数据集的方法。第3.1节介绍了我们提出的生成程序。然后，第3.2节描述了产生的HowToVQA69M数据集。3.1. 生成视频问答三元组我们解决了从具有转录的口语叙述的大规模教学视频数据集生成视频问答三元组的任务[58]。这是一项具有挑战性的任务，因为抄写错误和缺乏标点符号。我们还希望获得高度多样化的数据。为了解决这些问题，我们建议利用在文本数据上训练的强大语言模型。我们的方法如图3所示，下面给出详细信息。我们首先介绍有关生成过程的细节。设s是用自动语音识别（ASR）获得的转录语音数据首先，我们使用递归神经网络p来推断转录的语音数据中的标点符号。我们将加标点的转录本表示为p（s）。我们前-在时间上与所推断的感测对准的片段视频剪辑V。使用ASR时间戳的时间p（s）。我们发现，当应用于句子而不是来自HowTo100M数据集的原始句子片段时，生成效果明显更好，参见表1。其次，对于每个句子，我们应用Transformer T a，以提取一组潜在答案：a=Ta （ p （ s ））。第三，我们使用另一个TransformerTq来生成给定每个转录句子的问题，并且视频问答自动生成原始叙述提取的语句应答提取器“put提问生成部输出语句提取器摘录答案“我把他和什么动物的照片贴在一起了？”生成的问题开始时间结束时间句子对齐视频“他和另一只猴子在一起。“I“as“monkey“猴子”“to人工标注的问答文本语料库问题生成器Transformer应答提取器Transformer培训培训1689∈∈图4：从HowToVQA 69 M数据集中的叙述视频生成的视频-问题-答案三元组的示例。绿色指示相关示例，橙色（倒数第二个示例）指示问答生成失败，并且红色（最后一个示例）指示所生成的问答与视觉内容无关。每个提取的答案使得：q=T q（a，p（s））。输出是一组视频-问题-答案三元组（v，q，a）。我们现在解释有关语言模型及其训练过程的细节。对于ASR，我们遵循[58]并使用YouTube提供的可用ASR数据。对于标点符号p，我们使用 [76] 中的 BRNN 模型和 [2] 中可用的权重，在IWSLT2011上训练[23]。对于Ta和Tq，我们分别使用基于变换器的T5-small和T5-base模型[62我们遵循[4，13，52]，并使用[3]中提供的权重，分别在SQuADv1[63] 上训练答案跨度提取和答案感知问题生成。SQuADv1是一个纯文本问答数据集，由问题组成，答案是从段落中提取的文本片段。3.2. HowToVQA69M：大规模VideoQA数据集我们已经将先前描述的过程应用于来自HowTo100M数据集的所有 1.2M 原始视频 [58] 。结果是HowToVQA69M，这是一个包含69，270，581个视频剪辑、问题和答案三元组（v，q，a）的数据集。How-ToVQA 69 M比当前可用的任何VideoQA数据集都大两个数量级（参见图2）。平均而言，每个原始视频产生43个视频剪辑，其中每个剪辑持续12.1秒并且与1.2个问题-答案对相关联。问题和答案平均分别包含8.7和2.4个单词。HowToVQA 69 M是高度多样化的，包含超过1600万个唯一答案，其中超过200万个唯一答案出现超过一次，超过30万个唯一答案出现超过十次。HowToVQA69M数据集的（v，q，a）三联体示例如图4所示。手动评估 HowToVQA69M 。如图 4 所示，HowToVQA69M注释有噪声，这可归因于：（i）语音转录中的错误，（ii）不描述视频内容的语音，或（iii）问答生成中的错误。我们通过为每个三联体收集5个不同的注释以减少方差，手动评估HowToVQA69 M中100个随机采样的（v，q，a）三联体的质量，并在表1中报告结果。在由我们的方法生成的100个三元组中，我们发现30个被正确地生成并且与视频内容很好地匹配，31个被错误地生成，并且39个被正确地生成，但是表1：我们的生成方法（有和没有标点符号）在100个示例的随机样本上的手动评估，与[ 29 ]的基于规则的问答生成进行比较。编号通过5个注释者之间的多数投票获得。与视频内容无关。为了证明我们的自动问答生成过程的不同组件的影响，我们将其与（i）我们的方法的变体进行比较，该方法不使用标点符号将转录的叙述分割成句子，以及（ii）基于规则的问答生成方法[29表1证实了标点符号的重要性，并证明了与[29]相比，我们的生成方法的优越性能。评估者间一致性统计和生成数据集的更多详细信息见补充材料。与[29]的进一步比较见第 6.5 节。接下来我们将描述如何使用HowToVQA69M来训练我们的VideoQA模型。4. VideoQA模型和培训程序本节在第4.1节中介绍了我们的VideoQA模型，并在第4.2节中描述了它的训练过程。图5给出了模型的概述。4.1. 视频问答模型如图5所示，我们的VideoQA模型由两个分支组成：（i）基于Transformer [77]的视频问题模块f它将一对视频v和问题q作为输入，对v和q之间的多模态时间交互进行建模，然后输出嵌入向量f（v，q）IR_d。（ii）第二分支是文本编码器g，其将答案a嵌入为g（a）IRd.我们将我们的模型表示为 VQA-T ，代表VideoQA- Transformer。请注意，使用联合（视频，问题）和答案嵌入使我们能够处理新的HowToVQA69M数据集中存在的答案的大型开放式变量，因为模型可以测量信息之间的相似性ASR：答案：橙色加入一些你最喜欢的糖屑，混合一下。问：你能在混合物中添加什么？答案：洒ASR：...我将向你展示如何解锁你的ipod touch。问：我会给你看什么？回答：如何解锁你的ipod touchASR：...我收到了一百多封邮件。问：我收到了多少封电子邮件？答：一百多个标点符号生成方法正确 QA生成与QA无关样本视频故障✓✗✓Heilman等人[29] 17我们的23我们的30544931292839ASR：理想情况下，你会想要一个中等传播衣领...问：你想要什么样的项链？答：中等蔓延领1690视频：视频提问Transformer屏蔽语言建模损失对比损失...轨道问：男人在哪里？答：轨道NN| | ∼nΣNas：（v i，q i，a j）with a j a i. 特别是，如果相同的负-应答Transformer图5：VideoQA培训架构概述。把视频问题嵌入和任何答案的嵌入。这与使用分类答案模块[31，34，35，40，102]形成对比，分类答案模块[31，34，35，40，102 ]只能从固定的预定义的答案词汇表中选择。我们的嵌入也可以很容易地在不同的下游VideoQA数据集上进行微调，这些数据集可能包含在训练中没有看到相比之下，分类答案模块必须在答案的词汇改变时重新训练。接下来，我们给出语言和视频表示的细节关于模型的更多详细信息见补充材料。单词表示法。问题和答案通过WordPieces嵌入[81]单独标记化，并馈送到 DistilBERT [65] 。 DistilBERT 是BERT的一个轻量级版本[19]，在英语维基百科和多伦多图书语料库[101]上以自我监督的方式进行预训练。视频表示。我们使用冻结的S3 D [82]使用MIL-NCE[57]在 HowTo 100 M [58] 上预训练。该模型仅在HowTo100M上从头开始预训练。4.2. 训练过程如果在一个批次中存在多次，我们只计算一次。我们发现，多次对相同的否定答案进行采样会导致更差的结果（见6.6节），我们认为这是由于预训练和下游数据集中答案的分布不同去除重复底片有助于减轻这种差异。对下游VideoQA数据集进行微调。我们利用在HowToVQA69M 上预训练的模型，并在下游的VideoQA数据集上对其进行微调，该数据集通常具有较小的答案V词汇表（例如，V4000）。为此，我们通过从V中的所有不正确答案构造否定集合i来调整（1）中的训练目标。注意，在这样的设置中，（1）变得等同于优化标准交叉熵目标。在多项选择VideoQA的特定情况下，否定集合i是每个样本的不正确答案集合。Masked Language Modeling（MLM）。除了对比损失（1）之外，我们还在预训练和微调期间将掩蔽损失[19]应用于我们发现，当微调DistilBERT权重时，这具有正的正则化效果（参见第6.6节）。5. iVQA：用于VideoQA评估的在本节中，我们介绍了我们的结构化VQA数据集（iVQA）。我们从HowTo100M视频的一个子集开始，并使用问题和答案手动注释视频剪辑。我们的目标是（i）通过包括每个问题的五个正确答案注释来提供明确定义的评估，以及（ii）避免可以在不观看视频的情况下回答的问题。数据集描述如下，更多细节见补充材料。本节描述了我们的VideoQA模型在HowToVQA69M数据集上的训练及其在下游VideoQA数据集上的微调。关于HowToVQA69M的培训我们希望使一对视频和问题（v，q）接近其正确答案a由它们的嵌入的点积f（v，q）g（a）度量。相反，不正确的答案应该很远，即，具有它们的嵌入的点积应该很小。形式上，这可以通过最大化以下对比目标来实现：数据收集。通过随机采样7-30秒获得iVQA视频。来自HowTo100M数据集的视频剪辑[58]。我们避免了数据集之间的重叠，并确保iVQA和HowToVQA69M没有视频。每个剪辑都在Amazon Mechanical Turk上手动注释了一个问题和5个答案。我们要求工作人员注释有关视频中的对象和场景的问题，并删除无法注释的视频。注释的正确性由作者手动验证。此外，我们通过排除那些无需观看视频就能回答的问题来手动减少语言偏见。Maxf、gΣi=1日志ef（vi，qi）g（ai）ef（vi，qi）g（ai）+（v′，q′，a′）Nif（v′，q′）g（a′），（一）视频.为了增加多样性，每个问题由5个不同的工人回答。答案限于4个字，并辅以置信度。将删除收到多个低置信度答案的问题其中（ vi，qi， ai）表示从HowToVQA69M生成的（视频剪辑、问题、答案）给定一个特定的正三元组（vi，qi，ai），我们通过将训练批次中的错误答案aj连接到视频问题对（vi，qi）来构建负三元组统计分析iVQA包含10，000个视频剪辑，每个剪辑有一个问题和五个相应的答案。我们将数据集分为60%/20%/20%的训练/验证/测试子集。平均而言，问题和答案包含7.6和1.1分别的话。视频剪辑e1691∅2方法预训练数据随机QA-THowToVQA69MVQA-T HowTo100M VQA-T（Ours）HowToVQA69MiVQA MSRVTT-QA MSVD-QA活动Net-QAHow2QA Top-1 Top-10 Top-1Top-10 Top-1 Top-10 Top-1 Top-10 Top-1 0.09 0.9 0.02 0.2 0.05 0.5 0.05 0.5 25.02019 - 05 - 25 10：00：001.9 11.9 0.3 3.4 1.4 10.4 0.3 1.9 46.212.2 43.3 2.9 8.8 7.5 22.4 12.2 46.5表2：与零激发视频QA基线的比较。报告了前1名和前10名（对于开放式数据集）的准确度第6.2节中的视频QA任务。VideoQA和替代培训策略的最新技术水平比较见第6.3节。第6.4节列出了罕见答案的结果。最后，我们比较了我们的视频QA生成AP-问：他们在做什么设计？GT答案：玫瑰（4），玫瑰花（1）QA-T（HowToVQA 69 M）：风车VQA-T（HowTo 100 M）：裱花袋VQA-T（HowToVQA 69 M）：玫瑰问：男子触摸的是什么材料？GT答案：木材（5）QA-T（HowToVQA69M）：砖VQA-T（HowTo 100 M）：电锯VQA-T（HowToVQA 69 M）：木材问：男人手里拿的是什么？GT回答：铁锹（3），铁锹（2）QA-T（HowToVQA 69 M）：币VQA-T（HowTo 100 M）：plantingVQA-T（HowToVQA69M）：铲问：女人在装饰什么？GT答案：蛋糕（5）QA-T（HowToVQA69M）：纸杯蛋糕VQA-T（HowTo 100 M）：raspberriesVQA-T（HowToVQA69M）：cake在第6.5节中探讨先前的方法，并在第6.6节中介绍消融研究。6.1. 评价方案数据集。我们使用两个数据集进行训练，使用五个数据集进行评估，如下所述。我们遵循开放式设置的先前评估协议[40，91]，并使用固定的训练答案词汇表。除非另有说明，否则我们报告top-1测试准确度，并使用原始分割进行训练，验证和测试。对于训练，我们使用第 3.2 节中介绍的新的HowToVQA69M数据集，在训练和验证子集中有90%和10%的视频。为了比较我们还使用大规模文本视频数据集HowTo100M[58]来训练我们的模型，该数据集包含具有转录叙述但没有视频问答三元组的视频。下游数据集的测试和验证视频问：最后会结出什么果子？问题：在屏幕包括HowTo100M和HowToVQA69M。GT答案：西瓜（5）QA-T（HowToVQA69M）：菠萝VQA-T（HowTo 100 M）：开槽匙VQA-T（HowToVQA 69 M）：西瓜在视频的开头GT回答：茶壶（4），壶（1）QA-T（HowToVQA 69 M）：mirrorVQA-T（HowTo100M）：espressoVQA-T（HowToVQA 69 M）：茶壶我们评估了四个开放式VideoQA下游数据集的结果： MSRVTT-QA[84] 、 MSVD-QA[84] 、ActivityNet-QA [91]和我们的新iVQA数据集（见第5节）。我们还评估了多项选择VideoQA图6：iVQA上的零拍摄VideoQA。地面实况（GT）答案旁边的值表示给出答案的注释器的数量。是18.6秒大多数问题至少有两个注释者提供相同的答案。与[8]类似，这促使我们为给定答案a定义以下准确性度量：acc（a）= min（#groundtruthanswers=a，1）。该指标将100%的准确度分配给至少由2个注释者确认的答案，将50%的准确度分配给仅由1个注释者确认的答案，否则将0%的准确度分配给答案请注意，该定义特定于每个问题的多个6. 实验本节演示了使用我们生成的HowToVQA69M数据集进行训练的好处，并将我们的方法与最先进的方法进行了比较。我们首先在第6.1节中概述了所使用的数据集、基线方法和实施细节。然后，我们提出了新的零杆的数据集How2QA[46]，其中每个问题与一个正确答案和三个不正确答案相关联。基线。为了评估视觉模态的贡献，我们将我们的VQA-T模型与其仅语言变体QA-T进行比较。QA-T不使用视频输入，即我们将视频-问题Transformer的输入v设置为零（参见图5）。为了评估我们生成的数据集，我们还比较了在HowToVQA 69 M和HowTo 100 M上训练的VQA-T。由于HowTo 100 M没有（v，q，a）三元组，因此我们仅使用标准掩蔽和交叉模态匹配损耗在HowTo 100 M上训练VQA-T的f分支[15，46，53，72，100]。在zero-shot设置中，我们通过计算问题和答案[q，a]的级联对的f（v，[q，a]）来评估在HowTo 100M上训练的VQA-T。在微调期间，我们还使用从f获得的文本编码的参数来初始化VQA-T的g分支（参见补充材料中的进一步细节）。实作详细数据。对于HowToVQA 69 M训练，我们使用Adam优化器和小批处理，1692✓预训练数据iVQAMSRVTT MSVD ActivityNetHow2QAQA QA QAHowTo100MHowToVQA69M23.0 39.6 41.2 36.8 80.828.1 40.4 43.5 38.1 81.935.4 41.5 46.3 38.9表3：在我们新的HowToVQA 69 M数据集上预训练我们的VQA-T模型（最后一行）与没有预训练（第一行）或在HowTo 100 M上预训练（第二行）相比的好处。在每种情况下，我们的VQA-T模型都在下游的VideoQA数据集上进行了微调。报告前1精度。从128个随机视频中采样的视频剪辑。在8个Tesla V100GPU上，10个epoch的优化持续了2天更多细节见补充材料。6.2. 零拍摄视频QA在本节中，我们将讨论零拍摄VideoQA任务，在该任务中，我们禁止在训练期间对视觉数据进行任何手动监督。我们探索该设置以评估在HowToVQA 69 M上训练的VQA-T为了保持一致性，我们在测试期间使用来自下游数据集的答案的词汇表（参见第6.1节）。零激发结果见表2。我们首先观察到，当两个模型都在HowToVQA 69 M上训练时，VQA-T使用视觉提示的性能优于QA-T。这证明了HowToVQA69M中跨模态的重要性，尽管VideoQA注释仅从纯文本方法生成。既然-表4：与MSRVTT-QA和MSVD-QA的最新技术水平的比较（前1准确度）。预训练数据ActivityNetQAHow2QAE-SA [91]31.8-MAR-VQA [102]34.6-英雄[46]100M +电视数据集-74.1CoMVT [66]100M38.8 82.3VQA-TVQA-THo wT oVQA69M36.838.980.884.4表5：与ActivityNet-QA和How2 QA的公共值集的最新技术水平的比较（top-1准确度）。通过增加数据集的大小来进一步改进，正如我们在6.6节中讨论的那样。在HowToVQA69M上的培训显著优于HowTo100MHowToVQA69M9.0 8.0 9.5 7.747.9 28.1 15.6HowTo100M 训练和随机基线。这证实了我们的HowToVQA69M数据集对于VideoQA任务的优势，我们强调，我们的训练不使用有关目标VideoQA数据集的任何信息。我们的方法给出了零拍摄视频质量评估的定性结果，并与图6中的基线进行了比较。我们观察到QA-T（在HowToVQA 69 M上训练）提供了对问题的合理但与此外，VQA-T（在HowTo 100 M上训练）能够将视觉内容与相关答案相关联，但不能具有复杂的多模态理解。另一方面，我们在How-ToVQA 69 M上训练的VQA-T模型正确理解问题并使用视频中的信息提供正确答案，确认了表2中的结果。6.3. HowToVQA69M预培训的好处本节评估VQA-T预训练与微调结合对目标数据集的影响如图所示表6：具有不同训练策略的VQA-T模型在对应于四个四分位数的iVQA子集上的结果，其中Ql和Q4分别对应于具有最频繁和最不频繁答案的样本。在表3中，与在HowTo100M上进行预训练和不进行预训练相比，在HowToVQA69M上进行预训练为所有数据集提供了一致且显著的改进。特别是，我们观察到我们的新iVQA数据集的最大改进，该数据集来自与HowToVQA69M相同的域。因此，使用我们的方法自动生成其他领域的训练数据可以导致其他数据集的进一步改进。我们在表4-5中将我们的预训练模型与VideoQA中的最先进模型进行了比较。值得注意的是，在HowToVQA 69 M上预训练的VQA-T在所有测试数据集上的性能都优于以前的方法。特别是，我们的方法改进了最近的 CoMVT 方法 [66] ，该方法已经在HowTo100M上进行了预训练。这些强有力的结果表明了我们提出的HowToVQA69M数据集的重要性。方法预训练数据MSRVTT-QA MSVD-QAE-SA [84]29.327.6ST-TP [33]30.931.3AMU [84]32.532.0[26]第二十六话32.031.7HME [22]33.033.7LAGCN [31]-34.3HGA [35]35.534.7QuST [34]34.636.1HCRN [40]35.636.1ClipBERT [42]COCO [14]+[39]第三十九话37.4-SSML [6]100M35.135.1CoMVT [66]100M39.542.6VQA-TVQA-THo wT oVQA69M39.641.541.246.3已生成ToVQA 69 M，未使用手动注释-预训练数据FinetuningQ1Q2Q3Q4的视觉数据，我们的方法是可扩展的，可以导致∅✓✓38.446.716.722.05.98.62.63.61693生成方法零拍微调iVQAActivityNetHow2QAiVQAActivityNetHow2QAMLM抽样，无回答重复Zero-shot FinetuneiVQAMSVD-QAiVQAMSVD-QAQA QA[29日]7.41.141.731.438.583.0我们12.212.251.135.438.984.4表7：我们的问答生成方法与Heilman等人的比较。[29]，通过在生成的VideoQA数据上训练的模型的下游性能进行评估6.4. 罕见答案在下游VideoQA数据集上进行训练通常会对具有最常见答案的问题产生特别大的改进。如表6所示，与从头开始训练或在HowTo100M上预先训练的模型相比，我们的方法为常见和罕见答案带来了显着的改进。有趣的是，对于iVQA（Q3和Q4）中最罕见的我们对其他数据集中罕见的答案进行了类似的观察，并在补充材料中报告了相应的结果。我们的结论是，VideoQA特定的预训练额外的大规模，不同的数据有助于提高VideoQA模型的泛化。6.5. VideoQA生成方法在本节中，我们将我们的问答生成方法与Heilman等人的方法进行比较。[29]，这是显着使用[84，93，95，96 ，97]从视频描述生成VideoQA数据我们在HowTo100M的句子中运行[29]的方法，在生成的数据上应用我们的预训练方法，并在表7中显示结果。请注意，我们没有选择MSRVTT-QA和MSVD-QA作为该比较的下游数据集，因为它们的评估集是使用Heilman等人自动生成的。[29]第10段。我们发现，我们的生成方法导致显着，icantly更好的性能，无论是在零拍摄和微调设置。我们还在补充材料中提供了定性比较，进一步证明了与以前的方法相比，我们基于变压器的问答生成我们还通过将我们的结果与补充材料中使用现有VideoQA数据集的跨数据集传输进行比较，展示了我们生成的HowToVQA 69 M数据集的优势。6.6. 消融研究训练前的损失。如表8所示，如4.2节所讨论的，在我们的对比损失中去除重复的否定答案，在零激发设置中尤其有益此外，在预训练时添加MLM损失，当与我们的对比学习策略结合使用时，可以改善零射击和微调的下游结果这些结果激发了我们提出的预训练方法。表8：MLM损失和我们的负采样策略对HowToVQA69M训练的影响。预训练数据大小0%的百分比Zero-shotiVQAMSVD-QA- -FinetuneiVQAMSVD-QA23.0 41.2百分之一4.53.624.2 42.8百分之十9.16.229.2 44.4百分之二十9.56.831.3 44.8百分之五十11.37.332.8 45.5百分百12.27.535.4 46.3表9：HowToVQA69M的训练大小的影响。规模的重要性。在HowToVQA69M的不同级分上预训练后我们的方法的结果示于表9中。我们构造这些子集，使得较大的子集包括较小的子集。这些结果表明，规模是一个重要的因素，我们可以期待在零拍摄和微调设置中通过额外的预训练数据得到进一步的改进。7. 结论我们提出了一种新的和可扩展的方法来训练VideoQA模型，而无需手动注释的视觉数据。我们自动生成HowToVQA 69 M-一个我们demonstrate几个好处的预训练HowToVQA69M。我们是第一个展示零拍摄VideoQA结果，而不使用任何手动注释的图像或视频。此外，在下游任务上微调我们的HowToVQA 69 M预训练模型在MSRVTT-QA、MSVD-QA、ActivityNet-QA和How2 QA上的表现优于我们进一步验证我们的方法，我们手动收集的一个新的鸣谢。这项工作是根据GENCI的分配2020-101267授权访问IDRIS的HPC资源。这项工作得到了谷歌的资助，法国政府在国家研究机构的管理下，作为“未来投资”计划的一部分，参考ANR

下载后可阅读完整内容，剩余1页未读，立即下载