视频问答中对话的宝藏

90 浏览量更新于2023-10-14 收藏 807KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2064视频QA他们给机器人起了什么名字？A) 杀手机器人B) 终结者C) MonteD) 克里普勒... Leonard和Raj造了一个叫Monte的机器人 Kripke会让他参加南加州机器人格斗联盟循环赛邀请赛......这是什么？Monte论视频问答中对话的宝藏Deniz Engin1，2Francois Schnitzler2Ngoc Q.K. Duong2Y annisA vrithis11Inria，Univ Rennes，CNRS，IRISA摘要从原始数据中对视频（如电影和电视节目）中的故事进行高层次的理解是非常具有挑战性的。现代视频问答（VideoQA）系统通常使用附加的人造源，如情节概要、脚本、视频描述或知识库。在这项工作中，我们提出了一种新的方法来理解整个故事，没有这样的外部来源。秘密就在对话中：与任何先前的工作不同，我们将dia-log视为噪声源，通过对话摘要转换为文本描述，就像最近的方法处理视频一样。每个模态的输入由变换器独立地编码，并且一个简单的融合方法结合所有模态，使用软时间注意力在长输入上进行定位。我们的模型在KnowIT VQA数据集上的表现远远优于现有技术，不使用特定于问题的人工注释或人工绘制的图摘要。它甚至比那些从未看过整集的人类评估者还要好。代码可在 www.example.com 上https://engindeniz.github。io/dialogusummary-videoqa1. 介绍深度学习加速了视觉和语言任务的进展视觉语义嵌入[18，9]允许零射击学习，跨模态检索和gener-场景A对话场景对话框摘要QA（场景B）发作对话框摘要对话场景描述（场景B）（场景B）场景B对话场景对话框摘要预测的答案从嵌入中提取新的描述。图像字幕[33]和视觉问答（VQA）[2]已经证明了图像的真实自然语言描述的生成和很大程度上的多模态语义理解。对视频字幕[19，32]和视频问答（VideoQA）[29，20]的扩展已经取得了进一步的进展，因为视频需要更高层次的推理来理解复杂的事件[37]。视频质量保证系统通常具有类似的架构，专注于多模态嵌入/描述，时间注意和定位，多模态融合和推理。虽然通常很难将单个组件的进展孤立起来，但有一些明显的趋势。例如，自定义的自我注意力和记忆机制的融合和rea-图1：在VideoQA中，一个问题与场景B相关联，但它只能通过来自场景的信息来回答A.我们从字幕中生成剧集对话摘要，并将其作为我们的VideoQA系统的输入，无需外部知识。通过使用Transformer架构[30，16，36]，声音[24，17，7]正在逐渐简化;而视觉嵌入[29]正在被语义嵌入[20]取代，文本描述被字幕[14，3]取代。数据集对于该领域的进展是必不可少的，但是其中的10个引入了偏差。例如，文本总结中的问题与视觉信息的相关性较低[29];Kripke打算给他的机器人取名为Scrap Metal。Sheldon和Leonard要打败Kripke的机器人因为他们的设计更好执行.Leonard和Raj造了一个叫Monte的机器人克里普克将让他参加南加州机器人格斗联盟的循环邀请赛。Kripke：……他的名字就叫废金属莱纳德：拜托，真的有必要吗？Leonard，我想是的。这是废话。垃圾话是所有体育赛事的传统组成部分...Kripke ........................你的机器人是低等的它会被我们的军队打败......... 因为香港在设计和执行上都超过了您的产品。Raj：但他做得很细致没有人：（LISPING）Kripke（到达）：嘿，Hofstadter。血浆实验室里都说你造了个机器人是的，我们做到了，Kripke。他叫蒙特。Kripke：好吧，如果你有任何关于进入他对Kripke Crippler的幻想。南加州机器人格斗联盟循环赛邀请赛...也就是SCRFLRRI................................................................. 他名字就叫废金属2065转固定的时间定位[20]使系统设计偏向于两阶段定位回答[21，16];专注于时间定位的固定问题结构[20]通常导致问题与细微之处的对齐以及答案与发现的上下文的匹配[14]，在主要目标上几乎没有进展，主要目标是研究理解水平。可以通过消除本地化监督和平衡理解的不同方面（例如视觉、文本或语义）的问题来消除偏见[11]。然而，对外部知识的需求，可以是提示甚至地面事实的形式，在从原始数据推断这种知识方面没有留下太大的进展[11]。即使将该要求弱化为纯文本人类生成的摘要[10]，仍然使系统在没有这种数据的情况下不可用。在许多情况下，如图1所示，关于故事的某个部分的问题可能需要可以从故事的其他部分的对话中重新覆盖的知识。然而，尽管是文本的，原始对话通常是非正式的和重复的;在这种噪声源的所有可用持续时间上进行搜索是容易出错且不切实际的。受视频字幕趋势的启发，我们更进一步，将同样的想法应用到对话中：我们总结原始对话，将其转换为文本描述用于问答。我们的发现令人震惊：我们的对话摘要不仅在处理需要关于整个故事的知识的问题时有效地替代了人工生成的摘要，而且它的性能大大优于人工生成的摘要。我们的贡献可归纳如下：1. 我们首次将对话摘要应用于视频问题回答（第5.1）。2. 建立在一个现代的视频问答系统，我们将所有的输入源转换成纯文本描述。3. 我们引入了一种弱监督的软时间注意机制来进行定位（第6.2）。4. 我们设计了一个非常简单的多模态融合机制，没有超参数（第7）。5. 我们在KnowIT VQA数据集[11]我们第一次击败了非专家人类，只使用原始数据（第8）。2. 相关工作视频问答的进展已经由几个数据集和基准促进和驱动。Tapaswi等人[29]解决了使用各种输入源从情节概要创建的回答问题，包括视频、微妙之处、场景描述、脚本和情节概要本身。MovieQA的实验方法专注于通过视频和字幕从整部电影中捕获信息的记忆网络[24，15]，基于场景的记忆注意力网络学习帧和字幕的联合表示[17]，基于LSTM的序列编码器学习视觉文本嵌入[23]。TVQA [20]和TVQA+[21]使用视频和字幕解决了基于场景的问题，该问题包含电视节目中答案的时间定位问题分为两部分：一个指定场景中的时间位置，而另一个从该位置请求一些信息。这鼓励使用一种以上的模式。在这些数据集上进行实验的方法集中在时间定位和注意力 [21 ， 16] ， captioning[14 ， 3] 和基于Transformer 的管道捕获视觉语义和语言信息[36，30]。KnowIT VQA [11]是一个基于知识的数据集，包括与电视节目的场景、剧集或整个故事相关的问题，以及以提示形式解决某些问题所需的知识注释提出了基于Transformer的方法，以通过采用知识注释[11]或外部人工生成的情节摘要[10]来解决该任务。我们的方法不同之处在于用从原始对话自动生成的摘要代替人类生成的知识。Dial2Desc数据集[25]使用基于转换器的文本生成器从对话框中生成SAMSum语料库[12]是提供说话者信息的人类注释对话摘要数据集。在该数据集上进行实验的方法包括现有的文档摘要方法[12]、集成跨句子信息流的图神经网络[39]以及从话语和常识知识构建图[8]。由于对话不同于结构化文本，并且需要提取对话结构，因此最近的工作集中在通过序列到序列模型从不同视图表示对话[4]。我们遵循这种方法。3. 概述我们在电视节目中解决基于知识的视频问答。每一集都分成几个场景。对于每个场景，我们都被给出了视频（帧）和对话（说话者名字后面跟着字幕文本）以及一些多项选择题。某些问题需要对整个剧集或节目有高水平的理解。Garcia等人[10]依赖于人类生成的情节摘要（或简称情节我们的目标是从原始数据中提取所需的知识。如图2所示，我们首先将输入转换为纯文本描述，包括视频（通过视觉识别）和对话（通过摘要）（第5节）。然后，多个单独的流在场景（视频和场景对话摘要）和剧集（剧集对话摘要和情节）的级别上将文本映射到嵌入。问题-2066输入转换输入流融合图2：我们的VideoQA系统将视频和对话转换为文本描述/摘要，后者在场景和情节级别。转换后的输入与问题和每个答案一起在流中被独立处理，从而为每个答案产生分数。最后，每个答案分别融合流嵌入，并进行预测。问题和答案与每个流的输入文本一起嵌入。时间注意机制定位来自情节输入的相关间隔最后，在单流（第6）和多流（第7节）场景中解决问题回答后者相当于多模式融合。我们从transformer网络开始讨论（第4节），我们通常将其用于对话摘要和文本嵌入。4. 变压器Transformer[31]是一种网络架构，允许输入元件之间进行有效的成对交互。它的主要组成部分是注意力功能，它作为一种形式的联想记忆。多头注意是几种注意功能的融合。该架构是一个堆栈的多头注意力，元素明智的全连接和规范化层与残余连接。最初是为机器翻译开发的，它包括一个编码器和一个解码器堆栈。解码器额外地关注编码器栈的输出并且是自回归的，在生成下一个符号时消耗先前生成的符号。BERT [6]仅是Transformer双向编码器，将令牌序列映射到d维向量序列。它在无监督任务上进行预训练，包括预测掩码令牌和下一个句子，并且还可以在有监督的下游任务上进行微调它可以像在输入中一样采用多个句子，其中句子是连续文本的任意跨度。我们使用BERT作为我们的模型架构的主干来表示文本，一次使用两个句子。给定字符串A和B，输入为tokk（[CLS]+A+[SEP]+B+[SEP]），（1）其中+是字符串连接，tokk是标记化为k个标记，如果输入长度小于k，则填充零，如果输入长度大于k，则截断标记由WordPiece嵌入[28，35]表示，与表示其在输入序列中的位置的位置嵌入和片段嵌入相连接，其中片段对应于句子并且根据分隔符标记[SEP]的出现来定义。Rd中对应于令牌[CLS]的输出向量是整个输入序列的聚合表示，并且我们将其表示为f（A，B）.（二）Sentence-BERT [26]以单个句子作为输入，并通过度量学习目标进行训练，例如以连体或三联体结构，便于有效的句子相似性搜索。它是通过对监督语义文本相似性的预训练BERT模型进行微调来学习的。BART [22]结合了双向编码器和自回归解码器。它被预先训练为无监督的去噪自动编码器，即破坏输入文本并学习重建原始文本，并在监督分类、生成或翻译任务上进行微调它在文本生成方面特别有效，包括抽象对话、问答和摘要任务。在[4]的基础上，我们分别用句子BERT和BART对对话进行分割和视频视频描述谢尔顿博士贝弗利·霍夫施塔特、伦纳德和巴里坐在加州理工学院自助餐厅的一张桌子旁。（...）视频流融合答案1QA场景对话框摘要对话Kripke：……他的名字就叫废金属拜托。真的有这个Leonard，我想是的。Kripke打算给他的机器人取名为Scrap Metal。Sheldon和Leonard要打败Kripke的机器人因为他们的机器人在设计和执行上都更好融合答案2场景对话框摘要流QA预测A) 杀手机器人B) 终结者C) MonteD) 克里普勒发作对话框摘要融合答案3（...）Leonard和Raj造了一个叫Monte的（...）发作对话框摘要流QA融合答案4他们给机器人起了什么名字？QAA）杀手机器人B）终结者C）Monte D）CripplerSoftmaxConcat20675. 输入描述所有输入源，即，视频、对话和情节在用于问题回答之前被转换成纯文本描述视频首先通过视觉识别管道转换成场景图，然后通过一组规则转换成文本重要的是，尽管已经是文本形式，对话也通过对话摘要转换成文本描述。该图已采用文本描述形式，按原样使用，但仅用于比较：我们的主要贡献是自动生成的描述取代人类生成的情节。5.1. 对话对话作为人类交流的主要形式，是视频理解和问答的重要输入源。我们以三种方式使用对话框：每个场景的原始对话、每个场景的对话摘要以及整个剧集的对话摘要的集合。原始场景对话框与所有先前的工作一样，我们使用与问题场景相关联的原始对话框。尽管是文本形式，但它不是文本描述。它可能仍然包含比对话摘要更多的信息，这是重要的调查。场景对话摘要给定与问题场景相关联的对话，我们通过对话摘要将此输入源转换为文本描述。尽管对话是文本形式，但它与文本描述有很大的不同：对话通常是非正式的、冗长的、重复的，很少有信息性的话语;而描述是以第三人称的观点叙述，在段落[ 4 ]中有清晰的信息流结构。识别说话的人也是重要的，特别是在对话中有多个人的情况下。我们遵循专用的对话摘要方法[4]，而不是通用的文档摘要[12]，该方法将角色名称与生成的摘要中的事件混合在一起。对话是一系列话语，每个话语包括说话者（角色）姓名和句子（话语序列）。每个话语通过Sentence-BERT [26]映射到向量嵌入。整个对话框中的嵌入序列根据主题进行分段，例如问候、今天C99 [5]，以及阶段，例如：通过隐马尔可夫模型（HMM）[1]的开放，意图，讨论，结论因此，对于每个视图（主题或阶段），对话由一系列块表示，每个块包含几个话语。给定上述结构，输入被重新嵌入，并且使用BART的扩展生成摘要[22]。特别地，每个视图有一个编码器，将每个块映射到嵌入。一个LSTM [13]如下，聚合-编码器使用多视图关注层来对每个视图的贡献进行加权。它是自回归的，在训练时使用来自地面实况的先前令牌，并且在推理时使用编码器先前预测的令牌。我们在我们的视频QA训练集的对话源上训练HMM;否则，我们使用[ 4 ]使用/训练的Sentence-BERT和BART。一旦场景对话摘要被生成，它就像所有其他输入源一样被BERT [6]重新嵌入，如第6中所讨论的。剧集对话摘要我们收集一集所有场景的场景对话摘要，并将它们连接成一个剧集对话摘要。假设问题的场景的片段是已知的，我们使得相关联的片段对话概要可用于问题回答。这是一个很长的输入源，需要暂时注意，如6.2小节所述。重要的是，情节对话框摘要是我们用自动生成的描述替代情节摘要的最重要的贡献。5.2. Plot summary作为我们与[10]比较的一部分，我们使用已经以文本描述形式公开可用的情节摘要1假设问题的场景的情节是已知的，我们使相关联的情节按原样可用，以帮助回答基于知识的问题。情节比我们的剧集对话摘要更短，层次更高，但它仍然足够长，需要时间关注。重要的是要研究我们是否可以免除这样的人类生成的输入，以及相对于我们可以自动提取的信息，它包含了多少信息5.3. 视频我们使用视觉识别管道将原始输入视频转换在[10]之后，该管道包括四个组件：字符识别[27]、地点识别[40]、对象关系检测[38]和动作识别[34]。这些组件的输出是角色、地点、对象、关系和动作节点。通过收集所有节点以及边来生成有向视频场景图，然后根据一组预定义的规则来获得文本场景描述6. 单流QA如图 2 所示，每个输入源有一个流，使用Transformer将输入映射到嵌入。在[10]之后，我们首先尝试单独在每个流上回答问题在这样做时，我们学习线性分类器，同时微调每个流的整个Transformer表示与大多数现有作品不同，这允许适应手头的数据，例如特定的电视节目。将整个视图嵌入到一个嵌入中，作为其最后隐藏状态解码器关注每个的输出1https://the-big-bang-theory.com/2068∈∈×个JJJCC∈∈J部件数量为n：=−w+1，其中s是步幅。JJ我们区分场景和情节输入，如下所在这两种情况下，给定的问题和候选答案串被表示为q和a c，其中c=1，. . . .，n，c，其中n，c是候选答案的数量。工作[21，14，16]，本地化地面实况是可用的，允许两阶段本地化然后回答方法。如果没有这些信息，问题是弱监督的。以前的工作[10]简单地选择部分jcorre-响应于所有答案c上的最大得分zc，以及6.1. 场景输入源各地Jj在（6）中，这被称为硬时间注意力场景输入源指的是问题的场景，即，原始场景对话、场景对话摘要或视频。输入字符串由x表示。对于每个c=l，. . .，n，c，我们将x，q和a，c联合嵌入到d维向量yc：=f（x+q，ac），（3）其中+是字符串连接，f是BERT（2）。具有参数wRd，bR的线性分类器对每个候选答案z c：=w·y c+ b。（四）得分向量z：=（z1，…z nc）之后是softmax和交叉熵损失。在训练时，我们使用f作为预训练，并对其进行微调，同时在QA训练集的正确答案上优化W，b。在推断时，我们预测arg maxczc。6.2. 事件输入源剧集输入源指的是问题场景的整个剧集，即，情节对话摘要和情节。因为这样的输入通常比变压器的最大序列长度k（1）长每个部分包含问题和一个答案，因此窗口长度为w = k-1。|Q|--|一个c|. 给定一个长度为令牌的输入，S因为mini-batch中的所有输入必须具有相同的num-下面的当选择的j不正确时，特别是当预测的答案碰巧正确时，这种硬决策可能是有害的为了缓解这一点，我们遵循软时间注意力的方法。特别地，令S是在所有答案c和所有部分j（6）上具有元素zc的np nc矩阵。对于每个部分j，我们取答案sj：=maxzc，（7）C产生矢量s：=（s1，. . . s np），每个部分包含一个最佳得分。然后，通过在S的对应于部分的行上的软分配，我们获得每个答案c的得分，由得分向量z∈Rc表示：z ： =softmax （ s/T ） ·S ，（8）其中T是温度参数。这个定义z，我们具有单个得分向量，并且我们如（4）中那样进行7. 多流QA一旦一个单独的Transformer已经分别为每个流进行了微调，我们将所有的流组合成一个单一的问答分类器，这相当于多模态融合。在这里，我们介绍两个新的简单的解决方案。在这两种情况下，我们冻结所有的转换器，并获得每个候选答案c的d维嵌入yc。并且对于每个流。对于场景输入，y c获得了二-p如果要在张量中堆叠部分np的比特率，则某些部分在nnp时被零填充，并且在n > np时被丢弃。嵌入部件的输入字符串表示为每回答一个问题。时间定位因此被重新-用于部件选择，类似于单流训练。同样，硬时间注意相当于根据（6）选择具有最高分数的部分：pj，其中j=1，. . . ，np. Eac h部分pj与每个其中*j*c和c候选答案分别为a和c，产生d维j：=argmaxj（zj）yj由（5）给出。相反地，向量yc：=f（pj+q，ac）（5）类似于（8），我们遵循软时间注意：yc：= softmax（s/T）·Yemb，（9）对于c = 1，. . . ，n，c并且j = 1，. . . ，n p. 一种分类器，具有其中Yemb是收集嵌入的np×d参数wRd，bR产生每个候选答案c和部分j的分数：z c：=w·y c+ b。（六）此时，与场景输入（4）不同，来自（6）的预测没有意义，除非部分j是已知的，这相当于包含回答问题所需的信息的输入序列的部分的时间定位在TVQA [20]和相关直接从（3）开始。剧集输入流产生nem-2069×个∈CC所有部分j的y c（5）。最后，对于每个答案c，所有流的嵌入yc被堆叠到ns d嵌入矩阵Yc中，其中ns是流的数量。多流注意Y的列是不同流的嵌入。我们使用多流注意力块根据从Y c本身获得的权重w cRns对它们进行加权，该多流注意力块由两个完全连接的层和softmax组成：Yatt=diag（w c）·Y c。（十）2070×个CC对于每个答案c，全连接层将矩阵Yatt映射到标量分数。所有n-c得分之后是softmax和交叉熵损失，由此所有层的参数被联合优化。Self-attention可替代地，Yc被映射到Yatt∈四种视觉表征（图像、概念、面部、帽子）; ROCK面部护理是其最佳效果之一。ROCKGT [11]和ROLL人类 [10]使用由数据集[11]提供的人类知识注释，而ROLL [10]使用人类编写的绘图摘要。我们的方法使用场景Rd×ns 由一个单一的多头自我关注变压器[31]：C块，如视频和场景对话概要以及其自动生成的剧集对话概要，而无需任何人工注释。我们的情节另外使用相同的情节Yatt=MultiHeadAttention（Y c，Y c，Y c）。（11）剩余管道与前一情况相同。8. 实验8.1. 实验装置数据集KnowIT VQA [11]数据集包含24，282个人类生成的问题，与来自207集《生活大爆炸》电视节目的12，087个场景相关，每个场景持续20秒。问题有四种类型：视觉（22%），文本（12%），时间（4%）和知识（62%）。只有测试集的问题类型是已知的。知识问题需要基于来自剧集或整个电视节目的知识进行推理，这与其他视频问答数据集不同。问题是多项选择题，每个问题有nc=4个答案，表现是通过准确性，每个问题类型和整体来衡量的。对于场景对话摘要生成，我们在BART [22]模型中将最小序列长度设置为30个令牌，最大为100个令牌。使用此设置时，剧集对话框摘要的平均长度为2078个标记，而剧情摘要的平均长度为659个标记。我们使用以下参数微调BERTBASE [6] uncased模型对于单流模型，N=12个Transformer块，h=12个自注意头和嵌入维数d=768。最大令牌长度k对于场景是512，对于情节是200，并且对于剧集对话概要输入是300。步长s对于情节是100，并且对于情节对话摘要是200。两者的最大部件数np均为10所有单流模型的批次大小为8，多流模型的批次大小为32我们使用SGD，动量为0。对于多流融合，初始学习率为10- 4我们使用h=1的注意头，和N=2的堆栈的自注意和多流自注意的方法。每个实验的流的数量n是8.2. 定量结果表1将我们的方法与最先进的方法进行了比较。新手和大师是人类评估者：大师们看了大部分的节目，而新秀们从来没有看过一集[11]。 TVQA [20]在不考虑知识信息的情况下对视觉特征和字幕进行编码;其结果如[ 11 ]中所报道。ROCK [11]用途如 [10] 。 TVQA 使用 LSTM; 所有其他方法都基于BERT。我们的方法比最先进的方法（ ROLL [10] ）高6.6%，没有任何人工注释。通过使用额外的人工生成的图，增益降低到5.8%。这表明我们的剧集对话摘要捕获了所需的知识并且去除了对人类生成的输入的需求;事实上，人为输入是有害的。特别是在时间和知识问题上，我们分别获得了13.9%和7.6%，没有任何人类注释。这意味着我们自动生成的剧集对话摘要增加了对剧集的理解，并有助于回答所有类型的问题。尽管ROLLhuman [10]和ROCKGT [11]使用了地面实况知识，但在没有任何人类注释的情况下，我们的表现分别优于它们16.1%和5.0%我们的表现也超过了新秀，大概是因为我们可以看到整集的对话。与大师相比，还有改进的空间。8.3. 定性分析图3可视化了我们的方法的正确预测在所有示例中，该模型接收三个输入源、问题/答案和对输入的注意力分数。图3（a）示出了基于片段对话概要回答的知识问题，其具有最高的注意力分数。如图3（b）所示，文本问题可以通过使用场景对话概要来回答，但也可以通过剧集对话概要来回答，因为后者包括前者。可以从诸如场景对话概要或视频描述的场景输入来回答节奏问题。根据注意力分数，图3（c）中的问题由片段对话摘要回答，其包括正确答案。最后，图3（d）示出了由视频描述回答的视觉8.4. 消融研究单流结果表2显示了我们的单流QA结果。我们复制[10]用于对话、视频和绘图输入。我们使用我们的新的时间注意力（小节6.2）和其他改进（表4）将情节流替换为一个，并且我们添加了从对话自动生成的两个新的源：场景对话摘要和情节对话摘要。由于数据集具有大多数知识-2071谢尔顿忘了什么A) 他的闪存盘B) 他的论文C) 他的手提箱D) 他的笔记本电脑视频描述场景对话框摘要发作对话框摘要谢尔顿不喝什么A) MilkeB) 茶C) 醇D) 咖啡视频描述场景对话框摘要发作对话框摘要艾米和霍华德发现他们都喜欢哪个歌手？A) Luke BryanB) 威利·纳尔逊C) 尼尔·戴蒙德D) 布斯塔节奏视频描述场景对话框摘要发作对话框摘要Penny和Sheldon最后一个到哪里？A) 去谢尔顿的公寓B) 去购物中心C) 去漫画店D) 去芝士蛋糕工厂视频描述场景对话框摘要发作对话框摘要方法KNOWLEDGEVIS.文本电磁脉冲知道了。的LL[第11话]-0.9360.9320.6240.6550.748[第11话]✓0.9610.9360.8570.8670.896ROCKGT[11]问题GT0.7470.8190.7560.7080.731ROLL人类[10]问题GT0.7080.7540.5700.5670.620TVQA [20]-0.6120.6450.5470.4660.522摇滚面部护理[11]数据集GT0.6540.6880.6280.6460.652ROLL [10]情节0.7180.7390.6400.7130.715我们-0.7550.7830.7790.7890.781我们的阴谋情节0.7490.7830.7210.7830.773表1：KnowIT VQA的最新准确度。我们使用视频和场景对话摘要以及我们从整个剧集的对话中生成的剧集对话摘要。我们的情节也使用人类生成的情节摘要，如[10]。TVQA使用基于LSTM的编码器;所有其他方法都使用BERT。新手和大师都是人。视频描述场景对话框摘要发作对话框摘要视频描述场景对话框摘要发作对话框摘要（...）谢尔顿在餐桌上谢尔顿坐在椅子上。窗帘和后面的建筑谢尔顿谢尔顿穿着外套和鞋子。Sheldon拿着纸（...）他们回来后谢尔顿会给他发邮件的他需要读它。（...）（...）Sheldon忘了带U盘所以他得回去拿（...）贝弗莉·霍夫斯塔德博士，谢尔顿和佩妮在主楼拿着一台笔记本电脑（...）佩妮想让谢尔顿去咖啡店，但他不喝咖啡。（...）（...）佩妮想让谢尔顿去咖啡店，但他不喝咖啡。她想让他尝尝饼干，糕点和熊掌（...）QA注意力评分QA注意力评分(a) 知识问答（b）文本问答视频描述场景对话框摘要发作对话框摘要视频描述场景对话框摘要发作对话框摘要（...）窗户和车在艾米后面。霍华德和艾米戴着眼镜的艾米。艾米有手、胳膊、鼻子和头发。艾米不喜欢在车里听音乐。谢尔顿不想让她被误认为是帮派成员。艾米喜欢尼尔·戴蒙德的音乐。（...）艾米喜欢尼尔·戴蒙德的音乐。艾米喜欢尼尔·戴蒙德的歌“甜卡罗琳”。（...）莱纳德，谢尔顿和佩妮在漫画书店里微笑.伦纳德的脸。伦纳德穿衬衫和外套（...）Stuart邀请Penny去Raj的神秘谋杀派对Penny和Leonard会是最后到的所以他们得快点（...）（...）Penny和Leonard会是最后到的所以他们得快点谢尔顿觉得这是马拉松而不是短跑（...）QA注意力评分QA注意力评分(c)时间QA（d）目视QA图3：多流注意力可视化。我们用蓝色突出显示源文本中与回答问题相关的部分。参与最多的流是（a）、（b）、（c）的剧集对话摘要和（d）的视频描述。边缘问题、剧集对话摘要和情节输入比其他输入源具有更高的准确性，因为它们跨越整个剧集。我们的情节对话摘要比情节[10]更有助于回答问题，准确率提高了5.4%。我们评估了第7节中介绍的两种多流QA方法，即多流注意力和自我注意力，并将其与以下组合/基线/竞争对手进行比较：1. 多流自注意：多流注意和自注意的组合：后者的输出由前者加权。剩余的管道与多流注意力中的相同。2. 乘积：每个答案的所有流的嵌入上的Hadamard乘积，随后是每个答案的线性分类器。剩下的管道是一样的。3. 模态加权[10]：如在单流QA中那样使用线性分类器（4）和损失函数，但是对于每个流分别冻结变压器该OB-2072††--†输入VIS的方法文本电磁脉冲知道了。的LLD0.6560.7720.5700.5250.584ROLL [10]V0.6290.4240.5580.5140.530P0.6240.6200.5700.7250.685D0.6490.8010.5810.5430.598ROLL [10]†VP0.6250.6470.4310.5540.5120.6740.5410.6940.5460.667我们PS0.6660.6310.6230.7460.5930.6050.7350.5370.7020.585E0.6760.7500.7790.7850.756表2：KnowIT VQA上的单流QA准确度。ROLL [10]：如报告所述;[10]：我们的繁殖。我们的模型结合了场景对话和视频流的后者，以及情节，场景对话摘要和情节对话摘要流。图[10]和我们的模型之间的差异在于我们的时间注意力和其他改进（表4）。D：对话框;V：视频; P：绘图; S：场景对话框摘要; E：事件对话摘要。方法VIS.文本电磁脉冲知道了。的LL产品0.743 0.6590.7560.7510.739模态权重[10]0.708 0.7860.7670.7870.769Self-attention0.759 0.7640.7670.7770.771多流注意0.755 0.7830.7790.7890.781多流自适应0.755 0.7680.7560.7770.770表3：KnowIT VQA、融合视频、场景对话摘要和剧集对话摘要输入源上的多流QA准确度。所有的融合方法使用软temporal注意事件输入源的本地化。顶部：基线/竞争对手。下：我们的。由多流分类器组合由单流分类器得到的分数，总损失是多流损失上的权重βω和均匀分布在单流损失上的1βω表3示出了视频、场景对话概要和剧集对话概要的融合的结果。对于模态加权，我们设置β ω=0。7根据验证集。我们的多流注意力优于其他融合方法。此外，它不需要调整模态权重超参数βω或选择用于自注意的头部和块的数量。除非特别指定，否则我们默认使用多流注意力进行融合。改进[10]我们使用作者的官方代码和默认参数重现ROLL [10]。这是我们的基线，如表4的第一行所示。然后，我们评估我们的改进，一次添加一个。方法V.文本电磁脉冲知道了。的LL±替换D→ S0.755 0.7830.7790.7890.781表4：相对于ROLL的准确度改进[10]。：我们的繁殖。每一行都增加了一个新的改进，除了最后两行，我们替换了流。P：情节; E：情节对话摘要; D：对话框;S：场景对话框摘要。首先，我们用多流注意力代替模态加权。尽管它的简单性，其性能是在标准杆上，损失，ING只有0.1%，而不需要超参数调整。然后，我们增加了部分的情节摘要的数量从5到10，消除信息丢失的截断，并带来了1.1%的精度提高我们将针对情节输入源的BERT的参数的顺序从f （ q ， ac+pj ）改变为f （ pj+q ， ac ）（5），这与（3）一致并且仅略微提高0.1%。我们新的时间注意力机制提高了0.9%的准确性。用情节对话摘要替换情节，这是我们的主要贡献，带来了5.1%的改进。最后，通过使用场景对话摘要代替原始对话，准确性提高了0.6%[10]的总增益为7.7%。请注意，每个新想法的相对改进取决于表4中选择的顺序。例如，BERT参数的顺序在包括剧集对话摘要的实验中带来了高达2.3%的改进。9. 结论KnowIT VQA是一个具有挑战性的数据集，以前认为需要某种形式的外部知识来处理知识问题，就好像知识是另一种形式一样。我们的研究结果表明，这些所需的知识大部分都隐藏在对话中，等待被骚扰。同样有趣的是，我们的软时间注意力对我们的剧集对话摘要的帮助比人类情节摘要大得多，这可能是由于剧集对话摘要更长。这也可以解释情节对话摘要的惊人性能，尽管其整体质量较低：绘图摘要具有高得多的质量，但是可能丢失大量信息。致谢这项工作得到了欧洲委员会在欧洲地平线2020计划下的支持，资助号为951911 -AI 4 Media 。根据GENCI作出的分配2020-AD 011012263，此项工作获得IDRIS HPC资源的使用权ROLL [10]†0.722 0.7030.7090.6970.704+多流关注0.724 0.7210.7210.6910.703+更多零件用于绘图0.722 0.7030.6510.7170.714+绘图输入的新顺序0.7300.710 0.6860.7120.715+时间注意力0.734 0.725 0.6630.7240.724±更换P→ E0.753 0.815 0.8140.7730.7752073引用[1] Tim Althoff Kevin Clark和Jure Leskovec咨询对话的大规模分析：自然语言处理在心理健康中的应用译 ACL，4：463- 476，2016。四个[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.VQA：可视化问答。在Proc. ICCV，2015中。一个[3] Aman Chadha、Gurneet Arora和Navpreet Kaloty。接收器：应用常识推理于多模态密集视讯字幕及视讯问答。在Proc.WACV，2021中。一、二[4] 陈佳傲和杨第一。用于抽象对话摘要的具有会话结构的多视图序列到序列模型。在Proc. EMNLP，2020中。二、三、四[5] 弗雷迪·Y Y.崔领域无关线性文本分割研究进展。在Proc.NAACL，2000中。四个[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在proc NAACL，2019年。三、四、六[7] Chenyou Fan，Xiaofan Zhang，Shu Zhang，WenshengWang，Chi Zhang，and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。在Proc. CVPR，2019中。一个[8] 风夏冲，风小城，秦冰，刘婷。通过异构图形网络将常识知识并入抽象的对话摘要。arXiv预印本arXiv：2010.10044，2020。二个[9] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。De-ViSE：一个深度视觉语义嵌入模型。在procNIPS，2013年。一个[10] 诺亚·加西亚和中岛裕太基于知识的视频问答与无监督场景描述。Proc. ECCV，2020。二、四、五、六、七、八[11] Noa Garcia ， Mayu Otani ， Chenhui Chu ， and YutaNakashima. KnowIT VQA：回答有关视频的知识型问题。在Proc.AAAI，2020中。二六七[12] Bogdan Gliwa 、Iwona Mochol、Maciej Biesek 和 Alek-sander Wawer。SAMSum语料库：用于抽象摘要的人工注释的对话数据集。在第二次研讨会的新边疆总结。ACL，2019年。二、四[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。NeuralComputation，9（8）：1735-1780，1997. 四个[14] Hyounghun Kim，Zineng Tang，and Mohit Bansal.用于VideoQA中时间定位的密集字

下载后可阅读完整内容，剩余1页未读，立即下载