密集而有效的视频QA：基于Transformer的组合推理方法

142 浏览量更新于2023-10-16 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1114密集但有效的视频QA，用于复杂的组合推理李智贤*KakaoBraingina.ai邮件kakaobrain.comKakao Brainedwin. kakaobrain.com金银雪计算机科学系，汉阳大学eunsolkim@hanyang.ac.kr摘要众所周知，大多数传统的视频问答（VideoQA）数据集由需要简单推理过程的简单问题组成然而，长视频不可避免地包含复杂的和组成的语义结构以及时空轴，这需要一个模型来理解视频中本文提出了一种基于Transformer结构和可变形注意机制的组合式视频问答方法引入可变形注意力，从密集的视觉特征图中采样信息丰富的视觉特征子集，以有效地覆盖时间上长范围的帧。此外，复杂问句中的依存结构也与语言嵌入相结合，以便于理解问句中疑问词之间的关系。大量的实验和烧蚀研究表明，建议的密集，但有效的模型优于其他基线。1. 介绍随着深度学习方法在理解图像和文本内容方面的巨大成功，已经提出了需要复杂推理的各种应用。特别是，视觉问答（VQA）[2]是最重要的任务之一，它询问关于视觉内容的各种问题，并且需要理解内容中固有的语义结构。由于Transformer架构及其预训练方案的出现，VQA的性能已经显示出成功的性能[34，39];然而，将这些体系结构应用于视频域并不简单。与图像和文本相比，视频数据不仅涉及空间轴，而且涉及时间轴，涉及更复杂的语义结构。如图1所示，长视频不可避免地包含多个事件，并且事件可以具有多个复杂的相关性。因此，重要的是时间地面的多个事件和它们的语义结构。* 表示贡献图1.一个复杂的VideoQA问题的例子视频的语义元素是沿着时间轴不断变化的，包括人物、人物动作以及人物之间的关系。因此，要回答那些需要理解复杂语义结构的问题是很困难的。大多数之前为VideoQA提出的数据集由相对较短的片段组成，包含一个事件或一个单一的动作类，以及相对简单的问题[22，36，31，46]。出于这个原因，通过从片段中选择几个代表性帧，可以利用基于图像的架构充分地解决对短片段的理解然而，在具有各种事件和事件之间的复杂关系的长视频的情况下，传统架构难以在大的时间尺度上学习对于这些情况，必须通过考虑视频中的足够帧来解决各种事件的时间基础在本文中，我们提出了一种新的视频/文本理解方法，复杂的视频问答任务，其中包括复杂的问题，需要多个推理步骤。所提出的方法的两个主要思想是1）从视频中有效地采样尽可能多的信息视觉特征以学习固有的时间语义结构和2）考虑层次依赖模型以理解需要多个推理步骤的复杂问题首先，我们提出了一个可变形的采样模块，它允许密集但有效的视觉令牌采样。Ob是传统的稀疏采样方法[29]，选择几个帧，然后进行时间池化以获得单个特征向量，以应用于下游任务，这会导致对长而复杂的视频的不完整理解。从图1中可以看出，应该考虑至少3个视频间隔，以获得问题的正确答案。不幸的是，有一个基本的贸易-1115在计算成本和要用模型学习的帧数之间存在差异。为了解决这个问题，我们引入了一个可变形的注意力模块，它可以有效地选择一个有意义的视觉特征的子集沿时空轴。具体而言，建议的方法考虑给定的查询语句的语义。其次，我们引入了一个依赖注意模块来学习问题的依赖感知特征向量。由于输入视频包含更复杂的语义结构，因此不可避免地会得到需要多个推理步骤的复杂问题。因此，有必要考虑问题内的语义结构来学习问题标记的期望嵌入我们建议，gest利用语义结构的依赖关系解析树的问题。通过结合变形采样模块和依赖注意模块，我们的方法能够处理复杂的组合推理问题。在实验中，我们在 Action Genome QuestionQuestioning（AGQA，[18]）数据集上评估了我们的模型。AGQA数据集是VideoQA最具挑战性的基准之一，因为它需要对长视频进行复杂的推理步骤。大量的实验不仅显示了令人印象深刻的定量结果的QA准确性，但也验证了每个模块的有效性，通过全面的消融研究。概括而言，我们的贡献如下：• 我们的经验表明，覆盖较长的时间跨度是有利的复杂的问题，这需要时空推理。• 本文提出了一种基于变形采样的视频质量评价模型DSR，旨在解决视频质量评价中的成分推理问题。• 在VideoQA基准测试上的实验表明，该方法具有复杂时空推理的能力。2. 相关工作视觉问题分类VQA是理解两个输入（基于文本的问题和视觉特征）如何相互关联的任务，由Antol等人提出。[2]的文件。对于基于图像的问答任务，大量的作品提出了基于注意力的模型架构来融合问题和图像表示[1，35，25，17]。Kim等人[25]通过使用双线性注意力网络发现两种模态之间的双线性相互作用，显示出显著的性能。此外，受预训练语言模型最近成功的启发[13，11]，用于视觉语言表示学习的统一预训练框架实现了最先进的性能不仅在VQA上，而且在一般的视觉语言任务上[39，34]。然而，与图像域中的问答相比，视频域中的问答被探索得不够。与测量视频推理能力的兴趣日益增长[22，18，30，31，45]相反，现有的VideoQA模型主要处理短剪辑视频或简单问题[28，8，38，29]。由于视频是包含时间维度的图像序列，理解更丰富的时空特征和自然语言的时间定位是必要的。为了融合时间特征，Fanet al.和Seoet al.尝试利用单独的运动和外观特征模块，并将它们与附加融合网络集成[28，8，38]。Le等人[28]提出一个分层的条件关系网络，用于以不同的粒度嵌入视频输入。然而，分离的模块在有效地与语言问题交互方面存在局限性Kim等人[26]提出一个基于对比学习的训练方案，显示出有竞争力的表现，但只擅长多项选择任务。VideoQA中当前最先进的模型ClipBERT通过采用稀疏采样来实现端到端学习，但它不适合需要高级时空推理的复杂任务，因为随机稀疏采样丢失了几个语义结构。提出了一种基于Transformer的密集而高效的视频问答模型，该模型能够保持完整的语义结构。高效的变压器变压器架构[40]在各种下游任务上表现出卓越的性能然而，Transformer的计算成本和内存消耗增加平方依赖于输入序列的长度。最近，人们对利用高效的Transformer架构来缓解这个问题产生了极大的研究兴趣。例如，在自然语言处理领域中已经提出了基于低秩矩阵分解来近似二次成本注意矩阵的各种算法[41，10，44]。此外，在视觉领域，自我注意力的范围被限制在局部邻域或基于物体的局部性假设的特定轴[21，9，4，3]。然而，上述算法是针对单一模态定义的。相比之下，我们的目标是解决跨模态sparsification的基础上的问题条件视觉令牌采样算法的视频QA任务，其中非本地和细粒度的功能是必需的。3. DSR：一种基于变形采样的视频问答组合推理模型在本节中，我们将详细解释我们的我们考虑复杂的视频质量问题，1116Σv∈Q∈∈图2.DSR的整体架构为简化起见，遗漏了两个细节;可变形采样以问题上下文嵌入为条件，并且全局视觉特征被用作交叉模态Transformer的附加输入。需要复合时空推理。我们的目标是学习一个可概括的视觉推理表示与变形采样和依赖建模。3.1. 基于transformer的稠密抽样模型本文提出了一种基于变形采样的视频问答组合推理模型（DSR），该模型对视频特征采用变形采样，对文本问题采用依赖建模，是一种密集图2给出了DSR的总体架构，交叉模态Transformer。每个视觉特征和问题标记分别用视觉骨干模型和语言编码器独立编码。跨模态Transformer的输入是有条件采样的视频特征和依赖性引导的问题令牌。我们将Transformer的视觉和语言输入表示为V= [v1，v2，.，v L]Rd× Lv且L=[l1，l2，...，l L] Rd× Lq，其中Lv是从条件采样模块采样的视觉标记的数量，Lq表示问题标记的数量，并且d表示维度。两种不同模态的这些嵌入被级联为12层Transformer的输入，用于跨模态融合，具有特殊标记[CLS]和[SEP]。我们首先从视频中均匀地采样帧，其足够密集以覆盖视频的全长。然而，随着视频长度的增加，使用整个密集帧变得不可能，因为由于存储器限制，它不能适合单个Transformer。因此，由Zhuet al. [48]，我们引入了一个可变形的采样模块，只从全密集帧中采样必要的视觉特征，有条件地要求，嵌入。因此，与初始密集特征相比，相对较少的视觉特征从模块中采样。第3.2节详细解释了条件语言输入（即，question to- kens）也经历前阶段建模步骤以实现组合推理。依存注意模块强制Transformer的特定注意头理解依存句法结构，表示问句序列中词与词之间的关系。这将在第3.3节中解释。[CLS]令牌的输出向量hcls是跨模态Transformer的整个输入序列的聚合表示，用于预测答案。我们把所有的问答都看作是开放式的单词任务，从一个预先定义的大小为C的答案集中选择一个正确的单词作为答案。我们通过在最终输出上应用线性分类器和softmax函数来计算分类得分，并通过最小化交叉熵损失来训练模型，CLopen=−1{y=c}log（pc），（1）c=1其中，p=softmax（FFN（hcls））RC，y是真实答案标签。在推理过程中，条件采样的视觉特征和依赖建模的语言特征被用来预测答案与适当的推理，在相同的方式与训练阶段。总之，我们的模型在复杂的VideoQA任务上实现了最先进的性能，允许端到端学习，同时覆盖时间上长和空间上细粒度的视觉特征，这对于高级建模都很重要与只观察单个或几个视频片段的模型不同，DSR可以处理需要组合推理的数据。3.2. 条件视觉特征抽样在本节中，我们将介绍如何有效地采样来自长且密集的特征图的视觉令牌的子集。由于视频数据具有与图像数据一致的附加时间轴比图像的特征图要大得多。因此，大多数VideoQA算法在空间上[32]或时间上[29]汇集特征图，并将视觉特征序列连接到问题词向量。然后，将连接的特征用作基于变换器的QA模型的输入然而，基于池的方法对于需要长且细粒度的视觉线索的组合VideoQA任务来说在这里，我们假设时空特征图中的大多数视觉特征对于回答给定的问题是在下一节中，我们将描述如何从密集特征图中采样一些信息性视觉特征。1117k=1∈× × × ×∈∈Σ⊤(3)(SO)λ∥V V−I∥,ii××××∈∈⊕NΣNI+V V我我，Ni=1j=1[j=i]我 J是可学习的线性投影层。mqk表示第m个atten中第k个采样点的attention权重giv enqueryz<$q的ionhead，其中，Am qk=1。MqkR3是三维采样偏移。因为pq+pmqk是a实值向量的情况下，应用三线性插值计算 X（pq+pmqk）.利用CDA，我们可以得到L v采样的视觉令牌VRd× Lv，其中L v远小于t hW，例如，25对30 77. CDA的概述如图3所示。图3.所提出的可变形采样模块的图示。该图表示单个CDA层的单个磁头为了简单起见，我们只可视化一个参考点的可变形注意力过程，该参考点仅被着色为蓝色。条件变形注意设XRd×t ×h×w是稠密的视觉特征地图由ResNet等视觉编码器提取[19]。d、t、h和w分别指示特征图的维度、时间长度、高度和宽度。基于2-d可变形注意力模块[48]，我们定义了我们的3-d条件可变形注意力（CDA），以从时空特征图X和给定问题L中采样问题条件视觉特征，如下所示：采样多样性的正则化对于问答任务，来自CDA的采样视觉标记与问题词连接，并且基于transformer的模型采用连接的特征来预测答案。因此，重要的是，采样的视觉标记应该尽可能多样化，以提供给定问题的足够信息。在可变形DETR [48]中，偏移预测可以是多种多样的，而不需要折叠，因为每个对象查询都经过训练，可以根据匈牙利损失匹配目标对象。然而，在问答任务中，适当的正则化是至关重要的，以防止崩溃，因为模型只得到为了加强采样视觉令牌的多样性，我们探索了三种类型的额外正则化项。在这里，我们考虑批量特征，其中V和X分别具有（N d Lv）和（N d thw）的形状。第一个正则化项是软随机性（SO）[43]，其定义如下：N2Fi=1其中i表示小批量中的索引。SO的目标是采样令牌的Gram矩阵接近单位矩阵I。因此，每个采样的视觉标记可以是独特的和独立的。M KCDA（zq，pq，X，L）=<$Wm[<$Amqk·Wm′X（pq+<$pmqk）]，第二个正则化项是最大编码速率(MCR)[47]，其表述如下：其中，Amqk=W Az<$q，pm qk=Wz<$q=zqpoo l（L），M m（二）（MCR）−λ1个日志检测2D⊤L-2、（四）其中，q是输入查询向量zq元素索引，一个Transformer层和3-D参考点pq。在第一Transformer层中，输入查询zqRLv×d是可学习查询，其中Lv是查询的数量，与采样的视觉特征的数量此外，在将zq馈送到第一个Transformer层之前，我们将question xtL=poo l（L）R1×d，并通过广播向量加法器将问题上下文添加到每个可学习查询中，使CDA样本视觉特征以给定的问题上下文为条件。对于其余的层，z<$q是前一个Transformerlayerr的输出向量。M和K表示注意力头部的总数，MMi=1v最大化MCR导致采样令牌的Gram矩阵中的向量所跨越的最大可能因此，采样的令牌应该尽可能独立。我们探索的最后一个正则化项是对比损失[6]。在这里，我们将锚、正和负示例设置为采样的视觉特征Vi、特征图Xi和批处理中的其他Xjiexp（sim（V分别采样关键向量W、W′、WA和Wp（对比）−λ日志、（五）1exp（sim（V，X）/τ）m=1k=11118×DEP∈∈∈∈∈−Oi−1tod-多头注意力的头维子空间，Qdep=Oi−1WQdep，（6）图4.依赖结构的例子。Kdep=Oi−1WKdep，（7）Vdep=Oi−1WVdep，（8）其中WQdep、WKdep和WVdep是d d磁头尺寸参数矩阵。依赖性注意力权重矩阵Adep通过双仿射运算[14]计算如下，Adep=softmax（Qdep UKT），（9）图5.由依赖关系生成的邻接矩阵。其中V和X分别是V和X的全局平均池此外，我们使用余弦相似度作为相似度函数sim（·，·），并且τ通过de fault设置为0.1。全局上下文特征来自我们的CDA的采样视觉特征表示回答给定问题所需的细粒度本地信息然而，局部和全局信息之间的相互作用对于更准确地解决时空复杂QA任务也是至关重要的因此，我们引入了额外的全局信息XgRN×d ×t，该全局信息是通过将空间池化应用于特征图XRN×d ×t ×h ×w而提取的。最后，将全局视觉特征和局部视觉特征进行拼接，得到全局-局部视觉特征XglRN×d ×（Lv+t）3.3. 独立注意模块在本节中，我们将详细介绍从问题标记中提取依赖性感知向量的依赖性注意模块。出自Deguchiet al. [12]我们引入了一个包含依赖关系的自注意模块。以前的研究表明，神经机器翻译的性能通过结合句子结构得到了提高[5，15，42]。虽然大多数视觉语言学习任务只依赖于预先训练的语言模型来编码问题嵌入，但我们认为句子结构的理解对于非传统问题至关重要，并且基于依赖性的注意力模块也适用于VideoQA任务。语言特征首先通过依赖注意模块学习，然后输入到跨模态转换器Transformer。该模块由一个L层转换器组成，其中第i个多头自注意层的一个注意头设Oi−1RLq×d是前一层的输出。依赖注意模块首先映射其中URd头×d头。Adep的每个值表示两个词之间的依赖关系以及tokenq1作为tokenq2的调控者的概率被建模为Adep[q2，q1]。然后，与原始的自我注意力模块一样，注意力输出通过乘以Adep和Vdep来获得。最后，所有头部的注意力输出（即，一个相关性输出和N个头1个常规输出）被连接，并且像常规多头注意那样计算其余的。虽然Adep可以通过附加的依赖性损失函数来学习，如在Deguchiet al.[12]，我们不仅在训练阶段而且在推理中显式地强制正确的依赖值。黄金解析提供了使用依赖关系的上限，并支持精确的结构建模。图4示出了依赖关系的示例，图5表示用作Adep的黄金值的邻接矩阵中的关系。黄金价值迫使每个代币只关注其管理者。为了将依赖关系应用于Transformer模块，我们重新组织了子字序列的邻接矩阵。当一个字被BPE [37]分成多个子字时，管理器（即，最右边的子字的头）被设置为原始字的调节器，并且除了最右边的子字之外的每个子字的调节器被设置为右相邻的子字。4. 实验在本节中，我们评估我们提出的模型组合时空推理数据集。我们首先在第4.1节中介绍基准数据集的细节。第4.2节描述了实验设置，包括实施细节。我们还在第4.3节中提供了大量的定量实验和消融研究，以展示每个拟议模块的工作原理。最后，我们定性地确认，我们的模型样本合理的视觉框架条件下给定的问题，在补充材料。1119≤4.1. 数据集我们使用Grunde-McLaughlin等人提出的AGQA数据集验证DSR。[18]是VideoQA最具挑战性的基准。虽然大多数现有的基准只利用短视频剪辑，使用简单和偏见的问题，并重点对于需要常识或外部知识的问题，AGQA由平均长度为30秒的长视频剪辑组成。手工程序生成的每个问题都需要时空推理步骤。我们采用了一种平衡的、新颖的构图，以及AGQA的更多构图版本[18]。一个平衡的数据集，与9.6K视频相关的3.9MQA对，通过平衡答案分布和问题结构类型来最大限度地减少新的组成是为了测试模型是否可以解开不同的概念，并将它们很好地结合起来。例如，像“before standing up”这样的组合它测试了模型在推理中对具有这些新颖成分的问题的表现。更多的组合测试模型是否泛化到更多的组合步骤。训练集只包含具有S个合成步骤的简单问题，而测试集只包含具有> S个推理步骤的问题。该模型可以推广到新的组成和更多的组成步骤，可以被认为是一个成功的视频问答模型，理解组成的语义结构。开放式问题有许多可能的答案，而二元问题的答案是yes/no或be-before/after。除第一个表外，所有表都采用10%版本的平衡数据集进行训练和推理阶段。我们在补充材料中提供了我们使用的数据集的详细信息。TVQA[30]是一个复杂的多项选择VideoQA数据集，由60-90秒长的视频剪辑组成。尽管视频片段、问题、答案、字幕、时间戳和对象都来自数据集，但我们只使用视频片段和QA对来验证复杂的组合推理能力。大多数基线使用字幕，并提出了最大化字幕知识的模型，因为从字幕获得的性能远远大于从视频获得的性能，然而，我们声称只使用视频，问题和视频问答任务的答案，以显示视频理解能力。基于MSRVTT中的视频创建了具有短视频的MSRVTT-QA [46]的基准，并根据视频描述自动生成问题。它由10k个视频和243k个问答对组成，平均视频长度为15秒。TGIF-QA [23]是网络GIF VQA，包含72 K GIF视频上的165 K QA对，平均长度为3秒。MSRVTT和TGIF是不仅是简单的视频，也是简单的视频。这些视频只需要简单的空间推理，而AGQA需要引入时空推理。根据原始论文，MSRVTT是一组简单的剪辑，每个剪辑都可以用一句话来描述，因此仅限于一个单独的主题。Lei等人[29]通过显示添加更多剪辑不会提高两个数据集的性能来支持它;甚至有些负面影响。我们的模型在简单的任务中并不突出，因为它旨在通过对密集特征建模来解决复杂的推理问题，但甚至在数据集上显示出有竞争力的结果。4.2. 实验装置基线我们将我们的方法与四种最近的VideoQA方法进行比较[33，8，28，29]。PSAC [33]在单模态自我注意块之后利用共同注意块来同时注意两种模态。HME [8]使用不同的LSTM编码器对问题、外观和运动特征进行建模额外的视觉和问题记忆有助于多模态融合。HCRN [28]设计条件关系网络并将其堆叠以适应不同的输入模态和条件特征。ClipBERT [29]将一些短片段独立地输入到跨模态Transformer，并将来自多个片段的预测分数聚合为最终分数。对于PSAC、HME和HCRN，Grunde-McLaughlin等人报告的性能。[18]被利用。实现细节2D ResNet-50 [20]和BERT基础模型的单词嵌入层[13]被用作视觉和语言骨干。具体来说，ResNet-50的5个Conv块和一个额外的卷积层用于空间下采样。我们使用ClipBERT [29]提出的图像-文本预训练权重初始化视觉/文本编码器和跨模态Transformer，这对大规模图像-文本数据集[7，27]进行了杠杆化。我们使用一个 4 层的 Transformer 来构造我们的CDA。在每个Transformer层中，我们分别将关注头和采样点的数量此外，我们使用一个2层的Transformer的依赖性注意编码器。第一层的第一关注头对应于依赖性引导的自关注模块。3D和1D位置嵌入分别用于视觉和语言嵌入。我们还添加了不同类型的嵌入，丁的视频和文本输入的跨模态transformer，以表明其源类型。我们在补充材料中报告更多4.3. 定量结果在不同的基准上与基线的比较我们在上述数据集上将DSR与最先进的模型进行比较。如表1所示，DSR始终优于 AGQA 数据集上的所有基线。与最佳基线ClipBERT相比，1120× ×× ×× ×充分[28][29]二进制54.19 59.77 58.11 63.8365.92（+2.09）表1.与AGQA数据集上的基线进行定量比较。如第4.1节所述，完全平衡、新型组合物和更多组合物代表AGQA的不同子集。粗体代表最好的分数。方法MSRVTT-QA动作转换框架QA TVQA[16]第十六话32.068.274.351.5-PSAC [33]-70.476.955.7-HME [8]33.073.977.853.8-HCRN [28]35.675.081.455.9-QuST [24]34.679.581.059.7-多流[30]----43.8[29]第二十九话37.482.487.358.844.4DSR（我们的）37.281.787.658.348.8表2.在基准数据集上的实验结果点1.33，3.14，和2.70的完全平衡，新的组成，和更多的组成数据集，分别。我们在表1、2、5上运行了三个独立的试验，并通过t检验证实了DSR的统计学显著性。值得注意的是，DSR模型专注于复杂的空间推理，特别是在新颖的构图和更多的构图子集上获得了很高的分数。由于这两个子集是有意策划，以测试模型的泛化能力和推理能力，结果证明了DSR的质量。根据合成步骤的数目的实验结果在补充材料中。表2显示了MSRVTT-QA、TGIF-QA和TVQA数据集的结果。我们在三个任务上进行实验（即，Action、Transition、FrameQA）。尽管MSRVTT-QA和TGIF-QA大多只需要理解给定问题的空间特征，而不是时间推理，但我们的方法获得了与ClipBERT相当的分数。此外，DSR在TVQA的V+Q设置中实现了最先进的结果，其中字幕和时间戳不用于训练。基于视觉特征序列长度的QA性能本文分析了DSR在处理长序列视觉特征时的效率和有效性。我们首先探索QA准确度如何随着我们增加帧的数量而变化，以便视觉特征覆盖NFrames NVtokensBinary Open All2 2 7 7 60.2246.05 50.21四四七七60.3247.40 51.208 8 7 7 61.2946.37 50.7532 w/ DSR 32+ 2564.4748.58 53.24表3.基于视觉特征的各种序列长度的准确度更长的时间范围在本实验中，我们默认将fps设置为1。从表3中，我们观察到QA准确性随着我们向模型显示更多帧而增加。然而，由于基于变换器的QA模块中的自注意操作的计算成本基于输入序列长度二次地增加，因此考虑更长范围的序列而没有视觉特征的任何稀疏化相反，DSR可以从密集的特征图中采样信息丰富的视觉特征子集因此，即使视觉标记的数量少得多（57与392）。更详细的分析，根据我们的DSR序列长度的内存效率进行了讨论，在行政材料。稀疏采样与密集采样在这个实验中，我们比较了随机采样的稀疏特征和密集采样特征对于复杂组合推理任务的有效性。在ClipBERT [29]中，由于计算成本和内存消耗较高，表4中的稀疏随机遵循ClipBERT的训练惯例。他们在整个视频中随机采样多个片段，每个片段由2个fps 2的连续帧组成。然后，基于共享变换器的QA模型基于多个剪辑独立地预测答案。最后，从每个剪辑的答案logits平均作为最终决定。与稀疏采样相比，密集采样的目标是仅用一个剪辑来查看时间上更长的序列，以解决复杂的时空问题。平衡开放27.2036.2337.1848.5449.54（+1.00）所有40.4047.7447.4253.0354.36（+1.33）新型二元43.0052.3943.4053.8759.57（+5.70）作文公开14.8019.4623.7236.4538.73（+2.28）所有32.4940.1136.0640.8243.96（+3.14）多个二进制35.3948.0942.4642.9347.79（-0.30）作文公开28.0033.4734.8145.9348.08（+2.15）所有31.1339.7038.0045.3248.02（+2.70）1121抽样方法N个帧N个结扎夹Acc.2150.57稀疏随机2252.172452.8021652.93高密度，带DSR32153.24表4.稀疏采样和密集采样策略的比较。推理任务我们观察到，密集采样DSR显示出更高的精度比稀疏采样。由于DSR可以从时空密集特征图中采样一些不同的信息视觉特征，因此该模型可以有效地将问题词和采样的视觉特征相关联，这导致表4中的最高准确度。烧蚀研究在本节中，我们对DSR的超参数进行了广泛的烧蚀实验。表5中的第一行是我们在所有可控变量中的最佳配置。首先，我们观察到依赖注意模块有一个改进。依赖编码器通过强制依赖关系来帮助问题序列的结构化。然后，我们探索要采样的视觉特征的最佳数量。当我们将对象查询的数量从5个增加到25个时，QA准确性得到了一致的提高但是，如果我们将对象查询的数量设置为50，QA准确性会略有下降。我们分析了如果我们考虑太多的采样点，噪声和冗余的视觉特征可能会被采样。因此，对于前面部分中的实验，我们将对象查询的数量默认设置为25。下一个消融是关于全局上下文特征的有效性从表5中的第六和第七行，我们观察到全局上下文特征显著有助于提高QA准确性。虽然这表明，一个适当的关联的全球和当地的功能是至关重要的，以解决复杂的时空推理任务。随后，我们探讨了3种类型的抽样正则化项。我们发现，软随机性（等式3）正则化实现了最佳性能。MCR正则化在梯度范数中显示出高方差，这导致不稳定的训练过程。我们推测，高方差来自logdet算子。此外，对比损失显示出最低的准确性。这可能是由于12层Transformer和ResNet-50将视频数据作为输入而导致的小批量。最后，我们比较了DSR和视觉特征的随机抽样策略。对于随机抽样策略，我们在训练阶段从密集特征图中随机抽取57个视觉特征。然后，我们统一采样表5.消融实验的结果。在推理阶段从平坦化的密集特征图中提取视觉特征。正如预期的那样，在相同数量的视觉标记下，具有多样性正则化和全局-局部融合的DSR比随机采样获得更高的精度。这表明，我们的两个策略，避免崩溃的抽样和全局-局部信息交互，是必不可少的，在这个基于抽样的视频问答任务。此外，我们1）通过可视化可变形采样器的输出来分析采样令牌的多样性和适用性，2）可视化依赖注意力模块的有效性，以及3）验证DSR的性能增益来自我们提出的新模块，而不是来自补充材料中增加的参数。5. 结论本文提出了一种用于视频问答任务的组合推理模型DSR，它利用可变形采样模块和依赖注意模块进行有效的视频-文本表示学习。基于我们发现密集模型在组合推理数据集上的表现优于稀疏模型，这是与以前工作不同的观点，我们有条件地从密集特征图中抽取与问题相关该过程显著地减少了跨模态Transformer所需的视觉标记的数量，同时提高了效率;最大允许批量和性能增加。基于依赖性的注意模块简化了模型进行多步推理，通过引导一个特定的注意头与结构化的依赖关系。大量的实验验证了我们的模型，特别是在复杂的基准测试中脱颖而出。全面的消融研究表明，每个因素都对我们的模型有相当大的贡献。致谢本研究得到了 IITP 韩国研究基金的支持（ 2022-0-00264/50%，2022-0-00951/20%，2022- 0-00612/20%，2020-0-01373/10%）。DEP.目标数量Q全球。Reg.样品Acc.✓三十二加二十五两所以变形53.24✗三十二加二十五两所以变形52.26✓32 + 5两所以变形47.55✓三十二加十两所以变形51.29✓32 + 50两所以变形52.04✓32唯一全球所以变形50.64✓25只有当地所以变形45.72✓三十二加二十五两-变形50.971122引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.双线性注意力网络。在CVPR，2018年。[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在ICCV，2015年。[3] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Chen Sun，MarioL ucˇic´，andCordeliaSchmid. Vivit：一个视频视觉Transformer。ICCV，2021。[4] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？机器学习国际会议（ICML），2021年7月。[5] 陈克海，王瑞，宇山正夫，刘乐茂，田村昭宏，住田荣一郎，赵铁军.神经机器翻译与源依赖表示。自然语言处理经验方法会议（EMNLP），2017年。[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。国际机器学习会议（ICML），2020年。[7] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔，和C. 我是劳伦斯·兹尼克。Microsoft coco 字幕：数据收集和评估服务器。Computing Research Repository（CoRR），2015.[8] 范辰佑、张小凡、张澍、王文胜、张驰、黄恒。异质记忆增强的多模态注意力模型在视频问答中的应用。在CVPR，2019年。[9] Rewon Child ， Scott Gray ， Alec Radford ， and IlyaSutskever. 用稀疏变换器生成长序列。 arXiv 预印本arXiv：1904.10509，2019。[10] Krzysztof Marcin Choromanski，Valerii Likhosherstov，David Dohan ， Xingyou Song ， Andreea Gane ， TamasSar- los ， Peter Hawkins ， Jared Quincy Davis ， AfrozMohiuddin，Lukasz Kaiser，David Benjamin Belanger，Lucy J Colwell，and Adrian Weller.重新思考表演者的注意力。ICLR，2021年。[11] Kevin Clark，Minh-Thang Luong，Quoc V. Le和Christo-pher D.曼宁ELECTRA：预训练文本编码器作为鉴别器而不是生成器。在ICLR，2020年。[12] Hiroyuki Deguchi，Akihiro Tamura，Takashi Ninomiya.基于相关性的Transformer NMT自关注。在自然语言处理最近进展国际会议（RANLP）上，2019年。[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在Proc中。计算语言学协会（NAACL）北美分会年会，2019年。[14] Timothy Dozat和Christopher D.曼宁神经依赖解析的深度双仿射注意。在ICLR，2017。[15] Akiko Eriguchi ， Yoshimasa Tsuruoka ， and KyunhyunCho.学习解析和翻译改进了神经机器翻译.在Proc.计算语言学协会（ACL）的年度会议，2017年。[16] Jiyang Gao，Runzhou Ge，Kan Chen，and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR，2018年。[17] Peng Gao ， Zhengkai Jiang ， Huxuan You ， Pan Lu ，Steven CH Hoi，Xiaogang Wang，and Hongsheng Li.动态融合与内部和跨模态注意流的视觉问答。在CVPR，2019年。[18] 玛德琳·格伦德·麦克劳克林，兰杰·克里希纳，还有马尼什·阿格拉瓦拉 . Agqa ：组合时空推理的基准。在CVPR，2021年。[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[21] Jonathan Ho 、 Nal Kalchbrenner 、 Dirk Weissenborn 和Tim Salimans。多维变压器中的轴向注意力。arXiv预印本arXiv：1912.12180，2019。[22] Yunseok Jang 、 Yale Song 、 Chris Dongjoo Kim 、Youngjae Yu、Youngjin Kim和Gunhee Kim。基于时空推理的视频提问系统IJCV，2019年。[23] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa ： Toward spatio-temporalreasoning in visual question answering. 在 CVPR ， 2017年。[24] Jianwen Jiang，Ziqiang Chen，Haojie Lin，Xibin Zhao，and Yue Gao.分而治：视频问答的问题引导时空上下文注意。在AAAI，2020年。[25] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络. NeurIPS，2018。[26] Seonhoon Kim、Seohyeong Jeong、Eunbyul Kim、InhoKang和Nojun Kwak。多项选择视频QA的自我监督预训练和对比表示学习。CoRR，202

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

密集而有效的视频QA：基于Transformer的组合推理方法

序列到序列知识图的自动补全和问题分类：基于Transformer的KGE模型优化

基于transformer的车牌识别和传统的相比有什么区别

我想要一个讲述3：基于transformer的时序数据异常检测

paddlenlp中都支持哪些中文文本生成的模型

基于Transformer的目标检测

基于Transformer的视频检索

2019年后基于Transformer的提出的时序预测模型有哪些？按照提出时间排序

AttributeError: 'Transformer' object has no attribute 'device'

基于transformer的单目标追踪

基于transformer的目标检测算法

transformer模型分为多少个具体模型

使用了Transformer架构的AI模型有哪些？

基于transformer的语义分割方法

还有哪些基于Transformer的视觉模型？

基于Transformer的车牌识别及分类系统的工作量在哪

课程设计的题目：Transformer架构分析及在NLP中应用 课程设计的主要内容： 1. Transformer结构 2. 位置编码与嵌入 3. 注意力机制 4. Transformer模型代码设计 5. Transformer 使用方法 6. NLP任务应用——中文翻译

基于Transformer的缺陷检测

基于transformer的表情识别

基于transformer的视频中人体姿态估计前景

最新资源

课程设计的题目：Transformer架构分析及在NLP中应用课程设计的主要内容： 1. Transformer结构 2. 位置编码与嵌入 3. 注意力机制 4. Transformer模型代码设计 5. Transformer 使用方法 6. NLP任务应用——中文翻译