视频对话中的对象状态跟踪和关系推理的成本:一种时空中的视频对话框架

170 浏览量更新于2023-12-01 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文关于生活在时空Hoang-Anh Pham1，Thao Minh Le1，Vuong Le1，Tu Minh Chong2，Truyen Tran11澳大利亚迪肯大学应用人工智能研究所2越南邮电技术学院1{phamhoan，thao.le，vuong.le，truyen.tran} @ deakin.edu.auphuongtm@ptit.edu.vn抽象的。这将是一项技术壮举，能够创建一个系统，可以与人类就他们所观看的内容进行有意义的对话。实现该目标的设置被呈现为视频对话任务，其中系统被要求响应于一个正在进行的对话中的问题。这项任务提出了巨大的视觉，语言和推理的挑战，不能很容易地克服没有适当的表示方案，支持高层次的推理视频和对话。为了应对这些挑战，我们提出了一个新的以对象为中心的框架，视频对话，支持神经推理称为成本，这代表了时空中的对象对话。在这里，视频中的动态时空视觉内容首先被解析成对象轨迹。给定此视频抽象，COST维护并跟踪对象关联的对话状态，这些对话状态在接收到新问题时更新。对象的相互作用是动态的，有条件地推断每个问题，这些作为它们之间的关系推理的基础。COST还维护以前的答案的历史，这允许检索相关的以对象为中心的信息，以丰富答案形成过程。然后，语言产生以逐步的方式进行，考虑当前话语的上下文、现有对话和当前问题。我们评估成本的AVSD测试分裂（DSTC7和DSTC8），展示其竞争力对国家的艺术。1介绍构建一个可以与人类就视频进行有意义的对话的系统是视觉智能的标志具有这种能力的系统将是通过视觉图灵测试的有力竞争者[11]。作为视频对话[1，12]，由于其在许多方面的绝对复杂性，这项任务挑战了当前的技术一个对话有其自然的流程，通过多个回合，每一个回合都建立在前面的问题和答案的基础上。这就需要对视频中的视觉概念进行深入的语言理解和跟踪，然后在这个新建立的语境中分析新问题鉴于问题语义arXiv：2207.03656v1 [cs.CV] 2022年72+v：mala2255获取更多论文空间与时间xF谈话Q1：在整个视频中，女孩做了什么？A1：她带着一本书Q2：她会打开这本书吗？A2：不，她没有......Q8：她有没有拿起或触摸过其他东西？A8：？y视频.........以空间、时间和对话为中心的对象推理Fig. 1. 我们介绍成本，以对象为中心的推理框架，收集线索，随着空间和时间维度的视频和对话维度的对话走向可靠的 QA。和它的组成词，生成语言答案需要通过视频的复杂时空结构进行符号基础和视觉推理，其中多个对象以动态方式相互作用。由于场景的时间动态性，视频对话本质上比静态图像上的视觉对话任务更难[8]。也更难比视频问答的标准设置[28]，因为下一个问题可能无法理解，如果不保持历史，并参考以前的答案。为应对这些挑战，已经进行了几次尝试。早期的尝试[14，24，33，35]使用递归神经网络对对话流进行编码。后来的方法[22，29]求助于Transformers以获得更好的远程依赖关系以及跨模态关系。最近的方法使用图形作为对话结构的表示[12，23]和共同参考[18]，这实现了这项任务的新的最先进的结果然而，我们只是触及了可能实现的目标的表面，主要挑战依然存在。解决剩余视频对话挑战的合理途径是通过人类视觉认知中所见的高层次、以对象为中心的表示和推理：人类将对象和代理视为具有自然组成、永久性、时间动态和n体交互的核心重要的是，最近发现以对象为中心的方法对于Visual QA [27]和Video QA [7]中的推理至关重要，这要归功于将语言概念绑定到视觉区域的容易性。为此，我们提出了一个新的以对象为中心的框架，称为成本（Cconversation约Obastion在Space-时间）的视频对话。视频首先被解析为一组对象轨迹，这些对象轨迹贯穿视频的帧的空间维度和对象生命的时间跨度。中央至成本是随着对话进行的对象状态动态的模型1。特别是，COST在整个会话过程中保持了一个由对话引起的对象状态的循环系统对于每一个新问题，对象的生活将通过语义词对象接地和选择性框架的注意力，产生问题引导的对象表示。这些用作对话状态递归网络的输入以生成更新的对话状态。这些1这与NLP中典型的面向任务的对话框中的对话框状态跟踪有关，但又有所不同[10]。+v：mala2255获取更多论文状态用于在对象之间构造问题特定的交互矩阵这些结果与来自先前会话回合的回答相结合，以产生新的表示，然后将其解码为响应话语。参见图1中的说明成本在行动。我们在公开的AVSD数据集上评估了我们提出的COST，并在DSTC7和DSTC 8进行了两次不同的测试实验结果表明，COST是高度竞争对手。2相关工作视觉和视频对话视觉对话任务和伴随的数据集（VisDial）首次引入[8]。这项任务需要多轮对话和视觉推理能力。与前视觉问答任务一样，视觉对话需要对图像中的视觉概念和关系有深入的理解，并对它们进行推理以回答当前的问题。视觉对话中的一个独特挑战是对话轮之间语言信息的一致性问题。早期的研究试图通过分层编码[37]或基于注意力的记忆网络[36]来解决这个问题。然而，这些作品大多侧重于历史对话推理。[21]的工作使用神经模块网络解决了视觉和语言空间上的共指。最近，像其他视觉语言任务一样，视觉对话也受益于所采用的跨模态预训练[13，32，43，53]。由于分析视频的复杂性，视频对话任务进一步推动了挑战视频接地对话系统（VGDS）最近在DSTC 7 [51]和DSTC 8 [19]挑战中受到了社区的更多关注早期的尝试[14，24，33，35]采用递归神经网络来编码对话历史。后来的方法[6，30，49]使用注意力机制，或者[45]设计记忆网络来提取不同模态之间的关系， [22 ， 29 ， 26] 采用基于transformer的网络来解决跨模态学习。最近研究了对话中更明确的关系，显示出有希望的结果[12，23]。这扩展到跨视觉和文本域的共指图[18]。然而，这些方法都表示的视频帧的功能，只是缺乏的对象永久性的关键概念。以对象为中心的视觉推理视觉QA和视觉对话极大地受益于视觉内容的以对象为中心的表示，因为这填补了低级视觉特征和高级语言语义之间的空白[7，27]。早期的工作提出了以对象为中心的表示[9]，通过利用图像的对象检测和[4，17，44，47，48]结合视频输入的跟踪算法。在需要对对象进行进一步推理的问题中，[2]引入了关系网络，[16，18，34，42，50，52]利用基于图的方法进行透明推理。然而，这些方法仅使用对象的特征作为通用网络的附加输入，而没有任何先验推理结构这是进一步推理成功的关键工作在[7]+v：mala2255获取更多论文一−每儿子通过动态构建由问题导出的时空中对象之间的交互图，引入了一个通用的推理单元，但这仅限于单个问题。3方法书+视频袋图二、COST模型的体系结构具有一系列循环关系推理（R3）单元，这些单元在会话的回合中维护对话状态{Hi}。给定一个视频V，视频对话的任务是进行流畅的对话T型转弯每个轮t是一个文本问答对（Qt，At）。我们想估计一个由θ参数化的模型，该模型返回相应问题的最佳答案：Amax=argmaxP（A|V，Q1：t−1，A1：t−1，Q t;θ），（1）对于t = 1，2，.， T.主要的挑战在于连贯的回答相对于现有的对话长度为t1，而推理的时空的视频，这本身就需要高效和有效的方案表示，支持高层次的对话。考虑到这些约束，在这里我们将视频V视为对象生命的集合，每个对象生命都是配备有对象视觉特征的空间位置的轨迹。这种面向对象的观点，使易于构建推理路径，以响应语言查询。在下文中，我们提出了COST，一个以对象为中心的视频对话推理模型。COST是一个循环的对话轮，维护和跟踪与对象相关的对话状态。在每一轮，调用关系推理引擎来处理查询、视频对象轨迹和答案历史以前的转弯。图 2显示了COST的总体架构。3.1预赛在[7]之后，我们将F帧的视频解析为随时间跟踪的N个对象序列。每帧中的对象都与其外观...}......R3单元R3单元R3单元+v：mala2255获取更多论文∈∈∈∈MKn=1softmaxmM √Q答案生成R3单元应答历史增强空间关系推理对话GRU时间摘要全球背景{视频图三. 循环关系推理（R3）单元在对话轮t运行的体系结构。时空对话推理发生在三个相应的成员块上。蓝色/红色/黄色表示每个对象特定的术语和操作（仅为蓝色对象绘制粉色表示跨对象操作。功能.因此，在整个视频中实时的每个视觉对象被表示为矩阵X nRF×d，其中n = 1，2，.， N. 此外，每个帧由整体上下文向量cR1×d表示，因此视频的整体上下文矩阵表示表示为CRF×d。将对话句（问句和答句）分解为词，然后将其合并为矩阵S=[w1：L]RL×d，其中L为句长.为了便于阅读，我们使用d来表示视觉特征向量和语言向量的大小我们还利用了在三元组上定义的注意力函数[40]，查询q∈R1×d，键K∈RM×d，值V∈RM×d：-是的KW（qW）m=1D其中Wk、Wq和Wv是可学习的参数。本质上，这个函数读取键与查询匹配的最相关的值。同样，从x∈R1×d1到R1×d2的线性投影W∈Rd1×d2表示为：线性（x）：= xW。（三）3.2时空上的递归关系推理及其轮数COST是一个循环系统，它跟踪对话状态随时间的演变。每一步都是一个推理单元R3（Recurrent Relational Reasoning的缩写），它把当前回合的问题Qt∈RS×dt，前一对话状态Ht−1∈RN×d，整体上下文表示C∈ RF ×d，N个目标序列的集合X =. Xn| Xn∈RF×d<$N，过去答案是{A j}j< t。R3单元的输出表示对象Attn（q，K，V）：=VmWv∈ R1×d.（二更）+v：mala2255获取更多论文∈∈s=1Σ∈生活取决于当前的查询和过去的信息。图3示出了R3单元的结构。在每个会话回合t，我们产生特定于查询的对象表示。首先，我们使用时间注意力在帧上生成每个对象序列XnRFxd的查询特定摘要到向量znR1×d中。帧注意力权重由查询中的单词Qt对象恢复如下：=.Qs和t∈R1×d<$St.这些生成特定于查询的1Zn= StSt收件人（Qs=1s和t，Xn，Xn）∈ R1×d.（四）为了处理在特定帧中无法检测到对象的情况，我们在适当的位置放置二进制掩码。接下来，我们生成问题的特定于对象的嵌入qn=Attn（zn，Qt，Qt）∈R1×d，最后，对象嵌入被问题调制为：un，t= tanh（[zn，qn，qn<$zn]）∈ R1×3d.（五）这种嵌入作为递归网络的输入，这将在下一小节中介绍。在对话中，每一轮的问题通常是从前面的问题和答案发展而来的，并且共同引用前面的问题和答案。在视频对话中，问题与视频中出现的对象在语义上相关。因此，我们以矩阵HtRN×d的形式在回合t保持对话状态，即，每一行对应于一个对象。状态动态在一组N个并行递归网络中建模：Hn，t= GRU（Hn，t−1，un，t）∈R1×d，（6）对于n= 1，2，...，N，其中GRU是标准门控递归单元[5]，un，t是在等式中计算的对象n在回合t处的回合特定嵌入。（五）、由于对话状态是以对象为中心的，因此通过将先前状态Hn，t-1（其包含先前问题的信息）和当前问题整合为un，t的一部分，问题之间的共同引用被间接地且分布式地捕获到当前多对象状态中。在下文中，我们将展示Ht如何用于关系推理。+v：mala2255获取更多论文n=1K ∈∈Σ.−∈ −∈布吕德对象之间的关系推理配备了对话框状态，我们现在对对象间的交互进行建模，该交互描述了由当前问题Qt驱动的对象与其邻居的行为。我们使用一个空间图其顶点是对象的恢复Z={zn}N在等式（1）中计算。（4）、边由邻接矩阵tRN×N表示，该邻接矩阵被动态地计算为对象之间的问题特定交互矩阵. HtHt中国其中 Ht 在等式中计算。（六）、该矩阵作为深度图卷积网络（DGCN）[27]的骨干，通过考虑与相邻节点的关系来细化对象表示：Z<$=DGCN（Z;Kt）（8）DCGN（·;·）的详细信息见附录。利用视觉上下文为了利用潜在的背景场景信息并补偿可能未检测到的对象，我们用整体上下文信息CRF×d来增强对象表示。我们将上下文序列总结为一个向量，如下所示：1c<$=StSt收件人（Qs=1s和t，C，C）∈ R1×d.（九）最后，该组件的最终输出是Yn，t=LinearZ<$[n];c<$∈R1×d，（10）其中Z<$[n]是等式中Z<$的第n个r w。（八）、到目前为止，R3单元已经使用重复的对话状态来生成当前问题的对象表示，但是，在长时间的对话之后，部分历史信息已经被遗忘。它因此，有必要维护先前回合的动态历史，在寻求新问题的答案时将对其进行查询。这将有助于减轻共参效应，因为在认为相关的情况下，将以前回答的部分内容借用到回想一下，R3单元的推理导致每个对象具有回合特定的关系Yn ， jR1×d，匝数j=1，2，...， t1. 设Aj−1RLj−1×d是在第j 1轮嵌入答案。特定于对象的答案嵌入计算为：an，j−1=Attn（Yn，j，Aj−1，Aj−1）∈R1×d.（十一）这与对象表示和转弯位置相结合，以生成新的对象表示：Kt= softmax、（7）+v：mala2255获取更多论文j=1 ∈n=1|Attn查询键值Attn查询关键值Attn查询关键值Attn查询关键值见图4。四步Transformer解码器，用于生成步骤l的轮t处的问题的答案生成器中。Al−1：长度为l − 1的未完成话语的嵌入矩阵; D：对话历史的嵌入矩阵;Qt：在回合t嵌入问题; Ot：COST的输出。Gn，j= Linear（[Yn，j，aj−1，pj]）∈R1×d，（12）其中pj是每个圈的一个位置编码特征.因此，圈数Mn，t= [G n，j] t−1R（j−1）×d上的集合是对象n在先前圈数上的答案引导表示的历史。答案历史使得能够检索相关片段w.r.t. 现在的问题是：Hn，t= Attn（Y n，t，Mn，t，Mn，t）.（十三）这然后用等式（1）中的当前对象表示Yn，t来增强（10）制作最终形式：O n，t= Linear（[Hn，t，Y n，t]）;O t=[O n，t] N ∈ R N×d.（十四）这将作为答案生成模块的输入，我们将在下面介绍这个模块。3.3答案生成为了生成响应话语，我们采用标准的自回归框架，通过在生成步骤p 1迭代地估计条件词分布P（wwt，1：l−1;V，Q1：t−1，A1：t−1，Q t）来每次生成一个词。受[25，26]中的解码器的启发，我们使用四步Transformer解码器，如图所示。四、设At，l∈Rl×d是长度为l的未完成话语的嵌入矩阵;D= [Q1：t−1，A1：t−1]∈RLDD×d是长度为LDD（单词）的对话历史的嵌入;Qt∈RLQ×d是问题的嵌入;Ot∈RN×d是由等式（1）中的COST生成的输出。（14）. 解码器通过逐步方式生成表示v4v1= Attn（al，At，l−1，At，l−1）;v2= Attn（v1，D，D）;v3= Attn（v2，Q t，Q t）;v4= Attn（v3，O t，O t）.（十五）其中a1=At，1[1]，例如，At的最后一行，l。本质上，当前话语、现有对话和当前问题的序列形成了查询对象表示Ot的上下文。+v：mala2255获取更多论文|.Σ不-是的Σw1，w2，. wLa . 为了使我们的生成器更好地工作，我们还添加了日志-ΣΣ再生电流匝问题的可能性w1，w2，. wLqΣ损失网络使用交叉熵损失w.r.t参数θ，θq进行训练：检索到的信息v4用于通过词分布生成下一个词：Pvocab= softmax（Linear（v4））∈R1×Nvocab，（16）Pq= Ptr（Qt，v4）∈R1×Nvocab，（17）Pl=αPq+（1−α）Pvocab，（18）其中α∈（0，1），Ptr是一个可训练的指针网络[41]，它“指向”所有与v 4相关的令牌Q t，P l是P（w w t，1：l − 1，V，Q 1：t − 1，A1：t − 1，Q t ; θ）的简化形式。 Ptr试图重复使用答案中的相关单词;这在遇到罕见单词或需要单词重复时很有用。门控函数α是可学习的（详见补充资料）。3.4培训Giv enground-truthanswersA1：T的T匝的完全转换，其中At=t.ΣL=L（θ）+L（θq），其中（19）不L（θ）= logPAt|V，Q1：t−1，A1：t−1，Q t;θ（20）t=1TLa不=t=1l=1对数Pl.WL|wt，1：l−1，V，Q1：t−1，A1：t−1，Qt;θ（21）L（θq）=logPvocab（Qt|V，Q t;θq）（22）LQt.Σ=log P词汇文勤|w q，V，Q t; θ q;（23）l=1l t，1：l−1其中，Pl（·）、Pvocab（·）在等式2中计算。（16-18）。4实验4.1实验设置数据集：我们在视听场景感知对话（AVSD）[1]上训练我们提出的方法COST，这是一个该数据集提供基于文本的对话框，视觉上基于流行的Charades数据集[38]中未修剪的动作视频。每个带注释的对话框由10轮组成视频中静态和动态场景的问答，包括对象、动作和音频内容。我们对现有方法进行基准测试，对我们+v：mala2255获取更多论文表1. DSTC 7和DSTC 8使用的AVSD数据集和测试分割的统计数据。培训验证DSTC 7测试DSTC 8测试号视频7,6591,7871,7101,710不，对话轮153,18035,74013,49018,810视频对话使用两个不同的测试分裂在第七对话系统技术挑战（DSTC7）[51]和第八对话系统技术挑战（DSTC 8）[19]。有关AVSD数据集以及DSTC 7和DSTC 8的两个测试分割的详细统计信息，请参见表1通常，视频对话中的最先进的方法依赖于不同的信息源，包括视觉动态场景、字幕/视频摘要形式的文本描述和音频内容。虽然包含视觉内容的高级信息的文本数据可以显著地归因于模型由于视频对话任务的最终目标是基准，如果一个模型可以收集的视觉线索，以产生一个适当的响应与人类顺利对话，我们的实验故意旨在挑战模型的视觉推理能力。特别是，我们假设模型只能访问视觉内容和对话历史来回答特定回合的问题，而忽略许多其他方法使用的其他附加文本数据和音频数据[25，26，33]。实现细节：我们使用PyTorch实现我们的模型所有模型都是通过使用Adam优化器[20]和余弦学习率调度器[31]优化生成的令牌上的多标签交叉熵损失来训练的。在训练阶段，我们还使用了[25]中当前问题的自动编码器损失函数。我们使用分布在4个GPU上的128个样本的批量大小，并训练所有模型50个epoch。除非另有说明，否则Eq.（15）由等式（15）中的3个相同注意力层的堆叠组成。（二）、对于每个注意力层，我们也使用[40]建议的4个平行头。基于验证损失的收敛性选择模型参数在推理时，我们采用波束搜索算法，波束大小为3，用于我们的答案生成器。关于对象生命提取，我们严格遵循[7]，每个视频提取30个对象序列我们进一步以4：1的整体比率应用帧子采样平均而言，每个物体的活动由176个时间步组成。对于在Eq.（9），我们使用类似于其他现有方法[26，22]的I3D特征[3]我们模型的Pytorch实现可以在线获得2.评估指标：我们采用与[ 51 ]相同的基于单词重叠的指标，包括BLEU，METEOR，ROUGE-L和CIDER，以评估模型的有效性。先前方法的结果在相应的论文中报告或通过使用官方源代码。2https://github.com/hoanganhpham1006/COST+v：mala2255获取更多论文4.2与SOTA的我们比较了最先进的方法，包括MTN [25]，FA+HRED [33]，学生-教师[15]，SCGA [18]和BiST [26]在AVSD @ DSTC 7和AVSD @ DSTC 8测试分割上。为了公平比较，所有模型都只使用视频内容和对话历史。DSTC 7和DSTC 8测试拆分的结果分别见表2和表3。特别是，COST在所有评估指标上始终针对两个测试分割的现有方法设置新的SOTA性能。结果有力地证明了我们的以对象为中心的推理模型与循环关系推理相比，仅依赖于整体视觉特征（如I3D [3]和ResNeXt [46]）的方法的效率。表2. AVSD@DSTC 7测试分割的实验结果。所有模特只能访问视频内容和对话历史。†模型使用除整体视频功能（如I3D或ResNeXt）之外的视觉功能COST使用对象序列和I3D功能。方法BLEU1 BLEU2 BLEU3 BLEU4流星ROUGE-L 苹果酒FA+HRED[33]0.6480.5050.3990.3230.2310.5100.843[25]第二十五话0.6540.5210.4200.3430.2470.5200.936[25]第二十五话0.6880.550.4440.3630.2600.5410.985[第15话]0.6750.5430.4460.3710.2480.5270.966[26]第二十六话0.7110.5780.4750.3940.2610.5501.050[18]第十八话0.7020.5880.4810.3980.2560.5461.059成本（我们的）0.723 0.589 0.4830.4000.2660.5611.085表3. AVSD@DSTC 8测试分割的实验结果。方法BLEU1 BLEU2 BLEU3 BLEU4流星ROUGE-L 苹果酒[25]第二十五话0.6110.4960.4040.3360.2330.5050.867[25]第二十五话0.6430.5230.4270.3560.2450.5250.912[26]第二十六话0.6840.5480.4570.3760.2730.5631.017[18]第十八话0.6750.5590.4590.3770.2690.5551.024成本（我们的）0.695 0.559 0.4650.3820.2780.5741.0514.3模型分析以对象为中心的表示促进时空对话推理为了更好地突出我们以对象为中心的表示在时空上进行推理以探索视频中的语义结构的有效性，我们设计了AVSD@DSTC 7测试分割的子集，这对严重依赖语言偏见但低估细粒度视觉信息的模型提出了挑战首先，我们训练MTN模型的变体[25]，其中在AVSD数据集上删除了所有视觉和音频组件。接下来，我们只挑选对话轮和它们的相关视频，这些视频的BLEU4分数低于0.05。+v：mala2255获取更多论文(a)（b）第（1）款图五. 从DSTC 7完整测试分割到（a）FVS子集和（b）LDS子集的性能降级点。FVS需要细粒度的视觉理解来回答问题，而LDS挑战处理模型的长距离依赖性问题的能力。越低越好。负退化点表示性能的改善。与BiST相比，COST在这些具有挑战性的子集上证明了其对性能下降的鲁棒性DSTC 7测试拆分。这就排除了任何答案可以猜到的问题语言上的偏见。最终，我们获得了1,062个视频的子集，其中包含8,782个相关的对话轮，称为细粒度视觉子集（FVS）。我们评估了FVS子集上COST和当前最先进BiST的退化，并在图5（a）中报告了结果。如图所示，COST比FVS中的问题，而BiST则因较大幅度的降级而挣扎所有的评估指标。结果清楚地表明，与MTN和BiST使用的整体视频表示递归建模支持长距离依赖性COST相对于SOTA方法的主要优点之一是它维护了一个递归的对话状态系统，这提供了更好的处理长距离依赖性问题的能力。这些问题需要模型来维护和检索出现在早期的信息。没有显式机制来传播长距离依赖关系的方法将难以泛化。为了验证这一点，我们设计了AVSD@DSTC 7测试分割的另一个子集，我们只收集大于3轮的问题。这导致在950个视频和11,210个相关对话轮的子集中。我们称之长距离重复子集（LDS）。图图5（b）详细描述了LDS上的COST和BiST的性能退化。如图所示，虽然COST由于其循环设计而实现了性能的轻微改善（负降级），但BiST在评估指标中经历了一致的损失。结果验证了我们假设的有效性，即保持经常性的对话对象状态有利于处理回合之间的长距离依赖关系+v：mala2255获取更多论文K表4.AVSD@DSTC7测试分割的消融研究。AHR：答案历史检索。的影响BLEU1 BLEU2 BLEU3 BLEU4流星ROUGE-L 苹果酒递归设计无递归0.7100.5770.4710.3880.2610.5541.041对象建模w/o对象中心 0.7090.5740.4670.3850.2600.5531.042注意AHR无自我关注0.7190.5840.4770.3950.2630.5581.062指针网络无指针0.7150.5830.4770.3940.2600.5571.045完整模型0.723 0.589 0.483 0.4000.2660.5611.0854.4消融研究我们进行了一系列广泛的消融研究，成本中的每个组件（见表4）。这些措施包括消融的COST，使用对象为中心的视频表示，并使用自我注意层的答案历史检索的答案生成的经常性设计。我们发现，消融这些组件中的任何一个都会降低模型的性能。结果与我们在第二节中的分析一致。4.3我们的递归设计和COST的以对象为中心的建模对整体性能的关键影响。我们详细的影响如下。递归设计的影响：我们删除了方程中的GRU。（6）并使用等式（6）的查询特定对象表示输出。（5）作为计算邻接矩阵的直接输入在Eq.（七）、通过这样做，我们忽略了过去对话的影响在当前的转折点上。可以清楚地看到，模型以对象为中心的建模效果：在这个实验中，我们只使用上下文特征C（I3D特征），并删除对象表示的所有效果。这导致所有BLEU分数的性能下降近2%。细粒度的以对象为中心的表示显然对提高对视频中隐藏的语义结构的理解有影响。基于自我注意的答案历史检索的效果：本实验消除了先前生成的答案标记在信息检索中的作用，如在Eq. （13）.相反，我们使用回合特定的视觉表示作为直接输入，答案生成器结果表明，这对模型的整体性能略有影响。指针网络对答案生成的影响：我们删除了公式中指针网络的使用（17和18）在生成答案期间。结果表明，指针的删除对模型的性能有轻微的4.5定性分析我们将AVSD@DSTC7测试分割的代表性示例可视化为展示，以分析所提出的方法COST的内部操作。我们提出的问题引起的相互作用矩阵，因为它是我们的一个重要组成部分，+v：mala2255获取更多论文问：视频开始时，这个人在做什么？答：人在撒谎透过桌上的一本书问：之后他做什么他会翻阅这本书吗他想把他那杯咖啡匆匆浏览完这本书后，问：他没有成功地把咖啡加满吗？答：他这样做，但随后把闻了闻杯子的味道后把它放下人碗杯桌书图第六章问题特定的对象之间的相互作用矩阵的可视化方程。（七）、每个框架/问题对（从左到右）代表一个对话轮，其中框架被选择以反映正在查询的时刻。边缘的可见性表示视觉对象与问题和期望答案的关系的相关性检测到的对象由Faster RCNN命名。COST成功地构建了相关视觉对象的回合特定图，以便于回答问题。样品取自DSTC 7测试拆分-最佳颜色查看。模型设计在Eq. （七）、图6呈现了从转弯到转弯（从左到右）的视频中的对象之间的关系的演变。COST成功地构建了相关视觉对象的回合特定图，这些图形通过相应的问题和答案反映了感兴趣的关系。可解释性和强大的定性结果（第二节）。4.2和4.3）由成本是明显的对象为中心的表示对解决视频对话任务的适当性。5结论为了解决视频对话这一极具挑战性的任务，我们提出了COST，这是一个新的以对象为中心的循环系统，它可以通过视频中的多个对话回合、对象动态和时空交互来学习推理。 COST在会话过程中维护和跟踪对话状态。它将视频中的对象视为原始结构，其“生活”和与其他人的关系在整个视频中通过问题的指导进行动态检查，以对话状态和回答历史为条件。对象表示在每一轮迭代地细化，考虑到在相同的时空上下文中的其他对象，对话状态，当前的问题和以前的答案。因此，通过动态概念对象绑定隐式地处理跨对话轮的概念之间的共同引用。在具有挑战性的AVSD数据集上进行测试，COST证明了其对最先进模型的有效性。未来的工作将探索新的方法，将内在的关系推理的对话状态的经常性网络，从而更直接地解决共同参考，更复杂的上下文，时间特征。+v：mala2255获取更多论文引用1. Alamri，H.，Cartillier，V.，Das，A.，王杰，Cherian，A.，埃萨岛Batra，D.，马克斯，T.K.，Hori，C.，Anderson，P.，等：视听场景感知对话框。IEEE/CVF计算机视觉和模式识别会议论文集。pp.邮编：75582. Baradel，F.，Neverova，N.，沃尔夫角，Mille，J.，Mori，G.：对象级视觉推理在视频中。在：欧洲计算机视觉会议（ECCV）的会议记录pp. 1053. Carreira，J.，Zisserman，A.：你好，动作识别？一种新的模式，动力学数据集。在：CVPR。pp. 62994. Chao，Y.W.，Vijayanarasimhan，S.，Seybold，B.，地方检察官罗斯邓，J.，Sukthankar，R.：重新思考用于时间动作定位的更快r-cnn架构。IEEE计算机视觉与模式识别会议论文集。pp. 11305. 周，K.， VanMerr iéenbor，B.，巴达瑙，D.，Bengio，Y.：关于神经网络的性质机器翻译：编码器-解码器方法。ArXiv预印本arXiv：1409.1259（2014）6.Chu，Y.W.，Lin，K.Y.，徐贞贞，Ku，L.W.：多步联合通道注意场景感知对话系统的网络。arXiv预印本arXiv：2001.06206（2020）7. 天哪L.H. Le，T. M.，Le，V.，Tran，T.：层次面向对象时空推理在视频问答中的应用。IJCAI（2021）8. Das，A.，Kottur，S.，Gupta，K.，Singh，A.，Yadav，D.，李，S.，J.M.，帕里克，D、巴特拉，D.：可视对话框。IEEE Transactions on Pattern Analysis and MachineIntelligence 41（5），1242-1256（2019）。https://doi.org/10.1109/TPAMI.2018.28284379.德斯塔，麻省理工学院，Chen，L.，中国地质大学，Kornuta，T.：vqa中基于对象的推理在：2018 IEEE计算机视觉应用冬季会议（WACV）pp. 1814-1823. IEEE（2018）10. Gao，S.，Sethi，A.，阿加瓦尔，S.，Chung，T.，Hakkani-Tur，D.：对话状态跟踪：神经阅读理解方法。第20届SIGdial年会讨论和对话会议记录。pp. 26411. Geman，D.，Geman，S.，Hallonquist，N.，Younes，L.：计算机视觉图灵测试视觉系统Proceedings of the National Academy of Sciences112（12），361812. 耿，S.，Gao，P.，Chatterjee，M.，Hori，C.，Le Roux，J.，张玉，Li，H.，切里安，A.：通过多模态混洗变换器进行视频对话的动态图形表示学习在：Proc.AAAI人工智能会议（2021）13. 洪，Y.，吴昆，齐，Y.，罗德里格斯-奥帕索角，Gould，S.：Vln bert：A recurrent视觉和语言的伯特导航。在：IEEE/CVF计算机视觉和模式识别会议论文集（CVPR）。pp. 1643-1653年（2021年6月）14. Hori，C.，Alamri，H.，王杰，Wichern，G.，Hori，T.，Cherian，A.，马克斯，T.K.，Cartillier，V.，洛佩斯，R.G.，Das，A.，等：端到端视听场景感知对话使用多模态注意力为基础的视频功能. ICASSP 2019-2019 IEEE声学，语音和信号处理国际会议（ICASSP）。pp. 2352-2356. IEEE（2019）15. Hori，C.，Cherian，A.，马克斯，T.K.，Hori，T.：师生联合学习视听场景感知对话。在：INTERSPEECH.pp. 188616. Huang，D.，陈佩，Zeng，R.，Du，Q.，Tan，M.，Gan，C.：用于视频问答的位置感知图卷积网络。在：AAAI人工智能会议论文集。第34卷，第11021+v：mala2255获取更多论文17. Kalogeiton，V.，Weinzaepfel，P.，法拉利，V，Schmid，C.：用于时空动作定位的动作小管检测器。在：IEEE计算机视觉国际会议论文集pp.440518. 金，J.，Yoon，S.，金，D.，Yoo，C.D.：结构化的共同参考图形注意视频接地对话。AAAI（2021）19. Kim，S.，Galley，M.，Gunasekara角，李，S.，阿特金森，A.，Peng，B.，Schulz，H.，高，J.，李杰，阿达达，M.，等：第八届对话系统技术挑战赛。arXiv预印本arXiv：1911.06394（2019）20. Kingma，D.，Ba，J.：Adam：一种随机优化方法。国际学习表征会议（ICLR）（2014）21. Kottur，S.，J.M.，Parikh，D.，Batra，D.，Rohrbach，M.：基于神经模块网络的可视对话中的可视共指消解。在：欧洲计算机视觉会议（ECCV）的会议记录。pp. 15322. Le，H.，Chen，N.F.：具有指针网络的多模式Transformer，可应对dstc8avsd挑战。arXiv预印本arXiv：2002.10695（2020）23. Le，H.，Chen，N.F.，Hoi，S.C.：基于视频对话的语义图上的推理路径学习。arXiv预印本arXiv：2103.00820（2021）24. Le，H.，Hoi，S.，Sahoo，D.，Chen，N.：端到端多模态对话系统，具有对视频特征的分层多模态关注。在：DSTC 7在AAAI2019研讨会（2019）25. Le，H.，Sahoo，D.，Chen，N.，Hoi，S.：用于端到端视频接地对话系统的多模式Transformer网络。在：计算语言学协会第57届年会的会议记录。pp. 561226. Le，H.，Sahoo，D.，Chen，N.，Hoi，S.C.：BiST：双向时空推理视频接地对话。2020年自然语言处理经验方法会议（EMNLP）pp. 184627. Le，T. M.，Le，V.，Venkatesh，S.，Tran，T.：关系视觉推理中的动态语言绑定。在：IJCAI. pp. 81828. Le，T. M.，Le，V.，Venkatesh，S.，Tran，T.：层次条件关系网络在视频问答中的应用。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp.997229. 李，H.，Yoon，S.，Dernoncourt，F.，Kim，D.S.，Bui，T.，Jung，K.：多模态语义Transformer网络与检索样式词生成器。arXiv预印本arXiv：2004.08299（2020）30. Lin，K.Y.，徐贞贞，Chen，Y.N.，Ku，L.W.：用于场景感知对话生成的熵增强多模态注意模型。

下载后可阅读完整内容，剩余1页未读，立即下载