基于语言引导的深度视频压缩特征的研究

33 浏览量更新于2023-10-13 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1708基于语言引导的深度压缩域视频特征的Nayoung Kim+，Seong Jong Ha*，Je-Won Kang+，†+电子电气工程系，Ewha W.韩国大学※视觉AI实验室、AI中心、NCSOFT智能工厂研究生课程，Ewha W。韩国大学网址：1210513skdud@ewhain.net，seongjongha@ncsoft.com，网址：www.example.com，jewonk@ewha.ac.kr摘要视频问答（Video Question Answering，简称VideoQA）的目的是通过视觉信息和语言信息之间的语义推理来给出问题的答案。近年来，处理大量的多模态视频和视频中的语言信息被认为是工业界的重要问题。然而，目前的视频质量保证模型使用深度特征，遭受显着的计算复杂度和不足的表示能力，无论是在训练和测试。在所有帧被解码之后使用预训练的网络来提取现有特征，这并不总是适合于视频QA任务。在本文中，我们开发了一种新的深度神经网络来提供从编码视频比特流中获得的视频QA特征，以降低复杂度。建议的网络包括几个专用的深度模块的视频QA和视频压缩系统，这是在视频QA任务的第一次尝试。所提出的网络主要是模型不可知的。它被集成到最先进的网络中，以提高性能，而无需任何计算昂贵的运动相关的深度模型。实验结果表明，该网络优于以往的研究在较低的复杂性。https：//github.com/Nayoung-Kim-ICP/VQAC1. 介绍人工智能（AI）的最新进展引起了计算机视觉（CV）和自然语言处理（NLP）等多学科研究领域的极大关注。视频问答的目的是通过视觉理解和语言推理的结合给出合理的答案。它具有许多实时新兴智能应用，例如人类-AI交互和通信系统。以前的视频QA研究集中在开发-图1.提出的VQAC基线网络体系结构的动机该算法只从部分解码得到的编码码流中提取残差和运动矢量，节省了计算资源。压缩域特征用于生成运动外观聚合（MA+）特征。使用复杂的深度学习模型来解决多模态数据中的各种推理问题。在最近的研究中[14，43，9，45，12]，QA模型包含了外部最终记忆[14，12]和注意力机制[42，45]，以提高性能。然而，先前的研究直接使用相同的基线神经网络架构来提取视频特征和问题特征。卷积神经网络（CNN）和3D-CNN [34，6]分别用于外观特征和运动特征。递归神经网络（RNN）用于问题特征[11，25]。给定单独生成的特征，先前的模型用于理解语义关系以回答问题。然而，一些研究表明，当特征缺乏足够的表示能力时，当前方法的性能显著下降[5，10]。目前的基准模型天真地1709使用预先训练的神经网络来提取特征。很少有研究重新设计了基线结构，以在视频QA任务中提供更有效的功能，这可能是因为需要许多计算资源来利用QA功能进行训练和测试。3D-CNN非常复杂，尽管被开发用于表示均匀运动。对于轻量级特征，我们引入包括在编码视频数据的比特流中的压缩域特征视频压缩使得能够仅使用被称为帧内编码帧（I帧）的几个锚帧来重构帧序列，该帧具有完整的RGB数据和用于预测的若干成分，诸如残差和运动矢量（MV）。因为大多数视频内容被提前压缩并且残差和MV在解压缩期间容易地作为中间输出获得，所以在先前的研究中可以促进各种CV任务[33，31，3，38]。本文提出了一种时间有效的视频QA网络使用压缩域视频特征（VQAC），以提高性能，在较低的复杂度。以前的QA工作很难直接应用于压缩视频数据。传统的视频功能，如C3D [34]和I3D[6]只能在解压缩后完整的视频帧可用的情况下创建。然而，完全解压缩需要额外的等待时间和大量的存储，这进一步恶化了特征提取的计算复杂性。在我们的框架中，对于外观特征，预训练的CNN[30，16]仅应用于I帧以避免任何延迟或等待时间，如图2所示。1，因为非锚定P帧和B帧仅在I帧被完全重构之后可用。对于运动，残差和MV首先仅通过P帧和B帧的部分解码来检索，以避免它们的完全重构。压缩域特征然后用于生成运动特征以替换现有的 3D-CNN。我们的方法是第一次尝试将压缩域特征应用于视频QA任务。此前，Shou等。[29]和Wu et al.[38]提出在动作识别任务中利用压缩域特征，仅识别视频中的少数代表性运动。与其他CV任务相比，视频QA模型需要实现对视频和查询的更全面和语义对齐的解释。然而，考虑到多模态数据的性质，在端到端中学习这样的特征在计算上是难以处理的。这些问题促使我们将压缩域特征应用于QA任务。虽然以前的研究只有很少的预训练的功能的选择，压缩的功能很容易通过解压缩现有的数据。VQAC网络产生考虑不同模态和更有效对齐的视频QA特征。图1示出了VQAC基线网络的总体方案。网络创建一个运动外观聚合tion（MA+）特征作为输出。它是通过使用MV扭曲当前外观特征并使用残差适应时间动态来迅速生成的。将MA+特征与问题特征融合到决策网络中以利用模态间相关性，这对于视频相关的多模态任务至关重要VQAC基线可用作独立模型以非常快速地操作。此外，该网络可以集成到现有的视频QA模型中，因为基线网络主要是模型不可知的。以前的研究[14，12]试图通过理解视频中的全局上下文来提高性能。当前最先进的网络通常使用存储器模块来使用读取和写入操作来保留全局外观和运动特征。因此，我们提出了一个VQAC集成模型，该模型使用建议的QA功能和一些全球功能相结合的基线与现有的模型，保持全球视频和问题的功能。我们的主要贡献概述如下：我们提出了一个VQAC基线网络来解决以前视频QA功能的主要缺点：显著计算复杂性和不足的表示能力。我们引入了压缩域的特点，并开发了几个专用的模块，无论是视频QA和视频压缩系统，这是在视频QA任务的第一次尝试我们开发了一个VQAC集成网络来集成基线模型，以提高性能，而无需任何计算昂贵的运动模型[34]。VQAC集成模型优于各种视频QA数据集的先前研究。2. 相关作品2.1. 既往视频QA研究以前的图像和视频QA研究试图建立深度学习模型来训练视觉和语言信息的联合表示[2，23，7]。对于图像QA任务，诸如VGG [30]和ResNet [16]等CNN用于提取外观特征，而诸如长短期记忆（LSTM）等RNN用于编码用GloVe[25]或BERT[11]初始化的单词嵌入序列。对于视频QA任务，使用C3 D [34]和I3 D [6]等3D-CNN包括运动特征然而，使用CNN和RNN的直接QA模型无法保留长视频或冗长句子中的关键信息[47，41]。这些问题是由之前视频帧中遗忘的QA功能引起的。一些研究试图使用注意力和融合机制来管理整个视频和句子的关键特征[47，18，14，41，12，4]。时间视觉注意力被提出来利用连续帧之间的时间相关性[27，44]。的··1710S ∈∈Mv机制扩展到使用时空注意力[34，47，18，45，45]。在[21]中，CNN-LSTM网络是用于学习跨模态特征。在[15]中，自我注意机制被应用于没有提取运动的每个帧存储器模块已经被有效地用于保存全局上下文以提高性能[40，14，22，12，43]。Xiong et al.开发了一个动态记忆网络[40]来管理长期和短期的上下文。在[14]中，记忆模块用于在共记忆注意中组合运动和外观特征在[12]中，使用异构存储器模块来训练全局视频特征的联合注意力。2.2. 视频中的压缩域特征视频编码标准在现有的视频编码标准[36、32]中，视频序列被划分为图片组（GOP），并且GOP内的每个帧被编码为I帧、P帧和B帧。I帧是GOP的第一帧，以维持全RGB像素作为锚。随后的P帧和B帧使用基于块的MV通过时间预测进行编码通过找到先前编码帧的最接近匹配块作为参考帧来进行预测，并且当前块到参考块的（x，y）向量被确定为MV。因为当前块和匹配块通常不相同，所以变换后的残差被发送到解码器。I帧是独立解码的，因为它不使用时间预测。相比之下，在所有参考帧可用之后完全重构P帧和B帧。在最坏的情况下，帧间编码帧可以在相同GOP中的所有其他帧被完全重构之后开始解码然而，MV和残差可以在它们被部分解码时立即获得压缩域特征MV和残差作为压缩域特征已广泛用于许多视觉任务，例如动作识别[29，38，46]，显著性检测[20]和视频摘要[1]。由于产生MV以使当前块与参考块之间的差异最小化，所以它可以反映前景对象的局部时间变化。此外，残差可以表示RGB值的突变。残留量在快速移动的对象和场景变化的边界中倾向于较大。压缩域功能提供了几个优势在跳过作为最复杂的解码过程的运动补偿过程的同时，可以被提取。第二，压缩域特征不会遭受由时间预测引起的延迟或依赖性问题，因为它们是即时获得的。这些优点增加了CV中压缩特征的用例数量。然而，在QA任务中很少尝试这样的努力3. 该方法3.1. VQAC-基线网络图2. VQAC-基线网络架构，其中核心模块如基于MV的翘曲、问题引导注意、问题特征图和残差加权向量生成由不同颜色指示。图2示出了利用压缩域特征的VQAC基线网络架构的框图。核心模块由彩色框表示。从ev-1中提取了一个表观特征ftRdh×dw×dc。使用预训练的CNN，在时间t处的每个I帧中，其中，dh、dw和dc分别是高度、宽度和通道的特征尺寸在实验中，GOP的大小被设置为16。A question feature f wRNw× dr 使用Glove[25]并且如[12]中那样用LSTM编码，其中Nw是输入单词的数量，并且dr是单词特征的维度。我们去除了传统的3D-CNN用于提取阶段。首先，计算成本远低于一个动态特写相反，运动特征f t获得其他深层特征，如深层流动[17]。虽然深度特征需要大量视频数据用于训练，但是可以从解码过程中获得压缩域特征。压缩域特征甚至不需要全帧重建。解码过程包括熵解码、逆变换和量化以及运动补偿。所述特征可以通过使用MV的时间卷积特征被组合以创建MA+特征，以适应视频中的时变特性来回答问题。直观地说，当场景突然变化否则，将复杂的运动动力学问题与有限元-1711∈Σ（f），（3）M∈SS∈ ∈∈∈∈SM一MSMSMSSSMMSΣ∈∈××是的。相比之下，当视频显示同质运动时，更有利的是观看长序列中的小差异以滤除冗余。该机制通过网络中的压缩域特征迅速完成。此外，特征是通过在与问题相关联的感兴趣区域处进行检查来生成的，以利用模态间相关性。回答问题[42，8]。我们扩展该计划，观察哪些区域参加的运动和外观特征的基础上的问题功能。问题特征映射对于问题引导的注意力，我们创建一个问题特征映射EqR（dh×dw）×1，从LSTM编码器的单词特征向量开始，如下所示：Nw关系。我们在下一小节中说明细节。3.1.1基于运动矢量的特征变形Eq=W1jTwj=1在这一小节中，我们解释如何创建一个运动特征ftRdh× dw× dc。由于在相邻帧中既不存在外观特征也不存在运动特征，因此MV mv tRh× w ×2用于通过将当前的其中W1R（dh× dw）× dr 是可学习的参数，用于在具有fs和fm的相同空间上进行投影。我们选择LSTM编码器，因为与其他编码器相比，它需要更低的时间复杂度（例如， BERT [11]），在实验中显示出合适的性能。注意力地图At和At参考注意力地图外观特征fs. 该方案显著降低了s m计算复杂度，因为它避免了重建所有帧并且单独地应用CNN的特征提取。当前时间t附近的运动估计特征的块可以用任意参考帧生成，如[38]中所示。因此，通过如下利用基于块的运动估计来移位当前特征的像素来生成f1+n由一个问题形成，关注当前帧和相邻帧中的相关区域和运动。它们是从相应的特征图和问题生成的，给出为Zt=W4tanh。W2Eq+W3ft+b1Σ+b2，（4）S sft+n（u）=f t+n−1（u+1mvt+n−1（u）），（1）s sr rtexp（Zt）（五）其中n是相邻要素的数量，r是缩放比例由h/dh计算的因子，并且u是一个s=u exp（Zt（u）），功能. 这种方法可以保持AP的尺寸。pearance功能，以帮助注意到一个问题，并避免重复提取，而以前的研究使用lim-pearance功能。有限（1-D）特征，直接从其中变换矩阵W2R1× ds，W3Rdc× dsW4R_d_s×D_c与f_（1Rds和b2Rdc是可学习的参数。ds是隐藏的大小。在实现中，我们对ft ∈Rdh×dw× dc进行了整形到f t∈ R（dh× dw）× dc 在预训练网络[13]中的方法使用低和高时间分辨率路径来识别运动。高时间分辨率路径可以捕获视频中的局部时间变化。受[13]的启发，我们表达了对高分辨率特征进行节奏集合的运动。事项为目的而当量（4）在ft中将注意力施加在每个通道上。然后，如等式中相同地计算 At 。（ 4 ）和等式（五）、At和At共享相同的可学习参数，用于更紧密地对齐到对象的相似位置的激活。最后，空间激活区域Gt和空间激活运动Gt是使用引导的局部区域来指定的。cal注意力和视频功能。Gt和Gt被给出为等式是组合关于时间移动的f tA t和f tA t。是一个操作元素式乘积 G t和G t的目的是专注f t=ReLU（Con v（[ft，…ft+n]）），（2）smm s s其中[.]是通道轴上的级联操作，Conv是步长为1的11卷积层，产生特征d c的通道维度N到D C。作为在[13]中，在等式（1）中的最后一个卷积层中的混合之前，ft但是稍微修改以在每η个时间特征上使用预训练的CNN来增加空间通道的数量3.1.2问题引导注意空间注意力与一个问题最初被提出来捕捉更多的相关物体在一个框架上的视觉问题在相关对象上的特定部分和行为上，以回答视频帧中给定的问题。3.1.3运动外观聚合（MA+）特征当场景在相邻帧中发生变化或物体基于时间t帧出现或消失时，如果我们使用这些相邻帧来表达运动，则运动的表达精度自然会降低。如果通过3D-CNN的运动特征（诸如I3 D [6]或C3 D [34]）被用于现有模型[41，14，12]，则由于描述动态场景中的不同上下文的有限表示能力，它本质上是脆弱的因此，在本小节中，我们解释如何S在相邻帧中的外观1712vvSSvMvvSM×vαS∈MΣΣ为了生成MA+特征向量lt以克服那些并且在时间t紧密地同步运动和外观特征。当运动和外观fea-NvNwOs=W7lt+W8fw（j），（9）结合实际情况，我们使用运动控制参数αtt=1j=1以控制此时运动的可靠程度。可学习参数用于基于残差信息调整时间变化，给出为αt=encr（Rt），（6）其中，enc r是由池化操作和两个FC层以及随后的S形函数组成的残差特征提取器，如图2所示。3.第三章。Rt是残基。图3.残余特征提取器和运动控制参数以创建MA+特征在视频压缩中，残差在预测之后给出。残差的量随着RGB像素中发生更多的时间变化而变得更大。因此，在Eq。在等式（6）中，由于不准确的MV，将不适当地生成ft，这可能降低性能。因此，所提出的算法产生一个小的加权因子的特征向量，以表示时间的变化。在数学上，视频特征ltRdh×dw×dc计算如下：其中W7和W8是可学习参数，并且Nw和Nv分别是输入字和视频帧的数量决策层由两个FC层组成当答案集的数量为1,000时，这两个层具有1,024和1,000维答案是通过最大化softmax函数Os获得的。3.2. VQAC集成网络VQAC集成网络的建议，以反映全球和本地的信息。以前的视频问答工作已经利用了整个视频的全局视觉特征和句子中的全局问题特征，以使用外部存储器模块来尽管其时间效率，VQAC基线性能可以进一步改善与现有的视频QA模块提供的全局特征，除了从VQAC基线网络的本地特征。在直接集成中，网络可以仅在决策网络中组合来自VQAC基线的特征〇s和全局特征〇g。然而，性能可能受到限制，因为这两个特征尚未共同创建。VQAC集成网络也试图解决这个问题。此外，尽管VQAC网络借用了现有技术网络中的全局存储器结构，但它不使用3D-CNN来提取运动特征。lt=αt W5Gt（u）+（1−αt）W6Gt（u），（7）其中所有矩阵W是可学习参数。根据Eq.（7），当场景间存在时间突变且αt趋于1时，lt主要由Gt（u）导出。这意味着网络几乎逐帧地检查输入视频。相比之下，当有轻微的运动并且αt接近0时，网络只考虑Gt（u）的局部时间变化。该机制可以同步运动特征并且自适应地确定时间变化的量。然后，我们使用具有步幅1的11卷积层，其将维度dc转换为dc/8以减小信道维度，并且使用整形1维向量应用FC层，如下所示：It=FC（ReLU（Conv（It），（8）3.2.1VQAC集成网络v α其中lt∈Rds。它是一个一维向量，但由cou-包括所有的外观、动作和语言特征。3.1.4多模态融合决策对于决策，我们使用logit输出向量0s作为图4. VQAC-集成网络架构并入现有的基于存储器的架构。进一步使用全局视觉和问题特征来提高性能，并在解码器中融合以回答问题。1713S××××WWj=1j=1我们在图1中示出了VQAC集成网络的框图4.第一章设计了网络体系结构以检查视频和问题以及全局依赖性。VQAC集成网络获得存储器Sv和Sw以分别提取全局视频和问题特征。在实验中，异质记忆[12]和运动外观共同记忆[14]，但如果提供全局特征，基线网络也可以应用于任何记忆模型。网络首先使用现有架构获得全局问题和视频特征。然后，它生成增强的问题特征图，并审查本地空间和时间信息，以改进问题引导的注意力。通过从[12]读取全局问题特征Sw并将其集成到等式（1）中来进一步增强问题特征图。（3），如拥有10，000个视频剪辑和243，680个问答集。每个数据集被分为训练集、验证集和测试集，如[41，43，12]所示。它们被广泛用于VideoQA以定量地评估性能，因为它们还包含长的、高保真的句子。测量度量Top-1准确度将正确答案与对应于最高概率的预测答案进行比较。还考虑了前k精度。对于一个问题，如“谁在走一条路？，”语义上合理的答案可能是“人”、“某人”和“人类”中的一个因此，我们使用平均秩（MR）和平均秩倒数（MRR）[35]以及Wu-Palmer相似性（WUPS）评分[39]来比较准确度。MR被计算为查询中的排名 MRR是MR的倒数值。WUPS测量语义相似性。NwN wEq=W1Σfj+W9ΣSj，（10）j=1j=1其中W9是可学习的参数。问题特征图的质量通过以下方式提高逐字读取具有编码特征的全局特征。稍后，Eq用于指导视频帧的哪些部分应当被激活。Eq用于Eq.（4）更换为改进后的。多模态融合与决策：我们计算全局输出向量O g：4.1. 性能评测与分析表1.使用top-1精度进行性能比较MSVD QA方法MEM什么（8149）谁（4，552）别人（456）所有(13157）NwNvOg= W10ΣS w（j）+W11ΣS v（j）。（十一）对于该决定，〇 g和〇 s被级联并解码以产生用于全局特征和局部特征的多模态融合的logit 〇〇，〇，如图1B中所描绘的。4.第一章决策层具有与图1中相同的架构。二、4. 实验结果我们使用Pytorch [24]和NVIDIA Quadro RTX 6000实现了所提出的网络。在网络中，ft的维数为28 28 512，在Resnet152的第2层末尾提取[16]。Glove 300D [26]用于问题词嵌入。对于编解码器，我们使用H. 264/AVC解码器[37]来解压缩比特流并获得MV和残差。而宏块的大小是16 × 16，子块的分区被设置为4× 8 × 8。我们将ds和n分别设为512和2。训练细节我们使用了交叉熵损失函数[28]在训练和执行反向传播使用亚当优化器[19]。数据集我们使用MSR-VTT QA和MSVD QA [41]数据集进行了性能比较。 MSVD QA有1,970个视频剪辑和50,505个问答集。 MSR-VTT QAMSR-VTT QA方法MEM什么(49 869）谁(20，385）别人（2，567）所有(72，821）电子VQA [41]-18.938.774.826.4DLAN [47]-25.442.873.832.0AMU [41]-26.243.073.332.5ST-VQA [18]-24.541.273.430.9VQAC（基础）-24.543.373.831.5CO-MEM [14]C25.443.570.332.0HME [12]C26.543.675.533.0VQAC（CO）C27.244.175.933.6VQAC（HME）C29岁1四十六岁。5七十七。2三十五7比较方法我们与最近的VideoQA算法DLAN [47]，ST-VQA [18]，E-VQA [41]，AMU [41]，CO-MEM [14]和HME [12]进行了性能评估。的VQAC基线网络被称为VQAC（Base）。我们还使用外部全局存储器VQAC（HME）和VQAC（CO），其中异构存储器[12]和运动外观共同存储器[14]分别用于全局特征。电子VQA [41]-9.742.2八十523.4DLAN [47]-21.146.079.831.7AMU [41]-20.647.580.332.0ST-VQA [18]-18.150.079.031.2VQAC（基础）-13.455.677.931.5CO-MEM [14]C19.648.7七十七。631.7HME [12]C22.450.170.933.7VQAC（CO）C22.950.874.334.3VQAC（HME）C二十六岁9五十三668.5三十七81714∼×v表1说明了MSVD和MSR-VTT QA的不同问题类型的准确性。五个QA算法，包括VQAC（基地）从顶部不使用外部存储器模块，以保持全局功能，而随后的四个算法使用存储器模块。在比较中，VQAC（HME）算法的平均性能最高。在MSVD QA和MSR-VTT QA中，VQAC（HME）和VQAC（CO）im-证明性能提高约1.7% 4. 分别比原始HME和CO-MEM高1%。该结果意味着VQAC基线改善了性能。表2显示了使用不同指标（如前10名、MR、MRR和WUPS评分）进行的性能比较我们还选择HME和AMU进行比较，因为代码可用。还报道了E-MN[41]。VQAC（HME）提供了最高的性能在以前的算法中的所有指标。例如，所提出的算法在MSVD QA中产生比HME高大约5.6%的前10名准确度，并且在MSR-VTTQA中产生比HME高大约3.2%的前10名准确度。MR值表示预测答案的排名，因此较低的值表示较高的性能。对于WUPS分数，VQAC（HME）在WUPS 0.0中表现出显著改善的性能，并且在WUPS 0.9中表现出相当的性能。表2. MSVD QA和MSR-VTT QA中使用前10、MR、MRR和WUPS准确度表3. MSVD QA数据集中的测量时间复杂度（min）。总时间包括解压缩视频帧的测量时间（Dec.）并提取相应的特征（Ext.）以及在执行网络模型（Exe.）时。模块十二月延长时间型号Exe. 时间总计（min）fs（TI）fm（TM）3D-CNN（Tp）sv，s w别人时间4.00.77.4AMUHMECC--CC-0.30.30.211.711.9VQAC（HME）VQAC（基础）CCCC--0.3-0.50.25.5四点九1,000个视频如表3所示，VQAC（碱）在约4.9分钟时最快，VQAC（HME）在约5.5分钟时其次。测量时间仅为HME的约46.2%（即，11.9分钟）。有关更多详细信息，我们分析了测量时间。fs用作外观特征。从比特流中解压缩20个I帧需要3.2分钟，从MSVD QA数据集中预训练的CNN提取特征需要0.8分钟。它用于所有比较的方法。然而，主要的区别是运动特征的计算时间VQAC（Base）和VQAC（HME）花费0.4分钟用于从比特流检索MV，并且花费0.3分钟用于后续过程以生成运动特征，因此提供0.7分钟。相比之下，由于3D-CNN，HME和AMU需要更多的3D-CNN使用15个额外的P帧，因此它需要更多的减压时间，大约在6.4min.它总共消耗7.4分钟，通过考虑3D-CNN中的特征提取，其花费1.0分钟。虽然VQAC（HME）使用全局特征，它需要更少的时间比其他比较算法。在Exe中，尽管对存储器的读/写操作所需的sv和sw的执行时间占主导地位，但它在总时间中并不占据很大的部分。“Others” include the时间复杂度测量我们在MSVD QA数据集上测量了推理时间，其中视频片段的分辨率为512512的结果，并在表512中示出结果。3 .第三章。对于比较，我们选择AMU [41]和HME[12]因为它们的源代码是可用的，并且时间复杂度可以在同一平台上测量。在表3中，我们考虑在解压缩视频帧（Dec）和提取对应特征（Ext）以准备特征中的测量时间一旦这些特征可用，就添加了操作模型的执行时间（Exe）因此，总时间是Ext、Dec和Exe的总和。时间是以平均值为单位测量的。回答结果表明，VQAC（HME）成功地遵循了主题。4.2. 消融研究消融试验在以下条件下进行。我们关闭每个核心模块，并将性能与VQAC或VQAC（HME）进行比较。将用[w/H]表示的结果与VQAC（HME）进行比较。此外，还与VQAC（Base）进行了比较。• 测试[w/o MV]以查看使用MV时无特征的变化。只有外观用于等式中的lt（七）、方法MSVD QA数据集中前10名MR MRR WUPS 0.9 WUPS 0.0E-MN[41]57.7%5.190.41百分之三十五点七70.0%AMU[41]百分之六十五点五4.500.46百分之三十八点九70.0%HME[12]64.9%4.480.4641.2%72.8%VQAC（HME）百分之七十点五3.900.5145.0%72.9%E-MN[41]AMU[41]60.0%62.1%5.004.830.420.43百分之三十五点八百分之三十五点九百分之六十五点五66.2%定性性能评价在图5中，我们视觉-HME[12]64.9%4.500.4640.7%百分之六十八点三在MSVD数据集中生成视频QA示例的示例VQAC（HME）68.1%4.180.4942.4%69.2%左栏中的显示了与运动相关的答案。为1715SSMM表4.通过关闭每个模块查看性能变化的消融测试结果。w/H表示VQCA（HME）中的测试。我们还进行了五次自助抽样，并在第二留置权上报告µ和σ。测试[不含MV][w/o R][含DMC][w/SF][w/H + w/o MV][w/H + w/o R][w/ H + w/osw][w/ H + w/3D]（%）µ（σ）30.3（o1.1）29.3（0.03）31.0（〇0.4）30.3（0.58）30.7（〇0.7）30.0（0.06）31.2（o0.2）30.9（0.24）34.2（o3.5）30.9（0.16）36.5（o1.2）35.5（0.08）35.4（o2.3）33.3（0.06）36.0（o1.7）34.6（0.04）ate的运动特征，使用该算法的性能和速度。图5. MSVD数据集的几个数据样本的定性性能评价。图6.几个数据中激活图Gt+的可视化• 测试[w/o R]以观察残留物的影响。 αt已设置到0.5，因此encr变为不活动的。在Eq中，外观和运动起着同等的作用。（七）、• [w/ 3D]和[w/ SF]在等式中的ft时测试。（2）分别用C3 D [34]和慢-快[13]• 当压缩域特征为其他CV任务（如动作识别[29]）而不是ft开发时，测试[w/ DMC]。• [w/ H + w/osw]在VQCA（HME）中的全局问题特征sw在Eq.（十）、Eq不考虑sw。表4示出了消融测试的结果。在[w/o MV]和[w/H +w/o MV]中，我们观察到1。1%和3。5%的性能下降，分别在大约前1的性能。该结果表明所提出的压缩域特征的效率。此外，我们观察到[w/ SF]中的一些下降，尽管运动特征由[13]生成。[w/ DMC]呈现0. 7%的性能下降。该结果表明，用于动作识别的压缩域特征[29]不适合视频QA，因为它没有考虑多模态（语言）。事实上，动作识别只需要识别视频中的几个代表性动作。在[w/o R]和[w/H+w/o R]中，性能下降约0。4%和1. 2%，分别。[w/ H + w/o s w]表示2。3%的性能下降。这些结果证实了我们的增强Eq使用全局特征函数的有效性。[w/ H + w/ 3D]不是使用运动矢量创建运动特征，而是产生1. 性能下降7%，并增加了复杂性。更有效率的是创造-MSVD数据集中的样本。在图6中，我们用G t +可视化一些示例。红色区域表示注意力的重要性，而蓝色区域则相反。第一行中的示例说明了与外观相关的答案。例如，当问题给出了该模型的正确答案注意力成功地跟随马的动作第二个示例说明了与运动相关的答案。当第四排的问题“给出的，所提出的网络产生正确的答案5. 结论在本文中，提出了一种利用压缩域特征的深度神经网络来产生视频QA特征。该网络考虑了模态间的相关性和计算复杂性。建议的网络提供了基线框架，但也集成到最先进的网络，以提高性能。确认这项工作得到了NCSOFT的支持，部分由韩国政府资助的韩国国家研究基金会（NRF）资助（编号NRF-2019 R1 C1 C1010249），部分由韩国科学和信息通信技术部（MSIT）支持，由信息通信技术规划研究所（IITP）监督的ITRC（信息技术研究中心）支持计划（IITP-2021-2020-0-01460&&评价）1716引用[1] 朱兰迪·阿尔梅达，纽西玛·J. Leite和Ricardo da S Torres.压缩域在线视频摘要。Journal of Visual Communicationand Image Representation，24（6）：729[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在ICCV，2015年。[3] R Venkatesh Babu，KR Ramakrishnan和SH Srinivasan。视频对象分割：压缩域方法。IEEE Transactions onCircuits and Systems for Video Technology，14（4）：462[4] HediBen-Younes，Re' miCadene，MatthieuCord，和Nico-las Thome.Mutan：用于视觉问答的多模态折叠融合。InICCV，2017.[5] Remi Cadene，Corentin Dancette，Matthieu Cord，DeviParikh，et al. Rubi：Reducing unimodal biases for visualquestion answering. 神经信息处理系统的进展，第839-850页，2019年[6] Joao Carreira 和 Andrew Zisserman 。 Quo vadis ， actionrecognition：新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[7] Kan Chen，Jiang Wang，Liang-Chieh Chen，HaoyuanGao，Wei Xu，and Ram Nevatia. Abc-cnn：基于注意力的卷积神经网络，用于视觉问答，2015年。arXiv预印本arXiv：1511.05960。[8] Kan Chen，Jiang Wang，Liang-Chieh Chen，HaoyuanGao，Wei Xu，and Ram Nevatia. Abc-cnn：一个基于注意力的卷积神经网络，用于视觉问答。arXiv预印本arXiv：1511.05960，2015。[9] 陈少祥和蒋玉刚。用于视频字幕的运动引导的空间注意。在AAAI人工智能会议集，第33卷，第8191-8198页[10] Christopher Clark，Mark Yatskar，and Luke Zettlemoyer.不要走捷径：用于避免已知数据集偏差的基于集成的方法。arXiv预印本arXiv：1909.03683，2019。[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[12] Chenyou Fan，Xiaofan Zhang，Shu Zhang，WenshengWang，Chi Zhang，and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。在CVPR，2019年。[13] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集，第6202-6211页[14] Jiyang Gao，Runzhou Ge，Kan Chen，and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR，2018年。[15] 高鹏，李洪生，李爽，潘璐，李益康，Steven C.H. Hoi和王晓刚。问题导向型bridconvolution for visual question answering.在ECCV，2018。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitsky，and Thomas Brox.流动网络2.0：利用深度网络的光流估计的演进。在CVPR，2017年。[18] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa ： Toward spatio-temporalreasoning in visual question answering. 在 CVPR ， 2017年。[19] 迪德里克山口Kingma和吉米 BA. 亚当：一种随机优化方法，2014。arXiv预印本arXiv：1412.6980。[20] Se-Ho Lee，Je-WonKang，and Chang-Su Kim.使用全局和局部时空特征的压缩域视频显著性检测。Journal ofVisual Communication and Image Representation ， 35（1）：169[21] 李爽，肖彤，李洪生，杨伟，王晓刚.具有潜在共同注意的身份感知文本视觉匹配。InICCV，2017.[22] Chao Ma，Chunhua Shen，Anthony Dick，Qi Wu，PengWang，Anton van den Hengel，and Ian Reid.记忆增强网络的视觉在CVPR，2018年。[23] 马特乌斯·马林诺夫斯基和马里奥·弗里茨一种基于不确定输入的真实世界场景问题回答的多世界方法。神经信息处理系统的进展，2014年。[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edwar

下载后可阅读完整内容，剩余1页未读，立即下载