基于紧凑三线性交互的可视化问题生成

47 浏览量更新于2023-10-13 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1392基于紧凑三线性交互的可视化问题生成Tuong Do1 <$，Thanh-Toan Do2 <$，Huy Tran1，Erman Tjiputra1，Quang D.Tran11AIOZ Pte Ltd，新加坡2利物浦大学摘要在视觉问答中，答案与问题的意义和视觉内容有很大的相关性.因此，为了有选择地利用图像、问题和答案信息，我们提出了一种新的三线性交互模型，该模型同时学习这三个输入之间的高级关联。此外，为了克服相互作用的复杂性，我们引入了一个多模态张量为基础的PARALIND分解，有效地参数化三个输入之间的三线性相互作用。此外，知识蒸馏首次应用于自由形式的开放式VQA。这不仅可以减少计算量和所需的内存，而且可以将知识从三线性相互作用模型转移到双线性相互作用模型。在基准数据集TDIUC、VQA-2.0和Visual 7 W上的广泛实验表明，当在所有三个数据集上使用单个模型源代码可从https://github.com/aioz-ai/ICCV19_VQA-CTI获得。1. 介绍VQA的目的是找出给定问题的正确答案，该答案与给定图像的视觉内容一致[25，3，10]。VQA有两种主要变体，即自由形式开放式（FFOE）VQA和多项选择（MC）VQA。在FFOE VQA中，答案是对给定图像-问题对输入的自由形式的响应，而在MC VQA中，答案是从给定图像-问题对输入的答案列表中选择这两个VQA任务的传统方法主要旨在学习图像和问题之间的联合表示，而答案以“被动”形式处理答案仅被视为分类目标。然而，预期答案与其对应的问题图像输入具有高度相关性，因此从这三个输入中联合且明确地提取信息将给出高度有意义的联合表示。本文在分析了现有文献的基础上，†表示相等的贡献。我们提出了一种新颖的三线性交互模型，其同时学习所有三个输入之间的高级关联，即，图像、问题和答案。三线性相互作用的主要困难是维数问题，这导致了昂贵的计算成本和巨大的内存需求。为了应对这一挑战，我们建议使用PARALIND分解[6]，将大张量分解为较小的张量，从而降低计算成本和内存使用量。所提出的三线性交互将图像、问题和答案作为输入。然而，FFOE VQA [1，40，26，39]中的答案信息仅在训练阶段可用，而在测试阶段不可用为了将三线性相互作用应用于FFOE VQA，我们提出使用知识蒸馏将知识从三线性模型转移到双线性模型。提取的双线性模型只需要图像和问题对作为输入，因此它可以用于测试阶段。对于MC VQA [47，19，27，15，30，44]，由于给定的答案列表包含每个图像-问题对的几个候选答案，并且在训练和测试阶段都可用，因此可以轻松提取答案信息。因此，所提出的三线性相互作用可以直接应用于MC VQA。评估-在TDIUC、VQA-2.0和Visual 7 W等基准数据集上进行了大量实验，验证了该模型的有效性。结果表明，该模型在所有三个数据集上都取得了最先进的结果本文的主要贡献如下。(i)本文提出了一种新的三线性交互模型，该模型同时学习VQA任务中图像、问题和答案信息之间的高级联合呈现。 (ii) 我们利用PARALIND分解来处理三线性相互作用中的维数问题。(iii)为了使所提出的三线性相互作用适用于FFOEVQA，我们建议使用知识蒸馏将知识从三线性相互作用模型转移到双线性相互作用模型。本文其余部分的组织结构如下。第二节介绍了相关工作。第3节提出了紧凑三线性相互作用（CTI）。第4节介绍了将CTI应用于FFOE VQA和MC VQA时提出的模型第5节介绍了消融研究、实验结果和分析。1393不2. 相关工作Visual中的联合嵌入问题接电话已经提出了用于VQA的不同方法[18，5，8，45，20，42，24，2，28，23，38，46，29，40]。大多数成功的方法都集中在学习输入问题和图像之间的联合在最先进的VQA中，输入图像和问题的特征通常以矩阵形式表示。例如，在一个示例中，每个图像由多个感兴趣的区域描述，并且每个区域由特征向量表示类似的想法适用于问题，例如，一个问题包含多个单词，并且每个单词由一个特征向量表示一个图像区域和一个单词之间的完全表达性交互应该是它们两个对应向量之间的外积[8]。外积允许两个向量的所有元素之间的乘法相互作用然而，在每个可能的区域和单词对之间使用外积的完全双线性交互将显著增加输出空间。因此，大多数工作都试图压缩或分解全双线性相互作用，而不是直接计算全双线性的外积。在[8]中，作者提出了多模态紧致双线性池，这是一种有效的方法来压缩双线性相互作用。该方法的工作原理是将视觉和语言特征投影到更高维的空间，然后通过在快速傅立叶变换空间中使用元素乘积来有效地卷积这两个向量。在[5]中，作者提出了多模态Tucker融合，这是一种基于张量的Tucker分解，可以有效地参数化视觉和语言表示之间的双线性相互作用。在[45]中，作者提出了分解双线性池，它使用两个低秩矩阵来近似完全双线性相互作用。最近，在[18]中，作者提出了双线性注意力网络向量，而不是计算外积，作者计算了三个向量的元素乘积的和这大大降低了计算成本，但它可能不足以完全捕获三个向量之间的与以前的工作主要旨在从模态对中学习联合表示[8，5，18，45，14，41]或通过使用元素运算符大大简化三种模态之间的交互[34]不同，在本文中，我们提出了一种原则和直接的方法-三线性交互模型，它同时学习三种特别是然后，我们依靠一个分解的方法来开发一个紧凑的模型的相互作用。知识蒸馏。知识蒸馏是一种将知识从一个简单的模型（教师模型）转移到一个轻松的模型（学生模型）的一般方法[13，11，33，7，4]。在FFOE VQA中，三线性输入-交互模型以图像、问题和答案为输入，由于测试中答案的遗漏，只能用于训练阶段，而不能用于测试阶段。为了克服这一挑战并降低计算成本，受Hinton研讨会工作的启发3. 紧凑三线性相互作用3.1. 完全参数化三线性相互作用设M={M1，M2，M3}为三个输入的表示Mt∈Rnt×dt，其中nt是输入Mt的通道数，dt是每个通道的维数内尔例如，如果M1是图像的基于区域的表示，则n1是区域的数量，d1是每个区域的特征表示的维度。(BAN)发现了双线性注意力分布，无缝地提供视觉语言信息。潘基文还让我们∈R1× dt 是M t的第e行，即，特征日使用低秩近似来近似来自图像和问题的每对向量的双线性除了图像和问题信息之外，还有其他考虑答案信息的工作，以提高VQA性能[16，9，36，14，41，34]。通常，在[14]中，作者学习了两个嵌入函数，将图像-问题对和答案转换到联合嵌入空间中。然后测量联合嵌入图像问题和嵌入答案之间的距离以确定输出答案。在[41]中，作者计算了图像和问题之间以及图像和答案之间的联合表示。然后，他们学习了两个计算表示之间的联合嵌入。在[34]中，作者计算了图像、问题和答案。对于每个三个向量，每个向量来自每个不同的输入，计算三个向量之间的相互作用。Mt中的e通道的表示，其中t∈ {1，2，3}。联合表示是由一个完全参数-三个输入上的化三线性相互作用由z∈Rdz表示，其计算如下zT=（（T ×1vec（M1））×2vec（M2））×3vec（M3）（1）其中T ∈RdM1× dM2× dM3× dz是一个学习张量;dM=nt×dt;vec（Mt）是Mt的向量化，输出一个行向量;算子×i表示i-模张量积。张量T有助于通过i-模积学习三个输入之间的相互作用。然而，当每个输入模态的维数dMt很高时，学习这样大的张量T是不可行的，这是VQA中的常见情况。因此，有必要减小尺寸T以使得所述尺寸T的值小于所述尺寸T的值。学习可行。受[43]的启发，我们依赖于酉注意机制的思想。具体地说，设zp∈Rdz为联合1394ijkp第p个三元组的通道的表示，其中三元组中的每个通道来自不同的输入。代表-三元组中每个通道的位置为m1、m2、m3，其中≈+. . . +的i jki∈[1，n1]，j∈[1，n2]，k∈[1，n3].在三个输入上有n1×n2×n3个可能的三元组联合表示zp由完全参数产生-三通道表示m1，m2，m3 第p个三元组的计算为：图1.张量TM的PARALIND分解。zT=.Σ（Tsc×1m1i）×2m2j ×3m3k（2）其中R是切片参数，建立分解速率（其直接相关于其中Tsc∈Rd1×d2×d3×dz是三元组中通道之间的学习张量遵循单一注意力的思想[43]，通过使用（2）中描述的所有三元组的联合表示来近似联合表示z，而不是像（1）中那样使用三个输入上的完全参数化的所以我们使用存储器和计算成本）和性能。每个Gr∈Rd1r×d2r×d3r是一个较小的可学习张量，称为Tucker张量。这些Tucker张量的个数等于R。R的最大值通常设置为d1、d2和d3的最大公约数。在我们的实验中，我们发现R=32给出了一个很好的交易-计算Σz=Mpzp（3）分解率和性能之间的关系这里，我们有维度d1r =d1/R，d2r =d2/R，pd3r=d3/R;W1rd×d∈Rd1×d1r，W2∈Rd2×d2r，注意，在（3）中，我们计算所有可能的加权和W3R∈R33R 是可学习的因子矩阵。图1三胞胎第p个三元组与标量权重Mp相关联。Mp的集合称为注意映射M，其中M∈Rn1× n2× n3.注意力图M是由三个输入上的简化参数化三线性相互作用产生的M，M和M计算如下显示了PARALIND分解的图解，张量TM在（6）中T M的缩短形式可以重新写成ΣRTM≈¢Gr;W1r，W2r，W3r）（7）12 3M=（（TM×1M1）×2M2）×3M3（4）其中TM∈Rd1×d2×d3是注意力映射M的学习张量。注意，与（1）中的学习张量T相比，（4）中的学习张量TM具有减小的通过将（2）积分到（3）中，可以得到(3)可以重写为r=1将学习张量TM从（7）积分到（4），注意力图M可以重写为ΣRM=¢Gr;M1W1r，M2W2r，M3W3r）（8）r=1zT= 2016年1月22日Σn3米克 ..Σ（Tsc×1m1i）×2m2jΣ×3m3k类似于TM，PARALIND分解也应用于（5）中的张量Tsc值得i=1j =1k =1（五）注意到Tsc的大小直接影响到尺寸的联合表示z∈Rdz。因此，为了最小化其中（5）中的Mijk实际上是标量注意力权重Mp注意力地图M的（4）。同样值得注意的是，从（5）计算z，在-而不是学习大张量T ∈RdM1×dM2×dM3×dz在信息丢失的情况下，我们将切片参数R=1和因子矩阵的投影维数设置为dz，即，关节表示z的相同维度。因此，我们认为，在（1）中，我们现在只需要学习两个较小的张量Tsc∈R1 2 3（5）中的z可以计算为：（2）中的Tsc∈Rd1×d2×d3×dz，（4）中的TM∈Rd1×d2×d33.2. 参数分解Tsc （Gsc×1Wz1 ）×2WZ2）×3WZ3（九）其中，Wz1 ∈Rd1×dz，Wz∈Rd2×dz，Wz∈Rd3×dz虽然大张量T三线性相互作用模型被两个较小的张量T_M和T_s_c所代替，这两个张量的维数仍然很大，这使得模型的学习困难。为了进一步降低计算复杂度，PARALIND分解[6]被应用于TM和TSC。学习张量TM∈Rd1×d2×d3的PARALIND分解可以计算为W111W21W1RW2 RW3RW31R21395是可学习的因子矩阵，Gsc∈ Rdz× dz× dz× dz是一个较小的张量（与Tsc相比）。到目前为止，我们已经通过（8）和（9）得到了M和Tsc，因此，我们可以使用（5）计算z（5）可以改写为：十个Σn1Σn2Σn3zT=TM≈ ΣRr=1（（Gr×1W1r）×2W2r）×3W3r（6）米克i=1j =1k =1.Σ（Gsc×1m1iWz1）×2m2jWz2 ×3m3kWz3（十）1396STiΣ这里，有趣的是注意到（10）中的Gsc∈Rdz×dz×dz×dz具有秩1。因此，在不存在秩为1的张量Gsc的情况下，由（10）中的i模张量乘积得到的结果可以用Hadamard乘积来近似[21]。特别地，（10）中的z可以在不使用Gsc的情况下计算为：按照[41]，输入样本被分成正样本和负样本。一个正样本，在二分类中被标记为1，包含图像、问题和正确答案。在二进制分类中标记为0的负样本包含图像、问题和zT= Σn1Σn2Σn3i=1j =1k =1米克 .m1iWz1 ◦ m2jWz2Σ◦ m3k Wz3（十一）错误的答案然后将这些样品通过我们提出的CTI得到联合表示z。联合表示通过二元分类器以获得预测。二进制交叉熵损失用于训练-注意，作为联合嵌入维度的dz在我们的实验中，我们发现dz=1，024给出了良好的折衷。4. VQA的紧致三线性相互作用用于训练VQA的输入是（V，Q，A）的集合，其中V是图像表示;V∈Rv× dv，其中v是im中感兴趣区域（或边界框）的数量。年龄和dv是一个区域的表示的维数;Q是一个问题表示;Q∈Rq×dq其中q是隐藏状态的数量和dq是每个隐藏状态的维数A是答案表示;A∈Ra× da，其中a是隐藏状态的数量，da是维数。每一个隐藏的状态。通过对每个（V，Q，A）应用紧三线性相互作用（CTI），我们得到了联合表示z∈Rdz.具体地，我们首先通过（8）如下计算注意力图MΣRM=<$Gr;V Wvr，QWqr，AWar）（12）r=1然后，通过（11）如下计算联合表示z提出的模型。图2显示了拟议将CTI应用于MC VQA时，4.2. 自由形式开放结束视觉问题与MC VQA不同，FFOE VQA将回答视为一组预定义答案的分类问题。因此，每个问题-图像对的可能答案集比MC VQA的情况多得多。因此，第4.1节中提出的模型设计，即对于每个问题图像输入，该模型从其答案列表中提取每个可能的答案来计算联合表示，导致了高的计算成本。此外，所提出的CTI需要所有三个V、Q、A输入来计算联合表示。但是，在测试期间，FFOE VQA中没有可用的答案信息。为了克服这些挑战，我们建议使用知识蒸馏[13]将学到的知识从教师模型转移到学生模型。图3显示了所提出的FFOE VQA设计。我们的教师模型采用图像-问题-正确答案三元组作为输入。每个三元组通过提议的CTI以得到联合表示z。然后将联合表示z通过多类分类器（在预定义答案的集合上）以获得类似于[37]的预测。交叉熵损失用于训练教师模型。关于学生模特，Σv ΣqzT=Σa米克.ΣViWzvQjWzqAkWz a可以使用任何现有技术的VQA。在我们的实验中，我们使用BAN2 [18]或SAN [43]作为学生模型。学生-i=1j =1k =1（十三）dent模型以图像-问题对为输入，对将预测问题视为多类分类问题。的其中（12）中的Wvr、Wqr、War和（13）中的Wzv、Wzq、Wza是可学习的因子矩阵;（12）中的每个Gr是可学习的塔克张量。4.1.多项选择视觉问题分类为了与MC VQA [14，41]中的最新技术水平进行公平的比较，我们遵循那些学生模型的损失函数定义为LKD=αT2LCE（Qτ，Qτ）+（1−α）LCE（QS，ytrue）（十四）其中LCE代表交叉熵损失;QS是student的标准softmax输出; ytrue是真实答案标签; α是用于控制输入的超参数。工程. 具体来说，每个输入问题和每个答案各损耗分量的重要性;Qτ，Qτ是那些S T被削减到最多12个单词，如果短于12个字，则填充零。然后，每个单词由300-DGloVe单词嵌入表示[32]。每幅图像用14×14×2048网格有限元法表示学生和老师使用同一个项目的输出温度参数T[13]，计算如下Qτ =exp（li/T）（15）exp（l/T）真实（即，196个单元;每个单元具有2，048-D特征），ii从ResNet-152的倒数第二层提取，在ImageNet上预先训练[12]。其中对于教师和学生模型，logitl为由相应的分类器输出的预测。1397平行分解二进制分类器教师模型对象图像检测边界框特征边界框问题胡子是什么做的？状态特征Number视觉特征∈×回答真实香蕉状态特征GRU所有隐藏状态Q国Number国GRU所有隐藏状态A问题特征∈×注意力图答题特点=（（ ×为∑∑∑=1=1=1联合表象∘∘（一））蒸馏学习VQA学生模型Logits多类分类器平行分解回答集图像问题对象检测边界框特征视觉特征边界框对于答案集中香蕉胡子是什么做的？状态特征∈×状态特征GRUNumber国NumberGRU所有隐藏所有隐藏状态Q问题特征∈×关注国答题特点状态A=（（联合表象=∑（一）∘）=1=1=1图2.提出了将CTI应用于MC VQA的模型详情见第4.1节。最好的颜色。图3.提出了将CTI应用于FFOE VQA的模型详情见第4.2节。最好的颜色。根据FFOE VQA [18]的当前技术水平，对于图像表示，我们使用基于对象检测的特征和FPN检测器（ResNet152主干）[22]，其中最大检测边界框的数量设置为50。对于问答式表示，我们将问题和答案的最大值调整为12个字，如果短于12个字，则填充零。然后，每个单词由600-D向量表示，该向量是300-D GloVe单词嵌入[32]和来自训练数据的增强嵌入的级联[18]。换句话说，一个问题是一个大小为12×600的表示。答案是相似的。A. 香蕉B. 糖果C. 塑料D. 没有胡子1398Qt模型评估指标ACCAriHarAri-NHar-NBAN2-CTI87.072.565.545.828.6与BAN 2 [18]85.567.454.937.415.7ABSSAN-CTI84.568.759.941.323.3SAN[43]82.365.053.735.414.7BAN2-CTI85.070.663.841.526.9W/O BAN 2 [18]81.964.652.831.914.6ABSSAN-CTI82.866.758.136.821.8SAN[43]79.162.451.730.213.7表1. TDIUC验证集上不同评估指标中提案和基准BAN2、SAN的总体性能。性能显示与不考虑AB- surd问题类别。BAN 2-CTI和SAN-CTI是在我们提出的CTI教师模型下训练的学生模型。5. 实验5.1. 数据集和评价方案数据集。我们在三个基准VQA数据集上进行实验，这些数据集是用于MC VQA的Visual 7 W [47]、用于FFOE VQA的VQA-2.0 [10]和TDIUC [17]。在进行消融研究时，我们使用训练集进行训练，使用验证集在所有提到的数据集中进行评估实作详细数据。我们的CTI是使用PyTorch实现的[31]。实验在具有12GB RAM的NVIDIA Titan V GPU上进行。在所有的实验中，学习率被设置为10-3。批量大小已设置 128人用于培训MC VQA，256人用于培训FFOE VQA。当训练MC VQA模型（第4.1节）和FFOE VQA模型（第4.2节）时，除图像表示提取外，其他组件都是端到端训练（15）中的温度参数T被设置为3。对于MC VQA和FFOE VQA两者，联合表示z的维度被设置为1024评估指标。我们遵循文献[3，17，47]，其中每个VQA任务的评价指标不同。对于FFOE VQA，单一准确度（标准VQA准确度（Acc）[3]）适用于TDIUC和VQA-2.0数据集。此外，由于TDIUC数据集的问题类型不平衡，遵循[17]，我们还报告了其他四个指标，以补偿偏斜的问题类型分布。它们是算术 MPT（ Ari ）、算术 Norm-MPT （ Ari-N ）、谐波 MPT（ Har ）和谐波 Norm-MPT （ Har-N ）。对于 MCVQA，我们遵循[47]提出的评估指标（Acc-MC），其中性能由VQA模型从候选答案集中选择的正确答案部分来衡量。5.2. 消融研究CTI在FFOE VQA中的有效性。我们将精选的BAN2（BAN 2-CTI）和精选的SAN（SAN-CTI）学生模型与最先进的基准进行表2. TDIUC验证集上每种问题类型的提案和基线BAN2、SAN的性能（Acc）。BAN 2-CTI和SAN-CTI是在我们的紧凑三线性交互教师模型下训练的学生模型。[18][19]表1给出了对TDIUC的五个不同指标的综合评价在所有指标中，总体而言，我们的BAN 2-CTI和SAN-CTI的表现明显优于相应的基线。这些结果证实了我们提出的CTI学习联合表示的有效性此外，所提出的教师模型（图3）也是有效的。它成功地将有用的学习知识转移到学生模型中。注意，在表1中，“荒谬”问题类别指示输入问题与图像内容无关的情况。因此，答案总是“不适用”，即，“没有回答”。在训练教师时使用这些无意义的答案会对学习联合表示产生负面影响，从而降低模型容量。如果不考虑“荒谬”类别，则所提出的模型在基线上实现了更多的表2呈现了当所有类别（包括“荒谬”）用于训练时，在TDIUC的每个问题类别上的Acc结果表明，我们取得了最好的结果，所有的问题类别，但我们注意到，在实际应用中，在提出主要问题之前提出“在场问题”，例如，我们有一个没有人的图像，但主要的问题是“人们戴帽子吗？“，也就是说，“荒谬”的问题通过问一个“在场问题”，如“照片中有没有人？“，在提出主要问题之前，我们可以确认在所考虑的图像中存在人表3显示了我们的蒸馏学生模型与VQA-2.0上的两个基线BAN 2、SAN对Acc指标虽然我们的提案优于基线，但改进差距并不大。这是可以理解的，因为VQA-2.0数据集具有大量问题类型BAN2-CTIBAN2[18个国家]SAN-CTISan[四十三]场景录制94.593.193.692.3体育娱乐96.395.795.595.5颜色属性74.367.570.960.9其他属性60.553.256.446.2活动记录63.254.054.551.4位置记录40.527.934.327.9子对象接收89.387.587.687.5荒谬93.998.290.693.4乌蒂尔·阿夫36.324.031.026.3目标压力96.195.194.992.4计数59.753.955.652.1情绪66.158.759.953.6139935the问题：牙膏管是什么颜色的？GT答案：蓝色、红色和白色预测答案：蓝色、红色和白色（4，'管'，'白'）白色0.0300.025表3. VQA-2.0验证集和测试开发集中提案和基线BAN 2、SAN的性能。 BAN2-CTI 和SAN-CTI是在所提出的教师模型下训练的学生模型。（一）和（4，'tube'，'red'）红色（4，'tube'，'Blue'）蓝色2管4牙膏是颜色什么注意地图（b）0.0200.0150.0100.0050.000表4.所提出的MC VQA模型的性能（Acc-MC）和参数数量以及Visual 7 W确认集上的基线BAN 2、SAN。其答案是“是/否”或仅包含一个单词的问题“数字”问题类型的答案）。这些答案具有很少的语义含义，这阻止了我们提出的三线性交互提高其效率。CTI在MC VQA中的有效性。我们仍然使用最先进的BAN2 [18]和SAN [43]作为基线，并在Visual7W数据集上进行实验。在MC VQA中，在训练和测试中，每个图像-问题对都有一个对应的答案列表，其中包含四个答案。为了进行公平的比较，我们针对基线BAN2和SAN在三种模态（图像、问题和答案）上尝试不同的配对组合。与[41]类似，我们发现以下组合给出了基线的最佳结果首先利用BAN 2（或SAN）计算图像与问题的联合表示;以及图像和答案之间的联合表示。然后，我们将两个计算的表示连接以得到联合表4显示了Visual 7 W与Acc-MC指标的比较结果。结果表明，我们提出的模型优于基线的一个明显的保证金。这些结果证实，通过提出的三线性交互学习的联合表示比通过模态对的BAN（或SAN）计算的联合表示的组合实现更好的性能此外，在表4中，我们还提供了我们提出的具有 CTI （图 2 ）和 BAN2 ， SAN 的MCVQA模型的总参数数结果表明，我们的模型需要的内存比这些基线少这意味着，建议的MC VQA模型与CTI不仅优于基线的准确性方面，但也更有效地比那些基线的条款图4.注意力图（b）的可视化计算公式。(12)对于图像-问题-答案输入（a）。注意力图指示了“检测到的绑定框-问题中的词-答案中的词”的三元组上的注意力权重三元组的权重越高，其对联合表示的贡献越大我们可以看到，三个三联体（V=4，Q=这意味着这些三胞胎给联合表示的贡献很大。输入样品（a）来自Vi-sual 7 W验证组。最好的颜色。使用记忆。图4显示了CTI产生的注意力地图，作为图像-问题-答案的示例。注意力地图由（12）计算。5.3. 与最新技术水平的比较为了进一步评估CTI的有效性，我们与当前最先进的技术进行了详细的比较。对于FFOE VQA，我们将我们的建议与TDIUC和VQA-2.0数据集上的最新最先进方法进行了比较，包括SAN [43]，QTA [35]，BAN2 [18]，自下而上[37]，MCB [8]和RAU [29]。对于MCVQA，我们与Visual7W数据集上的最先进方法进行了比较，包括BAN2 [18]，SAN [43]，MLP [16]，MCB[8]，STL [41]，和fPMC [14]）。值得注意的是，根据任务FFOE VQA或MC VQA，我们对图像和问题使用不同的表示，如第4节中明确提到的这确保了与比较方法的公平比较。关于FFOE VQA，表3和5分别显示了VQA-2.0和TDIUC的比较结果。具体地，表5示出了我们的提取的学生BAN 2-CTI在所有度量上以大幅度优于所有比较的方法，即，我们的模型在TDIUC上比当前最先进的QTA [35]好3。4%和5。Ari和Har指标分别为4%。结果表明，三线性交互从三个输入中学习到了信息表征，并通过蒸馏将学习到的关于MC VQA，表6示出了所提出的模型（在表6中表示为CTI）以明显的裕度优于比较的方法。我们的模型优于答案（A）1Ref模型验证精度Test-dev精度自下而上[37]63.265.4SAN [43]61.763.0SAN-CTI62.163.4BAN 2 [18]65.666.5BAN2-CTI66.067.46Ref模型Visual7W验证集Acc-MC数量的参数BAN 2 [18]SAN [43]65.759.386.5M69.7MCTI67.066.5M1400我JRr不Rr模型评估指标ACCAriHarAri-NHar-NBAN 2 [18]85.567.454.937.415.7SAN [43]82.365.053.735.414.7QTA [35]85.069.160.1MCB [8]79.265.858.039.824.8Rau [29]84.367.859.041.024.0SAN-CTI84.568.759.941.323.3BAN2-CTI87.072.565.545.828.6表5. TDIUC验证集上不同评估指标的不同方法之间的性能比较BAN 2- CTI和SAN-CTI是在我们的紧凑三线交互教师模型下训练的学生模型。紧三线性相互作用是BAN的推广[18]。所提出的紧凑三线性相互作用模型可以被视为最先进的联合嵌入BAN的推广[18]。在BAN中，每个输入包含图像表示V∈Rdv×v和一个问题表示Q∈Rdq×q。可以修改三线性相互作用模型以适应这两个输入。（1）中的联合表示z∈Rdz可以适用于两个输入，如zT=（Tvq×1vec（V））×2vec（Q）（16）其中Tvq∈RdV× dQ× dz是可学习张量;vec（V）是V的向量化，vec（Q）是Q的向量化，输出行向量; dV=dV× v; dQ= dq× q。通过应用ΣvΣqzT=Mij.VTWzΣ◦ QTWz（十七）其中，Wzvi=1j =1∈Rdv× dz Wz∈Rdq× dz 都是可以学会的表6.不同方法之间的性能比较在Visual7W测试集上。训练集和验证集都用于训练。除了CTIwBox之外的所有模型都使用相同的图像和问题表示进行训练。训练集和验证集都用于训练。请注意，CTIwBoxes是使用自下而上特征[2]而不是网格特征进行图像表示的建议CTI当前最先进的STL [41] 1. 百分之一。同样，这验证了所提出的联合呈现学习的有效性，该联合呈现学习精确地同时学习三个输入之间的交互。我们注意到，当与Visual 7 W上的其他方法比较时，对于图像表示-因子矩阵;Mij是注意力图的注意力权重M∈Rv×q，可以从（12）计算为ΣRM=<$Gr;VTWv，QTWq）（18）r=1其中Wv∈Rdv× dvr和Wq∈Rdq× dqr是可学习的因子矩阵;dvr=dv/R; dqr=dq/R;每个Gr∈Rdvr× dqr是一个可学习的Tucker张量。有趣的是，（17）可以被重组为具有BAN的形式[18]为我们使用从ResNet-512[12]为了公平的比较。我们提出的模型可以实现Σv Σqzk=.Mij.不VKΣ Σzq k QJ（十九）通过使用FFOE VQA中使用利用新特征，表6中表示为CTIwBox的模型实现72。3%准确度范围其中zki=1j =1是联合表示z的第k个元素;日具有Acc-MC度量，其改进了当前最先进的STL [41]4。百分之一。5.4.进一步分析PARALIND分解的有效性。在本节中，我们计算PAR- ALIND的分解率。对于三个输入之间的完全交互，使用（1），我们需要学习2199。这在实践中是不可行的。通过使用第3节中给出的PARALIND分解以及提供的设置，即，切片的数量R=32并且联合表示的维度dz=1024，需要学习的参数的数量仅为33。六千九百万。在另换句话说，我们实现了分解率为65，280。WZVK 和Wzqk是因子矩阵Wzv中的k列，WZQ。请注意，在（19）中，我们的注意力地图M是由PARALIND分解产生的，而在BAN [18]中，它们的注意力地图通过双线性池化来计算。6. 结论我们提出了一种新的紧凑的三线性互动，同时学习高层次之间的联系，图像，问题，并回答在MC VQA和FFOE VQA。此外，首次将知识蒸馏应用于FFOEVQA，以克服交互的计算大量的实验结果表明，所提出的模型达到了国家的最先进的结果在三个基准数据VWvQQ我 Wz数据集Ref模型Acc-MCVisual7W测试仪MLP [16]67.1MCB [8]62.2fPMC [14]66.0STL [41]68.2SAN [43]61.5BAN 2 [18]67.5CTI69.3CTIwBoxes72.31401集。1402引用[1] Devi Parikh Aishwarya Agrawal、Dhruv Batra和Anirud-dha Kembhavi。不要只是假设;看一看并回答：有视觉问答的前科。在CVPR，2018年。[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和VQA。在CVPR，2018年。[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，2015年。[4] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？在NIPS，2014。[5] HediBen-younes ， Re'miCade'ne ， MatthieuCord ，andNicolasThome.Mutan：用于视觉问答的多模态折叠融合InICCV，2017.[6] Rasmus Bro ， Richard A Harshman ， Nicholas DSidiropou-los，and Margaret E Lundy.使用线性相关载荷对多路数据建模。化学计量学杂志：化学计量学会杂志，第324-340页，2009年。[7] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。在NIPS，2017年。[8] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。在EMNLP，2016。[9] 甘闯，李延东，李浩祥，孙晨，龚伯庆. Vqs：将分割与问题和答案联系起来，以在vqa和以问题为中心的语义分割中进行监督注意InICCV，2017.[10] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。使VQA中的V变得重要：评价图像理解在视觉问答中的作用。在CVPR，2017年。[11] Saurabh Gupta，Judy Hoffman，and Jitendra Malik.监督转移的交叉模态提取。在CVPR，2016年。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[13] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在NIPS深度学习研讨会，2014年。[14] 胡鹤翔，赵伟伦，沙飞。学习视觉问答的答案嵌入。在CVPR，2018年。[15] Ilija Ilievski，Shuicheng Yan，Jiashi Feng.视觉问答的集中arXiv预印本arXiv：1604.01485，2016年。[16] Allan Jabri ， Armand Joulin ， and Laurens Van DerMaaten.重新审视视觉问答基线。在ECCV，2016年。[17] Kushal Kafle和Christopher Kanan。可视化问答算法分析。InICCV，2017.[18] Jin-Hwa Kim，Jaehyun Jun，and Byoung-Tak Zhang.双耳注意力网络。在NIPS，2018年。[19] Jin-Hwa Kim、Sang-Woo Lee、Donghyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-TakZhang。多模态残差学习在视觉品质分析中的应用。在NIPS，2016年。1403[20] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard乘积。在ICLR，2017。[21] Tamara G Kolda和Brett W Bader。张量分解及其应用。SIAM审查，第455-500页[22] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick ，KaimingHe，Bharath Hariharan，and SergeJ.贝隆吉用于对象检测的特征金字塔网络。在CVPR，2017年。[23] Jiasen Lu ， Jianwei Yang ， Dhruv Batra ， and DeviParikh.用于视觉问答的分层问题图像共注意。在NIPS，2016年。[24] 放大图片作者：Chao Ma，Chunhu

下载后可阅读完整内容，剩余1页未读，立即下载