约束优化的视觉问答模型：解开语义概念的相关性

186 浏览量更新于2023-10-15 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1084LLBarlow约束优化的可视化问答[StarCount*] Ritzenkirk公寓式酒店，伊斯坦布尔-这里[StarCount*]Ritzenkirk公寓式酒店，伊斯坦布尔-这里[StarCount *] Ritzenkirk公寓式酒店，伊斯坦布尔-这里[StarCount *] Ritzenkirk公寓式酒店，伊斯坦布尔-esat.kuleuven.be摘要视觉问答是一种视觉和语言多模态任务，其目的是从问题和图像两种模态中预测答案。最近的方法集中在学习一个良好的联合嵌入空间的图像和问题，通过改善这两种模式之间的相互作用，或通过使其成为一个更discriminant空间。然而，这个关节空间的信息量如何在本文中，我们提出了一种新的正则化VQA模型，约束优化使用巴洛它减少了学习的特征组件之间的相关性，从而解开语义概念。我们的模型还将联合空间与答案嵌入空间对齐，其中我们将答案和图像+问题视为本质上是相同语义信息的两个不同我们提出了一个约束优化策略来平衡分类和冗余最小化的力量。当建立在最先进的GGE模型上时，所得到的模型在VQA-CP v2和VQA v2数据集上分别将VQA准确性提高了1.4%和4%。该模型也具有较好的解释性。代码可用：https：//github.com/abskjha/Barlow-constrained-VQA1. 介绍视觉问答（VQA）[4]是一项具有挑战性的视觉和语言任务。它涉及基于自由形式的自然语言问题对视觉场景的推理。回答这个问题需要学习跨两种模态的概念之间的语义关联由于涉及同一种查询和场景的不同问题和图像应该产生相似的答案，因此学习各个模态及其跨模态交互的语义对于解决VQA至关重要。许多最近的作品通过学习联合嵌入空间[37，30，14]或通过在一种模态中以另一种模态为条件对注意力机制[43，13，25，44]进行建模来实现这一点另一项工作试图提高判别力[24]的*同等贡献。图1：COB：我们提出了一组冗余最小化约束C（绿色区域），它们与交叉熵损失CE（黄色区域）一起应用。最终的COB损失COB是约束损失的加权和具有交叉熵损失，其中使用损失平衡模块动态更新权重。联合嵌入空间以提高应答性能。这些都是重要的贡献。然而，特征空间的高鉴别能力并不意味着高信息量[23]。虽然高判别空间可以通过对给定数据分布的最具判别性的特征进行建模来在损失特定任务另一方面，一个受到额外信息约束的判别空间可能会产生一个更丰富的特征空间，可以更好地推广到以前看不见的数据。在本文中，我们提出了一个冗余减少约束，灵感来自Barlow的第三个假设[5]的感官信息转换，将更多的信息在联合特征空间。第三个假设（冗余减少假设）指出，“感觉释放器重新编码感觉信息，使它们的冗余减少，但相对较少的信息丢失。”当多个特征组件覆盖相同的语义概念时，特征空间中的冗余就会出现考虑到特征空间的固定维度，这导致特征空间的总体信息内容是次优的。冗余度较低的特征空间可以用较少的特征维度对相同的信息进行输入图像（一）、羊）类问题p1问：中间是什么动物？单峰冗余约束（关节）编码联合表示损失COB多模态冗余约束p2答案：羊单峰冗余约束（答案）编码答案表示总体冗余最小化约束冗余最小化约束应答编码器分类器动态损耗平衡联合网络应答流基础VQA模型1085或者具有相同数量的特征尺寸的更多信息。这会产生一个信息量更大的嵌入空间，可以更好地对多模态概念进行建模，从而提供卓越的VQA性能。为了解决这个挑战，VQA，我们提出了一个额外的去相关损失项，除了分类损失预测答案。这个额外的损失项鼓励跨特征分量的去相关，从而提高了嵌入空间的信息内容。最近，对于自我监督的表征学习任务，Zbontaret al. [46]利用他们的Barlow双胞胎模型，已经表明，当应用于由双胞胎模型编码的相同数据的两个视图时，根据Barlow的Redundancy减少假设建模的去相关损失在这里，我们使用与Barlow twins类似的去相关公式[46]，但针对数据的两个多模态视图重新公式化。我们提出，从图像+问题输入中提取的信息理想地对应于答案中存在的信息。换句话说，图像+问答可以被认为是同一内容的两种不同因此，当计算相关性时，我们不仅考虑联合图像+问题空间中的自相关性，而且考虑答案与联合空间之间的互相关以及答案空间中的自相关性。作为额外的优点，这通过用于答案空间的词嵌入带来了关于答案之间的语义相似性的信息图1显示了我们的完整管道，将分类丢失与冗余减少相结合我们还发现，直接将去相关最小化损失（Barlow损失）应用于随机初始化的嵌入空间产生非常高的损失。因此，在交叉熵损失旁边天真地添加Barlow损失导致较差的VQA结果。另一方面，当将Barlow损失应用于已经对齐（通过交叉熵预先训练）的嵌入空间时，不会发生这个问题（参见第4.2节）。基于这一经验证据，我们构造了一个参数约束优化策略来平衡这两种力量。这导致更多的信息和判别嵌入空间，从而提高了回答的准确性。概括而言，我们的贡献如下：(i) 我们提出了COB正则化，其重点是问题和图像的联合嵌入空间和答案嵌入空间之间的冗余减少，以提高VQA模型的信息含量。(ii) 我们提出了一种策略来平衡分类和冗余减少力量来训练模型。(iii) 我们在具有挑战性的VQA v2 [15]和VQA-CP v2[2]数据集上提高了最先进的性能。(iv) 我们提出的方法提高了它所建立的VQA模型的可解释性。2. 相关工作可视化问答：在引入标准数据集VQA之后，VQA已经占据了很大的份额[4]和早期的多模态技术来解决这个问题[31，4，20]。初始方法[37，30，14]通过连接或关联两个特征来联合分析视觉和问题特征嵌入在后来的作品[43，13，25，44]中，人们观察到，关注图像和问题中的特定部分有助于更好地推理和回答。标准VQA数据集中语言偏见的后续发现导致了更少偏见的数据集和更强大的模型。Agrawal等人[2]提出了VQA-CP v1和VQA-CPv2，以克服VQA v1 [4]和v2 [15]数据集的语言和分布偏差。Wu等提出的一种基于批判性推理的方法。[42]确保正确的答案匹配最有影响力的视觉区域，以克服数据集偏差。多位作者，如Ramakr- ishnanet al.[36]提出了一种基于对抗性的方法，Jinget al. [22]分解了一种克服VQA中语言先验的语言表示技术。Clark等人[9]提出了一种基于集成的方法来避免已知的数据集偏差，而Han等人。[16]提出了一种克服数据集中的捷径偏差和分布偏差的梯度增强方法。因此，大多数方法集中在正则化技术，以克服语言偏见。在本文中，我们专注于正则化技术，以减少冗余的VQA模型，并表明这进一步提高其性能。冗余减少：降维是减少特征空间的冗余的一种方式，即通过最小化建模数据所需的特征分量的数量。线性降维技术（如主成分分析（PCA）[35]）为单个模态提供了原始特征空间与主成分所跨越的空间之间的映射。在这个新的空间中，低能量主成分可以以最小的信息损失被丢弃。类似地，对于多种模态，典型相关分析（CCA）类技术[19，17]提供了单个模态之间的线性在CCA之后，模态的投影是高度相关的，但是它们在结果特征维度上是去相关的我们提出的方法促进了去相关特征分量的学习，类似于PCA和CCA。然而，与PCA和CCA不同，原始特征与去相关分量空间之间的学习投影是非线性的。最近，Kalantidiset al.[23]提出了一种类似于Zbontar等人的Barlow孪生损失的孪生损失。[46]学习非线性降维，作为PCA的替代方案。他们训练一个双编码器-解码器架构，在输入空间中最近邻居的输出投影之间进行去相关优化我们的方法是1086LDKD × D→∈12DIJ∈ DK ∈DSKK K|1K|2IIBIJ1B2B√Σ12J1 2 12.ΣkLk类似于[23]，在我们的约束的激励方式，然而，它不是我们模型中的主要目标函数。以解相关为优化约束，优化交叉熵以最大化应答准确率去相关损失：解相关损失通常用于具有softmax非线性，用于预测答案空间A上的概率分布。然后计算所得概率分数与地面真实答案ak之间的交叉熵损失（CE）对于一个批次：（V，Q，A，M f，M l），由n b个相同的ples（vk，qk，ak，mf，ml），交叉熵损失可以被降低。在最近的表示学习方法[46，6，23]中，通过在两个上使用共享的双编码器-解码器架构罚款为：LK K1ΣBexp（ml[ak]），KK来自单峰空间的相同样本的视图，同时最小化单位矩阵之间的距离LCE（M，A）=−n日志Ka′∈DAexp（ml[a′]）（三）以及输出表示的相关矩阵这迫使输出嵌入空间中的特征分量正交。在我们的例子中，输入来自两种不同的模态，因此它不同于双胞胎公式。使用我们提出的两种不同模态的约束背后的假设是出于这样的假设，即图像-问题对及其答案应该与相同的基本概念相关。稳定损失：针对不同的网络优化-企业目标需要平衡或权衡损失其中ml[ak]是对应于答案ak的logit。然后使用所得到的梯度来训练参数的VQA网络。Barlow双胞胎公式：为了减少特征组件之间的冗余，Zbontar等人。[46]提出单位矩阵（IRNB×NB）和相关矩阵（C）之间的距离最小化损失在非线性投影bθB（. ）的编码表示Es（. ）的两个增强视图（s k|1，s k|2）同一输入sk∈DS.为一批S={sk}nb的nb个这样的样本，和它的两个aug-梯度，特别是对于非互补的目标[45，1，27，18]，因为它们迫使特征智能视图Sk=11和S2，Barlow投影为：空间在两个不同的方向摇摆[27，18]。这些目标的不适当平衡可能导致微不足道的解决方案[18，38]，因此损失加权因子是一个重要的超参数。Rezeland和Viola [38]提出了一种具有约束优化的通用ELBO损失（GECO），这是一种可学习的加权方案，用于在训练可变自动编码器的背景下平衡KL发散和重建损失[27]。我们提出了一个类似的约束优化公式的交叉熵损失在我们的方法，该方法为约束分配动态权重Sb=bθ（es（S1））;Sb=bθ（es（S2））（4）C（Sb，Sb）=Norm（Sb）<$Norm（Sb）（5）其中εs是模态特定特征编码r，bθB是从编码特征空间到N B维巴洛优化空间B的非线性投影，而Norm（. ）是沿着批处理的归一化函数[21]。相关矩阵CS=C（Sb，Sb）的每个元素可以由（i，j）索引，如CS：与GECO不同，我们的目标函数和约束不伊普斯湾[i]sb[j]有类似的尺度，初始约束损失为或-Cij=0（sb[i]）2K|1（sb[j]）2K|2大于主要目标函数的数量级。3. 方法LS=ε（1−CS）2+γε（CS）2（7）我我 J3.1. 预赛其中1≤i，j≤NB索引特征分量VQA制剂：具有交叉熵的VQA任务第k个样本（sbK| 1，sbK|2∈ DB）在预计批次损失可以被定义为在给定一组图像和问题对的情况下对固定答案词汇上的分类分布进行建模对于这个问题的数据分布D对于实例dk={vk，qk，ak} ∈ DV QA，任务为为了预测答案ak∈DA，给定图像vk∈DV，（Sb，Sb）.等式7中的第一项最小化两个投影表示之间的距离，而第二项促进特征分量之间的去相关，γ是对两个表示进行加权的正超参数损失条款我们的目标是学习一个判别空间DM，基于一个问题qkQ。当代方法[4，37，30，14]通过首先对每个最小化LCE在减少冗余的同时，通过重新S使用预先训练的编码器e，e的两种模态，然后用公式表示单峰巴洛去相关损失LB，vq是多模态输入空间（DM，DA）。学习它们的联合表示。每个实例对（vk，qk）然后可以由该联合表示空间中的点mfM表示：mf=fθ ev（vk），eq（qk）（1）ml=lθ（mf）（2）KK（六）10873.2. 目标函数公式化典型的基于分类的VQA任务可以用等式1至3建模。在基本编码器（ev，eq）、视觉和语言之间的多模态交互（fθJ）其中f θJ是参数为θJ的联合网络，l θL是联合嵌入上的推理网络（l θL）。其中参数θL是逻辑投影，沿着这里，我们使用贪婪梯度包络（GGE）[16]作为我们的1088输出类概率视觉编码器Softmax（输入图像）问：这是一个Qnuimesatlioisn：在有一个Qnuim是一个很大的问题：在这个什么东西？中间有一个吗中心？（输入问题）（数据交叉校正操作答案：羊答案：羊er：羊Aenrs：wSehre：eSpheep（Groundtruth）交叉校正矩阵语言编码器语言编码器联合网络--LLKBBBBBB≤分类损失（，羊）Barlow去相关损失图2：整体模型：我们给出了整体COB模型，同时包含分类损失和Barlow冗余减少约束。我们在第3节中详细解释了符号和相应的组件。我们还提供了补充资料中所有使用的符号所有的θ参数都是学习的，而编码器ev、eq、ea是预先训练的模型。在评估过程中，我们只使用分类流（黄色），并删除联合和答案投影仪。基线，并将其用作我们的骨干VQA模型。GGE-DQ方法优化了分布偏差和问题捷径偏差。它首先优化了一个只有问题的模型的logit值与分布偏差的梯度之间的损失，然后在第二阶段，它获得了一个VQA模型的答案logit与分布偏差和问题捷径偏差的梯度之间的损失，如方程中所讨论的。16在[16]中。政府专家小组的联合网络模型可以近似为fθJ。因此，我们要优化的目标函数是等式中的交叉熵（LCE）3.第三章。3.3. Barlow损失首先，我们将交叉熵目标函数CE与去相关损失相结合，参见图1B。2.对于一组编码的问题和图像表示，eq（Q）和ev（V），我们使用等式获得联合表示M f。1.一、该联合表示M f成为我们想要去相关的两个模态之一。第二模态是由A a= e a（A）编码的答案空间。然后，我们计算三个去相关损失：单峰联合嵌入损失LMB，单峰答案嵌入损失LAB和多峰嵌入损失LMBA：投影答案空间和联合图像和问题空间。方程中损失项B13被反向传播以更新fθJ，这优化了其参数以学习联合表示mθJ，从而变得不那么冗余。这导致联合嵌入空间，是判别和信息。3.4. 平衡两种损失与我们最初的预期相反，我们观察到，当优化公式13中定义的总损失时，分类性能实际上会降低（见第4.2节）。我们推测，这种性能下降的发生是因为两个损失项的动态范围的差异。这些损失是非互补的，并且促进嵌入空间中的不同性质。虽然交叉熵使联合嵌入空间更具鉴别力，但去相关试图使特征分量正交。需要对两个损失项进行最佳权衡，以确保在提供信息的同时具有区分性的丰富表示。我们提出了两种不同的方法来实现这一点：a) 对齐，然后Barlow（ATB）：这是我们的中间体CM=C（bθM （Mf），bθM（Mf））（8）模型，以更好地理解交叉熵损失和去相关约束之间的动态关系在这CA=C（bθ 一（Aa），bθ一（甲a））（9）设置时，VQA网络首先使用交叉训练，CMA=C（bθ M （Mf），bθ一（Aa））（10）n个时期的熵损失，然后微调用两个损失项，方程13，直到损失收敛。LOB=. <$（1−CiOi）2+γ<$<$（CiOj）2<$由此产生的损失L全部在B可以写成：i i jL=LM+LA+LMAO∈{M，A，MA}（十一）（十二）L=.L.CE，如果时期nΣ（十四）（、）的方式（、）的方式（、）的方式答录机分类器联合放映机联合+答案回答联合B，否则BBB1089K∼所有ATB12 LCE+ LB其中C（.）在EQ中定义五、因此，总体损失我们的基线模型的所有基础变为：L全碱=LCE+LB（13）这里，第一个损失项是对联合特征mf执行区分属性，而第二个损失项减少了两者中的特征分量之间的相关性在分析Barlow双胞胎[46]评估损失曲线时，我们观察到Barlow损失需要大量的epoch才能收敛（1000）。这表明Barlow孪晶损失表面更平坦，需要更多的梯度循环来收敛。因此，学习有意义的表示的预训练步骤可以加速收敛，因为1090LLL−不不巴洛损失学习特征的正交化可以被看作是在表示空间中旋转它们。相比之下，对于随机初始化的特征空间，网络必须同时学习有意义的特征并执行旋转b) 使用Barlow理论（COB）的约束优化损耗的这种高度不平衡迫使网络向去相关优化移动，并且如前所述，去相关损耗表面更平坦，因此净损耗更小。0.040.030.020.010时代17.51512.5107.552.5COB时代当具有高损耗不平衡时，功不收敛然而，如果网络在一定数量的时期内用交叉熵损失进行预训练，则Barlow去相关损失迅速下降。这就需要一种动态称重方案，该方案根据两种损耗之间的不平衡程度而变化。受[38]的启发，我们提出了等式13的约束优化公式，以动态控制两个损失项的权重分配：LallCOB= LCE;取决于C≤0（15）Ct=αCt−1+（1−α）（LB−κ）（16）其中Ct捕获每个历元的Barlow约束B的动量，α是动量因子，κ是容差超参数[38]。上述等式15可以可以重写为无约束优化问题：图3：我们绘制了COB模型在训练过程中的损失函数以及拉格朗日乘数λ。ATBn（我们的）GGE（基线）图4：消融分析：在一定时期后应用Barlow损失是/否、数量和“其他”评分的个体评分(In这个数字，An代表ATBn，n是预先训练的epoch的数量）[16]作为我们的基础模型。为了更新模型参数，我们使用AdaMax [26]优化器和配置的hyper，所有COB=LCE +λtCt（17）参数值如下：{学习率= 0.001，批量大小= 512，beta =0.95，alpha = 0.99，alpha = 1 e-8}。λt←λt−1exp（C）（18）其中λt是迭代t时的拉格朗日乘数（λ）。λ的变化与Barlow约束的大小的指数成正比这里，λt被初始化为一个小值，以使两个损失项处于相似的范围内。虽然B本身由三个损失项组成，公式12，但我们使用单个λt值来加权所有损失项，因为它们的值在类似的范围内变化。这简化了整体公式化并且减少了要更新的非梯度参数（λ）的数量4. 实验评估指标：我们使用回答准确率，VQA的标准评估指标[4]来评估我们所有的模型。我们使用另一个指标正确接地差异（CGD）[16]，这是CGR[41]（正确预测的正确接地）和CGW（正确接地但错误预测）的差异，以评估方法的视觉接地。为了评估我们提出的模型，我们对标准VQA v2 [15]和语言偏见敏感的VQA-CP v2 [2]数据集进行了实验。我们在补充资料中讨论了更多关于数据集的内容。4.1. 培训详情我们以端到端的方式使用分类损失和Barlow损失来训练我们的COB模型我们使用GGE-DQ-为了训练这个COB模型，我们配置超参数约束公式如下：λ是一个可学习的参数，它会根据约束损失的移动平均值进行更新，如3.4节所述。我们初始化λ init=0。0001 λ的值在每100次迭代后更新（称为步长），基于Barlow约束损失值。约束损失取决于前一约束值和当前值，因子α=0。99和（1α），如方程16所示。最初，λ值开始增加，并且在巴洛损失（B）达到阈值（κ=2. 63），它开始下降，如图3所示。补充资料中提供了有关模型架构的更多详细信息4.2. 消融：ATB在本节中，我们将讨论ATB模型的预训练时期对最终VQA性能的影响。该分析是至关重要的，因为它证明了两个损失项的简单添加，如公式13中所示，不是最佳的训练策略。图4显示了我们的ATB模型在不同预训练时期的收敛性能。如果没有预先训练，可以观察到超过2%的性能下降。当模型在较少量的预训练（n11）上进行微调时，性能在收敛时较差。由于Barlow去相关的初始损失高出几个数量级，并且交叉熵7654321010203040500102030405001020304050（对数刻度）Lλ1091KLLLLLL LLL表1：SOTA：测试集上的VQA-CP v2准确度和验证集上的VQA v2准确度。带 * 的方法使用额外的注释（例如，人类注意力（HAT）[10]、解释（VQA-X）[34]或对象标签信息）。GGE-iter（实施）是我们对GGE-DQ-iter[16]模型的实现。我们根据VQA-CP v2评分对表1进行排序。VQA-CP v2 [2]测试VQA v2 [15]值模型所有是/否编号其他CGD全部是/否编号其他CSS（UpDn）*[8]41.1643.9612.7847.488.2359.2172.9740.0055.13高级注册[36个]41.1765.4915.4835.48-62.7579.8442.3555.16RUBi [7]45.4263.0311.9144.336.2758.1963.0441.0054.43提示 *[40]47.5067.2110.6746.8010.3463.3881.1842.1455.66GVQE*[28]48.75----64.04---[9]第九话48.7870.3714.2446.4211.3363.2681.1642.2255.22DLP [22]48.8770.9918.7245.57-57.9676.8239.3348.54SCR*[42]49.4572.3610.9348.02-62.2078.841.654.4LMH[9]52.7372.9531.9047.7910.6056.3565.0637.6354.69CF-VQA[33]53.6991.2512.8045.23-63.6582.6344.0154.38GGE-iter[16]57.1287.3526.1649.7716.4459.3073.6340.3054.29GGE-iter（实施）56.0886.6422.1549.3815.9258.9272.0040.1353.95COB（我们的） 57.5388.3628.8149.2716.8963.8081.3643.3055.86CSS（LMH）*[8]58.2183.6540.7348.148.8153.1561.2037.6553.36两个损失项是非互补的，则交叉熵损失的最终梯度相对较弱，无法学习良好的区别特征。我们还观察到，准确性随着预训练时期的增加而增加，这是因为预训练特征空间的Barlow去相关损失收敛得更快。由于对于预训练的特征空间，去相关类似于将特征分量朝向它们的正交主轴旋转，所以Barlow去相关损失发现其更容易收敛。这导致交叉熵损失和Barlow去相关两者的梯度是可比较的，并且因此导致学习更丰富的最后，我们看到性能下降，对于更大的预训练时期（n >12）。对于大量的预训练时期，验证交叉熵损失开始过拟合，并且非互补Barlow去相关损失不再提高性能。表2：我们方法B B B公司简介✓✓✓57.5388.3628.81四十九点二七4.3. 拟议方法我们的约束公式LB由三个损失项组成MB，AB和MBA，等式12。为了理解每一个损失术语的重要性，我们将它们消融在-分别在约束中，并重新训练COB模型。F或仅具有MB损失，即 COBM ，回答正确率为57. 03%，优于基线GGE模型，见表2。这表明增加联合特征的信息含量（或最小化冗余）有助于VQA性能。COBMA，包含约束项MBA，迫使模型学习答案和投影巴洛空间中的联合特征之间的对齐，同时保持decorre。特征组件之间的关系来自LMBA的梯度连同L C E一起提供附加监督以帮助底层联合嵌入空间m f学习与答案相关的特征，从而导致答案的平均值为56。77%，表 2 。结合这两个约束条件，mb 和MBA ，inCOBM，MA导致性能提高57. 百分之四十九最后，COB模型包含所有三个损失项，AB提高了答案嵌入的信息量。这进一步帮助了MBA损失学习较少冗余的联合和答案嵌入空间之间的更好对齐优于其他三个消融基线。这种消融分析表明，我们的约束中的三个损失项中的每一个都为模型提供了不同的监督，从而改善了底层的联合表示。4.4. 与最新技术水平的我们提供了两个数据集的性能结果，表1中的Chal-Chaling VQA-CP v2[2]和标准VQA v2[15]数据集具有较少的语言偏差。CSS[8] CF-VQA [33]使用反事实示例来克服偏差，AdvReg[36]使用正则化技术，HINT[40]SCR[42]使用接地技术，RUBi[7]，LM[9]和GGE[16]使用集成方法，GVQE [28] DLP[22]使用新的基于编码器的方法来克服语言和数据集偏差。一些方法使用额外的注释来提高去偏性能，但我们的方法不使用任何额外的注释，并且比大多数当前最先进的（SOTA）方法表现更好我们在VQA-CP v2和VQA v2数据集上实现的GGE模型性能分别为56.08%和58.92%。相比之下，我们的COB模型，建立在基础GGE模型，获得了57.53%和63.80%的性能，这是分别提高了1.4%和4.9%。我们也超越了官方GGE [16]的表现。我们的COB模型-方法LCELM马宝宁LA所有是/否Number其他公司简介56.08八十六点六四22.1549.38公司简介57.03八十七点一七26.6749.57COBMA56.77八十六点八十四24.8349.751092K图5：定性结果：每组图像显示了我们提出的COB模型与基线GGE-DQ-iter模型相比的输入图像-问题对和前5名预测红色边框显示了每个图像中最大的关注区域。绿框中的答案是基本事实。我们看到，与基线方法（a）-（e）相比，COB表现更好，对地面真实答案的预测得分更高。对于否定结果（d）-（f），预测的类也是语义相关的。在第5.1节的可解释性背景下对此进行了进一步分析。我们在补充中提供了更多的定性结果。问：椅子是什么颜色的问：飞机有螺旋桨吗？答（GT）：是图像GGE-DQ-ITER COB（our）图像GGE-DQ-ITER COB（our）问：有多少匹马？回答（GT）：1问：这个人拿的是什么？回答（GT）：kite(a) COB-GGE vs基线GGE图像GGE-DQ-ITER COB（our）图像GGE-DQ-ITER COB（our）图6：模型的可解释性给定一个图像和一个问题，我们显示了联合嵌入空间mj中样本的类激活映射，对应于答案。我们观察到COB模型更多示例在补充中示出(b) COB-UpDn vs基线UpDn图7：主成分分析COB与基线对VQA-CP v2和VQA v2数据集执行其他不使用额外注释的SOTA方法，用于总体答案预测任务，如表1所示。我们还将整体CGD分数提高了0.45个单位，这表明我们的模型能够在视觉和语言模式之间学习更好的基础。4.5. 定性结果图5示出了几个示例的前5个答案和概率得分。我们将我们的定性结果与最新的最先进的方法GGE-DQ [16]进行了比较。在第一个和第三个例子中（图5的a和c部分），我们的COB模型关注更精确的显著区域，导致正确的答案，相比之下，GGE-DQ模型的关注区域延伸到更大的非显著区域，因此回答不正确。对于第二幅图像，两个模型都聚焦于同一区域，但COB分配了更高的正确答案的概率得分。这些结果表明，与基线方法相比，信息量更大的潜在特征提供了更好的推理，提高了正确答案的定位和概率得分。同样，我们显示了各种组合的注意力和答案预测结果。5. 分析与探讨5.1. 解释性：Grad-Class激活图推理是问答系统的重要组成部分，联合表示空间的好坏直接影响推理的效果。因此，研究模型学习了什么以及它如何处理输入数据至关重要。为了理解失败的原因和模型的缺陷，模型的这种可解释性对于失败的情况甚至更重要我们使用Grad-CAM[39]作为模型可解释性的指示，通过计算一个IM的显着性，（（（（（（GGE-DQ-iterCOB（我们的）GGE-DQ-iter前n个特征向量的累积能量COB（我们的）1093D → ∈{}∼一M前k个PCA分量的累积能量（%）NBk=512K=256k =64我们的方法的分析和伪代码。512 100 99.8 99.3 94.11024 99.9 99.5 98.1 80.42048 99.7 98.5 91.1 65.04096 98.8 95.7 85.2 59.9表 3 ：投影仪维度（ NB ）选择：不同 Barlow 投影（bθB）维度的前k个分量的PCA能量。方法（测试）MAML[12] 59.6[32]第32话MMQ[11] 67.7QCR[47] 71.6COB-QCR 71.9方法GQA（testdev）MAC41.2COB-MAC 42.1表5：GQA数据集。(Base存储库，MAC：https://github.com/ronilp/mac-年龄给出的问题和地面真理的答案。我们可以-分析我们的COB和SOTA基线模型[16]，在VQA-CP v2上训练，在图6中的模型可解释性的上下文中。我们观察到，与基线GGE模型相比，我们的模型产生了更多的可解释区域，这也表明了表1中较高CGD评分的原因。对于这两个例子，我们的模型专注于对答案预测有突出意义的正确区域。5.2. Reddit、信息和VQA：COB旨在减少Barlow空间中的冗余，并反过来使联合表示（即，在固定编码器之上的联合投影层的输出）较少冗余。冗余度较低的联合投影器将从固定编码器的输出空间捕获最少冗余信息，并将其投影到联合表示空间中。我们在这个联合投影空间中对GGE和COB-GGE模型进行PCA分析我们观察到，对于COB-GGE，前350个本征向量相当于99%的能量，而对于GGE，前440个本征向量相当于99%的能量，图7。对于另一个基本模型UpDn [3]，它使用top-556特征向量来捕获99%的能量，我们的COB-UpDn变体使用top-349特征向量。这表明COB迫使关节空间从固定的编码器空间捕获最少的冗余信息因此，仅捕获信息量最大的特征。这也意味着关节间隙的有效剩余容量增加。换句话说，更多的信息（附加数据;可能的未来研究方向）可以在相同数量的特征维度或相同数量的信息（固定编码器输出空间;即我们的情况）可以以较少数量的特征尺寸建模。5.3. 投影仪维度选择Zbontar等人[46]表明投影机输出尺寸（N B）（b θB）的增加表4：VQA-Rad数据集network-pytorch-gqa）5.4. 概化在这里，我们在另外两个数据集上评估我们的COB方法：真实世界视觉推理数据集（GQA[20]）和关于放射学图像的临床生成 VQA 数据集（ VQA-Rad[29]）。我们比较了VQA-Rad数据集上QCR模型和GQA数据集上MAC模型的COB方法，分别如表4和表5所示。COB在这两个方面都很好。在第4.2节和第4.5节中，我们展示了基于基础GGE构建的ATB和COB模型通过学习更具信息性的潜在空间而优于基础GGE，6. GGE [16]模型是VQA的SOTA，因此在改进它的同时验证了我们提出的模型，它也提出了一个问题，如果结果的改进仅仅是由于基础GGE模型的更好的潜在特征也就是说，结果的改善取决于基础模型的更好质量。为了研究这一点，我们将ATB和COB约束应用于UpDn[3]模型，该模型本身是GGE模型的基础。由此产生的ATB-UpDn和COB-UpDn模型优于（回答准确度：四十七36%和48。基础UpDn模型（39. 38%），在VQA-CP v2上有显著性差异这表明我们的约束公式，尽管有限，通过基本模型的质量，对潜在特征施加正则化以提供更多信息，从而导致相对于相应基线的改进的性能。6. 结论我们提出了一个新的VQA正则化方案称为COB，优化交叉熵损失，同时受到冗余最小化约束。跨模态Bar-低去相关损失，因为约束公式促进答案与图像和问题的对齐监督特征空间然而，对于我们的Barlow decor-relation约束，我们发现较大的投影空间，对于NB1024，2048，4096，具有更多的冗余分量。为了分析这一点，我们计算PCA特征值的表示为更高的项目，如表3所示，我们观察到top- 512组件可以保存总能量的99%嵌入空间，因此我们选择NB=512作为Barlow投影仪的投影维度（即，bθB，bθB）的情况。在手术中，我们提供更多的消融信息内容的同时，底层特征空间我们提出了两个培训政策，ATB和COB，以平衡这两个损失。我们表明，ATB和COB在VQA-CP v2和VQA v2数据集上的答案预测任务都优于最新的SOTACOB模型的性能也优于其他比较基线，或提供了与其他比较基线比较的结果最后，图6显示我们的模型在回答问题时更关注突出区域，因此更具可解释性。1094引用[1] Alessandro Raville ， Michael Lam ， Rahul Tewari ，Avinash Ravichandran ， Subhransu Maji ， Charless CFowlkes ， Ste-fanoSoatto ， andPietroPerona.Task2vec：元学习的任务嵌入。在IEEE/CVF国际计算机视觉会议，第6430[2] Aishwarya Agrawal ， Dhruv Batra ， Devi Parikh ， andAnirud- dha Kembhavi.不要只是假设;看一看并回答：有视觉问答的前科。在IEEE计算机视觉和模式识别会议论文集，第4971-4980页，2018年[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页[5] Horace B Barlow等.感官信息转换的可能原则。感官交流，1（01），1961年。[6] Piotr Bielak ， Tomasz Kajdanowicz ， and Nitesh VChawla.图表巴洛双胞胎：图的自监督表示学习框架。arXiv预印本arXiv：2106.02466，2021。[7] Remi Cadene，Corentin Dancette，Matthieu Cord，DeviParikh，et al. Rubi：Reducing unimodal biases for visualquestion answering. 神经信息处理系统的进展，32：841[8] 陈龙，辛燕，肖军，张汉王，蒲世良，庄月婷。用于鲁棒视觉问答的反事实样本合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第10800-10809页[9] Christopher Clark，Mark Yatskar，and Luke Zettlemoyer.不要走捷径：用于避免已知数据集偏差的基于集成的方法。在2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第4069- 4082页[10] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。人类在视觉问题回答中的注意力：人类和深度网络会关注相同的区域吗？在EMNLP，2016。[11] Tuong Do 、 Binh X Nguyen 、 Erman Tjiputra 、 MinhTran、Quang D Tran和Anh Ng

下载后可阅读完整内容，剩余1页未读，立即下载