分布不同的视觉问答任务的语言路由胶囊网络

67 浏览量更新于2023-10-15 收藏 12.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Qingxing Cao1, Wentao Wan2, Keze Wang2, Xiaodan Liang1, Liang Lin2*caoqx8@mail.sysu.edu.cn, wentao.wan@qq.com,kezewang@gmail.com, xdliang328@gmail.com, linliang@ieee.org16140用于分布不同的视觉问答的语言路由胶囊网络01中山大学深圳校区，2中山大学0摘要0在视觉问答中，对分布不同的测试数据进行泛化是一个重要但未被充分探索的主题。当前最先进的VQA模型通常利用数据和标签之间的偏倚相关性，这导致当测试和训练数据具有不同分布时性能大幅下降。受到人类通过组合现有概念识别新概念的事实以及胶囊网络表示部分-整体层次结构的能力的启发，我们提出使用胶囊来表示部分，并引入“语言路由”来将部分与人类先验层次结构合并。具体而言，我们首先将视觉特征与单个问题词作为原子部分进行融合。然后我们引入“语言路由”来重新加权两个层之间的胶囊连接，使得：1）较低层的胶囊可以将其输出传递给最兼容的较高层胶囊，2）如果问题解析树中相应的词被合并，则可以合并两个胶囊。路由过程最大化了多个层次上的上述一元和二元潜力，并最终在胶囊网络内部雕刻出一棵树结构。我们在CLEVR组合生成测试、VQA-CP2数据集和VQAv2数据集上评估了我们提出的路由方法。实验结果表明，我们提出的方法可以在分布不同的测试数据上提高当前VQA模型的性能，而不会在领域内测试数据上失去性能。01. 引言0视觉问答（VQA）的任务是正确回答关于图像的问题。它被认为是实现完整人工智能的核心任务[5]，因为它需要广泛的0*通讯作者为Liang Lin。Qingxing Cao和XiaodanLiang隶属于中山大学深圳校区智能系统工程学院，中国。WentaoWan，Keze Wang和LiangLin隶属于中山大学计算机科学与工程学院，中国。0跨多个领域的知识范围。然而，这个任务的复杂性也使得不可能注释足够的训练数据来覆盖所有的背景知识和推理路径。因此，VQA模型必须能够在分布不同的测试数据上进行泛化，以处理实际应用中的无约束VQA任务。当前最先进的VQA模型[47, 40,41]专注于增加模型的容量，但往往只捕捉到问题和答案之间的表面相关性[17,24]。由于这种相关性只适用于训练分布，它们在具有不同分布的测试数据上的性能下降。其他研究[42, 49, 21, 26,23]探索了结构化模型来表示原子元素（例如对象大小、颜色或关系），然后集成元素推断最终结果。这些方法具有更好的可解释性和泛化能力，但在一般和无约束的领域测试数据上的表现不如最先进的神经网络。人类可以通过整合学习到的概念来识别新概念[30]。这种组合泛化能力使人们能够使用有限的基本技能解决大量问题，是人类智能与当前深度神经网络之间的主要区别之一。同时，胶囊网络[38, 20,19]有潜力将端到端神经网络与基于部分的模型[14]连接起来，这些模型用部分-整体层次结构表示样本。每个胶囊可以用来表示某个部分，路由过程可以用来建模层次结构。虽然胶囊网络在一些玩具实验中展示了有趣的分组特性，但在大规模图像数据集上仍然显示出令人不满意的结果，因为多样的视觉组合无法通过在黑盒方式下学习分组权重来捕捉。因此，我们提出将人类开发的结构注入到胶囊网络中，以提高神经网络的组合泛化能力，同时保持其在领域内设置上的性能，如图1所示。16150图1：我们提出的语言路由旨在根据语言解析树的指导从底层到顶层合并胶囊。每一行或圆圈代表一个胶囊，每种颜色代表一个编码的单词。这个组合过程在多个层次上进行，并在胶囊网络内部形成树状结构。0具体而言，我们提出了“语言路由”来生成胶囊网络内的自适应推理例程，以问题解析树的指导。我们首先将每个视觉胶囊与一个单独的问题词融合，以获得图像和问题片段的多模态表示。在每一层，语言路由生成每个胶囊之间的重新加权向量，取值范围为[0,1]，使得：1）只有最兼容的更高级胶囊被激活并接收来自每个较低级胶囊的输出，2）如果它们对应的问题片段在解析树中合并，则两个胶囊应该合并。为了满足上述两个要求，所提出的语言路由学习预测选择每个特定样本的最具代表性胶囊的一元潜力，并生成指示两个胶囊是否应该合并的二元潜力。语言路由使用条件随机场（CRF）最大化一元和二元潜力。在前向所有层之后，网络内部形成了与解析树同构的组合结构，从底层到顶层的胶囊可以编码问题的单词、短语、从句，最终形成一个句子。0我们的贡献可以总结如下。1）我们提出了一种端到端可训练的路由方法，可以将外部结构信息纳入胶囊网络。2）我们提出利用语言解析树来指导路由并将其调整到视觉问答任务。3）我们进行了大量实验证明，所提出的语言路由胶囊网络可以在保持在域内测试数据上的性能的同时获得良好的泛化能力。02. 相关工作0视觉问答。VQA任务需要对图像和文本进行共同推理以推断正确答案。早期的工作使用基于CNN-LSTM的架构和注意机制以端到端的方式训练神经网络[44, 39, 50, 45,32]。后来，许多工作[15, 28, 48,6]集中于图像和问题的联合嵌入。最近，最先进的方法[47,40,41]利用基于Transformer的架构同时嵌入问题和图像区域。然而，有人认为这些黑盒模型可能利用数据集的偏见而不是理解问题和图像[17, 24]。这个观点导致了无偏数据集[17,25, 16, 27]和OOD数据集[1]的提出。最近的OODVQA方法[37, 8,13]训练了一个仅包含问题的模型来预测答案，并将训练好的模型作为正则化器来减少数据集偏差并提高OOD测试数据上的性能。0结构化和可解释的模型。除了端到端的神经网络外，其他方法尝试将额外的结构化信息纳入以提高组合推理和泛化能力。神经模块网络[4, 3,21]使用神经模块来解决特定的子任务，并按照结构化布局组装它们以预测最终答案。[42,35]使用场景图作为额外的信号，然后应用GRU或图卷积网络来获得问题特定的图表示。[34]也利用了图卷积网络，但嵌入了额外的检索知识。PTGRN[9]通过依赖解析树引导可解释的推理过程。[46,23]转换图像。16160图2：胶囊网络内部的语言路由概述。我们首先生成语言布局，并将提取的图像特征与各个单词融合作为网络输入。在每一层，胶囊按照语言布局的指导转发到下一层。我们使用不同的颜色表示不同的编码单词。最后，路由过程形成了类似解析树的结构，由彩色圆圈表示。0到场景图，并对图进行符号推理。胶囊网络。Sabour和Hinton等人[38,20]提出将神经网络中的每一层划分为许多称为“胶囊”的小组神经元。胶囊可以表示对象的各种属性，并且如果某个样本中出现了它们所表示的属性，则胶囊路由可以激活某些更高级别的胶囊。然而，现有的胶囊网络研究仅基于判别损失学习分组权重。它们没有结合人类先验知识，并且没有在大规模数据集上进行评估。与上述方法相比，我们提出的语言路由旨在在网络内部结构中融入人类先验知识，而不对信息流施加严格限制。此外，由于语言结构应用于视觉特征层次，我们的方法可以与其他最先进的方法相结合，提高它们在领域内数据上的泛化能力同时保持其在领域内数据上的表达能力。03. 语言路由胶囊网络0给定问题Q，图像I，我们提出的语言路由是将胶囊网络的路由权重R与问题解析树对齐，以预测答案y。如图2所示，我们首先解析一个问题0并将其转化为语言布局G。然后，我们将图像特征和问题中的每个单词进行融合。我们将每个结果特征胶囊表示为x0i，并使用向量c0i∈Rnq表示由第i个胶囊编码的单词，其中nq是问题的最大长度。所有胶囊都被连接起来作为网络的输入X0。在每一层l中，我们有nc个胶囊Xl={xli}i=1:nc，它们的编码单词Cl={cli}i=1:nc和语言布局gl+1。语言路由过程旨在为每对胶囊xli和xli+1生成重新加权向量Rl={rlij}i,j=1:nc，使得每个较低层的胶囊xli可以激活一个合适的高层胶囊xli+1，而如果它们的编码单词cli和cli'在布局gl+1中合并，则两个较低层的胶囊xli和xli'将被合并。在转发所有层之后，在胶囊网络内生成了一条树形路由路径，最后一层编码了整个问题-图像嵌入。我们对最后一层进行全局平均池化和线性变换，以预测最终答案。03.1. 语言布局生成0我们首先根据输入问题Q生成语言布局。我们使用现成的通用斯坦福解析器[10]对问题进行依赖解析树。然后，我们根据它们在解析树中是否合并将单词分组。g′l(i, i′) =16170图3：胶囊层内的路由过程。我们首先为每个胶囊生成一元潜力，并根据语言布局为每对胶囊分配二元潜力。然后，我们构建一个全连接图，并执行CRF推理，以最大化所有胶囊的这两个潜力。推理结果是该层的路由权重。如图所示，“tiny”和“cylinders”应该合并在一起；因此，如果它们选择相同的高级胶囊，则它们之间的边的二元潜力为1。为了清晰起见，没有连接到“cylinders”的边被省略。0具体来说，我们将节点的级别l定义为该节点与最远叶节点之间的距离。考虑以级别l为根的子树，我们将该子树中的单词分组为一个集合，并用gli表示。在同一级别的所有组成一个列表gl。例如，级别0和1的组是g0={{are},{there},{more},...,{tiny},{cylinders}}和g1={{are},{there},{more},...,{than, tiny,cylinders}}，如图2所示。生成的布局G={g0,g1,...,gH}用于引导不同层级的路由过程，其中H是解析树的最大高度。03.2. 单词级多模态嵌入0我们使用低秩双线性池化[28]将提取的图像特征 v和编码的单词 { w i } i =1: n q 融合，以获得层 0的多模态表示 { x 0 i } i =1: nq。具体来说，我们将单词和图像特征投影到 d维空间，然后进行逐元素乘法以获得 x 0 i：0x 0 i = ReLU ( FC ( w i ) ◦ FC ( v )) . (1)0每个多模态表示包含图像和单词 w i 的信息，因此 c 0 i是一个独热向量，其中 c 0 i [ i ] = 1。连接后的表示 X 0是网络的输入。03.3. 语言路由0给定胶囊 X l，它们的编码单词 C l 和引导布局 g l+1，路由过程生成路由权重 { r l ij } i,j =1: nc，以便激活多个高级胶囊并使用语言指导组合低级胶囊。我们使用一元潜力 ψ i表示激活每个高级胶囊的概率，并使用二元潜力 ϕ i,i ′鼓励胶囊 i 和胶囊 i ′ 在合并时选择相同的胶囊0在解析树中，我们使用全连接的CRF最大化两个潜力。CRF的推理结果是路由权重 R l，如图3所示。一元潜力 ψ i表示哪个高级胶囊应该被激活来表示胶囊 i。我们将 x l i或其全局最大池化投影到一个 n c 维向量上，其中 n c是胶囊的数量。我们应用softmax对结果向量进行归一化，使得每个元素在 [0, 1] 之间。二元潜力 ϕ i,i ′ ( j, j )用于鼓励胶囊 i 和 i ′ 在语言布局 g ( l +1)中合并时选择相同的高级胶囊 j。假设 c l i 是在胶囊 i中合并的一组单词，如果存在 k，使得 c l i ∪ c l i ′ � g l +1k，则认为它们合并。然而，集合操作不可微分，因此阻止了整个模型的端到端训练。因此，我们使 c l i 成为一个 n q维向量，其条目表示第 i个胶囊对每个问题单词的编码程度。例如，在输入层 0中，胶囊 i 是图像和问题中第 i 个单词的融合，c 0 i是一个独热向量，其中 c 0 i [ i ] =1。然后，如果softmax归一化的路由权重为 r 0 ij = 0.9 和r 0 ik = 0.05，则胶囊 j 和 k 对于单词 i 的编码程度分别为 c1 j [ i ] = 0.9 和 c 1 k [ i ] = 0.05。给定路由权重 Rl，我们可以更新上述描述的 c l i，并得到：0C l +1 = R l � C l . (2)0为了获得二元潜力，我们首先将引导布局 g 转换为一个 n q� n q 的相关矩阵 g ′，表示单词 i 和 i ′ 是否合并：0� 1 � a i, i ′ ∈ g l a − 1 否则，(3)0其中 g 是第3.1节中描述的语言布局。16180g ′ l ( i, i ′ ) = 1 表示单词 i 和 i ′ 属于同一组，例如 { than,tiny, cylinders }。否则，我们将 g ′ l ( i, j ) = − 1设置为防止两个单词过早合并。然后，根据单词兼容性矩阵g ′ 得到二元潜力 ϕ i,i ′。直观地说，如果胶囊 i 和 i ′包含更多兼容的单词，二元潜力 ϕ i,i ′应该更高。因此，我们有：ϕ i,i ′ = c l i ′ � g ′ l +1 c li。对于层 l中的所有胶囊对，我们将上述方程以矩阵形式重新写入，并得到：0ϕ = C l � g ′ l +1 C l . (4)0然后，我们将每个二元势函数ϕ i,i ′扩展为一个对角线n c *nc矩阵，以在选择不同的高级胶囊时将势函数设置为0。最后，我们使用这个二元势函数和一元势函数构建CRF，并获得所有层l中的路由权重R l。CRF推理路由权重Rl应该在全局上最大化一元和二元势函数。我们构建一个条件随机场（CRF），并使用循环信念传播来找到优化的路由权重。具体来说，我们构建一个CRF，其中每个节点表示一个胶囊，节点i的n c维随机变量{ z i}对应于路由权重。给定上述的一元势函数ψi和二元势函数ϕ i,i ′，我们将消息m 0 ii ′ ( z i )[ i ′ ] = 1 /nc初始化为均匀分布，并使用以下公式更新消息：0m t i → i ′ ( z i= �0z i ϕ i,i ′ ( z i , z i ′ ) ψi ) �0k � N i \ i ′ m t − 1k → i ( z i )。0(5)其中N i \ i ′是节点i的邻居，除了节点i′。经过T次迭代，我们收集所有节点和变量的消息，并获得边际概率：0b i ( z i ) 0Z b ψ i ( 0k � N i m T k → i ( z i )，(6)0其中Z b是归一化因子。得到的边际概率是相应的路由权重rl ij = b i ( z i )[ j]。我们将上述循环信念传播过程实现为一个非参数层，以便可以反向传播梯度。03.4. 胶囊层0在一般的神经网络中，前向传播具有x j = σ ( �0i W ij x i )，其中x i和xj是连续层中的神经元，σ是激活函数。将一组神经元分组成n c个胶囊后，将语言路由权重{ r l ij } i,j =1: nc应用于从胶囊i到胶囊j的线性变换。形式上，0x l +1 j = σ0i r l ij W ij x l i )，(7)0其中x l i是第l层中的第i个胶囊，x l +1 j是下一层l +1中的第j个胶囊。路由权重r l0j r l ij =1。对于卷积层，对空间维度进行相同的卷积操作，并在特征通道上应用路由权重。0x l +1 w,h,j σ ( �0i r l ij �0a0b W ij x l w + a,h + b,i)，(8)0其中w和h是特征图中的空间位置。我们对每个胶囊i应用卷积操作，以获得n c个特征图ˆx lij。我们还对每个胶囊i应用全局最大池化和两个全连接层，以预测一元势函数并获得路由权重r lij。最后，我们通过求和加权特征图获得下一层的胶囊j�0i r l ij ˆx lij。上述所有操作都是可微的。因此，所提出的语言路由可以与其他网络参数一起进行端到端训练。在训练过程中，我们只使用答案标签作为监督信号，并以端到端的方式训练整个胶囊网络。04. 实验0在本节中，我们验证了我们的方法在CLEVR组合泛化测试和VQA-CPv2数据集上的有效性和泛化能力。我们还在VQAv2数据集上评估了我们提出的方法，以验证其在域内测试数据上的性能。04.1. 数据集0CLEVR组合泛化测试（CLEVR-CoGenT）[25]旨在研究VQA模型的组合泛化能力。该数据集包含130,000张图像和1,299,923个问题。图像使用随机形状、颜色、材料和大小的对象进行渲染。问题是基于功能程序布局合成的。其验证集有两个条件：在条件A中，所有的立方体都是灰色、蓝色、棕色或黄色，所有的圆柱体都是红色、绿色、紫色或青色。在条件B中，立方体和圆柱体交换颜色调色板。因此，测试样本不属于训练分布。模型不能通过简单地记忆和过拟合条件A中的样本来在条件B上取得良好的性能。视觉问答在变化先验下（VQA-CP）v2数据集[1]是通过重新组织VQAv2数据集的训练和验证集构建的，使得训练和测试答案具有不同的分布。VQA-CPv2一直是最受欢迎的超出分布VQA任务的基准之一。VQAv2[17]是最受欢迎的VQA基准。其训练集包含82,783张图像和443,757个问题。16190模型 A B0IEP [26] 96.6 73.70NS-VQA [46] 99.8 63.90NS-VQA+Ori [46] 99.8 99.70SA [26] 80.3 68.70MAC [22] 97.66 74.750PTGRN [9] 97.35 83.500FiLM [36] 98.3 75.60FiLM 0-Shot [36] 98.3 78.80TbD+reg [33] 98.8 75.40LR-Capsule(我们的) 98.1 85.60表1：CLEVR-CoGenT验证集上的回答准确率。每种方法仅在条件A上进行训练，并在条件A和B上进行评估。0VQA-CP v2测试集0方法全部是/否数字其他0AReg [37] 41.17 65.49 15.48 35.480MuRel [7] 39.43 42.85 13.17 45.040ReGAT [31] 40.42 - - -0NSM [23] 45.80 - - -0RUBi [8] 47.11 68.65 20.28 43.180RUBi+UpDn [8] 44.23 67.05 17.48 39.640SCR [43] 48.47 70.41 10.42 47.290LMH [13] 52.45 69.81 44.46 45.540LR-Capsule(我们的) 52.19 76.44 28.37 46.020表2：VQA-CP v2测试集上的问题回答准确率。0问题；验证集包含40504张图像和214,354个问题；测试集包含81,434张图像和447,793个问题。每个问题都有10个人工注释的答案。04.2. 实现细节0为了验证我们提出的语言路由的有效性，我们使用两种最先进的方法FiLM [36]和MCAN[47]作为骨干架构，分别用胶囊层替换它们的卷积或全连接层。对于CLEVR-CoGenT数据集，我们按照FiLM[36]的方法提取图像特征和词嵌入。我们将图像调整为224×224，并从在ImageNet上预训练的ResNet-101[18]的conv4中提取14×14×1024的特征v。将1024维的特征图与一个2通道的坐标图连接起来，并使用一个单独的3×3卷积层将其投影到128维空间。问题的词嵌入向量wi通过门控循环网络(GRU)[12]获得。我们首先将单词嵌入为一个200维的向量，然后将整个问题馈送到一个512维的双向GRU中。词嵌入{wi}i=1:nq是GRU在相应位置的隐藏向量。然后，我们对图像特征v和词嵌入{wi}i=1:nq进行词级多模态嵌入。得到的多模态表示X0={x0i}i=1:nq是神经网络的最低特征图，其中nq=46是CLEVR-CoGenT数据集中问题的最大长度。每个胶囊x0i是一个14×14×128的特征图，其编码的单词c0i是一个独热向量，其中c0i[i]=1。由于解析树中一级节点的最大数量为9，我们将胶囊数量设置为9；每个胶囊有16个特征通道。CLEVR-CoGenT中的解析树高度大多小于4。因此，我们保留解析树的前4个级别，并将卷积胶囊层的数量设置为4。在语言路由过程中，每个14×14×16的胶囊被馈送到一个全局最大池化层，两个输出大小为512和9的全连接层，其中9是下一层胶囊的数量。给定二进制潜力和9维一元潜力，我们执行循环置信传播2次以获得路由权重r。每个胶囊层都有3×3×144的卷积核，然后是批归一化、与转换后的问题嵌入进行乘法融合、ReLU激活和残差连接。最后，分类器将144维特征图卷积到512维，并将结果馈送到两个输出大小为1024和29的全连接层，其中29是候选答案的数量。0方法全部是/否数字其他0AReg [37] 62.75 79.84 42.35 55.160ReGAT [31] 67.18 - - -0RUBi [8] 61.16 - - -0RUBi+UpDn [8] 50.56 49.45 41.02 53.950SCR [43] 62.30 77.40 40.90 56.500LMH [13] 61.64 77.85 40.03 55.040LMH-CSS [11] 59.91 73.25 39.77 55.110MCAN [47]基准 67.2 84.8 49.3 58.60LR-Capsule(我们的) 67.04 84.57 48.66 58.570表3：VQA v2验证集上的问题回答准确率。0然后将整个问题馈送到一个512维的双向GRU中。问题的词嵌入{wi}i=1:nq是GRU在相应位置的隐藏向量。然后，我们对图像特征v和词嵌入{wi}i=1:nq进行词级多模态嵌入。得到的多模态表示X0={x0i}i=1:nq是神经网络的最低特征图，其中nq=46是CLEVR-CoGenT数据集中问题的最大长度。每个胶囊x0i是一个14×14×128的特征图，其编码的单词c0i是一个独热向量，其中c0i[i]=1。由于解析树中一级节点的最大数量为9，我们将胶囊数量设置为9；每个胶囊有16个特征通道。CLEVR-CoGenT中的解析树高度大多小于4。因此，我们保留解析树的前4个级别，并将卷积胶囊层的数量设置为4。在语言路由过程中，每个14×14×16的胶囊被馈送到一个全局最大池化层，两个输出大小为512和9的全连接层，其中9是下一层胶囊的数量。给定二进制潜力和9维一元潜力，我们执行循环置信传播2次以获得路由权重r。每个胶囊层都有3×3×144的卷积核，然后是批归一化、与转换后的问题嵌入进行乘法融合、ReLU激活和残差连接。最后，分类器将144维特征图卷积到512维，并将结果馈送到两个输出大小为1024和29的全连接层，其中29是候选答案的数量。0对于VQA-CPv2和VQAv2数据集，我们修改了模块化共同注意力网络（MCAN）[47]，并在引导注意力块中引入了语言路由。与MCAN类似，单词通过LSTM和6个自注意力块进行嵌入，得到512维的单词嵌入向量。图像特征由自下而上自上而下模型[2]提取。每个图像有36个对象，每个对象有2048维的特征向量。我们将每个对象特征分为16个胶囊，每个胶囊包含32个神经元。图像首先通过3个引导注意力块。然后我们只用语言路由胶囊层替换最后3个引导注意力块中的前馈层。我们对每个对象分别进行语言路由。对于每个对象，它们的32维胶囊被送入两个输出大小为32和16的全连接层以预测一元潜力。我们还执行2次循环置信传播以获得路由权重r。分类器与MCAN[47]相同。它对问题单词和36个图像对象进行注意力，然后得到一个1024维的向量。分类器将1024维的向量投影到3129维，其中答案候选的数量为3129。为了减少CLEVR-CoGenT的计算复杂性，我们修剪了既不是名词也不是表示颜色的单词的叶节点。模型使用Adam优化器[29]进行训练。CLEVR-CoGenT的基本学习率为3e-4，VQA-CPv2和VQAv2的基本学习率分别为1e-4。批量大小分别为64和256。权重衰减、β1和β2分别为1e-5、0.9和0.999。098.0082.1751.620.597.7182.2551.68198.1085.5852.18296.2779.1651.73CLEVR-CoGenTVQA-CP v216200二元 CLEVR-CoGenT VQA-CP v20潜力 A B 测试0基准 97.59 78.19 51.150表4：不同二元潜力在CLEVR-CoGenT和VQA-CPv2上的性能。0维。然后我们将单词的嵌入投影到32维向量，并将其与32维视觉特征融合。因此，胶囊数量为16，每个胶囊包含32个神经元。图像首先通过3个引导注意力块。然后我们只用语言路由胶囊层替换最后3个引导注意力块中的前馈层。我们对每个对象分别进行语言路由。对于每个对象，它们的32维胶囊被送入两个输出大小为32和16的全连接层以预测一元潜力。我们还执行2次循环置信传播以获得路由权重r。分类器与MCAN[47]相同。它对问题单词和36个图像对象进行注意力，然后得到一个1024维的向量。分类器将1024维的向量投影到3129维，其中答案候选的数量为3129。为了减少CLEVR-CoGenT的计算复杂性，我们修剪了既不是名词也不是表示颜色的单词的叶节点。模型使用Adam优化器[29]进行训练。CLEVR-CoGenT的基本学习率为3e-4，VQA-CPv2和VQAv2的基本学习率分别为1e-4。批量大小分别为64和256。权重衰减、β1和β2分别为1e-5、0.9和0.999。04.3. 与最先进方法的比较0CLEVR组合泛化测试我们在表1中报告了不同模型在CLEVR-CoGenT上的回答准确率。准确率是通过在条件A下训练模型，并在没有微调的情况下在条件A和条件B上进行评估得到的。如表1所示，我们提出的语言路由在条件A中实现了可比较的准确率，在条件B中显著优于除NS-VQA+Ori[46]之外的所有比较方法。请注意，NS-VQA+Ori需要场景图和问题的功能布局作为额外的监督信号。没有额外的训练信号，其准确率下降到63.9%。这验证了我们模型在组合泛化能力方面的有效性。 VQA-CP v2数据集我们在表2中报告了标准的VQA评估指标[5]。我们将我们的方法与RUBi[8]相结合，得到52.19%的结果。这个结果比原始的RUBi[8]提高了5.08%，是基于单一模型的方法中最好的性能。这个结果也接近于基于集成的方法LMH[13]得到的52.45%。实验证明了我们方法的有效性和与其他方法结合以获得更好性能的潜力。 VQAv2数据集表3给出了VQAv2验证集上的结果。MCAN基线在回答准确率方面超过了所有比较方法。与这个强基线相比，我们的方法在域内测试数据上可以达到类似的结果，同时在VQA-CPv2数据集上取得了更好的性能。我们的方法还大幅超过了VQA-CPv2方法LMH[13]在VQAv2数据集上的性能。实验结果表明，我们的模型可以提高泛化能力，同时不会失去域内测试数据上的性能。0A B 测试0基准 97.59 78.19 51.150+比例 97.89 81.73 51.740+乘法 97.32 78.01 51.150+一元 98.00 82.17 51.620+一元+二元 93.61 78.29 51.630+一元+二元+解析器 98.10 85.58 52.180表5：不同重新加权方案在CLEVR-CoGenT和VQA-CPv2上的性能。0与RUBi[8]相结合，得到52.19%的结果。这个结果比原始的RUBi[8]提高了5.08%，是基于单一模型的方法中最好的性能。这个结果也接近于基于集成的方法LMH[13]得到的52.45%。实验证明了我们方法的有效性和与其他方法结合以获得更好性能的潜力。 VQAv2数据集表3给出了VQAv2验证集上的结果。MCAN基线在回答准确率方面超过了所有比较方法。与这个强基线相比，我们的方法在域内测试数据上可以达到类似的结果，同时在VQA-CPv2数据集上取得了更好的性能。我们的方法还大幅超过了VQA-CP v2方法LMH[13]在VQAv2数据集上的性能。实验结果表明，我们的模型可以提高泛化能力，同时不会失去域内测试数据上的性能。04.4. 消融研究0我们通过改变二元潜力ϕ i,i ′来评估我们在CLEVR-CoGenT和VQA-CPv2上提出的语言路由的有效性。结果如表4所示。“基线”模型是一个常规网络，具有与我们的主模型相同的架构和词级多模态嵌入，但没有路由。下一行是仅包括乘法一元潜力的基准结果，将二元潜力ϕ i,i ′设置为0。在接下来的行中，随着二元潜力的增加，语言约束变得更严格。性能随着二元潜力从0增加到1而提高，但当潜力大于1时性能下降。由于我们将一元潜力归一化在[0,1]之间，我们认为较小的二元潜力不能严格引入语言约束。但是，如果潜力变得太大，约束将阻止路由过程选择正确的胶囊，导致模型容量下降。我们在表5上展示了不同模型变体的性能。为了进一步检查乘法交互的影响，我们去除了应用在一元潜力上的softmax归一化（“+scale”），并生成逐元素乘法向量而不是单一的一元值（“+mul”）。“+unary+binary”表示一个仅基于答案分类损失学习二元潜力的模型。我们连接每对胶囊的特征，并使用两个全连接层来预测第3.3节中描述的n c � n c矩阵。表5显示了不同模型变体在条件A上实现了类似的准确性。然而，对于分布外样本，准确性差异很大。一元路由将CLEVR-CoGenT条件B上的准确性提高了3.98%和0.47%，与基线模型相比。我们的完整模型“+unary+binary+parser”也比“+scale”和“+mul”取得了更好的结果，这证明了语言引导的有效性。We visualize our routing result in Figure 4. The inputquestions, image, and linguistic guidance are shown on theleft, while the routing results are shown on the right. Theexample firstly combines the terms “gray” and “objects”,same with the parse tree. However, it combines the “yellowobjects” with “how many” in the third layer and encodes the“yellow objects” and the “gray objects” separately. It thencombines them to predict the answer at last. The examplefollows the linguistic guidance at first but demonstrates amore reasonable routing process than the parse tree to an-swer the question. Due to the limited page space, more ex-amples are provided in the supplementary file.16210图4：我们在CLEVR-CoGenT上的路由结果可视化示例。我们显示所有胶囊和所有层，但省略填充词。因此，在第0层显示的胶囊数量等于问题长度。解析树中的弯曲边表示修剪的叶节点，蓝色圆圈表示下一层应合并的胶囊。0我们在图4中可视化了我们的路由结果。左侧显示了输入问题、图像和语言引导，右侧显示了路由结果。示例首先将术语“gray”和“objects”组合起来，与解析树相同。然而，它在第三层将“yellow objects”与“howmany”组合在一起，并分别编码“yellowobjects”和“grayobjects”。然后将它们组合起来最后预测答案。该示例首先遵循语言引导，但展示了比解析树更合理的路由过程来回答问题。由于页面空间有限，更多示例在补充文件中提供。04.5. 路由结果的可视化05. 结论0我们提出了语言路由，可以以端到端的方式将语言信息纳入胶囊网络，提高其在OOD数据上的泛化能力。我们使用每个胶囊的一元潜力来激活适当的高级胶囊，并使用胶囊对的二元潜力来结合语言结构。CRF被应用于最大化两种类型的潜力。由于我们将最低的视觉特征与单个词绑定，自下而上的语言引导合并过程可以将单词组合成短语、从句，最终形成一个句子。在转发所有层之后，解析树被雕刻在网络内部，并与视觉模式交织在一起。未来，我们将逐步完善我们的模型，进一步提高其泛化能力并扩大其应用领域。06. 致谢0本工作部分支持来自中国国家重点研发计划（编号：2020AAA0109700），国家自然科学基金（编号：U19A2073，61976233，62006255和61876045），广东省基础与应用基础研究（区域联合基金-重点）（编号：2019B1515120039），广东省优秀青年基金（编号：2021B1515020061），深圳市基础研究计划（项目编号：RCYX20200714114642083，编号：JCYJ20190807154211365），浙江实验室开放基金（编号：2020AA3AB14）和CSIG青年研究员支持基金。16220参考文献0[1] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Anirud-dha Kembhavi. 不要假设，看一看再回答：克服视觉问答的先验知识.在CVPR中, 2018年.0[2] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.自底向上和自顶向下的注意力用于图像字幕和视觉问答.在CVPR中, 2018年.0[3] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and DanKlein. 学习组合神经网络进行问答. 在NAACL中, 2016年.0[4] Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and DanKlein. 神经模块网络. 在CVPR中, 2016年.0[5] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh.VQA: 视觉问答. 在ICCV中, 2015年.0[6] Hedi Ben-younes, Remi Cadene, Matthieu Cord, andNicolas Thome. Mutan: 多模态Tucker融合用于视觉问答.在ICCV中, 2017年.0[7] Remi Cadene, Hedi Ben-Younes, Matthieu Cord, andNico- las Thome. Murel: 多模态关系推理用于视觉问答.在CVPR中, 2019年.0[8] Remi Cadene, Corentin Dancette, Hedi Ben younes,Matthieu Cord, and Devi Parikh. Rubi:减少视觉问答中的单模态偏见. 在NIPS中, 2019年.0[9] Q. Cao, X. Liang, B. Li, and L. Lin.通过对依赖树进行推理来解释视觉问答.IEEE模式分析与机器智能

下载后可阅读完整内容，剩余1页未读，立即下载