因果推理驱动的基于区域的图像字幕生成模型

67 浏览量更新于2023-10-26 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18041展示、解构和讲述：基于因果推理的刘兵1 <$<$、王东1 <$、徐阳2、周勇1 <$、姚瑞1、邵志文1、赵佳琪11中国矿业大学计算机科学与技术学院2东南大学{刘兵，东旺}@ cumt.edu.cn，101013120@jiang.edu.cn，{yzhou，ruiyao，zhiwenshao，jiaqizhao}@ cumt.edu.cn摘要基于变换器的编码器-解码器框架在图像字幕中表现出显著的性能然而，大多数基于transformer的字幕方法都忽略了两种难以理解的混杂因素：视觉混杂因素和语言混杂因素，这通常会导致有害的偏见，在训练过程中诱导虚假相关性，并降低模型的泛化能力。在本文中，我们首先使用结构因果模型（SCM）来说明两个混杂因素如何损害图像字幕。然后，我们应用后门调整，提出了一种新的基于因果推理的图像字幕（CIIC）框架，该框架由介入对象检测器（IOD）和介入Transformer解码器（ITD）组成，以共同对抗两种混杂因素。在编码阶段，IOD能够通过消除视觉混淆来解开基于区域的视觉特征。在解码阶段，ITD将因果干扰引入到Transformer解码器中，并同时消除视觉和语言混杂。两个模块相互协作，以减轻由未观察到的混杂因素引起的虚假相关性。在MSCOCO上测试时，我们的建议显着优于最先进的编码器-解码器模型的Karpathy分裂和在线测试分裂。代码以https发布//github.com/CUMTGG/CIIC网站。1. 介绍图像字幕的目的是自动理解图像的语义信息并生成准确的描述。受神经机器翻译[36]的启发，编码器-解码器架构已被大多数常规图像字幕模型广泛采用[2，10，39，41]，其中深度卷积神经网络（CNN）提供服务*作者贡献均等。†通讯作者蛋糕GT 1：一个白色的盘子，上面放着蛋糕和一把叉子。叉GT2：一片蛋糕放在盘子里，旁边是叉子。GT3：盘子里的一块白色蛋糕有叉子。蛋糕叉GT1：一块蛋糕和一把叉子的残骸。GT 2：一块看起来很好吃的蛋糕，旁边有一把叉子。GT3：一盘蛋糕上有两把叉子。（一）蛋糕GT：一个碗，里面有一块蛋糕，旁边有一个勺子。Transformer：用叉子在盘子里的一块蛋糕。勺子CIIC：一块蛋糕放在一个盘子里，用勺子。（b）第（1）款图1.文中给出了关于IM中伪相关的例子，年龄字幕。(a)当生成单词“fork”时，MSCOCO训练数据集中的视觉混淆（蛋糕的视觉特征）和语言混淆（“蛋糕”的单词嵌入）的示例(b)原始Transformer [37]和CIIC生成的一些字幕。生成的正确和不正确的单词分别用蓝色和红色着色。“GT” means theground truth作为编码器从输入图像中提取视觉特征，并使用递归神经网络（RNN）作为解码器生成相应的字幕。基于这种架构，最近的工作进行了大量的改进，主要集中在两个方面：（i）优化输入图像的视觉表示[2，15，18，42]，以及（ii）增强模态间和模态内交互的架构建模能力[8，28]。在视觉表示方面，大多数字幕模型都采用经过良好训练的检测器，例如更快的R-CNN [33]，用于提取视觉特征。然而，这些模型在视觉特征提取阶段忽略了18042视觉特征纠缠的问题。如图1a所示，Faster R提取的分叉区域的特征18043CNN往往是它周围的蛋糕一样的功能，因为叉子和蛋糕共同出现太多次，即，叉子的特征表示受到蛋糕的视觉特征的严重影响。在这种情况下，蛋糕的视觉特征实际上是一个视觉混淆因素，它建立了一个所学习的蛋糕状特征对应于叉子的类标签。因此，在视觉表征阶段，对视觉特征进行分解，以减少蛋糕区域与单词“fork”之间的虚假关联是至关重要的在模型结构改进方面，基于transformer的模型[13，15，17，23，27]已经获得了优于基于CNN-RNN的字幕方法的性能。然而，大多数基于变换器的字幕模型仍然可以学习由隐藏的混杂因素引起的数据集偏差如图1a所示，当叉子比勺子多时，由于视觉混淆因素（即，蛋糕的视觉特征）和语言混杂（即，“蛋糕”的单词嵌入因此，如图1b所示，原始的Transformer通常会为测试图像生成错误的单词最近，Yanget al. [44]利用因果图分析了视觉特征与字幕之间的虚假相关性，并提出了一种去基图像字幕（DIC）框架来解决混淆问题。但它们仍有两个局限性：（1）在因果图中，整个数据集被视为混杂因素，难以分层。因此，复杂的前门调节被用来通过引入额外的中介来解除它。（ii）DIC专注于解码器的去噪，而忽略编码器中的混淆视觉特征，导致有限的性能改进。为了解决这些问题，我们首先将现有因果图的混淆因素分为两类：视觉混淆因素和语言混淆因素。基于详细因果图，我们提出了一种新的基于因果推理的图像字幕框架（CIIC），该框架主要由两部分组成：介入对象检测器（ IOD）和介入Transformer 解码器（ITD），共同对抗两种混杂因素。具体而言，IOD将因果推理纳入Faster R-CNN [33]以应对视觉混淆，旨在获得基于区域的解纠缠表示。ITD在Transformer解码器中通过同时消除视觉和语言混杂来实现因果干预如图1b所示，CIIC可以有效地消除由视觉和语言混杂因素引起的虚假相关性我们的贡献可归纳如下：• 我们将混杂因素分解为视觉和语言混杂因素，并为基于变压器的图像字幕系统显示了更详细的因果关系图，该因果关系图可以通过后门调整而不是更复杂的前门调整来轻松消除• 我们提出了一个IOD来解开编码器中基于区域的特征，并设计了一个新的ITD通过解卷积因果图，它可以有效地消除由视觉和语言混杂引起的虚假相关性。• 我们实现了基于transformer的CIIC框架，以促进无偏见的字幕生成，并在MSCOCO基准上对我们的方法进行了广泛的评估[24]。CIIC实现了一个新的国家的最先进的perfor-曼斯相比，以前的变压器为基础的字幕方法。2. 相关工作2.1. 图像字幕主流的图像字幕方法通常遵循编码器-解码器范式[2，12，39，41，50]，其中CNN提取的图像特征被送入递归网络（通常基于LSTM单元）以生成相应的句子。由于基于RNN的模型受到其顺序性质的限制，因此卷积语言模型也被探索以取代传统的RNN [3]。与卷积的局部算子本质不同，最近提出了基于全注意范式的新的基于transformer的字幕模型，并取得了相当有前途的结果[9，13，17，25]。例如，区域特征之间的空间关系[13，15]和网格之间的相对几何特征[27]被示例性地与几何关注结合，以增强视觉表示。Li等[23]介绍了利用视觉和语义信息模拟的纠缠注意力。Pan等人[28]应用Bilinear Pooling对区域级和图像级特征进行编码。尽管在全注意范式的基础上取得了很大的进展，但如何应对图像字幕中视觉和语言混杂因素引起的数据集偏差仍然在很大程度上未得到充分探索。2.2. 因果推断最近，一些研究人员将因果推理纳入计算机视觉社区的深度学习模型[6，26，32，47，49，51]。这些努力使得DNN能够学习因果效应，这显着提高了许多CV和NLP模型的性能，包括图像分类[4，26]，图像语义分割[47]，视觉特征表示[40]，视觉对话[32]，图像字幕18044×|→图2. CIIC图像字幕框架图示。RoI特征首先由介入对象检测器分解，然后与Faster R-CNN的自下而上特征相结合，作为Transformer编码器的输入。在CIIC的解码器中，我们提出了一个因果干预模块，以面对视觉和语言的混淆词预测。符号我们的CIIC是能够有效地消除虚假的相关性，发生在视觉特征表示和字幕生成，以获得更接地的图像字幕。(a) （b）不混淆图3.客体检测中的因果干预P（Ydo（X））。通过切断Z→X来阻断后门路径X←Z→Y，即，后门调整，能够有效地消除未观察到的混淆因素，作为一种基本的因果推理技术[30]。[44]和对话生成[51]。例如，Wanget al. [40]提出了基于视觉常识区域的卷积神经网络（VC R-CNN），以提高视觉特征表征学习的性能，其中因果干预，而不是传统的可能性，用于预测区域的上下文对象。Yang等分别建立了去混淆图像字幕（DIC）框架[44]和因果注意机制[45]来应对混淆因素。然而，这些模型仍然缺乏对视觉和语言领域混杂因素的详细分析。因此，我们提出的IOD直接解开的ROI建议的视觉功能。IOD将因果干预纳入自我预测器，而不是VC R-CNN中结果，IOD可以提取出来自单对象和多对象图像的视觉特征与Yanget al.[44，45]，我们为基于Transformer的图像字幕系统设计了更详细的因果图，并提出了ITD来模拟消除由视觉和语言混淆因素引起的虚假相关性。3. 中智如图2所示，CIIC由transformer编码器和Transformer解码器组成，其中因果推理分别引入视觉表示步骤和句子生成步骤。3.1. 介入物体探测器目标检测中的因果干预。在因果图[6，26]中，如果一个变量是其他两个变量的共同原因，则该变量被定义为混杂因素如图3a所示，我们基于SCM [6]制定了基于区域的视觉特征X，图像的视觉混淆因素Z和类别标签Y之间的因果关系一方面，我们将Z对X的因果效应表示为Z X，因为当训练Faster R-CNN的分类器时，提取的视觉特征不可避免地受到来自现实世界的视觉上下文的另18045|→|我我·|我∈||||||→||ΣΣFCFCROI功能混杂因素转换特征映射字典做...图4.我们的介入对象检测器的架构，其中Faster R-CNN用作视觉骨干[33]来提取预测Y.通过这种方式，分类器消除了混淆效应，并从X中学习真正的因果关系到Y，导致高质量的视觉表示。然而，Eq。（2）当将其应用于深度对象检测网络时，需要昂贵的采样来估计P（Y do（X）），这将使得训练时间过高。对于- tunately，通过应用归一化加权几何平均（NWGM）近似[40，41]，方程。（2）可以近似为：P（Y |do（X = x））感兴趣区域（ROI）的视觉特征。随后提取的RoI特征分别用于预测类别概率输出yC和边界框yB取决于..1Σnnc（三）类概率输出yC和混淆词典Z，我们基于do演算执行因果干预以准确地预测最终对象类标签yI。另一方面，我们有因果效应Z Y，因为VI-通常的上下文也影响分类器因此，在数据集偏差的情况下，Faster R-CNN倾向于学习由Z引起的X和Y之间的一些虚假相关性，即，过度利用视觉上下文和类别标签之间的共现来学习图像区域的有偏见的视觉表示。如图 3a 所示，传统的对象检测器，如 Faster R-CNN，基本上使用似然P（Y X）作为分类器的训练目标，这通常受到混淆因子Z的影响，并产生虚假相关性。为了看到这一点，我们用公式表示P（Y|X）为：P（Y |X）=z P（Y |X，Z = z）P（Z = z|（十）、（一）其中混杂因子Z通常通过P（z X）引起观察偏倚。例如，当P（z=蛋糕X=叉子）大而P（z=勺子X=叉子）小时。根据等式（1），P（Y=lforkX=fork，z=cake），其中lfork表示fork的类标号，在估计P（Y X）时比P（Y=lforkX=fork，z=spoon）起更重要的作用。因此，分类器学习了蛋糕和叉子的类别标签，即，一个叉子的学习ROI特征实际上是它周围的蛋糕状视觉特征。受最近在深度学习中成功应用因果推理的启发[6，26，32，47]，我们将因果干预P（Y do（X））引入到对象检测中，以阻止后门路径X←Z→Y，其中do演算do（·）起到切断Z的作用X.如图-图3b，利用后门调整来实现P（Y|（X）如下：P（Y |do（X））=z P（Y |X，Z = z）P（Z = z）. （二）由方程式（2），P（Y do（X））迫使X公平地z在混淆集合中，并将其中concat（）表示向量级联，yc是第i个类标签，P（yc x）是预先训练的分类器请注意，我们在方程中近似计算了混杂因素。（2）预先定义的混杂因素字典Z=[z1，z2，...，z n]，其中n是类编号，z iRd表示由Faster R-CNN预训练的第i个类的平均RoI特征。IOD架构。在图4中，我们提出了一种新的IOD网络来提取解纠缠的视觉特征，其中Faster R-CNN [33]被用作视觉骨干。在IOD中，我们使用与Faster R-CNN相同的边界框回归器来指定特征图上的每个RoI。如图4所示，RoI特征x然后被馈送到两个并行分支中，以分别预测类别概率输出yC和边界框yB最后，基于RoI特征x、类概率输出y C和预定义混淆字典Z，我们进行do演算以实现干预类预测器并输出最终对象类标签yI，即y，IOD应用等式（1）。（3）作为新的分类目标来代替Faster R-CNN的分类器以此方式，RoI特征x可以被有效地去纠缠并且随后被采用以便于Transformer解码器生成无偏字幕。3.2. 具有多视图视觉表示的Transformer编码器现在，我们准备利用IOD从任何ROI建议中提取考虑到由Up-Down方法[2]获得的自底向上的视觉特征具有区分不同对象属性的能力，我们将IOD特征与从同一图像中提取的自底向上特征相结合，以便于CIIC模型的视觉表示。由于自底向上和IOD特征是不对齐的，我们引入了多视图Transformer编码器，即不对齐特征Transformer（UFT）编码器，以适应它们。如图2所示，UFT编码器将未对齐的视觉特征作为输入，并同时执行对齐和融合操作。假设CUPY|concatx，i=1 P（yi|x）z i、18046|→|→→→ →→∈·|||←→←→→X¯F第十D1121|ΣΣ(a) （b）不混淆图5.图像字幕中的因果干预P（Wdo（V），do（h1））。为了捕捉真正的因果效应：V→W，我们通过同时切断D2 →h1和D1 → V来阻断后门路径V<$h1<$D2→W和V<$D1→W。提取的自下而上的特征和IOD特征，图像可分别表示为XF∈Rm×d1，因果效应D1W是指视觉语境直接影响字幕中某些相关词的出现频率。此外，D2H1V表示受语境影响的被关注词特征，通过多头交叉注意的关注视觉特征。h1h2、V h2和h2W表示解码器将视觉特征与语言特征相结合，并利用融合后的特征h2来推断下一个单词W。因此，当我们使用观察似然性P（W V，h1）作为训练目标时，字幕者可能会学习一些spu-1。由于混杂因素，V和W之间存在严重相关性D1和D2。来描述因果干预在图像字幕中，我们用公式P（W |V，h1）为：xi∈Rn×d2，其中mn和d1d2.两个线性P（W|V，h1）=ΔP（d2|h1）·2层用于将XF和XI转换为公共- 维空间，分别表示为和D中国（W |V，h，d，d）P（d |V），（七）随后，我们选择X<$F作为主要特征，通过观察并利用它来学习对X′I的交叉关注：X<$I=MultiHead（X<$F，X<$I，X<$I），（4）其中，MultiHead（）表示标准transform的多头注意力函数，并且Rm×d是X <$I上的目标特征。因此，我们将X¯F中的多头自我注意力建模为：X<$F=Multi Head（X<$F，X<$F，X<$F）。（5）注意，XI与XF和XF具有相同的形状，我们封装-通过AddNorm运算符隔离它们，如下所示：F=LayerNorm（X<$F+X<$F+X<$I），（6）其中混杂因素D1和D2通常会引入通过P（d1V）和P（d2h1）分析观察偏倚。与IOD类似，我们用因果干预P（W do（V），do（h1））代替图像字幕的传统训练目标，旨在消除D1对V和D2对h1的因果影响，如图5b所示。因此，两个后门路径：VD1W和H1D2W被阻塞，并消除了伪相关。假设混杂因素D1和D2可以分别分层，P（W do（V），do（h1））可以基于后门调整计算如下：低[6，26]：其中La ye rNorm（·）表示层归一化[37]。最后，融合特征F被馈送到FFN模块中，以P（W |do（V），do（h1））（八）生成UFT的编码结果。值得注意的是，UFT编码器实际上是在深度上堆叠的，以生成用于解码的更多抽象和区分的视觉特征，为了简洁的表达，我们省略了它们。3.3. 介入式Transformer解码器为了减轻关注的视觉特征和它们对应的词之间的虚假相关性，我们构建了一种新的基于transformer的解码器架构，该架构在每个Transformer解码器层中引入了因果干预模块，以应对图像字幕中的视觉和语言混淆。图像字幕的因果干预。我们首先计算了关注视觉特征V、视觉语境D1、语言语境D2、关注词特征在部分生成的句子h1上，融合fea-如图5a所示，使用SCM对真h2和预测字W进行预测。具体地说，因果效应VWde-注意，所关注的视觉特征导致其对应单词的生成。D1对V的因果效应D118047→∈∈∈∈→21=d P（d2）d P（W |V，h1，d1，d2）P（d1）.因此，基于等式中的介入概率，（8），图像说明者被迫学习真正的因果效应：V W，而不是由视觉混淆因素D1和语言混淆因素D2引起的虚假相关。同样，我们构建近似视觉混淆词典D1和语言混淆词典D2，因为D1和D2都是不可观测的，超越了物体的存在。年龄字幕。一方面，我们构建视觉矩阵VrRc×dv 通过将每个条目设置为平均值每个类中对象的RoI特征，其中c表示类大小，dv是每个RoI特征的维数。另一方面，我们给出了一组d e维的词嵌入W eRN×de 从预定义的词汇表用来构建语义空间。然后，训练字幕机学习两个线性投影P vRdv×d和P wRde×d，分别将Vr和We转换为D1和D2，即，D1=VrPv，D2=WePw.因此，Eq.（8）可以利用NWGM近似计算[40，41]如下所示代表D1V，因为参与的视觉功能是严重影响了一些经常出现的视觉骗局，P（W |do（V），do（h1））Softmax{g（h2，ED1[D1]，ED2[D2]）}，（九）18048≈·≈·×OGt=1θ不1ΣT .ΣΣ1：t−1哪里g（）代表FC层，ED1[D1]softmax（D1h2）D1和ED2[D2]softmax（D2h2）D2。与DIC [44]类似，我们将D1和D2设置为以融合特征h2为条件，以增加ITD的表示能力Transformer解码器架构。Transformer解码器架构的流程图如图2所示。与Transformer编码器类似，解码器由L 个按顺序堆叠的相同解码器层组成。与原始的Transformer解码器不同，我们的建议在FFN模块之后插入CI模块。具体而言，通过视觉词典D1和语言词典D2，CI模块将融合的特征h2与视觉混淆者D1和语言混淆者D2的期望结合以预测下一个单词，即，它实际上是通过后门调整来实施因果干预，等式（九）、最后一个解码器层的输出随后通过线性嵌入层投影到N维空间中，其中N是词汇大小。最后，采用softmax操作来预测词汇表中的单词的3.4. 培训详细信息遵循[2，10]中相同的训练策略，我们的模型首先使用单词级交叉熵（XE）损失进行预训练：LXE（θ）（十）=−logp w|do（V），do（h），w，其中，θ表示CIIC的p参数，w1=T是tar获得地面真值序列。在此基础上，通过强化学习（RL）对模型进行了优化.在实践中，我们对通过波束搜索采样的序列采用自批评序列训练（SCST）[34]的变体。目标是最小化以下负预期分数：LRL（θ）=−Ew1：T<$pθ[r（w1：T）]，（11）其中，奖励r（）表示CIDEr-D分数。在测试阶段，我们使用波束搜索来生成逐句逐词，并获得最后一个波束中的序列中具有最大概率的序列。4. 实验4.1. 实验装置MS COCO数据集[24].这个流行的基准数据集包含123，287张图像，每张图像都配有5个手动注释的句子。在实验中，我们采用了两种流行的分裂：Karpathy分裂[20]和在线测试分裂。评估指标。为了评估不同字幕方法的性能，我们利用全套标准字幕，标准评估指标，包括 BLEU [29] 、 METEOR [5] 、ROUGR [7]、CIDER [38]和SPICE [1]。再说我们使用两个度量：CHAIRs和CHAIRi[35]来测量生成的字幕的对象偏差程度。实施详情。为了表示图像特征，我们首先在MSCOCO数据集上训练所提出的IOD，以提取具有最高置信度分数的前100个对象的1024维IOD特征然后，我们使用预训练的Up-Down模型[2]来提取检测到的对象的2048维自下而上特征。最后，我们将这两个特征线性投影到512维向量上，并将它们送入UFT编码器。为了表示单词，我们在实验中分别使用独热向量和预训练的GloVe单词嵌入[31]。它们都被线性投影到ITD的512维输入向量上。为了表示句子中的单词位置，我们在第一解码层之前对输入向量及其正弦位置编码进行求和[36按照[37]中的相同设置，我们将所有句子转换为文本，删除标点符号并标记每个标题。我们通过选择出现超过5次的单词来构建新的词汇表。此外，我们使用8个专注头在编码器和解码器中的CIIC。每个头部中的潜在维度被设置为dh=d/h= 64，其中潜在维度d为512.我们在一个Nvidia 3080 GPU上训练我们的CIIC，批量大小为10张图像，迭代次数为220K。为了公平比较，我们采用ResNet-101作为图像特征提取和编码的主干。在训练阶段，我们采用亚当优化器[21]批量为10和20000个预热步骤。我们的模型首先基于XE损失训练30个时期，然后使用SCST方法[34]优化额外的30个时期，光束大小为5。学习率设置为5 10−6。在推断阶段期间，还采用波束搜索[36]，波束大小为3。4.2. 消融研究我们进行了大量的实验，研究不同的模块对字幕性能的影响。比较方法。基础：我们将具有自底向上特征的原始trans-former字幕模型表示为基础。Base+GloVe：我们将GloVe嵌入[31]到Base中以表示单词。Base+ITD：在Base的解码器中引入ITD模块。Base+ITD+GloVe：与Base+ITD相比，我们进一步将GloVe嵌入与Base集成。Base+UFT ：利用 UFT 来提高 Base的视觉表现Base+UFT+GloVe：与Base+UFT相比，我们用GloVe嵌入代替了生成词的one-hot嵌入。CIICO和CIICG：下标18049↓↑MMM表1.烧蚀实验。所有模型都是用XE损失训练的。B@1、B@4、M、R、C、S、CHs和CHi是BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDER、SPICE的缩写，椅子s和椅子i得分。““和““分别表示越低越好和越高越好。型号B@1 ↑ B@4 ↑ M ↑ R ↑ C ↑S ↑CH ↓ CHi↓碱75.9 35.5 28.0 56.5 114.1 21.0 8.4 6.3床上用品，分别。结果和分析。表1示出了在注意力块的数量L=6的情况下对不同编码和解码模块的消融实验。从表1中，我们可以观察到GloVe和CI模式分别带来了对Base的改进。两者并用时，性能可进一步提高，说明两者都是有益的。 Base+UFT和 Base+UFT+GloVe的性能优于Base+GloVe+CI，证实了提取IOD特征的有效性。在将CI模块分别并入Base+UFT和Base+UFT+GloVe之后，可以进一步签署CIICO和CIICG的性能表2中，我们可以观察到，与其他SOTA方法相比，CIIC0特别是，它甚至可以与在4个P40 GPU上训练的X-Transformer（4×24=96G）1. 中智G超越其他SOTA方法sig-在BLEU-1、BLEU-4、CIDER、ROUGE-L，而在METEOR上具有竞争力，在SPICE上相对于X-Transformer稍表2.不同模型的实验结果对MSCOCO型号B@1 B@4 M R C SSCST [34]-34.226.755.7 114.0美国[2]36.327.7 56.9 120.1 21.4[19]第十九话36.527.7 57.3 121.9 21.2GCN-LSTM [46] 80.538.228.5 58.3 127.6 22.0SGAE [42] 80.838.428.4 58.6 127.8 22.1ORT [15] 80.538.628.7 58.4 128.3 22.6[16]第16话38.929.2 58.8 129.8 22.42Transformer [8]80.839.129.2 58.6 131.2 22.6Transformer+CATT [45]-39.429.3 58.9 131.7 22.8[28]第二十八话39.729.5 59.1 132.823.4CIICO81.440.2 132.6 23.2中智G81.740.229.5 59.4 133.123.2表3.在MS-COCO在线测试服务器上设置单个模型时与SOTA方法的性能比较，其中c5/c40意味着使用5/40的地面真实字幕进行测试。B@4 M R C显著增加（从117.5 CIDEr增加到118.3 CIDEr，从117.9 CIDEr到119.0 CIDEr），这进一步证实了在句子生成中消除视觉和语言混杂因素的效用。4.3. 定量分析Karpathy测试结果分裂。在表2中，我们将我们的CIIC与SOTA模型在离线COCO Karpathy测试拆分上进行比较，包括SCST [34]，Up-Down [2]，RFNet [19] ， GCN-LSTM [46] ， SGAE [42] ， ORT[15]，AoANet [16]，2Transformer [8]，Transformer+CATT[45]和X-Transformer [28]。 SCST应用基于RL的奖励，这是广泛使用的以下方法。Up-Down和RFNet利用视觉注意机制。GCN-LSTM和SGAE使用场景图和图卷积网络。ORT将几何信息并入Transformer。AoANet利用了注意力结果的相关性，通过一个由控制引导的门短信了2Transformer在编码器和解码器层之间提出了一种完全连接的架构。反式前者 +CATT 将一种新颖的因果注意力引入到Transformer架构中。X-Transformer将Bilinear Pooling应用于Transformer的attention模块。为了公平的比较，我们进行了实验，以比较我们提出的CIIC与基于变换器的方法在相同的ResNext101区域为基础的功能。从Ta-Transformer+CATT [45]38.8 70.6 28.9 38.258.7 73.9 126.3 128.8中智集团O38.570.0 28.938.4 58.4 73.8 126.3129.2中智集团38.5 70.129.1 38.4 58.6 74.0 126.4 129.2表4.不同模型对MSCOCO Karpathy分裂的偏倚分析。模型B@4↑M↑R↑C↑CH ↓ CHi↓上下[2]36.327.7 56.9 120.113.78.9Transformer38.428.6 58.4 128.612.18.1UD-DICv1.0 [44]39.028.8 58.8 128.810.16.5Transformer+CATT [45]39.429.3 58.9 131.79.76.5CIICOCIICG40.240.229.329.559.259.4132.6133.18.27.75.04.5官方测试服务器上的结果。表3报告了不同型号在在线COCO测试1 https：//github. com/JDAI-CV/image-captioning/问题/7底座+手套76.3 36.228.2 56.8 115.9 21.37.96.0基础+ITD76.1 36.228.1 56.7 116.0 21.27.76.0基础+ITD+手套76.5 36.528.4 57.0 117.1 21.36.95.4基础+UFT77.0 36.728.4 57.1 117.5 21.55.83.9底座+UFT+手套77.1 36.928.1 57.0 117.9 21.35.93.9CIICO77.3 37.028.3 57.4 118.3 21.35.63.9中智集团77.5 37.328.5 57.4 119.0 21.55.33.6模型C5 C40 C5 C40 C5 C40 C5C40上下[2]36.9 68.5 27.6 36.7 57.1 72.4 117.9 120.5CAVP [48]37.9 69.0 28.1 37.0 58.2 73.1 121.6 123.8SGAE [42]37.8 68.7 28.1 37.0 58.2 73.1 122.7 125.5全国妇女委员会[43]37.9 68.4 28.1 36.9 72.9 123.0 125.3VSUA [12]37.4 68.3 28.2 37.1 57.9 72.8 123.1 125.5AOA-DICv1.0 [44]38.870.5 28.8 38.2 58.6 73.9 126.2 128.418050||对象Transformer ：一个人在沙滩上走在水里。CIIC：一个人走在海边的沙滩上。GT：一个人在海边。叉子蛋糕滑雪者图6.由Faster R-CNN（左）和IOD（右）提取的一些对象特征的t-SNE可视化[22偏置CIICO和CIICG也随着CIDER r分数的增加而增加。这是因为广泛采用的SCST优化可能会导致偏倚，以提高CIDEr评分[35]。4.4. 定性分析最后，我们定性地评估我们的方法的性能图6可视化了Faster R-CNN（左）和提议的IOD（右）提取的MS-COCO图像的一些视觉特征。我们可以看到，与Faster R-CNN相比，我们的IOD可以学习更具鉴别力的特征表示例如，蛋糕和叉子特征以及人和滑雪特征在行动偏倚性别Transformer：一个小男孩在吃蛋糕。一个小男孩在长凳上吃三明治。GT：一个小男孩坐在长椅上吃三明治。Transformer：一个小男孩拿着网球拍打网球。CIIC：一个小男孩用球拍打网球。GT：一个人用网球拍打网球Transformer：一辆汽车停在红绿灯前。一辆车停在一条街上的交通灯前。GT：一辆车停在城市街道上的红绿灯Transformer：一个人和一只狗在水里的桨板CIIC：一个男人和一个女人和一只狗在一块桨板上。GT：一个女人和他们的小狗一起骑着桨板使用常规似然P（Y X）（左）。在因果干预P（Y do（X））（右）之后，它们明显分离，这意味着IOD实际上消除了vi-在提取视觉特征的同时，图7显示了CIIC和Transformer基线生成的测试图像的一些标题直觉上，与Transformer基准相比，中智能够产生更多接地和更少偏差的字幕。例如，我们的模型有效地消除了由视觉和语言混杂因素引起的男孩特征和单词“蛋糕”之间的虚假相关此外，我们的CIIC还可以减轻性别和动作偏见，这表明我们的CIIC能够有效地消除视觉和语言混杂因素，并进一步验证了我们的有效性。图7.有些生成的标题由中智和Transformer基线的情况下，性别，对象和行动的偏见。绿色语境表示可能导致偏见的语言混杂因素。正确和不正确的单词分别用蓝色和红色表示。server.为了进行公平的比较，我们仍然在官方测试分割的同一个模型设置中训练CIIC和竞争模型。与排行榜上表现最好的方法相比，我们可以看到，我们的单一模型仍然实现了对竞争方法的优越性能。特别是，CIICG在CIDEr（C5）和CIDEr（C40）上分别获得了126.4和129.2的最新得分偏差分析。为了确认所提出的CIIC模型是否可以减轻数据集偏差，我们进一步评估了表4中生成的字幕的偏差程度。从表4中可以看出，在对对象检测和图像字幕进行因果干预后，CIIC实现了最低的CH和CHi，这表明CIIC可以生成最少偏差的字幕。同时，我们可以看到，CIIC在BLEU-4，METEOR，ROUGE-L和CIDEr方面获得了最好的结果，这可以进一步证明我们的CIIC模型在数据集偏差的情况下生成更接地气的字幕。与表1相比，可以发现，法5. 结论在本文中，我们提出了CIIC，一种新的Transformer为基础的架构，图像字幕的因果关系的角度来看，无缝地将因果关系的干预到两个目标检测和字幕生成，以共同减轻混淆的影响。一方面，所提出的IOD有效地解开的视觉特征，并促进了图像字幕的解扰。另一方面，建议的ITD实施因果干预，以解决句子生成过程中的视觉和语言混淆。实验结果表明，在MS-COCO数据集上，我们的方法在单模型配置我们的方法的局限性在文献资料中给出。确认本课题得到了国家自然科学基金项目（No.61403394，No.62172417，No.62106268）和江苏省高层次创新创业人才计划（双创博士）项目（JSSCBS 20211220）的资助。偏置Transformer：骑在摩托车后面的人。一个男人和一个女人坐在摩托车上。GT：一个男人和一个女人骑摩托车的图画18051引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。InAdaptive Behavior，pages 3826[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。一、二、四、六、七、十二[3] Jyoti Aneja，Aditya Deshpande和Alexander G. 施温卷积图像字幕。在IEEE计算机视觉和模式识别会议论文集，第5561-5570页，2018年。2[4] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425-2433页2[5] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. ACL-2005，第228-231页，2005年。6[6] Krzysztof Chalupka ， Frederick Eberhardt ， and PietroPerona. 因果特征学习：概述。 Behaviormetrika ， 44（1）：137-164，2017. 二三四五[7] 特里·科佩克和斯坦·斯帕科维奇。文本摘要分支。计算语言学协会，2004年。6[8] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara.网状记忆Transformer，用于图像覆盖。在IEEE计算机视觉和模式识别会议论文集，第10578-10587页，2020年。1、7[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集，

下载后可阅读完整内容，剩余1页未读，立即下载