VisualGPT：自适应图像字幕的高效预训练模型

45 浏览量更新于2023-10-26 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18030--VisualGPT：用于图像字幕的预训练语言模型的数据高效自适应陈军1，韩国2，凯毅1，李博阳3，穆罕默德·埃尔侯赛尼11阿卜杜拉国王科技大学（KAUST），2卡内基梅隆大学，3南洋理工大学jun.chen，kai.yi，mohamedkaust.edu.sahanguo@cs.cmu.edu@boyang.li ntu.edu.sg摘要注释数据的有限可用性往往阻碍了机器学习的实际应用。有效地编码器层K编码器层1前馈解码器层1面具的自我关注交叉注意从少量的多模态数据中学习，我们利用-从大型预训练语言模型（PLM）中老化语言知识，并快速使其适应新领域自我关注自恢复编解码器LM重量图像字幕。为了有效地利用预训练模型，平衡视觉输入和预训练中的先验语言知识至关重要。我们提出了Visu-alGPT，它采用了一种新的自我复活的编码器-解码器的注意力机制，以快速适应PLM与少量的域图像-文本数据。所提出的自复活激活单元产生稀疏激活，防止语言知识的意外丢失。当在0.1%，0.5%和1%的相应训练集上训练时，VisualGPT在MS COCO上超过最佳基线高达10.0%CIDEr [43]，在概念标题上超过最佳基线高达17.9%CIDEr [63]。此外，VisualGPT在IU X射线[15]上实现了最先进的结果，这是一个医疗报告生成数据集。我们的代码可以在https://github.com/Vision-CAIR/VisualGPT上找到。1. 介绍最近图像字幕的性能提升[13，24，28，31，75]是在大规模数据语料库（如MS COCO [43]或ConceptualCaptions [63]）的基础上实现的，每个语料库都包含数十万个字幕。手动注释字幕需要相当多的时间和精力。关注前馈解码器层K一个警察骑着棕色的马在卡车旁边的人行道上。图1. 我们的VisualGPT模型将知识从预先训练的语言模型到字幕解码器。设计了一种自恢复的编码器-解码器注意力，将多级视觉特征与字幕解码器连接起来。缩放提高图像字幕网络的数据效率将使快速数据管理，稀有对象的描述和专业领域的应用成为可能。在本文中，我们研究了图像字幕的数据效率问题。这个问题与新的对象字幕问题[1，23]不同，后者依赖于丰富的域内数据，但没有域外数据。相反，我们的目标是提高性能的图像字幕- ING系统训练的一个小子集的域内数据。我们建议通过利用预先训练的语言模型（PLM）来提高数据效率[17，34，46，60]，例如另一方面，从互联网上半自动收集图像-字幕对，如概念字幕[63]所使用的对于医疗报告生成[15，40]和低资源语言字幕[18，74]等特定领域的数据，[16]，[17]，[18]，[19]。通过自我-通过监督学习，这些模型获得了丰富的语言和语义知识，这些知识已被证明可以为NLP中的下游任务提供信息[7，21]。然而，在单峰文本数据上预训练的PLM对于多峰任务的适应性仍然研究不足。……18031图2. MS COCO和WikiText-2数据集的词性分布比较[51]。我们使用空间分析器，只显示最重要的类别。利用PLM的一个关键挑战是弥合多模态数据和PLMs预训练的单模态文本数据之间的差距。在图2中，我们比较了MS COCO和WikiText-2的词性分布[51]。MS COCO使用了75%以上的名词，但减少了14%的动词，这表明它偏向于描述静态对象而不是动作。这表明，为了有效地利用PLM在图像字幕，我们必须平衡从预训练和视觉输入信息获得的先验语言知识图1描述了我们提出的模型（称为VisualGPT）的整体架构。在图像字幕的常用编码器-解码器架构中，我们从PLM（如GPT-2 [59]）初始化解码器的参数，而编码器层是随机初始化的。此外，我们提出了一个注意力机制与自我复活激活单元（SRAU），平衡的输入从视觉编码器和语言输入从以前的解码器层。所提出的机制可以产生稀疏激活，同时不像常规门那样易受零梯度问题的影响;自复活门可以在实验结果表明，当训练在0。1%、0. 5%和1%的MSCOCO和概念字幕数据，VisualGPT优于几个强大的基线模型。我们在IU X射线[15]上实现了最先进的结果通过几个消融实验，我们验证了PLMs和所提出的自我复活注意机制的有效性。捐款. 我们做出以下贡献：• 我们探讨了图像字幕的数据效率问题，利用预训练的语言模型（PLM）作为字幕解码器。只有少量的域内训练数据，所提出的技术快速适应PLM的跨模态任务，图像字幕据我们所知，这是第一个专注于有效地适应大型预训练语言模型用于图像字幕的工作。• 我们提出了一种新的编码器-解码器注意与自我复活激活单位（SRAU），它可以平衡功能的视觉和文本的形式。SRAU产生稀疏激活，减少预训练权重的意外激活。2. 相关工作图像字幕。图像字幕在计算机视觉研究中得到了广泛的研究。早期的方法[19，31，37，65，79]专注于用提取的对象、属性和关系填充模板随着深度学习的出现，研究人员提出了端到端神经网络，将图像编码为矢量表示，并逐词解码字幕[27，71]。许多改进的编码器[11，38，49，75，76，80，81]，解码器[72，73，78]，注意力机制[8，13，24，33，36]已经被提出。使用对象区域对图像进行编码已被证明是有益的[2]。强化学习使模型优化具有不可微的评估指标[14，45，61，64]。[9，12]研究字幕生成的细粒度控制。[14，64]采用类似GAN的架构，鼓励类似人类的标题。图像字幕问题的一些公式偏离了传统的监督学习范式。新颖的对象字幕旨在描述训练数据中不存在的对象[1，23，41，50，70]。Feng等人[20]提出无监督字幕，而不使用成对的图像字幕监督。Kim等人 [29]专注于学习效率，并通过从辅助未配对图像标题数据中学习来提高数据效率自监督NLP模型基于文本数据的大型神经网络的自监督训练被证明是创建高性能NLP模型的重要技术。已经提出了几种自我监督信号，例如自回归语言建模[5，52]，其中包括GPT系列模型[6，58，59]，以及掩蔽语言建模，其中包括ELMo [56]和BERT相关方法[16，32，47]。在本文中，我们提出了一种快速适应技术的网络权重使用语言建模（LM）的目标。然而，所提出的技术可以很容易地应用于其他模型，作为掩蔽语言建模目标可以转换为LM目标，通过掩蔽文本序列中的最后一个词。在多模态数据上预训练的非类神经网络（例如，[39，48，57，66，67，82，83]），我们的方法只需要少量的多模态训练数据，并专注于适应从文本模态中学习到的语言知识。18032−∈∈TransformerAoATransformerM2TransformerVisualGPT（我们的）预训练的LM初始化。随机初始化门控单元Zm-1Zm-1Zm-1Zm-1（a）（b）（c）（d）图3. 普通Transformer [68]、带AoA模块的Transformer [24]（AoA Transformer）、M2 Transformer [13]和VisualGPT的体系结构。我们将I和H分别表示为视觉和语言特征。 Zm−1是解码器层m 1的输出。在圆圈内，α、BV和BL表示不同的门控单位。3. 分类：Transformer用于字幕Transformer [68]已经成为图像字幕的标准模型之一。其核心在于多头点积注意机制。取三个输入矩阵，即查询Q、键K和值V，注意力函数可以写成.（W qQ）（W kK）研究人员提出了编码器-解码器注意力的其他变体。在图3中，我们将这些解码器架构与建议的VisualGPT模型进行了对比。注意力集中（AoA）模块[24]提供了用于组合视觉编码I和来自解码器的语言信息H的替代方法。对于另一种结合视觉和语言信息的方法M2Transformer [13]将所有解码器层连接到Attn（Q，K，V）= softmaxDW V，（一）所有编码器层。在图3中，它由框标记为Meshed Connection Sum。其中，Wq、Wk和Wv是可训练参数，D 是缩放因子。直观地说，注意力操作可以看作是将Wq Q编码为WvV的行向量的凸组合。多头注意力用多组Wq、Wk和Wv重复该过程;结果被连接并线性投影回相同的维度。在视觉字幕任务中，我们应用了一个输出为IRO×S的视觉编码器。O是输入序列的长度，在这项工作中是图像中的对象序列S是隐藏尺寸大小。解码器网络按顺序输出字幕中的单词当解码字t+1时，编码器-解码器注意力将视觉编码I和解码器的当前状态 HRt×S 作为输入。我们应用attention操作，H作为查询，I作为键和值。编码器-解码器的注意力是EncDecAttn（H，I）= Attn（H，I，I）。（二）之后，我们应用AddNorm运算符，它包含一个剩余连接和层规范化 [3] ，可以写为 LayerNorm（ EncDecAttn（H，I）+H）。4. VisualGPT预训练语言模型（PLM），如GPT-2 [59]，是在来自单一模态的数据上训练的我们使用PLM作为字幕解码器，并通过编码器-解码器注意力将视觉信息馈送到PLM，这在快速适应PLM中起着至关重要通过编码器-解码器注意力的设计，我们的目标是仔细平衡来自编码器的视觉信息和存储在PLM中的语言知识。在生成视觉词的过程中，如“人”、“卡车”或“狗”，模型应注意视觉信息。相反，限定词或连接词的生成只需要语言学知识。理想情况下，我们希望利用存储在 PLM 权重中的大量语言知识（例如，[44]），而仅在需要时参考视觉输入。为了实现这一目标，我们引入了一对专门的门控单元。4.1. 自我恢复激活单元编码器-解码器注意EncDecAttn（H，I）可以被看作是用视觉编码语言信息H。我解码器层m添加范数前馈网格连接和添加规范交叉注意H添加规范伪装的自我注意力解码器层m添加范数前馈网格连接和我BVB L交叉注意H添加规范伪装的自我注意力解码器层m添加范数前馈添加规范我交叉注意H添加规范伪装的自我注意力解码器层m添加规范前馈Concat我交叉注意H添加规范伪装的自我注意力B18033MB视觉MB视觉SRAU：=0.2B兰姆B相对于⊗·−−M× ×信息岛在VisualGPT中，我们控制平衡是-普通补语a1.0ry S形门归一化SRAU：=0.21.0使用两个互补门Bvis和Blan。此模块的输出为0.80.60.8Blan0.6BlanBvisEncDecAttn（H，I）+BlanEncDecAttnH，（3）0.40.4其中表示逐元素乘法。设Bvis[i，j]和Blan[i，j]]表示矩阵中的元素，它们成对计算为：Bvis[i，j]=σ（H[i，j]）1（σ（H[i，j]）>τ），Blan[i，j]=（1−σ（H[i，j]）1（1−σ（H[i，j]）> τ），（4）其中τ是预定义的阈值超参数，并且是指示器函数，如果内部状态-0.20.010.07.55.02.50.02.55.07.510.0X1.00.80.60.40.20.00.20.010.07.55.02.50.02.55.07.510.0X为true，否则为0。SRAU的替代方案是普通互补门（OCG），计算为σ（H[i，j]）和1σ（H[i，j]）（见图4，左上）。OCG可以输出非常接近于零的值。相反，利用指示符函数，SRAU直接将小于阈值τ的值设置为零，从而引入稀疏性。当τ设置为0时，SRAU变为OCG。由于梯度不能通过零门反向传播，SRAU防止优化破坏捕获语言知识的预训练权重。这个属性对于有效利用预训练模型至关重要。相反，当OCG门输出接近零的值时，一些小的但非零的梯度仍然可以覆盖现有的语言知识。SRAU的另一个优点是它能够摆脱零输出。一个门输出零并且具有零梯度而另一个门的梯度保持可用是可能的（例如，当图4中的x接近1时。3或1 .一、（3）第三章。不对称性允许基于梯度的优化通过改变另一个来改变零输出门门出于这个原因，我们将这些门命名为自我复活激活单元。SRAU的不对称性可能看起来违反直觉。我们将SRAU与“规范化”版本进行对比，其中两个变量B vi s [ i，j ]和B la n [ i，j ]变得对称。10.07.55.02.50.02.55.07.510.0X图4.左上：普通的互补S形门。右上：归一化SRAUτ =0.2。底部：SRAUτ =0.2。X轴表示函数输入，y轴表示输出。图像使用现成的对象检测网络。之后，我们将空间位置输入图像编码器。这样，图像编码器输出维度为SOK的I。字幕解码器包含M层，其参数从PLM初始化我们插入随机初始化的编码器-解码器模块。我们还在编码器和解码器之间应用网状连接，就像2Transformer中那样.网络被训练以最大化以k_ens_w1，.为条件的下一个令牌w t的概率。-是的-是的，wt-1和编码器输出I。在监督学习的预定义数量的时期之后，我们切换到自我批判强化学习[61]，作为奖励。5. 实验5.1. 数据集和评估指标我们在三个数据集上评估了我们的模型， MSCOCO [43]，Conceptual Captions [63]和IU X-ray [15]。MS COCO包含123，287个图像，每个图像都是一个-巴氏杆菌Bvis[i，j][i，j]=Bvis[i，j]+Blan[i，j]，Blan[i，j]（五）有5个不同的标题。我们跟随卡帕-[28]第28章：你的秘密概念-实际字幕数据集[63]包含大约330万张图像，Blan[i，j]= Bvis[i，j]+BLAN.[i，j]培训和28K验证，具有更高的多样性比COCO由于测试数据没有公开，我们这些门失去了使自我恢复特性成为可能的不对称性.在图4中，我们可视化了OCG、SRAU和归一化SRAU。在烧蚀实验中，我们表明SRAU优于OCG和归一化SRAU。4.2. VisualGPT的体系结构和训练yyy18034为了完整起见，我们介绍VisualGPT的整体架构。图像编码器包括K个变换器层。给定一个图像，我们提取对象在相反，使用公共验证数据作为我们的测试集，并从训练集中随机采样5000为了创建MS COCO和概念字幕的小训练数据设置，我们随机采样0。1%、0. 5%和1%的图像-字幕对作为训练数据，这与COCO的（567，2，835和5，670对）和概念字幕的（3，300，16，500和33，000对）相匹配。我们用不同的随机种子重复实验4 次，并报告平均性能。我们报告 BLEU [54] ，METEOR [4]，18035MCOCO概念方法PLMB1B4MRCB1B4MRC0.1%训练数据AoA Transformer [24]AoA TransformerAoA TransformerAoA TransformerAoA TransformerAoA Transformer表1.在0上训练的比较方法的性能。1%、0. 5%和1%的MS COCO和Conceptual Caption图像-标题对。每种配置的最佳性能以粗体显示。消融模型以灰色标记。[42][43][44][ 45][46][47]IU X射线[15]是一个放射摄影数据集，包含7，470张胸部X射线图像和3，955份人工撰写的报告。由于数据集已经很小了，我们遵循最初的分割，它有一个5226张图像和2770份报告的训练集大多数报告具有对应于正面和侧面视点的两个图像。5.2. 实验设置基线。我们将我们的模型与几种最先进的基于变压器的模型进行比较，包括：• 普通Transformer [68]。• AoA Transformer，它将注意力集中（AoA）模块[24]插入到每个Transformer层，如图3（b）所示。在[13]之后，我们稍微更新了[24]中的原始AoA网络，将LSTM替换为Transformer，以创建一个公平的Transformer-to-Transformer比较。•2Transformer [13]，它提出了编码器和解码器之间的网状连接，是MS COCO上性能最好的模型之一。• X-Transformer [53]，它采用双线性池来选择性地利用视觉信息，Transformer [68]没有一57.413.1 16.7 40.7M2Transformer [13]X-Transfomrer [53]奥斯卡奖[39]没有没有没有伯特56.956.656.753.813.1 16.9 40.613.5 15.9 40.7 38.412.9 16.5 40.611.9 17.1 39.5 41.0TransformerM2TransformerVisualGPT（标准化SRAGPTGPTU）谷丙转氨酶56.854.955.555.715.3 17.0 41.2 42.914.7 16.6 41.1 41.014.4 16.2 40.715.0 16.8 41.2 42.4VisualGPT（我们的SRAU）GPT58.216.4 18.5 41.90.5%训练数据TransformerM2TransformerX-TransformerOSCAR没有没有没有没有伯特62.863.363.562.959.218.8 19.4 25.219.4 19.8 45.620.2 19.4 45.8 63.919.0 19.6 45.7 62.018.0 21.0 45.3 60.2TransformerM2TransformerVisualGPT（标准化SRAGPTGPTU）谷丙转氨酶65.164.764.265.321.8 20.6 46.6 69.521.8 20.7 47.1 68.521.2 20.5 46.521.8 20.9 47.0 69.3VisualGPT（我们的SRAU）GPT66.222.1 21.1 47.31%训练数据TransformerM2TransformerX-TransformerOSCAR没有没有没有没有伯特66.067.167.667.067.221.9 21.1 47.323.4 21.3 48.323.6 21.5 48.423.6 21.2 48.123.3 22.5 49.1TransformerM2TransformerVisualGPT（标准化SRAGPTGPTU）谷丙转氨酶68.568.268.725.1 22.1 49.025.0 22.4 49.2 80.425.2 22.3 49.212.42.44.915.221.213.12.84.815.523.511.42.44.614.720.912.82.74.715.323.112.22.44.314.821.913.22.55.015.121.911.92.64.915.424.011.82.84.613.920.513.32.95.115.825.813.93.25.616.727.713.23.35.516.329.614.53.66.017.132.013.83.35.617.931.814.23.55.817.332.114.43.76.117.233.516.23.86.518.335.613.93.66.017.234.114.83.66.217.634.114.93.96.118.035.915.94.26.718.537.213.93.76.318.137.916.04.16.818.939.814.94.16.518.639.015.64.06.618.739.516.14.26.718.940.617.84.26.719.040.215.43.96.517.939.115.43.96.517.938.515.34.26.718.340.316.34.36.919.340.918036M型号B-1B-2 B-3 B-4 R M CAtt2in22.4 12.98.96.830.8-29.7科阿特45.5 28.8 20.5 15.4 36.9-27.7HRGR43.8 29.8 20.8 15.1 32.2-34.3CMAS-RL46.4 30.1 21.0 15.4 37.1-27.5Chen等人47.0 30.4 21.9 16.5 37.1 18.7-VisualGPT（我们的）48.031.3 22.2 15.9 37.4 20.5 49.7表2. IU X射线数据集上的性能。MS COCO上性能最好的型号之一。• OSCAR [39]，它在图像语言数据集上微调BERT初始化。由于VisualGPT使用GPT作为预训练的解码器，为了公平比较，我们还使用 GPT 作为解码器创建了Transformer、AoA Transformer和2Transformer的变体。对于VisualGPT，我们在所有实验中将τ设置为0.2。我们还探讨了不同τ的影响，发现τ在[0，0. [2]提供适当的稀疏度。对于所有其他基线，我们在MS COCO的验证集上调整超参数。我们在[13]中的工作之后，在强化学习设置有关超参数和实验结果的更多详细信息，请参见补充材料5.3. 定量结果小型域内训练数据。MS COCO和概念标题的结果见表1。Visu- alGPT的性能优于性能最佳的基准模型，4.第一章1 CIDEr，当训练0时。MS COCO数据的1%，6. 4 CIDEr在0上训练时。5%的数据和2。5CIDEr，1%训练数据。在概念标题数据集上，VisualGPT也优于所有基线。它比最佳基线模型的性能高出4倍。2 CIDER小于0。1%的训练数据，3. 5 CIDER低于0。5%的数据和0。3CIDEr低于1%数据。与基于BERT的模型比较。我们与OSCAR [39]进行了比较，OSCAR是一种基于BERT的[16]模型，在许多基准测试中表现为了与我们的模型进行公平的比较，我们在大规模图像语言语料库上运行BERT和GPT之间的主要区别在于它们的预训练目标不同，BERT使用掩码语言建模，GPT是下一个单词的自回归预测。与BERT相比，GPT具有与图像字幕模型更相似的学习行为，因为它们都通过自回归生成下一个语言单词来优化表1中的实验结果表明，VisualGPT在两个数据集上都优于OSCAR，这证实了我们使用GPT作为解码器的选择。医疗报告生成。我们将VisualGPT与最先进的医疗报告生成模型进行了型号B-1 B-4 M R CKim等人 [30]58.1 13.4 15.9-36.0Kim等人+未配对 63.020.7 - 55.2Gu et al.[22]Feng et al. [20个]46.213.2 - 17.758.917.9 - 54.9VisualGPT（我们的）67.1 24.3 21.9 48.6 75.8表3.使用Kim等人的无监督和半监督学习方法的比较。COCO的分裂。Kim等人仅使用1%的图像进行训练，而表1中的图像-标题对为1%。请注意，Kimet al. + unpaired也使用其余的训练数据作为未配对的图像和文本。的灰色阴影表示在训练期间使用大量未配对的图像和文本的基线。包括Att 2 in [61]、CoAtt [26]、HRGR [35]、CMAS-RL[25]和Chen等人的模型 [10]。这个数据集在训练集中只包含了大约2770份医疗报告，这还不到COCO数据的1%，这对数据效率提出了挑战。我们遵循与[10]中相同的实验结果表明，VisualGPT超过了大多数评估指标的基线，并创造了一个新的最先进的。它显示了将GPT知识利用到具有非常“昂贵”且配对数据不足的高度特定领域的价值我们希望我们的发现可以启发其他领域的未来工作。与半监督和非监督方法的比较。 Kim等人 [30]提出了一种半监督学习方法来提高图像字幕的数据效率。他们使用1%的图像及其所有字幕作为训练数据，而不是表1中所有图像-字幕对的1%，因此它们覆盖的图像更少，因为每个图像与多个字幕相关联。对于Kim等人+ 除了未配对的图像外，他们还使用MS COCO的其他99%作为未配对的图像和标题进行训练。我们复制了他们的设置，只使用1%的图像进行训练所示如表3所示，在不使用额外的未配对图像和帽的情况下，所提出的VisualGPT方法比Kim等人[30]的性能高20。6CIDER评分。我们还将VisualGPT与无监督的方法进行了比较-Gu等人 [22]和Feng等人 [20]的ods，使用了数千万未配对的图像和标题。尽管这些都不是公平的比较，但令人鼓舞的是，通过利用仅1133张训练图像的超级视觉，Vi- sualGPT超过了这些基线。5.4. 消融研究消除交叉注意力：为了公平地将我们的SRAU与基线中的其他交叉注意力机制进行比较，我们还使用12层GPT初始化其解码器，并保持与VisualGPT相同的编码器我们对比了普通的交叉注意，网状的交叉注意，和对1803799.5100.52M115不同SRAU阈值下的CIDEr性能方法0.1%数据0.5%数据1%数据105950.10% 0.50% 1% 5%103MTransformer 30.9% 22.8% 20.8%视觉GPT39.2% 39.1% 37.4%8582.5 81.580.9756967.970.365554535阈值（τ）表4.VisualGPT和基线模型在不同数量的训练数据下获得的投票百分比Q1.标题是否遗漏了图像中显示的内容？回答我们 M2Transformer Transformer AoA GTQ2.标题是否描述了图像中没有的东西？回答我们 M2Transformer Transformer AoA GT图5.CIDEr性能与0.1%的不同阈值τ0.5%、1%和5%的训练数据。注意（AoA）模块。对于AoA Transformer，我们在交叉关注之上添加表1显示了结果，表明SRAU在利用图像标题任务中的GPT知识方面优于其他交叉注意模块。SRAU上的消融：我们创建了一个称为正常化SRAU的消融，其中我们用正常化SRAU替换SRAU（见图4）并使用GPT2初始化。我们在表1中提供了结果。标准化的 SRAU 导致性能大幅降低， CIDER 从完整的VisualGPT降低了2。七，一。0和0。在MS COCO上的三个设置上分别为3，并且它也从Full VisualGPT减少了2。二一3和0。6、概念性标题。这表明自恢复特性有利于从小数据中学习。我们尝试了Leaky ReLU和GELU，它们改善了零梯度，但由于缺乏函数值的上限，训练崩溃了。我们探索了（0，0.1 0.2）之间的不同τ，并在图5中显示了它们在不同百分比的COCO训练数据上的CIDEr性能。τ=0等价于普通的互补S形门。我们可以观察到，在大多数情况下，τ= 0.2可以给我们最好的性能，这表明在我们的SRAU互补门中加入稀疏性的有用性。5.5. 人体研究除了自动评估指标，我们进行了两项人类研究，以进一步评估生成的字幕的质量。在第一项研究中，我们直接询问参与者对生成标题的偏好。我们从以下三种设置中随机选择了250张测试图像：电话号码：720 692 633 655 448是360 418 423 412 43无比率0.670.62 0.60 0.61 0.96表5.人类对物体幻觉和遗漏的评价。GT表示地面实况字幕。GT：这位女士坐在木头长凳我们一女人坐对一板凳在一公园关注0.70.780.820.760.80.960.8 0.690.85GT：这张桌子上有一台带键盘和鼠标的笔记本电脑我们一笔记本坐对一书桌与一鼠标关注0.70.780.810.70.70.920.85 0.640.76GT：一只猫坐在电视机前我们一猫是坐在前的一电视注意0.80.860.80.830.7 0.720.6 0.710.93GT：一群人坐在雪地上滑雪我们一几的人坐对一雪域表面关注0.80.870.710.850.910.76 0.710.940.95图6.生成的标题中的单词的视觉分数。我们显示原始的视觉分数，并根据归一化的视觉分数突出显示它们。高视觉分数用蓝色表示，低视觉分数用红色表示0的情况。1%、0. 5%和1%的训练数据。对于每个图像，我们从VisualGPT生成一个字幕，并从表1、Transformer [68]、2Transformer [13]和AoA Transformer[24]中生成三个高性能基线中的每一个，所有这些都具有三个解码器层。每个图像都由5个不同的Turker进行评估，他们选择最准确描述图像内容的标题。我们收到了3750（250张图片苹果酒Transformer百分之十八点四百分之十七点二百分之十六点八44.342.745.1719号624633621 973是的367438456447 73无比率0.660.590.580.58零点九三00.10.218038××最大可视板凳木制坐时钟厕所最小视觉到的对的一图7.语言注意（Blan）和视觉注意（Bvis）在每个解码层的分布。我们还显示了最高和最低视觉注意力产生的单词。5土耳其人3设置）有效的响应。我们在表4中总结了结果。总的来说，上限-VisualGPT生成的投票获得了最大的投票份额，39。2%为0。1%的训练数据分裂，39. 1%为0。5%，37。4%，1%的分割。对于每个训练设置，我们进行了Pearson<卡方检验[ 55 ]，其显示差异具有统计学显著性，p <0。05在任何情况下在第二项研究中，我们评估使用预训练的语言模型是否会引入过多的语言先验，从而导致已知的对象幻觉问题[62]。使用1%COCO数据训练的模型。我们随机抽取了250张图片，并从每个模型中生成标题对于每张图片，我们询问5个不同的参与者，标题（1）是否描述了不存在的物体，(2)图像中存在的遗漏对象。为了捕捉随机点击者，我们创建了5张带有验证标题的图像，以便我们知道这些问题的正确答案。回答错误的参与者被认为是不可靠的，并从结果中删除。结果在表5中。与基线相比，VisualGPT具有更少的幻觉和更高的对象覆盖率。研究还发现，地面实况字幕的幻觉最少，对图像中物体的覆盖率最高。这一发现为实验方案的有效性提供了积极的支持。5.6. 分析在本节中，我们将直观地检查在1% MS COCO上训练的VisualGPT模型的示例。首先，我们在图6中显示了VisualGPT生成的示例字幕以及最后一个解码器层的关联Bvis。请注意，对于生成的每个单词，我们都有一个768维的视觉门向量，它是不同解码时间步长的Bvis切片。我们取门向量的均值作为该单词的视觉得分在那之后，我们将将整个数据集的视觉分数调整到[0，1]区间，并相应地突出显示单词。蓝色表示高视觉分数，红色表示低视觉分数。我们观察到，与我们的直觉相一致，VisualGPT将高视觉分数分配给像“桌子”和“雪地表面”这样的词，在图7中，我们将每个解码器层的Bvis和Blan的分布绘制为盒须图。我们还显示了视觉分数最高和最低的单词，这再次符合我们的预期。此外，我们观察到，从层0到层9，解码器越来越多地使用视觉信息，但最上层10和11更均衡地使用信息。我们假设，低层专注于低层次的语言学，如句法，而中间层学习融合语言信息与视觉信息。最后，两个信息源在最上层变得平衡。5.7. 限制我们的建议的一个局限性是，正如补充材料中的实验所示，随着域内训练数据的增加，基线模型和VisualGPT之间的差距这种现象在COCO中比概念标题中更为突出，概念标题具有更多样化的词汇。我们假设，当训练数据很小并且没有提供足够的词汇覆盖率6. 结论我们提出了VisualGPT，一个数据高效的图像字幕模型，它利用了来自预训练语言模型的语言知识。为了弥合不同模态之间的语义鸿沟，我们设计了一种新的具有不饱和整流门函数的编码器-解码器注意机制。我们在0上评估模型。1%、0. 5%和1. 0%的MS COCO和Conceptual Captions，以及IU X射线，一个小型医学成像报告数据集。VisualGPT在IU X射线上实现了最先进的结果，并优于强基线模型。VisualGPT可以解决在低资源语言或高度专业化的领域中训练字幕模型时的实际需求，在这些领域中，找到一个标记器来收集大量数据可能是一个挑战。致谢。这项工作由KAUST BAS/1/1685-01-0，KAUST-FCC/1/2533-17-01和Na-国家研究基金会奖学金（ NRF-NRFF 13 - 2021-0006），新加坡。18039引用[1] Harsh Agrawal 、 Karan Desai 、 Yufei Wang 、 XinleiChen、Rishabh Jain、Mark Johnson、Dhruv Batra、DeviParikh、Ste- fan Lee和Peter Anderson。nocaps：小说对象字幕-ing在规模。在ICCV，2019年。一、二[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。2[3] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。 arXiv 1607.06450，2016年。3[4] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集，2005年。4[5] 本吉奥、杜夏姆、文森特、若文。神经概率语言模型。Journal of Machine Learning Research，3（Feb），2003.2[6] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， et al. Language models are few-shot learners.arXiv预印本arXiv：2005.14165，2020。一、二[7] Pawel Budzianowski和Ivan Vulic。你好，我是谷丙转氨酶-2-有什么可以帮你的？在面向任务的对话系统中使用预先训练的语言模型。在Alexandra Birch，Andrew M.Finch ， Hiroaki Hayashi ， Ioannis Konstas ， ThangLuong ， Graham Neubig ， Yusuke Oda ， and KatsuhitoSudoh，editors，EMNLP-IJCNLP.计算语言学协会1[8] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。2[9] 陈世哲、秦晋、彭王、齐武。如您所愿：使用抽象场景图对图像标题生成进行细粒度控制。在CVPR，2020年。2[10] 陈志宏，宋岩，张宗辉，向晚。通过内存驱动的变压器生成放射学报告在EMNLP，2020。6[11] Cesc Chunseong Park，Byeongchang Kim，and GunheeKim.Attend to you：使用上下文序列记忆网络

下载后可阅读完整内容，剩余1页未读，立即下载