基于语言旋转的图像字幕生成

4 浏览量更新于2023-10-13 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于语言旋转的不成对图像字幕顾久祥1、沙菲克·乔蒂2、蔡建飞2、王刚31新加坡南洋理工大学ROSE实验室2新加坡南洋理工大学SCSE3中国杭州阿里巴巴人工智能实验室{jgu004，srjoty，asjfcai}@ ntu.edu.sg，gangwang6@gmail.com抽象。图像字幕是涉及计算机视觉和自然语言处理的多模态任务，其中目标是学习从图像到其自然语言描述的通常，映射函数是从图像-字幕对的训练集学习的。然而，对于某些语言，大规模的图像-字幕配对语料库可能是不可用的。我们提出了一种方法，这种不成对的图像字幕问题的语言旋转。我们的方法可以有效地捕获的特点，图像字幕从枢纽语言（中文），并将其对齐到目标语言（英语）使用另一个枢纽目标（汉英）句子平行语料库。我们在两个图像到英语的基准数据集上评估我们的方法：MSCOCO和Flickr30K。对几个基线方法的定量比较证明了我们的方法的有效性。关键词：图像字幕·非配对学习1介绍近几年来，图像字幕自动生成技术取得了前所未有的进展。这一进展可以归因于（i）新型深度学习框架的发明，该框架学习以端到端的方式生成图像的自然语言描述，以及（ii）与MSCOCO [30]等标题配对的大型注释图像语料库的可用性来训练这些模型。主要方法基于编码器-解码器框架，其使用深度卷积神经网络（CNN）将图像编码为特征向量，然后使用递归神经网络（RNN）从编码向量生成字幕[29，27，44]。最近，使用注意力机制和强化学习的方法已经主导了MSCOCO字幕排行榜[1，39，18]。尽管深度学习框架取得了令人印象深刻的结果，但一个性能瓶颈是大型配对数据集的可用性，因为neu-常规图像字幕模型通常需要大量的注释，需要大量的注释图像-字幕对来实现有效的结果[19]。然而，在许多应用程序和语言中，这种大规模的注释并不2Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWang容易获得，并且昂贵且获取缓慢。在这些场景中，非常需要可以从未配对数据生成字幕的无监督方法或可以利用来自其他领域或语言的配对注释的半监督方法[5]。在本文中，我们追求后来的研究途径，我们假设我们可以访问一种语言（中文）中的图像-字幕配对实例，我们的目标是将这些知识转移到目标语言（英语），我们没有这样的图像-字幕配对数据集。我们还假设我们可以访问一个单独的源-目标（汉英）平行语料库，以帮助我们的转换。换句话说，我们希望使用源语言（中文）作为枢纽语言，以弥合输入图像和目标语言（英语）字幕之间的差距先前已经在机器翻译（MT）中研究了使用枢纽语言作为中间语言的概念，以在资源丰富的语言和资源稀缺的语言之间进行翻译[46，42，25，6]。该策略中的翻译源到主元MT系统首先将源句子翻译成主元语言，然后使用主元到目标MT系统将主元语言翻译成目标语言。虽然相关，但借助枢纽语言的图像字幕与MT有着根本的不同，因为它涉及到将两个不同的任务放在一起此外，当涉及到图像字幕时，MT的基于枢轴的流水线方法遭受首先，传统的基于枢轴的MT方法假设源到枢轴和枢轴到目标翻译的数据集然而，在图像字幕方面，主语言（汉语）中的字幕和（汉英）平行语料库中的句子在风格和词汇分布上有很大的不同。例如，MSCOCO字幕数据集主要由具有对象实例（名词）的大型场景的图像组成，而语言并行语料库更通用。第二，在流水线方法中，在源到枢轴转换中产生的错误被传播到枢轴到目标转换模块。在本文中，我们提出了一种方法，可以有效地捕捉字符的图像字幕从源语言和对齐它的目标语言使用另一个源-目标平行语料库。更具体地，我们的基于枢轴的图像字幕框架包括图像字幕器图像到枢轴，学习以枢轴语言描述图像的编码器-解码器模型，以及枢轴到目标翻译模型，将枢轴语言的句子翻译为目标语言的另一编码器-解码器模型，并且这两个模型在两个单独的数据集上训练。我们通过将语言翻译模型适应字幕任务来处理两个数据集中的写作风格和单词分布的变化。这是通过调整枢轴到目标转换模型的编码器和解码器来实现的。特别是，我们正则化编码器（主元语言）和解码器（目标语言）模型的单词嵌入，使它们类似于图像标题。我们还引入了一个联合训练算法来连接这两个模型，并使它们能够在训练过程中相互交互我们使用AIC-ICC [47]基于语言旋转的不成对图像字幕3和AIC-MT [47]作为训练数据集，两个数据集（MSCOCO和Flickr 30 K[37]）作为验证数据集。结果表明，我们的方法在验证数据集上比基线方法产生了实质性的收益。2背景图像标题生成。图像字幕生成是自动生成图像自然语言描述的一个基本问题。受深度神经网络[20，13]的最新进展和大规模数据集[30，37，47]的发布的推动，许多研究[45，15，48，22，24，52，18，17，50]已经使用神经网络来生成图像描述。受神经机器翻译（NMT）的编码器-解码器框架的成功启发[9，1]，许多研究人员已经提出使用这样的框架用于图像字幕生成[44，18]。这方面的一个代表性工作是Vinyals等人 [44]提出的方法。他们用CNN对图像进行编码，并使用长短期记忆（LSTM）网络作为解码器，解码器经过训练以最大化目标字幕的对数似然估计。在此之后，已经提出了许多方法来改进这种编码器-解码器框架。最常用的方法之一是注意力机制[49，18]。Xu等人[49]使用注意力机制将图像卷积特征的空间注意力纳入解码器。另一个改进是利用高级视觉属性来增强句子解码器[52，51，31]。最近，Gu等人[19]提出了一种基于CNN的图像字幕模型，该模型可以探索用于字幕生成的单词序列中的长期和时间信息。暴露偏差和损失评估不匹配一直是主要问题在序列预测任务中[38]。当模型被训练来预测一个给定先前地面事实单词的单词，但在推理过程中使用自己生成的单词时，就会发生暴露偏差。[2]中提出的调度采样方法可以通过根据训练中的调度概率在地面实况词和机器生成词之间进行选择来减轻暴露偏差。ing.最近，损失评估不匹配问题得到了很好的解决在序列预测任务[38，39，32，18]。Rennie等人 [39]通过自我批判学习解决了暴露偏差和损失评估问题，该学习利用推理模式作为训练中的基线。Gu等人 [18]提出了一种从粗到细的学习方法，该方法同时解决了多阶段训练问题以及曝光偏差问题。与我们的方法最密切相关的是[22]。然而，他们基于MSCOCO图像语料库构建了多语言并行数据集，而在我们的论文中，我们没有这样的多语言语料库。神经机器翻译神经机器翻译是一种直接对将源语言的句子翻译成目标语言的句子对这种分解建模的自然选择是使用基于RNN的模型[26，40，1，34，23]。近年来，研究者试图通过引入注意来提高翻译效果4Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWangni=0nx=0机制[26，41，35，10]。Kalchbrenner等人 [26]提出的基于注意力的翻译模型是训练端到端NMT模型的早期尝试。Luong等人 [33]将基本编码器-解码器框架扩展到多个编码器和解码器。然而，大规模的平行语料库通常并不容易以获得一些语言对。这是不幸的，因为NMT通常需要大量的数据来训练。因此，在资源稀缺的语言对上改进NMT吸引了很多关注[55，16]。近年来，在NMT的枢纽策略领域已经做了许多工作[11，46，42，3，53，14，25]。基于数据透视的方法引入了第三种语言，称为数据透视语言，其存在源数据透视和数据透视目标并行语料库。基于枢轴的方法的翻译可分为两个步骤：源语言的句子首先被翻译成然后将其翻译成目标语言的句子。然而，这种基于时间的方法有一个主要问题，即所犯的错误在源到枢纽模型中的数据将被转发到枢纽到目标模型。最近，Cheng等人 [7]引入了一种自动编码器来重建单语语料库。他们在[8]中进一步改进了它，其中他们提出了一种基于枢轴的NMT的联合训练方法。3不成对图像字幕令Di，x={（i，x）（ni）}Ni−1表示具有N i个图像-字幕对的数据集，并且Dx，y={（x，y）（nx ）}Nx−1dentethethNx个句子对。为了简化符号，我们使用i来表示图像实例以及图像模态。类似地，我们使用x来表示源句子以及源/主语言（中文），并且使用y来表示目标句子和目标语言（英语）。我们的最终目标是学习一个映射函数来描述带有标题y的图像i。从形式上讲，yarg maxy.ΣP（y|i; θi→y）（一）其中θ i→y是在αi（ni）~y（ni，y）处不存在任何配对d的情况下要学习的模型参数。我们使用pivotlanguagex来学习映射：i−θ−i→−→xθx→yx−→y。注意，在我们的算法中，图像到枢轴（Di，x）和枢轴到目标（Dx，y）是相同的。设置是两个不同的数据集，可能没有共同的元素。图1说明了我们的基于图像字幕的方法。我们有一个图像字幕模型P（x|i; θ i→x），以从图像和NMT模型P（y）生成主元语言的字幕|x; θ x→y）将此标题翻译成目标语言。此外，我们有一个目标语言的自动编码器P（y|y;θy→y）它决定了大规模的语言学习，以便生成类似于捕获的句子。我们联合训练这些组件，以便它们相互交互。在推断期间，给定要描述的不可见图像i，我们使用联合解码器：yarg maxy.ΣP（y|i; θ i→x，θx→y）（二）基于语言旋转的不成对图像字幕5i→xVX图1.一、基于透视的不成对图像字幕设置的图示这里，i、x、y和y分别不包含目标语言中的源代码、源代码、源代码和真实字幕。我们使用虚线来表示不存在可用于该对的平行语料库。带有箭头的实线表示解码方向。语言内部的虚线（圆圈）表示字幕和翻译数据之间的风格和分布差异。在下文中，我们首先给出使用成对（并行）数据的用于图像加帽和机器翻译的神经方法的概述然后，我们提出了我们的方法，扩展这些标准模型的不成对的图像字幕与枢轴语言。3.1用于图像字幕和机器翻译的编解码器模型标准图像字幕。对于配对设置中的图像字幕，目标是在x ~i处存储与地面实况字幕x类似的在x ~i处的图像字幕。我们使用P x（x|i; θ i→x）来表示标准编码器解码器，作为具有hθ i → x的模型的解码器，其中h θi→x是该参数。我们首先使用基于CNN的图像编码器将给定图像编码为图像特征V：V = CNN（i）。然后，我们从全局图像特征v预测图像描述x。训练目标是最大化给定图像的地面实况字幕单词的概率θ~i→x=argmaxθi→x.ΣLi→x（三）= arg max. NΣi−1M（Σni）−1l 〇 gPx（x（ni）|x（ni）Σ，i（ni）;θi→x）（四）θi→xni=0t=0t0：t−1其中，Ni是图像-字幕对的数量，M（ni）是字幕的长度x（ni），xtdee在该电容器中不是一个w，并且Px（x（ni）|x（ni），i（n，i））对应t0：t−1激活Softmax层。解码的单词来自：其中VxxtargmaxP（xt|x0：t−1;i）（5）i→x是图像字幕数据集Di，x中的单词的词汇表。6Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWangVyx→y神经机器翻译给定一对源句子和目标句子（x，y），NMT模型|x; θx→y）计算条件概率：NY−1P y（y|x）=t=0P（yt|y0：t−1; x0：M −1）（6）其中M和N分别是源句子和目标句子的长度模型的最大似然训练目标可以表示为：θ~x→y=argmaxθx→y.ΣLx→y（七）= arg max ，NΣx−1N（Σnx）−1logPy（y（nx）|y（nx）; x（nx）;θx→y）（八）θx→ynx=0t=0t0：t−1在推理过程中，我们计算给定源句子编码和到目前为止解码的目标序列的下一个符号的概率，并根据最大概率从字典中提取单词：ytargaxP（yt|y0：t−1;x0：M−1）（9）x→y其中Vy是翻译数据集中目标语言的词汇表Dx，y。通过语言旋转的不成对图像字幕。在不成对的设置，丁，我们的目标是生成一个描述y的目标语言的图像i，没有任何对信息。我们假设，存在被称为“pivot”的第二种语言，其具有（特定的）信息-pivot和pivot-大的配对数据集基于枢纽的设置中的图像到目标模型可以通过将枢纽句子视为潜在变量而被分解成两个子模型ΣP（y|i; θ i→x，θx→y）=P x（x|i; θ i→x）P y（y|x; θ x→y）（10）X其中P x（x|i; θ i→x）和P y（y|x; θ x→y）分别是图像字幕和NMT模型。由于枢轴语言中的指数搜索空间，我们用两个步骤近似字幕过程。第一步骤将图像翻译为平面语言序列x~。因此，Pivo tlangu ag 为了将其简化为模型，一种简单的方法是如下组合等式⑷和⑶中的两个损失函数：在推断期间，解码判决由下式给出：x~=argmaxX.ΣPx（x|i;θ~i→x）.˜Σ（十二）y~=argmaxyPy（y|x~;θx→y）（十三）Σ基于语言旋转的不成对图像字幕7当x~是从图形语言中定义的图像压缩时，y~是x~的转换，并且θ~i→x和θ~x→y是已定义的模块化参数。然而，这种以目标语言生成图像字幕的流水线方法受到两个关键限制。首先，图像字幕和机器翻译是两个不同的任务。图像到枢轴和枢轴到目标模型在词汇和参数空间方面有很大的不同，因为它们是在两个可能不相关的数据集上训练的。图像字幕包含给定场景中的对象的描述，而机器翻译数据更通用，在我们的情况下包含新闻事件描述、电影字幕和会话文本。它们是两个不同的领域，在写作风格和词汇分布上存在差异。因此，由流水线方法生成的字幕可能不类似于人类创作的字幕。图1区分了主语句和目标语句的两个域：标题域和翻译域（参见第二和第三圆圈）。第二个限制是由图像到枢纽字幕模型产生的误差被传播到枢纽到目标平移模型。为了克服基于枢轴的字幕生成的局限性，我们提议减少图像到枢轴和枢轴到目标模型之间的差异，并联合训练它们，以便它们在训练期间通过相互作用来学习更好的模型图2说明了我们的方法。这两个模型有一些共同的方面，我们可以利用它们来连接它们，如下所述。图二.用pivot语言演示我们的图像字幕模型。图像字幕模型首先将图像转换为潜在的主语句，我们的机器翻译模型从中生成目标字幕。连接图像到透视和透视到目标。连接这两个模型的一种方法是通过为图像到枢轴的解码器和图像到目标的编码器定义公共嵌入矩阵来共享相应的嵌入矩阵。然而，由于字幕和翻译域不同，它们的词嵌入也应该不同。因此，不是具有公共嵌入矩阵，而是添加正则化器Ri-y，其试图使NMT模型的输入嵌入接近NMT模型的输出嵌入。8Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWangi→xi→xi→xx→yx→yi→xny=0x→y→y→yi→xx→y图像字幕模型通过最小化它们的L2距离。从形式上讲，ΣRi→y（θwxwxx→y ）=−wx∈Vxxx→ywxi→xwxx→y ||2(14)其中wx是主元语言中由两个嵌入共享的单词矩阵，以及θ wx∈Rd表示源中wx到枢轴模型，以及θwx∈Rd表示wx在枢轴到目标模型。注意，这里我们调整θwx朝向θwx，也就是说wxi→x 已经是学习模型并且在适应期间保持固定。调整NMT模型的编码器嵌入并不保证该模型的解码器将产生类似标题的句子。为此，我们还需要使NMT模型的解码器嵌入适应字幕数据我们首先使用目标-目标平行语料库D你好，你好={（y（ny），y（ny））}Ny−1totrainanautoenc oderP（y|y;θy→y，其中θy→y是自动编码器自动编码器的最大似然训练目标可以表示为：θ~y→y=argmaxθyˆ→yˆ.ΣLy→y（十五）当Ly→y时，即为c r os s-e ntrop y（XE）los。所有的编码器都是翻译模型P（y）的解码器|x; θ x→y）来学习相似的单词表示。这再次通过最小化两个向量之间的l2距离来实现Rx→y（θwy ，θwy）=−Σ||θ wy-θwy||2(16)x→yy→ywy∈Vy∩Vyyyx→yy→y其中Vy是y在D中的词汇y，y，wy是目标中的一个词由两个嵌入矩阵共享的语言通过优化Equa-在步骤（16）中，我们尝试使学习的字幕与目标字幕共享类似的风格。联合训练。在训练中，我们的目标是找到一组源到目标模型参数，以最大化训练目标：Ji→x，x→y，y→y=Li→x+Lx→y+Ly→y+λRi→x，x→y，y→y（十七）Ri→x，x→y，y→y=Ri→y（θwxwxx→y ）+Rx→y<$（θwywyy→y ）（十八）其中λ是用于平衡损失项和连接项之间的偏好的超参数。由于标题符Px（x|i; θ i→x）和平移器 Py（y|x; θ x→y）具有大的词汇量（参见表1），难以用初始随机策略训练联合模型。因此，在实践中，我们首先预训练字幕器、翻译器和自动编码器，然后用等式（17）联合优化它们。4实验数据集。在我们的实验中，我们选择了来自AI Challenger（AIC）[47]的两个独立数据集：AIC Image Chinese Captioning（AIC-ICC）和，θ1995年||θ-θθ，θ，θ基于语言旋转的不成对图像字幕9AIC汉英机器翻译（AIC-MT）作为训练数据集，MSCOCO和Flickr 30K英文字幕数据集作为测试数据集。表1显示了我们实验中使用的数据集的统计数据Table1. 在我们的体验环境中使用的数据集的统计信息，其中“im”d e ntet eim ge，“z h”d ent e t e s c h i n e s e，“e n”d e n t e t e s E n g i s h。数据集浪源目标#图像/已发送。词汇大小#已发送。词汇大小培训AIC-ICCAIC-MTim →zhzh →en240K一万−50,004120万一万4,46150,004测试MSCOCOFlickr30Kim →enim →en123K30K−−615千150K9,4877,000训练数据集。对于图像到中文字幕的训练，我们遵循AIC-ICC [47]中的设置，并采用210，000张图像进行训练，30，000张图像进行模型验证。每个图像包含五个参考中文字幕，并且每个字幕包含人通常出现的大多数常见日常场景。我们使用“Jie b a”4，一个C h i n e s e t e xs e gem t at i on m o l e，我们截断了所有长于16个标记的标题，并通过删除频率小于5的单词来修剪词汇表，从而得到4，461个单词的词汇表大小。我们以汉语为中心语言，在AIC-MT上学习了一个汉英翻译模型AIC-MT由10, 000 K汉英平行句子组成我们保留4K句子对用于验证，4K句子对用于测试。在预处理过程中，我们删除空行，保留不超过50个单词的句子对。我们修剪词汇表，最终得到50，004个单词的词汇表，包括特殊的句首（BOS）和句末（EOS）标记。为了引导目标解码器生成类似字幕的句子，还使用从MSCOCO提取的目标图像描述来训练自动编码器在我们的训练中，我们从MSCOCO训练分割中提取了验证数据集。我们验证了我们的方法的有效性MSCOCO和Flickr30K数据集。MSCOCO中的图像通常包含具有重要上下文信息的多个对象。同样，MSCOCO中的每幅图像也有五个参考描述，这些描述中的大多数都描绘了人类参与各种活动。我们使用与[27]中相同的测试拆分对于MSCOCO，我们使用5，000张图片进行验证，5，000张图片进行测试，对于Flickr 30K，我们使用1，000张图片进行测试。4https://github.com/fxsjy/jieba10Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWang4.1实现细节架构如可见于图2，我们有三个模型用于我们的图像字幕。第一个模型i2t im→zh学习从给定的图像i生成中文字幕x。这是一个标准的CNN-RNN架构[44]，其中从前一个时间步输出的字被用作当前时间步的输入。对于每个图像，我们使用ResNet-101 [21]对其进行编码，然后应用平均池化以获得维度为2，048的向量。在那之后，我们通过线性投影映射图像特征并且得到维度向量512。解码器基于LSTM网络实现对于本文讨论的所有模型，LSTM隐藏状态和单词嵌入的维度都固定为512每个句子以一个特殊的BOS令牌开始，并以EOS令牌结束。第二个模型nmtzh→en学习将中文句子x翻译为英文句子y它有三个组成部分：句子编码器、句子解码器和注意模块。pivot语言中的单词首先被映射到单词向量，然后被馈送到双向LSTM网络中。解码器基于源句子的编码向量以及其先前输出来预测目标语言单词。编码器和解码器通过注意模块连接，该注意模块允许解码器在解码期间关注源句子的不同区域。第三个模型t2t en→en学习生成标题风格的英语句子。它本质上是在从MSC0C0提取的一组图像描述上实现的自动编码，其中编码器和解码器基于一层LSTM网络。编码器读取整个句子作为输入，解码器将重构输入句子。培训设置。除了图像CNN之外，所有模块都在训练前随机初始化，我们使用ImageNet上的预训练模型我们首先独立地训练图像中文字幕，中文到英文翻译器，和自动编码器的交叉熵损失AIC-ICC，AIC-MT，和MSCOCO语料库，分别。在此阶段，我们使用Adam [28]算法进行模型更新，小批量大小为100。初始学习率为4e-4，动量为0.9。根据验证分数选择最佳模型，然后将其用于后续的联合训练。具体地，我们将刚刚训练的模型与连接项组合，并使用等式（17）进行联合训练。我们将超参数λ设置为1.0，并使用Adam优化器训练联合模型，小批量大小为64，初始学习率为2e−4。在这个训练阶段中应用了权重衰减和丢弃，以防止过度拟合。测试设置。在测试过程中，首先通过从i2tim→zh绘制pivot语言中的单词直到到达EOS令牌来形成输出图像描述，然后用nmtzh→en翻译成目标语言。在这里，我们使用波束搜索的两个推理过程。波束搜索是用于基于RNN的模型的有效解码方法，其在每个时间步保持前k个假设，并且将它们视为候选以在下一时间步生成新的前k个我们设置k=5的固定波束搜索大小，用于12 t，im-zh基于语言旋转的不成对图像字幕11并且对于nmt zh-en，k = 10。我们使用标准评估指标评估生成的图像描述的质量：BLEU [36]、METEOR [12]和CIDER [43]。由于BLEU旨在评估两个句子的相似程度，因此我们还使用Self-BLEU [54]来评估生成句子的多样性，Self-BLEU [54]将一个句子作为假设，其他句子作为参考，然后计算每个生成句子的BLEU分数。最终的Self-BLEU分数被定义为句子的平均BLEU分数。4.2定量分析图像中文字幕的结果。表2显示了AIC-ICC验证集的比较结果，其中B@n是BLEU-n的缩写。我们将i2 tim→zh模型与基线[47]（命名为AIC-I2T）进行比较。AIC-I2 T和我们的图像字幕模型（i2 tim→zh）都是用交叉熵损失训练的。我们可以看到，我们的模型在所有指标上都优于基线。这可能是由于不同的实现细节，AIC-I2 T使用Inception-v3用于图像CNN，而我们使用ResNet-101。表2. AIC-ICC的性能比较。经由波束搜索获得i2 t，im-zh表3. AIC-MT测试数据集上的性能比较。注意，我们的nmtzh-en模型使用波束搜索。图像中文字幕汉英翻译汉英翻译结果。表3提供了我们的基于注意力的机器翻译器与在线Google翻译器或 AIC-MTtestplit之间的比较。我们使用“GoogleTranslator”5，这是一个提供Google Translator API的免费工具第二列中的复杂度值是每个预测单词的逆概率的几何平均值我们的基于注意力的NMT模型（nmtzh→en）在AIC-MT训练集上训练我们可以看到，我们的模型在准确性上比在线谷歌翻译略差。Google的翻译并不依赖于更大的数据集和更多的词汇覆盖，它是一个更复杂的系统，集成了不成对图像英文字幕的结果。表4显示了我们的方法在MSCOCO数据集上的不同变体之间的比较。我们的上界是通过一个图像字幕模型i2t im→en来实现的，该模型是用成对的英文字幕来训练的。 i2tim→en与i2t im→zh共享相同的架构，除了它们具有不同的词汇大小。下界通过流水线化i2 t im-zh和nmt zh-en来实现。在管道设置中，这两个模型5https://pypi.python.org/pypi/googletrans方法B@1 B@2 B@3 B@4 苹果酒i2tim→zh77.8 65.9 55.5 46.6 144.2AIC-I2T [47] 76.5 64.8 54.7 46.1 142.5方法精度困惑nmtzh→en55.08.9谷歌翻译57.8–12Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWangi→x，x→y分别接受AIC-ICC和AIC-MT培训。我们还报告了FC-2K [39]的实现结果，该实现采用了类似的架构。表4. MSCOCO 5K和Flickr30K 1K测试分割的未配对图像到英文字幕的结果，其中M是METEOR的缩写方法浪B@1 B@2 B@3 B@4M苹果酒MSCOCOi2tim→en（上限，XE损失）en73.2 56.3 42.0 31.2 25.395.1FC-2K [39]（ResNet101，XE Loss）en–––29.6 25.294.0i2tim→zh+nmtzh→en（Ri→x，x→y，y→y）en46.2 24.0 11.2 5.4 13.217.7i2tim-zh + nmtzh-en（Ri-x，x-y）en45.5 23.6 11.05.313.117.3i2 tim-zh + nmtzh-en（下限）en42.0 20.69.53.912.012.3i2tim→zh+在线谷歌翻译en42.2 21.8 10.75.3 14.517.0Flickr30Ki2tim→en（上限，XE损失）en63.1 43.8 30.2 20.7 17.740.1i2tim→zh+nmtzh→en（Ri→x，x→y，y→y）en49.7 27.8 14.8 7.9 13.616.2i2tim-zh + nmtzh-en（Ri-x，x-y）en48.7 26.1 12.86.413.014.9i2 tim-zh + nmtzh-en（下限）en45.9 25.2 13.16.912.513.9i2tim→zh+在线谷歌翻译en46.2 25.4 13.97.7 14.415.8对于不成对的图像到英文字幕，我们的方法与连接主元语言（Rwx）项）优于组合i2 tim-zh的方法在B@n和CIDER指标方面与在线谷歌翻译，而ob-从而在下限上获得显著的改进。这证明了连接项在枢纽语言上的有效性。此外，通过在目标语言上添加连接项，我们的模型具有两个连接项（Ri→x，x→y，y→y），进一步提高了性能。这表明目标域中的小语料库能够使解码器生成更像字幕的图像描述。连接项有助于桥接两个不同域的词表示。Google翻译器生成的字幕具有更高的METEOR。我们推测以下原因。首先，谷歌翻译生成的字幕比我们的长。由于METEOR不仅基于n-gram精度而且基于uni-gram召回来计算分数，因此其默认参数比其他度量更有利于更长的翻译[4]。其次，除了精确的词匹配，METEOR考虑匹配词干和同义词。由于谷歌翻译器是在比我们大得多的语料库上训练的表4还显示了Flickr30K上未配对图像英文字幕的结果，我们可以得出类似的结论。我们进一步评估使用Self-BLEU度量生成的图像描述的多样性。表5显示了详细的Self-BLEU评分。可以看出，我们的方法生成的图像描述具有最高的多样性，com-基于语言旋转的不成对图像字幕13与上界和下界比较为了更好地比较，我们还计算了根据地面实况字幕计算的Self-BLEU分数。表5. MSCOCO 5 K测试分割的Self-BLEU评分。注意，较低的Self-BLEU分数意味着图像描述的较高多样性。方法浪Self-B@2自我-B@3Self-B@4 Self-B@5i2tim→ zh（GT Captions）en85.067.849.134.4i2tim→en（上限）en99.097.594.690.7i2tim→zh+nmtzh→en（Ri→x，x→y，y→y）en95.691.786.580.2i2 tim-zh + nmtzh-en（下限）en98.195.992.387.6我们还对不同模型的生成字幕以及地面实况字幕进行了人工评估。共邀请了12名不同教育背景的评估者，并从用户研究的测试分割中随机选择了总共1.2K个样本。特别地，我们从相关性和相似性两个方面来衡量字幕质量。相关度量根据图像内容指示字幕是否正确。相似度量评估系统产生与人类创作的字幕相似的字幕的程度评价人员按5个等级对质量进行评价：1-非常差，2-差，3-勉强可以接受，4-好，5-非常好。每位评价员随机评估100张图像。表6中呈现的结果表明，我们的方法可以生成相关的和人类可理解的图像字幕作为配对（上限）方法。表6. MSCOCO 1.2K测试分割的用户评估评估结果。方法i2tim→zh+nmtzh→en（Ri→x，x→y，y→y）上界地面实况相关3.813.994.68像3.784.054.484.3定性结果我们在图中提供了一些字幕示例 3为了更好地理解我们的模型。我们用不同的颜色显示了三种模型为几幅图像生成的字幕以及地面实况（GT）字幕。从这些示例性结果中，我们可以看到，与配对模型i2 t im-en相比，由于附加的翻译数据，我们的配对模型i2 tim-zh-en（Ri-x，x-y，y-y（））具有更多不同的字幕。同时，我们的模型可以通过弥合14Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWang数据集和模型组件的联合训练。例如，对于第一幅图像中检测到的人，我们的模型生成了“一群穿着运动服的人”的句子，这比配对模型生成的“一群棒球运动员”的句子更加多样化。图3.第三章。在MSC 0 CO测试图像上生成的句子的示例，其中i2 tim-zh是在AIC-ICC上训练的图像字幕，i2 tim-en是在MSC0 CO上训练的图像字幕，i2tim-zh-en（Ri-x，x-y，y-y（））和i2tim-zh-en（Ri-x，x-y）是用于未配对图像字幕的替代模型，并且GT代表地面实况字幕。5结论在本文中，我们提出了一种方法，不成对的图像字幕的帮助下，枢轴语言。我们的方法在联合学习框架中将图像到枢轴字幕模型与枢轴到目标NMT模型耦合。耦合是通过调整NMT模型的编码器和解码器中的单词表示来产生类似标题的句子来完成的。实证评估表明，我们的方法始终优于MSCOCO和Flickr30K图像字幕数据集的基线方法。在我们未来的工作中，我们将“back-trans”的数据集扩展到用于英语字幕的中国英语翻译数据集，并通过在该伪数据集上进行训练来调整我们的致谢这项研究是在快速丰富对象搜索（ROSE）实验室进行的。在新加坡南洋理工大学。ROSE实验室由新加坡国家研究基金会和新加坡信息通信我们非常感谢NVIDIA AI技术中心（NVAITC）对我们在新加坡NTU ROSE实验室的研究的支持。基于语言旋转的不成对图像字幕15引用1. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。载于：ICLR（2015）2. Bengio，S.，Vinyals，O.，Jaitly，N.，Shazeer，N.：用于序列预处理的计划采样，其中两个工作具有重复性。In：NIPS.pp. 11713. Bertoldi，N. Barbaiani，M.，Federico，M.，卡托尼，R.：基于短语的统计机器学习，其中包括：In：IWSLT.pp. 1434. Cer，D.，曼宁哥伦比亚特区Jurafsky，D.：基于短语的语法分析系统的最佳词汇度量。In：NAACL.pp. 第5555. Chen T.H. Liao，Y.H.，Chuang，C.Y.，徐伟东，Fu，J.，孙，M.：展示、改编和讲述：开发人员将成为跨媒体内容的一个重要角色。 In：ICCV. pp. 5216. 陈玉，Liu，Y.，Li，V.O.：零资源神经机器翻译与多语言通用语言。In：AAAI. pp. 50867. 郑，Y.，徐伟，他，Z.，他W吴，H.，孙，M.，Liu，Y.：用于神经网络的半监督学习算法。 In：ACL. pp. 19658. 郑，Y.，Yang，Q.，Liu，Y.，孙，M.，徐伟：基于枢轴的神经网络管理系统的联合训练。In：IJCAI.pp. 39749. C ho，K.， VanMerrr riénboer，B.， Gulceh re，C.， Bahdanau，D. ，Bouga re s，F.， S chenk，H.，Bengio，Y.：使用rnn编码器-解码器学习短语表示以用于statisimahinetransla t i ntin. pp. 172410. Cohn，T.，Hoang，C.D.V.，Vymolova，E.，Yao，K.，戴尔角Haffari，G.：将结构对齐偏差纳入注意力神经翻译模型。In：ACL. pp. 87611. Cohn，T.，拉帕塔，M.：通过三角测量进行机器翻译：有效地利用多媒体资源. In：ACL. pp. 72812. Denkowski，M.，Lavie，A.：流星通用：特定语言的翻译评估，以帮助您进行翻译。 In：ACL. pp. 37613. 丁，H.，江X，帅湾Liu，A.Q.王G：上下文对比特征和针对特定数据段的多目标聚类。 In：CVPR. pp. 239314. El Kholy，A.Habash，N.，Leusch，G.，Matusov，E.，Sawaf，H.：与语言无关的短语枢轴统计机器翻译的连接强度特征In：ACL.pp. 41215. Fang，H.，去吧S 我和我的女儿， Srivastava，R. K.，登湖做吧，P乔，他，X.，Mitchell，M.Platt，J.C.，等：从标题到视觉概念再到后面。In：CVPR. pp. 147316. 菲拉特岛Sankaran，B.，Al-Onaizan，Y.，Vural，F.T.Y.，Cho，K.：零资源队列，使用多个队列管理。 In：EMNLP. pp. 26817. 顾，J.，蔡杰，Joty，S.，牛湖，加-地王G：看，想象和匹配：提高textual-vis ualcross-m dalretevalwit hge neram dels。In：CVP R.pp. 718118. 顾，J.，蔡杰，Wang，G.，陈T：堆栈标题：从粗到精的学习方法。In：AAAI.pp. 2018年6月30日19. 顾，J.，Wang，G.，蔡杰，陈T：语言cnn于意象撷取之实证研究。In：ICCV.pp. 122220. 顾，J.，王志，Kuen，J.，马，L.，Shahroudy，A.，帅湾Liu，T.，小王，X. ， Wang ， G. ，蔡杰，等：卷积神经网络的最新进展。PATTERNRECOGNITIONPP. 35416Jiuxiang Gu，Shafiq Joty，Jianfei Cai，GangWang21. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：CVPR. pp. 77022. Hitschler，J.，Schamoni，S.，Riezler，S.：用于图像标题转换的多模态

下载后可阅读完整内容，剩余1页未读，立即下载