无监督图像字幕模型训练：数据集和视觉检测器的应用

40 浏览量更新于2023-10-19 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4125（图像字幕（图像中国汉语英语（图片说明语料库（视觉概念检测器图像语料库无监督图像字幕杨峰林马伟刘杰波罗伟美国罗切斯特大学University of{yfeng23，jluo}@ cs.rochester.eduforest. gmail.comwl2223@columbia.edu摘要深度神经网络在图像字幕任务上取得了巨大成功。然而，大多数现有的模型严重依赖于成对的图像-句子数据集，这是非常昂贵的获取。在本文中，我们首次尝试以无监督的方式训练图像字幕模型。我们提出的模型不依赖于手动标记的图像-句子对，而仅仅需要一个图像集、一个句子语料库和一个现有的视觉概念检测器。句子语料库用于教导字幕模型如何生成合理的句子。同时，视觉概念检测器中的知识被提取到字幕模型中，以指导模型识别图像中的视觉概念。为了进一步鼓励所生成的字幕与图像语义一致，图像和字幕被投影到公共潜在空间中，使得它们可以彼此重构。鉴于现有的句子语料库主要是为语言学研究而设计的，因此很少参考图像内容，我们抓取了一个大规模的图像描述语料库，其中包含200万个自然句子，以促进无监督的图像字幕场景。实验结果表明，我们提出的模型是能够产生相当有前途的结果，没有任何标题注释。1. 介绍近年来，图像字幕的研究取得了令人瞩目的进展.大多数提出的方法学习深度神经网络模型以生成以输入图像为条件的帽子[7，10，13，20，21，40，41，42]。这些模型是基于手动标记的图像-句子对以监督学习方式训练的，如图1（a）所然而，这些成对的图像-句子数据的获取是劳动密集型过程。现有图像字幕数据集的比例，如Mi-这项工作是在杨峰还是Ten- cent AI Lab的研究实习生时完成†通讯作者。图1.现有字幕方法之间的概念差异：（a）监督字幕[40]，（b）新对象字幕[2，3]，（c）跨域字幕[8，43]，（d）枢轴字幕[15]，（e）半监督字幕[9]，以及（f）我们提出的无监督字幕。crosoft COCO [30]与ImageNet [34]和Open- Images [25]等图像识别数据集相比相对较小这些图像字幕数据集中的图像和句子种类被限制在100个对象类别以下因此，在这种成对的图像-句子数据上训练的字幕模型很难推广到野外的图像[37]。因此，如何减轻对字幕数据集的依赖，并利用其他可用的数据标注来更好地推广图像字幕模型，就显得越来越重要，值得深入研究。最近，已经有几次尝试放松对成对图像-句子数据的依赖，用于图像字幕训练。如图 1 （ b ）所示，Hendricks等人。[3]提出为新对象生成字幕，这些新对象不存在于配对的图像-字幕训练数据中，但存在于图像识别数据集中，例如。ImageNet.因此，可以将新的对象信息引入到生成器中。（图像字幕（视觉概念图像字幕4126在没有额外的成对图像-句子数据的情况下，工作线程[8，43]提出将现有配对图像-句子数据集中学习的知识转移和推广到一个新的领域，其中只有未配对的数据可用，如图1（c）所示。以这种方式，不需要成对的图像-句子数据来训练目标域中的新图像字幕模型。最近，如图1（d）所示，Gu等人。 [15]提出用枢轴语言（中文）生成字幕，然后将枢轴语言字幕翻译成目标语言（英文），这不再需要图像和目标语言字幕的配对数据。Chen等人。 [9]提出了一种用于图像字幕的半监督框架，该框架使用外部文本语料库（如图1（d）所示）来预训练其图像字幕模型。虽然这些方法已经取得了改善的结果，一定量的成对的图像-句子数据是必不可少的训练图像字幕模型。据我们所知，还没有研究过无监督的图像字幕，即。在不使用任何标记的图像-句子对的情况下训练图像字幕模型。图1（f）显示了这种新的场景，其中在无监督训练设置中只使用一个图像集和一个外部句子语料库，如果成功，可以大大减少创建配对图像-句子数据集所需的标记工作。然而，如何利用独立的图像集和句子语料库来训练一个可靠的图像字幕模型是一个非常有挑战性的问题。最近，已经提出了几种仅依赖于单语语料库的模型用于无监督神经机器翻译[4，26]。这些方法的核心思想是通过一个具有跨语言嵌入的共享编码器将源语言和目标语言映射到一个公共空间。与无监督机器翻译相比，无监督图像字幕翻译更具挑战性。意象和句子存在于两种不同的模态中，具有明显不同的特征.卷积神经网络（CNN）[28]通常用作图像编码器，而递归神经网络（RNN）[18]自然适合编码句子。由于它们的结构和特性不同，图像和句子的编码器不能像无监督机器翻译那样共享。在本文中，我们首次尝试在没有任何标记的图像-句子对的情况下训练图像字幕模型。具体而言，提出了三个关键目标。首先，我们使用对抗性文本生成方法[12]在句子语料库上训练语言模型，该方法生成以给定图像特征为如图1（f）所示，在无监督设置中，我们没有训练图像的地面实况。因此，我们采用对抗训练[14]来生成句子，使它们与句子无法区分语料库中的时态其次，为了确保生成的字幕包含图像中的视觉概念具体地，当与图像中检测到的视觉概念相对应的单词出现在生成的句子中时，将给予奖励。第三，为了使生成的字幕与图像语义一致，将图像和句子投影到一个公共的潜空间中。给定投影图像特征，我们可以解码字幕，其可以进一步用于重建图像特征。类似地，我们可以将来自语料库的句子编码为潜在空间特征，然后重建句子。通过执行双向重建，生成的此外，我们开发了一个图像字幕模型初始化管道，以克服从头开始训练的困难。我们首先将句子中的概念词作为输入，仅使用句子语料库训练概念到句子的模型。接下来，我们使用视觉概念检测器来识别图像中存在的视觉概念。将这两个组件集成在一起，我们能够为每个训练图像生成伪标题。伪图像-句子对用于以标准监督方式训练字幕生成模型，该模型然后用作图像字幕生成模型的初始化总之，我们的贡献有四个方面：• 我们第一次尝试进行无监督的图像字幕，而不依赖于任何标记的图像-句子对。• 我们提出了三个目标来训练图像字幕模型。• 我们提出了一种新的模型初始化管道开发未标记的数据。通过利用视觉概念检测器，我们为每个使用所述伪图像-句子对来对所述图像进行成像并初始化所述图像字幕模型• 我们从网络上抓取了一个由超过200万个句子组成的大规模图像描述语料库用于无监督图像字幕任务。我们的实验结果表明，我们提出的模型在产生相当有前途的图像字幕的有效性2. 相关工作2.1. 图像字幕有监督的图像字幕在过去几年中得到了广泛的研究。大多数提出的模型使用一个CNN来编码图像，使用一个RNN来生成4127...梯度下降采样话一女孩采样话一女孩p2p3p4策略梯度...采样话一梯度下降句子重构p1图像重建概念对抗性R/FR/FR/FR/F图像重建对抗性LSTMR/F图2.我们的无监督图像字幕模型的架构，包括一个图像编码器，一个句子生成器，和一个脚本。CNN将给定的图像编码为特征表示，基于此生成器输出一个句子来描述图像。该模型用于区分字幕是由模型生成的还是来自句子语料库。此外，生成器和编译器以不同的顺序耦合，以执行图像和句子重建。通过策略梯度，联合引入对抗奖励、概念奖励和图像重建奖励来训练生成器同时，生成器也更新梯度下降，以尽量减少句子重建损失。对于自适应神经网络，其参数通过梯度下降的对抗损失和图像重建损失来更新。描述图像的句子[40]。这些模型被训练以最大化生成以输入图像为条件的地面实况字幕由于成对的图像-句子数据的收集是昂贵的，一些研究人员试图利用其他可用的数据来提高图像字幕模型的性能。Anderson等人 [2]训练了一个具有部分超视的图像标题模型。不完全训练序列用有限状态自动机表示，可以用来对样本进行组合，语言可以很好地对齐，并且因此可以执行下面的翻译。然而，无监督的图像字幕任务更具挑战性，因为图像和句子存在于两种具有显著不同特征的模态中3. 无监督图像字幕无监督图像字幕依赖于一组图像I={I1，. . . ，我}，一个句子集合S={S，. . . ，S }的情况下，完整的句子进行训练。Chen等人 [8]开发了一种Ni1Ns对抗训练过程，以利用目标域中的未配对数据。虽然已经获得了改进的结果，但新的对象字幕或域自适应方法仍然需要成对的图像-句子数据进行训练。Guet al.[15]建议首先用枢轴语言生成标题，然后将枢轴语言标题翻译为目标语言。虽然没有使用图像和目标语言字幕对，但他们的方法依赖于图像-主元对和目标-目标平行翻译语料库。与上述方法相比，我们提出的方法不需要任何成对的图像-句子数据。2.2.无监督机器翻译无监督图像字幕在精神上类似于无监督机器翻译，如果我们把图像作为源语言。在无监督机器翻译方法[4，26，27]中，源语言和目标语言被映射到一个公共的潜在空间中，使得不同语言中相同语义的句子和现有的视觉概念检测器，其中，分别是图像和句子的总数请注意，这些句子是从外部语料库中获得的为了简单起见，我们将省略下标并使用I和S表示分别是图像和句子。在下文中，我们首先描述我们的图像字幕模型的架构。然后，我们将介绍如何根据给定的数据进行训练。3.1. 模型如图2所示，我们提出的图像字幕模型由图像编码器、句子生成器和句子生成器组成。编码器。一个图像CNN将输入图像编码为一个特征表示f im：f im= CNN（I）.（一）共同图像编码器，等作为Inception-ResNet-...LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM...CNN4128不不−1不t−1不不v2 [36]和ResNet-50 [16]，可以在这里使用在本文中，我们简单地选择Inception-V4 [36]作为编码器。生成器. 作为生成器的长短期记忆（LSTM）将获得的图像表示解码为自然句子来描述图像内容。在每个时间步，LSTM输出以图像特征和先前生成的单词为条件的词汇表中所有单词的概率根据所获得的概率分布从词汇表中对所生成的单词进行采样：x−1=FC（fim），x t= W e s t，t ∈ {0. . . n-1}，3.2.1对抗性字幕生成由图像字幕模型生成的句子需要对人类读者来说是合理的。这样的目标通常通过在句子语料库上训练语言模型来确保。然而，如前所述，监督学习方法不能用于在我们的环境中训练语言模型。受最近成功的对抗文本生成方法[12]的启发，我们采用对抗训练[14]来确保合理的句子生成。生成器将图像特征作为输入，并且生成以图像特征为条件的一个句子。判别器区分句子是由模型生成一般-[p，h g]= LSTM g（x，h g），t∈ {−1. . .n-1}，（二）人工智能试图通过生成句子t+1t+1ttt ∈ {1. . . n}，其中，FC和FC分别表示全连接层和采样操作。n是生成的句子的长度，We表示单词嵌入ma，特里克斯xt、st、hg和pt分别是LSTM输入、生成的单词的独热向量表示、LSTM隐藏状态以及第t个时间步长时字典上的概率 s0和sn表示句首尽可能真实。为了实现这一目标，我们将...在每个时间步产生一个奖励，并将此奖励命名为对抗性奖励。第t个生成的单词的奖励值radv= log（qt）。（四）通过最大化对抗性奖励，生成器逐渐学习生成合理的句子。对于判别者，相应的对抗性损失定义为：(SOS)和句子结束（EOS）令牌。hg初始化为零。对于无监督图像字幕，图像不伴随描述其内容的句子。因此，我们的生成器和[40]中的句子生成器之间的一个关键区别是，st是采样的Ladv= −Σ1Σllt=11nlog（qt）+n t=1Σlog（1−qt）.（五）来自概率分布pt，而LSTM输入词来自[40]中训练期间的地面实况标题。鉴别器。该模型也被实现为LSTM，它试图区分部分句子是来自语料库的真实句子还是由模型生成的：3.2.2视觉概念提炼对抗性奖励仅鼓励模型生成遵循语法规则的合理句子，这可能与输入图像无关。为了生成相关的图像字幕，字幕模型必须学会识别图像中的视觉概念，并将这些概念合并到生成的句子中。在那里-ΣΣqt，hd=LSTMd（xt，hd），t ∈ {1. . . n}，（3）因此，我们建议从现有的视觉概念检测器中提取知识到图像字幕模型中。具体地，当图像字幕模型生成其中hd是LSTM的隐藏状态。qt表示生成的部分句子S t=[s1. . . [1]被认为是真实的。类似地，从语料库中提取一个真实句子S，判别器输出q∈t，t∈{1，. . . ，l}，其中l是S的长度。q_t是S_n中的前两个词的部分句子被判别器认为是真实的概率。3.2. 培训由于我们没有任何成对的图像-句子数据可用，我们无法以监督学习的方式训练我们的模型。在本文中，我们定义了三个新的目标，使无监督的图像字幕。在输入图像中检测到其对应视觉概念的单词时，我们对所生成的单词给予奖励。这样的奖励被称为概念奖励，奖励值由该视觉概念的置信度得分指示。对于图像I，视觉概念检测器输出一组概念和对应的置信度分数：C={（c1，v1），. . . ，（ci，vi），. . . ，（cNc，vNc）}，其中ci是第i个检测到的视觉概念，vi是对应的置信度分数，并且Nc是检测到的视觉概念的总数。分配给第t个生成的单词st的概念奖励ΣNcrc=I（st=ci）i=14129不nn2（一）（b）第（1）款图3.分别用于图像重建（a）和句子重建（b）的架构，其中生成器和编译器以不同的顺序耦合。其中I（·）是指示器函数。3.2.3双向图像-句子重构在对抗训练和概念奖励的情况下，字幕质量在很大程度上取决于视觉概念检测器，因为它是图像和句子之间的唯一桥梁。然而，现有的视觉概念检测器只能可靠地检测有限数量的对象概念。图像字幕模型应该理解更多的图像语义概念，以提高泛化能力。为了实现这一目标，我们建议将图像和句子投影到一个共同的潜在空间中，以便它们可以用来相互重建。因此，所生成的字幕将在语义上与图像一致图像重建该发生器产生一个sentence的条件下的图像特征，如图3（a）所示。句子标题应该包含图像的主旨。因此，我们可以从生成的句子中重建图像，这可以鼓励生成的字幕与图像在语义上一致怎么-还可以观察到，生成器与图像重建器一起构成图像重建过程。因此，与负重建误差成比例的生成器的图像重建奖励可以定义为：rim= −Lim.（九）句子重构。类似地，如图3（b）所示，该机器人可以对一个句子进行编码并将其投影到公共潜在空间中，该公共潜在空间可以被视为与给定句子相关的一个图像表示生成器可以基于所获得的表示来重构句子。这样的句子重建过程也可以被视为句子去噪自动编码器[39]。除了在潜在空间中对齐图像和句子之外，它还学习如何从公共空间中的图像表示中解码句子为了进行可靠和鲁棒的句子重建，我们通过以下方式向输入句子添加噪声[26]。句子重构的目标被定义为交叉熵损失：然而，这样做的一个障碍在于，生成包含复杂对象的图像是非常困难的。人，高分辨率使用当前的技术[6，23]。因此，本文将研究方向转向了图像特征的重建Lsen= − Σlt=1日志.Σp（st=st|s=1，. . . ，st−1），（10）而不是完整的图像。如图3（a）所示，可以将该编码器视为句子编码器。一个完全连接的层被堆叠在该层上，以将最后的隐藏状态hd投影到图像和句子的公共潜在空间：x′=FC（hd），（7）其中x′可以进一步被视为来自所生成的句子的重构图像特征因此，我们定义了一个额外的图像重建损失来训练识别器：其中st是句子S中的第t个词。3.2.4一体化这三个目标被共同考虑来训练我们的图像字幕模型。对于生成器，由于单词采样操作是不可微的，我们使用策略梯度[35]来训练生成器，该策略梯度[35]估计了给定联合回报的可训练参数的梯度。更具体地，联合奖励包括对抗奖励、概念奖励和图像重建奖励。除了由策略梯度估计的梯度之外林 =10x−1-x′=2（八）句子重构损失还提供梯度，p1p2p3p4pl......一人起一图像.特征一人起.交叉熵采样话一女孩p1p2p3p4......采样话一采样话一女孩MSE...LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM...LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM...4130即时通讯−b通过反向传播的生成器这两种类型的gra-的，都是用来更新的发生器。让θ表示生成器中的可训练参数。相对于θ的梯度由下式给出：θL（θ）=−E巴恩t=1巴恩S=tγs（rsadv联系我们对抗性+λcrc）“我的天啊，概念图4.来自Shutterstock的两张图片及其附带说明。+λrim联系我们图像重建t<$$>θlog（stpt）<$$>+λsen<$θLsen（θ），联系我们句子重构（十一）4. 实验在本节中，我们评估我们提出的方法的有效性。为了定量评估我们的无监督其中γ是衰减因子，bt是使用自我批评估计的基线奖励λc、λim和λsen是控制不同项的权重的超参数。对于递归，对抗和图像重建损失被组合以通过梯度下降来更新参数：LD=Ladv+ λimLim.（十二）在我们的培训过程中，发电机和发电机交替更新。3.3. 初始化使用给定的未标记数据从头开始充分训练我们的图像字幕模型是具有挑战性的，即使是提出的三个目标。因此，我们提出了一个初始化管道来预训练生成器和判别器。关于生成器，我们想为每个训练图像生成一个伪标题，然后使用伪图像-标题对来初始化图像标题模型。具体来说，我们首先构建一个由OpenIm- ages数据集中的对象类组成的概念词典[25]。其次，我们只使用句子语料库训练概念到句子（con2sen）模型。给定对于一个句子，我们使用一层LSTM将句子中的概念词编码为特征表示，并使用另一层LSTM将表示解码为整个句子。第三，利用已有的视觉概念检测器对每幅图像进行概念检测. 利用检测到的概念和概念到句子模型，我们能够为每个图像生成伪标题第四，我们使用[40]中的标准监督学习方法用伪图像-字幕对这样的图像字幕被命名为特征到句子（feat2sen），并用于初始化生成器。关于该参数，参数被初始化字幕方法，我们使用MSCOCO数据集[30]中的图像作为图像集（不包括字幕）。句子语料库是通过从Shutterstock1抓取图像描述来收集的。在OpenImages[25]上训练的对象检测模型[19]用作视觉概念检测器。我们首先介绍句子语料库爬行和实验设置。接下来，我们介绍性能比较以及消融研究。4.1. Shutterstock图片描述语料库我们通过抓取Shutterstock中的图像解压缩来收集句子语料，用于无监督图像字幕的研究。Shutterstock是一个在线股票照片网站，提供数亿张免版税的股票图片。上传的每张图像都附有图像创作者编写的描述。图4中显示了一些图像和描述示例。我们希望抓取的图像描述与训练图像有一定的相关性。因此，我们直接使用MSCOCO数据集中的80个对象类别的名称作为搜索关键字。对于每个关键字，我们下载前一千页的搜索结果。如果可用的页面数少于一千，我们将下载所有的结果.一个页面大约有100张图片，每个对象类别有100，000个在去除少于8个单词的句子后，我们总共收集了2，322，628个不同的图像描述。4.2. 实验设置在[22]之后，我们将MSCOCO数据集拆分为113，287张图像用于训练，5，000张图像用于验证，其余5，000张图像用于测试。请注意，训练图像用于构建图像集，相应的标题不用于任何训练。Shutterstock图像描述语料库中的所有我们通过计算所有标记化的单词并删除通过训练对抗性句子生成模型，句子语料库1https://www.shutterstock.com裁剪的形象英俊的年轻男子与拉布拉多户外。男人在草地上与狗。犬儒学家英国短毛猫孤立在白色。微笑的表情，开心的4131概念书柜，衣服，书桌，人，桌子con2sen回到学校的概念。回到学校的概念。回学校回到学校概念feat2sen一个穿着衣服拿着笔记本电脑的男人的背影后视图人收藏。背侧Adv年轻女子工作在笔记本电脑在办公室。adv + con工作在膝上型计算机的少妇在书桌在咖啡馆adv + con +im在膝上型计算机工作的年轻人在有膝上型计算机和饮料的家Ours w/o init 工作在膝上型计算机的少妇我们年轻人工作在笔记本电脑在家庭办公室概念车辆con2sen曼谷，泰国-六月UNK>：车辆在路上在曼谷，泰国.feat2sen美丽的风景与树在森林中。Adv年轻女子坐在一条长凳在公园在晴天adv + con两个木船在海上日落。adv + con +im海中央的一艘小渔船Ours w/o init 一艘小渔船绑在一棵树在海上我们海岸上的小船概念碗，猫，盘子，餐具con2sen一只猫在一个白色的盘子与一碗餐具feat2sen猫在地板上睡觉。Adv白葡萄酒玻璃孤立在白色背景与剪辑路径adv + con白葡萄酒在一个玻璃在黑暗的背景adv + con +im一盘红葡萄酒在黑暗的背景Ours w/o init 猫在花园里睡觉。我们一个黑色和白色的猫在一个木制背景概念碗、食物、帽子con2sen食物在一个碗与帽子在白色背景feat2sen画名：戴圣诞老人帽的幸福夫妇Portrait of a Happy YoungCouple in Santa HatAdv快乐的年轻母亲和她的女儿睡觉在床上adv + con新鲜橙汁在一个柳条篮子在一个白色背景adv + con +im组合物的新鲜胡萝卜在一个盘子，食品Ours w/o init 新鲜的有机蔬菜在木背景。健康食品我们一碗健康食品的俯视图图5.用不同目标训练的无监督字幕方法的定性结果最好放大观看。表1.无监督字幕方法在MSCOCO数据集的测试分割[22]上的性能比较。方法B1B2B3B4MRCSOurs w/o init38.220.69.94.811.227.522.96.6我们41.022.511.25.612.428.728.68.1con2sen37.220.09.64.712.327.322.58.2feat2sen38.721.310.35.012.428.323.58.0Adv34.015.66.52.98.724.211.83.8adv + con37.919.89.44.611.426.524.17.3adv + con + im37.819.99.54.611.926.825.57.5频率低于40的单词。然后将所使用的对象检测模型的对象类别名称合并到词汇表中。最后，我们的词汇表中有18，667个我们通过删除包含超过15%未知标记的句子来执行进一步的过滤过程。经过过滤后，我们保留了2282444个句子。LSTM隐藏维度和共享潜在空间维度固定为512。选择加权超参数以使不同的奖励大致处于相同的尺度。具体地，λc、λim、λsen被设置为10、0。2和1。γ被设置为0。9 .第九条。我们使用Adam优化器[24]训练我们的模型，学习率为0.0001。在初始化过程中，我们最小化交叉熵损失使用亚当与学习率0.001.当在测试阶段生成字幕时，我们使用波束搜索，波束大小为3。我们报告BLEU [31]，METEOR [11]，ROUGE[29]，CIDEr [38]和SPICE [1]分数，用coco- caption代码2计算。测试分割中的图像的地面实况字幕用于计算评估指标。4.3. 实验结果及分析表1的顶部区域说明了MSCOCO数据集的测试分割上的无监督图像字幕结果。所提出的无监督训练方法获得的字幕模型取得了可喜的成果，CIDEr为28.6%。此外，我们还报告了从头开始训练我们的模型的结果（与-2https://github.com/tylin/coco-caption在初始化之后，CIDEr值下降到22.9%，这表明初始化流水线可以有益于模型训练，从而提高图像字幕性能。消融研究。消融研究的结果如表1底部区域所示。可以观察到，“con2sen”和“feat2sen”产生合理的结果，CIDEr分别为22.5%和23.5%。因此，“con 2sen”可用于生成用于训练“feat 2sen”的伪图像-字幕对。而当只引入对抗性目标来训练字幕模型时，单独的“adv”会导致更糟糕的其中一个原因是由于Shutterstock抓取图像描述的语言特征，这与COCO caption的语言特征显著不同另一个原因是，对抗性目标只执行真正的句子生成，但不确保其与图像内容的语义相关性。由于语言特征的差异，即使在“adv + con”中引入概念objective并且进一步在“adv + con + im”中并入图像重建objec- tive之后，大多数度量也下降虽然这两个基线的生成的句子可能看起来可信，但关于COCO字幕的评估结果并不令人满意。然而，通过考虑所有的目标在一起，我们提出的方法大大提高了字幕的性能。定性结果。图5显示了一些无监督图像字幕的定性结果。在左上角的图像中，物体检测器未能检测到所以“con2sen”模型对笔记本电脑没有任何说明。相反，其他模型成功地识别了笔记本电脑，并将这些概念纳入生成的帽。在右上角的图像中，只有猫的一小部分可见。有了这么小的区域，我们的完整字幕模型识别出它是对象检测器不能提供任何有关颜色属性的信息。我们很高兴地看到，双向重建目标是能够指导字幕模型识别和表达这样的视觉属性，在生成的描述句。底部41321.21.00.80.60.40.20.0Advadv+ conadv + con + imOursw/o init我们010002000300040005000600070008000迭代表2. 在未配对设置MSCOCO数据集的测试分割[22]的性能比较。方法B1B2B3B4MRCS旋转[15]46.224.011.25.413.2-17.7-Ours w/o init53.835.523.115.616.639.946.79.6我们58.940.327.018.617.943.154.911.1con2sen50.630.818.211.315.737.933.99.1feat2sen51.331.318.711.815.338.135.48.8Adv55.635.523.115.717.040.845.810.1adv + con56.237.224.216.217.341.548.810.5adv + con + im56.437.524.516.517.441.649.010.5图6.在训练过程中生成的每个句子中正确概念单词的平均数量。两幅图像“相反，在用所提出的目标训练字幕模型之后，字幕模型能够纠正这样的错误并生成合理的字幕。概念奖励的效果。图6示出了在训练过程期间生成的每个句子中的正确概念词的平均数量。可以观察到，“adv”的数量在开始时迅速下降。原因是对抗目标与图像中的视觉概念无关。“我们的w/o init”从零持续增加到大约0.6。概念奖励一致地提高了字幕模型识别视觉概念的能力对于“adv + con”，“adv + con + im”和“Ours”，数字约为0.8。一个原因是初始化管道提供了一个很好的起点。另一个可能的原因是，概念奖励防止字幕模型漂移到退化。4.4. 不成对字幕设置下的性能比较无监督字幕模型的性能在COCO测试分割的评价指标方面似乎并不令人满意这主要是由于COCO字幕和抓取图像描述之间的语言特征不同为了进一步证明所提出的三个目标的有效性，我们在相同的未配对字幕设置下与[15]进行了比较，其中使用训练图像的COCO字幕，但以未配对的方式使用。具体来说，我们用训练图像的COCO标题所有其他设置都与无监督字幕设置保持相同。通过对训练字幕中的所有单词进行计数并去除频率小于4的单词，创建了具有11，311个未配对图像字幕的结果如表2所示。可以观察到，通过逐步包括三个所提出的目标，可以基于未配对的数据来一致地改进字幕模型。由于曝光偏差[32]，一些字幕产生的“feat2sen”对抗性目标鼓励这些生成的句子看起来真实，从而提高性能。在只有对抗训练的情况下，模型往往会生成与图像无关的句子。这个问题被概念奖励所缓解，因此“adv + con”导致更好的绩效。通过仅包括图像重建对象，“adv + con + im”提供了微小的改进。然而，如果我们包括句子重建目标，我们的完整字幕模型实现了另一个显着的改进，CIDER值从49%增加到54.9%。原因是双向图像和句子重建可以进一步利用未配对的数据来鼓励所生成的字幕在语义上与图像一致。所提出的方法获得了比[15]更好的结果，这可能是因为在我们提出的方法中，COCO字幕中的信息得到了更充分的利用。5. 结论在本文中，我们提出了一种新的方法来训练图像字幕模型在无监督的方式，没有使用任何配对的图像-句子数据。据我们所知，这是调查这个问题的第一次尝试。为了实现这一目标，我们提出了三个训练目标，即1）生成的字幕与语料库中的句子不可区分，2）图像字幕模型传达图像中的对象信息，3）图像和句子特征在公共潜在空间中对齐并相互执行双向我们还从Shutterstock收集了一个由超过200万个句子组成的大规模图像描述语料库，以促进无监督图像字幕方法。实验结果表明，该方法在不使用任何标记的图像-句子对的情况下，也能取得较好的效果。在未来，我们将进行人类的评价，为unsupervised图像字幕。确认这项工作得到了 NSF 奖项 1704309 ， 1722847 和1813709的部分支持。正确生成的概念数4133引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在ECCV，2016年。[2] 彼得·安德森、斯蒂芬·古尔德和马克·约翰逊。部分监督图像字幕。NeurIPS，2018。[3] Lisa Anne Hendricks，Subhashini Venugopalan，MarcusRohrbach ， Raymond Mooney ， Kate Saenko ， TrevorDarrell ， Junhua Mao ， Jonathan Huang ， AlexanderToshev，Oana Camburu，et al.深度合成字幕：在没有配对训练数据的情况下描述新的对象类别。在CVPR，2016年。[4] Mikel Artetxe ， Gorka Labaka ， Eneko Agirre ， andKyunhyun Cho.无监督神经机器翻译。在ICLR，2018年。[5] Steven Bird ， Ewan Klein ， and Edward Loper. 使用Python进行自然语言处理：使用自然语言工具包分析文本。O'Reilly Media，Inc. 2009年[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[7] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR，2017年。[8] 陈增宏、廖元宏、庄景耀、徐婉婷、傅建龙、孙敏。展示、改编和讲述：跨领域图像字幕机的对抗性训练。InICCV，2017.[9] Wenhu Chen，Aurelien Lucchi，and Thomas Hofmann.一个半监督的图像字幕框架。 arXiv 预印本 arXiv ：1611.05321，2016年。[10] Xinpeng Chen，Lin Ma，Wenhao Jiang，Jian Yao，andWei Liu. 通过用现在重构过去来正则化rnns以生成字幕在CVPR，2018年。[11] Michael Denkowski和Alon LavieMeteor通用：针对任何目标语言的特定语言翻译评估2014年第九届统计机器翻译[12] William Fedus ， Ian Goodfellow ， and Andrew M Dai.Maskgan：通过填充更好的文本生成。在ICLR，2018年。[13] Zhe Gan，Chuang Gan，Xiaodong He，Yunchen Pu，Kenneth Tran，Jianfeng Gao，Lawrence Carin，and LiDeng.视觉字幕的语义合成网络。在CVPR，2017年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[15] Jiuxiang Gu，Shafiq Joty，Jianfei Cai，and Gang Wang.基于语言旋转的不成对图像字幕。在ECCV，2018。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。[19] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu ， AnoopKorattikara ， Alireza Fathi， Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，et al.现代卷积对象检测器的速度/精度权衡。在CVPR，2017年。[20] Wenhao Jiang ， Lin Ma ， Xinpeng Chen ， HanwangZhang，and Wei Liu.学习引导图像字幕解码。在AAAI，2018。[21] Wenhao Jiang，Lin Ma，Yu-Gang Jiang，Wei Liu，andTong Zhang.用于图像字幕的递归融合网络。在ECCV，2018。[22] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义CVPR，2015。[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。[24] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[25] Ivan Krasin 、 Tom Duerig 、 Neil Alldrin 、 VittorioFerrari、Sami Abu-El-Haija、Alina Kuznetsova、HassanRom、Jasper Uijlings、Stefan Popov、Shahab Kamali、Matteo Mallocis、Jordi Pont-Tuset、Andreas Veit、SergeBelongie、Victor Gomes、Abhinav Gupta、Chen Sun、Gal Chechik 、 David Cai 、 Zheyun Feng 、 DhyaneshNarayanan和Kevin Murphy。Openimages：用于大规模多标签和多类别图像分类的公共数据集。数据集可从https://storage.googleapis.com/openimages/web/index.html 获得，2017年。[26] Guillaum

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

无监督图像字幕模型训练：数据集和视觉检测器的应用

北交机器学习数据集资源

计算机视觉数据集清单附赠tensorflow模型训练和使用教程

基于深度学习的车辆计数检测模型训练数据集有什么用

制作、、、、自制图像字幕数据集

用于人脸检测模型训练的数据集有哪些，分别有何优劣势

3D医学图像分割 训练自己的数据集

COCO格式图像字幕数据集制作

mask r-cnn图像实例分割实战:训练自己的数据集 下载

solo实例分割的模型训练步骤

yolo模型怎么进行数据集训练

我应该如何制作数据集和将数据集应用到深度神经网络

怎么训练自己的数据集？

基于resnet50深度模型的模型训练过程

3d unet训练mri 数据集

jetson目标检测模型训练

YOLOv5模型 仅用原始图像作为训练集和测试集的训练效果达37%，但用数据增强操作后的图像加原始图像划分数据集（测试集仅有原始图像）训练后的map只有22%。分析其中原因

YOLOv3 训练voc数据集

如何训练图像识别的卷积网络模型

如何在自己的数据集上训练一个目标检测模型？

lprnet训练自己的数据集

最新资源

3D医学图像分割训练自己的数据集

mask r-cnn图像实例分割实战:训练自己的数据集下载

YOLOv5模型仅用原始图像作为训练集和测试集的训练效果达37%，但用数据增强操作后的图像加原始图像划分数据集（测试集仅有原始图像）训练后的map只有22%。分析其中原因