协同网络优化

33 浏览量更新于2023-10-12 收藏 1.85MB PDF 举报

联合优化

网络训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8898协同图像字幕的联合优化Gilad VeredBar-Ilan大学加尔·奥伦巴伊兰大学YuvalAtzmonBar-Ilan大学，NvidiaGal GulhikBar-Ilan大学，Nvidiagal. biu.ac.il摘要当用自然语言描述图像时，如果针对下游任务进行调整，描述可以提供更多信息这可以通过训练两个网络来实现：一个“说话者”生成给定图像的句子，一个“倾听者”使用它们来执行任务。不幸的是，联合训练多个网络进行通信面临两个主要挑战。首先，由扬声器网络生成的描述是离散和随机的，使得优化非常困难和低效。其次，联合训练通常会导致交流过程中使用的词汇与自然语言发生漂移和偏离。为了解决这些问题，我们提出了一个有效的优化技术的基础上部分抽样从一个多项分布结合直通梯度更新，我们命名为PSST的部分抽样直通。然后，我们表明，生成的描述，可以保持接近自然的约束，使其类似于人类的描述。总之，这种方法创建的描述比以前的方法更有区别，更自然对COCO基准的评估表明，PSST将召回率从60%提高到86%，保持了相当的语言自然性。人类的评价表明，它也增加了自然，同时保持了区分能力的生成字幕。1. 介绍用自然语言描述图像是开发与人交流的自动化系统的关键一步。这种人机通信的补充部分涉及能够理解图像的自然描述的网络。这两个任务已经被深入研究，但主要是作为两个独立的问题，图像字幕和图像检索。“闭环”并寻求联合训练网络以自然语言合作地交流视觉内容是很自然的图1：训练代理就图像进行通信的挑战。（a）当说话者网络与收听者网络联合训练时，除非受到约束，否则所传达（b）当两个网络代理分别接受训练时，描述变得不那么具体，因为代理不能期望另一方“理解”微妙之处。（c）在保持通信接近自然语言的同时联合训练两个网络可以产生更具区分性的描述，同时保持可理解性。训练多个网络进行通信已经在视觉对话的背景下进行了研究[11，12]。在那里，一系列句子在学习代理之间来回传递。这里，我们后退一步，专注于“扬声器网络”和“听众网络”之间的单个传输我们试图通过训练说话者和倾听者用自然语言进行有效沟通来开发可训练沟通的构建模块。这种自然交流的性质应该是什么？好的视觉描述应该遵循两个竞争目标。首先，描述应该是自然和流畅的，使用格式良好和有意义的句子，这样他们就可以传达给人们。第二，描述应该是特定于图像的和信息丰富的，捕捉相关信息。8899使其独一无二的元素。为了解决这两个目标，一些研究训练了由扬声器和听众网络组成的模型[9，30，31]，并具有相应的损失以实现这两个目标。不幸的是，训练说话者网络和收听者网络面临着多重挑战，主要是语言漂移和优化。首先，当听者和说话者可以调整他们的交流时，所产生的语言通常会漂移，失去其原始的语义。在交流对人们例如，网络可能会为一个常用词（红色）分配一个新的含义（蓝色），或者在单个符号中编码高度特定的信息（其次，训练端到端的说话者-听者系统需要通过离散和随机的中间通信层进行优化。梯度的标准反向传播不能应用于这些层[4]，并且替代方法通常复杂或收敛缓慢[38，44]。由于这些限制，以前的区分字幕方法（如[31，39]）避免了端到端的训练或获得有限的质量字幕[9]。本文件讨论这两个挑战。首先，我们表明，保持区分字幕接近人类生成的字幕，是足以保持流畅和良好的形式的语言，同时提供足够的灵活性，使字幕是有区别的。其次，我们开发了一个新的有效的优化过程，共同训练合作的说话人-听众网络。它基于多项分布的部分采样，结合直通（ST）梯度更新，我们将PSST命名为部分采样直通。它可以应用于多项式模型或ST Gumbel Softmax。PSST实施起来非常简单，并且与所有基线相比，其表现都强于所有基线。本文作出了以下新的贡献：（1）一种新的、简单的离散随机层优化的部分抽样方法，可直接用于产生判别语言。(2)新州自然语言中的形象。每个标记由来自预定义词汇表的1-hot向量第二个网络，即监听器，接收这一系列标记，并使用它在一组干扰图像中找到输入图像。在这种设置中，扬声器网络被训练成专注于图像的独特特征，这将允许听众在干扰物中检测到它与[21，39]不同，干扰物图像不可用于扬声器作为显式上下文。重要的是，这两个网络有一个共同的目标：这样，听者就可以识别出说话者所描述的图像。因此，它们的相互作用定义了一种合作游戏，这与基于GAN的对抗方法有着根本的不同[9]。我们通过训练说话者网络（由φ参数化）和听者网络（由θ参数化）来解决这个任务。在考虑这种联合优化的目标函数时，它必须包含两个互补的分量。首先，作为可辨别性损失，l盘，客观上包含了听众当使用所产生的句子W在干扰项中检测目标图像I时，其次，由于自然语言远不是这项任务的最佳选择，网络可以找到其他远离自然语言的通信方案。为了让人们能够理解交流，我们在目标中增加了第二个组成部分，自然性自然损失它的目的是确保所产生的句子W是自然的，通过保持它类似于人类创造的字幕，对于这个形象，我。总之，优化问题是minλl disc（W，I）+（1 − λ）l nat（W）。（一）φ，θ这里φ是扬声器网络的参数，θ是收听者网络的参数。对于自然度损失，我们使用CIDEr [40]，l nat（W）=−CIDEr（W）。为判别损失l盘，我们使用两个铰链的和损失：一个用于在一批干扰项图像中选择正确的图像，第二个用于在一批干扰项字幕中选择正确的字幕，如[13]中所述：l圆盘（W，I）= max [0，1-Φ（W，I）+ Φ（W′，I）]（2）θ θMS COCO区分字幕的艺术结果，改进-+max [0，1−Φ（W，I）+Φ（W，I′）]，对于相似的自然度评估，召回率从1.60%到1.86%-θ θ使用CIDEr和人类评估进行评估。(3)使用统一的字幕基准，通过随机层(4)一种评估方案，明确量化自然度与可辨别性的完整曲线，而不是一维度量。2. 区别性字幕在我们的区分字幕设置中，两个网络合作传达给定图像的内容（图1）。第一个网络，即说话者，被给予一个图像，并产生一系列离散的令牌，描述其中W'是候选字幕中最难的负字幕，I'是最难的负图像，Φ是图像和字幕的嵌入上的余弦相似度我们不是固定λ的单个值，而是计算完整的曲线，该曲线通过使用不同的λ值优化模型来捕获区分性和自然描述之间的权衡。3. 相关工作自从引入编码器-解码器模型以来，图像字幕已经被深入研究[45]，旨在使字幕更加自然，多样化和独特。8900自然。一些提高字幕自然性的努力使用了条件GAN，因为使用对抗性神经网络消除了定义语言的障碍-自然性损失[7，9，37]。作为训练损失的替代方案，信息理论也可以用于选择自然的描述术语[6]。多样性设计了几种技术来提高为给定图像生成的字幕的多样性[8，27，37，42]。[27]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”pares人类生成的，不相关的和生成的字幕，并[43]提出了一个评估字幕多样性的指标辨别力。生成以独特的方式描述图像的字幕是有效字幕的关键这样的字幕允许将图像与其他相似的图像区分开。更大图像。此外，早期的字幕模型普遍性较差，经常产生过度通用的字幕，使字幕更具歧视性可能会缓解这个问题。在[39，2]中，干扰物图像在推断时用于创建独特的标题。[19]最近描述了一个数据集，该数据集包含成对的非常相似的图像，可以用作评估图像检索任务的硬否定。在[10]中，使用对比学习使字幕更加清晰，其中要求字幕-图像对的估计置信概率高于正对的参考模型，而低于负对的参考模型。[30]训练了一个带有REINFORCEover CIDER奖励的判别式字幕模型，使用自检索模块来选择硬否定和CIDER奖励。与本文最相关的是[31]。他们使用预先训练的听众网络来增加字幕的辨别力。然而，为了避免语言漂移，听者保持固定，而不是与说话者联合训练。几项研究描述了智能体在视觉任务中交流时学习的（非人类可读）语言[5，24，25，26]。本文的重点是保持语言接近自然，而不是研究性质或涌现语言。4. 离散随机层优化通过语言层进行通信的两个网络的联合训练相当于训练具有离散和随机中间层我们首先正式定义的学习设置，然后描述现有的优化方法，这种设置。在我们的模型中（图2），字幕生成被视为一个随机过程。在每一步，t=0，. . .，T，字幕生成器（扬声器）输出词的词汇表上的分布p φ（w，t|我，我，...，wt−1）。该分布取决于输入图像I和句子中的先前术语，并且由确定性参数φ参数化。因此，我们将扬声器网络的输出s φ（I）视为具有分布p φ（W）的随机序列W|I）在所有字序列W上。从该分布中，一个特定的序列被采样并传递给侦听器。给定该采样的字序列W=w0，. . .，w T，监听器用θ参数化的网络可以预测y=fθ（W）=fθ（sφ（I）），并满足损失l（y，yθ;θ）。我们的目标是传播损失的梯度，首先更新侦听器的参数θ，然后通过随机层向上，计算扬声器参数φ。训练监听器网络的参数不会带来特殊问题。监听器实现的函数 fθ 是确定性的和可微的（几乎每个 -where），因此损失的梯度可以以标准的方式传播。对于使用标准的“通过时间的反向传播”通过句子中的术语序列反向传播梯度也是如此不幸的是，对于扬声器网络，参数调谐更难，因为该网络发出离散项以随机的方式，使得扬声器网络不可微。随机神经网络中的计算可以使用随机计算图（SCG）进行形式化[36]。在我们的情况下，我们将计算图视为包括单个随机计算节点，对应于随机序列W。我们考虑的是听众网络为说话者提供了一个损失lθ（W），用于每个（采样的）句子W。我们的目标是最小化期望损失minφL（θ，φ））= minφE φ（W）[l θ（W）]。这件物品的主人公是我。r. t. 扬声器参数φ为∇φp φ（W）l θ（W）dW=φp φ（W）l θ（W）dW. 由于这梯度没有期望的形式，它不能可以通过采样直接有效地估计。在描述我们估计这些梯度的方法之前，我们简要描述了解决这个问题的两种主要现有方法：得分函数估计和直通Gumbel softmax。评分函数估计器 [14 ， 15] ，特别是 REINFORCE 算法[44]，通常在强化学习的在那里，代理的目标是通过根据策略为给定状态选择最佳动作来最大化其奖励在我们的上下文中，状态由输入图像和前面的单词决定，动作对应于可以在给定时间步发出的单词集，奖励是（减去）听者施加的损失REINFORCE产生梯度的无偏估计，但其方差往往很大。提出了几种方差降低技术[16，17，33，38]。但是由于它们的复杂性，它们的采用仍然是有限的。ST Gumbel Softmax [20，32]是优化随机离散层的第二种主要方法，由三个部分组成。(1)为了处理随机性，计算图被重新参数化，允许通过确定性路径传播梯度[23，32，35]。（2）Gumbel max过程用于从预定分布中采样。8901图2：模型架构。说话者网络和听者网络通过文本层传递梯度来联合训练。损失包含两个分量，这两个分量用在验证集上调整的超参数进行线性加权。自然性损失：使用CIDER分数衡量生成的字幕与该图像的一组预定义的地面实况字幕之间的一致性。这些标题不一定是歧视性的。区别性损失：测量收听者在一组127个随机选择的干扰物图像中识别输入图像的能力。Gumbel分布[18]使用Gumbel softmax [20]放松。(3)一种[4]使用：在向后传递中，计算梯度，就像传递了完整的连续分布一样。在for-ward传递中，标记从该分布中采样。在我们的arXiv报告[41]中给出了关于当前背景下这些方法的更多细节5. 部分采样直通对于图像字幕，如上所述，使用具有 Gum-belsoftmax方法的直通（straight-through）遭受高方差和偏差。方差很高，因为向前传递是随机的。在每一步，说话者计算要发出的词汇V上的概率分布pφ（w），然后绘制并发出单个词汇。这增加了固有的方差，并且每个样本传达的信息比传递完整的连续分布少。增加的方差会损害优化，因为向网络提供相同的输入会导致对梯度的不同估计配料它可以被视为在损失中添加噪声，或者使用噪声标签进行训练，这会损害收敛到良好的最小值。在图4b、c的第2-3行中展示了这种变化对生成的字幕的影响。此外，ST估计器也是有偏的，因为梯度的估计值的计算就像通过了完整的最好是在没有抽样的情况下通过全分布，但不幸的是，测试时，我们必须产生离散的单词选择，以生成特定的句子。我们提出了一个简单的实现程序，我们称之为部分采样直通（PSST）。在训练过程中，我们将全连续分布传递给的条款，并通过一个采样的one-hot为其余1−ρ。更正式地说，在每一步，说话者计算要发出的词汇V上的概率分布pφ（wt）。然后，我们随机抽取一个二进制值在概率ρ的情况下，说话者通过完全多项式分布pφ（wt）。以概率1-ρ，它从该分布中采样一个值，并发出对应于该项的1-hot向量因此，对于项的ρ，随机和离散单元实际上被确定性连续变量所取代，在ρ=0的极端情况下，扬声器总是作为采样器操作，并且优化可以被视为[4]的二进制ST估计器的多项式版本在ρ=1的另一个极端情况下，说话者作为确定性映射器操作，并输出一组密集的多项式分布。这种方法具有若干优点。首先，对于项的ρ，梯度的估计是精确的，因为计算是确定性的，因此减少了梯度估计的总体偏差和方差在同一时间，对于1-ρ的训练图像，下游监听器网络确实经历了随机变化，表示为1-hot向量，并学习正确地对它们进行这使其能够正确处理在测试阶段观察到我们根据经验发现，这种方法对于ρ的值是非常有效和鲁棒的。部分采样利用了说话者-收听者关系的合作性质。与GAN培训不同（例如，[9]），其中生成器努力不透露任何可能泄露其生成的字幕的信息，合作游戏中的说话者有一个明确的目标，即向听者传达尽可能多的信息。具体地说，8902在训练期间，允许将生成的字幕表示为连续分布，其看起来与人类创建的字幕非常不同，并且很容易被GAN区分。更一般地说，在“游戏矩阵”的通信代理，合作与竞争的根本区别，上面的讨论描述了我们如何使用PSST多项式优化l圆盘（W）。不幸的是，为了优化lnat（W），不能使用PSST，因为CIDER需要稀疏描述符作为输入。相反，可以使用任何第 4 节中描述的标准方法。在实践中，我们使用REINFORCE，因为初步实验表明，它的性能与其他方法相当。6. 实验我们用两个图像字幕基准数据集来评估我们的方法：[29]和Flickr30k [46]，并与七个基线进行比较。6.1 数据集。COCO拥有123K的图像，并标注了5个人工生成的标题。为了与以前的工作进行公平比较，我们使用了与[31，39]相同的数据分割，因为对113K，5K和5K图像进行训练，验证和测试分割，并使用9487个单词[31]。Flickr30K有1031K的图像，注释了5个人工生成的标题，总共有10159K的标题。我们使用[22]的分割，分配29K，101K和1K图像用于训练，验证和测试分割。该词汇表包含在注释标题中出现超过5次的单词，总共有7K个单词。标题被剪切到最大长度16。6.2 比较方法。(1)最后一个。第5节的方法。（2）ST最小值。（1）当ρ=0时（总是采样）（3）LUOet al.2018 [31].使用REINFORCE和一个“冻结”的预先训练的听众来训练演讲者。（4）加强[44]。演讲者和听众轮流接受培训。（5）ST GUMBEL MAX [20].在反向传播过程中，梯度流经Gumbel softmax的噪声分布。在向前传递期间，从该分布中采样to- kens。（6）ST Gum-belsoftmax，其中使用[ 20 ]的时间表和超参数对温度进行退火，τ =max（0. 5，e−rt）.（7）SR-PL [30]。如（3），但使用未标记的数据作为小批量的一部分作为硬阴性。（8）PSST GUMBELSOFTMAX。类似于PSST多项式，但将部分抽样应用于Gumbel-softmax分布。（9）G- GAN [9]。一个有条件的GAN，带有一个用策略梯度和早期反馈训练的生成器。6.3 详细内容见[41]。总的来说，我们遵循了以前发表的评估方案，使用已发布的超参数（只要可用）。我们的代码可以在http://github.com/vgilad/CooperativeImageCaptioning上找到。6.4 自动化评估指标。生成的字幕的自然度被量化的标准，标准语言学指标：[40]，[44]，[45]，[46]，[47]，[48]，[49]，通过听众网络的回忆来量化生成的字幕的可辨别性。具体地，在测试时，给定输入图像，收听者接收四个输入：由说话者生成的字幕、输入图像、4999个干扰项字幕和4999个干扰项图像。收听者根据图像与字幕的兼容性（使用图像表示与字幕之间的余弦相似性测量）对所有图像进行排名。基于这个排名，我们计算了召回率@K，即前K个的平均检测率。即，如果输入图像的分数被排名在前K个分数内，则认为图像被检测到我们在下面报告recall@1、@5和@10。平衡自然与可辨别性。在训练过程中，我们通过测试方程的参数λ的多个值来权衡可辨别性与自然性。1，特别是λ在{10，5，2.5，1.6，1，0.5}×10−3（值很小，以抵消方程中两种损失的不同尺度。①的人。7. 结果我们首先评估COCO上PSST的自然度和可辨别性。图3描绘了作为五个自然度分数的函数的recall@10：CIDER、BLEU4、METEOR、ROUGE和SPICE。对于每种方法，我们训练了一系列模型，每个模型具有不同的权衡参数λ值（等式中l盘的权重）。①的人。当λ值较高时，模型生成的字幕更具辨别力，但以语言质量为代价，而使用低λ值训练的模型生成的字幕非常自然，但辨别力较低。对于固定的召回值，语言度量的值在表1PSST Multinomial在所有五个指标中均获得最佳分数。表2中报告了固定CIDEr值的重新调用值。在这里，PSST Multinomial也优于其他方法。联合训练和部分抽样的效果都是显著的。所有联合训练网络的方法都一致地优于单独训练（红色曲线）。广义上讲，所有三种方法， REINFORCE、STGumbel softmax 和 ST Multinomial ，对于高自然度（BLEU 4>0. 3或CIDEr>1。①的人。其次，PSST多项式（蓝色曲线）提供了所有基线的进一步显著改善这种改进的潜在原因是基线方法具有高方差，因为它们不是确定性地传输单词上的完整分布，而是从分布中采样单个单词并传输它。在PSST中，压裂-8903(a)（b）（c）(d)（e）（f）图3：COCO的辨别力-自然度曲线。（a-e）每个面板跟踪作为自然度的函数的recall@10，使用五种语言指标进行评估：（a）BLEU4（b）CIDER（c）METEOR（d）ROUGE（e）SPICE.在每个面板中，每条曲线对应于一种优化方法。每条曲线上的标记对应于使用权衡参数λ的不同值训练的模型。（f）部分抽样率（ρ）对回忆率的影响。从面板（b）中提取召回通过插值和选择CIDEr=1.22的分数。部分抽样（0<ρ1）优于全抽样或零抽样。步数ρ是确定性的，将整个分布作为向量传递。对于这些步骤，PSST方差为零，因此PSST将方差降低了ρ。类似地，PSST在通过全分布而不进行采样时将偏倚归零，因此也将偏倚削减因子ρ。召回@5 =80%CBMRS加强0.902 0.251 0.247ST Gumbel Softmax1.087 0.288 0.253ST多项式1.106 0.300 0.259 0.542 0.194PSST Gumbel Softmax（我们的）1.109 0.320 0.263 0.5410.205PSST多项式（我们的）1.119 0.322 0.264 0.544 0.206表1：COCO上固定召回率的自然度。CIDER、BLEU4、METEOR、ROUGE、SPICE，用于R@5= 80%。没有联合训练的比较方法是因为他们的最佳回忆率要低得多：[ 31 ]的R@5=72，[ 30 ]的R@5=66.4。图 3f 说明了 PSST Multinomial 和 PSST Gumbel soft-max的采样率参数ρ的影响。为了进行公平的比较，我们固定了CIDER分数在给定值（与所有值重叠的最大值）处，表2：COCO上固定CIDEr的召回率，比较固定值CIDEr的召回率，如图3所示。这些指标是在高CIDER操作点上报告的，显示了联合训练的强大效果和我们方法的优越性。对于两种PSST方法，ρ=0。25已使用SR-PL[30]使用Karpathy分裂和CIDEr=1.17。G-Gan [9]使用COCO验证分割和CIDEr=0.795。变体），并在图3的内插辨别力-自然度曲线上报告recall@10。对于这两种方法，ρ= 0或1的模型给出了显著更低的CIDEr=1.2R@1 R@5 R@10G-Gan [9]（CIDEr=0.795）14.3 40.155.8Luo等人，2018 [31]20.5 49.164.0Gumbel温度退火24.2 56.370.9加强31.3 67.080.5ST Gumbel Softmax31.8 67.380.6ST多项式31.9 67.981.8SR-PL [30]（CIDEr=1.17）33.0 66.480.1PSST Gumbel Softmax（我们的）37.6 73.085.7PSST多项式（我们的）38.1 74.286.38904R@1R@5 R@10单独训练vs联合训练（CIDEr=1.13）Luo等人，2018 [31]27.760.174.6冻语者（罗）32.667.881.8冻结扬声器（MLE）19.346.961.3加强38.974.086.2PSST Gumbel Softmax（我们的）45.078.889.4PSST多项式（我们的）45.379.489.9配上真人字幕PSST多项式21.346.959.3在GT25.453.966.8表3：消融研究。顶部：顶部部分比较了三个单独训练基线的召回率，以及三个联合训练基线（最后三行）。在判别曲线与自然曲线上的可比操作点处报告召回率，所有操作点均为CIDEr=1.13。Bot- tom：调用在消融扬声器网络时获得的验证分割上的值。向使用PSST ρ = 0训练的听众提供人工生成（GT）字幕。25（顶部）或训练一个听众与GT字幕（底部）。结果然后用ρ在0.25到0.75之间进行建模。这与使用ρ1（一些采样）对于将侦听器暴露于稀疏输入是必要的，因此它不会在测试时遭受灾难性的域偏移的想法一致。7.1. 消融研究与单独培训相比。为了量化联合训练的好处，我们评估了几个单独的训练程序.表3中的顶部显示了通过两步训练获得的回忆：说话人模型首先被训练（1）如[31];（2）训练模型[31]又有150个时期;（3）采用最大似然估计。然后，它被保持“冻结”，而听众接受训练。我们使用了比表2更低的CIDEr，因为一些基线没有达到更高的CIDEr。PSST再次更好地用于该政权。使用人工生成的（GT）帽测试侦听器。表3的底部报告了使用人工生成的字幕测试的两个模型的召回率，揭示了模型的局限性。首先，一个用说话者生成的字幕训练的听众，在用人类生成的字幕测试时表现得更差。即使人类生成的字幕是有区别的，并且人们捕捉到了有区别的信号（表5左），收听者也不能正确地使用它们，因为它过度调谐到说话者生成的字幕。第二，用GT字幕训练听众的在这里，听众无法学会捕捉人类生成的字幕中的区别性信号7.2. 定性结果为了更好地了解我们的系统创建的标题首先，图4a示出了折衷参数λ对所生成的字幕的可辨别性和自然度的影响。然后，我们通过比较PSST多项式（始终采样）和REINFORCE（单独训练）来评估联合训练和部分采样的好处我们从两个方面比较它们。图4b比较了相似召回值下的字幕自然度，图4c比较了相似CIDEr值下的可辨别性。参见图4标题中的详细信息，以及[41]7.3. Flickr30的评价我们在Flickr 30K上评估了PSST和基线。在方法开发过程中从未使用过该数据集，并在COCO实验完成后进行了评估。表4列出了该数据集上固定召回率（90%）的自然度指标。PSST与其他联合培训方法相当或更好。Recall@5=90% C B M R S加强2019年12月31日ST-Gumbel SM2019年12月31日星期一ST多项式2019 - 04 - 25 00：00：00PSST Gumbel Softmax（我们的）0.485 0.207 0.188 0.4470.126PSST多项式（我们的）0.488 0.213 0.1900.4480.129表4：在Flickr30K上的评估。语言质量指标CIDEr、BLEU4、METEOR、ROUGE、SPICER@5= 90%。仅显示达到90%召回率的方法。7.4. 人的评价我们评估了亚马逊土耳其机器人评分员在2个备选强迫选择实验中各种模型的可辨别性和自然性。表5（左）比较了生成的字幕的可辨别性，对于共享类似的自动化自然度的模型（CIDEr 2011）。22）。评分者看到了测试模型的生成标题，以及几个im-vector。年龄：正确的图像，从该图像生成标题，以及第二个干扰图像，由[31]选择为与目标相似。评分员被要求选择哪张图片最适合用标题描述。该任务被设计为测量字幕辨别能力，而不管其自然度如何，因此我们比较了具有相似CIDER但不同recall@10水平的模型。结果表明，PSST多项式允许评分者更好地检测正确的图像。表5（右）比较了生成的字幕的自然度，8905（一）1.0.0102.0.00253.0.0005CIDEr等级1. 一只猫躺在上面（b）第（1）款1. 加强2. 多项式ST3. PSST多项式1. 两个人坐在CIDEr等级（c）第（1）款1. 加强2. 多项式ST3. PSST多项式1. 一架飞机停在CIDEr等级木椅上的木椅2. 一只猫躺在木椅上3. 躺在椅子上的猫1. 一个黑色的白色水槽和一个浴室里的水槽2.十一点六1 3.14 2.01 1.0水中的小船水2. 一个男人和一个女人坐在水中的船上3. 两个人坐在水中1. 在有地铁的地铁站乘坐地铁列车的人2个1.02 1.22 1.21 1.1在机场的跑道2. 一架飞机在机场的跑道上3. 一架白色飞机坐在跑道上1. 一个拿着冲浪板2. 一个男人站在二十一点六60.670.822 1.2白色的浴室，6 1.8水槽和镜子2. 一群人4 1.3海滩与冲浪板81.23. 有水槽和镜子的浴室1. 一只泰迪熊坐在书架上书架上的书2. 一只泰迪熊坐在图书馆3. 一只坐在架子前的泰迪熊19 2.010.9十一点六12.0站在火车站3. 站在火车站里的一群人1. 一个比萨饼和一个比萨饼坐在一个木制的2. 一个比萨饼放在一个3. 一个比萨饼放在一张木桌上4 1.34 1.011.22 1.33. 一个年轻男人站在沙滩上玩冲浪板1. 有沙发和电视2. 一间有大客厅和一台电视机的3. 有一张大沙发和一台电视机的起居室51.216 0.6十二点七八点六图4：定性示例。红色文本突出显示有问题的措辞;绿色文本突出显示正确的语法和其他区别性信息。低CIDER分数通常是由于重复和遗漏名词。（a）参数λ权衡了可辨别性与自然性。所有标题都是使用PSST多项式创建的，但λ值不同。顶行标题（高λ = 0. 01），产生更多的区分标题;底行标题（低λ），产生更自然的句子。（b）优化方法影响自然度。使用（1）REINFORCE，（2）ST多项式（3）PSST多项式创建标题。对于每种方法，选择λ以产生相似的10次召回率> 80%，得到的平均CIDEr评分为1。017，1。209，1. 229人。这些例子表明，对于这种固定召回率，更高的CIDER倾向于产生更自然的字幕。为了提供“典型”图像，我们选择了具有CIDER分数接近每种方法的平均CIDER并且同时排名高的标题的图像。（c）优化方法影响可辨别性。对于每种方法，选择λ以产生CIDEr ≥1。2，产生平均图像检索等级分别为20、9、8实例表明，对于固定的CIDEr分数，具有更好图像的模型检索等级倾向于产生更具区别性的标题。更多的例子在[41]。类似的自动辨别能力（recall@10~80%）。评分者发现，PSST多项标题显著-比参考模型和竞争模型更自然8. 结论本文讨论了构建深层模型的问题我们发现，在保持字幕与人类生成的字幕相似的同时，联合训练网络可以提高字幕的可辨别性和自然度。两者都使用部分采样技术进行了进一步改进，该技术允许网络在训练期间传递更多信息。这种优化方法降低了梯度估计的方差和偏差，使网络能够收敛到更好的解决方案。这项工作可以以几种自然的方式进行扩展，包括让说话者网络和收听者网络在几轮（视觉对话）中进行通信，或者在多个代理之间引入通信。我们希望我们的方法有助于与人们就其感知环境进行交流的系统。方法准确度自然度罗2018 [31] 72%-9%ST多项式69%参考 PSST多项式（我们的）75%+20%人类85%-表5：人类评分员评价：（a）辨别力。准确度是通过要求评分者根据标题区分目标图像和干扰图像来计算的。报告的是超过300张图片的5名评分员中多数票的准确性。（b）自然度的计算方法是让评分员根据两个字幕所描述的图像，对使用正确英语的字幕进行排名。评分者被要求注意不连贯的单复数术语、重复术语和断句。一个标题是由ST-多项式生成的，第二个标题来自评估的模型。所有三个模型都被选择为具有可比性的区别-无能，具体来说，召回率为10%至80%。鸣谢：感谢G。Shakhnarovich和Y.戈德堡进行有见地的讨论。这项工作得到了以色列科学基金会资助737/18的支持。8906引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice：语义命题图像帽评估。欧洲计算机视觉会议，第382-398页。施普林格，2016年。[2] 雅各布·安德烈亚斯和丹·克莱因。与神经听者和说话者的语用学推理。在自然语言的经验方法（EMNLP），2016年。[3] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. 在计算语言学协会关于机器翻译和/或摘要的内在和外在评估措施的研讨会上，第65-72页，2005年[4] 约瑟芬·本吉奥，尼古拉斯·莱奥纳德，亚伦·库维尔。通过随机神经元估计或传播梯度以进行条件计算。arXiv预印本arXiv：1308.3432，2013。[5] 戴安·布夏科特和马可·巴罗尼代理人如何看待事物：论语言游戏中的视觉表征。在自然语言的经验方法（EMNLP），第981-985页计算语言学协会，2018年。[6] 里奥·布拉查和加尔·阿希克。信息对象注释：告诉我一些我不知道的。在IEEE计算机视觉和模式识别会议（CVPR），第12507-12515页[7] 陈晨，穆帅，肖万鹏，叶泽雄，吴烈思，马福明，齐菊。用条件生成对抗网改进图像字幕。人工智能促进协会（AAAI），2019年。[8] Bo Dai，Sanja Fidler，and Dahua Lin.图像字幕的神经合成范例神经信息处理系统的进展，第656-666页，2018年[9] Bo Dai，Sanja Fidler，Raquel Urtasun，and Dahua Lin.通过有条件的组来实现多样化和自然的图像描述。在IEEE国际计算机视觉会议（ICCV），第2970-2979页[10] 戴波和林大华。图像加帽的对比学习。神经信息处理系统的进展，第898-907页[11] Abhishek Das ， Satwik Kottur ， Khushi Gupta ， AviSingh ， Deshraj Yadav ， Jose M. F. Moura ， DeviParikh，and Dhruv Batra.可视化对话框。IEEE计算机视觉和模式识别会议（CVPR），2017年7月。[12] 阿布舍克达斯，萨特维克科图尔，何塞'MF莫拉，斯特凡李和Dhruv巴特拉。用深度强化学习学习协作视觉对话代理。在IEEE国际计算机视觉会议（ICCV），第2951-2960页，2017年。[13] 放大图片作者：David J. Fleet，Jamie Ryan Kiros，andSanja Fidler. VSE++：用硬否定词改进视觉语义嵌入在BMVC，第12页。BMVA Press，2018.[14] 傅智文。梯度估计运营研究与管理科学，13：575[15] 彼得 · 格林。随机系统的似然比梯度估计。Communications of the ACM，33（10）：75[16] Will Grathwohl 、 Dami Choi 、 Yuhuai Wu 、 GeoffreyRoeder和David Duvenaud。通过void的反向传播：黑箱梯度估计的优化控制变量。国际学习代表会议（International Conference on Learning Representations，ICLR）OpenReview.net，2018年。[17] Shixiang Gu ， Sergey Levine ， Ilya Sutskever ， andAndriy Mnih. Muprop ： Unbiased Backpropagation forStochastic Neural Networks 。国际学习表征会议（International Conference on Learning Representations，ICLR），2016。[18] 埃米尔·朱利叶斯·冈贝尔极值统计理论及一些实际应用。国家统计局应用数学丛刊，33，1954.[19] Hexiang Hu，Ishan Misra，and Laurens van der Maaten.二元图像选择（BISON）：视觉接地的可解释性评估。arXiv预印本arXiv：1901.06595，2019。[20] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。在国际会议上学习代表（ICLR），4月。2017年。[21] 哈什·贾姆塔尼和泰勒·伯格-柯克帕特里克。学习描述相似图像对之间的差异。在自然语言的经验方法（EMNLP）中，第4024-4034页。计算语言学协会，2018年。[22] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在 IEEE Conference on Computer Vision andPattern Recognition（CVPR）中，第3128-3137页[23] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。在国际学习代表会议（ICLR），2014年。[24] Satwik Kottur，Jose 'M.F. 作者声明：Dr.自然语言在多智能体对话中并不是自然出现的.在自然语言的经验方法（EMNLP），第2962计算语言学协会，2017年。[25] 安吉利基·拉扎里杜，亚历山大·佩萨科维奇，马可·巴罗尼。多智能体合作和（自然）语言的出现国际学习报告会议（InternationalConference onOpenReview.net，2017年。[26] Jason Lee ， Kyunhyun Cho ， Jason Weston 和 Dou

下载后可阅读完整内容，剩余1页未读，立即下载