双向波束搜索：解析双向神经序列模型的前向-后向推理

195 浏览量更新于2023-10-15 收藏 1.16MB PDF 举报

双向RNN

波束搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6961A)单向RNN+从左到右波束搜索（BS）一个人在滑雪斜坡上如何滑雪B)双向RNN+双向波束搜索（BiBS）一名男子在滑雪板上教一个孩子如何滑雪双向波束搜索：填空式图像字幕神经序列模型的前向-后向推理弗吉尼亚理工大学sunqing@vt.edu弗吉尼亚理工大学steflee@vt.edu乔治亚理工大学dbatra@gatech.edu摘要我们通过扩展Beam Search（BS）来推理前向和后向时间依赖性，开发了双向神经序列模型中1-Best（和M-Best）解码的第一近似推理算法。波束搜索（Beam Search，BS）是一种广泛使用的近似推理算法，用于从单向神经元序列模型中解码序列。有趣的是，双向模型中的近似推理仍然是一个悬而未决的问题，尽管它们在对过去和未来的信息进行建模方面具有显着的优势。为了使双向模型的使用，我们提出了双向波束搜索（BiBS），一个有效的算法近似双向推理。为了评估我们的方法，并作为一个有趣的问题，在其本身的权利，我们介绍了一种新的填空图像字幕任务，需要推理的过去和未来的句子结构，以重建明智的图像描述。我们使用这个任务以及Visual Madlibs数据集来证明我们方法的有效性，始终优于所有基线方法。1. 介绍递归神经网络（RNN）及其推广（LSTM、GRU等）已经成为一个流行的和有效的框架，用于跨不同领域的连续数据建模。这些模型的应用显著提高了各种任务的性能-从广义上讲，在这些应用中，RNN通常以两种不同的角色使用-用于图像标题检索和VQA（具有答案分类）的模型[12，13]由编码器RNN组成，但不是解码器。图像字幕生成模型[7]由解码器RNN组成，但不包括编码器（执行图像编码图1：我们为神经序列模型开发了一种新的双向波束搜索（BiBS）算法，并提出了一种新的填空图像字幕任务，作为序列完成的具有挑战性的测试平台。单向RNN无法对过去和未来的输出进行推理，并为此任务产生无意义的输出-请相比之下，我们在双向RNN上的BiBS算法通过考虑空白两侧的上下文来产生更好的完成（B）。通过卷积神经网络）。可视化对话框模型使用编码器嵌入对话框历史和模型状态，同时使用解码器生成对话框响应。不考虑设置，从RNN解码序列的任务包括找到最可能的序列Y=（y1，...，yT）给定某个输入x。单向RNN通过在给定先前输出的历史（yi，. . . ，yt−1）by“ c o m -将历史“压入”隐藏状态向量h t-1，使得P（yt|y1，. . .，yt−1，x）<$P（yt|ht−1）。由于每个输出符号以所有先前的输出为条件，可能序列的搜索空间在序列长度上是指数的，精确推断是困难的。因此，近似推理算法的应用，与梁一名男子在滑雪板上向一个小孩展示如何滑雪B）BiRNNA）URNN6962不不搜索（BS）是主要的主力。BS是一种贪婪的启发式搜索，它通过搜索树来维护前B个最可能的部分序列，其中B被称为波束宽度。在每个时间步，BS将这些B部分序列扩展到所有可能的波束扩展，然后在扩展中选择B与单向RNN相比，双向RNN既可以向前（增加时间）也可以向后（减少时间）建模。折痕时间）依赖性P（yt|hf，hb）通过两个隐藏的并且很快变得难以处理。为了克服这些缺点，我们引入了双向神经序列模型（RNN，LSTM，GRU等）中1-Best（和M-Best）推理的第一近似推理算法。- 双向波束搜索（BiBS）。我们表明，BiBS在填空任务上表现良好，有效地结合了双向RNN的向前和向后时间信息。t t为了给出算法概述，我们首先分解-状态向量hf和hb。这使得双向RNN将双向RNN分成两个校准但独立的RNN，在预测产量时要考虑过去和未来。不幸的是，这些依赖性也使得这些模型中的精确推断比单向RNN更困难，并且据我们所知，不存在有效在本文中，我们提出了第一个有效的近似推理算法，这些模型。作为我们的方法的一个具有挑战性的测试平台，我们提出了一个填空图像字幕任务。例如，给定图1中所示的空白图像标题缺失的内容该任务为其他类似序列完成任务的广泛类别提供了具体的替代，例如预测DNA序列中缺失的部分或代理必须命中中间标志点的路径规划问题。从表面上看，这项任务似乎比从头开始生成整个标题更容易;毕竟输入中有更多的信息。然而，需要条件的上下文时，产生丢失的对称性是具有挑战性的现有贪婪近似推理算法。图1（a）示出了在单向RNN上从标准“从左到右”BS解码的示例注意语法错误的从右到左模型的另一个边界也会出现类似的问题。简单地说，在BS中无法同时考虑未来和过去的上下文，导致单向RNN用与空白周围的上下文突然冲突的单词来填充空白。此外，解码也带来了计算挑战。考虑下面的句子，我们知道只有一个词失踪：“那正在沿着足迹”填写这个空白感觉很简单然而，由于单向RNN中的所有未来输出都是以过去为条件的，因此在时间t选择最佳单词需要为每个可能的单词yt∈ Y评估整个序列的似然性一次（对于双向RNNRNN）。这相当于T| Y|向前通过一个RNNtimally！更一般地说，对于任意大小的空白覆盖w个单词，这个数字随着T呈指数增长|Y|W单向RNN（一个在时间上向前，另一个向后）。为了用这些分解的模型进行近似推理，我们的方法交替地在一个方向上执行BS，同时保持相反方向上的波束固定。固定的、相反定向的波束用于粗略地近似给定过去的所有未来序列的条件概率，使得类似BS的更新最小化每个时间步长处图1（b）显示了我们算法的一个示例我们将BiBS与自然消融和基线进行比较，以完成填空任务。我们的研究结果表明，BiBS是解码双向RNN的一种有效和高效的方法，始终优于所有基线。2. 相关工作虽然单向RNN是广泛采用的流行模型[1有效的推理方法。Wang等人[21]使用双向RNN进行图像caption生成，但不执行双向推断，而是简单地使用双向RNN重新评分。具体地说，在推理时，它们分解将一个双向RNN分解为两个独立的单向RNN，在每个方向上应用标准波束搜索，然后基于前向或后向单向RNN模型下每个波束的最大概率对这两个波束集合进行重新排序。我们在实验中比较了这种方法，并表明通过双向波束搜索的联合优化可以为我们的填空图像字幕任务带来更好的序列完成与我们的工作最相关的是Burglundet al。[22]，研究使用双向RNN在无监督设置中生成时间序列数据中的缺失数据他们提出了三种概率合理的方法来填补这些空白，从整个联合抽样。他们的第一个模型，生成随机网络（GSN），在随机时间t对输出yt进行696322输出功率P（yt|Y[1：T]\t）。对于长度为w的空白，将每个输出标记重新排序M次需要RNN的wMT遍因此，生产样品的成本GSN方法与间隙的大小呈线性关系，并且需要双向RNN的完整通过。他们的第二种方法，NADE，专门为填充训练模型max函数，该函数在输出词汇Y上产生分布。图2a中示出了示例从左到右单向RNN架构。双向RNN（BiRNN）（如图2b所示）通过两个隐藏的状态向量对前向（正时间）和后向（负时间）依赖性进行建模-前向在空白处-即。在训练时，某些输入设置为→−←−一个特定的在推理时，来自gap的输入被设置为该标记，并从结果条件中采样。ht和后向ht以及相应的权重。对于BiRNN，我们可以将给定输入序列的令牌yt的概率写为理性的请注意，这种方法是相比之下，这是一种填补空白的新模式，而我们提出了一种新的P（y t|X[1：T]）=φ（−→→−WYHT +联系我们前锋得分←−←−维YHT联系我们后向得分+by）（2a）推理算法，它可以广泛地应用于任何→−−→−→→−→−生成双向模型最后，他们提出了第三个ht=σ（Wxxt+Whht−1+bh）（2b）基于单向RNN的采样方法，←−←−←−←−←−从条件P（y t）中提取|Y[1：T]\t）;然而，由于模型是从左到右的单向RNN，因此该术语重新定义为要求计算在时间t给定每个可能令牌的剩余序列的似然性。这种昂贵的方法需要W| Y|MT是RNN的步骤，对于大词汇表来说是难以处理的。ht=σ（Wxxt+Whht+1+bh）（2c）BiRNN作为URNN。考虑一个双向RNN，其输出非线性系数φ定义为softmax函数pi=φi（s）=esi/这是直接的警告，以显示，在给定所有其它记号的情况下，yt的条件概率可以写成3. 分类：RNN和Beam Search−→→−←−←−P（y t|X[1：T]）= φ（W yh t+ W yh t+ b y）我们首先建立符号，并回顾RNN和标准光束搜索的完整性。虽然我们的博览会详细介绍了经典的RNN更新，但本文中描述的技术广泛适用于任何递归神经架构（例如，LSTM [23]或GRU [24]）。记法。设X =（x1，x2，. . . .. 类似地，设Y =（y1，y2，. . . ，y，T）表示输出序列，其中y，t是在时间t的输出向量。为了避免符号上的混乱输出序列（T）;然而，这在理论或实践中不是限制。给定整数a，b，我们使用符号Y[a ：b]来表示子序列（ya，ya+1，. . .，yb）;因此，按照惯例，Y=Y[1：T] 给定离散变量-. −→→−b. ←−←−bφWyht+yφWyht+y其中，比例中的所得项类似于等式中的URNN输出等式。1a.直观地说，这个表达式表明，具有softmax输出层的双向RNN的输出可以等效地表示为两个独立但方向相反的URNN的输出的乘积，这些URNN具有特定构造的权重，在相乘后重新归一化。这种方法也可以反向工作，这样一个等价的双向RNN可以从两个独立训练但方向相反的URNN构建。因此，我们将认为双向RNN由前向--−→←−−我们推广了经典的极大化符号argmaxY∈Yf（Y），通过符号top-BY∈Yf（Y）来寻找f（Y）最大的（唯一）顶B态.单向RNN（URNN）在给定输入x1，... . . ，xt，通过将历史“压缩”成隐藏状态向量h t，使得P（yt|X[1：t]）=φ（Wyht+ by）（1a）ht= tanh（Wxxt+Whht−1+ bh）（1b）其中Wx、Wh、Wy、bh和by是定义从输入xt和隐藏状态ht−1到输出yt和更新的隐藏状态ht的变换的学习参数。在以符号序列作为输出（诸如图像）的字幕），非线性函数φ通常是软-时间模型URNN和后向时间模型URNN。用于解码的RNN被训练以产生以某些编码表示X为条件的序列。对于机器翻译任务，X可以表示要翻译的某个源语言序列的编码，并且Y是翻译。对于图像字幕，X通常是卷积神经网络（CNN）[25]产生的图像的密集向量嵌入，Y是对应图像字幕的单词的1-hot编码序列。不管它的来源如何，这个编码的代表-t被认为是第一输入x0，并且对于所有剩余的时间步长xt= yt-1，使得解码器RNN正在学习对P（yt）进行建模|yt−1，...， y1，x0）。这是本文中的interest设置，但我们放弃了对编码x0的显式依赖，以减少后面章节中的符号混乱6964yt−1ytyt+1yt−1ytyt+1是标准在在...的前面阿霍斯一带软管的场地xtxt+1一个女人站在...旁边一霍尔塞在一布朗霍斯菲尔德(a) 单向RNN(b) 双向RNN(c) Beam搜索图2：RNN和从左到右波束搜索的不同架构。（a）变量y t的预测仅取决于URNN中的过去。BiRNN（b）可以考虑过去和未来。（c）示出了在波束宽度为B=4的URNN中用于波束搜索的搜索树。波束搜索（BS）。最大后验概率（MAP）（或更一般地，M-Best-MAP [？RNN中的推理包括在模型下找到最可能的序列。解码的主要困难在于，可能的T长度序列按指数增长，|Y|T，所以采用了近似推理算法。由于这种指数输出空间和对随机输出的依赖性，在一般情况下，精确推理是NP困难的。Beam Search（BS）是一种贪婪的启发式搜索算法，它使用广度优先搜索遍历搜索树，同时只扩展每个深度上最有希望的节点。具体地，单向RNN中的BS涉及保持和扩展前B个得分最高的部分假设，称为波束。设Y[1：t]=（y1，. . . ，y，t）表示在时间t的部分假设（波束）。我们使用符号Y[1：B]，[1：t]=（Y1，[1：t]，Y2，[1：t]，. . . ，YB，[1：t]）到表示B束的集合。BS以空开始波束，Yb，0=（yb，0），其中yb，0=k，kb，并且以从左到右的方式进行直到时间T或直到生成特殊的END令牌在每个时间t，BS考虑所有可能的波束扩展Yt=Y[1：B]，[1：t-1]× Y的空间，并在该扩展的假设空间中选择前B个高得分的t长度波束我们可以将对最优更新波束Y[1：B]、[1：t]的搜索形式化为：围绕yt的关节的这种从左到右的分解由三项1) 在y t：P（Y [1：t-1]）之前的序列的2) 给定过去的yt的条件：P（yt|Y[1：t-1]），以及3) 在给定所有先验项的情况下，y t之后的剩余序列的条件：P（Y[t+1：T]|yt，Y[1：t−1]）。如果我们考虑选择yt来最大化这个联合，那么前两项可以通过给定现有序列的从左到右URNN的前向传递来精确计算;然而，第三项不能精确计算，因为它取决于所有未来。即使用波束近似第三项也需要针对yt的每个可能设置重新运行波束搜索，这是非常昂贵的。解释从左到右BS的一种方式是将其视为仅用前两项来近似（4）中的接合点。具体地说，如果我们假设P（Y[t+1：T]|yt，Y[1：t−1]）是均匀的，即所有的未来都是一样的，那么BS选择的是最优的yt。这种近似在实践中并不成立，并且导致性能不佳用于填空任务的mance，其中所有未来序列在设计上都不可能相等在本节中，我们考虑另一种近似，并推导出我们的BiBS方法。有效地接近未来。为了得到一个顶部-BYtlogP.ΣY[1：t]=Σti=1logP（yi|yi−1，. . . ，y1）。第三个条件的易处理近似值（通过代理，完全联合），我们做了两个简化的假设（我们知道这在实践中会被违反，但会导致一个有效的上述表达式中的每个对数概率项可以通过单向RNN中的前向传递来计算，例如实现top-B操作只需要对B进行排序|Yt|价值观图2c中示出了BS在从左到右URNN上的示例运行。4. 双向波束搜索我们首先分析由左到右波束搜索在时间t做出的决定。具体来说，在每个时间t，我们可以以特定的方式分解联合概率P（Y[1：T]）P（Y [1，T]）= P（Y [1，t-1]）P（yt|Y [1：t−1]）P（Y [t+1：T] |yt，Y [1：t−1]）（四）近似推理算法）。首先，我们假设福-真实序列令牌独立于给定yt的过去序列令牌，即，RNN是一阶马尔可夫。其次，我们假设P（yt）是均匀的，避免了对所有时间步长估计Y上的边缘分布的需要下这些假设，我们写的条件概率剩余的序列令牌给定过去的序列，P（Y [t +1：T] |Y [1：t]）= P（Y [t +1：T] |yt）∝P（yt|Y [t +1：T]）P（Y [t +1：T]）（5）注意，结果项正好是从右到左的单向RNN。代入Eq.5、进入Eq。4，我们得到一个表达式，它与ht−2ht-1htW WWht+1hbt−2hbWBt-1hbWB不hbWBt+1hfWt−2hfWt-1hfW不hft+1xt-1Xtxt+16965URNN表示log P（y |Y−→−→是一 manon一不教一个斜率粗一孩子滑示出滑雪年轻与如何滑雪前馈RNN一反馈到反向RNNY[1：B]，[1：t]=top-Bb，yt，b′log P（Yb，[1：t−1]）+ log. .ΣPYT|Yb，[1：t−1]P.ΣΣyt |Yb′，[t +1：T] +log P（Yb′，[t+1：T]）（3）图3：双向波束搜索（BiBS）概述。从B个完整序列Y[1，B]，[1，T]的集合开始，BiBS交替地执行从左到右和从右到左的波束搜索，以最大限度地优化整个序列的概率的近似在在上述示例中，通过考虑当前从左到右波束和先前从右到左波束之间的所有可能连接，从左到右波束搜索在时间t处通过字典Y中的任何标记来推进波束。这个联合近似中的项（写在（3）中）可以通过前向和后向单向RNNS有效地计算并排序以找到前B扩展。完全联合，但包括可以从一对相反方向的单向RNN（或等效地双向RNN）独立计算的项，←−−尚未更新。为了更新前向波束，我们考虑当前从左到右波束和从右到左波束之间的所有可能的连接（从上一轮）通过字典Y中的任何标记。我们从URNN联系我们则搜索空间为Yt=Y[1：B]，[1：t−1]× Y×Y[1：B]，[t+1：T]P（Y [1：t −1]）P（yt|Y [1：t −1]）P（yt | Y [t +1:T ])P(Y [t +1: T])联系我们从− −→开始计算（六）和|Yt|= B × |Y|× B.图3示出了用于图像字幕的示例性从左到右更新步骤以及基于请注意，两个中心条件项与上一节讨论的等效softmax双向RNN的输出成坐标下降。给定某个初始序列Y[1：t]，简单的坐标下降算法可以选择随机时间t并更新yt，使得该近似联合最大化，并重复该过程直到收敛。计算方程6将需要将Y[1：t-1]馈送到前向RNN而Y[t+1：T]则为后向RNN。因此，更新所有等式6、这个时间点对于每一个组合，波束和后向波束，这个目标可以很容易地从存储的每个波束的对数概率和前向和后向RNN的条件输出来像标准的Beam Search一样，通过对所有可能的组合进行排序，可以精确地找到最佳扩展。我们的方法只需要2个BMTRNN步骤来执行M轮更新。我们的算法是→−在下面的Alg. 其中θb，i（yb，i）表示在这种方法中输出M次将需要MT2RNNlog P（yb，i|Yb，[1：i−1]），-−−→URNN和←−θb，i（yb，i）步骤（从向前和向后模式组合）。如果我们改为遵循从左到右然后从右到左的交替更新顺序，则可以通过重用来自先前方向的缓存日志概率来将其减少到MT←−−−b，ib，[i+1：T]）。数据：给定序列Y[1：B]，[1：T]的初始集合−→←−第该算法类似于B=1的波束搜索其基于Eq的值的扩展。六、双向波束搜索。最后，我们到达了我们的全部θ[1：B]，[1：T]=θ[1：B]，[1：T]=0而不收敛//从左到右双向波束搜索（BiBS）算法，通过广义-对于t =1，…，没做−−→。−→Σ使用上面概述的简单算法来保持多个θ[1：B]，t，h[1：B]，t=URNNh[1：B]，t−1，Y[1：B]，t−1t−→←−在每次更新过程中倾斜光束鉴于一些初始序列Y[1：B]、[1：T]（可能从左到右端Y[1：B]，t=顶部-Bi=1θb，i（yb，i）+j=tθb′，j（yb′，j）梁搜索），我们交替之间向前（左到右）以及关于以下的反向（从右到左）波束搜索：//从右到左对于t = T，…，1.使用时←−←−←−−←−近似的关节。我们考虑一对正向和θ[1：B]，t，h[1：B]，t=URNN（h[1：B]，t+1，Y[1：B]，t+1）向后更新一轮BiBS。Y=top-BT←−（y）+t−→ '（y'）不失一般性，我们将描述一个射束宽度为B的前向最新孔型.在每个时间t，我们更新了端端[1：B]，ti=tθb，ib我j=1θb，jb，j6966每个波束的前t-1个令牌，使得我们具有部分前向序列Y[1：B]，[1：t-1]和值Y[1：B]，[t+1：T]算法1：双向波束搜索（BiBS）。69675. 实验在本节中，我们评估了我们提出的双向波束搜索（BiBS）算法在BiRNN中进行推理的有效性。为了检验双向推理的性能我们选择填空式任务，其中一些标记已从序列中删除，必须重新构建。具体而言，我们评估了上下文中的常见对象（COCO）[27]数据集和Visual Madlibs [28]数据集的图像字幕的填空任务。基线。我们比较我们的方法，我们表示BiRNN-BiBS，针对几个复杂的基线：- URNN-f：在前向LSTM上运行BS以产生B个输出波束（通过它们在前向LSTM下的概率排序），- URNN-b：在后向LSTM上运行BS以产生B个输出波束（通过它们在后向LSTM下的概率排序），- URNN-f+b：在前向和后向LSTM上运行BS以产生2B个输出波束（由前向和后向LSTM分配的概率的Wanget al.[21 ]第20段。- BiRNN-f+b：在两个LSTM（前向和后向）上运行BS以产生2个B输出波束（通过由前向和后向LSTM分配的对数概率的总和来排序）。这缺乏正式的理由，但我们发现这是一个合理的启发式的任务。- GSN（已订购）：它为每个时间步从BiRNN中采样令牌。我们发现随机选择[22]中的时间步长会导致我们的任务性能不佳，而是以从左到右/从右到左的交替顺序执行更新为了公平起见，我们在相同数量的更新，我们的方法和所有样本序列的重新排序的基础上的对数概率。所有基线都在相同的训练模型上执行推理，我们使用neuraltalk2[8]对完整的人类字幕进行标准评价对于所有模型，我们只计算算法返回的排序列表中的顶梁。我们比较了标准的字幕级度量方法我们注意到，度量是在整个句子（而不仅仅是空白区域）上计算的，以便捕获所生成的文本与现有句子结构的对齐的质量。作为副作用，由于上下文单词的正确性，这些度量的绝对大小被夸大了，所以我们关注相对性能。5.1. COCO [27]数据集包含超过120，000张图像，每张图像都有丰富的注释。这包括五个标题-从亚马逊土耳其机械工人。我们提出了一种新的填空图像字幕基于这些数据。给定图像I和对应的地面实况说明y1，...， yT从数据集，我们删除了一个连续的部分，这样我们就剩下了一个前缀y1，. . . ，ys和后缀是的，. . ，yT由两边的剩余单词组成的空白。利用这些图片和背景剩余的单词，目标是生成缺失的标记ys+1，. . .，ye−1.这是一项具有挑战性的任务，探索模型和推理算法在序列生成过程中对过去和未来的推理能力我们首先考虑已知的空白长度设置（其中推断算法知道空白长度），然后推广到未知空白长度设置。已知的空白长度。在这个实验中，我们从每个图像的标题中间删除r=25%，50%或75%的单词，并让模型负责生成丢失的内容。例如，在r=50%时，标题然后，生成任务将是再现被移除的单词“upofflowersandplantsinside”的子序列。由于我们对双向推理（而不是学习）感兴趣，因此我们在原始COCO图像captioning任务（即，我们不明确地训练以填充空白的字幕）。像[8]一样，我们使用5000张图像进行测试，5000张图像用于验证，其余的用于训练。我们在测试集中对每个图像的单个标题进行评估表1的上半部分报告了我们的方法（BiBS）在不同大小的空白（每个句子中删除的中心词的r%）的填空推理任务上的表现。我们运行GSN和BiBS进行四次完整的向前/向后更新。一般来说，我们发现，双向的方法优于单向的任务。我们发现BiBS在所有指标上都优于所有基线。我们注意到，最近的性能基线（URNN-f+b，BiRNN-f+b）是从2B波束重新排序的。虽然BiBS以交替的从左到右和从右到左的方式操作，但它只保持B波束。有趣的是，向后时间模型URNN-b在所有指标和所有大小的空白上都始终优于向前时间模型URNN-f这可能是由于收集数据的方式。当任务是描述图像的内容时，人们通常通过将他们的句子与图像中可见的特定实体（特别是当描绘人类时）相关联来开始。鉴于此，我们预计会有更多的句子以“相似”开头--6968a) 这位妇女在她的摊位上有许多香蕉和其他水果a）一个男人在地下室的斜坡上玩滑板b) 这个女人在她的摊位上有一串香蕉b）一个男人在地下室里骑着滑板c) 这个女人在她的摊位上拿着一串香蕉c）一个男人在地下室的滑板上玩把戏d) 这个女人在她的摊位上有一大串香蕉d）一个男人在地下室的滑板上玩把戏a) 篱笆后面的一些小飞机a）一只黑黄相间的鸟，嘴上有五颜六色的b) 篱笆上的一些小飞机b）一只黑色和黄色的鸟坐在一个五颜六色的喙c) 一架编号的飞机停在篱笆附近。一只长着五颜六色的喙的d) 许多飞机停在围栏附近d）一只黑黄色的鸟在地下室里a) 一群人站在积雪覆盖的斜坡上a）一排公交车停在停车场b) 一群人在滑雪板上在一个多雪的雪覆盖的斜坡b）一排公共汽车停在a停车场c) 一组滑雪板在积雪覆盖的斜坡上c）一排双层公共汽车停在停车场d) 一群人站在积雪覆盖的斜坡上d）一排红色的公共汽车停在停车场a) 人在水中乘风破浪a）两个人骑摩托车去海边b) 这个人是骑在水中的波浪b）两个人在海滩上的摩托车c) 这个人是在水中冲浪板上的人c）两个人在海滩上骑摩托车d) 这个人是在冲浪板在水中d）两个人在摩托车在海滩a）真实数据b）URNN-fc）URNN-bd）BiRNN-BiBS图4：BS和BiBS生成的填空图像标题完成示例。使用BS解码的URNN通常会产生与空白两侧的剩余上下文冲突的空白重建，而BiBS则无缝地处理这些转换r=0.25r =0.5r =0.75CIDEr Bleu-4 Meteor CIDEr Bleu-4 Meteor2016年12月31日URNN b 6.58 0.668 0.491 3.931 0.372 0.356 2.476 0.219 0.259URNN-f+b [21]6.98 0.709 0.510 4.15 0.398 0.367 2.40 0.209 0.257BiRNN-f+b 6.94 0.705 0.508 3.99 0.385 0.361 2.24 0.201 0.252GSN [22]（已订购）6.90 0.701 0.507 3.63 0.337 0.334 1.876 0.135 0.232BiRNN-BiBS（我们的）7.12 0.720 0.517 4.26 0.408 0.368 2.57 0.228 0.2652019年12月31日星期一上午10时30分2.151 0.424 0.367 2.909 0.303 0.2852019年12月26日星期一上午10：00-下午11：00BiRNN-f+b 5.640 0.588 0.452 4.380 0.453 0.378 2.930 0.305 0.303GSN [22]（已订购）5.725 0.589 0.447 3.591 0.413 0.357 2.456 0.257 0.261BiRNN-BiBS（我们的）5.935 0.614 0.460 4.40 0.454 0.380 2.9360.3050.288表1：COCO上不同填空图像字幕方法的比较[27]。r是从句子中删除的单词的分数，默认情况下B=5BiBS始终优于基线方法。更大的单词，这样从结尾生成句子的开头将是一项更容易的任务。BiBS融合。为了研究我们的方法的收敛性，我们考虑填充字幕的真实联合概率作为BiBS轮数的函数。我们在BiBS的每次元迭代之后计算这些联合对数概率的平均值，其中我们将元迭代定义为一对完全的前向和后向更新通道。我们发现，联合对数概率下降迅速（从-2.47减少到-2.11在一个单一的元迭代），表明高质量的解决方案，发现从单向初始化只有几个元迭代的BiBS。在实际上，我们发现对于填空图像字幕，波束通常在1到2次元迭代中会聚图4显示了几个定性示例，比较了来自URNN-f、URNN-b和我们的BiRNN-BiBS方法的完整字幕与地面真实人类注释。运行标准BS的单向模型通常会生成与空白边缘的现有单词突然冲突的句子。例如，在第一个例子中，前向模型产生语法上不正确的短语“bananas on at her stand”，类似地，后向模型输出“Thewoman has holding a bunch”。这种行为是一种自然的结果，已知长度未知长度6969这些模型同时有效地推理过去和未来的能力。虽然这些单向模型很难推理空白两侧的单词转换，但我们基于BiRNN的BiBS算法通常会产生与上下文平滑匹配的重建，产生一个合理的这个例子还突出了我们的评估指标中可能存在的缺陷;虽然人类观察者可以清楚地分辨出这三个句子中的哪一个是最自然的，但是每个句子的句子级别统计非常相似，每个句子仅共享单词banana，并且具有地面实况说明“The woman has many bananas and other fruit ather stand”。评估生成的语言是一个困难和开放的问题，这是进一步复杂的填空上下文。未知长度空白。虽然我们的方法是针对已知的空白长度设计的，但在本节中，我们将BiBS应用为空白长度范围内的黑盒推理算法我们校准搜索的长度，首先通过仅调节空白左侧的单词来生成从左到右的顶部1波束Yf，并且通过仅调节空白右侧的单词来生成从右到左的顶部1波束Yb然后，我们定义毛坯的长度范围作为min{len（Yf），len（Yb）}到max{len（Yf），len（Yb）}，其中，len（Y）是光束Y的长度。我们在此范围内的每个长度上执行推理，并选择最高的所有长度的概率完成表1的下半部分报告了结果。我们发现BiBS在所有指标上都优于几乎所有基线（在r = 0时被URNN-f+b勉强击败。75蓝色-4）。对于所有方法，可变长度任务的结果都比已知空白长度差，这主要是由于难以比较具有不同长度的序列的可能性。5.2. 视觉Madlibs在本节中，我们将评估我们在Visual Madlibs [28]填空描述生成任务上的方法。Visual Madlibs数据集包含10，738张图像，其中12种类型的填空题由AmazonMechanical Turk上的3名工作人员回答。我们使用物体的启示（类型7）和配对的关系（类型12）填空题，因为这些类型的问题中间有空白。例如，人们可以在沙发上放松。这个人正在往碗里放食物。我们使用2000张图像进行验证，在训练集中的剩余图像上进行训练，并在2，160张图像测试集上进行评估。据我们所知，我们是第一篇探索CNN+LSTM文本生成性能的论文。我们比较了这些实验的两个额外基线，nCCA [32]和Visual Madlibs论文[28]中实现的nCCA（框）方法。nCCA将图像和文本映射到一个联合嵌入空间，然后从训练集中找到这个嵌入空间型号7型号12蓝-1蓝-2蓝-1蓝-2URNN-f0.3130.1380.2750.160URNN-b0.4600.2840.3460.213[21]第21话0.4470.2750.3470.214BiRNN-f+b0.4480.2750.3470.213[22]第二十二话0.4270.280.1480.099BiRNN-BiBS（我们的）0.4700.3890.3530.216NCCA0.560.10.460.07nCCA（盒）0.600.110.480.08表2：使用BLEU-1和BLEU-2的Visual Madlibs任务默认情况下B= 5点我们注意到，这是一种检索而不是描述生成技术，因此不能直接与BiBS进行比较，并且仅为了完整性而报告。nCCA（box）从问题中提到的相关人员或对象的地面实况边界框中提取视觉特征，因此是一个我们再次使用neuraltalk2[8]框架为对象我们使用Bleu-1和Bleu-2评价了测试数据（与[28]一致）。表2显示了已知空白长度的本实验结果（未知长度结果见附录我们发现，BiBS在两种问题类型上都优于其他基于生成的基线，并且与基于检索的nCCa技术竞争，在Bleu-2上大大优于 nCCa检索和nCCA（box）oracle6. 结论总之，我们提出了双向神经序列模型（ RNN ，LSTM，GRU等）中1-Best（和M-Best）解码我们研究我们的方法的背景下，一个新的填空图像字幕任务，评估如何以及序列生成模型和相关的推理算法，将已知的信息从过去和未来的这是一个具有挑战性的设置，我们证明了标准的波束搜索不适合这项任务。我们开发了一种双向波束搜索（BiBS）算法，该算法基于对输出序列上的全联合分布的近似，在双向递归神经网络模型中计算是有效的。据我们所知，这是第一个在双向RNN中进行top-B MAP推理的算法。我们已经证明，BiBS在填充空白图像字幕和Visual Madlibs方面都优于自然基线。未来的工作涉及将这些想法推广到树结构或更一般的递归神经网络[33]，并产生不同的M-Best序列[34，35]。6970鸣谢我们感谢Rama Vedantam的初步头脑风暴。这项工作的部分资金来自DB的以下奖项：NSF CAREER、ONR YIP、ONR Grant N 00014 -14-1-0679、ARO YIP和NVIDIA GPU捐赠。SL部分由布拉德利博士后奖学金支持本文所载结论为作者，不应被解释为必然代表美国政府的官方政策或认可，无论是明示还是暗示政府或任何赞助商。引用[1] G.欣顿湖 Deng，D. Yu，G. E. Dahl，A.R.穆罕默德N. Jaitly，A.Senior，V.Vanhoucke，P. Nguyen等人，“用于语音识别中声学建模的深度神经网络：四个研究小组的共同观点，”信号处理杂志，IEEE，第29卷，第29号。第6页。82[2] G. E. Dahl、D.于湖，加-地Deng和A. Acero，“用于大词汇量语音识别的上下文相关的预训练深度神经网络”，音频，语音和语言处理，第20卷，第21期。第1页。30[3] D.巴赫达瑙湾Cho和Y. Bengio，[4] K.乔湾，巴西-地Van Merriënboer，C. Gulcehre，D. 巴赫达瑙F.布加雷斯Schwenk和Y. Bengio，[5] N. Kalchbrenner 和 P. Blunsom ， “Recurrent ContinuousTranslation Models.”，EMNLP，2013年。[6] O. Vinyals和Q. V. Le，http://arxiv.org/pdf/1506.05869v3.pdf，2015年。[7] O. Vinyals，A. Toshev，S. Bengio和D. Erhan，[8] A. Karpathy和L. Fei-Fei，[9] H. Fang，S.古普塔F. N.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. Dollár，J. Gao、X.他，M。米切尔，J。C.普拉特角L.Zit-nick和G.Zweig，[10] X. Chen和C.L. Zitnick，[11] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T. Darrell，[12] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.Parikh，[13] M. 伦河，巴西-地Kiros，和R.Zemel，[14] J. Lu，C. Xiong，中国山杨D. Parikh和R. Socher，[15] M. Malinowski和M. Fritz，[16] D. Geman，S. Geman，N. Hallonquist和L. Younes，[17] A.达斯，S。科图尔湾古普塔A。辛格山，加-地Yadav，J.莫拉D. Parikh和D.Batra，[18] H. de Vries ， F.Strub ， S. 阿萨尔岛皮耶特坎湾Larochelle，和A. C.考维尔，“猜猜看？！通过多模态对话进行视觉对象发现[19] Z. 黄，W.Xu和K.Yu，[20] H. Sak，A.老K Rao和F. Beaufays，[21] C. Wang，H.杨角，澳-地Bartz和C.Meinel，[22] M. 贝格隆德 T. 濑子 M. 洪卡拉， L. 卡尔凯宁，A. Vetek 和 J. Karhunen ， “Bidirectional Recurrent NeuralNetworksasGenerativeModels”，NI

下载后可阅读完整内容，剩余1页未读，立即下载