自然语言处理深度学习综述与展望：沙特国王大学学报

177 浏览量更新于2024-01-17 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报深度学习Touseef Iqbala，1，Shaima Qureshiaa印度查谟和克什米尔斯利那加国家理工学院计算机科学与工程系阿提奇莱因福奥文章历史记录：2019年12月9日收到2020年3月29日修订2020年4月1日接受2020年4月13日在线提供保留字：自然语言处理深度学习词嵌入递归神经网络（RNN）卷积神经网络（CNN）变分自动编码器（VAE）生成对抗网络（GAN）文本生成技术激活函数优化技术A B S T R A C T深度学习方法拥有许多处理层来理解数据的分层表示，并在多个领域取得了最先进的成果。最近，深度学习模型设计和架构已经在自然语言处理（NLP）的背景下展开。本综述简要介绍了在深度生成建模领域所取得的进展。这项工作考虑了2015年以来的大部分论文。在本文中，我们回顾了许多用于生成文本的深度学习模型。我们还总结了各种模型，并对深度学习中文本生成模型的过去、现在和未来提出了详细的理解。此外，在自然语言处理的不同应用领域中已经探索和评估的深度学习方法也包括在这次调查中。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言25162.相关工作。...................................................................................................................................................................................................................................................... 25162.1.分布式表示25162.1.1.Word2Vec 25172.2.手套FastText 25172.3.深度生成模型中使用的算法25172.3.1.递归神经网络（RNNs）25172.3.2.长短期记忆（LSTM）和门控递归单元（GRU）25182.3.3.双向RNN（BRNN）25182.4.卷积神经网络（CNN）在文本中的作用25182.5.生成模型中使用的激活函数2.6.生成式建模的优化技术3.用于文本生成的最新深度学习技术25213.1.可变自动编码器（VAE）25213.2.生成对抗网络（GANs）25234.文本评估方法2526*通讯作者。电子邮件地址：touseef_04phd18@nitsri.net（T. Iqbal），shaima@nitsri.net（S. 库雷希）。1使用脚注提供关于作者的进一步信息（网页，替代地址）-而不是承认资助机构。沙特国王大学负责同行审查。https://doi.org/10.1016/j.jksuci.2020.04.0011319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com小行星2516伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515- 25285.结论2526竞争利益声明参考文献25271. 介绍个人是地球上最特殊的物种，作为人的成就是传递和共享数据的能力。当我们讨论人类语言的时候，创造语言的想法就出现了，它是我们的一个衰减和复杂的部分。根据（Shacklett，2017）行业估计，只有21%的信息是有组织的。信息正在到处大规模地被创建为推文，并在WhatsApp或Facebook上的不同群组上发送消息，其中大部分信息以文本形式存在，本质上是高度非结构化的。现在，为了从这些信息中创建重要的知识，重要的是要了解自然语言处理（NLP）系统。NLP是管理人类语言的软件工程和人工智能（AI）领域。它是一种计算技术，我们可以自动表示和分析语言。学习句子表示是许多自然语言应用程序的基础（Dair.ai，2018）。这些模型试图学习固定长度的特征向量，该特征向量编码句子的语义和句法属性。训练句子模型的流行方法之一是通过使用递归神经网络（RNN）的编码器-解码器框架（Elman等人，1990年）。由于NLP的研究已经从打孔卡和批处理的时代出现，情感分析的处理可能需要几分钟到Google和Likes的时代其中，数百万个网页可以在不到一下深度学习架构在计算机视觉、模式识别和网络流量分析方面所表现出的令人印象深刻的结果，使我们的注意力在NLP上也遵循了同样的趋势。由于对NLP的研究正在以非常高的速度增长。由于NLP任务很难解决，但需要深度学习才能让我们在这一领域的许多挑战性问题上获得最先进的技术（机器翻译（Zhang et al.，2015），文本摘要（Nallapati例如，2016））。深度学习已经在NLP领域发展了许多算法，如递归神经网络（RNN）（用于序列建模）、具有外部记忆的递归神经网络（RNN-EM）（以提高RNN的记忆能力）（Peng和Yao，2015）、门控反馈递归神经网络（GF-RNN）（用门控单元堆叠多个递归层）（Chung等人，2015）、作为递归神经网络的条件随机场（CRF-RNN）（用于概率图形建模）（Zheng等人，2015）、准递归神经网络（Q-RNN）（使用parasitime时间步长进行序列建模）（Bradbury等人，2016），记忆网络（用于问答（QA））（Weston等人，2014），增强神经网络（神经图灵机）（Olah和Carter，2016）。其中一个著名的深度学习模型被称为Generative对抗网络（GANs）（Goodfellow et al.， 2014），其彻底改变了计算机视觉领域，特别是图像生成（CycleGAN（用于跨域传输））。这些基于GAN的模型与深度学习中的传统模型不同，因为它们具有对抗性的网络训练方式。GAN的结构在第三节中讨论GAN已逐步用于图像。近年来已经提出了图像域中的GAN的许多变体（DCGAN（ Radford 等人， 2015 ）、 CapsuleGANs （ Jaiswal 等人，2018）、Ficti- tiousGANs（Ge等人，2018年）），但由于文本的离散性，文本领域的进展有限。许多近年来的技术已经被用于拟合GAN模型以生成文本。近年来广泛使用的另一种用于数据生成的流行深度学习机制是变分自动编码器（VAE）（Kingma和Welling，2013）。本文讨论了近年来在这些文本生成模型领域中所取得的进展，以及围绕这些生成机制的算法。本文的结构如下：第二节介绍了文本生成领域中使用的算法和技术，如单词的分布式表示，递归神经网络（RNN），卷积神经网络等。第三节介绍了文本生成领域中的变分自动编码器（VAE），生成对抗网络（GANs）。第四节讨论了一些评价方法。最后，第五节总结了这一切。2. 相关工作人工神经技术的最新方法，特别是渐进式深度学习，对人工智能（AI）领域产生了巨大的影响，经常在各种独特领域的大多数复杂任务的解决方案中表现出最先进的特征。NLP不是特例。在NLP的许多领域，深度学习的利用已经提供了有效地优于其他人工智能和统计技术所实现的结果（Iqbal et al.，2019年）。本节将讨论与文本生成领域相关的技术和算法。2.1. 分布式表示输入数据的分布式表示方法是深度生成模型的基本思想，特别是在应用于NLP问题时。输入的非分布表示增加了稀疏性，这在几个方面是低效的首先，数据的维度随着结构的增加而增加，因此深度学习模型试图映射输入数据的语义信息由于高维而变得困难。向量空间中单词的分布式表示增强了深度生成模型，从而在NLP任务中获得更好的结果。利用压缩和低维向量的优点之一是计算：大多数深度生成系统压缩表示的主要优点是泛化控制。如果我们的数据集包含代表相似含义的特征，那么最好获得描述这些相似性的表示（Goldberg等人， 2017年）。单词表示始于1980年（Rumelhart等人， 1988年）。然后将该想法应用于统计语言建模（Bengio等人，2003年），随后是许多NLP任务（Collobert和Weston，2008年;Glorot等人，（ICML-11），2011，）。近年来已经产生了许多用于获得输入的分布式表示的模型（Word2Vec（Mikolov等人，2013）Node2Vec （Grover和Leskovec ，2016 ）Gene2Vec （Du 等人，2019年））。NLP是设计复杂自然语言（NL）任务的主要选择在任何NLP任务的开始，当我们试图学习语言模型的联合概率函数时，都存在维数问题，因此总是需要理解文本在低维空间中的分布式表示单词嵌入XT.伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515-25282517Fig. 1. （左边是连续的单词包架构，右边是跳过的语法）。（Goldberg和Levy，2014）是离散分类变量到连续数向量的映射。在人工神经网络（ANN）的上下文中，嵌入是离散变量的低维学习连续向量表示。词嵌入实际上遵循分布假设，即具有相似含义的词出现在相似的上下文中。因此，这些向量试图捕捉彼此更接近的单词的特征。分布向量实际上捕获单词之间的相似性（余弦相似性）。考虑到该领域的研究人员数量，词嵌入在深度学习领域的重要性变得值得注意。由Google领导的词嵌入领域的一项研究促进了通常被称为Word2Vec的相关技术或算法组的进步。2.1.1. Word2VecWord2Vec方法具有前馈全连接ANN架构（NNSS，2017）。如图 1 所示， Word 2 Vec 从给定的词的上下文（连续词袋（CBOW））预测目标词，或者从目标词（Skip-gram模型）预测上下文。Mikolov et al.（2013）和Mikolov et al.（2013）提出了CBOW和Skip Gram模型，彻底改变了词嵌入的概念CBOW模型通过给定上下文词来确定目标词的条件概率，而跳跃语法模型则相反，通过给定中心词来确定周围的上下文词。假设上下文词对称地位于目标词在两个方向上的距离等于窗口的大小。当词嵌入的维数增加时，预测精度也增加。词嵌入无法表示短语是其局限性之一。例如，“热土豆”不被认为是两个词的组合。Word 2 Vec的一个著名结果是2.2. 手套FastTextWord2Vec的问题在于它依赖于句子的局部上下文，这意味着它只捕获语言的语义信息。然而，这有时可能是次优的手套（GlobalVectors）（Pennington等人， 2014）另一方面，在将单词转换为向量的同时，捕获词汇的全局上下文和局部上下文。然而，每种措施都有其自身的优点。例如，在类比的情况Word2Vec做得很好。手套的作用是词的共现. GloVe嵌入背后的直觉是使用神经网络将其分解为深思熟虑和密集的向量的共现矩阵。因为Glove向量比Word2Vec向量训练得更快。他们两个都失败了以在分布式表示的上下文中提供明确的结果。将单词表示为向量的另一种方法是FastText（Bojanowski等人，2017年，它是Word2Vec的扩展。该方法将每个单词表示为字符的n-gram，而不是直接表示单词。这种技术有助于捕捉小词的语义。这种方法的优点是可以表示在训练时可能没有看到的罕见单词。FastText在不同的指标上提供了比Word2Vec更好的结果。词到向量的表示对深度生成模型产生的输出有很大的影响，因此，有必要使用有效的词表示算法。2.3. 深度生成模型中使用的算法这里列出了经常用于生成文本的流行算法2.3.1. 递归神经网络（RNN）递归神经网络（RNNs）是解决NL问题的最强大的算法，特别是在对序列数据建模时。由于RNN包含内部存储器，因此它能够记住以前的输入以及当前的输入，这使得序列建模任务变得更加容易（Sherstinsky，2018）。在任何时间步的输出不仅取决于当前输入，而且还取决于在先前时间步生成的输出，这使得它能够高度执行语言生成，语言翻译，情感分析等任务。在ANN中，所有输入都是相互独立的，但在RNN中，输入之间存在依赖性。图2示出了展开的RNN，在特定时间步长“t”处的输出ht不h t¼Xt WtUht-1b1t¼0ht-1是先前输出，Xt是当前输入，Wt表示时间步长t处的权重，U也表示与输出ht-1相关联的权重，b表示偏置项。小行星2518伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515- 2528图二. 递归神经网络（Recurrent Neural Network）在每次迭代t时，输入Xt被馈送到网络，其中ht基于先前的输出ht-1来计算。RNN由于其序列建模能力而RNN对序列任务建模的能力在于它的高维隐态和非线性动力学。但是已经看到RNN的训练是非常困难的，这阻碍了它在许多NLP任务中的使用（Bengio等人，1993）（Pascanu等人，2013年）。因此，尽管其具有连续建模能力，但在过去20年中在该领域中看到的研究很少（Sutskever et al.，2011年）。与RNN相关的训练问题是建模长期依赖性：爆炸/消失梯度，爆炸梯度;也就是说，当算法将高结果分配给权重时，模型在消失梯度中无法学习任何东西;梯度的值太小，模型停止学习。为了解决这些问题，最近在RNN中进行了变体和改进（Salehinejad等人，2017年）。2.3.2. 长短期记忆（LSTM）和门控递归单元（GRU）LSTM（Hochreiter和Schmidhuber，1997）继承了与vanillaRNN相同的架构，没有隐藏状态。LSTM中的存储单元被称为单元，其将随机状态和电流输入的组合这些细胞实际上决定了什么要保留在记忆中，什么要删除。假设，我们查看在线评论，以确定我们是否想购买任何食品。让我们说一个评论是（惊人的！这盒食物给了我一个完美的平衡早餐，因为所有的东西都应该是。我只吃了一半，但肯定会再买的！）.在阅读评论后，我们的大脑下意识地只记住重要的关键词.我们记得像“惊人”和“完美均衡的早餐”这样的词。像“给予”“所有”“应该”这样的词我们都懒得去记。如果我们的朋友第二天问我们关于复习的事情，我们可能这正是LSTM和RNN所做的它只学习保留相关信息来进行预测，而忘记所有不相关的数据。这种类型的机构克服了上述问题LSTM包含内存状态（先前状态、当前内存和输入），它们被组合起来解决像消失/爆炸梯度这样的问题。已经提出了许多基于LSTM的文本生成模型（Pawade等人，2018Chen等人，2019Wang等人，2019年）。GRU是标准RNN的另一个扩展（Cho等人，2014），它用门控网络修改了LSTM架构，其产生控制当前输入和连续存储器的信号以更新当前激活和当前网络状态。它比LSTM简单，LSTM中的参数更新也根据算法用于门。许多深层生成架构已经使用GRU来生成文本（Mangal等人，2019; Hong等人， 2018年）。2.3.3. 双向RNN（BRNN）算法的选择是设计任何深度学习模型的重要因素已经提出了许多深度生成模型，其中BRNN用于生成输出序列（Berglund等人， 2015年）。BRNN背后的思想是，时间步t的输出可能不仅取决于序列的先前元素，还取决它们只是由两个独立的RNN组成（Schuster和Paliwal，1997）。为了检验这一点，必须将两个RNN的输出组合起来，其中一个在向前方向上执行过程，第二个在向后方向上运行过程，如图所示。3.第三章。第一个RNN的输入以正常的时间顺序给出，而第二个RNN的输入以相反的时间顺序给出。这种结构允许网络在每个时间步都有关于序列的向后和向前信息。时间步长t处的输出计算为：Yt<$gw½htf;htb] b2Htf和Htb分别表示前向和后向的隐藏状态，w表示与它们相关联的权重，b表示偏置，这有助于模型拟合给定数据，而g是用于将非线性添加到网络中的激活函数RNN的另一个扩展通过添加外部记忆源来扩展神经网络的能力，其可以通过注意力机制进行交互，被称为神经图灵机（NTM）（Graves等人，2014年）。与LSTM不同的是，内存存储在隐藏状态，NTM有外部内存来存储它。2.4. 卷积神经网络（CNN）的文本卷积神经网络（CNN）是计算机视觉中常用的算法之一.这些是图像分类和大多数计算机视觉系统的主要驱动力，当谈到Facebook神经网络在自然语言处理中的应用研究ωT.伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515-25282519图三. 双向递归神经网络图四、Convolutional Neural Network for NLP（Britz，2015）.最近已经开始了一些任务并取得了令人感兴趣的结果（Lai等人，2015年）。已经提出了许多使用CNNS进行文本分类的方法（Jacovi等人，2018年; Xu等人，2015年）。与将图像像素作为输入的计算机视觉问题不同，NLP任务而不是图像像素使用句子，单词或有时字符取决于问题分类。所以每一行都是一个向量代表一个单词。通常是词嵌入，也可以是索引词的独热向量变成一个词汇表。对于10个句子，使用100维嵌入将有一个10 100矩阵作为输入。在计算机视觉中，当过滤器滑过图像的局部块时，在NLP中，过滤器滑过一整行单词（矩阵）。宽度输入矩阵的宽度与滤波器的宽度相同。CNN如何用于文本的说明如图所示。 4，其中cnn用于句子分类。三个滤波区域分别为2、3和4，每个滤波区域包含两个滤波器，每个滤波器包含两个2520吨伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515- 2528图五. Sigmiod的图像特斯对句子矩阵进行卷积运算，得到变长特征图，应用于每个地图，这给出了每个特征地图的最大数字。因此，从这六个映射生成单变量特征向量，然后将它们组合以形成倒数第二层的一个特征向量。最后，softmax层接收这个特征向量作为输入，然后对句子进行分类，这里假设二进制分类，因此生成两个可能的输出（ Zhang 和 Wallace ，2015）。2.5. 生成模型深度生成模型的性能高度依赖于激活函数的选择。它们帮助网络学习非线性特性，否则网络将表现得像线性函数。激活函数的实现使网络学习复杂问题。因为网络是使用反向传播训练的（Rumelhart et al.，6088），其中需要学习用于参数更新的梯度。因此，激活函数的选择也取决于它的可微性在深层生成模型中常用的激活函数是：Sigmiod：-对于生成模型对输出进行分类，使用sigmiod激活函数。此函数的范围为0和1。尽管它易于理解和应用，但它也有一些局限性-使它从流行中脱颖而出的观点，即它的输出是零中心的，并且显示出缓慢的收敛（Sharma，2017）。sigmoid 函数的图形如图所示。五、Relu：-不同的激活函数对于不同的深度生成架构表现良好。众多流行的激活函数之一是Relu和Leaky Relu。Relu的收敛速度比TanH函数快六倍（Gupta，2017）。它减少了消失梯度的问题，几乎在每一个深度生成模型中使用。Relu激活的工作原理是将负值缩短为0。这会阻碍斜坡在网络中移动。为了以防止函数为零。LeakyRelu允许一些负值通过，这有助于函数计算特征和小因子之间的高值（Dansbecker，2018）。到目前为止，Relu的局限性在于它只用于神经网络的隐藏层，并且一些梯度在训练过程中变得很弱并且可能死亡，这意味着Relu可能导致死亡神经元。因此，Relu的修改称为Leaky Relu，它使用小斜率来保持更新。在这些情况下，梯度完全关闭以反向传播。这实际上对GAN模型有好处，因为生成器只需保持一种方法，通过接收来自GAN的梯度来学习。激活函数的选择取决于深层生成模型的结构.这两个函数的图形显示在图六、2.6. 生成式建模深度学习模型的主要目标是找到最小值，它具有良好的泛化能力。优化技术帮助我们找出目标函数（误差函数）的最小值。随机梯度下降（SGD）（Robbins和Monro，1951）已被广泛应用于深度学习问题。SGD的优点之一是它们非常简单，并且对于具有大训练集的问题收敛速度快。然而，它也有许多缺点，比如它们需要手动调整优化参数，如学习率，收敛约束等。一个好的策略是运行具有许多参数的学习算法，并挑选出最佳参数，使算法能够很好地推广。SGD算法中的另一个困难是它是隐式顺序的，这使得难以用GPU将它们并行化或用计算机集群将它们分布（Le等人，2011年）。SGD算法在整个网络中使用相同的学习率，如果有时选择得非常小，则会使参数更新非常慢，并且需要很长时间才能实现可接受的损失，或者如果学习率设置得太大，则参数将在整个网络中移动图六、左边是Relu，右边是Leaky Relu0zðÞð Þð ÞT.伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515-25282521工作并使其难以很好地收敛。因此，学习率应该在某些维度上大，在许多维度上小解决这个问题的一个显而易见的方法是为每个维度设置不同的学习率，但深度学习模型包含数千或数百万个维度，这是不切实际的。因此，缓解该问题的早期方法是AdaGrad算法（Duchi等人，2011），其自适应地缩放每个维度的学习率。由于学习率没有通用的正确值，它来自实验和直觉。在标准梯度下降（Ruder，2016）中引入了动量的概念，限制了一个方向上的振荡，以便使算法更快地收敛。另一种优化算法RMSprop（Tieleman和Hinton，2012）以相同的方式工作，它限制了垂直方向上的振荡，使得算法在水平方向上采取更大的步骤，这使得算法收敛更快。Adam是Adaptive Moment Estimation的缩写，它是另一种计算每个参数的自适应学习率的方法。Adam优化算法是随机梯度下降的扩展，最近在计算机视觉和自然语言处理（NLP）中的深度学习应用中得到了更广泛的应用（Kingma和Ba，2014）。Adam在实践中工作得很好，与其他自适应学习方法相比，它收敛得非常快，模型的学习速度非常快和有效，并且它纠正了其他优化技术所面临的每一个问题，例如学习速度消失，收敛速度慢或参数更新中的高方差导致波动损失函数。3. 用于文本生成的最新深度学习技术深度生成模型不仅用于研究模型的学习效果，还用于学习问题的领域。在深度学习时代，最流行的文本生成技术是变分自动编码器（VAE）（Kingma和Welling，2019）和生成对抗网络（GAN）（Goodfellow等人， 2014年）。3.1. 可变自动编码器（VAE）大多数深度学习模型的能力取决于清晰标记的数据。因为大多数数据本质上是未标记的或非结构化的。流行的深度学习模型需要大量的结构化数据进行训练。标记非结构化数据非常耗时。解决这个问题的一种方法是使用无监督方法来训练没有标签的数据。Variational Auto-Encoders（Kingma and Welling，2013）是一种强大的深度生成模型，适用于未标记的数据。它包含一个编码器，将数据编码为隐变量，然后解码器解码这些隐变量以重建数据。编码操作采用输入x并产生输出潜在空间p/zzjxj;j表示编码操作的参数，而解码器恰恰相反。它找到给定潜在分布上数据的概率分布qhxjzh表示解码操作的参数（Altosaar，2016年）。此外，f和h可以被视为编码和解码操作的权重。迫使模型学习潜在空间的丰富表示的损失函数可以广义地定义为两项之和：损失函数=重构损失+正则化项。重建项是输入和输出数据之间的均方误差。但是这里的正则化项最小化了潜在分布p/zjx和某个先验分布pz之间的距离。由于VAE在潜在空间的帮助下学习数据的概率分布，因此它适合于生成新数据。之间的分歧利用Kullback-Leibler DKL散度测量编码器在数学上，损失函数被给出为：Lih;/-Ez->qhzjxi½logp/xijz]DKLp/zjxijjpz3定义了数据点i处的重建损失，-Ez->qhz jx i测量编码器在表示上的分布的期望DKLp/zjxijjpz描述了p/zjxi和pz的散度。可变自动编码器的框图如所示图7：输入数据x以标准差r和平均值l的形式在潜在空间中采样，然后从该分布预测z的随机样本最后，对样本z进行解码以生成x的输出。VAE已经开发出作为复杂分布的无监督学习的流行方法之一。VAE用于产生离散数据（文本）的应用是有限的。使用VAE进行文本生成的主要问题是KL崩溃（意味着，当解码器变得比训练目标更强大时，可以使用假策略来解决），即解码器产生输出而不管潜在空间。如果KL项为零，则后验概率与输入数据无关（Lucas等人，2019年）。最近Bowman等人提出了VAE的文本生成模型。（2019），它利用递归神经网络来捕捉句子的普遍特征（例如，主题，风格）中的连续变量。这里也观察到了后塌陷的问题。提出了一些方法来缓解这个问题，如Bowman等人提出了KL退火的概念（整个句子被纳入分布式潜在空间）和单词dropout（在学习过程中删除一些信息）（Bowman等人，2016年）。这种分解有助于对句子的一些属性进行建模，如风格，高级语义特征。更具体地说，网络的权重在训练阶段增加，并且单词标记的随机替换使得解码器依赖于全局表示z而不是学习的语言模型。然而，这种技术并不能完全缓解KL崩溃问题，因此，许多后续的贡献是为了找到更好的技术来缓解它。文本生成模型通常使用这种技术来生成基于先前生成的tokenxt的文本。用这种方法生成的输出不能填补所生成的句子的多样性（主题，风格，语义等）。到目前为止，已经提出了许多不同的方法，用于文本生成和解决KL崩溃的最新技术是由Yang等人提出的（Yang等人，2017），它用扩张的CNN（Yu和Koltun，2015）取代了RNN解码器，并通过改变扩张简化了上下文容量的控制。准确地说，以前的文本生成技术是基于直接建模的联合概率p x。本文提出将px模型作为边际分布。它们最初基于先验分布生成连续的潜在空间z（多变量高斯）。然后由解码器对条件分布ph∈x∈ x的序列x的生成进行参数化。这有助于整合潜在变量以平衡整个语篇的生成，并使其更好地获得数据中变化的高级特征。由于RNN的递归性质，它们被认为是文本生成的积极算法但缓解后塌陷的核心困难需要一些替代方法。Semeniuta等人（2017）提出了新模型作为混合VAE，其中Conv和De-Conv神经网络分别用作编码器和解码器，而不是LSTM。辅助损耗Jaux表示为：Jaux¼-aEqzjxlogp/xjz4Jaux迫使解码过程依赖于潜在表示z来优化ELBO（证据下限）。一小行星2522伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515- 2528见图7。 VAE框图控制辅助损失的惩罚，f表示解码过程中使用的权重结果表明，混合VAE比LSTM VAE更好，更快地收敛。然而，模型能够解决潜在的损失的问题，但在这种方法中产生长文本序列的困难深度学习模型的训练总是具有挑战性的，VAE在这种情况下也没有什么不同。然而，已经进行了许多尝试来优化这种困难。Kim etal.（2018）提出了一种这样的方法。变分推理（VI）是使网络计算可控制的方法。传统的虚拟仪器方法是重复观测数据，以封闭形式更新模型参数。然而，这种参数更新方法要求模型是共轭的.将这种方法应用于非共轭模型非常具有挑战性。随机变分推理（ Stochastic Variational Inference ， SVI ）（ Hoffman 等人，2013年）和摊销变分推理（AVI）（Rezeland和Mohamed，2015年）是最近提出的用于参数选择的方法，可扩展到巨大的训练集和非共轭模型。当VAE用作生成模型时，预测模型参数的这种技术是有帮助的。然而，在SVI的情况下找到局部最优值很容易，但优化每个数据点的过程很困难。另一方面，AVI的推断AVI的学习速度太快，但输入数据作为参数函数的性质使其限制太严格，而且AVI的学习是在次优变分参数上进行参数更新的方式。在使用AVI和SVI两者的文本生成领域中的最新贡献被称为半摊销变分自动编码器（Kim等人， 2018年）。从推理网络中选择初始变分参数，然后运行SVI对参数进行优化.然而，这种方法超过了其他自回归生成模型，但没有看到解决文本生成KL Collapse领域主要问题的改进。从零开始编写复杂文本的过程即使对人类来说也很困难。受此过程的启发，提出了另一种生成文本的方法（Guu等人，2018年）称为原型，然后编辑模型。该过程开始时，它首先从训练语料库中抽取一个随机的模型句子，然后召唤一个神经编辑器，该编辑器绘制一个随机的编辑向量，并产生表1文本生成的VAE模型比较直感负对数KL可能性VAE（Bowman等人， 2019年度）60.138015改进的-VAE（Yang等人，（2017年）63.9332.110Hybrid-VAE（Semeniuta等人，（2017年）**12.5Semi Amortized-VAE（Kim等人，2018年）60.4327.17.19神经编辑器-VAE（Guu等人， 2018年）26.87**Skip-VAE（Dieng等人， 2018年）60.55*22.54另一个句子通过在编辑向量上成型时照顾模型。然而，生成的样本具有竞争性，但该方法对“后塌陷”问题没有贡献缓解KL塌陷问题的方法仍然是一个活跃的研究领域。Kim et al.（2018）提出了通过摊销推理初始化变分自动编码器参数的新方法，然后应用随机推理对其进行改进。Dieng et al.（2018）引入了潜在变量z和解码器之间的跳跃连接，加强了潜在变量和重建损失之间的关系。由于这两种方法都通过实验证明了其优于以往的方法。最近令人兴奋的进展是由Guu等人提出的。（2018），其中使用VonMises-Fisher分布（Yasutomi和Tanaka，2014）代替高斯分布。Xu和Durrett（2018）进一步探索了这种方法。具有这种配置的变分自动编码器被称为混合VAE，并且它可以通过超参数k来控制KL项，这有助于解决KL崩溃。基于VAE的不同文本生成模型的比较如表1所示。该表突出了VAE中用于文本生成任务的一些修改，其中在其机制中进行了许多改进这里为这些模型选择的参数是困惑度、负对数似然和KL项，在该表中突出显示。检查这些模型的性能参数似乎很难从中选择一个。因此，VAE用于文本生成任务的研究仍然是一个活跃的领域。þþT.伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515-25282523见图8。 GAN的框图3.2. 生成对抗网络（GANs）深度学习改变了我们工作、计算、分析的方式，让我们的生活变得更轻松。我们已经教会了机器自己解决问题，许多深度学习架构都可以归功于其创造性的成功。尽管如此，深度生成模型并没有取得重大成功，这是因为它们无法近似棘手的概率计算。但是发现的解决方案可以绕过称为生成对抗网络（GAN）的生成模型所面临的这些问题（Goodfellow et al.， 2014年）。GAN是流行的深度学习算法，它采用了对抗性方法，与传统的神经网络不同GAN包含两个以对抗方式训练的首先，生成器生成数据样本，并将这些数据样本分类为真实（训练数据）或虚假（由生成器生成），如图所示。8.第八条。生成器的目标是生成非常接近真实数据的样本，以便它可以欺骗网络，而网络的目标是准确地分类这两种类型的数据样本。因为它生成器G试图最小化目标函数，而生成器D试图最大化目标函数。换句话说，D和G试图进行具有价值函数V<$G;D<$的极大极小博弈：讨论了一种用于训练和生成高回报句子的强化学习结构。然而，手动定义的奖励函数不能覆盖所有正确的信息，并可能导致低质量的报表。一个好的生成模型应该生成与人类生成的句子难以区分的句子。将GAN用于NLP任务并没有取得类似的成功。原因在于文本生成过程是离散的，这使得输出错误难以反向传播到生成器。例如：在使用反向传播时，可以方便地将图像像素中的参数更新为1： 0110： 01但对于文本，它是鹦鹉学舌，毫无意义零点零一分 GAN如何能够用于更好的文本生成模型以及如何解决与此相关的问题是一个活跃的研究领域最近提出了一种称为教授强迫的改进（Lamb等人，2016年）。比较了两种序列（训练序列和生成序列）在变长输入上的分布。证明了该方法不仅寻找单步预测，而且寻找行为的统计量提供生成器的中间隐藏值导致可微模型，并在各种NLP问题（如序列生成和声学生成）中取得良好结果。解决NLP任务的众所周知的技术是最大化以严格计算的输出为条件的标记数据中每个单词的概率这种方法的问题是暴露性偏差（即系统更多地暴露于真实情况最小G最大xDV最大G;DV最大Ex->p数据xð5Þ数据，并且在测试时无法生成有意义的序列）。Bengio等人在2015年提出的解决方案使用了调度采样的概念（一种训练策略，其中由于GAN在生成图像方面表现出了显着的效果（Pix2Pix GAN，Conditional GAN，Westerrrian GAN等）。针对文本的GAN训练更具挑战性，因为离散符号的不可微性。生成有意义句子的最早尝试（Li et al.， 2017）使用了最大似然估计（MLE）的概念（一种找到最大化模型定义的过程概率的参数值的技术）。虽然它是成功的，但这个培训目标存在一些问题，如反应肤浅，重复，短视。因此，为了解决这些问题，需要对许多领域进行澄清，例如哪些想法定义了标准通信和技术，以及它们如何与深度学习融合。已经提出了许多方法（Li等人，2016年; Li等人，2017年）。几个方面的物理表征（重复性、信息量和一致性）和该模型在训练阶段得到更多的探索，这使得它在处理推理期间所犯的错误时更加鲁棒）（Bengio等人，2015年）。这个想法是在学习阶段预测下一个单词的同时，用合成数据部分地喂养生成模型。这种技术被认为是一种不一致的训练策略，错误不会通过采样决策反向传播，并且在解决暴露偏倚问题方面也没有看到任何改进。为了解决上面讨论的问题，在深度生成模型中使用了强化学习的概念（Li et al.，2018; Shi等人，2018年; Dethlefs和Cuayahuitl，2010年）。在深度生成模型中使用的强化学习的想法已经显示出了有希望的结果。强化学习是深度学习的一个领域，模型通过与周围环境的交互来学习，并通过奖励来执行动作（Skymind，2018）。强化学习H不010D01小行星2524伊克巴尔，S。库雷希/沙特国王大学学报-计算机与信息科学34（2022）2515- 2528见图9。强化学习的框图。算法可以被理解通过使用的概念代理人;环境;状态;行为和奖励。代理人：-代理人是采取行动的人;例如，索菲亚弹吉他行动：-所有可能的移动，代理可以被认为是一个行动，就像在视频游戏中的行动可以向右移动，向左移动，站着不动。环境：智能体学习的空间，在这里智能体将当前状态作为输入，并输出奖励和下一个状态。● 状态：-明确和快速情况剂操作员获取它本身，它可能是坚实的点和点，一个不受约束的设计，将代理连接到其他关键的东西，例如，设备、障碍、敌人或奖品，它可能是环境返回的当前情况或任何未来情况。奖励：奖励是一种输入，我们用它

下载后可阅读完整内容，剩余1页未读，立即下载