人机对话系统：基于自然语言的联合模型研究与发展

66 浏览量更新于2023-12-05 收藏 591KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectCAAITransactions on Intelligence Technology 1（2016）303e312http://www.journals.elsevier.com/caai-transactions-on-intelligence-technology/评论文章人机对话王晓杰*，袁彩霞北京邮电大学计算机学院智能科学与技术研究中心，北京，1008762016年12月23日在线发布摘要人机对话系统提供了一种基于自然语言的人机接口。人机对话系统通常由自然语言理解（NLU）、对话管理（DM）和自然语言生成（NLG）三部分组成。每个部分都有几个不同的子任务。每个子任务都得到了广泛的关注，在每个子任务上都取得了许多改进。但采用传统的流水线方式构建的系统，不同的子任务被流水组装，存在着误差积累和扩展、域迁移等问题。因此，近年来，在一个部分或跨不同部分的多个子任务联合建模的研究甚至有一些工作旨在将对话系统的所有子任务集成到单个模型中，即端到端模型。本文首先介绍了当前对话系统的两种基本框架，并对各种子任务的研究进展作了简要综述，然后重点讨论了多个子任务对话的联合模型。我们回顾了几种不同的联合模型，包括在NLU或NLG内部集成多个子任务，跨NLG和DM联合建模，以及通过NLU，DM和NLG联合建模。讨论了这些联合模型的优点和存在的问题。我们认为，联合模型，或端到端模型，将是一个重要的发展趋势，人机对话系统。Copyright© 2016，重庆理工大学.由Elsevier B.V.制作和托管。这是CC下的开放获取文章BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：人机对话系统;自然语言理解;对话管理;自然语言生成;联合模型1. 介绍人机对话系统是一个对话Agent。它提供了一个接口，帮助人类利用计算机与计算机自然语言交谈。它也被称为口语对话系统，因为对话通常是口语。对话系统通常分为两类。一种是目标驱动的对话系统，另一种是非目标驱动的系统。20世纪90年代初，MIT开发了DARPA支持下的自动航班预订系统这是一个典型的目标驱动的对话系统。该系统分析了用户的话语，并管理多轮对话过程，以提取所有必要的* 通讯作者。电子邮件地址：xjwang@bupt.edu.cn（X.Wang），yuancx@bupt.edu.cn（C.元）。同行评议由重庆理工大学负责。目的驱动的对话系统也称为任务导向系统（task-orientedsystem），它是一种基于目的地的对话系统，用于提供航班预定信息，如出发城市、出发时间等，类似的系统有电信服务系统HMIHY[2]、气候信息查询系统JUPITER[3]、旅行计划制定系统DARPA JUPITER[4]非目标驱动的对话系统是另一类系统。他们通常对用户的话语做出反应，而没有任何特定的目标。它们也被称为聊天机器人。伊莉莎[5]可能是第一个聊天机器人。聊天机器人近年来越来越受欢迎。一些典型的人事助理系统，如Cortana，Google Now，都包含聊天机器人。目标驱动的对话和非目标驱动的对话之间的界限并不严格。他们经常在现实世界的对话。例如，当我们预订航班时，我们偶尔会与人类服务人员聊天。一个好的人事助理系统因此有时应该能够聊天http://dx.doi.org/10.1016/j.trit.2016.12.0042468-2322/Copyright© 2016，重庆理工大学由爱思唯尔公司制作和主持这是一篇基于CC BY-NC- ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。304X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312与用户进行非目标驱动的对话，有时帮助人们以目标驱动的方式订票最近，对客户服务机器人和人员助理的需求迅速增加。前者有助于降低企业的客户服务成本，后者有助于以更自然的方式获得信息服务。人们对人机对话系统进行了大量的研究。在过去的几十年里，对话系统在模型、算法和性能上都取得了很大的进步近年来，随着计算能力的快速提高、公开的对话语料库的增多以及深度神经网络等新技术的出现，对话系统的发展也出现了一些新的趋势。现在是时候回顾一下这些话题的各种广告，特别是关于新趋势的广告。限于篇幅，本文不对人机对话系统的各个方面进行综述。我们对目标驱动的对话给予了更多的关注，特别是最近的一个重要趋势，即对话系统中多任务的联合建模。本文的结构安排如下：第二节回顾了目标驱动对话系统的架构。第3节简要介绍了对话系统中的每个子任务。第四部分是本文的重点。本文介绍和讨论了对话中多个子任务联合建模的最新研究进展，包括目标驱动对话和非目标驱动对话。我们在第5节中得出结论。2. 目标驱动对话系统图1[8]是目标驱动对话系统的基本框架。它包括三个部分：自然语言理解（NLU），对话管理（DM）和自然语言生成（NLG）。用户输入可以是语音或文本。如果输入是语音（在这种情况下， NLU 通常称为口语理解（SLU）），则自动语音识别（ASR）模块应包括在SLU中，它也可以是NLU之前的独立模块。当系统输出为语音时，NLG应包括文本到语音（TTS）模块。NLU（或SLU）旨在从用户话语中提取任务相关信息。例如，在航班预订对话框中，任务相关信息包括出发城市、目的地城市、飞行时间等。用户输入自然语言理解（NLU）St对话管理（DM）系统响应自然语言生成（NLG）的t图1.一、状态完全可观测时对话系统的基本框架如果假设会话状态（包括ASR）能够在每个对话回合正确地从用户输入中提取任务的所有必要信息，则对话的状态被认为是（完全）可观察的。DM控制对话的过程。马尔可夫决策过程（MDP）被广泛用于建模DM的可观察状态的对话。它在时间t接受NLU的输出（并相应地更新记录任务目标的帧中的信息）作为时间t的状态，由st表示，然后输出动作，由图1中的t表示，并同时接收奖励rt。让我们继续以机票预订对话为例。当DM从MLU获得出发城市的信息（并将其填写到任务的目标框架中）时，它应该决定下一步要做的事情。例如，确认出发城市，或者如果不知道出发时间，询问用户出发时间，或者在下一句中同时进行。DM选择最优的行为序列，以获得最大的长期回报。NLG将DM的行为转换为自然语言句子。例如，如果DM决定询问用户目的地城市。NLG会将决定转移到一个句子，如图1中所示的对话状态被假设为在每个时间都是完全可观察的。因此，它不能考虑NLU的不确定性。但是，由于ASR和NLU目前的性能，NLU的不确定性实际上是不可避免的。它应该包含在一个可行的系统中。因此，图2[6]所示的框架目前受到了广泛的关注。其中，部分可观测马尔可夫决策过程（POMDP）模型用于DM。NLU的输出，在图2中用ot表示，是在t时对对话的观察。状态是输出的概率函数。置信状态保持状态的分布，用于覆盖NLU的不确定性，而不是状态本身，它在图中用b t表示。二、如图2所示，NLU可以进一步分为域识别，意图识别（对话行为分类）和语义标记（它通常被称为槽填充，这意味着为句子中的单词标记槽名称，由槽名称标记的单词是那些槽的值。插槽名称通常是任务特定的语义标签，如出发城市，目的地）。DM包括状态跟踪（对话模型）和行为生成（策略模型）。自然语言生成包括句子规划和表层实现。在此框架下，本文对自然语言理解、数据挖掘和自然语言学习中的各个子任务进行了大量的研究，现作简要的综述。3. 分别为每个子任务建模人机对话系统传统上是以流水线方式构造的。每个子任务被单独建模为一个独立的模块，然后根据图1和图2进行组装。1或2在每个子任务上分别做了大量的工作来提高它们的性能。由于这不是本文的重点，所以在这一部分我们只对它们作一个简要的回顾以进行更全面的调查，X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312305语义分析自然语言处理（NLU）对话管理（DM）ot用户输入系统输出的t表面实现自然语言生成（NLG）图二、状态部分可观测时人机对话系统的一个基本框架传统的对话系统，特别是基于POMDP的管道对话系统，请阅读Young，Gasic，Thomson等人[6]和Yu，Chen，Chen等人的优秀评论[7]的文件。3.1. NLU中的子任务NLU为DM提供对话信息。它包括域识别、意图识别和语义解析。对于用户输入“我想预订飞往北京的航班”，其域是航班服务，用户意图是预订航班，北京是目的地时隙的值。领域识别和意图识别通常都被建模为分类。许多监督分类器，包括支持向量机（SVM）[9]，最大熵（ME）[10]，深度神经网络（DNN）[11]用于识别用户意图。在一些对话语料库中，准确率达到90%以上。然而，监督方法缺乏大量的标记数据，特别是在新的领域。提出了一些无监督的方法[12]。但是，当前无监督方法的性能比有监督方法低10%以上[13]。槽填充通常被认为是一种对句子中的词进行序列标注的方法，其中的标注集包含了为特定任务设计的所有槽名称。在子任务上采用了有监督和无监督两种方法。条件随机场（CRF）和递归神经网络（RNN）是最常用的模型。在ATIS数据上的实验结果[14，15]表明，RNN或其变体的性能优于CRF，标记准确率超过90%。但是Vukotic，Raymond，Gravier等人[16]表明，不同模型对ATIS数据的影响无显著差异。由于ATIS数据简单，所有方法都取得了良好的性能。在媒体上对于更具挑战性的数据，CRF的表现优于RNN。与意图识别类似，无监督方法在槽填充方面的性能[18，19，21]低于有监督方法。参考文献[17]是最早的无监督插槽填充的作品之一。他们利用与任务相关的查询日志来填充插槽。Tur，Celikyilmaz，Hakkani-Tur[18]提出了潜在Dirichlet分配（LDA）模型来改善槽填充。Chen等人发表了一系列关于无监督槽填充的工作。 Chen ，Wang，Rudnicky[20]提出了一种结合框架网络和分布式表示的无监督槽。Chen，Wang，Gershman等人[19，21]通过矩阵分解学习潜在特征，Chen，Wang，Rudnicky[22]考虑了基于知识图的随机游走用于槽感应。3.2. DM中的子任务目前关于DM的研究大多试图处理部分可观察状态的对话。在这种情况下，POMDP是最流行的DM框架，它包括状态跟踪和行为或策略生成。在这两个子任务上分别做了大量的工作。状态跟踪的研究主要是在生成模型的框架下进行的。但当任务复杂时，基于POMDP的信念状态更新尤为困难。为此，提出了N-最佳逼近、因子分解逼近等方法.Williams[23]根据两个公开可用的对话系统的实验结果指出了一些弱点，并建议区分模型可以在信念状态更新方面取得更好的性能。Williams，Raux，Ramachandran等人[24]组织了第一届对话状态跟踪挑战赛（DSTC），该挑战赛每年举行[25，26]，有力地推动了对话状态跟踪的研究。很多歧视性的句子规划域辨识意图标识状态跟踪Bt行为生成306X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312在DSTC上提出了结构判别模型[27]、多领域学习模型[28]、深度神经网络[29]以及一些规则和统计相结合的模型[30]，并取得了性能的改进。行为生成建立从信念状态到系统行为的映射。强化学习是当前的主流技术。由于现实世界中的问题通常具有大规模的信念状态空间，目前的方法都是将信念空间压缩为抽象空间，然后利用近似方法学习映射。典型的方法包括蒙特卡罗优化，最小二乘策略迭代，自然演员-评论家优化，Q-学习，Sarsa和神经网络[6]。通过定义与目标函数相关的核函数，高斯过程强化学习[31，32]被证明能够减少学习所需的样本，并加速策略的优化。它使得在整个信念状态空间中进行行为生成成为可能。Barlier，Perolat，Laroche，et al.[33]提出了一个策略学习的随机博弈框架。他们考虑了（PO）MDP的几个局限性第一个是POMDP中的策略被假设为是静态的，这意味着用户不会通过任务改变策略。另一种假设是合作假设，即所有对话参与者在任务中有相同的目标。这两个假设在现实世界的对话中并不总是正确的。例如，谈判的参与者可能有不同的目标，并可能改变他们的政策。Barlier，Perolat，Laro-che等人[33]认为随机博弈能够处理这两种限制。3.3. NLG中的子任务NLG从DM接收对话行为为句子规划通过词汇化和指称表达生成将待描述的内容聚合到句子中。词汇化是指选择词汇来描述概念及其关系。指称表达生成是指选择词或短语来指称实体。Reiter& Dale [34]发现语义表征和句子结构之间存在稳定的对应关系，并使用图式来描述句子结构。自然语言生成器根据输入选择模式并填充模式，得到最终的句子。例如，给定一个“说什么”的表示：“（（obj-action fly）（obj-name flight）（attribute time）（attribute-value 10 am））"。选择模式<<“obj-name > fly at attribute-value >“用于生成句子“flight fly at 10 am”。斯通·&多兰[35]用树邻接语法来表示句法结构，用修辞结构来获得语篇的局部连贯。TAG基本树的叶节点可用于曲面实现。Dusek Jurcicek[36]提出了一种算法，基于A* 搜索和感知器排序器，从空树中逐渐构造句子计划树候选，并对树进行排序。最后根据与输入的语义一致性得到句子框架。表面实现选择功能词、词形式等，使输出的语法定义良好，拼写正确。Lavoie Rambow[37]提出了一系列词汇化过程，如功能词插入，树表示的线化，形态变化和表面格式化（例如，添加标点符号）。White Baldridge[38]使用组合范畴语法和自下而上的基于图表的解码器，以及参数类型，词汇类别等，以确保句子是按语法生成的。从上面的简要介绍中我们可以看到，每个子任务都有很多进步。但是，目标驱动的对话系统还存在许多需要改进的地方，特别是对于部分可观察模型，目标驱动的对话系统只适用于一些小规模的任务。 Young ， Gasic ，Thomson，et al.[6]和Yu，Chen，Chen，et al.[7]对每个子任务的问题进行了出色的分析和调查。4. 联合建模多个子任务传统上，对话系统是以管道方式建立的。每个子任务分别建立模型，然后组装成一个完整的系统。管道系统概念清晰。每个部分都独立地关注自己的问题，每个模型都是独立开发的。但管道系统也有一些限制。首先，它不能利用不同部分之间的交互信息。各子任务之间存在显著的交互作用，这些交互作用有助于提高系统性能.以自然语言理解中的意图识别和槽填充为例，槽填充有助于意图识别，反之亦然。在航班预订任务中，如果句子中仅标记目的地位置，则句子的意图是告诉目的地的概率大，相反，如果句子的意图是告诉出发城市，则出发城市将以大概率出现在句子中。如果两个子任务之间的交互能够被正确地建模，那么这对提升两个任务都是有帮助的。其他子任务也有类似的情况其次，在流水线系统中分别训练每个子任务的模型。它带来了两方面的困难。一方面，对话系统的开发人员通常只从最终用户那里得到反馈，他们告诉他们系统的最终性能。很难将系统的最终错误信号反向传播或分配给每个子任务。为每个子任务获取标记数据也是费时费力的。另一方面，由于很难或不可能确保每个子任务完全正确，因此前面的子任务中的错误可能会损害后面的子任务。这些误差可能会在流水线上累积和放大，甚至变得不可控.第三，对话系统中子任务的相互依赖性使得系统的在线自适应具有挑战性。例如，当一个模块（例如NLU）用新数据重新训练时，所有依赖于它的其他模块（例如DM）都变得次优，因为它们是在旧版本NLU模块的输出分布上训练的。虽然理想的X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312307解决方案是重新训练整个管道以确保全局最优，这需要大量的人力[39]。最近的进展正在探索如何克服管道系统的上述局限性。联合建模已被证明是一种有效的方法。联合模型有很多工作，从分别在NLU、DM或NLG中联合建模子任务，到跨NLU和DM联合建模子任务，甚至跨NLU、DM和NLG联合建模这里，4.1. 在NLU近年来，随着深度学习在各种应用中的成功，几种不同类型的深度神经网络已被用于NLU子任务的联合建模。Xu ， Sarikaya[40] 描述了一种基于卷积神经网络（CNN）的意图检测和槽填充的联合模型。特征通过CNN层提取，并由两个任务共享。在ATIS语料库和其他4个未发表数据集上的实验结果表明，联合模型在意图识别和槽填充方面均优于三角CRF。Guo，Tur，Yih等人[41]提出了一种基于RecNN（递归神经网络）的方法，用于联合建模域识别，意图识别和语义解析。在ATIS数据和Microsoft Cortana对话数据上，与以往的三个任务分别建模的方法相比，该模型取得了较好的性能。Shi，Yao，Chen等人[42]提出了一种RNN来联合建模NLU中的三个子任务，并且比以前的方法获得了更好的性能。LSTM（长短期记忆）也用于联合建模意图识别和语义解析[43]。它在以下方面取得了更好的性能：DSTC 2数据比在单独的模型。除了深度神经网络，传统的CRF也被用作联合模型。Lee Ko[44]提出了一种基于CRF的新标签添加方法，以联合建模不同的子任务。该模型在每个输入句前增加了言语行为、操作者和目标三个位置。一个单一的CRF模型被用来标记句子中的命名实体以及三个标签。此外，CRF与CNN相结合的模型也被用于联合建模。所有这些都取得了更好的或有竞争力的表现比目前国家的最先进的独立模式。联合建模子任务已被证明是改善NLU的一种有前途的方法。尽管已经取得了一些改进。但也存在一些问题有待澄清或解决。其中，我们认为以下三个问题更重要和有趣。第一个问题是关于如何联合模型多任务。以往的多任务联合建模方法主要有两种方式。一种是在同一类型的问题中转移不同的任务，然后在一个模型中建模。典型的例子是李高[44]。他们把意图通过在句子之前添加用于意图的标签位置，将识别（正常分类任务）转换为标记任务。然后，单个标记模型可以同时用于意图和槽标记。它可能是一种扁平的、平行的模式。另一种方法是建立分层模型，在不同的层中分别进行分类和标记。Shi，Yao，Chen等人。[42]和Zhou，Wen，Wang[43]都采用分层神经网络模型进行意图分类和槽标记。前者将槽标记放在层次网络的底层，意图识别放在顶层.后者尝试了两种不同的安排（一种与前者完全相同，另一种是相反的），发现位于网络顶部的子任务总是从分层结构中获得更多的好处，无论哪个子任务被放在顶部。对于给定的子任务，哪种连接方式更好还不清楚，对这个问题还没有充分的研究。几乎所有当前的关节模型都受到监督。他们需要所有子任务的标记数据。对于深度神经网络模型，它们需要大量数据才能获得更好的性能。所以，第二个问题是如何获得大量的标记数据，或者我们应该追求一些非监督的方法？正如我们所看到的，在单个子任务中，无监督模型的表现明显不如有监督模型。对于联合模型，仍然没有无监督的方法。联合任务能否利用两个或多个子任务之间的交互信息找到比单任务更好的无监督模型？如果可能的话，与管道模型相比，联合模型获得了另一个重要的优势。另一个问题是域适应。构建大量标记数据的成本很高。为每个域构建大量的标记数据甚至是昂贵的我们如何在我们必须处理新的单词，新的意图，新的槽值，甚至是新领域中对话的新槽。在处理这一问题上，已经有了一些初步的工作。例如，Yazdani，Henderson[45]在新的对话域中探索了SLU的零镜头表征学习模型。他们将意图（行为）和槽整合到一个标签表示学习模型中，不同的领域使用共同的词嵌入参数。实验结果表明，基于词向量的模型能够很好地适应新领域。我们将在下一节中看到，基于单词的模型也可能是其他联合模型中跨域自适应的一种可能方式。4.2. 跨NLU和DM联合建模通常，DM从NLU接收句子的语义标签作为输入。最近的一些研究已经跨越了这一鸿沟，直接将句子作为DM的输入。Henderson，Thomson，Young[46]提出了一种基于词的RNN模型用于状态跟踪。该模型将用户输入的n-gram映射到对话状态，而不使用显式的语义解码器。每个槽都用一个单独的RNN模型处理。在第二个对话框状态下评估该方法308X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312¼þTracking Challenge（DSTC 2）语料库和结果显示，与管道模型相比，性能始终更高。Mrksic Kadlex等人[47]基于参考文献[46]中提出的工作提出了一种多域状态跟踪模型。实验结果表明，该模型结合一些去词汇化特征可以取得较好的效果。强化学习（RL）是策略建模的主要工具。目前大多数关节模型包括动作生成都采用了深度强化学习（DeepReinforcement Learning，DRL），这是在参考文献[1]中首次提出的[48]I 'm sorry.Mnih，Kavukcuoglu，Silver等人[48，49]实现了一个基于屏幕的游戏代理。智能体根据屏幕图像选择游戏动作。他们提出了一种基于深度Q网络（DQN）的深度Q学习算法，该算法具有两层卷积网络和两层全连接前向网络，用于学习Q函数。学习了从图像输入到游戏行为的映射。通过使用DRL，屏幕理解与游戏操作选择集成到端到端模型中。与人类玩家相比，该模型在许多不同的游戏中获得了更好或有竞争力的分数。事实上，游戏和对话很相似。游戏画面类比于用户的话语，游戏操作者类比于对话动作。博弈Agent的目标是在多轮博弈中获得最大的长期回报，这与对话中的目标也是相似的。游戏和对话的区别在于：游戏的输入是连续的图像，而对话的输入是离散的语言符号。Narasimhan，Kul- karni，Barzilay[50，53]提出了一种用于基于文本的网络游戏的LSTM-DQN模型，其中LSTM用于将文本输入解码为向量表示，然后将其馈送到DNN以训练Q函数。它比以前的一些型号取得了更好的性能。由于计算机游戏的巨大成功以及游戏和对话之间的相似性，DRL随后迅速用于构建对话系统的端到端联合模型。Cuayahuitl Keizer[51]在非合作对话上使用深度强化学习来生成对话策略，他们在纸牌游戏而不是对话上进行了实验。Cuayahuitl[52]试图从ASR的输出构建一个联合模型，以产生动作。他在Cuaya- huitl Keizer[51]中使用DRL治疗DM。但他们只是展示了一些简单的DRL结果，而没有对对话系统进行性能评估。Zhao Eskenazi[39]在深度强化学习框架中联合建模了状态跟踪和动作生成。LSTM用于跟踪对话的历史他们还提出了一个模型，从对话状态的监督信息。在过去的对话系统中，对话状态是手动设计的。对话状态的设计是主观的和耗时的。DRL提供了一种有效的方法来避免显式设计的对话状态。但是训练像 DQN或LSTM-DQN这样的Q函数网络并不容易。的输入到网络的样本是（st，a t，r t，st1），t 1，2，. N或类似的东西。它们不是独立同分布（i.i.d.）因为ST_T_1（在时间t 1的状态）由ST和A_T两者确定。Q函数网络是因此易于振荡并且难以收敛。为了训练DQN，Mnih，Kavukcuoglu，Silver等人[48]使用Lin[54]提出的经验重放机制，该机制随机采样先前的转换，从而平滑了许多过去行为的训练分布。最近，Hasselt，Guez，Silver[55]通过引入双DQN，Schaul，Quan，Antonoglou等人[56]利用标准Q学习的过度估计问题。通过优先经验重放提高了DQN的收敛速度。虽然这些措施在一定程度上是可行的，并帮助DRL在电脑游戏领域取得了巨大的成功。但DRL的收敛性没有普遍的保证。Ma Wang[57]指出，当对话的行为空间较小时，Q函数网络能够很好地收敛，但随着对话行为空间的增大，收敛情况变得更糟。如何训练Q函数网络仍是一个有待解决的问题。4.3. NLG中的子任务联合建模近年来，人们在联合建模内容选择、句子规划和表面实现等方面做了大量的工作。这些方法将DM中的行为（语义框架或意义表示）直接映射到自然语言句子中，主要分为两类：一类是基于句法的模型，另一类是基于序列的模型。基于语义的句子生成模型把句子生成看作是句子理解的逆过程。它们采用与句法分析相似的句法，通过不断改写句法符号或语义符号，直到句法树的离开节点（词），以前的大多数工作都集中在手工制作的生成语法上。Belz[58]使用基于模板的领域特定规则来手动获取CFG（上下文无关语法）。最近的工作从对齐的语料库中自动学习了CFGWong Mooney[59]提出了一种使用语义框架对齐的语料库自动学习syn-context-free文法（SCFG）的算法。该模型使用从左到右的Earley图将语义框架映射到自然语言句子。在解码过程中，使用语言模型对映射结果进行重新排序。Lu Ng[60]提出了一种基于SCFG的森林到字符串生成算法。Konstas Lapata[61]使用自下而上的图表解码器来从短语-语义槽对学习PCFG，所述短语-语义槽对从句子-语义框架对齐语料库中收获，并结合n元语法和依赖关系对生成树进行重新排序，然后输出具有顶级离开节点的句子。输出的句子在基于句法的方法中是合乎语法的。但是很难获得好的语法。手工规则是昂贵的和领域相关的，而语法学习依赖于大量对齐的语料库。由于受语法的限制，上述方法都不能处理训练数据中不存在的语义框架。这些方法生成的句子缺乏多样性。基于序列的模型将句子视为单词或短语的序列。他们根据已经生成的单词预测下一个单词以覆盖X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312309吉吉þ在生成句子的语义框架中，序列模型考虑了对话行为。因此，的第n词可以被估计通过pqwnw1;：;wn-1;DA，其中DA是当前对话行为由语义框架给出，q是概率的参数功能几个基于神经网络的模型，特别是RNN，被用来近似的概率。张拉帕塔[62]描述了使用RNN生成中文诗歌的工作。Wen，Gasic，Kim，et al.[63]联合训练正向RNN生成器，CNN和反向RNN排名器，为特定DA生成自然句子。Wen，Gasic，Mrksic[64]使用DA控制门进行句子规划，并使用LSTM进行表面实现。两个部分联合训练以生成语法句子，并在语义上坚持DA。Mei，Bansal，Walter[65]提出了一种端到端，域独立的神经编码器-对齐器-解码器模型，以联合建模内容选择，句子规划和表面实现。首先使用LSTM对所有语义槽进行编码，然后通过对齐模型提取显著语义槽，最后通过解码器生成自然句子Dusek Jurcicek[66]提出了一种基于注意力的LSTM来编码输入的DA和已经生成的单词，然后使用LSTM解码器和逻辑分类器来生成其他单词。他们证明了他们的模型可以用更少的训练数据实现与其他基于RNN的模型相当的性能。与基于语法的模型相比，基于序列的模型不需要用于训练的细粒度水平对齐数据。基于序列的模型在建模对话历史、上下文和词语选择方面的灵活性带来了生成句子的多样性。另一方面，由于基于序列的模型的生成过程不受任何特定句法的控制，因此不可避免地会生成不合语法的句子。他们也有可能输或在DA中重复某些插槽。4.4. 跨NLU、DM和NLG的子任务联合模型联合建模对话系统的所有子任务，从NLU，DM到NLG，是很有吸引力的。它是一个真正的端到端模型，接收用户输入并输出自然语言句子进行响应。但是对于目标驱动的任务，响应并不是模型在每一个转折点都应该给出的唯一东西。智能体需要在整个对话过程中保持和更新与任务相关的记录，以便对对话动作进行适当的选择。例如，在航班预订中，代理人应该记录诸如时间、出发城市等信息，以便正确地执行预订操作。这种信息应予以保留，并可在整个对话过程中予以更新。目前还没有完整的目标驱动任务的端到端模型。大多数以前的端到端模型联合建模子任务的一部分，如上所述虽然对于非目标驱动的任务，聊天机器人没有必要保留这么多信息，但响应通常是模型应该给出的唯一内容。最近提出了一些完整的端到端响应生成近年来，数据驱动的端到端响应生成通过借鉴其他研究领域的思想而受到了广泛的关注。在不同的响应生成模型中，借用机器翻译的模型首先由 Ritter ， Cherry ，Dolan[67]提出。他们利用传统统计机器翻译中基于短语的模型来生成社交网络中的响应。实验结果表明，基于统计机器翻译的模型优于基于信息检索的模型。这样，通过利用RNN语言模型，Sordoni，Galley，Auli等人[68]提出了一种动态上下文生成模型，以解决当上下文信息集成到经典统计模型中时出现的数据稀疏性问题。 Serban ，Sordoni，Bengio等人[69]将参考文献[70]中提出的分层递归编码器-解码器神经网络扩展到端到端对话模型，该神经网络最初被建议用于改进查询建议。随着机器翻译中序列到序列模型的研究进展，一些非目标驱动对话的序列到序列模型也被提出。商、陆、李[71]提出了一种基于RNN的具有注意力信号的编码器-解码器神经响应机，Vinyals Le[72]提出了一种基于LSTM的序列到序列会话模型。图3是序列到序列模型的典型结构。Li，Galley，Brockett等人[73]使用最大互信息（MMI）作为目标函数来衡量输入和输出之间的相互依赖性。实验结果表明，MMI有助于序列到序列模型产生更多样化的反应。这些方法共同模拟了从句子输入到非目标驱动对话的响应生成的过程。它们不包括语义分析和显式DM，因此不能直接应用于目标驱动的对话。Dodge，Gane，Zhang等人[74]也考虑了这些模型评估的困难。因此，他们提出了一组任务，包括问答、推荐、问答推荐和聊天，以测试端到端对话系统的能力。这可能是一个有趣的方式来连接非目标驱动的对话和目标驱动的对话。另一方面，序列到序列机器翻译模型也取得了很多进展，这些进展可能会被借鉴来构建更强大的目标驱动对话。很明显，一个完整的端到端目标驱动的对话系统不仅应该输出一个最终的句子来响应一个输入的句子，而且还应该保持和更新富有成效的内部表示或对话的记忆。内部记忆可以被显式地提取和表示，也可以通过一些外部任务（如问答）进行验证。5. 结论本文简要介绍了目标驱动的人机对话系统，包括两种常用的对话框架和对话系统各个子任务的研究现状。然而，该文件主要关注的是联合310X. Wang，C.元/CAAI智能技术汇刊1（2016）303e 312座席响应y1 y2 ym EOS>LSTMLSTM LSTMLSTMLSTM LSTMLSTMx1x2用户输入xnEOS>y1ym-1ym图三.序列到序列对话模型。模型，同时对对话的多个子任务进行建模。我们认为联合建模是对话系统的一个重要发展趋势。事实上，近年来关于联合模型的工作迅速增加。我们试图在本文中的相关工作进行了综述，并根据哪些子任务被纳入联合模型进行了分类。正如我们所看到的，有几种不同类型的连接模型，例如平面或层次类型。还有几种不同程度的集成，包括NLG，DM或NLG内部的几个子任务的集成，跨NLG和DM的联合建模子任务，以及通过NLU，DM和NLG联合建模过程。虽然联合模型还处于起步阶段，但与以前的管道模型相比，它们已经显示出一些优势。联合模型的一个显著优点是可以在一个模型中对不同子任务之间的交互关系进行建模，从而提高整个系统的性能。另一个实际的优点是，联合模型可能会删除一些中间表示，这是建立手动之前。它可以减少人类设计的主观性，并分配一个更灵活的对话模型，以适应不同领域的不同任务。最近的大多数关节模型都是由深度神经网络构建的，这并不奇怪。深度神经网络为不同的子任务提供了统一的结构和训练方式。强化学习仍然是DM的主要工具。虽然神经网络在强化学习中的应用由来已久，但正是近年来强化学习与不同深度神经网络的结合，才产生了深度强化学习，这极大地推动了联合模型的研究最后，联合模型中还有许多问题有待解决。如何获得足够的数据来构建对话系统？如何有效地训练联合模型？如何使一个域中的联合模型适应另一个域？这些问题有的具有理论意义，有的具有现实意义。确认本论文得到国家自然科学基金项目（No.61273365）、111基地学科建设计划项目（No.B08004）和清华大学工程研究中心的部分资助。MoE信息网络及与北京市教委共建项目。引用[1] S.塞内夫湖赫希曼Zue，ATIS领域中的交互式问题解决和对话，在：语音和自然语言研讨会论文集，1991年，pp. 354和359。太平洋丛林，加州，1991年2月19日至22日。[2] A.L. Gorin，G. Riccardi，J.H.赖特，有什么可以帮你的吗？语音通讯23（1）（1997）113e 127。[3] V. Zue，S. Seneff，J. Glass等人，JUPITER：基于电话的天气信息对话界面，IEEE语音音频处理。8（1）（2000）85e 96。[4] M. Walker，J. Aberdeen，J. Boland等人，DARPA通信器对话旅行规划系统：2000年6月数据收集，在：2001年欧洲语音通信和技术会议论文集，2001年，pp. 1371年和1374年。[5] J. Weizenbaum ， ELIZAd a computer program for the study ofnaturallanguage communication between man and machine，Commun.ACM 9（1）（1966）36e 45.[6] S. 年轻，M。加西奇湾Thomson等人，基于POMDP的统计口语对话系统：综述，Proc. IEEE 101（5）（2013）1160e 1179。[7] K.于湖，加-地陈湾，澳-地Chen等人，面向任务对话系统中的认知技术：概念、进展与未来。J.计算机37（18）（2014）1e 17.[8] D. Jurafsky ， J.H. Martin ， Speech and Language Processing ： AnIntroductiontoNaturalLanguageProcessing，ComputationalLinguistics，andSpeech Recognition，第二版，Prentice-Hall，2007.[9] P. Haffner，G.张文，“语音识别中的支持向量机优化问题”，载于《声学、语音和信号处理国际会议论文集》，2003年4月，香港，2003年。[10] J. Ang，Y. Liu，E.李文生，多人会议中的自动对话行为分割与分类，收录于：国际声学、语音与信号处理会议论文集，2005年，2005年。[11] R. Sarikaya，G.E.Hinton，A.Deoras，深度信念网络在自然语言理解中的应用， IEEE Trans.Audio ， Speech Lang 。过程 22 （ 4 ）（2014）778e 784。[12] A. Ezen-can，K.E.Boyer，学生对话行为的无监督分类与查询似然聚类，Int. Conf. Educ. Data Min.（2013）20e 27。[13] A. Ezen-can，K.E. Boyer，在无监督对话行为模型中结合任务和对话流，在：2014年对话特别

下载后可阅读完整内容，剩余1页未读，立即下载