智能人机交互：基于图像的对话系统扩展词汇对话任务的研究

156 浏览量更新于2023-12-10 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取理论计算机科学电子笔记343（2019）57-71www.elsevier.com/locate/entcs智能人机交互Erinc Merdivan1AIT Austrian Institute of Technology GmbH，Wiener Neustadt，Austria CentraleSupplement，Metz，France迪皮卡·辛格2AIT Austrian Institute of Technology GmbH，Wiener Neustadt，Austria奥地利格拉茨医科大学医学信息学/统计学研究所，Holzinger Group，HCI-KDDSten Hanke3AIT Austrian Institute of Technology GmbH，Wiener Neustadt，AustriaAndreas Holzinger4奥地利格拉茨医科大学医学信息学/统计学研究所，Holzinger Group，HCI-KDD摘要交互的最基本的交流机制是对话，包括语音、手势、语义和语用知识。已经进行了关于对话管理的各种研究，重点是使用机器学习和深度学习模型的面向目标的应用程序的标准化模型。本文介绍了现有的对话经理培训方法的概述，其优点和局限性。此外，一种新的基于图像的方法被用于Facebook的bAbI任务1数据集在Out Of Vocabulary设置。结果表明，与记忆网络相比，使用对话作为图像表现良好，并有助于对话管理器扩展词汇对话任务关键词：对话系统，基于图像的方法，聊天机器人1电子邮件：erinc. ait.ac.at2电子邮件：deepika. ait.ac.at3电子邮件：sten. ait.ac.at4电子邮件：andreas. medunigraz.athttps://doi.org/10.1016/j.entcs.2019.04.0101571-0661/© 2019由Elsevier B. V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。58E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）571引言我们在日常生活中互动的信息和通信技术（ICT）更多地分布并体现在环境中（所谓的智能空间）[1]。特别是，当为老年人设计ICT解决方案时，他们通常对新技术非常关键，分布式系统可能更具挑战性。为了改善ICT解决方案的人机交互（HCI），直接的自然交互和情商非常重要[2]。关于老年人在衰老过程中行为变化的用户研究[3]发现，“许多老年人保留的一项技能，即使有显著的认知退化，也是以多模式面对面方式进行沟通的能力。这种互动的技能是在婴儿期和幼儿期获得的，在成年后形成了隐性的、具体的知识”。面对面的互动包含了广泛的非语言和副语言的方式来进行语义内容的补充讲话。它允许残疾人为了补偿某些感知通道（例如，听觉）通过利用其它通信信道（例如，身体姿势）。面对面对话的特征还在于建立良好的理解修复机制，从而使听者能够要求说话者重复或澄清（例如，通过点头来传达）。此外，面对面的对话有内在的机制来限制互动者的注意力。这一点很重要，因为一些老年人很难分散他们的注意力或处理分心。这种面对面的交互可以利用化身来提供。化身有可能模仿所使用的技术，从而提高软件的接受度[4]。与化身的交互能够提供多个优点。例如，化身可以提供手势，这反过来又能够增加对所呈现信息的理解。此外，视觉丰富的语言信息，即，如从自然语音中已知的，向音频语音输出添加嘴唇同步的动画角色可以增加智能并增强信息传输的鲁棒性因此，视觉和声音输出之间的一致性是最重要的[5]。越来越多的嵌入式会话代理（ECA）利用自然语言处理（NLP）来实现智能对话组件。基于NLP的系统在多模态界面的人机交互中具有重大意义，并且广泛地用于自然语言和口语理解（NLU或SLU）、自然语言生成（NLG）和对话处理（DP）任务。完整的对话解决方案如图1所示，由许多部分组成，每个部分都专门负责某些任务。自动语音识别（ASR）模块负责将用户的语音转换为文本。自然语言解释器将文本信息转换为有意义的特征，以便对话状态跟踪器（DST）可以处理这些特征并更新当前对话状态。DST输出当前对话状态，对话响应选择（DRS）模块E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5759（其被训练为输出对用户话语的响应）可以生成对用户的文本回复。稍后，该文本回复通过文本到语音（TTS）合成器转换为语音。由于ASR和TTS与对话管理器不直接相关，因此可以将其视为完成对话解决方案的补充模块[14]。对话管理器是对话系统的一个组成部分，负责人机交互中参与者之间的信息传输。对话管理器可以分为两大类：聊天机器人[16]和基于框架的对话[17]。在聊天机器人中，代理通常被训练为在没有任何对话结构知识的情况下工作，这些对话结构通常被称为开放对话，而在基于框架的对话中，对话框架由专家构建，每个对话框都有槽和值。在这项工作中，我们主要关注聊天机器人以及如何使用基于规则的序列到序列学习，强化学习和基于分层强化学习的管理模型来训练它们所有这些方法都可以单独使用，也可以一起使用，以发挥各自的优势。本文从不同的项目、现有的对话经理培训模式及其优缺点等方面对ECA进行了概述。此外，它包括对话数据集上的结果与新的基于图像的方法，其中对话被处理为图像来训练对话管理器。Fig. 1.完整对话系统本文件分为六个部分。第一节介绍了对话系统，然后是对话互动。第三部分介绍了现有的基于规则和基于机器学习的对话系统模型。随后，解释了一种新的对话系统的方法。下一节包括初步结果及其讨论;最后一节总结了工作的结果。2互动体验一些工作组和项目已经表明，嵌入式交互可以帮助增加与ICT系统的交互[1]。Bickmore等人设计了一个虚拟实验室，以探索虚拟锻炼教练的纵向使用。老年参与者每天与家中的代理人互动一次，持续长达120天。结果显示，与一个人互动的用户60E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）57使用可变对话的代理人比那些与使用非可变对话的ECA交互的代理人进行了更多的锻炼。已经表明，自然对话是自然对话的重要组成部分，特别是ECA如何与用户进行沟通和构建对话。通过这种方式，ECA能够理解用户在智能交互中，智能对话管理器组件负责解释用户的语音命令并生成代理的适当的口头和非口头行为。在我们的项目中进行的研究：Miraculous-Life5[12]，CaMeLi6 [11]和Ibi[13]已经表明，化身（化身）应该表达适当的移情反馈（即，情绪面部表情和语音语调），基于老年人和人类照顾者之间在一生中建立的行为和在对话交流方面，化身应该允许通过不同的模式，如等待，倾听和说话，顺利轮流图2显示了Miraculous-Life动画化身的屏幕截图。在互动方面，结果表明，老年人与代理人的沟通应基于友好和自然的对话，并且代理人具有清晰可理解的语音输出至关重要[9]和[10]。由于一些老年人在听力和理解代理人的语音方面遇到困难，因此已经观察到，与ECA的交互仍然不是完全多模态的，而是更多地基于语音命令的，这也是现有对话组件的有限可扩展性的原因。此外，报告最多的原因是出口信贷协定没有完全达到用户最初的期望。其中的主要原因，我们注意到不匹配的期望与口头沟通能力。事实上，目标群体中的大多数用户在面对类人角色时，期望在语音对话方面进行更自然的交互。这包括自动自然语音识别，也包括对话本身的可扩展性。参与者很容易在代理人的一些意想不到的言语行为后感到沮丧。另一方面，我们注意到，来自目标群体的用户在训练与代理的交互方面面临一些挑战这导致重复次数高于预期。从这些考虑中可以得出两个主要结论。(i) 理想的解决方案是在语音命令中具有更多的灵活性和多样性。(ii) 最重要的是，所有交互组件尽可能稳健地运行，是容错的，并且支持修复机制。5http://www.miraculous-life.eu/6http://www.aal-europe.eu/projects/cameli/E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5761图二、包括动画化身的Miraculous-Life用户界面3现有的对话系统本节概述了现有的培训对话管理器的工作，其中包括：基于规则的方法;序列到序列的方法;基于强化学习的方法;和分层强化学习方法。3.1基于规则的方法第一个使用基于规则的系统开发的聊天机器人是ELIZA [18]，它使用基于用户回复的模式匹配。在基于规则的系统中，人类对话被建模为一组状态，对话管理器必须从给定的一组规则中选择对话的回复[19]。该模型已用于许多不同的应用程序，如餐厅预订或在线心理治疗聊天机器人[18]。在这种方法中，通常是领域专家的人分析人类代理之间的对话流程，并试图根据模式提出预定义基于规则的方法的优点在于对话管理器控制选择用于对话的回复，并且从完整的回复集合中选择的这些回复确保用户不会感到不安或不满意，从而保持系统一致。62E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）57图三.基于规则的系统NADIA[20]是这种系统的一个最近的例子，专家可以定义一个数据结构，如图3（.xml格式）左侧所示。在NADIA对话系统中，专家可以用问题和答案来定义结构，对话管理器将使用这些硬编码规则来参与对话。在图3的右侧，可以看到NADIA与用户的对话示例，其包括在进行旅行预订时回答用户如果真实的人类对话流没有许多不同的状态和/或回复，基于规则的系统通常优于机器学习模型[21]。然而，在现实生活中的大多数时候，人类语言可能变得非常复杂，并且很容易用完专家设计的对话状态。在这样的场景中，除了向用户给出诸如“我不知道你在问什么”之类的通用回答之外，不可能使用基于规则的模型，这可能在确定的回答时间量3.2基于序列到序列的方法序列到序列方法或广泛称为seq2seq是深度学习方法，将给定序列从一个域转换到另一个域。对于seq2seq模型，字典通常定义为对话管理器可以从中选择的所有单词。这些词典可以很大，这取决于对话的复杂性。对话管理器输出该单词词典上的概率分布。在端到端的监督学习模型中，在每个时间步中，对话管理器选择具有最高概率的词，条件是对话历史由给定时间步之前选择的每个词组成，并且在某些情况下具有一些附加信息。序列到序列方法依赖于递归神经网络、1-D卷积单元或最近的前馈神经网络。最初，它们被应用于翻译任务，如英语到法语，并取得了惊人的结果，很少或根本没有句子的自然语言处理[22]。后来，它被用于对话任务，其中对话历史被视为序列并映射到另一个序列，E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5763是一个对话的回应[23，24]。在翻译任务中，数据集由不同语言的句子对组成，而在对话任务中，对于同一历史可以有更多虽然seq2seq支持从一个映射到多个映射，这已经应用于训练对话管理任务。它在聊天机器人以及餐厅预订等特定领域的任务中取得了良好的效果。由于这些方法给出了最可能的答案，因此通常很难定制，除非有额外的信息。在数据集中生成某些频繁的回复时可能会过度拟合。一种解决方案是通过添加有关用户信息的嵌入，以便训练网络考虑用户偏好。[25]第10段。图四、序列到序列学习[22]图五、基于角色的神经反应生成[25]图4展示了seq2seq学习应用于生成给定历史的响应。LSTM编码器获取完整的历史或最后的回复，并将其转换为编码的特征向量，LSTM解码器获取此向量并在编码的特征向量上输出可能的回复条件。在图5中，seq2seq模型被改变为也接受和嵌入用户，在这种情况下是64E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）57Σ3.3强化学习方法强化学习（RL）方法是一种机器学习方法，其中代理通过学习在每个状态下采取哪些行动来学习在给定环境中最大化奖励的概念[34]。近年来，由于使用新的深度学习方法重新审视现有的强化学习算法，强化学习方法变得越来越流行。深度强化学习算法在某些游戏任务中优于人类，例如Atari游戏，国际象棋和GO[27]。图第六章代理之间的对话模拟[29]对话管理可以被公式化为马尔可夫决策过程，其被定义为元组（S，A，T，R，γ）。S和A表示状态和动作的集合; T表示s和s'之间的转移概率，R是回报函数，如R：S x A→R，它给出了在状态s中采取的动作a的回报γ是贴现因子，用于计算预期贴现累积奖励E[γi−1Rt+i]。RL代理的策略π是i≥1状态和动作之间的映射。代理的策略可以是随机的或确定性的，并且策略映射到的动作可以是连续值动作或离散值动作。RL代理对话管理器被训练以学习最大化期望贴现累积收益的策略。深度强化学习算法甚至可以训练彼此对抗，即使在状态空间非常高的情况下也能实现后人类性能。RL方法需要标量奖励，这对于对话任务来说比监督模型更自然。因为很难获得有监督的对话数据集;对于RL对话管理器来说，通过遵循奖励函数来发现对话的动态会更自然。然而，在对话任务中，通常很难为RL方法设计这样的奖励来训练对话任务[28]。启发式奖励可以由人类专家设计，以便用基于RL的方法训练对话管理器[29]，或者自动对话应答措施也可以用于训练[30][31]。图6示出了通过模拟两个代理之间的对话来生成神经响应的强化学习框架，E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5765神经seq2seq系统和对话强化学习的优势在游戏设定任务中，还需要注意的是，动作空间非常低，而在对话任务，他们是高维。这种高维度是由于任何语言中大量可能的句子。如此多的可能动作增加了应用于对话任务的RL方法的复杂性。RL方法所需的训练样本数量通常不太重要。即使是简单的数据有效方法，也可能需要10K的训练数据，这对于从人类收集是不切实际的，并且由于人类对话的复杂性和多样性，模拟也是不切实际的[32]。3.4基于分层强化学习的方法对话建模可以被建模为马尔可夫决策过程（MDP），然而，如果对话任务是复杂的，使用自然语言，那么状态和动作空间是非常高的维度。传统的强化学习支持系统的维数灾难和不同的解决方案被研究者研究。解决方案之一是使用分层强化学习，其中Agent学习抽象问题。HRL设置中的Agent学习抽象状态和/或动作，而不是学习每个状态的代理通常具有不同层次的策略，其中高级策略控制将选择哪个低级策略;而每个低级策略针对不同且更简单的任务进行优化。此外，代理决定应该选择哪个策略，然后遵循这个与更高级别策略不同的子策略，直到满足终止条件[33]。图第七章两种分析架构的比较[36]HRL主要应用于特殊版本的MDP调用Semi-MDP，它允许操作在状态转换之间持续不同的时间，66E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）57[34]这是一个非常复杂的问题。在现实环境中对基于SMDP的对话代理设置的HRL方法的第一次评估表明，在具有真实用户的旅行计划领域中，半学习或分层行为优于完全学习的代理行为[35]。对于两个主域之间共享的预订和支付任务/子域，分层RL（传统RL）和分层RL之间的差异如图7所示，其中分层RL仅学习基本动作，并且需要为每个时间步输出动作，而HRL学习分层抽象，并且可能学习基本动作以及复合动作。在最近的工作中，[36]引入了分层模型，该模型通过分层强化学习进行训练，使用高斯过程作为函数逼近器;而[37]使用深度Q网络作为函数逼近器，两种HRL模型在复合任务中的表现都优于标准RL模型。基于HRL的对话管理方法虽然优于标准RL，但在处理更深层次结构方面存在开放性研究问题;为较低层次结构设计奖励;以及将复杂任务自动划分为更简单的子任务，这可能与更深层次结构相比，层次结构较少。图八、基于图像的对话管理器方法4基于图像的方法最近，有人提出了一种新的方法来训练对话管理器[38]。在该方法中，通过将具有回复的对话历史呈现为图像，将对话转换为图像在声谱图的音频处理中，将序列数据处理为图像是非常常见的虽然，音频是连续的和循环的神经E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5767网络或1-D卷积神经网络更适合，因此，它们也可以已经使用频谱图和音频域中基于视觉的方法的实现进行了重要的研究工作[39在对话域（图8）中，已经应用了相同的思想，其中通过从可能的回复的数据集创建将对话历史与正确回复组合的肯定样本和将对话历史与错误回复样本组合的否定样本来训练管理器。如图9所示，此图像中的每个dialgoue都是300x300黑白图像，并使用Xception视觉模型[42]处理为图像。图中的上述两个方框由正确的对话组成，对话历史附有正确的回答，以图像的形式给出。并且，在下面的两个块中，相同的dilaogue历史被附加有从所有可能的候选回复中采样的错误回复可以看出，对话管理器的任务是向询问餐厅地址的用户提供正确的信息。在上面的两个图像（具有正确回复的对话）中，对话管理器返回正确餐厅的地址，然而，在下面的两个图像（具有错误回复的对话）中，对话管理器以不相关的回复进行回复，例如在左侧创建新餐厅，并在右侧向下进行api调用。在这样的设置中，对话管理器仅可视地调查对话，并学习哪些对话是正确的，哪些对话是错误的。然而，这一方法从未得到应用在对话建模中。见图9。作为图像的68E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）575实验及结果我们在Facebook bAbI数据集Task 1上使用了Xception视觉模型[21]。在这种方法中，我们创建了一个由正确和错误的对话历史和回复对组成的训练集。后来，我们将这个文本对话转换为图像，并将其作为二进制分类问题进行处理。对于测试，我们对给定对话历史的所有候选答案进行排名，并选择最高的答案。这项工作是在词汇外（OOV）设置中所做工作的扩展[38]在自然语言领域词典中，当管理人员的词典中没有某些单词时，理解文本是不可能的。在OOV上测试时，MemNet的性能会下降，因为基于语言的模型在训练过程中找不到OOV单词时会失败。添加人工生成的特征可以克服这个问题，但是，它非常依赖于任务并且需要人工识别。另一方面，它在图像域的情况下是不同的，因为不需要字典，网络只需要学习匹配图像的模式。然而，在基于图像的方法的图像域中然而，它超出了这项工作的范围，因此不需要有一种方法来采用不同的字体类型和大小，因为目的是学习对话技巧。在Facebook bAbI数据集Task 1中，有1000个训练对话和1000个测试对话。我们为每个训练对话抽取了10个否定回答，并从4212个候选答案中选择了正确答案用于测试对话。实验在单个GPU（1080ti）上完成，并花了一周的时间来训练模型。如表1所示，结果表明，使用图像域还有助于对话管理器自然地扩展到词汇表外（OOV）对话任务，其中OOV响应准确度与词汇结果相匹配。表1Facebook bAbI对话框任务1度量例外（%）不带匹配类型的内存（%）匹配类型的内存（%）每个响应的准确度85.799.9100.0每个响应的准确性（词汇外）86.672.3100.06结论一种新的基于图像的方法来训练对话管理器已经在Facebook bAbI对话任务1上实现。我们的方法在使用10%的训练数据集的OOV对话任务中的对话响应准确性方面优于记忆网络（没有任何额外的处理，如匹配类型）。在词汇量和OOV上的表现是一致的。此外，还需要在英语和其他语言的大数据集上进行实验，以充分捕捉基于图像处理的好处同时执行基于图像和基于语言的方法进一步的工作将通过实施E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）5769改进的对话组件，并测试它与其他体现的互动组件。确认这项工作得到了欧盟Horizon2020 MSCA ITN ACROSSING项目（GA编号616757）的资助。作者要感谢项目联合体成员引用[1] Sten Hanke，Christiana Tsiourti，Miroslav Sili，Eleni Christodoulou，Ambient Intelligent Systems，Ambient Intelligence and Smart Environments，Volume20：Recent Advances in Ambient AssistedLiving Bridging Assistive Technologies，e-Health and Personalized Health Care，65 85，（2015）[2] P. H.Ro bert，A. Küonig，H. Amie va，S. Andrieu ，F. 布雷蒙河 Bull ock，M. 切卡尔迪湾 Du bois，S.Gauthier，P. A. Kenigsberg，S.内夫，J.M.Orgogozo，J.钢琴，M。Benoit，J.塔琼湾Vellas，J.Yesavage和V. Manera，《老年痴呆症、相关疾病和虚弱患者使用严肃游戏的建议》，《前沿衰老神经科学》，二、Mrz（2014）[3] T. W.比克莫尔湖Caruso，E. Clough-Gorr，城市老年人对关系代理接口的接受和可用性，在CHI 05中，计算系统中的人为因素扩展摘要，ACM，出版社，波特兰，OR，美国，1212-1215，（2005）[4] A.H.马丁 ·MMorandell ， B.W ？o c kl ， S.Ditte nbergerundS. Fagel， Avatars@Home ：InterfacingtheSmart Home for Elderly People，in HCI and Usability for e-Inclusion：5th SymposiumoftheWorkgroupHuman-ComputerInteractionandUsabilityEngineeringoftheAustrianComputer Society ， USAB 2009 ， Linz ， Austria ， November 9-10 ， 2009 Proceedings ， Linz ，Austria，Springer Berlin Heidelberg，353-365，（2009）[5] S. Fagel，A.希尔伯特角迈耶，M。Morandell，M.吉拉和M. Petzold，Avatar User Interfaces in an OSGibased System for Health Care Services，Global Health 2013，The Second International Conference onGlobal Health Challenges，1-4，17 November（2013）。[6] R. 夏尔马，M。Yeasin，N.克朗托埃弗岛劳舍特岛Brewer，上午Maceachren和K.Sengupta，Speech-gesture driven multimodal interfaces for crisis management，Proceedings of the IEEE，Volume 91（9），p.13271354，（2003）。[7] T.H. Bui ， Multimodal Dialogue Management - State of the art ， Centre for Telecommunication andInformation Technology University of Twente.摘自http://eprints.ewi.utwente.nl/5708/，2006年[8] S. 科普湖Gesellensetter ，N. C.克拉默岛 Wa chs muth，AConversationalAgentasM.GuideDesignand Evaluation of a Real-World Application Intelligent Virtual Agents，Lecture Notes in ComputerScience Volume 3661，p. 329-343，（2005）。[9] M. Sili，J. Bobeth，E.Sandner，S. Hanke，S.施瓦茨角梅耶尔，在实验室和现场试验中说话的面孔- 关于三个环境辅助生活项目中，老年人口 IT的人文方面国际会议 134-144， Springer， Cham，（2015）.[10] D. 切雷盖蒂角Wings，J.Meijers，D6.4中试验收评价结果，公开可交付成果，http：//www.miraculous-life.eu/public-deliverables最后查看：10.11.2018[11] Christiana Tsiourti ， Joo Quintas ， Maher Ben-Moussa， Sten Hanke ， Niels Alexander Nijdam ，Dimitri Konstantas ， The CaMeLi FrameworkA Multimodal Virtual Companion for Older Adults ，Proceedings of SAI Intelligent Systems Conference，pp. 196-217，施普林格，占，2016/9/21[12] Sten Hanke，Emanuel Sandner，Samat Kadyrov，Andreas Meser-Hochgatterer，通过虚拟支持伙伴，IET数字图书馆，2016/1/1[13] Miroslav Sili ， Jan Bobeth ， Emanuel Sandner ， Sten Hanke ， Stephanie Schwarz ， ChristopherC.Mayer，实验室和现场试验中的会说话的面孔-三个环境辅助生活项目中基于化身的用户交互技术的评估设置和用户参与结果的观点。pp. 134-144，2015年第25期[14] Serban，Iulian Vlad，Ryan Lowe，PeterHenderson， Laurent Charlin，and Joelle Pineau，Asurveyof available corpora for building data-driven dialogue systemsURL：https://arxiv.org/pdf/1512.05742.pdf（2015）.70E. Merdivan et al. /Electronic Notes in Theoretical Computer Science 343（2019）57[15] Singh，Deepika，Ismini Psychoula，Johannes Kropf，Sten Hanke和Andreas Holzinger，用户对智能家居技术的感知和态度，智能家居和健康电信国际会议，203-214。Springer，Cham，（2018）.[16] Shawar，Bayan Abu和Eric Atwell，聊天机器人：它们真的有用吗？，In Ldv Forum，vol.号221，（2007），29 -49.[17] Masche，Julia和Nguyen-Thinh Le，对话系统技术综述，计算机科学，应用数学和应用国际会议。Springer，Cham，（2017）.[18] Weizenbaum，Joseph，ELIZAa a computer program for the study of natural language communicationbetween man and machineCommunications of the ACM9.1（1966）：36-45.[19] Webb，Nick，基于规则的对话管理系统，Proceedings，（2000），164 -169。[20] Berg ， Markus M ， NADIA ： A Simplified Approach Towards the Development of Natural DialogueSystems，In International Conference on Applications of Natural Language to Information Systems，pp. 144-150. Springer，Cham，（2015）.[21] Bordes，Antoine，Y-Lan Boureau和Jason WestonLearning end-to-end 目标导向对话，网址：https://arxiv.org/abs/1605.07683[22] Sutskever，Ilya，Oriol Vinyals，and Quoc V.Le，使用神经网络进行序列到序列学习神经信息处理系统的进展（2014）。[23] Vinyals，Oriol和QuocLe，神经会话模型，URL：https://arxiv.org/pdf/1506.05869.pdf（2015）。[24] Sordoni ， Alessandro ， Michel Galley ， Michael Auli ， Chris Brockett ， Yangfeng Ji ， MargaretMitchell ， Jian-YunNie ， Jianfeng Gao ， and Bill Dolan ， A neural network approach to context-sensitive generation ofconversational responses，URL：https://arxiv.org/pdf/1506.06714.pdf（2015）[25] 放大图片作者：Li，Jiwei，Michel Galley，Chris Brockett，Georgios P.Spithourakis，JianfengGao和Bill Dolan，基于人物角色的神经会话模型，URL：https://arxiv.org/pdf/1603.06155.pdf（2016）[26] 萨顿，理查德S，和安德鲁G.Barto，Reinforcement Learning：An Introduction（2011）。[27] 放大图片作者：David Silver，Andrei A.放大图片创作者：John W.Bellemare，Alex Graves等人，Human-level control through deep reinforcement learningNature 518，no. 7540（2015），529.[28] 放大图片作者： Liu ， Chia-Wei ， Ryan Lowe ， Iulian V. Serban， Michael Noseworthy ， LaurentCharlin ， and Joelle Pineau ， Hownot to evaluate your dialogue system ： An empirical study ofunsupervisedevaluationmetricsfordialogueresponsegeneration，URL：https://arxiv.org/pdf/1603.08023.pdf（2016）.[29] Li，Jiwei，Will Monroe，Alan Ritter，Michel Galley，Jianfeng Gao和Dan Jurafsky，用于对话生成的深度强化学习，URL：https://arxiv.org/pdf/1606.01541.pdf（2016）。[30] Merdivan，Erinc，Mohammad Reza Loghmani和Matthieu Geist，重建和粉碎网络，神经信息处理系统进展，（2017）。[31] 放大图片作者：Michael Noseworthy，Iulian V.Serban，Nicolas Angelard-Gontier，Yoellow Bengio和Joelle Pineau，Towards an automatic Turing test：Learning to evaluate dialogue responses，URL：https://arxiv.org/pdf/1708.07149（2017）。[32] Pietquin，Olivier，Matthieu Geist，Senthilkumar Chandramohan和Herv Frezza-Buet，用于对话管理优化的样本有效批处理强化学习ACM语音和语言处理交易（TSLP）7，第3号（2011），7。[33] Barto，Andrew G.，和Sridhar Mahadevan，Recent advances in hierarchical reinforcement learning，Discrete event dynamic systems 131-2（2003），41 -77.[34] 萨顿，理查德S，多伊娜·普雷卡普和萨廷德·辛格在MDP和半MDP之间：强化学习中的时间抽象1-2（1999），181-211.[35] Cuayhuitl ， Heriberto ， Steve Renals ， Oliver Lemon ， and Hiroshi Shimodaira ， Evaluation of ahierarchical reinforcement learning spoken dialogue systemComputer Speech and Language 24 ，no.2（2010），395- 429.[36] Budzianowski ， Pawe ， Stefan Ultes ， Pei-Hao Su ， Nikola Mrki ， Tsung-Hsien Wen ， InigoCasanueva，Lina Rojas-Barahona和 Milica Gai，使用分层强化学习URL进行对话管理的子域建模：https://arxiv.org/pdf/1706.06210.pdf，（2017）。E. Merdivan et al. /Electronic Note

下载后可阅读完整内容，剩余1页未读，立即下载