一种用于人机对话的神经检索模型

181 浏览量更新于2023-10-15 收藏 682KB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂305一种用于人机对话的神经检索模型瑞燕北京大学中国北京100871an@pku.edu.cn摘要建立一个人与计算机之间的自动对话系统被认为是计算机科学中最核心的问题之一它需要信息检索、自然语言处理、数据管理以及人工智能等跨学科技术。大数据时代的到来，揭示了创建一个由数据驱动的方法授权的会话系统的可行性。现在我们已经能够在Web上收集到海量的会话数据，并将其组织起来，组成一个人机会话系统。由于可用的Web资源的多样性一个人，一个人，一个人，对于查询，基于检索的会话系统将搜索适当的回复，进行相关性排名，然后输出高度相关的回复作为响应。在本文中，我们提出了一种新的检索模型命名为NeuRetrieval短文本的理解，表示和语义匹配。该模型对开放域中的单话轮和多话轮会话场景具有通用性和统一性。在实验中，我们研究了所提出的用于人机对话的深度神经网络模型的有效性。我们证明了perfor-曼斯改进对一系列的基线方法在几个评估指标。与以前提出的方法相比，NeuRetrieval是为对话场景量身定制的，并且被证明更有效。关键词会话系统;神经网络;检索模型ACM参考格式：严睿和赵东燕。2018.一个用于人机对话的神经检索模型。2018 年网络会议伴侣（ WWW '18 Companion）。 ACM， NewYork，NY，USA，8页。https：//10.1145/3184558.3186341本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2（国际万维网大会委员会），在知识共享CC BY 4.0许可下发布ACM ISBN 978-1-4503-5640-4/18/04。https：//10.1145/3184558.3186341赵东艳北京大学中国北京100871赵先生dy@pku.edu.cn1介绍通过使用自然语言的对话系统来拥有智能虚拟助理和/或聊天伙伴一直是研究人员和从业者长期珍视的目标。几十年来，人们一直致力于这一领域，并逐步取得了令人鼓舞的对会话系统的需求导致尖端技术成为学术界和工业界的焦点。创造一个智能的人机对话系统不再是幻想。计算机与人类保持相关的、有意义的和连续的对话被认为是具有挑战性的。与人类对话通常涉及跨学科技术，如信息检索，自然语言处理，数据管理以及人工智能。大数据时代的到来也加速了人机对话研究的发展。由于网络上有大量的公共对话资源，我们将通过从对话数据库中检索材料来了解如何回应（几乎）任何输入。是时候在人与计算机之间建立事实上，在过去的几十年里，构建会话系统已经吸引了许多关注。在早期，研究人员已经研究了面向任务的会话系统[3，24，44]，这些系统基本上是垂直领域的。会话输入是受限制的和可预测的;因此，与开放域系统相比，设计逻辑、创建规则、准备数据和构造候选回复以处理特定任务将更容易[42]。例如，在用于航班预订或公交路线查询的会话系统特定于任务的服务最明显的限制之一是会话不能超出系统主题范围。将不接受难以辨认的输入，这被视为硬约束。基本的系统设计理念几乎不可能推广到开放领域。直到最近，研究人员才将注意力集中在非任务导向（即，开放域）会话系统，以满足其在现实世界应用中的功能，社交和娱乐角色[4，5，10，12，16，18，21，36，39，41]。创建一个开放域对话系统来与人类进行交互跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂306是一个有趣但极具挑战性的问题。由于人们可以自由地对系统说任何话，因此不可能准备交互逻辑和领域知识，相反，这些知识可以在特定于任务的系统中预先指定。此外，会话状态的可能组合的数量实际上是无限的，因此传统的手工规则和模板将失败[31，37]。随着Web 2.0的成熟，在诸如电子公告板系统（BBS）论坛、社交媒体（例如，社交网络）、互联网论坛等网站上进行公开对话的人数呈爆炸式增长。Facebook、Twitter）和社区问答（cQA）平台（例如，百度知道、雅虎！答案）。这些资源提供了一个独特的机会，以建立自然发生的对话，数量级大于以前可用的集合。它们还推动了开放域会话研究领域中基于检索的技术的发展。其优点是，由于网络上的多样性，该系统将能够检索至少一些响应任何用户输入。然而，大数据时代似乎是一把双刃剑。一方面，它为在开放领域建立实用的人机交互系统带来了巨大的机遇。另一方面，也存在挑战。给定一个用户发出的查询，我们需要从大量的数据中找到合适的候选回复。在本文中，我们提出了一种新的基于深度神经网络结构的检索模型，即“NeuRetrieval”。直觉是多方面的。首先，神经网络被证明可以有效地表示短文本。对于短文本对话，神经网络的抽象表示可能是检索任务的自然解决方案。其次，人机对话有两种典型场景：单圈和多圈。对于多轮对话，总是要使用附加信息，例如“上下文”（a.k.a.连续会话会话中的先前话语句子）。所提出的方法应该是通用的单轮和多轮会话场景，同时捕获和整合尽可能多的信息。对具有多个话语的整个会话会话应用基于关键字的搜索是不太可行和不太实际的。在这种情况下，神经网络更强大，特别是对于多匝的压缩表示。我们使用神经网络来制定NeuRetrieval模型来表示，匹配，从而相应地检索回复。所提出的模型是为人机对话量身定制的。基于深度神经网络（DNN）的检索模型告诉每个回复在给定上下文（如果有的话）的情况下有多大可能适合于响应查询。我们检索高度相关的回复。我们进行了广泛的实验，人类和计算机之间的对话特别地，我们在极大的会话资源上构建系统，即，几乎有一千万对人类原子对话。然后，我们对其他几种竞争算法进行了实验，以验证神经检索模型的有效性。我们的系统（一般）优于传统的和最近的关于p@1、MAP、nDCG和MRR方面各种不同评估指标的基线。结果表明，我们的会话系统提供了一个新的和有用的见解，以促进人机对话。总而言之，我们的贡献在以下方面是新颖的：我们提出了一个新的检索模型命名为“NeuRetrieval ”的人机对话系统。关于NeuRe-trieval模型被证明可以有效地表示，匹配，并因此检索短文本以用于与深度神经网络的对话。人机对话有两种典型场景：1）单圈和2）多圈。所提出的模型是通用的，并且很好地统一以适应两种情况。本研究还研究了会话中的不同结构。本文的其余部分组织如下。我们开始回顾相关工作。在第3节和第4节中，我们描述了会话系统和任务制定的框架。我们介绍了详细的机制NeuRetrieval模型在单轮和多轮对话。我们设计了实验设置和评估对各种基线和讨论的结果在第5节。最后，我们在第6节中得出结论。2相关工作2.1会话系统对话系统的早期工作通常基于规则或模板，并且是为特定领域设计的[3，24]。这些基于规则的方法不需要数据或很少的数据进行训练，而是需要许多手动工作来构建模型或手工制定规则，这通常是非常昂贵的。垂直领域中的会话结构和状态跟踪更容易学习和推断[44]。然而，这些系统的覆盖率也远不能令人满意。后来，人们开始更多地关注开放域中的自动会话系统[18，21]。从特定领域到开放领域，需要大量的数据正在显著地增加以构建会话系统。随着信息检索技术的快速发展，研究人员在（深度）问答系统方面取得了可喜的成果。以这种方式，另一种方法是建立一个会话系统的知识库组成的一些问答对。Leuski等人 [1]在跨语言信息检索中使用统计语言模型构建了从问题-答案对中选择对当前消息最合适的响应的系统，但是存在一个主要的瓶颈。知识库的创建（即，问题-答案对）[19]。研究人员建议使用来自纯文本的问答对来增强知识库[7，23]。资源对的数量可以在一定程度上扩展，但仍然相对较小。如今，随着社交媒体和其他Web 2.0资源的繁荣，例如社区问答（cQA）或微博服务，大量的Web 2.0资源正在被使用。的对话数据变得可用[16]。一系列跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂307基于信息检索的方法被应用于使用微博数据的短文本对话[6，10，36]。Higashinaka等人也将模板生成与基于搜索的方法相结合[18]。Ritter等人研究了通过使用统计机器翻译（SMT）技术进行短文本对话的可行性，以及Twitter中数百万自然发生的对话数据[12]。在该方法中，响应是从模型中生成的，而不是从存储库中检索的，因此不能保证它是合法的自然语言文本。在以往的会话系统研究中，很少有研究考虑会话流中的结构信息，尤其是多轮会话。现在，我们提供了一个基于深度神经网络架构的通用和统一的解决方案，可以处理单轮和多轮对话。此外，会话流中的结构该方法在会话系统中显示了一种新的见解2.2深度神经网络近年来，深度神经网络（DNN，也称为深度学习）在自然语言处理方面取得了重大进展DNN是高度自动化的学习机器;它们可以通过探索多层非线性变换来自动提取数据的基本抽象特征[2]。在NLP模型中，单词通常充当原子单元。然而，词语本质上是离散的;给DNN提供单词索引似乎是无意义的。一种典型的方法是将离散词映射到一个密集的、低维的、实值向量，称为嵌入[22]。向量中的每个维度捕获潜在单词含义的一些方面用于句子级建模的流行DNN包括卷积神经网络（CNN）和递归神经网络（RNN）。在CNN中，我们有一个固定大小的滑动窗口来捕获连续单词的局部模式[14]，而RNN则保留一个或几个隐藏状态，并以迭代的方式沿着单词序列收集信息[35]。多层RNN结构已经被研究用于文档段落建模[20]。Socher等.杠杆年龄句子解析树和建立递归网络[30].然而，会话语句通常是随意的，因此递归模型不太适用。除了单个句子之外，一些研究旨在捕获两个句子之间的关系-称为句子对建模-具有释义检测[9]，话语单元识别[43]，文本蕴涵识别[26]等应用程序。句子对DNN模型通常建立在底层句子级模型（CNN/RNN）上。然后，通过匹配启发式方法（如连接，余弦测量或内积）将两个句子Hu等人开发了逐词匹配方法[11]，并获得两个句子之间的相似性矩阵。 Recenntl y，R ock tüascheletal. 文本感知匹配方法[26]的优点，其中第一个句子的信息在对第二个等上下文感知将单个句子建模和句子匹配交织在一起，禁止预先计算句子的向量表示;因此，这些方法的计算量大得多。出于效率考虑，我们选择利用向量拼接，这是简单而有效的。我们回顾了最近的上下文感知方法从基于检索的系统或生成会话系统。它们都是基于有顺序的句子序列[27，38]或没有顺序的句子序列[32，37]。上下文话语在单词和句子层次上建模[27，34，45]或者根本没有层次结构[32，37，38]。建议NeuRetrieval模型是比传统的匹配和排名。会话被流式传输为话语流流动，并且需要将上下文信息结合在多轮对话场景中。所提出的深度检索模型利用为人机对话量身定制的上下文信息，我们在实验评估中进行了彻底的比较。3方法3.1问题公式化自动人机对话的研究问题被定义为人与计算机之间的一轮或多轮交互。在每一轮对话中，给定从人类发出的消息，计算机将提供对即将到来的消息的回复。为此，给定用户消息作为查询Q，我们的系统从会话数据的巨大存储库中搜索类似的帖子P。在<发布-回复>对内的所获得的发布p的相关联的回复r被馈送到表示和匹配部分中。最后，将返回最佳匹配的回复r作为对输出的适当响应。因为我们建议两种情况都适用在单轮和多轮对话中，我们设法使用先前话语的上下文C={s1，s2，. . . 在会话中也是如此我们将首先介绍查询表示，它实际上是一个编码器，使用带有或不带有上下文信息的查询。在我们将查询编码为表示向量之后，我们还学习对候选回复进行接下来，我们通过深度神经网络匹配查询和回复3.2查询表示近年来，深度神经网络（DNN，也称为深度学习）取得了显著的进步。随着大数据的可用，DNN是高度自动化的学习机器;它们可以通过探索多层非线性变换来自动提取数据的基本抽象特征[2]。首先，我们简要介绍了单词嵌入和长短期记忆（LSTM）中的神经网络结构。字嵌入。传统的模型通常把一个词当作一个离散的标记;因此，相似词之间的内部关系将丢失。单词嵌入[22]是基于神经网络文本中的标准装置跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂308不1+e编码编码不编码不 t−1[客户端]处理.一个词被映射到一个低维的实值向量.这个过程被称为矢量化，它捕获了一些潜在的含义。如果有足够的数据、用法和上下文，词嵌入可以对特定词的含义做出高度准确的猜测。嵌入可以等效地被视为一个单词首先被表示为一个one-hot向量，然后乘以一个查找表[22]。在我们的模型中，我们首先使用它们的嵌入对所有单词进行向量化，这是我们深度神经网络的基础词嵌入随机初始化，然后在训练期间作为模型参数的一部分进行调整双向LSTM。我们使用双向长短期记忆（Bi-LSTM）递归网络来沿着单词序列传播信息。递归神经网络（RNN）保持一个隐藏的状态向量，该向量根据每个时间步的输入而变化。由于RNN可以沿着序列迭代地聚合信息，因此它们自然适用于句子建模。LSTM是一种使用内存的高级RNN或者与输入单元相同。通常，使用神经模型（编码）将输入压缩成表示。对于单轮查询编码器，输入仅是查询为了简单起见，我们将Bi-LSTM（ht−1，et）定义为向量ht−1和et上的Bi-LSTM运算，以实现ht。对于单圈表示，查询被视为作为一个令牌序列。继Sutskever等人之后。[33]，我们训练了一个编码器，该编码器首先将输入文档映射到Bi-LSTM编码器的向量表示。将不考虑背景信息（模型1，图1）。3.2.2多轮查询编码器。我们现在将上下文信息考虑在内，以便制定具有上下文的查询的丰富表示，也称为多圈表示。直观的解决方案是单圈表示的简单扩展：我们结合多话语信息（即，不同的句子）。请注意，每个句子的结尾都有一个特殊的句尾符号eos为了清楚起见，我们使用如下符号：w s细胞和门学习序列内的长期依赖关系[25，33]。LSTM模型定义如下：给定一个输入序列，LSTM将每个位置• ht和ht表示来自Bi-LSTM模型的隐藏向量其下标指示时间步长t，其上标指示在单词级（w）或话语句子级（s）的操作。hs（enc）指定编码阶段。具有输入、遗忘和输出门，表示为it、ft、w st和Ot。向量It用于附加地修改存储器内容。给定一个输入句子s={x0，x1，. . . ，Xt}，其中Xt是输入序列，而Et表示用于嵌入单个单元的向量（即，单词或句子）在句子中的位置t处。LSTM通过组合ht−1和et输出位置t的表示ht，由下式it• et和et表示单词级和句子级嵌入。根据其驻留句子或会话上下文来确定位置t多轮表示的简单扩展将所有输入视为一个长的令牌序列：所有的话语以及查询被从头到尾地连接。因此，我们也可以使用Bi-LSTM操作来训练编码器。这里，句子结构被用作普通模型，如图1的模型2所计算定义为：=Wht−1hs（enc）= Bi-LSTM句子（ew，hw（enc））ottencodet t−1勒塔丹h~t=ft·h~t−1+it·lths=ot·h~t（一）我们注意到词语创造了句子的共同意义这样的观察表明了单词和句子之间的层次结构我们其中h~是辅助变量，并且可以被视为存储在存储器单元中的信息。σ（·）=1-·是已知的 sigmoid/logistic函数。单向LSTM通常传播信息。因此，提出了一个分层的多轮表示查询和相关的上下文信息。我们首先通过将一层LSTM（即，LSTM单词）在顶部：从第一个字到最后一个字，这是隐藏的状态。hw（enc）= Bi-LSTM字（ew，hw（enc））（3）不在某个步骤上仅取决于其先前的单词编码不t−1因此对未来的单词视而不见。变体Bi-LSTM[8]提出了利用过去和未来的话通过两个独立的RNN，向前和向后传播以及生成两个隐藏状态向量←h−t，res pecti vel y. 这两个状态向量被级联为表示句子中第t个单词的含义，即，ht=−→ht;←h−t。在结束时间步处的向量输出用于表示整个话语句子。为了构建具有多个回合的当前会话的表示，另一层LSTM（表示为LSTM句子）被放置在所有句子的顶部，顺序地计算表示：hs（enc）= Bi-LSTM句子（es，hs（enc））（4）3.2.1单轮查询编码器。这里，我们将查询表示为令牌序列，即，话每个单词与其d维嵌入相关联。我们需要将查询表示为d维表示。编码器是一种神经模型，其中输出单元直接与因此，一个Bi-LSTM在单词级别上操作，导致获取句子级别的表示，然后将其用作第二个Bi-LSTM的输入，第二个Bi-LSTM在分层结构中获取更高级别的表示（如模型3所示，图1）。ftσ跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂309Q∈2∑{F − F}图1：有和没有上下文信息的不同模型对于模型1和模型2，我们有单词级表示，而对于模型3，我们有单词级和句子级表示。3.3匹配如前所述，我们需要将候选回复与查询（以及上下文）进行比较评分函数输出R中的标量（适当性或不适当性），用于特定的候选者，给定查询本身或上下文。匹配分数由深度神经网络架构计算。我们基于Bi-LSTM的句子模型学习将回复和查询（有或没有上下文）编码为向量，然后可以用于计算它们的相似性。然后使用这些来计算查询-回复相似性分数，其与查询和回复向量一起被加入到单个表示中。在使用Bi-LSTM的句子表示的基础上，我们可以对查询和回复之间的交互进行建模。给定用于处理查询和回复的句子的输出，它们的所得向量表示Xq和Xr可以用于计算查询-回复相似性分数。我们遵循[28]的方法，定义xq和xr向量之间的相似性如下：sim（xq，xr）=xTMxr（5）其中MRd×d是相似性矩阵。在这里，我们寻求候选发布x′r=Mxr的变换，其最接近输入查询xq。相似性矩阵M是网络的参数，并且在训练期间被优化。在使用相似性矩阵M进行匹配之后，等式(5)产生捕获输入信息之间的相似性（句法和语义）的各个方面的单个得分XSIM。联合层将所有中间向量以及相似性得分连接到单个向量中：xjoin=[xT;xsim;xT]然后，级联的矢量被馈送到随后的网络以用于进一步的信息混合。用于句子匹配的向量拼接也应用于其他研究，如[43]，与其他逐词匹配[11]相比，它有效但复杂度较低然后，联合向量通过3层、完全连接的前馈神经网络，也称为多层感知器（MLP）[2]，其允许向量对之间的丰富交互。该网络使得能够自动提取特征，从较低级别的表示开始最后，单个神经元输出查询（或上下文）和回复之间的分数。最后的神经元基本上是一个线性回归。排序问题可以应用成对排序损失，例如铰链损失或交叉熵损失。在这里，我们应用铰链损失来训练我们的DNN网络。给定训练集中的三重得分（q，r+），我们随机抽取一个负实例r-。目标是最大化阳性样本的得分，同时最小化阴性样本的得分。具体地说，我们希望score（q，r+）至少等于score（q，r-）加上一个margin ∆。培训目标是min max 0， ∆ + （q，r+）（q，r−）+ λΩ2（6）Ωq、r+神经网络有很大的能力来学习复杂的决策函数，它们往往很容易过度拟合。为了缓解过度拟合问题，我们使用2惩罚来增加成本函数，其中对于所有参数Ω，系数λ是由网络优化的权重和偏置值qr跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂3104实验和评估在本节中，我们根据一系列基线评估我们提出的会话任务模型，给出了一个巨大的会话资源。我们实验的目的是1)为了评估我们提出的NeuRetrieval模型的有效性，比较了一系列基线，以及2）评估查询表示的上下文信息使用情况。4.1数据集我们使用的数据，其中包含大量的人类对话从开放的Web，用户发布的帖子向公众可见，然后收到一堆后续的答复，他们的话语抓取。如[15，37，40]所示，我们总共提取了9，023，854个（发布，回复）对的虚拟文档[37]。在检索库中，后续回复与先行发布具有响应关系，并且每对可以被视为两个话语的原子会话。数据存储库被证明是一个丰富的资源，以促进基于检索的人机对话[11，16，37]。4.2实验设置4.2.1评估指标。由于我们已经从数据中标记了测试查询的回复[37]，因此给定排名列表，我们根据以下指标评估了性能：precision@1（p@1）、平均平均精度（MAP）[21]和归一化贴现累积增益（nDCG）[13]。由于系统输出最佳选择的回复，因此p @ l是第1位置处的精度，并且应该是指示所检索的前1个回复中的合适响应的分数的最自然的方式。此外，我们使用nDCG和MAP为测试查询提供了前k个排名列表，其测试系统提供多个适当响应作为候选的潜力。我们的目标是选择尽可能多的适当的响应进入前k列表，并奖励返回合适响应的方法与MAP和nDCG不同，它们检查适当候选者的排名，平均倒数排名（MRR）专注于评估检索系统找到（也许）最佳结果的能力，这意味着人类在我们的数据集中创建的正三元组。MRR是有用的，但不测试全部能力，因为可能存在多个适当的话语来继续对话。4.2.2算法比较。为了说明我们的方法的性能，我们包括几个替代算法作为比较的基线。基线可以分为两类，即，1）基于生成的方法和2）最近研究的会话系统的基于检索的方法。由于我们提出的方法在技术上是一个基于检索的方法，我们主要集中在第二类。为了公平起见，我们对所有算法进行了相同的预处理程序和数据清理世代对话。对于这组算法，会话系统将从给定输入生成响应，即，在会话场景下来自用户的查询。• 统计机器翻译（SMT）：SMT是一种机器翻译范例，它将查询“翻译”成一个“回复”。我们在[12]中为会话建模实现了基于短语的翻译。• LSTM-RNN：LSTM-RNN基本上是一个使用长短期记忆（LSTM）架构的循环神经网络（RNN）。具有LSTM单元的RNN由存储单元组成，以便在较长的时间段内存储信息。我们使用LSTM-RNN作为生成和检索基线。对于生成，我们首先使用LSTM-RNN将输入序列（查询）编码到向量空间，然后使用另一个LSTM-RNN将向量解码为输出序列（回复）[33];对于检索，我们采用LSTM-RNN来构建句子表示，并使用余弦相似度来输出匹配分数[25]。• 神经反应机器。我们实现了[29]中提出的神经响应机（NRM），这是一种基于RNN的生成方法。基于检索的对话。这组基线中的方法基于检索系统，其在给定特定查询的情况下从会话存储库中返回最佳匹配的候选回复。• Okapi BM25. 我们包括标准的检索技术，nique排名候选人的答复。对于每个查询，我们使用语料库中的BM25模型[17]找到最相关的回复。• DeepMatch DeepMatch方法通过LDA [10]从主题的角度考虑多粒度。• 美国有线电视新闻网. 这种方法是一种基于CNN的方法，具有卷积层，其构建句子表示并通过MLP层产生匹配分数[11]。• Rank Optimized Conversation Framework （ ROCF ）ROCF使用上下文信息[38]，其目的是基于来自先前回合的上下文检索更合适的回复。它是上下文不敏感排名和上下文感知排名的组合。• 深度学习响应（DL2R）。DL2R 使用查询重构框架[37]。查询重构基于不同的上下文利用策略。• 神经检索我们提出了NeuRetrieval系统，用于人类和计算机之间的短文本对话。我们有一些新的见解，通过调查1）在多轮对话中查询表示的上下文信息的顺序建模，2）用于话语融合的普通/分层结构，以及3）给定学习表示的语义匹配的深度学习框架。4.3整体性能我们比较了所有方法的性能，包括基线和我们提出的根据MAP和nDCG测量的NeuRetrieval模型，如表1所示对于生成方法，基线提供一代作为对输出的响应因此我们不跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂311表1：相对于基线的检索性能。对于生成式方法，它们为每个查询生成一个响应。因此，p@1实际上指的是准确度。其他指标不适用。注意到是NeuRetrieval方法的变体，表示单轮表示、具有普通结构或具有分层结构的多轮表示（即，模型1、模型2和模型3）。生成方法p@1地图nDCG@5nDCG@10nDCG@20MRRSMT [12]LSTM-RNN [33]NRM [29]0.3630.4410.465上下文不敏感检索p@1地图nDCG@5nDCG@10nDCG@20MRR霍加皮BM250.2720.2530.3370.3020.3680.169DeepMatch [10]0.4570.3170.4190.4540.5080.275LSTM-RNN [25]0.3380.2830.3300.3710.4310.228[11]第十一话0.3940.2940.3970.4210.4770.232CCONTEXT-AWARE检索p@1地图nDCG@5nDCG@10nDCG@20MRRROCF [38]0.7110.4120.6510.6660.7020.321DL2R [37]0.7310.4160.6630.6820.7170.333NeuRetrieval（型号1）0.4350.3200.4040.4560.4980.265NeuRetrieval（型号2）0.7210.4110.6600.6570.7080.331NeuRetrieval（型号3）0.7350.4180.6690.6830.7150.338比较该算法组的MAP或nDCG。请注意，不太可能生成原始响应;因此计算MRR是不可行的。一般来说，生成算法具有相对较高的p@1分数，但生成的响应是模糊的或广泛的，但不够具体。这样的回答可能是相关的，但不适合谈话[29，37]。我们可以看到NeuRetrieval相对于原始的基于检索的基线有很大的改进。Okapi BM25代表标准（和简单）检索系统。BM25的性能不如其他基于深度学习的检索系统。深度学习系统被证明具有强大的学习抽象表示的能力[2，14，30]。BM25仅利用术语级处理的浅层表示。深度学习算法组通常压倒浅层学习算法。观察是相似的上下文不敏感的检索组和上下文感知的检索组。上下文感知方法优于标准深度学习基线。这些好处被认为是由于上下文信息，而其他深度学习基线仅是单轮对话的匹配指标我们比较了上下文感知的检索方法的细节。建议的NeuRetrieval模型显示出更好的性能对上下文感知的基线。不同的是，我们改变了一种新的上下文建模方法：我们使用顺序建模而不是所有可能的话语的简单集成或组合。会话会话的结构也被纳入NeuRetrieval模型。会话流的顺序和分层建模可能会导致改进。我们有不同的方式通过上下文查询表示来使用上下文信息，如图1所示。模型1实际上退化为单轮对话场景不集成上下文信息。有两种不同的方法来合并上下文信息，模型2不区分单词级和句子级信息，模型3在两个层次中对单词级和句子级信息进行建模。我们可以看到，模型1与模型2或模型3之间的改进是相当明显的，这表明上下文信息对于检索更好的候选人非常有益，特别是在会话场景下。结果表明，模型3优于模型2。研究结果表明，一种恰当的上下文信息表征方法是非常重要的。不同层次结构中的单词和句子信息的混合建模被证明是更好的。5结论在本文中，我们提出建立一个新的检索方法，基于搜索的人机对话系统。给定人类发出的话语作为查询，我们提出的系统将基于使用深度神经网络的NeuRetrieval模型返回相应的响应。这项工作有三个主要贡献：1）我们提出了一个上下文查询编码器，它具有为会话任务捕获的顺序信息; 2）我们研究了不同的上下文表示策略，有或没有分层结构; 3）建立了基于上述策略和组件的深度神经网络体系结构。我们使用一系列评估指标来检查我们提出的具有多个基线的NeuRetrieval模型的效果我们的方法（通常）优于强基线。在一般情况下，上下文信息被证明是有用的对话，特别是多轮对话。上下文和查询的分层建模也很有帮助。在未来，我们将研究更多的功能，以进一步提高性能。跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂312致谢我们感谢审稿人的深刻评论。本研究得到了国家重点研究发展计划（2004）的资助。2017YFC0804001）、国家自然科学基金（No. 61672058）。严睿获得CCF-腾讯开放研究基金和微软合作研究计划的资助。引用[1] Pear Analytics. 2009. Twitter研究-2009年8月。 15（2009）。[2] Yoshua Bengio 2009. 学习 AI 的深度架构。 Foundations andTrends in Machine Learning2，1（2009），1[3] 我是博图。一九九八年。在线学习和统计评估。神经网络中的在线学习17（1998），9.[4] Miguel A Carreira-Perpinan和Geoffrey E Hinton。2005.对比发散学习。《人工智能与统计学》，2005年。十七岁[5] 乔治卡塞拉和爱德华一世乔治。1992.解释吉布斯采样器。TheAmerican Statistician46（1992），167[6] Kailong Chen，Tianqi Chen，Guoqing Zheng，Ou Jin，EnpengYao，and Yong Yu. 2012.协作个性化推文推荐。在SIGIR661-670[7] Gao Cong， Long Wang， Chin-Yew Lin， Young-In Song， andYueheng Sun. 2008.从在线论坛查找问题-答案对。在SIGIR467-474[8] Alan Graves，Abdel-rahman Mohamed，and Geo offrey Hinton.2013. 深度递归神经网络语音识别。在proc 声学、语音和信号处理。6645-6649[9] 华和，凯文·金佩尔，林志颖。2015.基于卷积神经网络的多视角句子相似度建模。在EMNLP中。1576-1586年。[10] John Hopcroft，Tiancheng Lou，and Jie Tang. 2011.谁会跟着你回去？：互惠关系预测。在CIKM1137-1146年[11] 胡宝田，卢正东，李航，陈庆才。2014.用于匹配自然语言句子的卷积神经网络架构。在NIPS。2042-2050年。[12] Kaler voJ¨ar velinandJaanaKek¨al¨ainen. 2002年基于累积增益的红外技术评价。 ACM Trans. Inf. 20，4（2002），422-446。[13] Kaler voJ¨ar velinandJaanaKek¨al¨ainen. 2002年基于累积增益的红外技术评价。 ACM Trans. Inf. 20，4（2002），422-446。[14] Nal Kalchbrenner Edward Grefenstette和Phil Blunsom 2014.一个用于句子建模的卷积神经网络。arXiv预印本arXiv：1404.2188（2014）。[15] Ross Kindermann，James Laurie Snell，等. 1980. 马尔可夫随机场及其应用。第1卷。美国数学学会普罗维登斯，RI。[16] 郭宗庭，严瑞，黄玉洋，孔鹏华，林守德。2013.基于聚合统计的异构社交网络无监督链接预测在KDD775-783[17] John La fferty和Chengxiang Zhai。2001.文档语言模型、查询模型和信息检索的风险最小化。在SIGIR111-119[18] Victor Lavrenko和W.布鲁斯·克罗夫特。2001.基于相关性的语言模型。在SIGIR120-127[19] Anton Leuski和David Traum。2011. NPCEditor：使用信息检索技术创建虚拟人对话。AI Magazine32，2（2011），42[20] Jiwei Li，Minh-Thang Luong，and Dan Jurafsky. 2015.一种用于段落和文档的分层神经自动编码器。在ACL-IJCNLP1106-1115.[21] Christopher D Manning ， Prabhakar Raghavan ， and HinrichSchütze. 2008年信息检索简介。 Vol. 1.一、北京大学出版社.[22] Tomas Mikolov， Kai Chen ， Greg Corrado， and Je ffrey Dean.2013. 向量空间中词表示的有效估计。 arXiv 预印本 arXiv ：1301.3781（2013）。[23] Elnaz Nouri，Ron Artstein，Anton Leuski，and David R Traum.2011.使用生成的问题-答案对扩充会话字符..在AAAI秋季研讨会：问题生成。[24] 劳伦斯·佩奇、谢尔盖·布林、拉杰夫·莫特瓦尼和特里·维诺-格拉德。1999. PageRank引文排名：为网络带来秩序。（1999年）。[25] Hamid Palangi ， Li Deng ， Yelong Shen ， Jianfeng Gao ，Xiaodong He，Jianshu Chen，Xinying Song，and Rabab Ward.2015.使用长短期记忆网络的深度句子嵌入：信息检索分析与应用。arXiv预印本arXiv：1502.06922（2015）。[26] TimR ock tüaschel、Ed wardGrefenstette、KarlMoritzHermann、Tom´aˇsK oˇcisky`和PhilBlunsom。2015年。用神经注意力进行推理。arXiv预印本arXiv：1509.06664（2015）。[27] Iulian V Serban ， Alessandro Sordoni ， Yoshua Bengio ， AaronCourville，and Joelle Pineau. 2016.使用生成分层神经网络模型构建端到端双向系统。在AAAI3776-3783[28] Aliaksei Severyn和Alessandro Moschitti。2015.学习用卷积深度神经网络对短文本对进行排序。在SIGIR373-382.[29] 尚立峰，路正东，李航。2015.短文本对话的神经响应机器。在ACL-IJCNLP1577-1586年。[30] Richard Socher，Je ffrey Pennington，Eric H Huang，Andrew YNg，and Christopher D Manning. 2011.用于预测情感分布的半监督递归自动编码器。在EMNLP151-161.[31] Fei Song和W.布鲁斯·克罗夫特。1999.一种用于信息检索的通用语言模型。在CIKM316-321[32] Alessandro Sordoni ， Michel Galley ， Michael Auli ， ChrisBrockett ， Yangfeng Ji ， Margaret Mitchell ， Jian-Yun Nie ，Jianfeng Gao，and Bill Dolan. 2015.一种基于神经网络的上下文相关会话应答生成方法。在NAACL196-205.[33] Ilya Sutskever，Oriol Vinyals，和Quoc VV Le. 2014. 用神经网络进行序列到序列学习在NIPS。3104-3112[34]

下载后可阅读完整内容，剩余1页未读，立即下载