神经符号执行显式推理的面向任务对话生成系统

140 浏览量更新于2023-11-30 收藏 723KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文面向任务的对话生成Shiquan Yang1，Rui Zhang2，Sarah Erfani1，Jey Han Lau11墨尔本大学，2www.ruizhang.info1{shiquan@student.，unimelb.edu.au，2rayteam@yeah.net摘要我们研究了任务的可解释性问题-外部知识库（KB）城市客房价格_范围中等棕榈_位于草坪_在Chadstone冈维尔_酒店价格_范围昂贵棕榈草坪旁城市客房Chadstone位于_在Leichhardt冈维尔_酒店位于_在Moorabbin面向对象的对话系统。在此之前，大多数基于神经的面向任务的对话系统采用隐式推理策略，这使得模型预测对人类不可解释。为了获得一个跨父推理过程，我们引入神经符号执行显式推理，证明模型决策的推理链。由于推导推理链需要面向任务的对话的多跳推理，因此，由于单阶段设计，神经符号方法将导致错误传播。为了克服这一点，我们提出了一个两阶段的方法，包括一个假设生成器和一个推理。我们首先得到多个假设，即，通过假设生成器执行期望任务的潜在操作然后，推理器验证每个假设，并选择有效的假设进行最终预测。整个系统的训练是利用原始的文本数据，而不需要使用任何推理链标记。在两个公共基准数据集上的实验表明，该方法不仅取得了较好的结果，而且引入了一个可解释的决策过程. 代码和数据：github.com/shiquanyang/NS-Dial。1介绍神经任务导向的对话系统最近取得了快速的进展（ Peng et al. ， 2020; Hosseini-Asl 等人，2020; Wu et al. ，2020），在各种基准数据集上取得了强有力的经验结果，如SMD（Eric etal. ，2017）和多WOZ（Budzianowski et al. ，2018）。然而，由于神经网络的黑箱性质，大多数现有方法都缺乏解释能力（Doshi-Velez和Kim，2017; Lipton，2018; Bommasani等人，2018年）。，2021），这可能损害用户和系统之间的可信度。为用户：你能给我推荐一家位于Leichhardt的酒店吗？生成的假设：[Cityroom，Located_in，Leichhardt]......验证：[Cityroom，Next_to，Palm_Lawn]，[Palm_Lawn，Located_in，Chadstone]，[Chadstone，Located_in，Leichhardt][Cityroom，Located_in，Leichhardt]系统：Cityroom是一个很好的。图1：一个包含外部知识库的对话框示例。上下文实体（即， Leichhardt ）和 Answer 实体（即，Cityroom）分别标记为红色和黄色包含上下文实体和答案实体的三元组不直接存储在知识库中，而是由多个知识库三元组形成的推理链导出例如，在图1中，用户正在请求在给定位置的旅馆推荐。该系统执行推理的知识库（KB），并在响应中包含正确的实体然而，当系统不能提供正确的实体时，由于其固有的隐式推理性质，人类将难以追溯问题并调试错误。因此，这样的系统不能被充分信任以部署在现实世界的产品中。为了实现可信的对话推理，我们的目标是开发一个可解释的KB推理，因为它不仅对提供有用的信息（例如，图1中的位置）提供给用户，而且对于交流选项和选择目标实体也是必不可少的。如果没有可解释性，用户就为了应对这一挑战，我们提出了一种新的N欧元-S符号拨号框架（NS-Dial），它结合了神经网络的表示能力和符号方法的显式推理性质基于规则的专家系统）。前神经符号方法（Vedantam et al. 、arXiv：2203.05843v1 [cs.CL] 2022年3月+v：mala2277获取更多论文→→2019; Chen et al. ，2020）大多采用一阶段过程，其中由预定义的人类可解释的神经模块（例如，神经模块网络中的注意力和分类模块（Andreas et al. ，2016））来执行以获得最终预测。然而，由于KB推理任务涉及跨越多样且大规模KB中的多个三元组的推理过程，因此仅生成并遵循单个程序（即，由KB三元组形成的推理链）易于发生错误传播，其中一个步骤中的错误可能导致后续推理过程的失败，并可能导致次优性能。为了解决这一问题，我们提出了一个两阶段的方案，以减轻错误传播的影响，首先生成，然后验证多个假设。这里，假设是以三元组的形式，包含对话上下文中提到的实体和KB中的实体以及它们的对应关系。有效的（即，正确的）假说是包含在地面实况响应中提到的实体的假说。一旦我们在生成阶段获得多个假设候选者，我们就采用推理引擎来验证这些假设。例如，在图1中，给定用户查询“Can yourecommend me a hotel located in Leichhardt？”,in order to find the valid hypothesis, [Cityroom，Located_in，Leichhardt]和[Gonville_Hotel，Located_in，Leichhardt]。然后，推理引擎将构造证明树来验证它们，例如，对于第一个假设[Cityroom，Located_in，Leichhardt]，可以用KB中的以下推理链来验证：[Cityroom，Next_to，Palm_Lawn][Palm_Lawn，Located_in，Chadstone][Chadstone，Located_in，Leichhardt].整个框架使用原始对话进行端到端训练，因此不需要用于假设生成或验证模块的额外中间概括而言，我们的贡献如下：• 我们介绍了一种新的神经符号框架工作的可解释的知识库推理在面向任务的对话系统。• 我们提出了一个两阶段的• 我们进行了广泛的实验研究，两个基准数据集来验证我们提出的模型的有效性。通过分析生成的假设和验证，我们证明了我们的模型2相关工作面向任务的对话传统上，面向任务的对话系统是通过基于管道的方法构建的，其中任务特定的模块被单独设计并连接以生成系统响应（Chen et al. ，2016; Zhong et al. ，2018; Wuet al. ， 2019a; Chen et al. ， 2019a; Huangetal. ，2020）。在另一个范围内，许多工作已经开始转向端到端的方法，以减少人类的努力（ Bordes et al. ， 2017; Leiet al. ， 2018;Madotto et al. ，2018; Moon et al. ，2019; Junget al. ，2020）。Lei等人（2018）提出了一种两阶段序列到序列模型，将对话状态跟踪和响应生成联合纳入单个序列到序列架构中。Zhang et al.（2020）提出了一种域感知多解码器网络（DAMD），在单个神经架构中结合了状态跟踪、动作预测和响应生成。最近，大规模预训练语言模型的成功BERT，GPT-2）（ Devlin et al. ， 2018; Radford et al. ， 2019年）已经刺激了许多最近的对话研究，开始探索大规模的预训练语言模型的对话（沃尔夫等人。，2019; Zhang et al. ，2019）。在面向任务的对话中，Budzianowski和Vulic（2019）使用GPT-2对MultiWOZ数据集进行微调，以生成对话响应。 Peng等人（2020）和Hosseini-Asl等人（2020）采用了一个统一的GPT-2模型，该模型以多任务的方式联合训练用于信念状态预测、系统动作和响应生成。然而，大多数现有的方法不能解释为什么模型以人类可理解的方式做出特定的决策。我们的目的是弥补这一局限性，并在本研究中引入对话推理的可解释性。神经符号推理最近吸引了大量的研究关注，这是由于其利用神经网络的代表性能力和符号推理的组合性以获得更鲁棒和可解释的模型的优势（ Andreas et al. ， 2016; Hu et al. ， 2017;Hudson and Manning，2018; Vedantam et al. ，2019; Chen et al. ，2019 b; Vedan-tamet al. ，2019; van Krieken et al. ，2022）。神经符号与纯+v：mala2277获取更多论文ENCENC12月，t12月，t12月，t12月，tn∈神经网络在于前者如何结合基本规则或模块来模拟复杂的功能。 Rocktäschel 和 Riedel（2017）提出了一种神经符号模型，可以联合学习子3.2响应生成为了生成系统响应，我们首先使用线性层将Henc投影到H′ =（h′，h′，.，h′），它们在相同的空间中，CLS1M符号表示和可解释规则解码器。我们用h′初始化解码器。通过标准的反向传播从数据中在visual在解码时间步长t期间CLS，该模型利用QA，Andreas等人（2016）提出神经模块网络来组成一系列可微模块，其中每个模块实现一个算子隐藏状态hdec，t参加H′以经由标准注意力获得注意力表示h′机制然后，我们将hdec，t和h′连接起来，一个潜伏的程序Yi et al.（2018）提出从内部发现符号程序踪迹提出问题，然后在以形成上下文向量词汇空间V：12月，tC并将其投影到用于视觉问题回答的图像的结构化表示。然而，由于大规模知识库上的多跳推理引起的错误传播问题，这些方法不能容易地适应面向任务的对话因此，我们的目标是通过开发一种神经象征的方法来改善任务导向的对话，以弥合这一差距3初步在这项工作中，我们专注于问题的面向任务的对话反应生成知识库。形式上，给定对话历史X和知识库B，我们的目标是逐词生成系统响应Y。生成的响应的概率可以写为：p（Y |X，B）= Yp（yt|X，B，y1，y2，...，yt−1）（1）C=[hdec，t，h']（3）P词汇，t=Softmax（U1C）（4）其中U1是可学习的线性层，Pvocab，t是用于生成标记yt的词汇分布。接下来，我们的目标是估计KB分布Pkb，t，即，以可解释的方式确定KB中实体的概率分布，并融合Pvocab，t和Pkb，t以生成最终的输出标记。我们遵循See et al.（2017），并采用软切换机制来融合Pvocab，t和Pkb，t以生成输出令牌yt。具体而言，生成概率pgen[0，1]是从注意的表示h′以及隐藏状态hdec，t：pgen=σ（U2（[h' ，hdec，t]））（5）其中σ是sigmoid函数，U2是线性层。通过从概率分布P（w）进行贪婪采样来生成输出令牌yt：t=1P（w）=pGenPvocab，t+（1−pGen）Pkb，t（六）其中yt是响应Y中的第t个令牌。总体架构如图2所示。我们首先介绍了我们的系统中的标准模块，然后解释了两个新的模块。3.1对话编码我们采用预训练的语言模型BERT（De vlinetal. ，2019）作为骨干，以获得查询历史中每个令牌的分布式表示。具体来说，我们在对话历史的开头添加一个[CLS]标记来表示对话的整体语义隐藏状态H enc=（h CLS，h1，...，hM）对于所有输入令牌X =（[CLS]，x1，.，xM）的计算公式如下：Henc=BERTenc（φemb（X））（2）其中M是对话历史中的令牌数量，φemb是BERT的嵌入层+v：mala2277获取更多论文接下来，我们详细描述如何使用我们提出的两个新颖模块来获得KB分布Pkb，t，即，假设生成器和层次推理机。4面向任务对话的神经符号推理为了计算KB分布Pkb，t，我们提出了两个新的模块：假设生成器（HG）和分层推理引擎（HRE）。我们将上下文向量C（等式3）作为HG模块的输入，并生成K个假设H，然后将每个假设H然后将估计的置信度分数作为Pkb，t，给出KB中实体的分布。接下来，我们将详细描述每个组件的工作原理，并解释它们如何相互作用以生成Pkb，t。+v：mala2277获取更多论文私人私人私人S(a)假设生成器Gumbel-SoftmaxGumbel-Softmax(b)分层推理引擎子假设目标假设(d)响应生成（20，1美元总人数/0，1查询状态预测×��预测C =[10dec，1，10dec]&]的一种12月中(c)对话编码H……ℎ&CLSH1H2HM子假设2012年12月，%ℎ叶节点KB：[H1，R 1，T 1][H2，R 2，T 2]……[Hn，R n，Tn]下12月（）*[CLS]X1X2……XM……��“评分信仰伯特KBHi主管实体Ri关系我不是尾实体KB共享要素转换层最小-最大池化KB结构预测候选人预测×（1−gen）KB假设综合法图2：整体架构的图示：（a）生成一组合成假设的假设生成器;（b）用于验证生成的假设的推理引擎;（c）对话编码;（d）响应生成。4.1假设生成器设一个假设是一个形式为“[ H，R，T ]“的三元组本文主要讨论了三种类型的假设：H-假设、T-假设和R-假设。H-假设是这样一种结构，其中尾实体T和关系R从上下文中推断出来，而头实体H是未知的（这需要使用KB来回答），并且它采用“[ d，R，T ]“的形式类似地，T-假设和R-假设分别具有未知的尾实体T和关系R的目标要了解与任务无关的功能h共享：h共享=W2（LeakyReLU（W1C））（7）其中W1和W2是可学习的参数（由结构预测、查询状态预测和候选预测组件共享），LeakyReLU是激活函数。共享层可以用复杂的神经架构参数化然而，为了保持我们的模型简单，我们使用了线性层，我们发现这些层在我们的实验中表现良好。SP接下来使用共享层之上的私有层来学习用于结构预测的特定于任务的特征：假设生成器模块用于生成SP私人=W4（LeakyReLU（W3h共享））（8）假设在这个三重格式，稍后将验证的分层推理引擎。直觉上，一个假说可以由它的内容和结构决定。结构表示假设的模板形式，内容则填充模板。例如，H-假设的模板形式是其中W3和W4是可学习的参数。为了便于展示，我们将私有特征转换函数定义为：F：hshare→hs（9）其中*表示三个子分量中的任何一个。为了获得预测的假设结构，一种直接的方法是将softmax应用于日期实体（即，的SP私人. 这将打破差异化--尾为此，我们采用分而治之的策略来共同学习三个子组件：结构预测，查询状态预测和候选预测。接下来，我们详细描述每个子组件。因为我们对结果进行采样并将其传递给神经网络，所以整体架构的能力。为了避免这种情况，我们利用Gumbel-Softmax技巧（Jang etal. ，2017年）超过h sp获取采样结构类型：结构预测（SP）结构预测模块的目标是确定结构ISP=Gumbel-Softmax（hsp）∈R3（10）假设（即，H/T/R假设）。例如，在图1中，人们可能期望在时间步0处有一个H假设。具体而言，SP使用共享私有架构来预测假设类型。它首先将上下文向量C（等式3）作为输入，并在所有三个子分量之间利用共享的变换层其中Isp是独热向量，并且一个元素的索引可以被视为预测结构。本文定义0为H-假设，1为T-假设，2为R-假设。查询状态预测（QSP）查询状态是需要从对话历史中推断出来的假设中的标记。例如一HH+v：mala2277获取更多论文私人QSPQSPCPⓈCPCP∈可能想根据图 1 中的历史推断关系R=Located_in和tailT =Leichhardt。因此，查询状态预测的目标是估计状态信息（例如，H假设中的T和R）。具体地，QSP将共享特征hshare作为输入，然后应用私有特征变换函数，然后应用Gumbel-Softmax，以使用以下公式获得假设的状态令牌：令牌是Cityroom和Gonville_Hotel，模型将实例化两个假设 [Cityroom ， Located_in ， Leichhardt]，[Gonville_Hotel，Located_in，Leichhardt]。4.2层次推理引擎通过HG模块生成的假设，我们接下来的目标是通过逻辑推理链来验证它们受神经定理证明器（Rocktäschel和Riedel，2017）的启发，我们开发了具有以下格式的链式逻辑推理：qsp，kprivate =Fqsp，k（h份额）（11）kqsp =Gumbel-Softmax（hqsp，k）∈Rn（12）α，（H，R，T）<$（H，Rn，Zn）<$··<$（Z1，R1，T）（14）其中，α是指示所述置信度的权重，其中，n是KB中的令牌（实体和关系）的数量，k{0，1}，I 0和I 1是两个独热向量，其中KB中它们的对应令牌用作假设的状态令牌。候选预测（CP）为了生成最终假设，我们需要多个候选来实例化除了状态令牌之外的假设的结构，例如，Cityroom或Gonville_Hotel作为图1中的候选头部实体H。为此，我们利用嵌入层φemb将KB中的所有令牌转换为矢量表示。然后，我们使用以下公式计算所有KB令牌的概率分布Pi=Sigmoid（φemb（Ki）hshare）（13）其中Ki是KB中的第i个令牌，φ emb是CP的嵌入层，Pi是第i个令牌成为候选的概率，表示内积。我们使用sigmoid而不是softmax，因为我们发现softmax分布太“尖锐”，使得不同令牌之间的概率难以验证以采样多个假设合成通过如下组合三个子分量的输出来组成最终假设H：（i）根据预测的结构类型生成假设模板例如，如果SP预测表示H-假设的结构类型0，则模型将形成“[ d，R，T ]“的模板;（ii）接下来，我们通过使用QSP模块的输出来顺序地例如，如果QSP的输出标记是d）具有从P中选择的前K个（在我们的最佳性能版本中K=5）实体。模型，箭头的右侧部分是用于证明该假设的推理链，Ri和Zi是来自KB的关系和实体。目标是找到给定假设的证据链和置信度α。为此，我们引入了一个基于神经网络的层次推理引擎（HRE），学习进行链式逻辑推理。在高级别上，HRE使用形成树结构的神经网络递归地生成多个级别的子假设，如图2所示。接下来，我们将详细描述该模块的工作原理。该模块将来自HG模块的输出假设作为输入。每个假设都是一个目标假设。为了生成等式14中的推理链，模块首先在假设空间中找到与目标相同格式的子假设。子假设可以看作是证明目标的中间推理结果。一种直接的方法是使用神经网络来预测子假设中的所有标记（2个头，2个尾和2个关系）。然而，这可能导致极大的三元组搜索空间，并且效率低下。直觉上，子假设继承于目标假设，子假设本身通过桥实体连接例如，[Uber，office_in，USA]可以通过两个子假设[Uber，office_in，Seattle]和[Seattle，a_city_of，USA]来验证，Uber和USA是从目标中继承的，而Seattle是子假设之间的桥接实体。出于这一动机，我们建议通过约束子假设来降低三重搜索的复杂性。具体地，给定目标[H，R，T]，我们生成格式为[H，R1，Z]，[Z，R2，T]的子假设，其中Z是桥实体，R1和R2是要预测的关系。因此，神经网络的目标已被简化为预测三个标记（2个关系H我+v：mala2277获取更多论文LLLCPCPCP我1个网桥实体）。形式上，HRE预测桥实体的矢量表示如下：hH，hR，hT=φemb（H），φemb（R），φemb（T）（15）hZ=W6（LeakyReLU（W 5[hH，hR，hT]））（16）其中[hH，hR，hT]是目标假设中的标记的表示的级联，hZ是桥实体Z的向量表示。hR1和hR2的预测使用公式16中的相同架构，不同之处在于它们使用不同的线性层进行特征变换。注意，hZ表示嵌入空间中的KB令牌。我们可以通过在向量空间中找到离hZ最近的KB令牌来有关令牌解码的更多详细信息，数据集域训练开发测试SMD导航，天气，时间表2425 302 304MultiWOZ 2.1餐厅，景点，酒店1839 117 141表1：SMD和MultiWOZ 2.1的统计数据。训练我们应用两个损失函数来训练整个架构端到端。第一个损失函数gen用于最终输出。我们在地面实况令牌和从最终分布P（w）生成的令牌上使用交叉熵损失。第二个损失cp用于假设生成器中的候选预测（CP）模块。我们对每个KB令牌（公式13）及其对应标签的输出分布应用二进制交叉熵损失每个KB令牌的标签计算如下：附录A中在获得hZ、hR1、hR2时，. 1，K= y表示。接下来，该模块迭代地将每个生成的子假设作为输入，并通过以深度优先的方式生成下一级子假设来扩展证明过程，直到达到最大深度D。为了对不同推理链中的置信度进行建模，我们进一步测量叶节点的每个三元组与KB中的三元组之间的语义相似性，并计算第m个假设Hm的置信度得分αm：0，Ki/= yt其中，Ki是KB中的第i个令牌，yt是时间步t处的地面实况输出最终亏损计算公式为：L=γgLgen+γcLcp（19）其中γg和γc是超参数，我们在实验中将它们设置为1。5实验αm=minmaxe−dj（Leafi，KBj）（17）5.1数据集i∈U其中叶 i 是证明树中第 i 个叶节点的表示（H、R、T的级联）（DFS方式），KBj是KB中第j个三元组的表示，U=[0，.，u-1]，V=[0，...，其中u和v是叶节点的数量，对应地是KB三元组，d是距离度量。在一般情况下，任何距离函数都可以应用，我们在实现中采用了欧氏距离，因为我们发现它在我们的实验中工作得很好叶节点中的所有三元组形成如等式14中的输入假设的推理链。假设H与信念α相结合形成了我们的KB分布Pkb，t。更多详情见附录B。直觉上，信念分数可以被视为假设包含正确实体的可能性。如果假设是有效的（即，包含正确答案实体），则它应该具有高可能性，从而鼓励基于存储在KB中的三元组生成更适当的推理链。为了评估我们所提出的方法的有效性和可解释性，我们在本文中的两个面向任务的对话的公共基准数据集上进行了实验，SMD（Ericet al. ，2017）和MultiWOZ 2.1（Budzianowskiet al. ，2018）。我们使用Eric et al.（2017）; Madottoet al. （ 2018 ）和 Qinet al. 创建的分区。（2020）分别用于SMD和MultiWOZ。数据集的统计数据见表1。在附录E中，我们在一个大规模的合成数据集上展示了几个额外的结果，以证明我们的模型5.2基线我们将我们的模型与以下面向任务对话中KB推理的最新基线进行比较：（ 1 ） Mem2Seq（Madotto et al. ，2018）：采用内存网络来存储KB并结合指针机制来从词汇表生成to-kens或从内存复制;（2）模块生成向量中的两个子假设标签i=不（十八）+v：mala2277获取更多论文→SMD MultiWOZ 2.1型号BLEU F1导航天气日历BLEU F1餐厅景点酒店表2：主要结果。D表示HRE模块的最大深度。我们用不同的随机种子运行每个实验5次，并报告平均结果。* 表示我们的框架在所有基线上的改善具有统计学显著性，t检验下p0.05。继Qin等人（2020）之后，我们报告了SMD上的导航，天气，日历和MultiWOZ上的餐厅，景点，酒店的每个域结果。GLMP（Wu et al. ，2019 b）：在解码期间使用全局到局部指针机制来查询KB;（3）DF-Net（Qin et al. ，2020）：采用共享私有架构来捕获特定领域和一般领域的知识以提高模型可移植性;（4）GraphDialog（Yanget al. ，2020）：合并从句子依赖性解析结果获得的图结构信息，用于提高KB推理准确性和响应生成质量。详细的实验设置见附录C。5.3主要结果根据先前的工作（Eric et al. ，2017; Madottoetal. ，2018; Wu et al. ，2019 b），我们采用BLEU和实体F1指标来评估我们的框架的性能。两个数据集的结果见表2。正如我们所看到的，我们的框架在这两个指标上的所有数据集上的表现始终优于所有以前的最先进的基线具体来说，在MultiWOZ数据集上，我们的模型在实体F1中实现了超过2%的绝对改进，在BLEU中实现了1.2%的改进。实体F1的改进表明我们的模型增强了KB推理，而BLEU的增加表明生成的响应的质量得到了提高。在SMD数据集上也观察到了同样的趋势这表明我们提出的面向任务的对话生成框架的有效性。5.4模型可解释性为了证明我们的框架的可解释性，我们调查我们的框架的内部工作。如图3所示，给定对话历史棕榈滩？ “ ，则生成的响应是 “ 有一个Golden_House。“.在第三个时间步，我们的模型成功地预测了一个合适的 H 假设，并将Located_in和Palm_Beach作为其状态令牌。我们的模型进一步实例化五个具体的假设，并计算他们的be- lief分数利用推理引擎，分别。正如我们从表中看到的，我们的模型成功地生成了五个合理的假设，并对它们进行了正确的评分（ Oracle KB 实体 Golden_House 的评分最高）。最高分假设的证明过程如图3所示。由HRE模块生成的验证过程具有深度3，并且用于验证目标假设的推理链是：[Golden_House，Next_to，Preston_Market]→[Preston_Market，Located_in，Williamstown]→[Williamstown，Located_in，Herb_Garden] [Herb_Garden，Located_in，Palm_Beach]。这表明，我们的框架已经成功地利用知识库信息来支持推理过程显式地得出正确的结论。更多示例和错误分析见附录（附录E.4和F）。5.5消融研究我们在我们的框架中消除了每个组件，以研究它们在两个数据集上的有效性。结果如表3所示。具体地，1）w/o HRE表示我们简单地使用候选预测（CP）模块中的概率（等式13）作为KB分布，而不使用来自推理引擎的2)w/oBERT表示我们使用标准GRU作为编码器而不是BERT。3)w/o软交换表示我们简单地将KB分布和词汇分布相加，F1F1F1F1F1F1Mem2Seq12.633.420.032.849.36.621.622.422.021.0GLMP13.960.754.656.572.56.932.438.424.428.1图对话14.261.156.456.972.16.734.139.227.829.6DF-Net14.462.757.957.673.19.435.140.928.130.6我们的（D=1）14.963.860.158.775.09.736.542.029.732.8我们的（D=3）15.6米64.5公斤60.3米59.2米75.6米10.6米37.2米42.6米30.6米33.7米+v：mala2277获取更多论文The_Hotpot价格范围适中你能给我推荐一家靠近棕榈滩的餐馆吗？预测答案：有一个金色的房子。结构类型国家代币前5名候选令牌生成的假设集信念分数““0.13“““0.07H假设““1.00“““0.08““0.05最高信念假设的层次推理引擎的详细验证过程：金色_房子位于棕榈滩KB：Golden_房价_范围昂贵Golden_House Cuisine意大利菜Golden_House Located_在Williamstown威廉斯敦位于棕榈滩Golden_House Next_to Preston_市场Preston_市场位于_在WilliamstownWilliamstown位于_在Herb_Garden金色_房子Preston_Market附近酒店威廉斯敦位于Herb GardenHerb_Garden位于棕榈滩Herb_Garden位于棕榈滩Hookey公园旁的火锅推理链：普雷斯顿_市场地点：WilliamstownHookey_公园旁边_王子_花园......[Golden_House，Located_in，Palm_Beach][Golden_House，Next_to，Preston_Market][Preston_Market，Located_in，Williamstown][Williamstown，Located_in，Herb_Garden][Herb_Garden，Located_in，Palm_Beach]图3：假设生成器和层次推理引擎的内部工作原理示例，用于在给定的对话历史中生成响应中的Golden_House您能给我推荐一家靠近Palm_Beach的餐厅吗？.我们的模型已经执行了4跳推理来验证目标假设[Golden_House，Located_in，Palm_Beach]。SMD MultiWOZ 2.1型号F1（%）型号F1（%）型号我们的（全型号）64.5-37.2 -- 不包括人权教育- 不带BERT 61.3 3.2 33.4 3.8- 不带软交换62.0 2.5 35.1 2.1表3：两个基准数据集的消融研究。SMD MultiWOZ 2.1模型原始Unseen原始Unseen表4：两个数据集的泛化测试结果。而不使用软门。从表中可以看出，所有单个组件都对我们框架的整体性能做出了显著贡献。具体而言，当删除HRE模块，性能大幅下降（超过5%的绝对下降），这证实了所提出的层次化推理模块的有效性5.6泛化能力我们进一步研究了我们的模型在未知设置下的泛化能力在先前作品发布的原始数据集中，MultiWOZ 2.1和SMD的训练和测试分割之间的实体重叠率分别为78%和15.3%。为了模拟看不见的场景，我们构建了一个新的数据集分割，将 MultiWOZ 2.1 的实体重叠率降低到30%，将SMD的实体重叠率降低到2%，这对所有模型来说都是一个更具有关施工过程的更多详细信息，请参见附录D。我们重新运行了所有基线及其发布的代码，并在新的数据分割上重新运行了我们的模型，并在表4中报告了结果。正如我们所看到的，两个数据集上的所有系统的性能都显着然而，与其他系统相比，我们的模型退化较少，表明它在不可见的场景下具有更好的泛化能力这也验证了神经符号方法具有更好的概括能力的优势，这也被许多其他研究所证实（ Andreaset al. ， 2016;Rocktäschel and Riedel ， 2017; Minervini etal. ，2020）。5.7人工评价根据先前的工作（Qin et al. ，2020年），我们还从三个方面对我们的框架和基线进行人工评估：正确性，流畅性和人性化。详细介绍CRI-F1（%）F1（%）F1（%）F1（%）GLMP60.755.332.423.9图对话61.155.734.125.4DF-Net62.757.235.126.5我们的64.561.137.232.8+v：mala2277获取更多论文模型正确流利人类一样GLMP4.013.783.25图对话4.154.193.40DF-Net4.164.253.54我们的（全模型）4.414.283.59人类4.834.654.57协议百分之七十五百分之六十九百分之七十一表5：人体评价结果。氚离子可在附录H中找到我们从测试集中随机选择了300个不同的对话样本，并要求人类注释者判断响应的质量，并根据从1到5的三个指标对其进行我们通过向注释者展示示例来训练他们，以帮助他们理解标准，并使用Fleiss的Kappa（Fleiss，1971）来衡量不同结果示于表5中。正如我们所看到的，我们的模型在所有三个指标上都优于所有基线，这与我们之前使用自动评估的观察结果6结论在本文中，我们提出了一个明确的和可解释的神经符号知识库推理框架面向任务的对话生成。假设生成器采用分治策略学习生成假设，推理器采用递归策略学习生成假设的验证。我们在两个公共基准数据集上评估了我们提出的框架，大量的实验结果表明，我们提出的框架的有效性，以及更好的解释。7伦理考虑对于本文中的人工评估，我们从英语国家招募了几名Amazon Mechanical Turk的注释员。我们为每个注释任务支付0.15美元每个任务平均可以在1分钟内完成，相当于每小时9.0美元，高于美国联邦最低工资（7.25美元）。为了确保人工评估结果的质量，我们通过几种方式进行质量控制首先，注释者将在他们的任务之前看到我们的评分标准（附录H），并要求他们遵守这些标准。如果任务没有正确完成，无论是由专家确定判断（我们招募了3名母语为英语的人来验证Turkers注释的结果我们还计算一致性分数来检查注释器之间的一致性。引用Jacob Andreas Marcus Rohrbach Trevor Darrell 和Dan Klein 2016.神经模块网络。在IEEE计算机视觉和模式识别会议论文集，第39放大图片作者：Rishi Bommasani，Drew A.放大图片创作者： Michael S. Bernstein ， JeannetteBohg，Antoine Bosselut，Emma Brunskill，ErikBrynjolfsson ， Shya- mal Buch ， Dallas Card ，Rodrigo Castellon ， Niladri Chatterji ， AnnieChen ， Kathleen Creel ， Jared Quincy Davis ，DoraDemszky ， ChrisDonahue ， MoussaDoumbouya ， Esin Durmus ， Stefano Ermon ，John Etchemendy ， Kawin Ethayarajh ， Li Fei-Fei ， Chelsea Finn ， Trevor Gale ， LaurenGillespie，Karan Goel，Noah Goodman，ShelbyGrossman ， Neel Guha ， Tatsunori Hashimoto ，Peter Henderson，John He- witt，Daniel E.Ho，Jenny Hong ， Kyle Hsu ， Jing Huang ， ThomasIcard ， Saahil Jain ， Dan Jurafsky ， PratyushaKadhi，Siddharth Karamcheti ，Geoff Keeling ，Fereshte Khani ， Omar Khattab ， Pang WeiKohd ， Mark Krass ， Ranjay Krishna ， RohithKudi-tipudi ， Ananya Kumar ， Faisal Ladhak ，Mina Lee ， Tony Lee ， Jure Leskovec ， IsabelleLevent，Xi- ang Lisa Li，Xuechen Li，TengyuMa，Ali Malik，Christopher D. Manning，SuvirMirchandani，Eric Mitchell，Zanele Munyikwa，SurajNair，AvanikaNarayan，DeepakNarayanan ， Ben Newman ， Allen Nie ， JuanCarlos Niebles ， Hamed Nilforoshan ， Ju- lianNyarko ， Giray Ogut ， Laurel Orr ， Isabel Pa-padimitriou，Joon Sung Park，Chris Piech，EvaPor

下载后可阅读完整内容，剩余1页未读，立即下载