没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文面向对话系统Yi-Lin Tuan1,Sajjad Beygi2,Maryam Fazel-Zarandi2 Qiaozi Gao2,Alessandra Cervone2,WilliamYang Wang11加州大学圣巴巴拉分校2亚马逊Alexa AI{ytuan,william}@cs.ucsb.edu{beygi,fazelzar,qzgao,cervon}@amazon.com摘要如今,与语音助手交互的用户需要以非常特定的方式表达他们的请求,以获得适当的响应。这限制了用户体验,部分原因是由于缺乏对话平台的推理能力以及需要大量劳动的手工规则。提高用户体验和减轻设计人员的人工劳动的一个可能的方法是建立一个端到端的对话系统,该系统可以在感知用户的话语的同时进行推理。在这项工作中,我们提出了一种新的方法,将知识推理能力纳入对话系统中,以一种更具可扩展性和可生成性的方式。我们提出的方法允许一个单一的Transformer模型直接在大规模的知识图上行走以生成响应。据我们所知,这是第一个让Transformer模型通过在可微知识图上进行推理来生成响应的工作。我们研究了所提出的方法在面向任务和特定领域的聊天对话上的推理能力。实验结果表明,该方法能够有效地将知识图整合到具有完全可解释推理路径的对话系统中.1介绍如今,对话系统在客户服务和基于语音的助理中无处不在该技术的主要用途之一是支持人类完成可能需要访问和导航大型知识库的任务(例如,电影搜索)。对话系统架构通常由自然语言理解(NLU)模块、对话管理(DM)模 块 和 自 然 语 言 生 成 ( NLG ) 模 块 组 成( Jurafsky 和 Martin , 2009; Williams 等 人 ,2009)。,2016)。首先,NLU组件从用户话语中提取含义表示,DM基于该含义表示来生成表示。通过在意义表示上进行推理并在必要时与外部应用进行通信来执行下一个系统动作。例如,DM可以从外部知识图(KG)检索信息此过程要求DM将NLU的输出转换为要发布到后端的查询考虑到这一步骤的难度(通常是依赖于域的),DM组件可能需要设计手工制作的规则。然而,这样的规则通常不能扩展到不同的应用程序。它们可能需要相当大的努力来覆盖所有可能的情况/对话流,从而导致设计新应用程序的昂贵成本。此外,在一些情况下,与这样的助理交互的用户被迫形成特定查询以实现其目标,这可能破坏用户参与。为了减轻必须设计昂贵的手工制作的规则和破坏用户体验的问题,最近的工作已经探索了构建端到端对话系统的可能性(Wen et al. ,2017 ) 和 一 体 化 响 应 生 成 模 型 ( Serban etal. ,2016)。其中,由于图是存储知识的主要结构之一,最近的研究(Ghazvininejad etal. , 2018; Zhouet al. , 2018; Moon et al. ,2019; Tuan et al. ,2019; Yang et al. ,2020)已经提出了根据对话历史和外部知识图生成自然语言响应的方法。尽管这些创新和鼓舞人心的方法,也有一些缺点。例如,这些方法要么无法完全解释,要么仅限于小规模的知识图。本文提出了一种新的对话可区分知识图模型(DiffKG)。DiffKG是一种单Transformer模型,(1)生成一个关系序列,以执行多跳推理的具体KG表示提出的(科恩等人。,2019),然后(2)使用检索到的实体生成响应。到arXiv:2203.10610v1 [cs.CL] 2022年3月+v:mala2277获取更多论文{E R}ERGG据我们所知,这是第一个可以直接在大型KG上行走的对话模型,具有灵活性和可解释性。DiffKG允许在KG中具有灵活的实体值,并且利用任意定义数量的令牌来处理新颖的实体值DiffKG的推理路径由预测的关系组成,因此允许透明。我们进行了大量的实验来测试KG接地对话上的DiffKG性能。我们选择斯坦福多域对话(SMD)(Ericet al. ,2017),并提出了一个新的数据集,SMD-推理,以模拟需要多种推理类型的场景,并选择OpenDialKG(Moonetal. ,2019)来模拟需要大规模KG推理而无需预处理的场景。然后,我们将DiffKG与SMD和OpenDialKG上最先进的模型进行比较,并将KG转换为文本形式,变压器可以从中学习。从经验上讲,我们的实验表明,DiffKG可以有效地在大规模KG上进行训练,并在KG中使用修改的三元组证明其鲁棒性。从计算的角 度 来 看 , 与 不 使 用 任 何 KG 信 息 的Transformer模型相比,DiffKG导致相对较低的额外时间和内存使用概括起来,我们的贡献是:1)我们提出了DiffKG,一种新的方法,可以有效地和灵活地纳入大规模KG;2)我们证明了DiffKG是一种模型无关的方法,可以应用于不同的模型架构; 3)我们证明了DiffKG是一种可解释的方法,在推理时具有低附加延迟。我们的代码和处理后的数据集在https://github上发布。com/Pascalson/DiffKG-Dialog.2相关工作近年来,出现了大量的新方法,提出了端到端模型,试图理解自然语言输入文本和搜索信息。两个被广泛探索的任务是问答(QA)和对话生成。QA. 多种QA方法(Weston等人,2015; Yin etal. ,2016; Hao等人,2017; Rajpurkar等人。,2018; Verga et al. ,2020; Eisenschlos et al. ,2021年)已被提出,以解决任务去-Khot等人,2020; Lin等人,2021)对于模型从外部知识库提取信息以回答问题特别有用。尽管如此,这些研究大多采取从幼儿园检索的信息作为一个单一的问题的答案,而在对话中,我们必须制定一个多轮对话历史的信息响应。对话生成。最近的作品研究了接地对话生成。这些方法可分为三大类。首先,Dinan等人( 2018 ) ; Zhao et al.( 2019 ) ; Tuanet al.(2020); Kim等人 (2020)从非结构化数据中提取有用的知识以生成响应,诸如包含在段落和说话者的简档中的信息。其次,Sordoni等人(2015); Long等人(2017); Zhu等人(2017);Ghazvinine-jad等人。(2018);Zhouet al. (2018);Veli cko vi cet al.(2018); Joshi et al. (2020); Hosseini-Asl等人 (2020); Wang et al. (2021)利用来自知识库的信息(图形或表格)来增强对话系统。他们通常训练知识库的实体和关系嵌入,并将这些嵌入到输入表示中以预测响应。第三,Moon et al.(2019); Tuan et al.(2019); Junget al. (2020)将推理过程更明确地表述为知识图上的路径遍历这些方法进一步提高了会话Agent的透明性和可解释性,并与我们分享了最相似的想法然而,它们要么只预测推理路径而不产生响应,要么需要子图采样来减少KG的规模在这项工作中,我们的方法使用一个Transformer模型,联合预测显式推理路径的大规模知识图,并生成对话响应的基础上的reasoning结果。3背景3.1对话系统我们假设系统的知识可以用知识图(KG)=、得双曲余切值.表示实体,并表示关系。知识图包含多个描述实体和关系之间的连接的三元组我们表示第k个三元组在语言学中,什么是明确的(eh,rk,et),其中eh,rk,et是k k k k文本(Storks et al. ,2019)。例如,基准点(Mihaylov et al. ,2018; Reddy et al. ,2019年;分别是头实体、关系和尾实体。三元组、实体和关系的总数+v:mala2277获取更多论文·|GGK推理类型例如相关信息以KG提取KG推理U:这里有哪些加油站?R:包括POI_型加油站U:你听过歌手Kesha的歌吗我很喜欢她的音乐,尤其是《你的爱是我的毒品》可用KG作曲家你的爱是我的药表一:对话系统中不同推理类型和输出格式(语义和自然语言形式)的示例,以及可访问KG中的相关信息。分别表示为NT、NE、NR。13.2对话系统如果我们将对话历史定义为在用户和系统交互期间发生的令牌序列,则扁平化的对话历史可以写为:x=(x1,x2,...,xm,., (1)其中xm是具有M个令牌的对话历史中的第m个令牌。在端到端对话系统中,我们假设存在由θ参数化的对话系统,该对话系统可以预测响应Pθ(xi)的概率分布。从该概率分布中采样生成的响应。4问题陈述我们专注于理解语言模型在会话期间执行推理的能力我们考虑两个任务,通常需要在对话的情 况 下 , 并 称 之 为 语 义 形 式 和 自 然 语 言(NL)的形式在表1中。首先,给定对话历史和用户在这种情况下,我们假设预期输出是NLG模块的基本知识我们认为,这项任务可以帮助更好地评估,如果反应是正确的或不,哪种类型的推理可以更成功地处理。其次,给定对话历史和用户1G中的三元组的一个例子是三元组eh=加油站,被系统。如果模型可以同时学习支持聊天和推理,这种带有注释的此外,我们的目标是了解模型如表1所示,通过KG推理,我们指的是模型在多跳中从任意缩放的KG检索信息的能力同时,我们将逻辑推理称为模型进行操作的能力,例如评估语句是真还是假,从备选项列表中选择最小值/最大值,以及提取约束。我们制定的任务,我们专注于如下:给定的对话历史x和当前可访问的KG,我们可以扩展一个Transformer模型,以预测一个正确的响应y在语义或NL形式?如表1所示,该任务不仅要求模型从KG中准确地检索信息,而且还需要对信息进行进一步的逻辑运算解决这个任务,一个模型也应该能够有效地整合对话历史x与KGG。5该方法图1说明了我们提出的架构,其中包含四个主要部分:对话历史编码器,可微分KG推理模块,可学习的逻辑操作模块,和响应解码器(Transformer模型)。请注意,我们使用两种类型的转换器进行实验:因果语言模型GPT 2(Radford et al. ,2019)和编码器-解码器模型T5(Raffel et al. ,2020)。对于GPT2,我们重用了rk=IsTypeOf,且et=K雪佛龙。 即“该过程的开始,即,在图1中“雪佛龙”的类型作为生成响应的最终TransformerKG推理U:我需要无铅汽油。R:通知瓦莱罗,4英里IsTypeOfHasDistance加油站瓦莱罗4英里NL形式语义形式逻辑推理真/假问:本周会下雪吗?R:是的CoronaHasweatherThursdayReportID1snow选择U:请告诉我最近的购物中心怎么走。R:通知斯坦福购物中心,3英里HasDistanceStanford SC 5.6 km购物Midtown SC 8.8 km+v:mala2277获取更多论文∈∈∈∈G∈O∈∈E∈{|联系我们不不ORC图1:建议的DiffKG的图示,它利用了预训练的Transformer模型(T5或GPT2)和Reified KG。模型根据预测的关系序列[r1;. ;rH],从而在所使用的推理路径方面是完全可解释的。象 征 性 地 对 于 T5 , 我 们 使 用 与 最 终Transformer的编码器相同的编码器,并使用生成响应的单独解码器因此,此方法包含单个Transformer模型。在接下来的章节中,我们将详细介绍每个模块。5.1对话历史编码器我们使用编码器模型来投影x,并通过x∈=fenc(x)IRd来获得对话历史嵌入,其中d是编码器r的隐藏大小。首先将嵌入x**馈送到具有参数WoIRd×d的操作层。操作层预测操作向量a=WTxW我研发的。 同时,将嵌入的x值也送入一个参数为WrIRd×NRH的关系层.关系层预测一系列关系的连接r={r|1≤h≤H},其中r∈IRNR是r-5.2微分知识图推理为了确保我们的模型可以扩展到更大的KG,我们采用了(Cohen et al. ,2019)。具体化的KG 用 三 个 稀 疏 矩 阵 表 示 图 : 头 矩 阵 MhIRNT×NE,关系矩阵MrIRNT×NR,尾矩阵MtIRNT×NE。Mh或Mt中具有值1的条目(i,e)指示KG中的第i个三元组具有实体e作为头或尾;Mr中具有值1的条目(i,r)指示知识图中的第i个三元组具有关系r。由于在实际设置中,三个矩阵中的大多数条目通常为零,因此将它们保存到稀疏矩阵中可以显着减少内存消耗(Cohen et al. ,2019)。在预测关系序列r之后,我们从给定的初始实体集合开始图遍历E0E。 我们首先将初始实体映射到向量e1=[1(e∈E0),εe∈ E]. 即每个h h进入e如果该实体在要在编程的步行块中的第h跳处使用的设置,并且H是啤酒花嵌入x∈ H也被送入一个检查点层,参数为Wc∈IRd×2H.这1初始实体列表为0,否则,条目为零。然后,我们通过执行Next模块来预测下一个(临时)实体向量e2图层生成序列的串联步或检查向量c= c h1h H其中,是第h跳处的走或检查向量,以确定所编程的哪里rh+1=下一个(eh,rh),(3)行走模块和操作向量。下一个(eh,rh)=MT(MhehMrrh)||2+1||2+ ϵx=fenc(x),a=WTxx,r=WTx,c=softmax(WTxX)。(二更)(四)在这里,是一个任意的小数字,用来抵消分母,防止被零除。我们引入了归一化的Next来解决这个问题的方法提 出 了(Cohen etal. 、e、+v:mala2277获取更多论文不ⓈHe||||R∈ΣΣk k kk∈ E·|--=c,2019)对于定义为Follow(eh,rh)=MT(MhehMrrh)的知识图完成;因为在对话模型中,我们很少能预测与实体vec完全匹配的关系向量eh+1=cTrh+1ah+1(六)或 也就是说,如果直接使用(Cohen et al. ,2019),则Eh2将不是1,并且将随着跳数h的增加而消失。具体地,注意,在我们提出的模块中,预测的关系rh独立于被遍历的实体eh。例如,找到“附近加油站”的“距离”与附近加油站是“Chevron”还是“Shell”无关。为了允许模型动态地选择推理跳数,我们添加了一个关系类型 更具体地说,KG将包含所有e h = e t和r k = ToSelf的三元组(eh,r k,e t)。5.3实体嵌入在每一跳,我们进一步对由实体向量eh加权的实体进行操作向量a。首先,我们对每个实体进行标记化,并通过其标记嵌入的级联来表示它。这个步骤允许(1)用较长的文本(如短语和句子)表示实体,以及(2)每当添加新的实体值时,消除重新训练实体嵌入的努力。然后,实体嵌入可以表示为张量EIRNE×d×m,其中m是实体2的令牌的最大数量。5.4可学习的逻辑操作和检查点我们通过在第h跳将实体嵌入E与实体向量eh进行元素乘法来计算变换后的实体嵌入接下来,操作向量和变换后的实体嵌入的点积被传递到softmax层,作为下一跳的实体向量TNext(eh,rh)hsoftmax(a(Eeh))5.5响应解码器在进行H跳推理之后,选择实体向量eH中具有前k个这些实体被转换成它们在E中的嵌入,并乘以它们在eH中的值。这些实体嵌入然后与对话历史x连接。级联的矢量作为输入被馈送到Transformer模型中,以逐令牌地预测响应。输出空间上的预测概率分布可以写为P(x,Mh,Mr,Mt)。由于所有分量都是可微的,因此可以使用具有地面实况输出y的交叉熵损失作为标签,利用对话历史x和具体化的KG表示Mh、Mr、Mt来L=− log P(y|x,Mh,Mr,Mt)。(七)(x,y)在推理时间期间,推理模块(关系层、操作层和检查点层)与训练阶段完全相同地工作,唯一的区别是响应解码器被馈送以先前时间步(推理阶段)中的预测令牌,而不是地面实况输出(训练阶段)。6实验6.1数据集我们在三个数据集上评估了我们提出的方法。其中,我们使用斯坦福多域对话(SMD)( 埃 里 克 等 人 。 , 2017 ) 和 OpenDialKG(Moon et al. ,2019)来测试冰毒-一h+1 =softmax(a(Eeh)),(5)ods对不同对话类型(面向任务/闲聊)的概括性和结构化此外,在第h跳,我们使用走或检查向量ch来组合上述Next和操作模块。组合实体向量由下式给出2在我们的实验中,我们计算所有实体的最大长度,并将较短的实体填充到长度m。知识(成对数据库/通用KG)。为了进一步分析推理能力,我们提出了一个新的数据集,SMD推理,通过修改SMD数据集的输出,从自然语言响应到与推理类型配对的动作。ee+v:mala2277获取更多论文Σ斯坦福多域对话(SMD)SMD数据集(Ericet al. ,2017年)由两个扬声器的对话组成,其中驾驶员与汽车助理交谈,以处理三个领域的任务:调度,导航和天气预报。每个对话集中在一个领域,并与具有相关信息的数据库我们将原始数据库转换为两种格式:(1)自然语言描述(NLD)和(2)KG。NLD形式允许我们调查模型解释非结构化知识的能力,而KG形式与表格相比可能是更可扩展的OpenDialKGOpenDialKG 数 据 集 ( Moon etal. ,2019年)由两个扬声器推荐和闲聊风格的对话组成。对话中的每个回合都在所提供的KG 上 用 推 理 路 径 进 行 注 释 , 该 KG 是 从Freebase过滤的(Bollacker et al. ,2008)。结果KG有1,190,658个三元组、100,813个实体和1,358个关系。 我们随机分为70/15/15%的训练/有效/测试集,如(Moon et al. ,2019;Jung et al. 2020年),因为他们没有释放他们的分裂。为了使SMD数据集适合于更精确的推理能力评 估 , 我 们 手 动 标 记 并 将 其 转 换 为 SMD-Reasoning数据集。我们首先从原始响应中删除自然语言部分,只留下动作词(例如,通知)以及正在传达的信息。我们将数据集分为三种主要的推理类型:通知项目,选择最小值/最大值和评估真/假。为了验证模型是否可以识别所需的知识是否在数据库中,我们添加了一个新的推理类型用于提取约束,方法是从数据库中删除所需的知识并将输出更改为这些数据集的统计数据见附录A、B6.2评估指标我们对这三个数据集使用不同的评估方法。对于SMD,我们遵循先前的工作(Yanget al. ,2020 ) 和 使 用 BLEU ( Papineni et al. ,2002),以及实体F1在每个域上的得分。对于OpenDialKG,我们遵循先前作品中的描述(Moon et al. ,2019; Jung et al. 2020)来评估路径@k得分,即,如果地面实况路径在预测路径概率中排名前k。此外,由于我们的方法不仅可以预测推理路径作为先验工作,但也可以预测响应,我们还使用BLEU得分来获得与地面实况相比的响应质量 注意,先前的工作已经讨论了BLEU分数可能与人类直觉不匹配(Liu etal. ,2016),但我们在这里使用它们作为近似评估以供参考。对于SMD推理,输出更确定,不包括不同的句子结构。因此,我们计算预测和地面实况的F1得分和精确匹配(EM)得分。EM分数通过去除预测的顺序来计算,因为SMD推理数据集的标签遵循原始地面实况响应中出现的知识描述的顺序,并且可能不具有与生成的输出相同的EM评分可以写为:EM=11(sort(y)=sort(y))。(八)不其中,y是使用rgmax采样从模型中推断出的,T是示例的总数。6.3实现细节由于所提出的方法是模型不可知的,我们在GPT2上实现它(Radford et al. ,2019)和T5(Raffel et al. ,2020)。特别是对于T5模型,我们使用统一的QA-T5模型(Khashabiet al. ,2020),其在也需要进行推理的问题回答任务上进行预训练。然而,我们经验性地发现T5通常比GPT2具有更好的性能,因此在大多数实验中使用T5模型对于OpenDialKG,由于地面真实关系存在,我们将它们作为额外的监督信号(Moon et al. ,2019)。此外,由于我们观察到OpenDialKG中只有KG推理类型,因此我们不对数据集使用操作层和检查点层超参数设置见附录C。6.4基线我 们 比 较 了 我 们 提 出 的 DiffKG 模 型 与OpenDialKG报告(Moon et al. ,2019; Jung etal. ,2020)和SMD上最先进的基于图形的模型(Yang et al. ,2020; Gou et al. ,2021),其报告的基线包括有和没有注意力的序列到序列模型(S2S和S2S+Attn)(Luong et al. ,2015 ) , 指 向 未 知 的 指 针 ( Ptr-Unk )(Gulcehre et al. ,2016年),+v:mala2277获取更多论文实体F1GPT2-NoInfo10.7143.78GPT2-FlatInfo14.0847.57固定GPT2-DiffKGT5-NoInfo16.3910.5051.0644.27T5-FlatInfo28.9966.15T5-DiffKG27.5263.93洗牌T5-FlatInfoT5-DiffKG17.02 54.5127.52 64.00表4:SMD推理数据集的结果。表2:SMD数据集上的结果。S2S、S2S+Attn、Ptr-Unk、GraphLSTM、BERT、Mem2Seq、GLMP、GraphDialog报道自(Yang et al. ,2020)和来自(Gou et al. ,2021年)。我们的DiffKG实现了最高的BLEU和与基线相当的F1分数。6.5结果SMD和OpenDialKG的结果如表2和表3所示。在SMD数据集上,我们观察到DiffKG在BLEU上的表现优于基线11.4%(相对变化为16.04,14.4),并达到可比的实体F1分数使 用 GLMP 、 GraphDialog 和 COMET 图 形 。Dif- fKG可能不会提高实体F1分数,因为先前的工作将实体内的文本分组在一起(例如,“roadblock nearby”在词汇表中变成单个单词“road_block_nearby”)。相比之下,我们使用一个通用的分词器,以防止繁重的预处理和专门的词汇表。这意味着DiffKG可以执行类似的最先进的检索知识表3:OpenDialKG数据集上的结果。从Seq2Seq到DialKG Walker的四个基线报告自(Moon et al. ,2019),并且从Seq 2 Path到AttnIO-AS的其他三个基线报告自(Junget al. ,2020)。我们的DiffKG实现了最高的path@k分数,并且是唯一一个可以同时生成响应的产品。GraphLSTM ( Peng et al. , 2017 ) 、 BERT(Devlinet al. ,2019)、Mem2Seq(Madottoet al. ,2018)和GLMP(Wu et al. ,2019)。我们遵循他们的指标,并在他们的预处理数据上训练我们的模型,以进行公平的比较。为了进一步分析推理能力,我们基于利用预训练语言模型的不同方式提出了另外两个基线。(1)NoInfo模型不采用任何形式的知识作为输入,旨在测试每个数据集上微调的vanillaTransformer(2)FlatInfo模型通过将对话历史与NLD形式的知识连接起来来构建输入,如(Beygi et al. ,2022),使我们能够研究模型解释非结构化知识的能力。没 有 为 每 个 数 据 集 指 定 标 记 器 。 在OpenDialKG数据集上,我们观察到DiffKG在path@k得分方面优于基线,并且可以同时在实体 F1和 BLEU方面 优于 T5 。这 些表 明,DiffKG可以检索准确的推理路径,并有效地将推理纳入响应生成。我们还研究了SMD-推理数据集的结果,如表4所示。我们发现DiffKG在GPT2和T5模型上分别将NoInfo的F1分数提高了16.6%和这表明DiffKG可以有效地利用知识来改进无信息获取的生成.相比之下,尽管FlatInfo在SMD推理数据集上提供了与DiffKG相似的性能,但由于计算成本,它不能在OpenDialKG上运行。更具体地说,FlatInfo要求将知识图转换成句子,这将导致至少一百万个令牌作为OpenDialKG的模型输入(因为在没有设计子图采样的情况下,三元组的数量是一百万),这不是一个实际的数字。检测KG方法EM F1模型Bleu所有去你的 威导航S2s8.410.39.714.17.0S2S+收件人9.319.923.425.610.8Ptr-Unk8.322.726.926.714.9GraphLSTM10.350.869.946.643.2伯特9.1349.657.447.546.8Mem2Seq12.633.449.332.820.0GLMP12.255.167.354.148.4图对话13.757.471.959.748.6彗星图14.456.771.648.750.4T5-DiffKG16.0456.267.2 61.5 46.7模型path@1path@5路径@10BleuSeq2Seq3.129.744.1-Tri-LSTM3.222.636.3-扩展1.99.013.3-DialKG13.235.347.9-Seq2Path14.9231.138.68-AttnFlow17.3730.6839.48-AttnIO-AS23.7243.5752.17-T5-NoInfo---14.51T5-DiffKG26.8054.3361.7515.37+v:mala2277获取更多论文域推理类型方法用户:查看我的医生预约的日期和时间(推理路径:医生预约-Dif fKG:通知11上午星期二医生ap−p−oi−n−tm−−en−t−→HasDate、HasTime、ToSelf星期二,上午11点,医生预约)SMD推理用户:汽车,我需要去一个加油站,请告诉我最近的一个助理:有瓦莱罗7英里外,中等交通在我们的方式用户:好的,它在哪里?(推理路径:加油站-Dif fKG:inform 200 AlesterAv−e−V−a→leroIsTypeOf 瓦莱罗−→200 Alester Ave,瓦莱罗)HasAddress,ToSelf问:你有关于Toni Kroos的信息吗OpenDialKG(推理路径:托尼·克罗斯−−托尼·克罗斯(英语:Toni Kroos)是德国足球运动员,现效力于德国国家足球队。游戏玩家统计德国国家足球队)附表导航天气告知选择提取真/假EM F1EM F1EM F1EM F1EM F1EM F1EM F1GPT2-NoInfo3.4945.74.6341.627.546.85.0345.21.4547.43.0624.068.668.6GPT2-DiffKG9.3053.09.6547.634.456.58.0450.80.0048.531.653.556.956.9T5-NoInfo0.0044.64.6340.929.050.73.0244.98.7049.11.0225.270.670.6T5-DiffKG20.963.819.361.948.168.118.161.711.662.450.073.570.670.6表5:SMD推理数据集表6:生成的示例和推理路径。6.6定量分析为了测试方法对准确定位信息的鲁棒性,我们打乱了信息顺序。该评估是为了模拟在部署对话系统时任意添加额外信息的情况具体地,在推理时间期间,FlatInfo的知识上下文的顺序和知识三元组的顺序被改变如表4中的最后两行所示,FlatInfo的性能下降,而DiffKG保持大致相同。这表明,FlatInfo在原始顺序下的当这个隐式技巧被分解时,DiffKG显示出更好的鲁棒性和性能。为了调查每个领域和推理类型的难度,我们在表5中相应地划分了结果。 如域部分所示,该模型在天气域上实现了最高的EM和F1。我们推测原因是天气域包括更多的推理类型(如表9中的天气:4,导航:3,日程:2),从而反映更平衡的推理能力。在推理类型部分,我们观察到Dif- fKG处理真/假的能力较差;然而,DiffKG改进了提取。这表明DiffKG可以有效地检查存在所需的知识,然后查询数据库。关于计算成本(在使用T5模型的SMD-推理数据集上),我们发现DiffKG在训练期间需要大约5.85GB的内存,并且具有30 ms的推理延迟。与没有知识推理的模型(3.13GB; 30ms)相比,这可能是可接受的附加内存使用和推理时间特别是当像FlatInfo这样的基线消耗更多时(18. 56 GB; 50 ms)。6.7定性分析我 们 在 表 6 中 可 视 化 了 DiffKG 在 SMD-Reasoning和OpenDialKG数据集上生成的示例和符号推理路径。这些例子表明,DiffKG可以捕获这个数据集中自然发生的一些现象:(1)KG推理路径可以是1跳到多跳;(2)推理将扩散到多个路径(例如,DiffKG同时将“Has-Date”、“HasTime”、“ToSelf”应用于“DoctorAppointment”)。随着前面小节的分析,我们观察到DiffKG可以提取可解释的推理路径,并使用合理的计算成本生成相应的输出。然而,即使DiffKG可以在对任何缩放的KG进行可解释的推理时保持或提高性能,+v:mala2277获取更多论文错误类型信息要求不明确不完整的推理,但忠实的回应正确的推理,错误的回应例如网友:这里有哪些加油站?地面实况:通知ChevronDiffKG:通知5英里,Chevron(Our评论:虽然这个预测被认为是错误的EM指标,“5英里”的DiffKG输出是正确的距离“雪佛龙”,并可能需要在一个良好的用户:最近的杂货店在哪里?地面真相:通知4英里,全食超市,西夫韦。DiffKG:通知4英里,杂货店,819 Alma St,全食超市(Our评论:4英里,杂货店,819阿尔玛街都是关于全食超市的正确实体。尽管如此,这个推理过程忽略了另一家杂货店西夫韦也是4英里远。问:你认识唐·霍尔吗?事实真相:唐·霍尔写了一个由詹妮弗·刘易斯主演的浪漫故事《公主与青蛙》你喜欢浪漫吗?《公主与青蛙》(The Princess andtheFrog)作者:唐·霍尔(DonHall)Dif fKG:是的,他写了《L−−itt−le−D→olls》。(Our点评:找出唐·霍尔写的剧本的推理路径是正确的但是,生成过程无法正确利用检索到的实体。)表7:跨数据集的三种主要错误类型的错误分析。一些案件。如表7中所列,我们发现,在数据集中,DiffKG的三种主要错误类型是:(1)数据集中的信息要求不清楚,(2)不完整的推理能力但忠实的响应生成,以及(3)正确的推理但幻觉的响应预测。我们认为第一种错误类型主要来自数据集中数据点之间的不匹配,并且可能无法通过模型处理。第二种错误类型表明KG推理模块有时无法检索到所有需要的信息。第三种错误类型表示产生最终输出的模块可能没有充分利用检索到的信息。这三点可以为进一步改进提供方向。7结论和今后的工作对于一个对话系统,一个有效的结构化数据库推理方法是很重要的。在这项工作中,我们提出了DiffKG,这是一种端到端的模型不可知方法,可以在任何规模的KG上进行符号实验表明,使用Dif-fKG,模型能够以适度的额外成本生成具有可解释的KG推理路径的这项工作可以以各种方式加以扩展。虽然我们只考虑有效的大规模KG推理的对话生成,未来的工作可以将域融合方法,考虑域的概括性或同时使用关系信息。此外,由于DIF-fKG是一个简单的大规模结构化知识赋能的Transformer,具有灵活的实体值,未来的工作可以将其扩展到需要进行表格和文本混合推理的对话生成,以及需要进行KG推理和其他目标,如个性化对话,讲故事等。引用Sajjad Beygi , Maryam Fazel-Zarandi , AlessandraCer- vone , Prakash Krishnan , and SiddharthaReddy Jonnalagadda.2022.逻辑推理面向任 务 的 对 话 系 统 。 arXiv 预 印 本 arXiv :2202.04161。库尔特·博拉克,科林·埃文斯,普拉文·帕里托什,蒂姆·斯特奇和杰米·泰勒。2008. Freebase:一个协作创建的图形数据库,用于构建人类知识。2008年ACM SIGMOD数据。William W Cohen,Haitian Sun,R Alex Hessels,and Matthew Siegler. 2019.用符号知识库进行推理的可扩展神经方法在国际学习表征上。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova.2019年。Bert:深度双向转换器的语言理解预训练在NAACL-HLT(1)中。艾米丽·迪南,斯蒂芬·罗尔,库尔特·舒斯特,安吉拉·范,迈克尔·奥利和杰森·韦斯顿。2018年维基百科的向导:知识驱动的会话代理。在国际学习代表会议上。+v:mala2277获取更多论文Julian Martin Eisenschlos,Maharshi Gor,ThomasMüller,and William W Cohen. 2021.伴侣:多视图注意表Transformer效率.arXiv预印本arXiv:2109.04312。MihailEric , LakshmiKrishnan , FrancoisCharette,and Christopher D Manning.2017.面向任务对话的键值检索网络。在第18届SIGdial年度会议上讨论和对话。Marjan Ghazvininejad , Chris Brockett , Ming-WeiChang , Bill Dolan , Jianfeng Gao , Wen-tauYih,and Michel Galley.2018年基于知识的神经会话模型。在第三十二届AAAI人工智能上。Yanjie Gou,Yinjie Lei,Lingqiao Liu,Yong Dai,and Chunxu Shen. 2021.使用Transformer对知识库进行情境化,以实现端到端面向任务的对话系统。在2021年自然语言处理经验方法会议论文集,EMNLP 2021,虚拟活动/蓬塔卡纳,多米尼加共和国,2021年11月7日至11日。计算语言学协会。Caglar Gulcehre,Sungjin Ahn,Ramesh Nallapati,Bowen Zhou,and Yoonge Bengio. 2016.指着不认识的字。计算语言学协会第54届年会论文集(第1卷:长文)。Yanchao Hao,Yuanzhe Zhang,Kang Liu,ShibuoHe,Zhanyi Liu,Hua Wu,and Jun Zhao. 2017.结合全局知识的交叉注意知识库问答端到端模型。在Proceedings of the 55th Annual Meet- ing oftheAssociationforComputationalLinguistics(Volume 1:Long Papers)中,第1卷。Ehsan Hosseini-Asl,Bryan McCann,Chien-ShengWu,Semih Yavuz,and Richard Socher.2020. 一个简单的面向任务的对话语言模型。神经信息处理系统的进展,第33卷,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功