领域对话状态跟踪的研究与方法的综述

180 浏览量更新于2023-11-30 收藏 743KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文--多领域对话状态跟踪冯岳<$Aldo Lipani<$ Fanghua Ye<$Qiang Zhang张强Emine Yilmaz<$英国伦敦大学学院浙江大学，杭州，中国† yue.feng.20，aldo. lipani，fanghua.ye.19，emine. yilmaz @ucl.ac.uk陈强.zhang. zju.edu.cn摘要对话状态跟踪（DST）旨在跟踪用户在对话过程中的意图。在DST中，域和槽之间的关系的建模仍然是一个未充分研究的问题。考虑这种关系的现有方法通常在以下方面存在不足：（1）显式地融合先前的槽域归属关系和对话感知的动态槽关系，以及（2）推广到看不见的域。为了解决这些问题，我们提出了一种新的D-类S-类G-类F-类Net工作（DSGFNet），它生成一个动态模式图，以显式地融合先前的槽域成员关系和对话感知的动态槽关系。它还使用图式来促进知识转移到新的领域。DSGFNet由对话发声编码器、模式图编码器、对话感知模式图进化网络和模式图增强的对话状态解码器组成。基准数据集的经验结果（即，SGD、Mul- tiWOZ2.1和MultiWOZ2.2）表明DS-GFNet优于现有方法。1介绍面向任务的对话系统可以帮助用户完成不同的任务（Huang et al. ，2020），诸如航班预订、食品订购和约会安排。传统上，面向任务的对话系统由四个模块组成（Zhang et al. ，2020 c）：自然语言理解（NLU）、对话状态跟踪（DST）、对话管理器（DM）和自然语言生成（NLG）。在本文中，我们将重点放在DST模块。DST的目标是提取用户的目标或意图作为对话状态，并在整个对话中保持这些状态的为了跟踪用户部分工作是在伦敦大学完成的用户系统状态您能帮我找一下在瓦卡维尔上映的电影我发现了三部电影。你觉得小飞象、地狱男爵和沙赞怎么样？小飞象很可爱。我能帮你做点别的吗？我还想找一家那里我在找一个共指那是中等价位的。日本餐厅是附近一家很不错的餐厅。太棒了！谢谢你，谢谢我很乐意共现电影：地点：瓦卡维尔电影：地点：瓦卡维尔共现Name：life's a game电影：地点：瓦卡维尔;名称：小飞象餐厅：城市：Vacaville;价格区间：intermediate共同更新电影：地点：瓦卡维尔;名称：小飞象餐厅：城市：Vacaville;价格_范围：中级;名称：日本餐厅图式服务内容：“电影”：按地点、类型或其他属性搜索电影插槽：“地点”：剧院所在的城市。“名字”：电影的名字。服务内容：插槽：“餐厅”：“城市”：餐厅所在的城市。一家领先的餐厅供应商“名字”：餐馆的名字。搜索和预订。“Price_Range”：餐厅的价格范围。图1：DST的一个例子。给定所有域的模式，从用户和系统话语中提取时隙值（例如，在图中以相同颜色突出显示的跨度）。每个回合的对话状态被表示为一组槽值对。在域和时隙之间，存在以预定义模式表达的先前时隙-域共同引用、共同更新和共同出现）。名字和描述。图1给出了一个示例对话框中的DST示例。由于DST在面向任务的对话系统中的重要性，已经为DST开发了许多模型传统方法使用深度神经网络或预先训练的语言模型来编码对话上下文并从中推断槽值（Zhong et al. ，2018;Ramadan et al. ，2018; Wu et al. ，2019; Renetal. ， 2019; Zhang et al. ， 2020a; Hu et al. ，2020; Gao et al. ，2020; Zhang et al. ，2020a，b）。这些模型预测槽值时没有考虑域和槽之间的关系然而，对话中的域和槽不太可能是完全独立的，忽略域和槽之间的关系可能导致次优性能。arXiv：2204.06677v1 [cs.CL] 2022年4月+v：mala2277获取更多论文曼斯。为了解决这个问题，最近的几项工作已经提出了在DST域和插槽他们中的一些人引入预定义的模式图来合并先前的槽域成员关系，这些关系是基于人类经验预先定义的（Chen etal. ，2020; Zhu等人，2020）。其他人使用注意力机制来捕获对话感知的动态槽关系（Fenget al. ，2021; Heck等人，2020）。对话感知的动态关系是跨领域的槽的逻辑关系，它与特定的对话上下文高度相关。然而，现有的涉及域和槽之间的关系的DST模型遭受两个主要问题：（1）它们未能显式地融合先前的槽-域成员关系和对话感知的动态槽关系;以及（2）它们未能考虑它们对新域的可推广性。在实际场景中，面向任务的对话系统需要支持大量且不断增加的新领域。为了解决这些问题，我们提出了一种新的方法命名为DSGFNet（动态模式图融合网络）。对于第一个问题，DSGFNet动态地更新模式图组成的预定义的槽域成员关系与对话感知的动态槽关系。为了显式地结合对话感知的动态槽关系，DSGFNet向模式图添加了三种新的边类型：共引用关系、共更新关系和共现关系。对于第二个问题，为了提高其泛化能力，DSGFNet采用了一个包含模式无关参数的统一模型来进行预测。具体地说，我们提出的DSGFNet包括四个组件：一个基于BERT的对话文本编码器的上下文当前轮对话上下文和历史，一个基于BERT的模式图编码器概括到看不见的域和模式图上的先前的槽域成员关系建模，一个对话感知模式图进化网络，以增加对话感知的动态槽关系的模式图，和模式图增强的对话状态解码器，考虑到进化的模式图，从候选元素中提取值跨度。本文的贡献可概括如下：• 我们通过提出一个动态的、可解释的、通用的模式图来改进DST，该模式图解释了域以及基于先验知识和对话上下文两者的时隙，而不管域和时隙是否被看到。• 我们开发了一个融合网络，DSGFNet，它有效地提高了DST生成一个模式图的组合之前的槽域成员关系和对话感知的动态槽关系。• 我们在三个基准数据集上进行了广泛的实验（即， SGD 、 MultiWOZ2.1 和MultiWOZ2.2），以证明DSGFNet1的优越性以及DST中域和槽之间关系的重要性。2相关工作最近的DST方法主要集中在用深度神经网络（例如，卷积和递归网络）和独立地推断时隙的值（ Zhonget al. ，2018; Ramadan et al. ，2018; Wu et al. ， 2019; Ren et al. ， 2019;Zhang et al. ，2020a; Hu et al. ，2020; Gao etal. ，2020）。随着预先训练的语言模型的流行，例如BERT（Devlinet al. ，2019）和GPT-2（Radford et al. ，2019），在这些预训练模型的基础上开发了各种各样的 DST 方法（Zhanget al. ，2020a，b; Lin et al. ，2020）。上述方法没有考虑域和槽之间的关系。而先验的槽-域成员关系有助于领域知识的共享，对话感知的动态槽关系有助于对话历史的理解。忽略这些关系可能导致次优性能。为了填补这一空白，一些新的DST方法，其中涉及域和槽之间的关系，已被提出。他们中的一些人利用图结构来捕捉槽域的关系（林等。， 2021; Chen et al. ， 2020; Zhu 等人，2020; Zeng and Nie ， 2020; Ouyang et al. ，2020）。具体地说，一个预定义的模式图被用来表示槽域成员关系。然而，他们未能将对话感知的动态槽关系到模式图。其他方法利用注意力机制来学习对话感知的动态槽关系特征，以促进槽之间的信息流（Zhou和Small，2019;1该代码可在https://github.com/sweetalyssum/DSGFNet上查阅。+v：mala2277获取更多论文图二：DSGFNet的体系结构，包括一个对话发声编码器，一个模式图编码器，一个模式图进化网络，和一个对话状态解码器。Feng等人，2021; Heck等人，2020; Hu等人，2020; Ye等人，2021年）。然而，这些方法忽略了槽域成员关系定义的先验知识。由于先前的槽域成员关系和对话感知的动态槽关系都可以提高DST性能，我们的方法被开发成以有效的方式将它们假设部署的对话系统可能遇到数量不断增加的具有有限训练数据可用的新域，DST模块应该能够推广到看不见的域。最近的DST方法集中于使用零激发学习来实现这一目标（Rastogiet al. ，2020; Noroozi et al. ，2020）。这些方法利用模式的自然语言描述来跨领域传递知识然而，他们忽略了域和槽之间的关系在这项工作中，我们提出了一个统一的框架工作，融合先前的槽域成员关系和对话感知的动态槽关系，无论域是否被看到。3动态模式图融合网络DSGFNet由四个部分组成：（1）基于BERT的对话话语编码器，旨在将当前话轮的标记和对话历史上下文化;（2）模式图编码器，能够泛化到未知域，并在预定义的槽域成员关系之间共享信息;（3）对话感知模式图进化网络，将对话感知动态槽关系添加到对话感知模式图进化网络中。模式图;以及（4）模式图增强的对话状态解码器，其基于演进的模式图从候选元素中提取值图2说明了该架构。3.1对话语音编码器该编码器将当前和非预期对话话语作为输入。具体地，输入是长度为K的令牌序列，即，[t1，.， t K]。这里，我们将第一个标记t1设置为[CLS];随后是当前对话语句中的标记和先前对话语句中的标记，它们由[SEP]分隔。我们采用BERT（Devlin et al. ，2019）以获得上下文令牌嵌入。输出是所有令牌嵌入B=[b1，...， bK]，每个令牌有一个嵌入。3.2模式图编码器为了利用由先验领域知识定义的槽域隶属关系，我们基于预定义的本体构建了模式图。示例如图2所示。在这个模式图中，每个节点表示一个域或一个槽，并且所有槽节点都连接到它们对应的域节点。为了允许跨域的信息传播，所有域节点都彼此连接。模式无关的嵌入初始化器。为了推广到看不见的领域，DSGFNet通过模式不可知的投影初始化模式图节点嵌入。受零射击学习（Romera-Paredes和Torr，2015）的启发，我们提出了一个模式不可知的嵌入初始化器，对话语音编码器对话语境+CLS+2+的&…+/+/基于BERT的对话语音编码器候选值 G令牌嵌入>对话状态解码器（34，36）值预测层对话状态对话语境+CLSCLS$2$&瑞典克朗（$） $*8489八：8;当前话语先前话语演化模式图模式图编码器模式图进化网络在ingA（，j）上的R_（？）R_（名称目的地<&E=，E=，名称目的地E=，出租车出发2EG=图式=，1=重出租车发车<1总和价格节点嵌入C餐厅电影<=模式无关的嵌入初始化器域/插槽价格餐厅电影时间类型动态槽关系完成层g@=模式-对话融合层线性输出多头注意位置CLS$2$&（时间位置类型域/插槽描述（>，g=）+v：mala2277获取更多论文NΣ联系我们⊕将跨域的模式投影到统一的语义分布中。具体来说，我们将一个槽/域的自然语言描述输入BERT，使用[CLS]的输出作为该槽/域的语义嵌入。slot和domain集合的语义嵌入是I=[i1，.，iN+M]，其中N和M分别是时隙和域的数目。我们将模式嵌入初始化器约束为没有任何特定于域的参数，以便它可以生成未见过的域。槽域成员关系推理网络。为了将先前的槽-域成员关系纳入模式图节点嵌入，DSGFNet在模式图上的槽和域之间传播信息。我们为每个节点添加一个自循环，因为节点需要将信息传播给自己。受 G A T 模型的启发（ Veli ckovic′etal. ，2018年），我们提出了一个槽域成员关系推理网络传播信息的模式图。对于每个节点，我们首先计算其邻居的注意力得分α这些注意力分数用于衡量每个相邻节点的重要性。正式地，注意力分数计算如下：hi，j=ReLU（WT·[ii，ij]），（1）两层，模式对话融合层和动态槽关系完成层。模式-对话融合层。由于动态槽关系与对话上下文相关，我们需要将对话上下文信息融合到模式图中。我们采用多头注意（Vaswani etal. 2017年，实现这一目标。数学公式为：H=多头（Q=gi， K=B， V=B），（4）gi=H·Wa，（5）其中，Wa是多头注意之后的线性投影的可学习参数，并且gai是对话感知模式图节点嵌入。动态槽关系完成层。该层旨在基于对话感知节点嵌入来增强模式图上DSGFNet定义了三种类型的动态时隙关系：（1）共指关系发生在一个时隙值已经在对话中被提及并且已经被分配给另一个时隙时;（2）共更新关系发生在时隙值在同一对话轮被一起更新时;（3）共现关系发生在一个大的对话对应中具有高共现概率的时隙时。exp（hi，j）（二更）在当前的对话中，pus一起出现具体-αi，j=αk∈Ni exp（h、（i、k）在这里，我们将对话感知的插槽节点repre其中W是参数矩阵，i是第i个节点的邻域。归一化注意系数和激活函数用于计算邻居的非线性加权组合。这用于计算模式图节点嵌入G =（g1，...， gN+M）：gi=ReLUαi，j·ij，（3）j∈Ni其中i 1，. . .、N+M。为了探索跨域槽的高阶连通性信息，我们堆叠了l层推理网络。每一层都将上一层的节点嵌入作为输入，并将更新后的节点嵌入输出到下一层。3.3模式图演化网络我们提出了一个模式图进化网络，将对话感知的动态槽关系纳入模式图，它由以下组成发送到多层感知器中，随后是4路softmax函数，以识别时隙对之间的关系，其包括上述的无关系和三个动态关系形式上，给定第i个和第j个对话-aw是槽节点嵌入gi和gj，我们获得所有槽对的动态槽关系的邻接矩阵如下：A（i，j）=a r gmax（softma x（MLP（gigj）。（六）使用A，我们将动态槽关系边添加到模式图。3.4对话状态解码器为了通过合并由演化模式图捕获的槽域成员关系和对话感知的动态槽关系来解码槽值，我们提出了模式图增强的对话状态解码器。为了学习更全面的槽节点嵌入，我们需要在+v：mala2277获取更多论文∈LL演化模式图DSGFNet将模式图上的不同关系划分为子图Rs、RR、RU、Ro，分别表示槽域的关联关系、共指关系、共更新关系和共现关系。对于每个子图Ri，其节点嵌入si通过关注邻居来获得，这与第3.2节中使用的方法相同。考虑到不同的关系类型对不同对话上下文的节点交互有不同的贡献（Wang et al. ，2019年），我们通过注意力机制聚合这些不同的子图如下：S= [ss;sr;su;so]，（7）β=softmax（ST· tanh（Ws·b[CLS]+bs）），（八）s=S·β，（9）其中，Ws、bs是可学习的权重，b[CLS]是基于BERT的对话话语编码器的输出。每个时隙值由值预测器基于对应的融合时隙节点嵌入s来提取。值预测器是一个可训练的非线性分类器，后面跟着两个并行的softmax层，以预测候选元素C中的开始和结束位置，候选元素C由对话上下文B和槽的C= [B;V]（10）[ls，le]=rd·tanh（sT·Wd·C+bd），（11）ps=softmax（ls），（12）pe=softmax（le），（13）槽关系我们一起训练对话状态解码器和动态时隙关系识别器，联合损失L计算如下：L=λ·Lr+（1-λ）·Ls，（14）其中λ[0，1]是平衡系数。在推断期间，预测的动态时隙关系A为：用于预测对话状态的值跨度4实验4.1数据集我们在三个面向任务的数据库基准数据集上进行实验： SGD （ Rastogi et al. ， 2020 ）、MultiWOZ2.2 （ Zang et al. ， 2020 ）和 Mul-1WOZ2.1（Eric et al. ，2020）。其中，SGD是迄今为止最具挑战性的数据集，包含16个领域的人类用户和虚拟助手之间的16，000多个对话。不像其他两个数据集，它还包括测试集中的未看到的域。 MultiWOZ2.2 和MultiWOZ2.1是较小的人与人对话基准数据集，分别包含8个和7个领域的8，000多轮对话MultiWOZ2.2是MultiWOZ2.1的修订版，它使用不同的注释器集和规范化的实体名称进行了重新注释数据集详情见表1。表1：实验中数据集的特征。所提供的数字是针对相应数据集的训练集。其中r，W和b 是可训练的参数。D d d请注意，如果结束位置在开始位置之前，则结果跨度将简单地为如果起始位置在槽的候选值词汇表中3.5 训练和推理在训练过程中，我们使用真实动态槽关系图来优化对话状态解码器.利用预测值跨度[ps，pe]和地面真值跨度之间的交叉熵来度量值跨度预测s的损失。动态槽关系标识符通过预测的动态关系A和地面真实动态之间的交叉熵损失r4.2基线我们与以下现有的模型进行比较，这些模型分为两类。(1)可以在看不见的域上预测对话状态的模块： SGD 基线（ Rastogi et al. ，2020），一个模式引导的范式，预测状态看不见的域; FastSGT（Noroozi et al. ，2020），一种使用多头注意力投影来分析对话的基于BERT 的模型 ; Seq 2Seq-DU （ Feng et al. ，2021），一种序列到序列框架，其以降十格式解码对话状态(2)无法预测未知领域的对话状态的模型：TRADE（Wu et al. 、特性SGDMultiWOZ2.2MultiWOZ2.1域名数1687对话次数16,1428,4388,438总匝329,964113,556113,556Avg.每段对话的20.4413.4613.46Avg.每回合9.7513.1313.38槽数2156137测试集中是的没有没有+v：mala2277获取更多论文模型MultiWOZ2.12019），使用复制机制从话语生成对话状态的生成模型; DS-DST（Zhang et al. ，2020 a），在选择列表上分类或从槽跨度中查找值的双重策略; TripPy（Heck et al. ，2020）、从对话上下文复制值或先前对话状态中的槽值的开放词汇表模型; SOM-DST（Kim et al. ，2020），一种选择性的机制，其首先预测每个槽上的状态操作，然后用新值重写; MinTL-BART（Lin etal. ，2020），即插即用预训练模型，其联合学习对话状态跟踪和对话响应生成 ; SST（Chen et al. ，2020），一种融合来自话语和静态模式图的信息的图模型; PPTOD（Su etal. ，2021），一种多任务预训练策略，其允许模型从异构对话语料库中学习主要的TOD任务完成技能。4.3评估措施我们的评估指标与这些数据集上的我们计算所有测试集上的联合目标精度（联合GA），以直接与最先进的方法进行比较联合遗传算法被定义为对话回合的比率，对于该比率，所有槽都被填充了正确的配对t检验（p <0.05）。在MultiWOZ2.1上的性能与最先进的2.最值得注意的是，DSGFNet最显著地提高了SGD的性能，与亚军相比，SGD具有看不见的域和更复杂的模式域这表明DSGFNet可以促进知识转移到新的领域，并改善复杂模式域之间的关系构建我们推测，这是由于DSGFNet包含模式不可知的编码器和动态模式图。下面的分析提供了对我们模型的优势的更好的理解表2：DSGFNet和基线在SGD数据集上看不见的域和所有域中的联合GADSGFNet在最佳基线上显著改善（双侧配对t检验，p<0. 05）。05）。模型SGD看不见的领域SGD所有域SGD-基线（Rastogi et al. ，2020年）20.0%百分之二十五点四FastSGT（Noroozi et al. ，2020年）百分之二十点八百分之二十九点二Seq2Seq-DU（Feng et al. ，2021年）百分之二十三点五30.1%DSGFNet百分之二十四点四32.1%表 3 ： DSGFNet 和 MultiWOZ2.2 上的基线的联合GA。DSGFNet在最佳基线上显著改善（双侧配对t检验，p<0. 05）。05）。根据地面实况的值。型号MultiWOZ2.24.4培训我们使用 BERT 模型（即， BERT-base 和uncased）来编码话语和模式描述。BERT模型在训练过程中进行微调输入序列的最大长度设置为512. 模式图编码器和模式图演进网络的隐藏大小被设置为256.退出概率为0.3。平衡系数λ为0.5。Adam（Kingma and Ba，2014）用于优化，初始学习率（LR）为2 e-5。我们以10%的热身比例进行训练，并在热身阶段后让LR线性衰减。5结果和讨论表2、3、4分别显示了DSGFNet的性能以及三个数据集的基线。结果表明，DSGFNet在SGD上看不见的域， SGD 上的所有域和MultiWOZ2.2中实现了最与基线相比，观察到的所有改善均具有统计学显著性（根据双侧SGD-基线（Rastogi et al. ，2020年）42.0%TRADE（Wu et al. ，2019年）45.4%DS-DST（Zhang et al. 、2020年a）百分之五十一点七TripPy（Heck et al. ，2020年）百分之五十三点五Seq2Seq-DU（Feng et al. ，2021年）百分之五十四点四DSGFNet百分之五十五点八表 4 ： DSGFNet 和多 WOZ 2.1 上的基线的联合GADSGFNet实现了与最佳基线相当的性能。SGD-基线（Rastogi et al. ，2020年）43.4%TRADE（Wu et al. ，2019年）46.0%DS-DST（Zhang et al. 、2020年a）百分之五十一点二SOM-DST（Kim et al. ，2020年）53.0%MinTL-BART（Lin et al. ，2020年）百分之五十三点六SST（Chen等人，，2020年）百分之五十五点二TripPy（Heck et al. ，2020年）百分之五十五点三PPTOD（Su et al. ，2021年）百分之五十七点一DSGFNet百分之五十六点七+v：mala2277获取更多论文2TRADE、SST使用原始MultiWOZ数据集。其他模型使用TripPy预处理的数据。+v：mala2277获取更多论文模型联合GAUnseenDomainsSGD联合GA所有域SGD关节GAMultiWOZ2.2关节GAMultiWOZ2.1DSGFNet百分之二十四点四32.1%百分之五十五点八百分之五十六点七- 无插槽域成员关系百分之二十一点九百分之二十九点八百分之五十三点四百分之五十四点一表5：对SGD的未知结构域、SGD的所有结构域、MultiWOZ2.2和MultiWOZ2.1的消融研究。5.1消融研究我们对DSGFNet进行了消融研究，以量化各种因素的贡献：槽域成员关系，动态槽关系和多关系聚合的使用。结果表明，动态模式图的DSGFNet是不可缺少的DST。Slot-Domain成员关系为了检查槽域计算器的有效性Unseen DomainsSGDUnseen DomainsSGD所有域名SGD所有域名SGDMultiWOZ2.2 MultiWOZ2.1MultiWOZ2.2 MultiWOZ2.1bership关系，我们通过用单位矩阵I替换先前的槽域关系邻接矩阵来移除模式图。表5中的结果表明，没有槽域隶属关系的DSGFNet的联合目标准确度在SGD的不可见域、SGD的所有域、 MultiWOZ2.2 和 MultiWOZ2.1 上显著降低。研究表明，无论领域是否可见，包含槽-域隶属关系的模式图都能促进领域与槽之间的知识共享动态时隙关系为了研究模式图中对话感知的动态槽关系的有效性，我们消除了DSGFNet的进化网络。表5示出了在联合目标准确度方面关于SGD的看不见的域、SGD的所有域、MultiWOZ2.2和Mul-tiWOZ 2. 1可以观察到，在没有动态时隙关系的情况下，性能显著恶化此外，与槽域相关关系的结果相比，存在更明显的性能这表明，动态槽关系是更重要的DST，它可以促进对话上下文的理解多重关系聚合为了验证对话状态解码器中模式图关系聚合机制的有效性，我们直接连接所有子图表示，而不是通过子图注意力计算加权和。如表5所示，没有图3：DSGFNet和BERT在未知域SGD、SGD的所有域、MultiWOZ2.2和MultiWOZ2.1上进行动态关系预测的F1和精度。与DSGFNet相比，关系聚合层在联合目标准确性方面显著降低这表明对不同类型关系的关注影响着对话理解能力。5.2进一步分析动态时隙关系为了测试DS-GFNet对动态槽关系的区分能力，我们评估了模式图演化网络的由于基线不能明确预测动态槽关系，我们比较DSGFNet与基于BERT的分类方法。在BERT中的分类任务之后，输入序列以[CLS]开始，然后是对话上下文和插槽对的标记，由[SEP]分隔，[CLS]表示被馈送到输出层进行分类。图3显示了SGD的未知域、SGD的所有域、MultiWOZ2.2和MultiWOZ2.1的F1和准确度结果。从结果中，我们观察到 DSGFNet的性能明显优于BERT我们推测这是由于DSGFNet中对槽域映射关系模式图的此外，由于没有模式编码器的BERT不能解决不可见域，因此在测试集中包含大量不可见域的SGD上+v：mala2277获取更多论文表6：SGD上的DSGFNet和Seq 2Seq-DU的案例研究。槽值从对话上下文中提取，颜色相同。预测了黄色高光槽对的关系，作为共同参考。红色下划线槽对的关系被预测为共同更新。粗体字槽对的关系被预测为同现。红色高亮显示的插槽值是错误预测的值。对话话语[网友]：3月10日的天气会怎么[Sys]：预报平均气温为68度，下雨的可能性为25%。[用户]：城里有什么好景点吗？我有10个不错的选择，包括Bloedel温室，一个城市公园。[用户]：可爱！你能帮我订一辆车吗？你想要一个豪华或游泳池骑？有多少人？[用户]：只是一个普通的乘坐，请预订1.[Sys]：确认你想预订一辆普通的出租车去Bloedel音乐学院，一个人。地面实况对话状态[天气]：city =[Travel]：location =[RideSharing]：目的地=DSGFNet的状态预测[天气]：city=[Travel]：location=[RideSharing]：目的地=Seq 2seq-DU的状态预测[天气]：city =[旅游]：location=[RideSharing]：目的地=表7：在SGD的不可见域、SGD的所有域、Multi-WOZ 2. 2和MultiWOZ2.1上使用不同动态槽关系和全连接关系的性能比较。自动关系完成的效果为了演示自动完成模式图，我们自动替换四个-DSGFNet中的完全子图，具有四个全连通图。如表7所示，与DSGFNet相比，具有全连接图的模型在联合目标准确度方面的性能显著降低（双侧配对t检验，p <0. 05）。05）。我们认为，这是由所有槽对之间的关系所捕获的冗余所引入的噪声引起的此外，使用我们的策略对关系进行采样还各种动态时隙关系的影响为了更好地说明在模式图上增加槽关系的有效性，我们研究了不同的动态槽关系如何影响DST性能。表7显示了DSGFNet的联合目标准确度，其中在SGD的看不见的域、SGD的所有域、MultiWOZ2.2和MultiWOZ2.1上具有不同的动态可以看出，具有每种类型的动态槽关系的DSGFNet的性能大大超过没有任何动态槽关系的性能。因此，模式图中的所有此外，DSGFNet与共生关系的性能优于其他两个动态槽关系的性能。我们推测，这是由于一个事实，即很大比例的同现关系是动态关系的重要组成部分，它对DST有着不可估量的影响。当槽和域的数量很大时减少存储器需求为例我们对DS-GFNet和Seq 2seq-DU在SGD上的结果进行了定性分析我们发现DSGFNet可以通过使用动态模式图来更准确地推断对话状态例如，如表6所示，基于动态模式图，DSGFNet传播涉及槽域成员关系和动态槽关系的信息因此，它更正确地推断插槽值。相比之下，由于Seq 2seq-DU忽略动态时隙关系，因此其不能正确地推断与其它时隙具有动态时隙关系的“位置”和“乘坐类型”的值模型联合GA未知域SGD联合遗传算法所有域SGD关节GAMultiWOZ2.2关节GAMultiWOZ2.1-w所有动态关系百分之二十四点四32.1%百分之五十五点八百分之五十六点七-w共指关系百分之二十一点五百分之二十九点八百分之五十三点九百分之五十四点七-w同现关系百分之二十三点八31.7%百分之五十五点三百分之五十五点九+v：mala2277获取更多论文6结论我们提出了一种新的方法 DST ，简称为DSGFNet，有效地融合了先前的槽域成员关系和对话感知的动态槽关系的模式图。为了将对话感知的动态时隙关系显式地并入DST中，DSGFNet识别共引用、共更新和共现关系。为了提高泛化能力，DS-GFNet采用模式无关的图注意力网络来共享信息。实验结果表明，DSGFNet在SGD的未知域、SGD的所有域、MultiWOZ2. 1和MultiWOZ2. 2三个基准数据集上的性能优于DST中现有的方法对于未来的工作，我们打算通过利用更复杂的模式和数据增强技术来进一步增强我们的方法。7致谢该项目由EPSRC奖学金资助，名为“基于任务的引用陆辰，吕波尔，王池，苏铸，谭博文，开宇。2020.图注意力神经网络的模式引导多域对话状态跟踪。人工智能促进协会（AAAI）。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2019年。Bert：深度双向转换器的语言理解预训练北美分会会议计算语言学协会（NAACL）米哈伊尔·埃里克、拉胡尔·戈埃尔、沙奇·保罗、阿布舍克·塞提、桑奇特·阿加瓦尔、高舒扬和迪莱克·哈卡尼-图尔。2020年。Multiw oz2.1：多域对话状态校正和状态跟踪基线。语言资源与评估国际会议（LREC）岳峰，杨望，李航2021年对话状态跟踪的计算语言学协会（ACL）。ShuyangGao ， SanchitAgarwal ， TagyoungChung，Di Jin，and Dilek Hakkani-Tur.2020年。从机器阅读理解到对话状态跟踪：弥合差距。计算语言学协会（ACL）。Michael Heck、Carel van Niekerk 、Nurul Lubis、Chris- tian Geishauser 、 Hsien-Chin Lin 、 MarcoMoresi和MilicaG asouic'. 2020年。TripPy：一个三重复制策略，用于与值无关的神经对话状态跟踪。计算语言学协会（ACL）。胡佳英，杨艳，陈晨彩，周宇，等。2020。SAS：通过插槽注意和插槽信息共享进行对话状态跟踪。计算语言学协会（ACL）。Minlie Huang ， Xiaoyan Zhu ， and Jianfeng Gao.2020.构建智能开放域对话系统的挑战。ACMTransactions on InformationSystems（TOIS）金成东，杨秀喜，金圭万，李尚宇。2020. 通过选择性记忆来实现高效的对话状态跟踪。在计算语言学协会第58届年会上。Diederik P Kingma和吉米BA.2014.Adam：一种随机优化方法。国际学习表征会议（ICLR）。Weizhe Lin，Bo-Hsian Tseng，and Bill Byrne. 2021.用于对话状态跟踪的知识感知图增强gpt-2。自然语言处理中的经验方法（Empirical Methods inNaturalLanguage Processing，EMNLP）Zhaojiang Lin ， Andrea Madotto ， Genta IndraWinata ， andPascale Fung.2020. Mintl ：Minimalisttrans-ferlearningfortask-orienteddialogue systems. 自然语言处理中的经验方法（ EmpiricalMethodsinNaturalLanguageProcessing，EMNLP）Vahid Noroozi，Yang Zhang，Evelina Bakhturina，and Tomasz Kornuta.2020年。一个快速和鲁棒的基于bert的模式引导对话数据集的对话状态跟踪器。arXiv预印本arXiv：2008.12335。Yawen Ouyang ， Moxin Chen ， Xinyu Dai ，Yinggong Zhao，Shujian Huang，and Chen Jiajun.2020.对话状态跟踪与显式插槽连接建模。计算语言学协会（ACL）。Alec Radford ， Jeffrey Wu ， Rewon Child ， DavidLuan，Dario Amodei，and Ilya Sutskever. 2019.语言模型是无监督的多任务学习器。在OpenAI博客。Osman Ramadan ， Pawestern Budzianowski ， andMilica Ga- sic.2018.具有知识共享的大规模多领域信念跟踪。计算语言学协会（ACL）。AbhinavRastogi ， XiaoxueZang ， SrinivasSunkara，Raghav Gupta和Pranav Khaitan。2020.Towards Scalable Multi-Domain ConversationalAgents：The Schema-Guided Dialogue Dataset. 人工智能促进协会（AAAI）。任立良，倪剑墨，Julian McAuley。2019.可扩展和准确的对话状态跟踪通过历史序列生成。自然语言处理中的经验方法（Empirical Methods+v：mala2277获取更多论文Bernardino Romera-Paredes和Philip HS Torr。2015.一种非常简单的零射击学习方法。国际机器学习会议（ICML）。Yixuan Su ， Lei Shu ， Elman Mansimov ， ArshitGupta ， Deng Cai ， Yi-An Lai ， and Yi Zhang.2021.即插即用任务导向教学系统的多任务预训练。arXiv预印本arXiv：2109.14739。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Lukasz Kaiser，and Illia Polosukhin. 2017.注意力就是你所需要的。神经信息处理系统（NeurIPS）。PetarVelicko vic' ， GuillemCucurull ， ArantxaCasanova ， Adriana Romero ， Pietro Lio ， and YoongeBengio.2018.图注意力网络。国际学习表征会议（ICLR）。王晓，季厚业，史传，白旺，叶燕芳，崔鹏，余世辉 . 2019. 异构图注意力网络。 ACMWebConference（WWW）。Chien-ShengWu ， AndreaMadotto

下载后可阅读完整内容，剩余1页未读，立即下载