没有合适的资源?快使用搜索试试~ 我知道了~
2568→基于递归推理的多域对话状态跟踪Lizi Liao,Tongyao Zhu,Le Hong Long,Tat-Seng Chua新加坡国立大学,新加坡liaolizi. gmail.com,{tongyao.zhu,lehonglong}@u.nus.edu,dcscts@nus.edu.sg摘要多域对话状态跟踪(DST)是在交互过程中监视用户目标的关键组件。例外的方法不加区别地依赖于对话历史,然而,无论是基于固定本体还是基于开放词汇表来建模,前者都违背了对话的交互性和进展性,后者则容易受到错误累积的困扰。在这里,我们提出了一个递归推理机制(ReInf)来解决DST在多域的情况下,需要更强大和准确的跟踪能力。具体来说,我们的代理人审查对话历史,直到代理人已经确定了足够的回合自信地预测槽值它还递归地考虑域和槽之间的潜在依赖关系,以进一步解决共同引用和值共享问题。在MultiWOZ 2.1语料库上进行的定量和定性实验结果表明,该方法不仅优于现有方法,而且实现了合理的话轮引用和可解释的槽共引用。CCS概念• 计算方法学;智能代理;人工智能。ACM参考格式:Lizi Liao,Tongyao Zhu,Le Hong Long,Tat-Seng Chua.2021年基于递归推理的多域对话状态跟踪。 在网络会议2021(WWW '21)的会议记录,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,美国纽约州纽约市,10页。https://doi.org/10.1145/3442381.34501341介绍从口语对话系统出发,早期的对话状态跟踪组件是困难的,因为自动语音识别(ASR)和口语理解(SLU)错误是常见的。因此,它倾向于在具有小的固定本体的单个域设置上工作[29]。后来,随着ASR的巨大进步和文本语料库的可用性,已经提出了许多关于文本输入的单域DST算法[16,21,35]。然而,单域模型很难扩展到多域设置,这是更现实的跟踪用户的目标。当对话代理需要处理跨域的多个任务时,跟踪问题变得更加复杂。它要求DST模型允许免费制作本作品的全部或部分的数字或硬拷贝,以供个人或课堂使用,前提是制作或分发副本的目的不是为了盈利或商业利益,并且副本的第一页上有本声明和完整的引用。版权的组成部分,这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要 以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2021计算机协会。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450134图1:MultiWOZ 2.1中的对话框示例。证据出现在特定领域插槽的某些回合中。我们还观察到插槽之间的共同引用和值共享(红色)。在寻找时隙值预测的证据方面更准确,并且在处理各个时隙之间的相关性方面更鲁棒最近的多域DST方法尝试以两种不同的方案来解决对话建模:1)对话历史方案:将整个或窗口大小的对话历史作为输入,其预测时隙值而不明确区分话语的回合; 2)逐回合方案:依赖于针对前一回合和最近回合话语生成的对话状态,其学习重新生成新状态或部分更新前一状态。然而,尽管有不同的预测机制,如基于本体或基于开放词汇,这两种方案都是次优的。for-mer对话历史方案通常将对话历史无差别地视为一个长序列,而对话则自然地逐轮渐进,以达到用户和Agent之间的信息对齐。 谈话主题经常从一个领域跳到另一个领域(73.8%的数据,例如,,如图1所示,从餐厅到酒店),用户需求也可能发生变化(数据中的7.8%,例如,,从便宜到中等价格)。由于人类很少回忆起他们之前的所有话语,而只是回顾与领域槽相关的回合,我们希望我们的DST跟踪器在对话期间像我们人类一样选择性地回顾对话历史。后来的逐圈方案实际上是为了我们的选择性设计,因为它侧重于转弯水平。然而,在这种方法中,前一个转弯状态出现的误差会积累起来,并在很大程度上影响后面的转弯要准确地选择一个特定的域插槽的确切轮流是一个不平凡的任务。例如,如图1所示,代理需要首先解析转弯的域,并找到包含槽值的转弯。更困难的是,域U:史:对不起,我找不到任何地方[您想换个地方吗U:那很好,在城里的M区怎么样S:菲茨比利餐厅供应,[.]。U:听起来不错。能帮我预订一下吗S:当然可以,请问您要几号几点,几位?U:我想要一张星期二11:30的5人桌[……]好的,预订成功了[.]。还有什么可以帮您的吗?U:我也想在餐厅附近找一些娱乐活动S:您有什么要我帮您搜索的景点吗你为什么不试试建筑景点呢?S:诸圣教堂看起来不错,你想去那里吗U:太好了,你能先帮我找辆出租车去餐厅问:景点区[SEP]东西南北中心[SEP]…英国食品空转出租车吸引力餐厅2569WWW自然会话中经常出现的现象,如共指和价值共享,例如:图1中所示的“与餐馆相同的区域”是指餐馆区域的值“中心”。确切的值因此,Agent需要进一步推断共指的存在,并递归地获得相应的共享值。在这项工作中,我们制定了对话状态跟踪在多域设置递归推理(ReInf)机制。 如图1所示,代理首先查询state中的特定do-main槽。具体来说,我们构造两种类型的查询:多项选择查询与有限数量的值选项和开放词汇表查询有一个大的或无限数量的值选项。通过查询,它可以推断是否可以基于最近的价值生成。如果为真,它将检测值共享槽,并递归地推断共享值,以帮助最终值生成;如果不为真,智能体将重新查看对话历史中的前一轮反向审查终止是代理检测到需要查询更新的值共享,或者它已经回溯到对话历史的开始。有了找到的转弯,我们实现了两个版本的ReInf。一个实现可以基于BERT输出上的复制机制进行端到端训练。另一个实现由单独的组件组成,其中生成模块利用预训练模型GPT-2进行值生成。在公共大规模数据集MultiWOZ 2.1上的大量实验证明了该方法的有效性。我们的主要贡献总结如下。提出了一种新的递归推理(ReInf)策略,用于面向任务的Agent中的多域DST,指出其对精确证据发现的渴望而不是像以前的作品中假设插槽之间的独立性,我们捕捉跨插槽的潜在依赖关系来处理共同引用和值共享问题。我们进行了广泛的实验,并实现了最先进的性能相比,其他方法。定性的结果也表明,我们的跟踪器获得可靠的回合和槽参考过程中的递归。2相关工作2.1基于本体的v.s.基于开放词汇的早期DST模型在固定本体上操作,并在预定义的槽值对集合上执行预测。他们依靠手-精心制作的功能[26,27],使用卷积神经网络[16],并尝试增强可扩展性[17 虽然这些方法表现良好,但很难应用于更复杂的数据集或场景,如多域设置。通常很难获得一个任务或领域的完整本体。固定本体的想法也是不可持续的,因为在现实世界的应用程序中,它们会不断变化。因此,最近的方法倾向于基于开放词汇表[4,12,31]。一般来说,我们可以将它们组织成基于跨度和基于生成的方法。 在基于广度的方法中,他们通常将DST视为机器阅读理解问题。对话历史是上下文,域槽是查询,它提取对话历史中的文本跨度作为答案[4,32,36]。例如,[32]应用基于注意力的RNN,指针机制,用于从上下文中提取值 这种方法有其局限性. 正如[33]中所提到的,有许多可表达的值在输入中没有逐字找到,而是隐含地提到,或者通过各种改写来表达。因此,他们提出了一种混合机制来同时提取值或对候选人进行分类。[6]通过使用三种复制策略进一步预测槽的值。它结合了基于跨度的方法和内存方法的优点,以避免使用值选择列表。基于跨度的方法的替代方案是基于值生成的方法。 [10,31]提出使用具有复制机制的编码器-解码器架构来生成对话状态值,其组合了在预定义词汇表和当前对话历史的词汇表上的分布。[9]应用类似的机制来生成值,但是将前一轮依靠GPT-2等预先训练的开放领域语言模型的良好性能,[8]使用单一因果语言模型作为单一序列预测问题进行训练,并取得了最先进的性能。在这项工作中,我们还利用了强大的GPT-2的发电设置。然而,我们的目标不是盲目地依赖于整个对话历史,而是准确地找到包含证据的相关话轮,并利用槽相关性来生成值。2.2基于历史的VS 根据模型的输入,我们可以将现有的方法组织为基于历史和基于转弯的方法。目前大部分作品应用前一个方案[4,5,11,31]。它们将整个或窗口大小的对话历史作为循环神经网络或Transformer模型的输入。例如,HJST使用分层递归神经网络考虑完整的对话历史[5,25]。更多的努力将不同的对话历史连接成一个长序列,同时使用递归神经网络(如Bi-LSTM或RNN)对其进行编码,如[4,31]。也有将整个历史输入BERT的作品,如[33]。然而,将整个对话历史视为一个长序列忽略了对话的交互性在对话期间捕获用户需求更新以及插槽之间的相关性也变得很难。为了捕捉对话的交互性质并提高计算效率,存在逐回合风格的另一条工作线。一般来说,这种方法将前一轮例如,[1]利用BERT模型提取每个回合的槽值,然后采用基于规则的更新机制来跟踪回合之间的对话状态。[20]使用Bi-LSTM对先前的对话状态和当前的话轮话语进行,然后一个接一个地对域、槽和值进行分层解码。同时,[9]用BERT模型对这些输入进行编码,同时预测操作门并为每个插槽生成可能的值。类似地,[13]提出在数据库知识的帮助下,通过BERT从先前的对话状态和新提取的回合结果中增量地推断新的对话状态然而,所有这些方法都自然地遭受错误累积问题,因为前一对话状态中的错误将在很大程度上影响后面回合的结果。···2570不不不多域对话状态跟踪与递归推理WWW在这项工作中,我们认为,整个历史为基础的方法和turn-by-turn为基础的方法是不够好。 由于会话在域和用户需求上频繁地改变,因此在会话期间选择性地回顾对话历史(如人类)将是更自然的。此外,目前的大多数作品对待不同的域槽相对独立。然而,我们观察到流畅的插槽相关性,如插槽相互引用,可以受益于模型的性能。3方法在本节中,我们正式介绍了多域对话状态跟踪任务和我们提出的递归推理(ReInf)方法。多域对话状态跟踪的任务定义如下。形式上,我们将对话X表示为X=Q*sQ*sQ*st-2t-1t{Ua,Uu,···,Ua,Uu},其中Ua是依次t的施事话语图2:递归推理机制的抽象视图1 1 TTtnism。从下到上的方向(蓝色)代表重新-并且Uu是用户话语的回合t。每个回合t与对话状态Yt相关联,这是我们的模型需要预测的目标它是一组(域,槽,值)元组。Yt中的每个元组表示,直到当前轮次t,在交互中已经提供了取值为v的域d的槽s。在多域DST中,存在多个域。每个域d具有其槽,并且每个槽s具有其可能的值候选Vs。例如,hotel域有一个名为price range的槽,可以接受moderate、cheap和expensive等可能的值。某些插槽没有预定义的值,即,V s在领域本体中缺失。例如,taxi和train域具有诸如到达时间和离开时间之类的时隙,这些时隙很难枚举所有可能的值。按照MultiWOZ 2.0 和MultiWOZ 2.1的惯例,我们使用术语“slot”- s来表示域名和插槽名称的连接,例如酒店价格范围。接下来,我们首先在第3.1节中概述ReInf,然后在第3.2节中介绍其MATCH、SHARE和GEN模块。ReInf的不同版本在3.2节中给出。3.1递归推理算法1:递归推理(ReInf)函数ReInf(Xt,s,t,evidences):如果t1,则|和用户话语||). 它不仅包括反向审查的回合,但也捕捉递归推理的价值共享槽Qs。首先,在算法1中示出了所提出的递归推理机制(ReInf)的总体结构。 如图所示,t是模型需要预测对话状态的当前回合,并且Xt表示直到第t回合的对话历史。这里是我们的跟踪器需要预测值的特定插槽。给定任何槽s,我们的状态跟踪器将首先构造一个问题Qs,并测试它是否与最近的话轮话语匹配以进行证据发现(更多细节将在第3.2节中给出)。 如果没有,我们的跟踪器将重新检查以前的转弯。这个过程将一直执行,直到跟踪器检测到值共享,已经获得足够的证据,或者已经回溯到对话的开始如果我们的跟踪器找到一个确信的turntp,它将首先找到可能与s共享值的插槽,并递归地找到每个共享槽s′基于新问题Qs′和子集在此之前的对话历史然后,它基于找到的转向话语和共享值来生成时隙s的值。此外,我们在图2中给出了递归推理机制(ReInf)的高级说明。直觉上,主干和分支上的所有交换机最初都是打开的(即,关闭)。我们的ReInf是从现在到过去递归调用的,一个接一个地关闭主干上的开关,直到递归终止。的中继线上的交换机决定是否进一步检查先前的t t如果确认,则转弯同时,我们的ReInf也关闭了分支上的开关/* 在这个转折点感到自信 */SS←SHARE(Ua,Uu,s)//获取共享插槽当检测到值共享树枝上的开关决定了t tforeachs′∈SSdo′是否存在需要进一步递归地预测这些时隙的当递归终止连接时,VV←ReInf(Xt−1,s,t−1,n)//递归地获取值← evidence([Ua,Uu],SS,VV)//添加到evidence集合我们展开了从过去到现在的过程,最后预测当前时隙的值/* 如果检测到共享插槽或已获得足够的证据,则停止反向 */如果s′nullor|evidences|> hreshold然后返回GEN(evidence,s)/* 递归地查看以前的回合 */t′←t−1returnReInf(Xt′,s,t′,evidences)为了实现递归推理算法,我们进一步设计了三个模块:、MATCH、SHARE和GEN。 一般来说,MATCH模块断言递归终止条件,并精确定位值生成的证据轮。 SHARE模块基于找到的话轮话语推断可能与当前槽共享值的槽。 GEN模块生成特定域槽的值,并考虑各种语言现象,如共指和值共享。Qs||......这是什||......这是什||......这是什返回递归.. .2571confi()下一页}{--∈Kk拷贝s,kWWW3.2神经模块算法3:SHARE模块函数SHARE(Ua,Uu,s):算法2:MATCH模块函数MATCH(Ua,Uu,s):t tS′←候选人foreachs′∈S′dot tQ←)q′←fCLS (Qs′)% s构造(% ssBERT一个uqs←fCLS(Qs)HU ←fBERT([Ut,Ut])伯特H←([Ua,Uu])β←Sof tmax(H·(q′)T)//查询关注话语Uf BERTt tUsTα←Sof tmax(HU·(qs)T)//查询关注话语conf i←Sof tmax(Wmatch·(α·HU)T)return3.2.1MATCH模块。 MATCH模块旨在阻止-share←Sof tmax(Wshare·(β·HU))如果共享,则SS. 插入(s′)返回SS挖掘当前回合是否包含价值证据具体地说,我们把对话状态跟踪作为一个问题回答问题,可以解决的机器阅读方法。因此,MATCH模块将时隙s视为查询,并预测一轮话语Ua、Uu是否包含适当值的证据基本上,我们在同一对话中收集所有具有共享价值的插槽对然后,对于每个候选槽s ′,我们生成其问题表示qs′并关注话语表示HU。β是指注意力权重。照管表示将通过一个完全连接的层,t t受[36]的启发,构造s为插槽s生成问题Qs。对于存在预定义值集Vs的每个时隙s,我们构造一个问题Qs={s,Vs,don'tcare,not mentioned}.参数W共享并预测s ′是否与s共享值(如等式3所示)。例如,在图1中,对于候选槽,‘restaurant-area’,例如,“hotel-price range”的构造问题5 5和餐厅在将是Qs=酒店,价格范围,便宜,中等,昂贵,不在乎,没有提到。它表示以下自然语言问题:“是否提到'酒店'的'价格范围'?如果是这样,下面哪个选项是正确的:A)便宜,B)中等,C)昂贵,D)不在乎。在Vs不可用的情况下,例如对于像'hotel-name'或'taxi-arrive time'这样的插槽例如,针对时隙“出租车到达时间”的构造问题将是Q s ={出租车,到达时间,不关心,不提}。它代表了国家-. 它的注意力权重会很大,帮助预测份 额 =Sof tmax ( W 份 额 · ( β·HU ) T ) 。(3)结果份额R2表示s ′是否与s共享价值。我们把第一维的值作为概率得分分享。在算法3中,SS是指与s共享值的所有时隙的集合。算法4:GEN模块口语问题如果是这样,什么是随着建设功能GEN(证据):问题Qs,我们得到它的向量表示q通过[CLS]qs←fCLS(Qs)S从BERT编码器输出位置同时,我们也得到了伯特HU←fBERT(证据。U)//concat在证据中表达通过以下公式实现了对方程HU=[h1,h2,·a··,hL]的描述BERT编码器使用级联的转向话语[U,Uu],foreach(s ′,v ′)∈(evidences. 党卫军证据VV)做Str← [Str,s′,v′]单词长度Lt tH应力 ←fBERT(Str)α = Sof tmax(HU·(qs)T)。(一)H← [HU,HStr]//concat uttrs和共享槽值字符串矩阵confi =Sof tmax(W匹配·(α·HU)T)。(二更)/* 使用复制机制逐字生成值 */whileekdoes not refer [EOS] tokendo在MATCH模块中,它首先采用问题特征qs来处理话语词HU,如等式1所示。然后,对话语中的证据进行加权求和,预测话轮是否包含问题的价值信息gk←GRU(gk−1,ek)pvocab←Sof tmax(E·(gk)T)p拷贝 ←Sof tmax(H·(gk)T)c← p·H或者不像等式2中那样。 结果confi ∈ R2表明cer-kk证据的不确定性和不确定性我们把第一个维度的值作为置信度得分。W比赛γ<$<$enSi<$moid(Wc·[gk,ek,ck])copypk←γ·pvocab+(1−γ)·pk是全连接层的权重矩阵为了便于说明,K返回忽略偏置项3.2.2SHARE模块。SHARE模块检测共享插槽对于时隙s,基于转向话语Ua,Uu。候选人(S)3.2.3GEN模块。GEN模块设计用于预测给定找到的转向话语和共享值,函数提供候选共享插槽。例如,给定s作为我们通过训练数据中的统计来获得这个函数我们应用软门控复制机制[23]来获得s的候选值令牌上的最终输出2572分布p<$en。我们生成2573.–s,ks,k()t、()下一页[lo <$(ps,k)]。(能力p(z)=我|z|1p(zi|z
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功