没有合适的资源?快使用搜索试试~ 我知道了~
3279→语言丰富和上下文感知的零拍摄插槽填充A.B. Siddique加州大学河滨分校Riverside,CA,USAmsidd005@ucr.edu福阿德·贾穆尔加州大学河滨分校Riverside,CA,USAfuadj@ucr.edu瓦格利斯·赫里斯蒂迪斯加州大学河滨分校Riverside,CA,USAvagelis@cs.ucr.edu摘要槽填充是识别发音中对应于某些参数的单词的连续跨度(即,时隙)。槽填充是现代面向任务的对话系统中最重要的挑战之一监督方法已被证明在应对这一挑战方面是有效的,但它们需要在给定领域中大量标记的训练数据。然而,新的域(即,在训练中看不见)可能在部署之后出现因此,这些模型必须无缝地适应和填充来自可见和不可见域的槽-不可见域包含没有训练数据的不可见槽类型,即使是不可见域中的可见槽通常也会在不同的上下文中呈现。 这种设置通常被称为零射槽填充。很少有工作集中在这个设置,有限的实验评价。现有的模型,主要依赖于上下文无关的嵌入为基础的相似性措施,无法检测槽值在看不见的领域或这样做只是部分。 我们提出了一个新的零拍槽填充神经模型,LEONA,它分为三个步骤。 步骤一通过利用(a)诸如词性标签的语言特征;(b)命名实体识别线索;以及(c)来自预先训练的语言模型的上下文嵌入来获取话语词的域无关的、上下文感知的表示。第二步微调这些丰富的表示,并为每个单词生成与槽无关的标签第三步利用可推广的上下文感知话语槽相似性特征在单词级别,使用槽独立的标签,并将它们上下文化,以产生槽特定的预测每个单词。 我们对四个不同的公共数据集的全面评估表明,我们的方法始终优于最先进的模型17。52%,22. 百分之十五,十七。42%,17。对于SNIPS、ATIS、MultiWOZ和SGD数据集上的未知域,平均分别为95%。CCS概念• 计算方法学;信息抽取;语义学;迁移学习.关键词跨领域零拍槽填充,零拍学习,槽填充,自然语言理解,自然语言处理。本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449870ACM参考格式:A.B. Siddique,Fuad Jamour,and Vagelis Hristidis. 2021.语言丰富和上下文感知的零拍摄插槽填充。在网络会议2021(WWW '21)的会议记录,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,纽约州纽约市,美国,12页。https://doi.org/10.1145/3442381.34498701引言面向目标的对话系统允许用户通过直观的自然语言界面(例如,Amazon Alexa)。例如,用户可以发出以下话语:“我想在旧金山的8 Immartals餐厅预订今天下午5:30的6个人的桌子”。对于满足这样的请求的对话系统,它们首先需要提取参数(也称为slot)请求的值restaurantbooking域中的槽包括restaurant_name和 city , 它 们 在 我 们 的 示 例 话 语 中的值分别是 “8 ImmortalsRestaurant“和“SanFrancisco“。只有在所有槽值都被填充之后,系统才可以调用适当的API来实际执行预期的动作(例如,在餐馆预订桌子因此,从自然语言话语中提取时隙值(即,槽填充)是对话系统成功的关键步骤槽填充是一项重要且具有挑战性的任务,它使用槽标签标记输入话语中的每个单词子序列(参见图1的示例)。尽管存在挑战,但监督方法已显示出这项任务的可喜成果[3,15,17,25,37、66、68、70]。监督方法的缺点是对每个域具有大量标记的训练数据的不可持续的要求;这种数据的获取是费力且昂贵的。此外,在实际设置中,新的看不见的域(具有看不见的槽类型)仅在对话系统部署之后出现,使得监督模型无效。因此,具有无缝适应新的未知领域的能力的模型对于对话系统的成功是不可或缺的 注意,未见过的槽类型不具有任何训练数据,并且已见过的槽的值可以存在于新域中的不同上下文中(使得它们的来自其他已见过域的训练数据不相关)。在部署后出现新域的设置中填充插槽被称为零拍摄插槽填充[2]。Alexa Skills和Google Actions,开发人员可以将他们的新颖内容和服务集成到虚拟助手中,这是零拍摄插槽填充至关重要的场景的一个突出例子。关于零炮孔充填的研究较少,以往的工作也只给出了有限的实验评价结果。据我们所知,现有模型是使用单个公共数据集进行评估的最近,作者在[52]中通过利用实例提出了用于时隙填充的跨域零激发自适应3280第一步:NLP模型提示句法提示步骤2:与插槽无关的标记产科我我…步骤3:特定于插槽的标记OO...O O O城市餐厅名称CRF层NER提示编码层语境词表征八仙酒家旧金山嵌入层城市餐厅名称名称hotel位置城市I编码相似层嵌入情境化层插槽描述预测层WWWSiddique,Fuad Jamour,Vagelis Hristidis输入:我将像到书一表在8仙餐厅在SanFrancisco输出量:OOOOOOOOB餐厅名称我-餐厅名称我-餐厅名称OB城市I-city我PRON八仙酒家PROPN在ADP旧金山PROPN我O八仙酒家ORG在O旧金山GPE图1:LEONA的概述,其中包含一个示例话语及其单词插槽值。由于槽值在不同域中的固有变化,该框架在捕获看不见的域中的整个槽值时面临困难;例如,在图1的示例话语中,它捕获槽类型“restaurant _ name“的“Immortals Restaurant“而Coach [32]建议用一种由粗到细的方法来解决[2,52]中的问题。Coach [32]使用所看到的域数据来基于单词是否是槽值来学习槽的模板。然后,它通过将每个标识的槽值的表示与每个槽类型描述的表示进行匹配来确定每个标识的槽值的槽类型。不同域中插槽类型的多样性使得Coach几乎不可能学习适用于所有新的未知域的通用模板;例如,我们提出了一个端到端的零触发模型LEONA1,2,它依赖于来自预训练语言模型(LM)的域独立语言特征和上下文表示的能力,以及上下文感知的话语槽相似性特征。LEONA的工作分为三个步骤,如图1所示。第一步利用预先训练的自然语言处理(NLP)模型,提供额外的领域无关和上下文感知信息来初始化我们的嵌入层。具体地,步骤一使用(i)通过词性(POS)标签的句法线索,所述POS标签提供关于单词子序列是槽值的可能性的信息(例如,专有名词通常是槽值);(ii)提供补充和更多信息的标签的现成命名实体识别(NER)模型(例如,地理政治实体标签“旧金山“);以及(iii)深度双向预训练LM(ELMo)[42],以生成可以处理1语言上-E丰富和CON文本-Aware2源代码可在https://github.com/abubakar-ucr/LEONA上获得在训练中从未见过的未知单词结合起来,这些丰富语义信息的独立于域的源为嵌入层提供了鲁棒的初始化,以更好地容纳看不见的单词(即,在训练中从未见过),这极大地促进了零射击槽填充。第二步通过使用双向长短期记忆(LSTM)网络[20]解释发音单词之间的时间交互来微调第一步中的语义丰富信息,该网络有效地将丰富的语义信息从预先训练的NLP模型转移到所提出的模型LEONA 。该步骤产生与时隙无关的标签(即,内部外部开始IOB),其在单词子序列级别提供补充线索(即,关于哪些单词连续性构成槽值的提示)使用条件随机场(CRF)[26]。第三步,这是最关键的步骤,学习一个可推广的上下文感知相似性函数之间的话语词和槽描述从看到的域,并利用学习的功能在新的看不见的域突出的话语词的特征,是上下文相关的给定槽。 该步骤还联合地将在所有步骤中产生的多粒度信息上下文化。最后,CRF被用来产生特定于槽的预测给定的话语词和槽类型。对每个相关的槽类型重复此步骤,并将预测组合以获得最终的序列标签。在图1的示例中,对“restaurant_name“和“city“的预测被组合起来,生成图中所示的最终序列标签。总之,这项工作作出了以下贡献:我们提出了一个端到端的零杆槽填充模型,有效地捕捉话语词和槽类型之间的上下文感知的相似性了不同级别的粒度的上下文信息,导致出色的零杆能力。·3281Y(···)X(···)≤ ≤≤X(···)i=1DDY D∈ DD∈ D <$D×Linguistically-Enriched and Context-Aware Zero-shot Slot Filling WWW我们证明了预先训练的NLP模型可以提供广告领域无关的语义信息,特别是对于看不见的概念。据我们所知,这是第一个利用预训练的NLP模型进行零拍摄插槽填充的工作。这一发现可能对其他零镜头NLP任务有积极的影响我们使用四个公共数据集进行了广泛的实验分析:SNIPS[7],ATIS [31],MultiWOZ [69]和SGD [46],并表明我们提出的模型在未知领域的广泛实验评估中始终优于最先进的模型。 据我们所知,这是第一个全面评估零炮槽填充模型在许多数据集具有不同的领域和特点。2预赛2.1问题公式化给定具有J个单词i=x1,x2,.,xJ的话语,槽值是单词x e的跨度,,xf使得0eFJ,它与插槽类型相关联。 槽填充是一个序列标记任务,它按照IOB标记方案[ 45 ]将标签i=y1,y2,yJ分配给输入i。具体地,与时隙类型Sr相关联的时隙值的第一个字被标记为B-Sr,时隙值内的其它字被标记为I-Sr,非时隙字被标记为O.设Dc={S1,S2,. . . },是域C中的槽类型的集合。设DSEEN={D1,···,D1}是一组D_UNSEEN={D_l+1,···,D_z}是一组不可见的通常是一些插槽的值在这项工作中,我们采用了SpaCy的预训练POS标签器3,它已经显示出生产水平的准确性。预训练的NER模型。 该模型使用针对四种实体类型的IOB标签来标记话语:PER、GPE、ORG和MISC。NER模型以不同的粒度提供信息,这是通用的和域独立的。虽然NER模型提供了一组有限的实体和插槽填充的任务遇到更多的实体类型的标签,我们观察到,许多,但不是所有的插槽可以映射到基本的实体支持的NER模型。例如,地点或位置的名称被称为地理政治实体或位置),而在空位填充的任务中,可能存在酒店、餐馆、沙龙或用户计划访问的某个地方的位置。尽管如此,以zero-shot方式将位置的名称分配给正确的对应实体/槽仍然具有挑战性。此外,NER模型不能识别所有槽填充打算提取的槽/实体,导致召回率低。然而,来自NER模型的线索是信息丰富的,有助于降低任务的复杂性 在这项工作中,我们使用SpaCy的预训练NER模型4。预先训练的ELMO。预先训练的语言模型(例如,ELMo)以无监督的方式在大量文本数据上进行训练这些模型具有数十亿个参数,从而以有效的方式捕获一般语义和句法信息 在这项工作中,我们采用深度双向语言模型ELMo来提供上下文化的单词表示,这些单词表示基于单词的使用上下文来捕获单词的复杂句法和语义特征,而不像固定的单词嵌入(即, GloVe [41]或Word2vec[38])不考虑上下文。[42]第二,以“以人为本”为核心,以“以人为本”为核心。域,其中DSEEN DUNSEEN =。 设{(Xi,Yi)}n是一组在许多NLP基准测试中获得了最佳结果[6,19,43,44,57,62]。然而,这些表示纯粹是基于字符的,训练在单词级标记的话语,使得时隙类型在我正在p见。在传统的(即,在监督的)时隙填充中,测试话语的域属于SEEN,而在零激发时隙填充中,测试话语的域属于UNSEEN;如果话语包含对应于来自该域的时隙类型的时隙值,则该话语属于该域。 注意,在零激发时隙填充中,输出时隙类型属于可见或不可见域(即,inpSEENUNSEEN)。我们在这项工作中专注于零镜头插槽填充。2.2预训练的NLP模型在这项工作中,我们利用了几个现成的预训练NLP模型。具体来说,我们用途:预训练的POS标记器,预训练的NER模型和预训练的ELMo。POS/NER标签和ELMo嵌入提供的线索在我们的模型中是补充性的,并且使用来自所见领域的可用训练数据对其进行进一步微调和上下文化接下来,我们简要概述这些模型。预先训练的POS标签员。该模型使用诸如PROPN、VERB和ADJ的词性标签来标记话语。 POS标签为零镜头插槽填充任务提供了有用的句法线索,特别是对于看不见的域。LEONA从语言语法中学习关于如何在一个域中定义槽值的一般线索,并将此知识转移到新的看不见的域,因为POS标签是域和槽类型独立的。例如,专有名词是对于训练过程中看不见的单词是鲁棒的,这使得它们适合于零射击槽填充的任务2.3条件随机场条件随机场(CRF)[60]已成功应用于自然语言处理中的各种序列标记问题,如POS标记[8],浅层解析[51]和命名实体识别[50]。为了为给定的输入产生最佳的标签序列,CRF将预测之间的上下文和依赖关系结合起来。 在这项工作中,我们采用线性链CRF,通过估计最大条件对数似然来训练。在其最简单的形式中,它估计大小为num_tagsnum_tags的转换成本矩阵,其中索引[i,j]处的值表示从第j个标签转换到第i个标签的可能性。此外,它允许以灵活的方式实施约束(例如,标签3方法我们的模型LEONA是一个端到端的神经网络,有六层,共同实现了图1中概念上的三个步骤。具体地,嵌入层实现步骤一,并且它还 与 编 码 层 和 CRF 层 一 起 联 合 实 现 步 骤 二 。 Similarity 、Contextualization和Prediction层实现3https://spacy.io/api/annotation#pos-tagging4https://spacy.io/api/annotation#named-entities··3282我的天{···} S∈X∈XWWWSiddique,Fuad Jamour,Vagelis HristidisCRF层相似层联合1预测层LSTM LSTMLSTM情境化层.uKh1 h2.... HJg1g2…h1 h2LSTM LSTM LSTMLSTMELMo嵌入POS嵌入NER嵌入编码层嵌入层x1 x2话语槽描述图2:我们的模型LEONA中的层的图示第三步 我们在下面简要总结了每一层,并在下面的小节中详细描述了每一层。 Embedding层将每个单词映射到向量空间;该层负责嵌入来自话语和槽描述的单词。 编码层使用双向LSTM网络,通过考虑来自相邻单词的信息来细化上一层的嵌入。这一层编码话语以及槽描述。CRF层使用话语编码并进行与时隙无关的预测(即,IOB标签),通过考虑预测之间的依赖性并将上下文考虑在内。相似性层使用话语和时隙描述编码来计算相似性。已经证明比简单的串联更好它们为每个单词生成一个模糊维向量。具体地,嵌入层为具 有 J 个 单 词 的 给 定 话 语 x1 ,x2,,xJ产生R dim × J,并且为具有K个单词的给定时隙描述s1,s2,,sK产生R dim × K。这种表示在下一层中得到微调和上下文化3.2编码层我们使用双向LSTM网络来捕获输入单词之间的时间交互在时间步i,我们如下计算输入话语的隐藏状态注意力矩阵,其捕获话语单词和时隙类型之间的相似性,并且表示与时隙类型相关的话语单词的特征向量。Contextualization层→−hi=LSTM(→−hi−1 ,X:i)使用来自不同粒度的表示,并通过采用双向LSTM网络将它们用于特定于插槽的预测←h−i=LSTM(←h−i−1,X:i)然后,我们将隐藏状态→−hi和<$h−i的输出连接为得到二维隐态表示h=[→−h;<$h−]∈CRF层。预测层使用另一个CRF来制作slot-2d2d×J我我我具体预测(即,给定插槽类型的IOB标记),基于R .这一层从上下文词vec产生H ∈R来自语境化层的输入请注意,预测过程对所有相关的槽类型重复,其输出被组合以产生每个单词的最终标签。3.1 嵌入层该层将输入话语中的每个单词映射到高维向量空间。使用三种互补嵌入(i)输入单词的POS标签的单词嵌入,(ii)输入单词的NER标签的单词嵌入,以及(iii)来自预训练的ELMo模型的上下文单词嵌入。然后,我们采用一个双层高速公路网络[58]以有效的方式将每个单词的三个嵌入结合起来;这样的网络具有tors(即,用于发声)。本质上,矩阵的每一列表示相应单词的微调上下文感知表示。采用类似的机制从词向量S产生U ∈ R2d ×K(即,对于插槽描述)。3.3CRF层CRF层的任务是预测三个时隙无关标签(即,I,O,或B),基于由编码层产生的话语的上下文表示H={h1,h2,···,hJ}。 设Y是序列标号,所有可能的状态序列的集合是C。 对于给定的输入序列H,CRF的条件概率函数P(Y|H;W,b),或3283U我1我i−1i'y,yG∈.U∈.U U (A)∈一一A∈.h(a)u],其中,是向量级联,()下一页H∈U∈∈H∈我 i−1我由编码层生成的话语()和时隙描述(),该编码层考虑周围的其中b=softmax( maxcol(A))∈RJ插槽类型,Yi′表示给定类型的与插槽无关的IOB标签。Linguistically-Enriched and Context-Aware Zero-shot Slot Filling WWW所有可能的标签序列Y计算如下:.Jθ(y,y,H)直觉,“表示突出具有话语的紧密相似的词的重要槽描述词的特征,并且H”突出具有话语的高相似性的话语的特征,P(Y |H;W,b)==. .Jθ(y′,y′,H)基于相似性矩阵A计算的时隙描述。注意,A是基于以下的上下文表示来计算的:H U其中θ(y′,y′,H)=exp(WTh+b′)是一个可训练的函数,我i − 1我y′,yiy,y生成表示。最后,U和H被级联有WT(y′,y)。重量和by′,y标签对的偏置矩阵产生R4d×J,其中矩阵的每一列表示对应的注意,与时隙无关的预测也表示步骤二的输出;即,与来自NLP模型的初始线索不同的粒度的关于话语词的信息。本质上,第二步学习槽值的一般模式,从看到的域不考虑槽类型,并将此知识转移到新的看不见的域及其槽类型。 由于很难学习适用于所有未看到的域的槽值的通用模板,因此我们不使用这些槽独立预测来预测槽特定的标签。相反,我们将此信息传递给上下文化层进行进一步的微调。3.4相似层相似性层通过采用注意力机制来突出对于给定槽类型重要的每个话语词的特征。将整个序列求和为固定长度特征向量的流行注意力方法[1,30,64]不适合手头的任务,即,每个字的标签。或者,我们在每个时间步计算注意力向量,即,[49 ]第49话中的每一个字。将话语编码R2d ×J和时隙描述编码R2d×K度量输入到该层,其用于计算话语和时隙描述编码之间的相似性矩阵RJ ×K。jk表示第j个发音词和第k个时隙描述词之间的相似度。我们计算相似度矩阵,如下所示:Ajk=α(H:j, U:k)∈R其中α是捕获输入向量H:j和U:k之间的相似性的可训练函数,其中H:j和U:k分别是H和U的第j列向量和第kα(h,u)=w<$[h <$u<$]是逐元素乘法,并且是可训练的权重向量。相似性矩阵用于捕获双向交互,话语词和槽类型之间的动作 首先,我们计算注意力,突出槽描述中与话语密切相关的单词。在时间步t,我们计算如下::′t=kvtk:k其中vt=softmax测试:RK是在时间步长t处计算的时隙描述的注意力权重,并且对于所有t,vtk=1。“R2d×J表示关于话语中的所有词的时隙描述的注意力权重。基本上,矩阵的每一列都代表接近-槽描述与相应的话语词的一致性然后,计算表示话语中与时隙描述具有最高相似性的词的注意力权重话语词与槽描述。从本质上讲,这一层学习一个通用的上下文感知的相似性函数之间的话语和槽描述从看到的域,它利用学习功能看不见的域。由于相似性函数的一般性质,这一层还有助于在步骤2未能正确识别与域无关的槽值的情况下识别槽值。3.5情境化层这一层负责将来自不同粒度的信息置于上下文中具体地,来自编码层的话语编码、来自相似性层的话语与时隙描述之间的双向相似性、以及来自CRF层的时隙无关IOB预测作为输入被传递到该层。 该层采用2个堆叠的双向LSTM网络,通过考虑相邻单词表示之间的关系来将所有信息上下文化。 它为预测层生成高质量的特征;具体来说,特征是R2d ×J,其中每列表示话语中给定单词的2d维特征。3.6预测层上下文化特征作为输入被传递到该层,并且它负责为给定的话语和槽类型生成特定于槽的预测。首先,它通过ReLU激活将这些特征传递到2个线性层 然后使用CRF进行结构化预测,如CRF层中简要说明的那样。对每个相关时隙类型(即, 相应域中的槽类型),并且组合所得到的标签序列以产生每个单词的最终标签。请注意,如果模型对给定的单词序列进行了两个或更多冲突的槽预测,我们将选择预测概率最高的槽类型。3.7训练模型该模型有两个可训练的组件:插槽独立的IOB预测和插槽特定的IOB预测。我们通过最小化两个组件在我们的训练示例中的负对数似然损失来联合训练这两个组件 训练数据准备如下。训练示例的形式为(Xi,Sr,Yi′,Yi′r′),其中Xi表示话语,Sr表示max跨列运算,而′R2d×J是通过将h′跨列平铺得到的Yi′r′表示用于给定话语Xi和时隙类型Sr的时隙特定的IOB标签。对于给定数据集中的样本,y′∈Ci=1如下:h′=3284Yi(XY)YSirS···· · · ······· · ·· ·················≈≈≈WWWSiddique,Fuad Jamour,Vagelis Hristidis表1:数据集统计。数据集SNIPS ATIS MultiWOZ SGD14.第十四章5K5. 9K67. 4K 188K词汇12号的1K1K10.5K三十三6KAvg. 长度9. 0十一岁113岁313岁8域名数量61820意向数量7181146插槽数量398361240具有m个时隙类型的值的形式i,i,通过移除阵然后,我们通过将m个时隙类型中的每一个设置为r并生成相应的标签“”(即,用于时隙类型R的时隙特定标签)。最后,生成q个负选择相应的话语例如,图1中的话语“I would like to book a tableat 8 Immortals Restaurant in San Francisco”具有作为“O O O OO O B-餐厅_名称I-餐厅_名称I-餐厅_名称O B-城市I-城市”的真实标签。正训练示例将是:(,“restaurant _ name“,“O OO O O O O B I I O B I”,“O O O O O O O O B I O OO”)和(,“city“,,而否定的例子可以如下:(, ,、),( ,请注意,上面的示例中显示的插槽类型是为了简洁;插槽描述是在实践中使用4实验装置在本节中,我们将描述数据集,评估方法,竞争方法,以及我们的模型LEONA的实现细节。4.1数据集我们使用了四个公共数据集来评估我们的模型LEONA的性能:SNIPS自然语言理解基准(SNIPS),航空公司旅行信息系统(ATIS),多域向导(MultiWOZ)和对话系统技术挑战8模式引导对话(SGD)。 据我们所知,这是第一次在广泛的公共数据集上全面评估零炮槽填充模型的工作。 表1列出了重要的数据集统计数据。SNIPS [7]:一个众包的单轮自然语言理解(NLU)基准,广泛用于槽填充。它有39个插槽类型,来自不同域的7个意图。由于此数据集没有插槽描述,因此我们使用标记化的插槽名称作为描述(例如,对于插槽类型ATIS[31]:一个单圈数据集,已被广泛用于槽填充评估。它涵盖了来自单个域的18个意图的83个插槽类型 许多意图只有少量的话语,因此在我们的实验中,所有话语少于100个的意图都被组合成一个单一的意图“其他”。更多-MultiWOZ[69]:一个众所周知的数据集,已被广泛用于对话状态跟踪任务 在这项工作中,我们使用了数据集的最新版本(即,MultiWOZ 2. 2)。在其原始形式中,它包含用户和对话系统之间的对话对于槽填充的任务,我们获取所有提到任何槽的用户话语和系统消息,并将其打乱顺序,使其就像是一个单轮数据集,以保持与以前的作品的一致性。 对于这项工作中的实验,具有少于650个(<数据集的1%)话语的意图的话语被分组到意图“其他“中。SGD[46]:最近发布的第八届对话系统技术挑战赛的综合数据集;它包含来自20个域的对话,共有46个意图和240个插槽。SGD最初被提议用于对话状态跟踪。该数据集还被预处理以具有标记用于槽填充的单轮话语。此外,我们合并来自不超过1850(数据集的1%)话语<的域的话语,我们将得到的域由于并非所有数据集都提供足够多的域,因此我们在实验中基于意图而不是域对意图比域多的数据集进行分割。 也就是说,我们将Intent视为SNIPS、ATIS和MultiWOZ的域。4.2评价方法我们计算插槽F1分数5,并给出以下设置的评估结果:对除目标意图/域之外的所有内容进行培训 这是最常见的设置,以前的作品[2,32,52]在他们的评估中使用。模型在除了单个目标意图/域之外的所有意图/域上进行训练。例如,对于SNIPS数据集,除了目标意图“AddToPlatlist“之外,模型在所有意图上进行训练,该目标意图用于对于数据集中的每个意图/域重复此设置测试时的话语仅来自单个意图/域(或“其他“),这使得该设置不那么具有挑战性。对一定比例的意图/域进行训练,并对其余部分进行测试。这是一个稍微更具挑战性的设置,其中测试(即,训练中看不见的)意图/域通常来自多个看不见的意图/域。我们改变训练的次数(即,可见)和测试(即,看不见的)意图/领域来全面评估所有竞争模型。在这个设置中,我们随机选择25%、50%和75%的意图/域进行训练,其余的用于测试,并报告五次运行的平均结果在一个数据集上训练,在其余数据集上测试这是最具挑战性的设置,其中模型在一个数据集上训练,并在其余数据集上测试。例如,我们在SGD数据集上进行训练,并在SNIPS、ATIS和MultiWOZ数据集上进行测试同样,我们对每个数据集重复这个过程 由于数据集非常多样化(即,根据域、槽类型和用户的表达),该设置可以被认为是“在野外“[ 9 ]设置,其在很大程度上类似于真实世界的4.3竞争方法我们比较了以下最先进的(SOTA)模型:与SNIPS数据集类似,我们使用了插槽名称作为插槽描述。5标准CoNLL评估脚本用于计算槽F1分数。3285/Linguistically-Enriched and Context-Aware Zero-shot Slot Filling WWW表2:SNIPS数据集:针对训练中不可见的目标意图的所有竞争模型的Slot F1得分目标意图↓CTRZS教练LEONA,不含IOB莉安娜添加到播放列表0.38820.42770.50900.51040.5115图书餐厅0.27540.30680.34010.34050.4781GetWeather0.46450.50280.50470.55310.6677PlayMusic0.32860.33120.32010.34350.4323价格表0.14540.16430.22060.22240.2318搜索创意工作0.39790.44450.46650.46710.4673搜索筛选事件0.13830.12250.25630.26900.2872平均0.30550.32850.37390.38660.4394教练[32]:这个模型建议处理零杆槽填充-表3:ATIS数据集:所有竞争模型的Slot F1分数,用于训练中不可见的目标意图。目标意图↓CTRZS教练LEONA,不含IOB莉安娜缩写0.41630.52520.48040.49650.6405机票0.65490.54100.69290.74900.9492航空公司0.71260.63540.72120.77620.8586飞行0.65300.71650.80720.85210.9070地面服务0.49240.64520.76410.84630.8490别人0.48350.51690.65860.77490.8337平均0.56880.59670.68740.74920.8397表4:MultiWOZ数据集:所有竞争模型的Slot F1分数,用于训练中不可见的目标意图。用由粗到精的程序来完成任务它首先确定了构成时隙值的字然后,基于所标识的槽值,它尝试通过将所标识的槽值与每个槽描述的表示相匹配来将这些值分配给槽类型。我们使用他们最好的模型,即,Coach +TR,使用模板正则化,但为了简单起见,我们称之为Coach。RZS[52]:这项工作提出了一个零杆适应槽填充通过利用每个时隙类型的示例值它采用的话语和插槽描述,然后与平均插槽的例子连接字符和单词嵌入嵌入并通过双向LSTM网络,以获得话语中每个单词的最终预测CT[2]:此模型单独填充每个插槽类型的插槽查尔-字符和单词级表示与槽类型表示连接(即,嵌入),并且LSTM网络用于对给定槽类型的话语中的每个单词进行预测。请注意,我们不与简单的基线进行比较,如BiLSTM-CRF[27],LSTM-BoE和CRF-BoE [23],因为它们的表现优于我们之前比较的作品。4.4实现细节我们的模型为POS和NER标签使用300维嵌入,并使用1024维预训练的ELMo嵌入。编码层和上下文化层具有两个双向LSTM的堆叠层,其隐藏状态大小为300。预测层有两个带有ReLU激活的线性层,CRF使用该模型以32的批量大小进行训练,最多200个epoch,使用Adam优化器提前停止,并以预定的学习率(从0开始)进行负对数似然损失。001,该模型使用的辍学率为0。每层3个,以避免过度拟合。而对于负采样,q被设置为35结果在接下来的小节中,我们将对所有竞争模型进行定量和定性分析。我们首先在第5.1小节中给出了定量分析,并表明我们的模型在所有设置中始终优于竞争模型。此外,本小节还进行了消融研究,量化了我们模型中每个概念步骤的作用。在5.2小节的定性分析中,我们深入研究了每种竞争模型的局限性。5.1定量分析对除目标意图/域之外的所有内容进行培训 表2、表3、表4和表5列出了SNIPS、ATIS、MultiWOZ和SGD数据集的F1评分。所有模型都是在所有意图/域上训练的,除了用于零射击测试的目标意图/域。 LEONA方法明显优于SOTA 方法。具体来说,它比SOTA模型高出17。52%,22. 百分之十五,十七。42%,17。SNIPS、ATIS、MultiWOZ和SGD数据集上未看到的意图/域平均分别为95% 我们还提出了我们的模型的一个变体,它不使用第二步中的“IOB“标记,我们称之为LEONA w o IOB。即使是我们模型的这个变体也优于所有其他SOTA模型。相对于SOTA方法的这种性能增益可以归因于预训练的NLP模型,其为看不见的域提供有意义的线索,相似性层可以捕获话语单词与给定槽的接近度,而不管它是看到的还是看不见的,以及上下文化层,其使用所有可用信息来为话语中的每个单词生成丰富的上下文感知表示。与其他数据集相比,LEONA在ATIS数据集上实现了最佳性能(见表3)。 这突出表明,在单个域中跨不同意图的零触发槽填充比跨域相对更容易,因为ATIS数据集由单个域组成,即,航空旅行。相反,SGD数据集是最全面的公共数据集,在20个领域中有46个意图,但我们提出的方法LEONA在它上面的性能(见表5)比SNIPS和MultiWoz数据集更好。这突出了另一个关键点:数据集质量。我们观察到SGD数据集不仅全面,而且对插槽类型具有高质量的语义描述此外,SGD的所有领域都有足够的训练示例,并且注释错误最小(基于对数据集中小规模分层样本的手动研究)。例如,插槽类型为目标意图↓CTRZS教练LEONA,不含IOB莉安娜预订酒店0.45770.37390.58660.61810.6446预订餐厅0.32600.42000.45760.62680.6269订火车0.47770.52690.61120.63170.7025寻找景点0.29140.34890.30290.37870.3834找到酒店0.49330.59200.72350.76730.8222寻找餐厅0.64200.69210.76710.79690.8338寻找出租车0.14590.15870.12600.16820.1824查找列车0.63440.44060.77540.87790.8811别人0.12050.08780.12010.16870.1721平均0.39880.40450.49670.55940.58323286≈≈≈WWWSiddique,Fuad Jamour,Vagelis Hristidis表5:SGD数据集:所有竞争模型在训练中看不到的目标域的Slot F1得分“attraction_name” belong to different domains, but are verysim- 每个槽类型的丰富语义描述使模型更容易将知识从一个领域转移到具有高F1分数的新的未知领域。 LEONA在SNIPS数据集(见表2)上显示出与其他数据集相似的较差性能,特别是对于意图:“RateBook“和“SearchScreeningEvent“。这种糟糕的表现进一步突出了我们之前的观点(即,数据集的质量),因为SNIPS数据集不提供插槽类型的任何文本描述此外,插槽名称(例如,“object_name“和“object_type“)传达的语义信息非常少,这加剧了模型在看不见的领域中表现良好的挑战。最后,MultiWOZ数据集上的结果(见表4)强调,当训练集中存在一些类似的意图/域时,将知识转移到新的看不见的意图/域更容易。例如,我们的模型能够为新的看不见的目标意图“查找酒店“(即, 不在训练中)与其它类似意图(例如,“查找餐馆“和“预订旅馆“)有效地分离。然而,对于在训练集中不具有任何相似域的目标域“FindAttraction“,该模型表现出相对较差的性能。对其他竞争模型也可以进行类似的观察。可见和不可见插槽类型的比较看不见的目标意图/域可以具有看不见的槽类型和看不见的槽类型。在训练过程中,未看到的那些是从未看到过的,而看到的那些可能有不同的上下文。例如,“日期“是常见的槽类型,其可以对应于不同领域中的许多不同上下文,诸如沙龙约会的日期、餐馆预订的日期、往返航班的返回日期等。我们分别评估了竞争模型在不可见和可见插槽类型上的性能,以测试每个模型处理完全不可见插槽类型的能力。 表6进一步详细列出了结果,其中单独报告了不可见和可见插槽类型的结果。LEONA在看不见的和看不见的插槽类型上始终优于其他型号平均而言,LEONA在可见和不可见插槽的SOTA模型上分别显示出18%和17%的F1得分增益。这些收益归功于我们的独立于插槽的IOB预测(它为看到的插槽类型提供了有效的模板)和我们的上下文感知相似性函数(它可以不管时隙类型是不可见的还是可见的)。此外,所有模型在可见时隙上的性能都比在不可见时隙上的性能更好,因为它相对更容易适应新的上下文(即, 在新的域中),而不是在看不见的上下文中的新的看不见的时隙。 我们还注意到,当与[70]中SOTA监督的槽填充方法报告的结果相比时,LEONA在ATIS数据集上对于未看到的目标域中的可见槽实现了类似的性能,即, F1评分为0。九百五十二比零。第959章我们的方法对一定比例的意图/域进行训练,并对其余部分进行测试大型标记训练数据集是加速监督模型进展的重要因素。 为了研究零触发模型是否受到来自
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功