没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文缺少一个词的嵌入查一下传统字典Elena Sofia Ruzzetti(女)Leonardo Ranaldi(男,女)MicheleMastromartei(女)(女)ART Group罗马第二大学企业工程系Viale del Politecnico,1,00133罗马,意大利fabio. lanzotto. uniroma2.it摘要词嵌入是功能强大的词典,可以轻松捕获语言变体。然而,这些词典未能给意义的罕见的话,这是令人惊讶的经常涵盖的传统词典。在本文中,我们建议使用传统词典中检索到的定义来生成稀有词的词嵌入。 为此,我们介绍了两种方法:定义神经 网 络 ( DefiNNet ) 和 定 义 BERT( DefBERT ) 。 在 我 们 的 实 验 中 ,DefiNNet和DefBERT显著优于最先进的方法以及为生成未知词嵌入而设计的基线方法。事实上,DefiNNet的性能明显优于FastText,后者实现了一种基于n-gram的相同任务的方法,而DefBERT的性能明显优于OOV单词的BERT方法。然后,传统词典中的定义有助于建立单词em-Francesca Fallucchi(法)Fabio Massimo Zanzotto(法)Guglielmo Marconi大学Via Plinio 44,00193 Rome,Italyf. unimarconi.it不同的方法可以扫描语料库,并通过在上下文 中 观 察 这 些 新 词 来 推 导 它 们 的 含 义( Harris , 1954;Firth , 1950;Wittgenstein ,1953)。然后将单词表示为向量为神经网络提供信息以产生句子的意义(Bengio et al. ,2003; stecIrsoy and Cardie,2014; Kalchbrenneret al. ,2014; Tai等人,2015)和整个文本的意义(Joulin et al. ,2017; Lai et al. ,2015)。分布式方法有很大的局限性:只能为能够收集到足够上下文的单词分配词义。生僻词没有被覆盖,成为经典的词汇表外词,这可能会阻碍对特定但重要的句子的理解。为了克服这个问题,已经出现 了基于n-gram的分布模型(Joulin et al. ,2016年),其中单词含义是通过组成床上用品罕见的话。1介绍没有意义的话语就像没有针的指南针事实上,无意义的词语在构成上导致无意义的句子,相应地,导致无意义的文本和对话。第二语言学习者可以掌握句子的语法结构,但如果他们不知道这些句子中单个单词的含义,他们可能无法理解整个句子。这就是为什么大量的自然语言处理研究致力于设计捕获单词含义的方法由 于 语 言 是 一 个 活 的身 体 , 分 布 方 法(Turney和Pantel,2010; Mikolov et al. ,2013;Pennington et al. ,2014年)被视为捕获单词含义的灵丹妙药,而不是基于字典的静态模型(Fellbaum,1998年)。分布方法可以很容易地捕获现有单词的新含义,并最终可以很容易地为新出现的单词分配含义。事实上“meaning”语法充当原词素,因此,可以通过组合为现有单词导出的原词素的含义来获得未知单词的含义。这些原语素是词义的基石。传统的词典可以提供一个解决方案,以找到罕见的单词的意义。它们被放在一边,因为它们不能很容易地适应语言进化,也不能很容易地为神经网络提供在本文中,我们建议使用词典中的定义来组合地产生词汇表外(OOV)词的分布表示。词典中的定义是为了向读者描述一个词的含义。然后,我们提出了两个模型来利用定义来推导OOV单词的含义:(1)定义神经网络(DefiNNet),一个简单的神经网络;(2)DefBERT,一个基于预训练BERT的模型。我们尝试了不同的测试和来自Word的数据集arXiv:2109.11763v1 [cs.CL] 2021年9月+v:mala2277获取更多论文图1:利用词汇表外单词的定义:DefiNNet和DefBERT模型。Net.首先,我们确定了DefiNNet和DefBERT是否可以学习神经网络来从定义中获取词义。其次,我们旨在确定DefiNNet和Def- BERT是否可 以 覆 盖 word 2 vec 未 覆 盖 的 OOV 单 词(Mikolov et al. ,2013)或分别由BERT预训练的编码器进行。在我们的实验中,DefiNNet和DefBERT显著优于现有技术以及为生成未知词嵌入而设计的基线方法事实上,DefiNNet明显优于FastText(Joulin et al. ,2016),其实现了用于相同任务的基于n-gram的方法,并且DefBERT显著优于用于OOV单词的BERT方法。然后,传统词典中的定义对于为稀有词构建词嵌入是有用的。2背景和相关工作词汇表外(OOV)单词通常是例如,如果单词不包括在概率上下文无关语法的词典中,则对包含这些单词的句子的解释可能具有零概率。因此,这个问题的解决办法可以追溯到过去。最近,在词嵌入的上下文中,最常见的解决方案是使用词n-gram(Joulin et al. ,2016)或可变长度的词段(Wu et al. ,2016年)作为模型的代理人-phemes。嵌入学习3-grams以及单词片段。 在Joulin et al. (2016)然后将这些3-gram组合以获 得 整 个 单 词 的 嵌 入 。 例 如 , 单 词cheerlessness 包 含 3 个词 素 ( cheer , less 和ness),通过使用c→h e,h→ee,.的嵌入来建模,在3-gram方法中使用e→ss,在词块方法中使用ch→eer和less→ness的嵌入这些嵌入可能捕获有关相关词素的信息。以这种方式,OOV词嵌入与观察到的词的有意义的比特相关。这些模型显然是我们的基线。在对OOV词进行词嵌入的研究中,从词典定义中提取词嵌入是一种新的方法。 字典定义已经在早期尝试中用于训练基本的组成分布语义模型(Zanzotto et al. ,2010),其旨在为两个单词的序列构建嵌入。通 用 句 子 嵌 入 器 ( USES ) ( Conneauetal. ,2018)可以在这种新方法中发挥重要作用。定义实际上是一种描述词义的特殊句子因此,用户实体应该通过在定义中组合词的嵌入来获得表示词的含义的嵌入。此外,从定义中导出词嵌入可以被看作是对通用句子嵌入器的语义压力测试。一般来说,能力--+v:mala2277获取更多论文使用价值(Devlin et al. ,2019; Yang et al. ,2020; Clark等人,2020年)进行语义建模的句子进行了端到端的下游任务测试,例如,自然语言推理(NLI)(江和de Marneffe,2019年a; Raffel等人。,2020; He et al. ,2021),问答(Zhang ,2019)以及对话系 统(Wu etal. ,2020)。BERT(Devlin et al. ,2019年)正在隐藏层中编码语义特征(Jawahar et al. ,2019; Miaschi et al. ,2020)。这解释了为什么这些用户体验擅长在下游任务中对句子的语义进行建模然而,用户在下游任务中的成功可能是由于表面的非线性(如在(McCoy etal. ,2019)对于NLI),而不是语义特征的深度建模。因此,我们的研究可以有助于这一辩论。事实上,据我们所知,这是第一个旨在研究USE是否可以通过从定义开始为单词产生嵌入来建模含义的3模型本节介绍我们使用定义为词汇表外的单词生成嵌入的建议:定义神经网络(DefiNNet)和定义BERT(DefBERT)。第3.1节描述了基本思想。第3.2节描述了前馈神经网络DefiNNet的定义最后,3.3节描述了我们如何使用通用语句嵌入器BERT来生成定义的嵌入。3.1基本思想我们的模型源于一个观察:当一些人在阅读时进入一个罕见的未知单词时,传统词典中的定义是用来理解这个罕见的,超出个人词典的单词的含义的然后,当人们依靠字典来理解未知单词的含义时,单词嵌入的学习者也可以这样做。事实上,词典中的定义被认为是从组成上定义目标词的含义。因此,这些是自然的候选人,ten被组织为一个特定的句子,该句子包含w的超类型和一个修饰语,该修饰语专门化该超类型。例如(图1),不愉快被定义为一种感觉,这是超类型,沉闷和悲观的悲伤,这是修饰语。通过使用这种结构,我们提出了一个更简单的模型组成的意义。在下面的部分中,我们提出了两个模型:(1)DefiNNet,一个利用定义结构来关注相关词的模型;(2)DefBERT是一种利用BERT作为单一句子嵌入器将定义嵌入到单个向量中的模型。3.2DefiNNet:一个从定义中学习单词嵌入的前馈神经网络定义神经网络(DefiNNet)是我们的第一个模型,有两个主要组件(见图1)。第一个组件DefAnalyzer的目的是找出定义中的两个重要词:超类型wh和超类型的修饰语的主要词wm第二个组件DeNN是一个前馈神经网络,它将两个所选单词的嵌入w→h和w→m作为输入,并产生目标w→def的嵌入。为了从给定的定义中提取两个主要的词,DefAnalyzer通过使用它们的句法解释来利用定义的递归在我们的研究中,我们使用选区分析树和相关规则来提取超类型wh和它的最接近的修饰语wm。基本上,简单的算法如下。给定一个定义,解析定义并选择主要组成部分。如果主成分包含一个语义中心词和一个修饰语,那么这两个词就是目标词。在另一种情况下,选择主成分的语义中心作为超类型wh,选择第一个次成分的语义中心作为相关修饰语wm。例如,图1中无cherlessness定义的解析树如下:NPNP PPDTNN通过组合所述定义中的词的词嵌入来导出OOV词的词嵌入。直觉是,通用句子嵌入器可以用于此目的。一感觉在JJ沉闷ADJPCC或NPJJ悲观NN悲伤此外,这些定义都具有递归结构,完全可以用来导出更简单的模型。词语w的定义如下-在这种情况下,主要成分是第一个NP:选择的wh是第一个NP的语义中心词feeling;wm是名词sadness,+v:mala2277获取更多论文联系我们PP的语义中心。语义头是根据Collins,2003定义的语义头的稍微修改的版本计算的。第二个组件是DeNN,给定来自W ord2 V ec嵌入空间的词嵌入w→h和w→m,分别用于来自定义的wh和wm,它们的POS标签posh、posm和目标的 POS 标 签 pos c 作 为 附 加 信 息 , 输 出 用 于 目 标 词 w c 的 嵌 入 w →c。DefiNNet的输入如图所示。1.一、DeNN的一般方程为:w→c=DeNN(w→h,w→m,posh,posm,posc)DeNN函数可以从三个更简单的步骤开始描述:(1)FFw处理w阶嵌入w→h和w→m;(2)FFp嵌入并处理posh、posm和posc;最后,(3)FF处理来自先前的联合信息。为了进行比较,我们定义了两个额外的基线模 型 : 上 位 词 模 型 ( Head ) 和 加 法 模 型(Additive)(Mitchell and Lapata,2008)。Head模型通过使用WordNet中其上位词h的嵌入来推导OOV词c的嵌入,即w→c=w→h。 Additive模型将DefiNNet使用的定义中的两个单词的嵌入相加,即w→c=w→h+w→m。3.3DefBERT:在词嵌入中转换定义DefBERT的目标是利用BERT处 理 句 子 的 能 力 , 以 便 直接 使 用w c的 定 义 , 从 而 产 生 其 嵌 入w → c。DefBER T[CLS]和DefBER THead是利用该定义所遵循的方法步描述子网FFw的等式,DefBERT[CLS] 是第一种方法作为输入w→h和w→m的情况如下:→s=FFw(w→h,w→m)=σ(Whw→h+Wmw→m)(1)其中Wh和Wm是致密层,σ是LeakyReLU激活函数。子 网 FFp 处 理 POS 标 签 : posh 、 posm 、posc。每一个位置i为ih、m、c首先被馈送到嵌入层,其权重从头开始学习。然后将所得的嵌入层(posi)馈送到致密层Wi中。因此在这种情况下,wc的定义在预训练的Bert基模型的输入中给出,如图所示,在图1中,→b[CLS],[CLS]的嵌入在BERT的USE词义DefBERT Head是第二种方法,在这种情况下选择→bhead d,这是定义中w → h的实际表现。由于BER T出于比较的目的,我们也-对于每个i∈ {h,m,c},FFp的输出为:精细BERT伯特。伯特文字片段头部-示例p→i=FFp(posh,posm,posc)[i]=Wi(posi)(二更)因此,从等式1得到的→s和从等式2得到的p→h、p→m、p→c被级联(n):→h=→sp→hp→mp→c作为最后的步骤→h被馈送到由密集层W1、W2和W3组成的馈送-供子网FF中,如下所示:FF(→h)=W3σ(W2(σ(W1→h)(3)因此,以下是:wordpieces用于查看我们的模型在遇到OOV单词时是否优于BERT的经典行为。因此,BERT wordspieces复制了这种经典行为。在这种情况下,BERT被馈送包含目标OOV 词 的 例 句 , 例 如 “. 目 标OOV“cheerlessness” 的 颜 色 从 “melan-choly” 到 “pastel cheerlessness” ( 参 见 图1)。然后,这个词被分成几个部分。为了获得目标词的嵌入,我们对这些词片段的向量求和 BERT Head-使用示例来确定定义是否真的对中心词的建模有用。BERTHead-示例类似于DefBERTHeadw→c=FF(FFw(w→h,w→m),FFp(posh,posm,posc))+v:mala2277获取更多论文描 述 了 howDeNN 计 算 嵌 入 w→c , 用 于 从DefAnalyzer 和 posc 中 作 为 输 入 w→h , w→m ,posh,posm的OOV命令。但输入是不同的。BERT头-示例有一个包含中心词的随机句子因此,比较DefBERTHead和BERTHead−Example , 可 以直观地看出定义中的Head是否真的吸收了它的意义。+v:mala2277获取更多论文4实验实验要研究三个问题:(1)使用DefiNNet获得的词嵌入是否比基线合成函数更好,以获得嵌入以及使用未经训练的BERT版本获得的嵌入;(2)WordNet上的相似性度量是否与词嵌入的空间相关;(3)最后,从与WordNet上的相似性度量的相关性来看,获得的词汇外词的词嵌入是否显然,问题(2)对于研究问题(3)是必要的,我们花时间分析问题(2),因为WordNet度量和词嵌入之间的相关性是一个 高 度 争 论 的 问 题 ( Lastra-Díaz et al. ,2019)。本节的其余部分组织如下。第4.1节介绍了我们实验的一般设置。第4.2节介绍了结果,分为三个小节,分别处理上述三个问题。如果需要,这些小节介绍了实验的其他设置。4.1实验装置我 们 的 实 验 主 要 围 绕 WordNet 定 义(Fellbaum,1998)。WordNet是单词定义的来 源 , 这 是 DefiNNet 和 DefBERT 所 需 要WordNet用于收集相似和不相似词的词对测试集。最后,WordNet上的相似性度量用于根据词之间的相似性对对进行排名。 后一种排名用于以查看利用针对OOV词的DefiNNet和DefBERT的词嵌入导出的相似性是否在我们的研究中,在词汇(IV)和OOV词( IVw2v ,OOVw2 v ,第 四 章 BERT和OOVBERT)根据预先训练的词嵌入矩阵Ww 2v和WBERT来定义 。 Ww2V 是 Word2Vec 的 嵌 入 空 间(Mikolov et al. ,2013)在Google News数据集(大约1000亿个单词)的一部分上预训练,WBERT是BERT的单词嵌入空间(Devlinet al. ,2019年)在BooksCorpus(8亿字)(Zhu et al. ,2015)和英语维基百科(2,500M单词),如Devlin et al. .然后,IVw2 v和IVBERT字是WordNet中在目标嵌入矩阵中的字,并且OOVw2 v和OOVBERT是WordNet中不在目标嵌入矩阵中的- 是的这些OOV单词很有趣,因为原则上,它们的含义在WordNet中是已知的,但它们的 嵌 入 不 可 用 。 然 后 , DefiNNet 以 及DefBERT肯定可以使用。在选择IVBERT和OOVBERT时,有一个额外的限制:为了应用DefBERT,需要使用示例。然后,IVBERT和OOVBERT是在WordNet中有使用示例的单词我们准备了两组不同的数据集,用于直接和间接调查DefiNNet和DefBERT。在直接调查中,DefiNNet和Def- BERT进行了测试,以验证他们的能力,产生向量的IV字。比较了两种方法在词的嵌入和利用它们的定义产生的嵌入之间余弦相似度的分布(均值和标准差)。然后我们选择:1)用33404个单词训练v2 w,用8336个单词测试v2 w作为IVw2 v的子集; 2)用3218个单词测试BERT作 为 IVBERT 的 子 集 .Trainv2 w 也 用 于 训 练DefiNNet。在间接调查中,DefiNNet和Def- BERT被测试以评估它们产生OOV的嵌入的能力,所述嵌入可以在成对的词之间复制一些相似性度量我们选择了三个定义在WordNet上的相似性度量:路径(Rada et al. ,1989)、wup(Wu和Palmer,1994)和res(Resnik,1995)。然后 , 我 们 收 集 了 两 组 成 对 的 词 对 Pairsw2v 和PairsBERT. 词对(w1,w2)在对w2 v的选择如下:(1)w1在OOV中w2 v;(2)w2在IV中w2 v要么在50%的情况下是w1对BERT中的词对(w1,w2)类似地获得。Pairsw2v包含大约4,500个单词对,PairsBERT包含3500个单词对.为了正确地应用斯皮尔曼 Pairsw2v BERBERT 包含分成60个列表的450对列表中的对被选择为在两个单词之 间 具 有 7 个 明 显 不 同 的 所 选 相 似 度 值(path、wup和res最后的斯皮尔曼这里定义的最后一个数据集用于研究本节开头提到的第二个问题:有必要确定是否意味着+v:mala2277获取更多论文±±±±±±◦ † ‡⬦WordNet上的sures与单词嵌入的空间相关所研 究 的 词 嵌 入 是 Word2Vec 、 FastText 、BERT 。 与 IVw 2 v 和 IVBERT 类 似 , IVfasttext 是WordNet中位于FastText的Wfasttext目标嵌入矩阵中的一组单词。 PairsIVw2 v、PairsIVBERT和PairsIVfasttext是构建的数据集,它们中的每一个都由来自给定IV的单词对(w1,w2)组成,其中w2在50%的情况下是w 1的随机姐妹词,或者在其他50%的情况下是随机词。这个定义遵循了在反对Pairsw2v和PairsBERT时使用的相同方法. 对IVw2v,对IVBERT和一种悲伤的感觉奈斯对于不同的方法,比较是在它们自己的空间上进行的,即,对于DefiNNet是si m(w→c,w→def),对于DefBERT[CLS]和DefBERTHead分别是si m(→bc,→b[CL S])或si m(→bc,→bhead d),(见图1)。通过使用Testw2v对两个空间的词汇内词进行实验,测试BERT和测试w2vBUSINESS BERT 数据集。第四对fastText分别包含约14,000,560和14,000双。然后将这些划分为7对较小的列表,其中计算斯皮尔曼为了比较研究我们的DefiNNet和DefBERT,我 们 使 用 了 FastText ( Bojanowski et al. ,2016),如在Grave et al. (2018年),以及:(1)第3.2节中定义的加法和Head;(2)BERT字段和 BERT头-示例 定义见3.3节。FastText通过组合3- grams的嵌入来定义未知词c的嵌入,例如,OOV词cheerlessness的嵌入表示为向量f→c=c→he+h→ee+. +e→ss。作 为 最 后 的 实 验 设 置 , 使 用 Stanford 的CoreNLP概率上下文无关语法解析器(Manningetal. ,2014)。NLTK(Loper and Bird,2002)用于访问WordNet并计算其相似性度量。4.2结果和讨论为了清楚起见,本节围绕我们旨在研究的三个问题进行组织:所提出的方法从字典定义开 始 构 建 单 词 嵌 入 的 能 力 ( 第 二 节 ) 。4.2.1);词嵌入的相似性和WordNet中的相似性之间的争论关系(第4.2.1节)。4.2.2);最后,所提出的方法产生OOV词嵌入的能力(第4.2.2节)。4.2.3)。4.2.1从词典定义看词的嵌入要研究的第一个问题是,我们的方法是否从字典定义中产生了在尊重方面相似的词嵌入。直接发现的词嵌入。 然后,我们研究了两种嵌入之间的余弦相似性,例如,在嵌入不愉快和嵌入之间,表1:词嵌入和其定义的嵌入之间的余弦相似性。标记符号* ,和表示模型结果对根据单侧Wilcoxon符号秩检验,较高结果在统计学上显著优于另一结果(95%置信水平)定义似乎是词嵌入的更好来源,而不是基线方法和其他解决方案。事实上,DefiNNet和DefBERT Head在各自的名词和动词测试中都优于不同的方法(见表1)。对于名词,DefiNNet 的平均余弦相似度为0。 46(0.14),这远远高于加法(0。28(16))和头(0. 27(20))。在相同的语法类别中,DefBERT Head优于BERT Head- 例 如,0。46(0. 13)vs. 0. 41(0. 12)。对于动词,DefiNNet的平均余弦相似度为0。48(0.13),这是远远高于添加剂和头部。在同一 类 别 中 , DefBERTHead 略 优 于 BERTHead−Example。最后,在常见的测试中,也就是Testw2v WEBERT,基于定义的模型优于简单的模型.DefBERTHead对名词有更好的相似性,DefiNNet对动词有对于BERT来说,与标记[CLS]相关的嵌入似乎并不代表好的标记,在那里根据组成词 的 含 义 的 真 实 组 成 来 获 取 句 子 的 语 义DefBERT [CLS]相对于DefBERT Head和BERTHead-Example在TestBERT的两个语法类别中表现不佳(见表1)。这一点在限制集Testw2vBAUBERT中得到了证实。因此即使数据集模型名词SIM动词SIM测试w2v添加剂头DefiNNet0。28(±0.16)0。27(±0.20)0。46(±0.14)电子邮件0。30(±0.19)0。30(±0.(26)0。48(±0.13)电子邮件测试BERT[CLS]BERT头-示例0。46(±0.13)0。32(±0.08)†0。41(±0.12)0。41(±0.14)0。30(±0.09)†0。39(±0.12)+v:mala2277获取更多论文±如果在标记[CLS]中的嵌入经常被用作用于分类目的的通用句子嵌入(Devlin et al. ,2019;Adhikari et al. , 2019;Jiang 和 de Marneffe ,2019 b),它可能不包含包装的含义,而它可能包含有关句子的其他类型的信息。4.2.2词嵌入空间和WordNetWordNet及其然而,WordNet中的相似性是否与词嵌入的相似性相关是一个有争议的问题(Lastra-Díaz et al. ,2019)。本节有两个目的。首先,它的目的是调查,如果这种关系可以建立在我们正在使用的词嵌入空间。其次,它的目的是验证和选择合理的相似性措施在WordNet上,然后可以用来调查的OOV词的嵌入行为。对于两个实验会话,我们使用了第4.1节中定义的数据集PairsIVw2v,PairsIVBERT和PairsIVfasttext。模型数据集类别AUC值Word2Vec配对IV w2v动词名词0。640。79fastTextPairsIV fasttext动词名词0。630。82伯特对IV BERT动词名词0。730。68表2:姐妹词分类的AUC值对于第一个目标,我们研究了在特定的词嵌入空间上导出的相似性是否可以用于在相应的对集合中划分正对和负对然后,给定一个词嵌入空间,我们根据计算的相似性对配对进行排名,并计算基于灵敏度和特异性的ROC下的面积。结果表明,“being siblings”与三个词嵌入空间w2v、BERT和fasttext之间存在相关性(表2)。所有AROC远高于0.5的阈值,接近或高于0.7的值,这表示良好的相关性。对于第二个目标,我们研究了WordNet相似性度量,以便找到有趣的度量来实验我们的面向定义的方法。事实上,在WordNet中,作为或不作为兄弟的二元任务可能无法捕获模型数据集测量SpearmanWord2Vec配对IV w2v路径武普水库0。25(±0.(第三十九条)0。25(±0.(第三十八条)0。50(±0.(第三十一条)fastTextPairsIV fasttext路径武普水库0。31(±0.(第三十八条)0。40(±0.(第三十五条)0。52(±0.(第二十九条)伯特对IV BERT路径武普水库0。08(±0.(第40段)0。29(±0.(第三十九条)0。28(±0.(第三十八条)表3:平均斯皮尔曼系数测量嵌入之间的余弦相似性和WordNet分类像词嵌入一样捕捉相似性的细微差别兄弟词可能非常相似或不太相似。例如,cheerlessness和depression(见图1)是兄弟词,并且肯定是相似的。相反,house和archi- tecture是兄弟词,但与前一对词不太相似。在WordNet中,这种相似性的差异是通过使用许多不同的度量来捕获的。我们研究了三种不同的WordNet相似性度量:路径(Rada et al. ,1989)、wup(Wu和Palmer,1994)和res(Resnik,1995)。度量路径使用连接WordNet分类上两个同义词集的路径长度。度量wup仍然基于与两个词相关的同义词集之间的路径长度,并考虑了从同义词集到其最小公共包含者(LCS)的边的数量以及从LCS到分类法的根的链接的数量。最后,由于该度量是基于信息内容的,因此它属于另一类度量。在res中,相关词的同义词之间的相似性是其LCS的信息内容的函数。在这种情况下,一个信息量更大的LCS(一个罕见的特定概念)表明下义词概念更相似。最好的相关WordNet度量是res。事实上,它与 三 个 空 间 中 的 两 个 空 间 高 度 相 关 ,Word2Vec和FastText,并且它与BERT空间中的wup相当(参见3)。Word2Vec和res的词嵌入空间之间的平均Spearman相关性为0。50(0.31),这是远远高于路径和wup。对于相关性+v:mala2277获取更多论文为0的空间FastText,也会发生相同的情况。52(±0. 29)。作为最后一个考虑因素,对于我们的目的,单词嵌入空间是相关的,最好的方法是+v:mala2277获取更多论文◦ · † ‡ Δ⬦±±±±数据集模型Corr(路径)校正(wup)Corr(res)对w2v添加头FastTextDefiNNet0。43(±0.(第三十三条)0。41(±0.(第三十四条)0。29(±0.(第三十七条)0。30(±0.(第三十四条)0。54(±0.(第二十九条)0。57(±0.(第三十三条)0。42(±0.36)o0。56(±0.30)o0。45(±0.33)0。48(±0.(36)0。34(±0.37)o0。51(±0.31)巴西配对BERTDefBERT主管DefBERT[CLS]BERT Head-示例BERT文字片段0。27(±0.36)·0。26(±0.(第三十六条)0。15(±0.41)0。09(±0.(37)0。33(±0.37)·0。17(±0.37)†0。25(±0.38)0。19(±0.(37)0。30(±0.36)·0。11(±0.39)†0。19(±0.40)0。23(±0.(38)Pairsw2vBERBERTDefBERTHeadDefiNNetFastTextBERT词块0。33(±0.32)Δ·0。42(±0.31)Δ0。38(±0.(第三十八条)0。02(±0.(41)0。27(±0.37)Δ·0。44(±0.32)Δ0。37(±0.(第三十四条)0。10(±0.(39)0。23(±0.39)Δ·0。39(±0.34)Δo0。30(±0.35)o0。15(±0.(39)表4:间接调查的平均斯皮尔曼系数。 标记符号*, 、 、、和表示根据单侧Wilcoxon符号秩检验,较高结果在统计学上显著优于另一结果(95%置信水平)的模型结果对。确保捕获此相关性的是res。4.2.3测试词汇表外的单词最终的分析是在Word2Vec 和 BERT 的 真 实 OOV 单 词 上 进 行的。这些最后的实验通过考虑正相关关系来进行WordNet相似性度量和单词嵌入空间之间的关系。使用定义派生词嵌入OOV的话似乎是一个很好的解决方案,可供选择的方法。在其空间中,DefiNNet在与两个WordNet相似性度量wup和res的相关性方面取得了非常重要的结果(见表4)。在这两种情况下,它都 优 于 FastText , FastText 是 一 种 用 于 导 出OOV 单 词的 单 词 嵌入 的 标准 方 法( 0。 510。三十一比零。340。37因为res和0。560。30vs.0。420。36为wup)。此外,DefiNNet优于Head(一种基于WordNet的基线方法)和Additive(使用WordNet定义的最简单模型)。DefBERTHead在其空间中也会发生同样的情况(见表4)。 DefBERTHead显著优于BERT字段,表明DefBERTHead相对于BERT中已经包含的模型是处理OOV的更好模型。DefBERT头的结果证实,与代表头的标记相关的输出比与标记[CLS]相关的输出携带更好的信息。此外,定义对形成中心词向被定义词的词嵌入具有积极作用。事实上,DefBERTHead和+v:mala2277获取更多论文BERTHead−Example应用于同一中心词,并且DefBERTHead 比 BERTHead−Example 更 好 地 转换含义,其应用于包含中心词的随机句子。事实上,同样对于BERT,定义在确定OOV词的嵌入中是重要的。最后的比较是在DefiNNet和DefBERTHead之间进行的,并且是在小型数据集Pairsw2nBELBERT 上 进 行 的 。 DefiNNet 在 所 有 三 个WordNet指标上都优于DefBERTHead(见表4)。这些结果表明,越简单的是更好地使用定义的OOV词。5结论与未来工作在基于神经网络的自然语言处理系统中,为罕见的词汇外单词构建单词嵌入是必不可少的。本文提出用字典中的定义来解决这一问题。我们的研究结果表明,这可以是一个可行的解决方案,检索词嵌入的OOV罕见的话,比现有的方法和基线系统的工作此外,在词嵌入中使用字典定义也可能打开另一条可能的研究路线:通用句子嵌入器(USE)的不同语义探测器。事实上,定义在句子和单词之间提供了一种非常有趣的等价关系。因此,与前语义探测器不同,这种方法可以揭示,如果用户实体真的在组成上改变句子的含义,或者只是在一个单一的表示中聚合+v:mala2277获取更多论文引用Ashutosh Adhikari,Achyudh Ram,Raphael Tang和Jimmy Lin 。 2019. Docbert: 用 于 文 件 分 类 的Bert。约瑟芬·本吉奥,让·杜夏姆,帕斯卡·文森特,克里斯蒂安·简文。2003.神经概率语言模型。J·马赫。学习. Res. ,3(null):1137-1155.PiotrBojanowski , EdouardGrave , ArmandJoulin,and Tomas Mikolov. 2016.用子词信息丰富词向量。arXiv预印本arXiv:1607.04606。Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020. 预训练文本编码器作为鉴别器而不是生成器.在ICLR。迈克尔·柯林斯2003. 用于自然语言分析的中心词驱动统计模型。计算语言学,29(4):589Alexis Conneau 、 German Kruszewski 、 GuillaumeLample、Loic Barrault和Marco Baroni。2018. 你可以塞进一个$&!#* vector:探测句子嵌入的语言属性。ACL 2018 -第56届计算语言学协会年会,会议论文集(长文),1:2126Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。克里斯蒂安·费尔鲍姆1998. WordNet:一个电子词汇数据库。布拉德福德图书。J. R.弗斯1950. 社会中的人格与语言。社会学评论,a42(1):37Edouard Grave,Piotr Bojanowski,Prakhar Gupta,Armand Joulin ,and Tomas Mikolov. 2018.学习157种语言的单词向量。 法律程序中 语言资源与评估国际会议(LREC2018)采利希 S. 哈里斯一九五四年分布结构。WORD/i>,10(2-3):146Pengcheng He,Xiaodong Liu,Jianfeng Gao,andWeizhu Chen. 2021. Deberta:解码增强的bert,注意力。OsteczanIrsoy和Claire Cardie。2014. 使用深度递归神经网络进行意见挖掘。在2014年自然语言处理经验方法会议(EMNLP)中,第720计算语言学协会。Ganesh Jawahar,,Benoquet Sagot,,and DjaméSeddah. 2019. BERT从语言结构中学到了什么?在计算语言学协会会议记录中,第3651-3657页。计算语言学协会(ACL)。江南江和玛丽-凯瑟琳·德·马内夫。2019年a。评估BERT的自然语言推理:对CommitmentBank的案例研究。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中,第6086- 6091页,中国香港。计算语言学协会。江南江和玛丽-凯瑟琳·德·马内夫。2019年b. 评估BERT的自然语言推理:对CommitmentBank的案例研究。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中,第6086- 6091页,中国香港。计算语言学协会。阿曼德·朱林,爱德华·格雷
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入理解23种设计模式
- 制作与调试:声控开关电路详解
- 腾讯2008年软件开发笔试题解析
- WebService开发指南:从入门到精通
- 栈数据结构实现的密码设置算法
- 提升逻辑与英语能力:揭秘IBM笔试核心词汇及题型
- SOPC技术探索:理论与实践
- 计算图中节点介数中心性的函数
- 电子元器件详解:电阻、电容、电感与传感器
- MIT经典:统计自然语言处理基础
- CMD命令大全详解与实用指南
- 数据结构复习重点:逻辑结构与存储结构
- ACM算法必读书籍推荐:权威指南与实战解析
- Ubuntu命令行与终端:从Shell到rxvt-unicode
- 深入理解VC_MFC编程:窗口、类、消息处理与绘图
- AT89S52单片机实现的温湿度智能检测与控制系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功