无监督词义消歧方法在维基百科语料库中的探索及其在Senseval和SemEval数据集上的实验分析

181 浏览量更新于2024-01-17 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种无监督的词义消歧Nazreena Rahmana，Bhogeswar Borahba计算机科学与工程系，Assam Kaziranga University，Jorhat，Assam 785006，印度bTezpur大学计算机科学与工程系，Sonitpur，Assam 784028，印度阿提奇莱因福奥文章历史记录：2021年2月26日收到2021年7月6日修订2021年7月29日接受在线预订2021年保留字：词义消歧（WSD）WordNet词典维基百科语料库基于知识的无监督和监督系统Senseval和SemEval数据集A B S T R A C T词义消歧（WSD）是根据上下文找到一个词的实际含义本文提出了一种新的词义消歧方法，以找到一个词在句子中的正确意义。该方法同时使用WordNet词典和维基百科语料库。首先，我们使用WordNet找到目标词的所有可能的对于在某种意义上存在的每个词，我们计算与句子中其他词的搭配提取分数。搭配提取分数发现两个单词在维基百科语料库中一起出现的概率。最大搭配提取分数为句子的上下文分配适当的意义。我们的方法不仅限于由两个连续的单词组成的二元语法。我们的方法可以找到一个句子中有两个词在一起的概率，当其他词将这两个词分开时。为了将我们的WSD方法与当前基于知识的无监督和有监督系统进行比较，我们使用不同的Senseval和SemEval数据集对英语单词进行WSD最后，实验分析illusts-awesome的意义，所提出的方法在许多基线和当前的系统。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍歧义消除是自然语言处理和本体论中的一个新兴问题。在计算语言学中，大多数语言都是多义的。单词bank被认为是一个模棱两可的词，因为它在句子的上下文中有不同的含义例如，在“我坐在河岸上”中，河岸说的在“我去银行转账”中，银行代表金融机构。我们可以通过直接参照句子中出现的其他实词来预测一个词的意义。就计算机程序而言，找出一个词的确切意义更具挑战性找到一个多义词的准确意义的过程被称为WSD。词义消歧是文本分析、信息检索、文本挖掘、语音识别等领域的重要组成部分*通讯作者。电子邮件地址：nazreena. gmail.com ，nilufarnew@gmail.com（N.Rahman）。沙特国王大学负责同行审查制作和主办：Elsevier词义消歧技术适用于解决许多自然语言处理任务，如文本摘要、问答、信息检索和文本分类。为了发现两个句子之间的语义相关性，所提出的技术可以应用于获得精确的语义相似性或相关性分数。语义相似度或相关度分数使用WordNet计算。1.1. Wordnet简介与传统的词典不同，WordNetMiller，1995是一个按语义组织实词的词法数据库。实词包括名词、动词、副词和形容词。词-网关系在文本分析和人工智能中有着广泛的应用.这个词汇数据库是由普林斯顿大学认知科学实验室创建的，用于英语语言。这个更丰富的结构它们的意思相同。例如，motorcar有一个synsetcar。在WordNet中，概念由词、词的词性和词的义数来表示。例如：对于单词 bank ，概念是bank#n#1。意思是银行这个词在这里是个名词，它有第一个意义。WordNet中的概念以层次结构链接在一起。在词汇网络中，不同的同义词通过不同的语义关系联系在一起. 在英语中，大多数单词都有不止一个https://doi.org/10.1016/j.jksuci.2021.07.0221319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. Rahman和B. 博拉沙特国王大学学报6644感官。如果一个词有不止一个同义词，那么这个词就是一个多义词。例如，银行有时用来表示金融机构或可用于倾斜土地。同义词集中的每一个内容词都有其注释或定义。事实上，在WordNet中，最大内容词有不止一个意义定义。通常，在WordNet数据库的帮助下，我们发现两个实词之间的语义相似性或相关性。在这里，相似性和相关性两者是明显分开的。如果两个词是同义词，或者在相同的上下文中可以相互替换，那么这两个词被称为相似词。两个词之间的相关性度量给出了一个更大的关系集合（同义词、上位词、近义词、反义词等）。两个字之间。例如，汽车和汽油在语义上更相关，而汽车和汽车两者都相似。词的相关性比相似性包含更广泛的关系（Martin和Jurafsky，2009）。WordNet数据库中存在不同类型的关系表1显示了与其含义的不同语义关系。1.2. 维基百科语料库简介此外，近年来，基于语料库的词义消歧技术也相当流行。它使用专门来自大型语料库的信息来发现词之间的相似性。结合基于知识和基于语料库的词义消歧方法有助于提高词义消歧的性能。我们提出了一种WSD方法，其中维基百科语料库是用来消除一个词的歧义。自然语言处理任务需要的是一个语料库。本维基百科语料库包含维基百科的全文数据它由440多万篇文章中的19亿字组成这个语料库允许我们以更强大的方式搜索我们使用此数据集来查找搭配评分，因为维基百科是组织良好的文本数据的丰富来源。它也是一个知识的大集合我们已经从这组英语文章中建立了它是免费提供的。我们使用Gensim库来建立语料库。首先，我们使用WordNet找到所有可能的意义，然后计算两个词在维基百科中一起出现的概率。我们使用基于搭配的特征来发现相同的词的意义。搭配是指两个词在语料库中一起出现或使用的概率。这些词经常放在一起。查询和输入文本句子的词的确切意义将进一步用于找到语义相关性得分。准确的词义将有助于提取有意义的查询相关的句子，基于查询的文本摘要。1.3. 贡献本文的主要贡献如下：（1）提出了一种词义消歧方法，用于确定词义。这种方法并不局限于仅由表1WordNet中的语义关系连续两个字。词的意义有助于获得完整句子的准确含义（2）提出的WSD方法有助于准确地度量两个词之间和两个句子之间的关联据我们所知，插入正确的意义是不直接纳入，而寻找语义相关性得分。2. 现有的消歧工作近年来，基于语料库的词义消歧技术得到了广泛的应用。人类具有文本语料库的经验。在这种方法中，我们需要用标签来标记每个单词。这种手动创建的意义标记文本用于词义消歧。这个标签给出了最适合这个句子的词的定义。这是一种监督方法。这个意义标记的文本作为一个训练集，可以用来消除歧义的未知词的意义。这种方法的主要缺点是创建意义标记的文本（Banerjee和Pedersen，2002）。不同的公知和流行的监督和基于知识的技术被实现以消除词义的在这里，我们已经提到了一些流行的监督WSD技术：决策树算法被许多研究人员广泛使用（Singh等人，2014），其中决策树用于表示树结构中的分类规则，其中训练数据集被递归地划分。每个叶子节点表示一个词的意义。Pederson（Pedersen，2001）使用了一种基于语料库的方法，其中一个歧义词的意义是由一个决策树基于附近出现的二元语法来分配的。O'Hara等人提出了另一种监督方法（O'Hara等人， 2004），其中基于类的搭配用于词义消歧。三种不同的词相关性得分用于搭配：第一种是WordNet上位词关系;第二种是基于聚类的词相似性类;第三种是词典定义分析。另一种监督方法由Popov（Popov，2017）提出，其中使用了递归神经网络。该模型基于LSTM细胞。LSTM是Long Short Term Memory的缩写这个LSTM有助于捕获单词顺序信息，并添加分布式单词表示（嵌入）作为特征。另一种基于LSTM的半监督词义消歧方法由Yuan et al.（2016）提出。此外，Le等人（2018）完成了该方法的再现研究结果。他们对各种因素对其性能的影响作了较深入的研究一些有趣的发现派生。首先，不需要非常大的未注释数据集来获得最先进的WSD性能，因为他们使用了Gigaword语料库。还观察到，与其他技术相比，这种方法具有更平衡的意义分配这是由相对较好的性能较低的频繁感的情况下。此外，还确定了注释数据集中有限的意义覆盖率支持向量机（SVM）（Zhong和Ng，2010）分类器被用在有意义（IMS）词义消歧（WSD）系统中。不同的功能，如：周围的话，PoS标签的sur-关系名含义示例取整单词和局部搭配。作品中（Taghipour和Ng，2015; Rothe和Schütze，2015;Iacobacci同义词：相同或几乎相同的汽车一个意义是其他汽车和车辆的子类上位词：一个意义是上位类车辆和汽车另一部分关系：部分与整体的关系腿是椅子的一部分整体关系：整体到部分的关系身体和手做某事的方式漫步和散步蕴涵：反义词：上下意义相反的感觉例如，2016），使用词嵌入。Iacobacci等人提出了不同的方法，2016），其中单词嵌入用于当前的监督WSD系统。他们深入分析了不同的参数如何影响水务署系统的性能。这里，考虑两个最佳配置，一个具有环绕字（IMS + emb），另一个没有环绕字（IMS_s+emb）。在这两种方法中，它们通过使用指数衰减来集成单词嵌入。为了训练单词嵌入，Iacobacci等人建议的学习策略和N. Rahman和B. 博拉沙特国王大学学报6645使用超参数（Raganato等人，2017年）。如今，基于神经语言的模型被广泛用于 WSD 任务（ Melamud 等人， 2016; Kågebäck andSalomonsson，2016; Yuan例如，2016年）。实验使用双向LSTM（Melamudet al.，2016）模型。这个context2vec神经模型学习了一个通用的嵌入函数，用于目标词的可变长度上下文。基于知识的系统包括以下三种词义消歧模型：Lesk是一种简单的基于知识的词义消歧算法（Lesk，1986），该算法利用目标词的上下文信息来查找词义的定义之间的相似词为了比较的目的，使用了扩展版本的Lesk算法，其中还包括相关意义的定义。这里，对于单词加权，使用传统的词频逆文档频率（Jones，1972; Banerjee和Pedersen，2003）。为了更好的分析，在Lesk的增强版中增加了词嵌入，这有助于计算定义和对比之间的相似度。最高的语义相似度得分。使用WordNet词汇词典，我们得到了表2中列出的不同度量的以下语义相关性分数。表2显示，默认情况下，几乎所有的语义相关性度量都采用银行的第一种意义，因为它对河流给出了最大分数。表3提供了字库的不同含义。对于单词river，在WordNet中只有一个名词意义。表4显示了银行#n#1、银行#n#2、银行#n#3和河流#n#1的跟踪定义。跟踪定义说明了表2“银行”和“河流”之间的相关性/相似性得分不同的语义相关性/相似性度量评分目标词的文本（ Basile 等人， 2014 年）。 Agirre 等人（ Agirre 和Soroa，2009）提出了一种基于图的WSD系统，其中在WordNet语义网络（Agirre）例如，2014年）。在他们的方法中，使用了个性化的页面排名算法（Haveliwala，2002）。Babelfy是一种基于图的WSD方法，其中使用随机游走来查找同义词集之间的连接使用vector_pairs的bank#n#1和river#n#1的相关性李等人，2009使用向量的银行#n#3和河流#n#1的相关性Li等人， 2009利用hso Hirst等人的研究， 1998使用自适应的0.03530.1958016脓本章的主要贡献是，所提出的方法适用于寻找两个感测编号意义句子，因为它消除了句子的单词3. 意义在寻找语义相关性度量中的重要性基于查询的文本摘要器从输入文本句子中提取语义上与查询相关的句子在大多数情况下，使用Word-Net来计算两个词之间的语义相关度得分，现有的方法是使用所有的意义来计算得分并给出最大得分。在WordNet中，一个词有很多含义。实词的词性不同，词义也不同。感官是一种解释或定义。注释意味着字典式的定义。一个实词如果有一个以上的一个实义词可以包含同一词性的不同意义。例如：我们举两个句子：（1）Ram去银行存钱，（2）Ram去布拉马普特拉河的岸边。在这里，我们找到两个句子的内容词之间的语义相关性得分。在这个例子中：我们拿两个词，银行和河流，其中：银行字来自第一句话和河流字来自第二句话。河岸和河流的词在这里都是名词。在求语义相似度时，首先要给出词的词性和义数。当我们没有给出任何特定的意义作为输入时，WordNet会自动接受它所获得的意义。1坡地2一种接受存款并将钱用于借贷活动3长的山脊或桩4把相似的物体排成一行或几层5为将来使用6赌场或庄家在某些赌博游戏7道路或轨道转弯处的斜坡8在家里放钱的容器（通常顶部有一个槽9银行进行交易10一种飞行机动;飞机绕着它的纵向轴线横向倾斜（特别是在转弯时）表4WordNet中存在跟踪定义概念跟踪定义银行#n#1* 根 *#n#1实体#n#1物理实体#n#1对象#n#1地质地层#n#1斜坡#n#1银行#n#1银行#n#2* 根 *#n#1实体#n#1抽象#n#6组#n#1社会_group#n#1组织#n#1机构#n#1金融_institution#n#1存款_financial_institution#n#1银行#n#3* 根 *#n#1实体#n#1物理实体#n#1对象#n#1地质地层#n#1自然高程#n#1山脊#n#1银行#n#3河#n#1 * 根 *#n#1实体#n#1物理实体#n#1事物#n#12水体#n#1溪流#n#1河流#n#1（Moro等人，2014年）。Babelfy使用带重启的随机游走（Tong等人，2006年）超过BabelNet（Navigli和Ponzetto，2012年）。leskBanerjee和Pedersen，2002年使用res Resnik的银行#n#1和河流#n#1的相关性，1995年0.6144Babelfy包括整个文件，同时找到它的意义。使用lch的银行#n#1和河流#n#1的相关性1.4917从上述文献调查中发现，许多超Leacock和Chodorow，1998年有监督、无监督和基于知识的方法是有用的，用林力分析一号河岸与一号河流的相关性0.0782能够消除歧义的词。一个词在句子的不同语境中有多种意义，我们的目的是消除-在上下文中混淆目标词的意思我们的亲-例如，2003使用jcnJiang和Conrath，1997银行#n#1和河流#n#1的相关性利用WupWu计算的银行#n#1和河流#n#1的相关性0.06910.4286提出的方法不同于现有的基于图的方法Palmer，1994年（Navigli和Lapata，2009年; Corrêa和Amancio，2019年; Arab等人，使用路径Rada的银行#n#1和河流#n#1的相关性0.11112016）特别是在这种情况下，我们使用搭配得分例如，1989给一个词的不同意义打分搭配评分是在维基百科语料库的帮助下计算的。起初，我们使用WordNet词典找到一个词的所有可能的含义。表3所提出的方法使用双元搭配使用维基百科的核心-WordNet中的“bank”一词有不同的含义N. Rahman和B. 博拉沙特国王大学学报6646该单词存在于WordNet分类中。从这些表中可以很清楚地看到，尽管单词bank实际上与金融机构有关，但在这里，所有语义相关性的度量都默认为bank的错误含义。因此，找到一个词的意义是非常必要的，以获得准确的两个词之间以及两个句子之间4. 一种无监督的词义消歧方法寻找目标词意义的整个过程如下图所示。简要描述了使用搭配得分来发现文本句子中存在的词的意义的以下步骤预处理：首先，进行预处理以从文本句子中删除不需要的单词。在这里，不需要的词意味着停止词。这使得文本句子更轻。本文采用以下技术对文本文档进行词性标记：根据词性类别对单词进行分类，词性标记（Bird et al.，2009年）已完成。词性标注对实词进行分类。标签包括名词，形容词，动词和副词。命名实体标记：为了区分不同的名字、人、位置或组织名称，我们进行命名实体标记（Bird等人，2009年）。我们不会考虑人的名字来寻找语义相关性，因为它不存在于词汇资源中。停止词删除：最好是过滤掉像out a，an，the，in等不给句子任何语义含义的词。这在文本挖掘应用程序中被称为停止字删除。在这里，我们在python的NLTK中使用停止词列表存储。词干提取：最后，对内容词进行词干提取。词干提取法将单词带回其词根或基本形式。例如，将一个单词从复数形式转换为单数词根形式（girls to girl）或从动词中删除ing（singing to sing）。在自然语言处理中，有许多算法可用于词干提取。我们使用NLTK工具进行预处理，因为NLTK非常适合预处理和标记文本。NLTK被广泛用作教学和研究工具。它支持NLP的教学和它是一个原型设计和构建不同和bike是语义相似的两个概念或单词。它们有一些共同的特征，如轮子，或有共同的功能，如运输。相比之下，汽车和汽油都是关联的，因为它们经常出现在语言和空间中。这可以说是一种功能关系。联想与相似既不相互排斥，也不相互独立。汽车和巡逻车在某种程度上都是两种相互关联的关系（McRae et al.，（Plaut，1995）。为了找到单词w1的每个意义的二元语法搭配得分（McKeown和Radev，2000），我们找到了在w1的意义定义中出现的单词与句子中出现的其他单词的出现频率，并取最大值。例如，我们拿一个句子玛丽治疗约翰的伤害。为了找到单词treat的相同含义，我们首先要找出WordNet中treat的所有含义。感觉是一种修饰或定义。该方法找到注释中存在的每个单词与句子中存在的单词的搭配得分。在这里，treat的一种说法是以某种方式相互作用。在句子中出现的实词是伤害，在定义中出现的实词是相互作用的、确定的、方式的。在求出与伤害相互作用、确定、方式的搭配得分后，该方法得分最高。通过这种方式，方法将计算每个意义，最后我们采用搭配得分最大的意义。WordNet是NLTK for Python的一部分这个庞大的图书馆使得自然语言处理变得容易。所提出的方法将适用于WordNet中除了人名之外的所有实义词。我们不会考虑人所提出的方法主要考虑内容词，因为它们携带的sali- ent信息。实词包括名词、主要动词、形容词和副词。首先，所提出的方法发现存在于WordNet中的目标词的所有意义。我们使用WordNet词典，因为它提供了一个词中应该存在的所有可能的含义。在未来，我们将使用这个意义来计算语义相关性得分。感官是一种掩饰。对于目标词的每一个意义，我们都删除了停止词。我们还从目标词所在的句子中删除停用词。为了找到两个词之间的搭配得分（一个词来自w的注释，另一个词来自句子w1.一、这里使用维基百科语料库（Denoyer andGallinari，2006）。logx ωsizeCorpus研究系统。 Gensim主要用于主题建模和文档相似性。Standford CoreNLP是用Java编写的，但由于我使用Python语言，因此我更喜欢NLTK。Stadford CoreNLP仅用于标记和POS标记，搭配得分wωw0ωspanlog100ð1Þ也需要更多的资源。SpaCy是一个巨大的内存猪。在句子标记化的情况下，NLTK优于spaCy。然而，spaCy并不是一个研究软件。为了得到一个词的正确意义，我们采取搭配特征。接下来的部分展示了如何搭配特征可以用于发现词义。4.1. 查找两个单词之间的搭配得分搭配是指一个词或短语经常与另一个词或短语连用有了搭配，我们就能找出哪些词出现在其他词附近。在文档或语料库中找到常用搭配词或短语的计算技术被称为搭配提取。两个词之间的搭配得分是通过找出这些词在语料库中一起出现的次数来计算的。这里使用维基百科语料库（Denoyer和Gallinari，2006）。两个术语之间的共现通过找到其二元语法频率来计算。搭配赋予了两个词之间的关联性。例如：汽车w =单词w在维基百科语料库中出现的频率wspan =单词的宽度（例如第一个单词的左3和右3在查找搭配提取分数时，我们提供了灵活性，如果这两个词在维基百科中不在一起，我们将窗口大小增加到3。我们认为跨度大小为3，因为它最适合我们提出的方法。我们将在维基百科的文本中搜索单词可能被其他三个单词分隔的二元语法频率该语料库包含维基百科的全文数据。因此，语料库中目标词缺失的可能性几乎为零。然而，如果目标词不与所使用的跨度大小在一起（即，3），该方法将跨度大小更改为9。我们使用的是庞大的维基百科语料库。因此，不存在获得并置分数NULL的这种可能性为了找到一个词在句子中的意义，我们首先要得到这个词的一组可能意义●●N. Rahman和B. 博拉沙特国王大学学报6647X现在，对于每个意义，我们计算一个意义的每个注释的每个实词与同一句子中存在的所有其他实词对于每一个意义，都将遵循相同的过程，最后我们取collo- cation得分最大的那个意义句子中存在的目标词（TW）的意义（注释）的搭配得分（CS）为：表5相对于句子S1中存在的其他内容词，存在于“treated”的每个动词意义中的内容词的最高搭配得分CS无意义;句子最大值w2意义;w 02句子中文（简体）ð2Þ在找到TW的所有意义的集合的搭配得分之后，我们考虑TW的搭配得分最大的那个意义。4.2. 寻找句子中出现的词的确切意义所提出的方法实现，以找到一个词的意义，这将进一步有助于计算查询和输入文本句子之间的语义下面的算法1给出了系统的步骤来找到一个词的意义：根据句子的上下文来判断一个词的意义。第一句的内容词：“治疗”，“伤害”;第二句：“治疗”，“晚餐”和第三句：“总理”，“部长”，“访问”，“阿萨姆邦”。对于每个实义词，我们有不同的意义。对于每一个意义，我们找到了内容词。表5显示了每种意义的最高搭配得分‘treated’例如：“treated”的第一个意思算法1：查找句子515. 所提出的词义消歧方法的实现为了说明所提出的方法在不同句子上的实现，我们在下面给出了所提出的方法的详细描述，其中具有三个不同的歧义S1、S2和S3句子：Mary treated John for his injuries，John treated Mary todinner and Prime Minister首先，我们对这些句子S1、S2和S3进行词性标注和命名实体标注。我们只使用实词（不包括人名“以某种方式互动”。我们已经找到了意义中的实词它们是：当我们计算了“interact”、“certain”和“way”与“injuries”的搭配得分时很明显，对于treated这个词对于意义：process#v#1和treat#v#3。我们取进程#v#1，因为它具有较低的意义数。类似地，对于单词injuries，从所有的意义中，我们得到最高的搭配得分92，用于符合句子含义的意义词感测编号单词对搭配评分治疗1某些损伤52过程1治疗损伤320治疗3治疗损伤320盖5形态损伤161治疗5提供伤害22盛宴1提供伤害22治疗7订单伤害60治疗8道路损伤48N. Rahman和B. 博拉沙特国王大学学报6648在第二个句子的情况下，对于单词我们可以说，虽然因此，我们提出的方法可以清楚地区分它。同样，“dinner”的最高搭配得分最后，对于第三句S3，“总理”、“部长”和“访问”的最高搭配得分分别因此，从“质数”的所有意义同样，对于minister和visit，适当的含义是：minister#n#4和visit#n#1。6. 实验分析与讨论6.1. 数据集我们提出的方法在公开可用的英语WSD 语料库Senseval-2、Senseval-3任务1、SemEval-2007任务17、SemEval-2013任务12和 SemEval-2015 任务 13 上进行了评估（ Raganato 等人， 2017年）。两个有意义注释的WordNet语料库SemCor（Miller等人，1994）和OMSTI（Taghipour和Ng，2015）用于训练监督系统，以进行评估和比较。6.2. 比较系统为了便于比较，本文还介绍了目前广泛使用的有监督的基于知识的词义消歧系统.所有的监督系统都使用相同的语料库SemCor和Semcor + OMSTI进行训练。这是一个公平的比较。对于受监督的系统，表 6 中包括了一种基线方法，它采用了最频繁的感觉（ MFS ）。基于训练语料库中出现的最高数量来选择感觉（Raganato等人，2017年）。类似地，在基于知识的系统的情况下，也选择基线方法来选择第一义作为WordNet中存在的正确义3.0（Bird等人，2009年）。现有的语义相似性或相关性度量都是使用第一意义来计算其语义相似性或相关性得分。我们使用F-Score标准进行评估。F-Score是查准率和查全率的调和平均值。6.3. 与不同的监督和基于知识的系统的比较表6比较了如上所述的不同WSD系统的F-Measure值这里使用了两种不同类别表6所有五个数据集的不同WSD方法的F-Measure分数一种是有监督的，另一种是基于知识的无监督的。对于监督方法，通过语料库训练不同的机器学习模型（Dongsuk等人，2018），其中人类注释者注释歧义词的正确含义（Weissenborn等人，2015; Melamud etal.，2016; Raganato等人，2017年）。通过调查发现，建立所有语言和词汇的训练语料库是一项相当昂贵的工作。因此，监督方法在消歧词的集合上具有一些限制。相反，基于知识的WSD系统使用像WordNet这样的词汇字典（Banerjee和Pedersen，2003; Chaplot等人，2015年）。基于知识的词义消歧系统中包含了上下文信息和语义知识.因此，可以使用基于知识的方法来消除更多数量的单词。可以得出结论，基于知识的WSD系统比监督的WSD系统更实际可行和合适（Chaplot等人，2015; Dongsuk等人， 2018年）。表6中的结果清楚地表明，尽管许多监督方法优于现有的基于知识的方法，但我们提出的方法对于不同的数据集表现得更好。现有的基于知识的词义消歧方法并不理想，而基于知识的系统更具有实用性和适用性。他们的方法有局限性，这就是为什么我们提出了一种改进的词义消歧方法，同时使用WordNet词典和维基百科语料库。从表中还注意到，WSD方法对所有数据集的性能并不均匀。最好的之间存在很大的性能差距最差的数据集。对于数据集SemEval-07，所有WSD系统的性能都很低，因为该数据集是最模糊的数据集。我们将我们提出的方法与其他基于BabelNet的无监督和有监督的WSD系统（Dongsuk等人，2018年）。BabelNet是一个多语言词汇语义网络。它是通过将维基百科链接到WordNet自动创建的（Navigli和Ponzetto，2012）。从实验结果可以看出，我们提出的方法优于SemEval-2013数据集的所有列出的WSD系统。对于SemEval-2015数据集，我们提出的方法与监督Weis-senborn等人的方法具有相似的性能。然而，在宏观平均得分方面，对于SemEval-13和SemEval-15这两个数据集，所提出的方法对于表7中存在的所有WSD系统都显示出更高的性能。宏平均值为每个类独立地计算度量，然后取平均值。我们将我们的WSD方法与使用SENSEVAL-2数据集的其他公认的和当前最先进的现有词义消歧方法（Wiriyathammabhum等人，方法Tr. 语料库系统Senseval-2Senseval-3SemEval-07SemEval-13SemEval-15监督SemCorIMS（Zhong和Ng，2010年）70.969.361.365.369.5IMS + emb（Iacobacci等人，（2016年）71.069.360.967.371.3IMS-S+ emb（Raganato等人，（2017年）72.270.462.665.971.5Context2Vec（Melamud等人，（2016年）71.869.161.365.671.9MFS（Raganato等人，（ 2017年）65.666.054.563.867.1IMS72.869.260.065.069.3IMS + emb70.868.958.566.369.7IMS-s +embContext2VecMFS73.372.366.569.668.260.461.161.552.366.767.262.670.471.764.2Lesk ext（Banerjee和Pedersen，2003）Lesk ext +emb（Basile等人， 2014年度）50.663.044.563.732.056.753.666.251.064.6UKB（Agirre等人， 2014年度）56.051.739.053.655.2基于知识（Knowledge-based）UKB_gloss（Agirre等人，2014）Babelfy（Moro等人， 2014年度）WN第一感觉（Bird等人，（ 2009年）60.667.066.854.163.566.242.051.655.259.066.463.061.270.367.8该方法75.471.663.777.875.3N. Rahman和B. 博拉沙特国王大学学报6649表7不同的基于BabelNet的无监督和有监督的最新方法的性能比较方法系统F-评分F-评分宏平均值SemEval-13SemEval-15F-score基于知识（Knowledge-based）摩洛1466.470.368.4Agirre 1462.963.363.1Apidianaki 15-64.7-Tripodi 1770.8--Wordsim_iterSRP2vSim 1875.065.870.4该方法77.875.376.6监督中十66.369.768.0Weissenborn 1571.575.473.5Raganato 1766.971.569.2Pasini 1765.568.667.1表8回忆各种WSD方法的值。表9通过比较拟定方法与SemEval-13数据集的其他方法，通过Wilcoxon配对符号秩检验产生的P值方法名称召回评分MFS 47.60%1-NN 43.11%PCA 44.45%KPCA（多项式）37.50%KPCA（高斯径向基函数）49.95%Logistic回归60.07%MLP 59.70%线性SVM 60.40%SVM （多项式）47.71%SVM （高斯RBF）51.02% DBN61.30%建议方法76.80%2012 年）。在 Wiriyathammabhum 等人的著作中（Wiriyathammabhum等人， 2012年），他们使用了三种不同的功能：主题功能;本地功能和词性功能。他们在以下数据集上实现了SENSEVAL-2数据集学习方法来消除一个词的歧义：（1）朴素贝叶斯，（2）接近系统P-值监督IMS（Zhong和Ng，2010）0.036IMS + emb（Iacobacci等人， 2016年）0.040IMS-S + emb（Raganato等人， 2017年）0.037Context2Vec（Melamud等人， 2016年）0.037MFS（Raganato等人， 2017年）0.0340.036IMS +emb 0.038IMS-s+emb 0.039Context2Vec 0.040MFS 0.033Zhong 10（Zhong和Ng，2010）0.038Weissenborn 15（Weissenborn等，（2015年） 0.039Raganato 17（Raganato等人， 2017年）0.039Pasini 17（Pasini和Navigli，2017）0.037Leskext（Banerjee和Pedersen，2003年）Lesk ext +emb（Basile等人， 2014年）0.038UKB（Agirre等人， 2014年）0.000无监督UKB_gloss（Agirre等人，（2014年）0.001WN第一感觉（Bird等人， 0.034最近邻，（3）主成分分析，（4）核主成分分析，（4）逻辑回归，（5）多层感知器，（6）支持向量机和（7）深度信念网络. 他们选择了MFS（最频繁的感觉）作为基础，（知识型）Babelfy（Moro等人， 2014年）0.038Moro 14（Moro等人， 2014年）0.038Agirre 14（Agirre等人， 2014年）0.033Tripodi 17（Tripodi和Pelillo，2017）0.042直线法从表8可以看出，所提出的WSD方法显示出相当好的结果。所提出的方法还在理论上改进了任务，因为对于任何Wordsim_iter SRP2vSim18（Dongsuk等人， 2018年）0.042词义消歧数据集，我们的方法执行一个更好的结果。从表6中可以看出，所有Senseval和SemEval数据集的平均F-Measure类似地，对于基于BabelNet的监督和非监督方法，从表7中可以看出，平均F分数为76.6%，这也是所有列出的方法中最高的平均值。7. 统计显著性检验为了在统计上比较我们提出的句子相似性度量与其他词义消歧方法的性能，我们使用非参数Wilcoxon它有助于确定我们的结果的意义在结果的5%显著性水平下对独立样本进行了统计学显著性这里比较了两组;一组对应于我们提出的方法，另一组对应于现有的考虑方法。每种方法都由SemEval-13数据集的F分数组成。为了确定这种良好性在统计学上是显著的，我们发现了由以下因素产生的P值：Wilcoxon配对符号秩检验用于两组的比较。作为零假设，假设两组的中位数之间没有而备择假设是两组的中位数存在显著差异表9显示，我们提出的方法和 SemEval-13 语料库的现有方法之间的Wilcoxon这是反对零假设的有力证据，表明我们提出的方法产生的性能指标的更好的中值在统计上是显著的，并且不是偶然发生的。它确立了所提出的方法的显着优越性。P值远小于0.05（5%显著性水平）。从统计结果中，我们观察到，我们提出的方法显着优于现有的方法。此外，我们可以说我们提出的方法比其他方法更8. 查询相关性我们提出的方法表现更好，因为我们使用搭配分数来消除歧义的一个词。该方法可以发现N. Rahman和B. 博拉沙特国王大学学报6650ð×Þð×ÞFig. 1. 字义检测方法框图。计算出多词词语之间的搭配得分。我们使用Wkipedia语料库，在那里可以很容易地使用搭配得分找到多词术语之间的强关联。因此，不需要添加一个额外的多字词提取系统。这只会增加所提出的方法的复杂性。所提出的方法的整体复杂性取决于句子中每个单词的含义数量。设实词W有N个义项。对于每一个意义，我们都要找到一个搭配提取分数。在每个意义上，有M个实词。所提出的方法需要ON M次来计算每个意义的得分。该方法的最佳情况是当目标词只有一个意义时。在这种情况下，没有必要找到意义。在平均或最坏的情况下，复杂度将是ON M。N和M的值不会很高。因此，复杂性不会很高。见图1.一、9.

下载后可阅读完整内容，剩余1页未读，立即下载