基于图嵌入的同义词集嵌入方法在词汇语义相似度上的性能评估

154 浏览量更新于2024-01-22 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用17（2023）200159Synset2Node：一种新的基于图嵌入的Fatemeh Jafarinejad伊朗Shahrood Shahrood理工大学计算机工程学院A R T I C L EI N FO保留字：Synsetembeddings GraphembeddingsNode2vecWordNet词汇语义相似度A B标准由于近年来取得的进展，嵌入方法导致文本或图形处理方法的准确性显著提高。嵌入方法展示了基本元素（单词、同义词集、节点等）的紧凑向量表示。对元素之间的语义信息进行编码。当然，由于单词的多义性质，在一些NLP任务中，使用意义/同义词集嵌入比单词嵌入更好。然而，在文献中，对同义词集嵌入的介绍很少受到关注。EX同义词集嵌入方法具有复杂的计算，以基于词嵌入或基于定义的成对同义词集相似性来计算同义词集嵌入。在本文中，考虑到WordNet的图形结构和编码在其中的高级知识，我们将直接从WordNet图及其同义词集关系创建一个同义词集嵌入。Node2Vec图嵌入用于将该图的节点映射到向量空间。我们评估了不同图结构的性能（例如，加权/失重，有向/无向图）。此外，我们提出了一个加权策略，以加权不同的同义词集关系类型在所得到的WordNet图。在MEM和WordSim 353数据集上对所提出的同义词集嵌入方法进行的词汇语义相似度测试的实验结果表明，所提出的同义词集嵌入方法在MEM和WordSim 353数据集上的相似度均方误差分别为0.065和0.035，这优于Word2Vec在这些数据集上的均方误差（分别为0.073和0.045）。此外，我们使用皮尔逊相关性和斯皮尔曼相关性来比较所提出的同义词集嵌入方法的性能与国家的最先进的。所得结果表明，该方法适用于各种数据集。SimLex999的Spearman相关性提高了0.02，将WordSim353 Pearson相关性提高0.14。1. 介绍在符号数据的各种应用中使用机器学习和深度学习方法的基本前提之一是使用数值向量表示底层系统的基本元素。嵌入方法是适用于不同系统中符号数据的数值表示的无监督方法。图节点和文档单词是最重要的符号数据之一，需要分布式表示才能从深度学习方法中受益。嵌入向量来编码系统语义信息（例如，图节点的邻接性，或词的同义性或相关性）的能力促进了利用这些向量的系统中的学习过程。词嵌入方法主要使用大型语料库来学习词的紧凑语义向量。SENNA （ Collobert 等人， 2011 ）、 Word2Vec （ Mikolov 、Sutskever、Chen、Corrado和Dean，2013）、GloVe（Pennington、Socher和Manning，2014）、BERT（Devlin、Chang、Lee，和Toutanova，2018年），RoberTa（刘等人，2019）、XLNet（Yang等人， 2019）、GPT-3（Brown等人，2020）和SemSpace（Orhan和Tulu，2021）是一些流行的单词嵌入方法。词嵌入向量在自然语言处理中的应用（ NLP ）任务，如情感分析（陈和克鲁克斯， 2022年;Pimpalkar andRaj，2022）词义消歧（水务署）（Jimeno Yepes，2017），机器翻译（MT）（Manzini，Garrido-Aguirre，Fonollosa和Perera-Lluna，2022），命名实体识别（Molina-Villegas，MunMélaz-Sanchez，Arreola-Trapala和Alca'ntara，2021），文本摘要（Joshi，Fidalgo，Alegre和Ferna'nought-Robles，2023），图片说明（Xian，Li，Zhang和Ma，2022），问答（Sha-hini Shamsabadi，Ramezani，Khosravi Farsani和Nematbakhsh，2023）等。提高了这些系统的准确性当然，除了单词之外，还有其他文本数据类型的嵌入（Incitti等人，2023），这取决于应用程序，有时可以比词嵌入更成功。短语嵌入（Li等人，2021），句子嵌入（Naser Moghadasi Zhuang，&电子邮件地址：jafarinejad@shahroodut.ac.ir。https://doi.org/10.1016/j.iswa.2022.200159接收日期：2022年1月3日;接收日期：2022年9月28日;接受日期：2022年11月24日2022年11月29日网上发售2667-3053/© 2022作者。由爱思唯尔有限公司出版。这是一篇开放获取的文章，获得了CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志首页：www.journals.elsevier.com/intelligent-systems-with-applicationsF. 贾法里内贾德智能系统与应用17（2023）20015922020 ），文档嵌入（ Le Mikolov ， 2014 ），意义嵌入（ Trask ，Michalak和Liu，2015）和同义词集嵌入（Rothe和Schütze，2015）是其中的一些非词嵌入。&在WSD中的意义/同义词集嵌入向量的应用（AlMousa等人，2022;Loureiro等人，2022），词汇语义相似性（LSIM）（Kutuzov，Dorgham，Oliynyk，Biemann和Panchenko，2019）和多语言语义相似性（Harvill，Girju和Hasegawa-Johnson，2022）显示了这些向量与这些NLP任务中的这些任务中的每一个都是基本任务，可以应用于解决高级挑战性任务，如信息检索或文档分类（Cai，Zhang，Lu和Che，2018）。此外，同义词集嵌入可以改善MT结果（GoikoetXea等人，2018年）。通常，意义/同义词集嵌入方法使用词汇本体的词义/同义词集（例如， Princeton WordNet （ Soergel ， 1998 ）、 BabelNet （ Navigli 和Ponzetto ， 2010 ））作为基本元素，并为它们建议数值向量。Sense2Vec（Trask等人，2015）提出了一种基于其含义为每个单词建模多个嵌入的方法。这种方法是基于监督消歧，它提供了一种方法，模型选择一个意义消歧嵌入。相关性被用作性能标准。MEN数据集（Cassani和Lopopolo，2016）已用于调整模型的各种超参数。通过对不同超参数的图的嵌入结果进行比较，结果表明，采用带自边的有向图表示WordNet，可以得到更精确的嵌入模型，其均方误差为0.065。所提出的方法相比，Word2Vec作为其祖先（嵌入在Node2Vec算法中使用的算法，）。在LSIM任务中，将该模型与不同的同义词集嵌入方法进行比较，结果表明了该方法的有效性。此外，将所提出的同义词集嵌入向量的维度（即50）与Word2Vec的预训练向量的300维嵌入向量进行比较，将希望我们在学习嵌入向量并在NLP应用中使用它时减少时间和内存消耗。请注意，与其他单词/同义词集嵌入方法相比，不需要提供大型训练语料库来学习此嵌入。利用输入的高级语义信息（在WordNet中编码）为Synset2Node方法提供强大的嵌入向量，该方法既不需要大的向量大小，也不需要大的训练语料库，以便在NLP应用中取得成功培训发展中一些优化方程式，AutoEX tend（Rothe和在一台16 GB的 PC机上成功地完成了对所提出的同义词集模型的Schütze，2015）使用机器学习方法从已知的单词嵌入向量（预训练的Word2Vec向量）和潜在的词素嵌入向量（作为单词、同义词集之间的接口向量）中找到未知的同义词集嵌入向量。Syn2Vec（Harvill等人，2022）使用不同的单语言和跨语言共词化图、流行的嵌入和各种融合方法来构建大规模同义词集图。（Thibault Cordier，2018）通过使用各种同义词集相似性算法（Budanitsky和Hirst，2006）在WordNet同义词集上构建一些不同的相似性图，提出了同义词集嵌入。 Path2Vec（Kutuzov等人，2019）依赖于成对节点相似性来学习图嵌入，就像（Thibault Cordier，2018）一样。给定一些用户定义的距离度量，该模型学习节点嵌入。它使用图距离度量为WordNet名词提出节点嵌入。在这纸，我们将介绍一小说方法对于synset嵌入我们的假设是：“the graphic structure of the WordNet itself can compute the synsetembeddings without the presence of an au（像的一在AutoEXtend （Rothe）和 Schütze，2015））。此外，WordNet图形结构可以直接用于创建此同义词集嵌入。不需要基于图相似性标准来创建图（如Budanitsky和Hirst，2006年）或（库图佐夫等人， 2019年））”。这些特征将赋予所提出的方法高度的独立性，不依赖于外部信息。利用WordNet的图形结构，使用图嵌入方法提出了这种新的同义词集嵌入。为了利用这个WordNet图，我们使用了一个简单的节点嵌入方法Node2Vec。当然，在该领域中可以使用不同类型的图嵌入方法。但是由于Node 2 Vec算法利用了Word 2 Vec方法，通过选择这种图嵌入方法，在文本和节点嵌入算法之间进行了一次重要的往返，这将显示图/词嵌入方法的高组合能力。Node2Vec通过将Word2Vec应用于图随机游走的语料库来生成节点嵌入。不用说，新类型的词嵌入也可以用于使用随机游走语料库构建节点嵌入。然而，Node 2 Vec与另一种较新的图嵌入方法（deepwalk（Perozzi，Al-Rfou和Skiena，2014））的比较（ThibaultCordier，2018）说明了Node 2 Vec在LSIM任务中的效率。所提出的方法的性能将在LSIM任务。不同的LSIM数据集，提供一些词对，然后使用相似性度量。针对每个数据集金标准的拟议方法的词相似性用于此目的。均方误差（MSE），Pearson相关性和SpearmanRAM，对于不同的超参数，最多需要2小时。简而言之，本文的创新之处是：提出了一种新的同义词集嵌入方法，该方法独立地直接作用于WordNet的图形结构，而不需要预先训练的单词嵌入或单词对的相似性图。• 与现有技术的嵌入（例如.）中所需的高计算相比提供强的、低维的向量嵌入（低于众所周知的300维向量），在应用中提供更好或相同的性能。提出了一种加权策略来评估各种同义词集关系类型在构建WordNet图时的重要性，并利用同义词集嵌入。本文的结构组织如下：在第2节中，我们将简要介绍WordNet结构和Node2Vec图嵌入。第三部分描述了所提出的方法的架构。在第四节中，我们将分析所提出的方法，并比较不同的WordNet图和Node2Vec超参数的效果。最后，在第5节中，我们将提供一个总体结论的论文。2. 预赛在本节中，我们将简要解释强大的词汇本体WordNet的结构，它是一个以同义词集作为其底层基本元素之一的系统。在下文中，我们将回顾图嵌入方法和Node2Vec嵌入，作为用于提出同义词集嵌入向量的基本方法。2.1. WordNet结构词网是词汇本体，其包含语言的词、词的意义以及作为基本概念的同义词集的集合。请注意，一种语言的每个单词可能有不同的含义。一个词的每一个不同的意义都是这个词的一个意义。一组同义词的意义可以形成一个语义单位，称为同义词集。WordNet的单词和同义词集可以具有不同的词性（POS）（即，名词、动词、形容词、副词）。词汇关系（词之间的关系）和语义关系（同义词之间的关系）将这个系统的不同元素大多数WordNet关系连接来自同一POS的单词或同义词集（除了少数跨POS关系，如···F. 贾法里内贾德智能系统与应用17（2023）2001593诸如派生链接的形态语义链接）。因此，WordNet实际上由四个子网组成，每个子网对应一个WordNet中同义词之间最重要的语义关系即分类关系（上位关系/下位关系），形成底层语言的同义词集的层次结构和词典学。除了这些关系外，与名词或动词POS的同义词之间还存在着整体/部分关系，它们代表着它们之间的有/部分关系。蕴涵关系是动词同义词之间的一种语义关系。此外，同义/反义关系是形容词之间的常见词汇关系。由于这些词汇本体中编码的高级语言信息，WordNets被认为是解决高级语义需求问题的最重要工具之一。图1展示了WordNet同义词集及其链接的一个片段的图。从图中可以看出，同义词集Cupcar、auto、automobile、ma之间有不同的分类关系和非分类关系chine、motorcar、bicycle和其他同义词，它们构成了一部词典。2.2. 图嵌入图嵌入方法为图节点（Zhao，Chen，Wang，Xuan和Xiong，2021）、图边（Wu，Zheng，Ma，Ye和He，2021）或其子图（Tian等人， 2021年）。这些方法在将机器学习方法应用于这些数据类型方面发挥了重要作用。节点嵌入方法为静态（Hamilton，Ying和Leskovec，2017）或动态图（C.Zhang等人，2021年）。一般来说，在节点嵌入方法中，图的相似节点（根据标准）将具有更接近的嵌入向量（例如，更高的余弦相似性）。在文献中提出了节点相似性和接近度的不同标准，其可以被分类为基于邻接的相似性、多跳相似性和随机游走方法（Hamilton等人，2017年）。基于邻接的方法（Ahmed，Shervashidze，Narayanamurthy，Josifovski和Smola，2013）使用A，邻接Node2Vec（Grover and Leskovec，2016）是另一种重要的图嵌入方法，它利用了随机游走方法。该方法将Word2Vec应用于图节点之间的不同固定长度的随机游动（DFS游动、BFS游动或有偏随机游动）来生成节点嵌入，实际上，使用随机固定长度的有偏游动，从图的每个节点开始将产生一些游动。此后，图节点之间的不同行走被认为是语料库的句子，其单词是节点名称。因此，通过应用Word2Vec（Mikolov等人， 2013）嵌入方法到所有行走的语料库中，嵌入向量可以建议用于图节点。算法1的伪代码显示了在Node2Vec中计算节点嵌入的整个过程行走长度和每个节点的行走次数是特定的超-Node2Vec方法的参数。考虑到该方法起源于Word2Vec，因此滑动窗口的大小和嵌入向量的维数也必须作为该方法的其他超参数指定。这种方法可以应用于各种（无）有向图与（出）权。3. 材料和方法为了提供同义词集嵌入向量并在LSIM任务中对其进行评估，我们首先从Princeton WordNet 3.1的同义词集及其关系创建一个图。换句话说，图的边缘显示了WordNet同义词集之间的关系。这些关系可以只包含分类关系，也可以包含其他关系（如整体关系、部分关系、蕴涵关系，甚至同义关系、反义关系等词汇关系）。在此图上应用Node2Vec算法，为WordNet同义词集提供了一些嵌入向量。这些嵌入向量可用于计算LSIM数据集的成对词的对应同义词集的最大余弦相似度。有向/无向赋权/赋权边图，包括/不包括自边图是结构图的一些重要性质，WordNet图的真实性选择这些图中的每一个的影响矩阵X 的的底层图表，到编码节点嵌入结构性能分析了部分四、图 2示出了基于多跳的方法（Cao，Lu和Xu，2015;Ou，Cui，Pei，Zhang和Zhu，2016）训练嵌入以使用Ak预测k跳邻居。所提出的同义词集嵌入计算的总体流程图。Fig. 1. WordNet Synsets的片段及其关系。F. 贾法里内贾德算法4智能系统与应用17（2023）2001594Node2Vec：为图的节点提供一些嵌入向量。图二. 建议的同义词集嵌入方法的流程图。构建WordNet同义词集图（算法2）添加WordNet同义词集关系作为图边（算法3）使用Node2Vec计算节点嵌入（算法1）计算LSIM数据集的成对词的最大余弦相似度使用MSE、Pearson和Spearman相关性评估在构建WordNet图之后，我们应用Node2Vec算法，计算图节点的嵌入（WordNet的同义词集）。在这个阶段，Node2Vec的超参数（遍历长度、每个节点的遍历次数、嵌入向量的维数和滑动窗口大小）的适当选择非常重要。在第4节中，我们将分析和讨论适用于单词相似性任务的Node2Vec超参数。最后，我们将评估嵌入模型和在LSIM任务中为其选择的超参数。WordSim353以下表示与所提出法算法2的伪代码表示所提出的方法的总体概述，其包括图构造（第1-5行）、嵌入向量的产生（第6、7行）和方法评估（第8行）。这些阶段中的每一个在以下伪代码中进一步解释。为了提出同义词集嵌入，首先需要构造WordNet图。WordNet同义词集是此图的节点这些节点被添加到算法2的第1、2行中的WordNet图中。在那里-之后，必须计算图形边缘（第3-5行）。我们可以就用WordNet的语义链接或使用词汇关系。注意，对于词汇关系，（例如同义关系和反义关系）将使用同义词集引理和相关同义词集的引理为计算图的边，从对应于单词“实体”的同义词集开始（作为许多WordNet同义词集的根），每次我们弹出一个节点，它的边还没有计算。然后，递归搜索一 WordNet子图的其相关（Connected）同义词集和计算它们的边缘。该递归过程在算法3的伪代码中示出。在算法3中，如果考虑自边缘（考虑该属性的布尔标志被设置为真），则在自边缘之间的关系被改变将对应的同义词集和其自身（权重=1）添加到图边缘。在下面的几行（第4-8行）中，其上位词，蕴涵关系，下位词，完整名称和将部分名称添加到图的边。第9行计算同义词集的词元的同义词/反义词（同义词/反义词是词汇关系）。它增加了syn的所有同义词集合之间的关系的同义词/反义词和词元的研究下的图的边缘。在这些阶段（第3-9行）中，如果图被加权，则设置边的权重。这些权重是通过分析WordSim353数据集获得的。LSIM数据集不仅提供了词对和相应的相关性分数，而且还提供了词对相关性原因的标签标签i、a、h、H、s、S、m、M、t分别用于相同的词对、反义关系、上下义关系、上位义关系、同义关系、具有共同上位义的兄弟术语、部分义关系、整体义关系和其他相关关系。对于关系的权重，我们简单地计算每个相关性原因的相似性得分的平均值例如，对于上下义关系，权重将是WordSim353数据集中具有标签H的行的相关性得分的平均值对于i、a、h、H、s、S、m、M、t获得的权重分别为1、0.581、0.633、0.76、0.887、0.704、0.701、0.677和0.524。然而，其中一些关系（即，S和t）不是WordNet的精确关系，因此不在WordNet图中使用。另一方面，我们考虑了WordSim353中没有标签的 WordNet 关系（动词的蕴涵关系在这种情况下，由于它与WordSim353中名词的上下义关系具有相同的概念，因此我们对这种关系使用与上下义关系相同的权重因此，所考虑的关系（同一性、上位关系、下位关系、蕴涵关系、整体关系、部分关系、同义关系和反义关系）的权重被设置为1、0.76、0.633、0.633、0.677、0.701、0.887和0.888。0.581。在无向图的情况下，由于上/下关系和部分/整体关系是对偶关系，我们可以为它们选择相同的权重（两个权重的最大值）（我们称之为对偶策略）。因此，对于无向图，所考虑的关系（同一性、上位关系、下位关系、蕴涵关系、整体关系、部分关系、同义关系和反义关系）的权重将被设置为1、0.76、0.76、0.76、·····F. 贾法里内贾德智能系统与应用17（2023）2001595算法2Synset2Node：构建WordNet同义词集图。算法3Recurse_GraphEdges：递归地搜索WordNet的子图，通过查找源自同义词集的所有关系来计算图的边。0.701、0.701、0.887和0.581。然而，在下一节中，我们将针对无向图忽略这些关系的对偶性，或者有向图也使用这些权重的情况进行一些实验。如算法1和算法2中所述，WordNet具有内置的图形结构，可以直接用于在其上应用图嵌入。没有必要使用一些外部信息（例如，成对相似性度量）。Node2Vec嵌入应用于该图，以为其节点（即同义词集）提出嵌入向量。然而，对于图结构有各种选择（例如，有向/无向、加权/无重、考虑/不考虑自边）以及各种Node 2 Vec超参数，这些超参数对所得到的同义词集嵌入的性能有效。下一节将评估这些影响。此外，将对各种LSIM数据集上的结果算法进行评估。4. 结果和讨论为了分析所提出的同义词集嵌入方法和不同的超参数选择策略的效果，我们在各种LSIM数据集上评估了所提出的嵌入向量。请注意，LSIM数据集提供了一些单词对，后面是它们的相似性度量的正浮点数。对于每个LSIM数据集，我们将每个相似度数字除以基础数据集的最大相似度（例如，MEN数据集为50，WordSim 353为10），以在范围[0，1]内并与（正）余弦相似度相当。请注意，LSIM数据集提供了如何将单词彼此相关（而不是它们的同义词）的度量（Finkelstein等人， 2002年）。因此，它们的相似性F. 贾法里内贾德智能系统与应用17（2023）2001596是正数，即使两个成对的单词是反义词。考虑到这一点，Synset2Node为同义词集（而不是单词）提供了嵌入。因此，对于词相似度数据集的每个词对，首先，提取与每个词相对应的所有同义词集，计算每个同义词集对之间的余弦相似度，并报告最大余弦相似度，作为词对的相似度的度量。与其他同义词集融合方法（例如平均余弦相似度）相比，选择“最大余弦相似度”是因为在WordSim353描述文件中提到，如果两个词至少在一个意义上具有这种关系，则两个词具有这种关系（例如上位关系）。关系”（Finkelstein等人， 2002年）。这些由此产生的相似之处可能是与使用各种标准（例如MSE、Pearson相关性和Spearman相关性）的LSIM数据集的金标准相似性度量进行比较。在下文中，我们评估了选择不同的图结构和超参数对LSIM任务上所得到的同义词集嵌入模型的性能的影响。注意，所有的经验-在运行Windows10、Intel（R）Core（TM）i7为了实现这些嵌入模型，我们使用Python作为编程语言。node2vec 1库用于Node2Vec算法nltk。语料库2用于WordNet，networkx 3库用于图形表示。代码和模型将在github上提供4表 1 显示了使用MSE 标准对 MEN 数据集（Cassani 和 Lopopolo，2016）使用不同的图结构和Node2Vec超参数值的同时影响。在这些实验中，我们只使用分类关系（上位/下位）或受益于其他语义关系（分类）。或者都在WordNet Rel中。柱）。有向（加权）图结构显示与标签Y在定向？（加权？）列，而无向（无权重）图结构在相应列中用标签N示出。表的第4列中的Y（N）示出了在对应的图结构中添加（不添加）精确的自边。表中的其他四列分别表示嵌入向量的大小、Node2Vec滑动窗口的大小、其遍历长度和遍历次数。最后一列描述了相应图结构和Node2Vec超参数的MSE。我们使用具有较低MSE的Top-2同义词集嵌入模型，表中以粗体显示。MEN数据集上Word2Vec的MSE为0.073。在WordSim353数据集上进行的词相似度测试结果表明，相似的同义词集模型（除了没有权重的边缘）是最好的模型，其MSE为0.035。与Word2Vec嵌入（在此数据集上的MSE为0.045）相比，显示了良好的性能。在此数据集上对建议的同义词集嵌入模型进行验证，好.这些比较说明Synset2vec能够正确地编码同义词集的语义信息，同时使用较小的向量大小。这些结果来自表1：在WordNet的底层图形表示中使用所有分类和非分类关系的Synset模型在MEN数据集上的表现优于仅利用分类关系。这显示了非分类学关系的力量，正如（AlMousa，Benlamri和Khoury，2021）中所测试和报告的那样加权的WordNet图比那些使用简单的无重量结构的WordNet图更好。这可能是因为权重中嵌入了更详细的信息。此外，它表明我们建议的加权策略在提出更准确的嵌入方面表现良好。第1https://anaconda.org/conda-forge/node2vec2https://www.nltk.org/3https://anaconda.org/anaconda/networkx第https://github.com/jafarinejad/Synset-Embedding在单词嵌入中，增加向量大小，直到某个值，将提高嵌入模型在底层任务上的性能。然而，此后，向量大小增加将导致性能降低。在单词嵌入中，这个重要的数字点大于1000。然而，实验结果表明，在Synset2Node同义词集嵌入的情况下，这个重要的数字被减少到小于100的值。这是由于WordNet中编码的精确语义信息以及在同义词集嵌入中使用的语义信息而提供的。这种减少可以导致加快具有同义词集输入的嵌入模型的学习过程，而不是单词输入。在下文中，我们将进一步讨论选择不同的Node 2 Vec超参数对Syn-set2Node模型在MEN数据集上的性能的影响。为了观察行走长度的影响，我们比较了几种不同的行走长度。对于该比较，嵌入向量的大小、滑动窗口的大小和行走的数量被认为是固定的，并且分别等于50、7和40。行走长度的影响如图3-a所示。结果表明，数字12（滑动窗口大小和滑动窗口大小的2倍之间的数字）是该超参数的最佳行走长度为了考察行走数的影响，将最优图结构中嵌入向量的大小、滑动窗口的大小和行走长度分别固定为50、7、12。图3-b表示了行走长度的影响。结果表明，行走次数等于40是最好的。滑动窗口大小的影响如图所示。 3-C.在这些实验中，嵌入向量的大小，行走长度和最佳图结构中的行走次数分别固定为50，12和40。作为另一个实验，我们评估了不同的加权策略对所提出的同义词集嵌入模型的性能的影响，分别使用表2和表3中的Pearson和Spearman相关性。我们在Word-Sim 353上测试了8种不同同义词集嵌入模型的性能（ Finkelstein 等人， 2002 ）、 RG （ Rubenstein 和 Goodenough ，1965）、MEN（Cassani和Lopopolo，2016）、MC（Miller和Charles，1991）和SimLex999（Feli XHill，Reichart和A.，2015）dataset.对于所有模型，WordNet的底层图形表示都是加权的（权重设置在第3节中讨论）。在所有8个实验中，Node 2 Vec的向量大小、滑动窗口大小、行走长度和行走次数分别设置为50、7、12、40。这些表的前/后4行对应于具有/不具有精确自边缘的模型（名称中有self/nself）。表的第一、第二、第五和第六/ 第三、第四、第七和第八行的模型（名称中有di/undi）使用有向/无向WordNet图。表的第二、第四、第六和第八行/第一、第三、第五和第七行的模型（名称中有dual/ndual）使用/不使用对偶策略来均衡WordNet中对偶关系对应的权重正如我们在第3中所讨论的，对于不同的同义词集关系类型，WordNet中，我们使用一些权重提取的一些分析WordSim353标签的相似性。我们说，由于上义/下义的二重性，和部分/完整名称关系，是可以对每个对偶关系使用相同的权重，其是对偶关系的最大权重。假设是：“对于无向图，最好对对偶关系使用相似的权重（称之为对偶策略）。另一方面，对于有向图，不使用二元策略”。比较表2和表3对不同LSIM数据集拒绝的结果，说明该假设是有效的，有自边的图然而，对于没有精确自边的图，这个假设是不成立的.此外，我们评估了所提出的同义词集嵌入方法相对于其他一些同义词集嵌入方法的性能（Kutuzov等人，2019年; Thibault Cordier，2018年），它在单词相似性任务中使用了知识图的信息。表4和 5说明了这些结果。（Thibault Cordier，2018）报告了其方法在各种单词相似性数据集（即···F. 贾法里内贾德智能系统与应用17（2023）2001597表1使用不同的图结构和Node2Vec超参数在MEN数据集上嵌入Synset的 MSE（Cassani和Lopopolo，2016）WordNet版本导演？加权？自我边缘？嵌入尺寸窗口大小步行长度移动的MSEWord 2 VecTaxo粤ICP备16018888号-1Taxo电话：+86-10 - 8555555传真：+86-10 - 85555555Taxo电话：+86-510 - 8888888传真：+86-510 - 88888888Taxo电话：+86-510 - 8888888传真：+86-510 - 8888888Taxo电话：+86-07156627传真：+86-07156627Taxo电话：+86-07172541Taxo电话：+86-510 - 8888888传真：+86-510 - 88888888所有Y Y Y 50 10 25 50 0.06840801所有Y Y Y 50 7 25 50 0.06846843所有Y Y Y 50 10 25 60 0.06814494所有Y Y Y 50 7 12 40 0.06551057所有Y N Y 50 7 12 40 0.06600543所有N Y Y 50 7 12 40 0.0658706所有Y Y N 50 7 12 40 0.0674239所有N Y N 50 7 12 40 0.0692689所有N N Y 50 4 7 40 0.06762084所有N N Y 50 7 16 40 0.0675387所有N N Y 50 7 12 25 0.06768364所有N N Y 50 7 12 40 0.06757443所有N N Y 50 5 12 40 0.06652953图3.第三章。 Node2vec超参数对Synset2N od e 性能的影响：a）行走长度，b）行走次数，c）滑动窗口大小。表2词相似度数据集上几种方法的Pearson相关性比较表3词汇相似度数据集上几种方法的Spearman相关性比较。模型\数据集WordSim353RG男人MCSimLex999WordSim353RG男人MCSimLex999自偶0.6440.8520.4010.8050.499自偶0.5930.7540.3440.6680.495自对偶0.6290.8350.4100.7720.510自对偶0.5690.7660.3660.7270.501Self_undi_ndual0.6340.8330.4060.7630.500Self_undi_ndual0.5810.7600.3580.7150.497Self_undi_dual0.6360.8490.4060.8110.512Self_undi_dual0.5920.7660.3560.7500.502Nself_di_ndual06450.8340.4110.7690.520Nself_di_ndual0.6100.7840.3700.7120.512Nself_di_dual0.6600.8470.4140.7960.507Nself_di_dual0.6350.7920.3720.7220.502Nself_undial_ndual0.6500.8620.4200.8330.517Nself_undial_ndual0.6170.8260.3850.7960.512Nself_undi_dual0.6390.8290.4170.7730.507Nself_undi_dual0.5950.7700.3720.7130.499F. 贾法里内贾德智能系统与应用17（2023）2001598表4不同同义词集嵌入方法在LSIM数据集上的Pearson相关性比较WordSim353RG男人MCSimLex999（Thibault Cordier，0.520.760.31––2018年）Nself_di_dual0.6600.8470.4140.7960.507（拟议）Nself_di_ndual06450.8340.4110.7690.520（拟议）表5不同同义词集嵌入方法在LSIM数据集上的Spearman相关性比较WordSim353RG男人MCSimLex999Path2Vec（库图佐夫––––0.51例如， 2019年度）Nself_di_dual0.6350.7920.3720.7220.502（拟议）Nself_di_ndual0.6100.7840.3700.7120.512（拟议）WordSim353（Finkelstein等人，2002）、RG（Rubenstein andGood-enough，1965）和MEN（Cassani and Lopopolo，2016）数据集）。我们在另一个重要的单词相似性数据集MC（Miller和Charles，1991）上评估了我们的方法。Path2Vec（Kutuzov等人，2019）使用SimLex999（Feli X Hill，Roi Reichart，2015）数据集，使用Spearman相关性评估其算法的性能。它只使用数据集的666个名词相似性。为了比较的公平性，我们也只使用SimLex999数据集的名词概念。从这些表中可以看出，所提出的方法在所有数据集中都优于两种基于知识图的嵌入方法。5. 结论和今后的工作在本文中，我们提出了Synset2Node，一个新的同义词集嵌入方法的基础上Node2Vec算法。为此，我们首先创建了WordNet同义词集及其语义关系图。此后，我们将图嵌入算法应用于该图。在词汇语义相似性任务中，检验了所获得的图节点（WordNet同义词集）嵌入的效率。实验结果表明，由于该方法的输入本身就包含了高层语义信息，因此有效嵌入向量的大小大大减少。这加快了嵌入式训练。此外，我们提出了一个加权策略，以加权不同的同义词集关系类型在所得到的WordNet图。实验表明，同义词集嵌入加权WordNet图比无重量的LSIM任务的行为更好。我们受益于一些WordNet关系的对偶性假设（例如，上义关系和下义关系），在一个策略中为它们分配相同的权重，称为对偶策略，并做了一些实验，显示了这种策略在具有（外）自边的无向WordNet图上的有效性。将所提出的同义词集嵌入（利用嵌入式图结构）的性能与最先进的同义词集em-床上用品（利用从成对同义词集相似性在其图竞争利益作者声明，他们没有已知的可能影响本文所报告工作数据可用性这些模型将在https://github.com/jafarinejad/Synset-补充材料与本文有关的补充材料可在在线版本中找到，网址： doi ：j.iswa.2022.200159。引用艾哈迈德， A.

下载后可阅读完整内容，剩余1页未读，立即下载