没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于向量空间分布式词表示的印地语词义消歧的有效估计Archana Kumari,D.K.洛比亚尔印度新德里贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院阿提奇莱因福奥文章历史记录:收到2020年2021年3月19日修订2021年3月20日接受在线预订2021年保留字:自然语言处理印地语词义消歧无监督学习聚类A B S T R A C T词义消歧对于提高自然语言文本的理解准确率具有重要意义。各种基于监督学习的模型和基于知识的模型已经在文献中开发的语言文本的词义消歧。然而,由于缺乏标记和标签数据,这些模型不能为低资源语言提供良好的结果。因此,在这项工作中,我们研究了不同的词嵌入技术的印地语文本的词义消歧。文献中的一些研究表明,这些嵌入已被用于不同的外语领域的词义消歧。然而,据我们所知,没有这样的工作存在的印地语。因此,在本文中,我们利用各种现有的词嵌入的印地语文本的词义消歧。此外,我们已经创建了印地语词嵌入的arti- cles从维基百科和测试使用皮尔逊相关创建的词嵌入的质量在这个方向上,我们进行了不同的实验,并观察到Word2Vec模型在所使用的印地语数据集上的所有嵌入中表现最好。在我们的方法中,所提出的模型直接采用用词嵌入方法训练的输入,并有助于使用已用于执行消歧的聚类来开发一个意义清单。实验结果表明,该方法的性能是温和的和称职的准确性。因此,本文介绍了如何WSD可以利用这些表示编码丰富的语义信息。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍自然语言处理(NLP)是人工智能和计算语言学研究的一个重要领域,涉及人类语言而不是计算机编码语言的处理。自然语言包含有用的信息,可以从文献中流行的非结构化文本中提取该提取的信息可以用于各种目的,诸如自动拼写校正、理解文本、问答系统等。这方面的一些例子如下。在输入信息时,我们使用自动更正,在谷歌搜索查询中,我们也使用自动完成,以理解外语文本,*通讯作者。电子邮件地址:archan49_scs@jnu.ac.in(A.Kumari)。沙特国王大学负责同行审查制作和主办:Elsevier我们使用谷歌翻译,谷歌助手用于语音命令,Cortana,Alexa用于语音交互等。因此,我们可以说我们在日常生活中使用NLP工具及其应用程序。日常生活文本分析作为NLP的应用之一,在NLP应用中起着非常关键的作用,因为世界各地的用户每天在数字平台上产生大量的文本数据。NLP的其他应用是信息提取、语义分析、文本摘要、文本分类和会话代理。Manning和Schutze(1999)中的作者提供了对自然语言处理的广泛介绍和理解。人类语言具有高度的语境敏感性和多样性,因此产生了各种各样的歧义.这些歧义对人类语言的处理提出了重大挑战。虽然人类具有与生俱来的上下文理解能力,但要让计算机理解目标词的真正含义却是一项艰巨的任务。自然语言处理领域的研究者们已经提出了一些技术,这些技术可以帮助理解有限意义上的歧义自然语言文本。然而,捕捉意义和语境之间的关系仍然是自然语言处理中一个具有挑战性的任务。因此,一个词的上下文的计算表示是至关重要的,https://doi.org/10.1016/j.jksuci.2021.03.0081319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Kumari和D.K. 洛比亚尔沙特国王大学学报6093要求很高。单词的上下文有助于自动识别给定单词的适当含义。这一任务在文献中被称为词义消歧(WSD),是自然语言处理领域一个长期存在的研究问题。WSD被认为是一个AI完全问题,该问题是人工 智能 领域 中存 在的 最困 难的 问 题 WSD 的特征不 是最 终任 务(Navigli和Lapata,2010),而是各种下游NLP应用程序的中间任务,如问答(Ramakrishnan等人, 2003)、信息检索(Carpineto和Romano,2012)、文本摘要(Plaza和Stevenson,2010)、情感分析(De Albornoz等人,2010)、机器翻译(Vickrey等人,2005; Chan等人,2007年; Carpuat和Wu,2007年)。有大量的资源、算法和工具用于处理英语文本。然而,这不是像印地语这样的印度语言的情况因此,有必要探索印度语言NLP研究为了支持这一研究,必须有印度语的数据集、语料库和各种工具。然而,这些资源要么是不可用的,要么是它们的可用性是有限的印度语言,因此被称为低资源语言。因此,要消除低资源语言中词义的歧义,可能必须依赖于完全无监督的学习技术原始数据很难被机器分析和解释,因为这些数据本质上是嵌入将原始数据处理成某种结构化的格式,这些格式可以方便地由机器处理。一些应用程序,如情感分析,客户评论,电影推荐,包括字符,单词,字符串和分类属性的数据集,数学运算是具有挑战性的。图像或语音识别系统中的大多数信息都是具有密集向量的高维数据,如图像的像素强度和音频的频谱图但是,在非结构化文本数据的情况下,我们需要处理单个单词。例如,基于计数的方法为每个词生成唯一的标识符,并且不能表示词之间的语义特征、上下文和结构,并且因此导致稀疏向量。这些低维数据导致较差的结果或模型。近年来,在理解将数据表示为向量的基本需求方面取得了许多重大进展。因此,嵌入提供的主要好处之一是它们不需要注释数据集,因此嵌入是从现有的未注释语料库中派生出来的。Mikolov等人(2013a)开发的词嵌入模型被认为是自然语言处理领域中语言建模和特征提取领域最重要的突破本文件其余部分的结构如下。第二部分,给出了词向量模型的详细历史背景的调查,概述了NLP中的一些词使用嵌入,以及印地语WSD中的工作此外,第3节讨论了四种单词表示技术在第4节中,我们介绍了在各种NLP任务中使用单词表示技术。第5节讨论了拟议模式的框架,第6节讨论了结果和分析。最后,第七部分给出了结论和未来的工作。2. 背景大多数最先进的自然语言处理应用程序广泛地暗示了词嵌入,因为它们有可能使用未标记的数据集来封装文本的句法和语义特征。NLP文献提供了利用词嵌入的NLP应用程序的各种实现。 Bengio等人,2003年)在单词的分布式表示的神经语言模型方面做了开创性的工作。另一个种子Mikolov等人(2013)进行了如下所述的开发。作者对利用神经网络的词嵌入在这项研究中,作者描述了两种基于预测的方法来开发词嵌入-最近,在(Levy和Goldberg,2014)中发现Word2vec隐式地分解了单词上下文矩阵,其中矩阵的每个值由单词和上下文对的逐点互信息(PMI)组成。Pennington等人,2014年)预计全球向量(GloVe),它集中在表示的全球上下文的话。他们使用语料库中单词共现的统计数据来捕捉全局上下文。FastText(Bojanowski等人, 2017),这是一种用于为庞大数据集开发单词嵌入的浅层表示。在(Joulin等人,1607)的作者采用了Fast-tText单词嵌入以及n-gram特征,并表现出比深度学习技术更好的性能。在开发句子嵌入方面有一些值得注意的论文,特别是Sent2Vec(Pagliardini etal., 2018); FastSent(Hill等人, 2016 )和Doc2Vec(Le和Mikolov,2014),开始为愿景提供血肉。此外,在(Al-Rfou等人, 2013)提供了维基百科100种语言的训练向量。在文献中,几种技术已经开发了自成立以来的自然语言处理的水务署。这些方法大致分为基于知识的方法和基于语料库的方法。基于知识的方法依赖于外部知识资源,如叙词表、机器可读词典(MRD)、词典等。执行水务署的工作。另一方面,基于语料库的方法需要在训练(监督)或原始文本(无监督:不需要任何手动标记的数据)中为WSD进行语义注释的语料库。Lesk(1986)提出了WSD中使用基于知识的方法的显着作品之一,其中从一个歧义词的知识库中提取的每个意义定义与每个相邻词的定义进行比较具有最大重叠分数的意义被分配为目标词的意义。Lesk M.算法随后提出。其中一些报道于(Baldwin etal. , 2010; Banerjee 和 Pederson , 2002; Banerjee 和 Pedersen ,2003),和(Vasilescu等人,2004年)。2002年,Banerjee和Pederson的作者提出了一种利用WordNet 扩展Lesk方法的方法(Miller,1995)。他们探索和利用WordNet的层次关系来扩大WSD的上下文信息最近,在利用词嵌入的WSD模型的开发方面取得了其中一些如下。作者(Chen等人,2014)产生了一个统一的模型,用于词义消歧和表示,为通过WordNet sense Inventory访问的每个词义分配不同的表示。2015年,(Taghipour和Ng,2015)的作者提出了一种半监督WSD模型,该模型利用词嵌入来改善WSD结果。它们包括嵌入的自适应以及神经网络,并将这些嵌入应用到监督WSD模型中。在(Rothe和Schutze,1507)的工作中,作者提供了一种从标准词嵌入中学习词法和句法集合的嵌入的方法,称为自动扩展,该方法已被用作WSD 功能,以提高 WSD 模型的性能。Navigli与合著者在(Iacobacci和Racacio,2015)中研究了将单词嵌 入 到 WSD 系 统 中 的 各 种 技 术 , 以 增 强 其 性 能 。 Yadav 等 人(2014)首次尝试为印度语言开发自动WSD。他们利用了词汇知识库,印度理工学院孟买分校开发的印地语WordNet(Jha等人,2001年)。应用的想法是从WordNet创建单词的上下文,并将其与单词的上下文进行此方法输出同义词集的索引,该索引定义A. Kumari和D.K. 洛比亚尔沙特国王大学学报6094¼ð ÞðÞH不不 t-nt-1t 1敦X这个词Tandon(2009)提出了一种方法,计算存在于上下文和从字典中提取的意义定义之间的单词数量。上下文由句子中歧义词的来源组成,基于知识的方法大多以Lesk方法为基础,对语义定义的获取方法和上下文与语义定义的比较方法做了一些修改Singh等人在2012年(辛格和Siddiqui,2012年),研究了停止词删除的效果,上下文窗口大小和印地语WSD的词干。他们使用印地语WordNet来找到歧义印地语单词的适当含义,并在含义定义和目标词之间使用重叠方法他们的模型在使用词干和停止词删除时,精度比基线提高了9.24%Sinha等人(2013)建议将Lesk方法的扩展用于印地语WSD。他们在上下文和意义定义之间进行了重叠通过从注释、同义词、上位词、例句等中提取词来扩展意义定义,并使用相邻词TFIDF¼TFt;dωIDFt其中TF t;d是术语频率,表示单词t在文档d中出现的次数,并且IDF t是单词t出现的文档的数量。3.2.1. Term频率术语频率概述了如何查找数据集中存在的单词的频率计数。通常,文本数据集包含可变长度的句子。因此,与短句子相比,长句子中出现的单词更频繁。数学上,术语频率定义为:TF编号:术语在文档中出现的次数该文档3.2.2. 逆文档频率围绕着一个模棱两可的词。最后,最大的重叠意义是消歧意义。 作者在(Khapra等人, 2013)分析了英语,印地语和三月特定领域的词义消歧,IDF编号:文件1/4log10出现该术语的文档数量阿西。在2000年代末,监督技术的准确性达到了一个平台,因此注意力转移到向量空间模型。3. 嵌入技术在本节中,我们对各种词向量表示进行了描述性研究,这些词向量表示有助于进一步发展我们提出的模型。3.1. 词袋模型或计数矢量化在将单词转换为向量方面,最基本的方法是计算每个单词在每个文档中的出现次数。该模型是原始数据的最直接的词向量空间表示。向量空间模型将数据表示为一个数值向量,使每一维都是一个粒子值。这种方法的基本思想是收集一组文档,这些文档可以是单词,句子,段落以及每个文档中所有单词的频率。该模型将每个文档转换为一个数字向量,其中每个维度是来自语料库的特定单词,而不考虑语法或语义。每个维度的值是该词在语料库中的频率,它们的出现或可以是加权值。正如它的名字所暗示的,每个文件都是自己的单词。生成的矩阵是一个列的集合,作为单词,行作为文档。默认情况下,计数矢量执行预处理,如小写,忽略单个字符,使用utf-8编码,标点符号和特殊字符。但它也提供了自定义的标记化和预处理,我们的方法已经利用这些标记化或预处理印地语单词。3.2. TF-IDF编码词频-逆文档频率(TF-IDF)是一个词的原创性的衡量标准,通过乘以一个词在文档中出现的次数与文档的数量这个词出现的地方。顾名思义,TF-IDF指的是然而,这些方法简单且易于实施,但有一些问题需要调查。鉴于它们的独热表示,我们无法推断它们之间的任何关系。此外,它也是内存效率低,因为我们浪费了大量的空间来存储这些表示的稀疏矩阵。为了解决这些缺点,我们需要像Word2Vec这样更好的表示模型。3.3. Word2VecWord2Vec是一个基于深度学习方法设计的预测模型。该模型计算单词的密集向量表示。这些表示是连续的和分布式的,这有助于捕获语义和上下文特征。Word2Vec是一种无监督架构,它将大量未标记的文本数据作为输入,并生成所有可能单词的词汇表,并将这些单词转换为向量空间中每个单词的密集嵌入。该模型遵循属于相似上下文的词共享含义,并且它们的向量表示将是相似的。Word 2 Vec范式采用两种结构--连 续 词 袋 结 构 ( CBOW ) 和 连 续 跳 格 结 构 ( ContinuousSkip-Gram),其中CBOW结构在提供具有相邻上下文词的窗口时预测目标词。CBOW假设预测不依赖于单词的顺序。因此,它忽略了单词的顺序。Skip-gram架构使用目标词来预测相邻上下文词的窗口。然而,Skip-Gram架构较慢,但对于不常见的单词Figs,性能优于CBOW。1和2.a) CBOW:CBOW提供了一个语言模型来将单词转换为单词嵌入。以往语言模型的预测依赖于语料库中的前置词。然而,Mikolov等人使用单词的上下文窗口,其考虑目标单词的前后单词。在数学上,目标词的概率(Ph)被定义为:1TP¼log pxjx···xX·· ·::xt1/2两个基本概念,即词频(TF)和逆文档频率(IDF)。在每个时间戳t,这些模型采用大小为n的上下文窗口,其中n是由xt表示的目标词之前和之后的词的数量。A. Kumari和D.K. 洛比亚尔沙特国王大学学报6095Xp. W 1/4wO;c Ic;jV;c;j.是的。 Σ不H≤i在目标语和语境中,c V是语境词,t V是目标词,V是词汇。表达式表示为:logPcv;tv2D概率函数概率函数(Mikolov等人,2013)计算在给定上下文位置处针对目标词出现的上下文词的概率表达式c;jj0¼0expuj0Fig. 1. 连续词袋(Mikolov等人, 2013年)。软最大概率w(c,j)是在第c个上下文位置上预测的第j个词;w0是在第c个上下文位置上存在的实际词;w1是唯一的输入词,并且uc是当预测第c个上下文位置的词时U向量中的第j个值为了最大化在第c个上下文位置上预测w(c,j)的概率,我们可以表示损失函数LCL¼ -logP wc;1;wc;2; ········ ;wc;C=wo ¼-log P wc;i=woc1该模型提供的另一个好处是无监督学习。作为无监督学习,它适用于任何未标记的文本。与其他向量空间模型相比,该模型具有内存效率。该模型的缺点是训练时间长,全softmax函数的计算在计算上昂贵且效率低。尽管word2vec有效地解决了CountVectorizer方法提出的问题,但它也有一些局限性。Word2Vec面临的最大挑战之一是它 无 法 处 理 数 据 集 中 不 存 在 的 单 词 这 些 词 也 被 称 为 词 汇 表 外(OOV)词。即使在容纳大量词汇的更大数据集上训练,它也可能无法映射一些不相关的单词。3.4. 快速文本图二、Skip-gram模型架构。b)跳克:Skip-gram模型从提供的目标词预测周围的词。Skip-gram模型(Mikolov等人,(2013)定义为不这种嵌入通过丰富子词信息来扩大Skip-gram的潜力。 该特征通过处理非词汇词来提高Skip-gram模型的性能(Bojanowski等人, 2017年)。它将单词分割成子单词(n-gram),并且单词的嵌入是所有这些n-gram的总和经过训练,我们有了所有n元语法的嵌入.他们可以很容易地找到稀有单词的矢量表示,因为他们的一些n-gram也共享任何其他单词的n-gram。同样,他们也可以处理词汇表中的单词 。 像 Word2vec 这 样 的 词 嵌 入 和 像 Glove 这 样 的 预 训 练 嵌 入Word2Vec可以为OOV字提供零向量或低幅度随机向量。但是,这些单词的FastText通过将这些单词分块到n-gram中并使用n-gram向量创建最终向量,提供了比随机向量更好的嵌入。对于较小的数据集,FastText的性能优于Word2Vec。对于庞大的数据集,词汇表涵盖了大部分因此,OOV词的问题并不影响P 联系我们≤mlogpxt1jxtWord2Vec的性能t1/2n4. 该方法Skip-gram模型的目的是估计对于所有训练目标-上下文可能对,将cV预测为tV的上下文的概率,其中D是所有可能对的集合在本文中,我们提出了一个模型,执行嵌入和聚类。使用未标记的数据集-mA. Kumari和D.K. 洛比亚尔沙特国王大学学报6096我nX← ðÞ←← ðÞðÞ-←ðPi用于创建单词嵌入和聚类。此外,相似性测量用于找到歧义词的上下文,使得它可以以高精度被消歧。4.1. 模型训练该阶段采用词嵌入和聚类的方法,将词嵌入到一个包含相似度、语义和上下文的高维空间中的各个簇中我们认为每个聚类都是目标词可能出现的上下文。一个词可以同时出现在许多簇中。4.1.1. 训练数据集用于训练的数据集由55,000个文档组成该模型被训练用于基于同现和相似性度量生成嵌入和形成聚类文件下一步,该模型探索每个输入单词,包括预先定义的意义清单,以确定单词的可能意义。在分析所有的词之后,它将最可能的意义归因于一个歧义词。我们使用余弦相似度作为度量来计算最合适的意义。我们使用上面讨论的聚类技术来形成感官的向量表示。我们不显式地计算感官库存,而是使用上下文词wkey的词嵌入作为歧义词w的意义表示si假设有n个单词的句子被定义为{w1;w2; ····· ;wj;w;wj<$1; ··· ;wn}。歧义词w的上下文被公式化为:n公司简介1/1然后,最可能的意义sω是上下文词由来自不同领域的维基百科文章组成sω¼argmaxcwωsi4.1.2. 构建句子向量在本文中,我们通过对所有的词嵌入向量求和来构造句子向量句子向量的构造如下jwjS¼ Vecwi1/4w是一个单词列表。|W|是单词列表的大小。Vec是一个嵌入函数,它为句子中的每个单词提供矢量表示。4.1.3. 聚类上下文聚类方法创建表示词上下文的向量,并将这些向量划分为簇。在这里,我们将上下文定义为相邻词,即。窗口大小的上下文。随后,所得到的聚类直接用作感测库存。此外,替代聚类方法形成表征歧义词的替代的向量这些向量是基于上下文从语言模型生成的。词义是通过聚类这些向量形成的,类似于前面描述的方法。我们使用上下文聚类技术来聚类我们的嵌入。4.1.4. 余弦相似度这个指标用于评估文本的相似程度,而不管它们的大小。更准确地说,它计算在高维向量空间中表示的两个向量之间的余弦角。这种相似性度量比其他度量具有优势。即使两个向量由于文档的大小而彼此远离,它们也可以被紧密地定向。余弦相似性与向量之间的角度成反比。两个向量Ai和Bi之间的余弦相似度的数学公式如下:SI jjcwjjωjjsijj4.3. 微调参数大小是表示每个标记的密集向量的维度。维度应该与数据的大小成正比。 窗口给出了要考虑的上下文的大小一个目标词。窗口尺寸越小,单词之间的相似性越高。Epoch是要训练的迭代次数。Min_count参数忽略不属于定义值的单词。worker参数提供要使用的线程数。在进行各种实验后,我们发现了配置(大小=100,window = 10,epoch =10,min_count = 2,worker = 3),这为我们的任务提供了有希望的结果。 HWSD与一些配置进行了检查,发现的稳定性其中可以提取相关的感觉。4.4. 所提出方法本节提供生成嵌入的伪代码以及使用这些嵌入进行词义消歧的机制。用于生成嵌入的伪代码输入:A数据集,stopwordsList,输出:在训练语料库中嵌入每个单词:1. 文件提取文件数据集2. 句子列表Read files files3. 句子列表空4. 对于句子列表中的句子,请执行以下操作:a. Punctremoved←Remove Punctuation标点符号句子b. 空间removed←Remove spaces删除点removedPnAi Bic. Preprocessed←Remove newline tabs删除空格5. 令牌←令牌化预处理sPnA2sPnB2我6. Duplicate removed Remove duplicates Tokens联系我们4.2.消歧过程所提出的系统从给定的输入中选择歧义词,并将它们与定义的上下文中最合适的意义相第一步是预处理,包括删除标点符号、非印地语单词和停用词。在下一步中,预处理的文本被标记化。我们使用Word2vec来开发歧义词的嵌入。在7. 对于重复中的单词,请执行以下操作:8.如果stopwordsList中的单词:9.Remove word10.否则:11.StopWord RemovedStopWord12.模型← 火车站StopWord Removed13.Savedmodel←Savedmodel14.返回保存模式余弦函数AI; BIII I我我ÞA. Kumari和D.K. 洛比亚尔沙特国王大学学报6097←-←←←使用HWSD嵌入的伪代码输入:句子(S),歧义词(w),上下文大小(C),词嵌入(W2V)输出:歧义词w1. WordListW StopwordRemoval(标记化(预处理))2. GetTargetWordIndex(W,w)3. context C←GetContext(W,wi,C)4. CV←GetContext向量(W2V(C))5. OccurenceList←GetEachOccurrence(W)使用第3行中的代码生成单词嵌入。使用第4Sentences = [[gla TV6. 对于OccurrenceList中的每个 Occ,执行以下操作:7.Clusters = GetContext(Occ)8. 对于集群中的每个集群si,执行以下操作:9.找到最小质心(平均上下文)10. 对于集群质心do中的每个质心ci:11.cossim评分(CV,ci)12. HighScoremax(分数)13. GetSense([W2V(HighestScore))]14. 回线检测算法1显示伪代码,生成单词嵌入。首先,必须将数据集提供给系统。第1-2行,从数据集中提取句子列表并进行大小合成.第3行,将变量List_of_sentences设置为空列表。在第4行中,通过扫描句子列表,我们删除了标点符号和空格。在第5行中,每个句子都被预处理并标记到标记列表中。第6行,删除重复项。从第7-11行开始,停止词从标记列表中删除。在第12行中,模型被训练以学习第13行中保存的嵌入,然后重新用于词义消歧任务。现在我们有了一个带有单词嵌入的模型第二个算法提供了关于利用词嵌入进行词义消歧的方法的伪代码。最初,必须向系统提供句子S、歧义词w、上下文大小C和学习的词嵌入W2V。在第1行中,对提供的句子S进行预处理,然后将其标记为单词列表。停止词将从单词列表中删除。第2行,遍历单词列表以得到目标单词W并找到目标单词索引wi。在第3行中,访问目标词的上下文,并且在第4行中使用W2V开发了它们的嵌入。上下文C定义了目标词的与上下文大小有关的相邻词。在第4行中,上下文向量CV由针对每个上下文生成的嵌入形成。 在第5行中,它形成了一个包含目标词的所有出现的出现列表。在第6-7行中,对于出现列表中的每个出现,形成每个出现的上下文的集群。在第8-9行中,对于每个聚类,我们通过平均每个出现的上下文来找出每个聚类的质心。在第10-11行中4从cossim(CV;ci).在第12行,我们使用max函数找出最高分。在第13-14行中,根据最高分数返回消歧的意义作为系统的输出。4.5. 说明性示例算法1. 输入:数据集,stopwordsList让我们考虑一个玩具数据集来说明和讨论算法的各种参数。第1 -2行中的代码将句子的大小调整为以下格式,该格式适用于म ्य ालया तिरवनन्रम ाल त्विवम है जो कि रय की रलजधलनी भी宿舍是特里凡得琅或特里凡得琅,这也是喀拉拉邦的首都在执行标记化之后,停止词被删除(第7sentences = [[中文][’’(’Channel’)],[’’(City), ’’(Bobber), ’’(River), ’’(bank),(城市)],"扎甘“(扎甘),”地区“(地区),”首都“(首都)],"特里凡得琅”(特里凡得琅),“印度”(印度),“邦”(邦),“喀拉拉邦”(喀拉拉邦),“地区”(区)],“芒果”(芒果),“木材”(木材),“使用”(使用),“装饰-装饰”(装饰),“物品”(物品),'制造'(make)],"‘’(raw),‘’(eat)],词汇表中的单词总数在下面从第12行开始训练后给出。单词嵌入仅适用于Vocab列表。Vocab =’’, ’’, ’’, ’’, ’’, ’’, ’’,’’,’’,第13-14行输出:训练语料库的嵌入:算法2.输入:句子(S),歧义词(w),上下文大小(C),词嵌入(W2V)test_sent=算法2的输入被提供为S=“Ram eats mango "(Ram eats mango),w= Ram(mango),C = 1,W2V。第2行提供了在预处理、标记化和从测试句子WordList W =“Ram”,"Ram“(芒果),”Ram“(吃)]中去除停止词之后的WordList W。在下一步中,我们访问目标词w i的索引和目标词的上下文C。目标词索引w i= 1,上下文C ="Ram“," eats”]。利用上下文C和算法1设计的词嵌入表示,我们构造上下文向量CV。上下文向量CV = W2V[“上下文向量”]+ W2V[“上下文向量”]。occurrenceList变量由索引组成所有目标词在语料库中的出现率。这里是Occur-rencelist =(Baldwin et al.,2010),并从所有事件的上下文形成聚类。Clusters = GetContext(22).接下来,我们计算每个聚类ci的聚类质心。这里只有一个目标词在样本数据集中出现;只有一个聚类质心。聚类质心(ci)= 0.0007170464247489386. CV 是通过对目标词的上下文的向量求平均来找到的CV =0.0007170464247489386。然后计算所有可能的聚类质心和上下文向量之间的余弦相似度,分数←cossimCV;c i,评分=0.9213711480585373。HighestScore<$max Score<$:可以获得的潜在感官A. Kumari和D.K. 洛比亚尔沙特国王大学学报6098从最高的cossim分数。Sense = GetSense([W2V(HighestScore)]),它提供了一种感觉,如芒果(Mango)。4.6. 测试在本节中,我们将解释用于消除测试文档中存在的歧义词的意义我们使用word2vec词嵌入来表示测试句子中的词到高维向量空间中。为了消除歧义词的适当含义,计算目标向量与聚类中心之间的余弦距离,以达到最对称的聚类或距离目标词最近的具有最小余弦距离的聚类被指定为最可能聚类,该最可能聚类又对应于目标歧义词的最可能意义。4.7. 嵌入模型和评估在这一部分。我们简要概述了使用上述嵌入技术开发的模型4.7.1. 嵌入模型本节简要介绍了利用3.1节中描述的嵌入技术创建的模型1) Bag-of-Word(Count Vectorizer):执行自定义标记化和停止字删除。我们将词汇量限制在最多的10,000个n-gram,并删除其余的(max_features = 10000)。此外,我们排除了数据集中两个文档中出现的罕见单词(min_df = 2),我们还删除了最频繁的单词。如果一个词出现在数据集的85%中,则该词是最频繁的(max_df = 0.85)2) TF-IDF:我们采用Scikit-learn库进行建模,这与使用的词袋模型配置类似。smooth_idf = True(计数加1,防止零除法。)3) Word2Vec:我们利用Gensim库来实现Word2Vec。为了训练这个模型,我们使用了超参数,例如维度(以百为单位)和窗口大小(值为10)。我们还测试了表1中描述的各种配置,并且使用以下配置导出最佳表示:dimension = 100,min_count = 2,Context window size = 10,epochs = 10,worker = 4,具有并行系统。我们已经对C弓和Skip-克使用了相同的配置。4) FastText:我们使用genism库为skip-gram和Cbow架构创建了fasttext嵌入应用的配置是n_gram = 5,epochs = 10,negatives = 10。排除频率小于2的单词,并将其视为词汇表外单词。所考虑的基线配置是-n_gram = 34.7.2. 评价我们已经进行了内在和外在的嵌入评估。对于内在评价,我们使用相似性或相关性度量。质量评估与词的相似性得分和使用我们的嵌入模型生成的分数之间的相关性。从手动创建的单词相似性数据集计算单词相似性得分。对于外部评估,我们已经证明了嵌入的意义消歧任务的效用。此外,我们使用Word2vec模型评估了我们的模型的性能,使用第4.7节中讨论的配置。我们比较了我们的模型与其他各种技术用于印地语WSD。5. 实验结果本节介绍了通过使用我们提出的方法获得的实验结果。首先,给出了用于生成嵌入的不同参数及其值。我们进行了10次迭代,以微调我们所有实验的参数。此外,它由(Faruqui等人,2015),10次迭代足以收敛并避免过拟合。我们使用Skip-gram架构,其中负采样是固定为10,以10个字的窗口将频繁字子采样为10- 3,并且维数为300以用于表示向量。5.1. 数据集我们在印地语维基百科文章上训练所有模型,这是一个55,000篇文章的集合我们考虑了44,000篇文章作为训练集和11,000篇文章的验证集我们进行了几个预处理步骤进行清洁。我们删除了所有的特殊字符,转义换行符,转义制表符和空格。接下来,我们使用我们手动策划的停止词列表删除了所有停止词。最后,我们将文本标记成句子和单词。我们对44,000个文件进行了实验,这些文件包含70,331,501个句子。在预处理6866900之后,训练唯一的令牌以生成嵌入。最终的数据集由1102个文件和598,703个句子组成,总共有6,866,900个标记。5.2. 内在评价在这里,我们使用相似性或相关性度量来评估为我们的任务生成的嵌入的效率消除歧义。我们采用了由IIIT Hyderabad开发的印度语言的单词相似性数据集(Akhtar et al.,2017),这是由人类注释者判断的。它包含相似性数据库,其中包括7种印度语言的200个单词对的相似性结果。在这个任务中,我们评估如何好我们的嵌入是在捕捉相似性,根据相似性数据集。我们首先计算词之间的余弦相似度,然后将两种度量相互比较表1为训练嵌入测试配置。配置尺寸窗口大小历元负培训时间(分钟)11005200515.3772100103001013.877310012400513.0574100155001019.9475200520059.2256200103001015.583720012400515.4668200155001023.058A. Kumari和D.K. 洛比亚尔沙特国王大学学报6099表2单词相似性结果。Dataset FT-W FT-WC INLP我们的嵌入皮尔逊相关(Pearson Correlation)印地文使用Pearson相关性。相关性的值越接近1,嵌入越好。表2显示了印地语的各种数据集的评估结果。我们使用维基百科(FT-W)上的FastText 嵌 入 比 较 了 我 们 的 嵌 入 ( Bojanowski 等 人 , 2017 ) ;FastText Embeddings on Wikipedia Crawl(FT-WC)(Grave etal.,2018)和印度NLP嵌入(INLP)。IndicNLP嵌入的平均性能优于基线嵌入。5.3. 例如这个例子举例说明了建议的WSD系统,用于消除单词“垃圾邮件”的歧义。该目标词可以具有如下可能的意义:意义1:回答(Answer)和意义2:北(North图三. 训练损失(在10 epoch时)。方向)。这个预处理的训练数据已被用于为每个词生成维度= 100、窗口大小= 10和时期= 10的唯一词嵌入以下部分显示了使用第3.1.3节中给出的公式在每个epoch(迭代)使用聚类,这些向量被分成基于语义相似性的聚类。 在定义了聚类之后,我们使用我们的测试实例和一个模糊的单词“方向”(可能的含义是方向“方向”)来测试系统。测试实例:测试实例|(喜马拉雅山位于印度北部)。然后从训练的模型中生成歧义词的嵌入(维数=100)。计算测试词向量和聚类中心之间的余弦距离聚类1的得分为0.7097,聚类2的得分为0.741。因此,聚类2被指定为与义项2对应的歧义词的义项,并将其消歧为北向(North direction)(见表3)。 3和45.4. 训练时间5.5. 训练词嵌入向量在本文中,我们使用印地语维基百科数据集来开发包含6,866,900个单词的单词嵌入,并为100个WSD测试示例提供了54%的准确率的单词嵌入向量训练是使用Genism和几种参数配置完成的这些测试示例是从各种在线来源收集的,如www.hindlish.com , shabd-kosh.raftaar.in等。我们的单词嵌入向量的训练时间为1810.829秒。所有实验都使用python编程语言(scikit-learn库(Pedregosa等人,2011)和Gensim(Reh等人, 2010年)。5.6. 上下文大小上下文大小是围绕目标词的词的数量,其是系统参数。本实验的目的是研究上下文大小对结果的影响。所考虑的实验上下文大小在2-10的范围内表4中的结果表明,见图4。 训练损失图。A. Kumari和D.K. 洛比亚尔沙特国王大学学报6100表3157,835个词汇的各种嵌入技术之间的训练时间差异。嵌入式架构培训时间(分钟)Word2vec-Skip-Gram11.836Word2vec- CBOW3.451FastText-Skip-Gram21.006FastText-CBOW12.6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功