没有合适的资源?快使用搜索试试~ 我知道了~
© 2014 Paweá Kavidzia,Maciej Piasecki,Jan Kococo,Agnieszka Indyka-Piasecka.Elsevier B.V.出版,信息工程研究所可在www.sciencedirect.com在线获取ScienceDirectIERI Procedia 10(2014)38 - 442014未来信息工程波兰语文本Paweá Kavidzia1,Maciej Piasecki,Jan Kococovic,Agnieszka Indyka-Piasecka弗罗卡奥理工大学,ul.Wybrzee Wyspiaskiego 27,Wrocáaw 50-370,Poland b第二附属机构,地址,城市和邮政编码,国家摘要在本文中,我们提出了一个扩展版本的基于图的无监督词义消歧算法。该算法是基于激活扩散方案的基础上动态构建的文本词和一个大型的wordnet的基础上的图形。该算法最初是为英语和普林斯顿WordNet提出的,后来被改编为波兰语和plWordNet。提出了一种基于语义相关度知识的扩展方法。扩展算法进行了评估,对手动消歧语料库。我们观察到的情况下,更短的文本上下文进行消歧的改进。此外,该算法在文档聚类任务中的应用表现出了改进.© 2014由Elsevier B.V.发布 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究院负责评选和同行评议关键词:词义消歧,wordnet,文本分类,plWordNet1. 介绍文档在信息检索中通常表示为词袋,即词的集合(词及其出现次数)。文本的语言结构很少被考虑在内,主要是由于自然语言处理的鲁棒性有限(即处理的精度和速度有限)。然而,词袋模型导致即使在词水平上的信息丢失许多1* 通讯作者。联系电话:+48 71 320 42 24;传真:+0-000 - 000-0000。电子邮件地址:pawel. kedzia@pwr.wroc.pl。2212-6678 © 2014由Elsevier B. V.发布 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究所负责的选择和同行评审Paweetzia Kavidzia等人/ IERI Procedia 10(2014)39单词是多义的,并且可以表达多种含义,例如,在Princeton WordNet 3.1(PWN)(Fellbaum,1998)中,单词car对应于5个名词含义:car1用户查询中的词与文档中的词的不正确匹配可能导致结果的不正确检索或排名。词义消歧(WSD)方法可以潜在地帮助在几个信息检索(IR)任务中,其中用户信息需求规格比几个词长,例如在问题分类,文档分类和文档聚类。然而,监督式词义消歧工具(基于应用于用词义手动注释的文本语料库的监督式机器学习算法开发的)表达了相对较好的准确性,但覆盖范围仅限于语料库中注释的单词。这样的语料库标注是非常费力和昂贵的,因此典型的覆盖范围从100到最多几千字。无监督词义消歧方法通常基于从文本语料库中进行词义归纳,但其准确率远低于有监督方法的准确率,并且覆盖率仍然很不理想(并非所有词义都能得到很好的表示)。然而,还有另一组无监督的WSD方法-使用词网关系图的算法(参见第二节)。2)以及扩散激活方案以找到与周围文本段落匹配的意义。我们的目标是使基于扩散激活的WSD算法适应不同于PWN的词网,即波兰语plWordNet,以及不同于英语的语言。此外,我们希望扩展wordnet与知识资源获得的文本语料库,并建立一个WSD工具的实际应用。2. plWordNet在基于激活扩散的词义消歧(SA-WSD)中,词网被用作两个角色:作为定义每个词的所有意义的意义库,以及作为通过词汇语义关系描述意义的知识库。词网由同义词集、词汇单位和词汇语义关系组成。一个词汇单位是一对:一个词加上意义数,例如car2。同义词集是由一个或多个词汇单位组成的近义词的集合。每个同义词集代表一个唯一的词汇意义,同义词集标识符可以代表词汇意义。词汇语义关系是词汇系统中词汇单位之间的二元意义联系。词汇语义关系在词网中被编码为同义词集(基本同义词集)之间或词汇单元之间的关系,例如,来自PWN 3.1的同义词集{car1,auto1,automobile1,{bumper2}。plWordNet 2.1(plWN)是一个巨大的波兰语单词网,其大小接近PWN的大小:~161 000个词汇单元,~118 000个同义词集和~108 000个唯一单词。词汇单位由40多种不同的词汇语义关系描述。plWN是在波兰语语料库的基础上开发的,它比PWN提供了更好的语料库词汇覆盖率和更高的关系密度。然而,plWN几乎没有注释的同义词集(短文本意义描述),密集使用的SA-WSD方法。3. 分布式扩展WSD提出了许多基于图的WSD方法,例如Gutiérrez等人2012,Tsatsaronis等人2010,Mihalcea和Figa2004,Agirre和Soroa 2004,Navigli 2006,Sinha和Mihalcea 2007,Agirre和Soora 2008]。在我们的工作中,我们遵循Agirre和Soroa 2004年提出的基于Page-Rank的方法[Agirre和Soora 2008,Agirre et al.2009,Agirre et al. 2010]。关键概念是:词汇知识库(LKB)40Paweetzia Kavidzia等人/ IERI Procedia 10(2014)描述词元和概念之间联系的词元(词类型)。LKB可以表示为图G =(V;E),其中V是概念集合,E是概念集合中的关系集合,即ei,j E<是无向关系(vi,vj),其中vi,vj<$ V。这些关系对应于词网的词汇语义关系,并赋予它们权重。基于图的WSD构建与文本片段中包括的词相关的图,接下来将排名函数应用于图,从图中选择具有最高最终排名值的概念,并最终将它们分配给文本中的词。Agirre和Soroa 2004 [Agirre和Soora 2008,Agirre等人2009,Agirre等人2010]使用PWN关系图作为LKB的基础。Agirre和Soora在2009年提出了将Page-Rank方法用于WSD的想法。基本的PR算法可以由状态变化方程描述:Pr = cM Pr +(1 - c)v其中v是具有N维的向量(即图节点),Pr是排序值的向量。所有元素的初始值都设置为1/N。M是大小为NXN的概率矩阵,并且如果存在链接vi和vj的边,则Mij= 1/di,否则为0,其中dj是图中vj节点的度,并且c是阻尼因子(通常设置为<0.85,PR迭代地运行预定义的迭代次数从文本上下文中消除单词的歧义是通过以下方式完成的:从文本上下文中选择与词元相关联的同义词集,基于所选择的同义词集构建词网关系的子图,在子图上运行PR,并基于最终节点值选择适当的同义词集。该基本方案可以在消歧之前通过使用个性化向量v来扩展。在这两种情况下,结果都是将所选同义词集分配给文本单词。上下文可以是一个或多个句子。Agirre和Soroa 2004 [Agirre和Soora 2008]提出了一个稍微修改的PR:=11v我J式中,λ是阻尼系数。他们还引入了对初始向量v值的修改估计,根据该估计,值仅集中在包括与被消歧的文本单词相同的词元的节点上。因此,概率质量不会分布在整个图上-这种方法称为个性化页面排名(PPR)。子图概念链接首先来自文本词所选择的词网关系链接同义词集。将添加指向同义词集的链接,该同义词集对应于同义词集注释中的单词(先前选择的)。据推测,这些注释已消除了意义上的歧义。通过这种方式,新的概念从注释中添加到更大的子图中,并提供更多的信息在我们的例子中,plWN几乎不提供注释,注释也没有消除歧义。不幸的是,来自注释的额外链接导致SA-WSD算法的显著改进。为了补充缺失的信息,我们使用语义相关性度量(MSR)作为子图链接的额外来源。MSR为成对的单词分配一个数值,使得语义上接近的单词比不相关的单词接收更高的值。MSR是建立在一个大型语料库中的单词分布的统计分析的基础上,即出现在类似的语言环境中的单词由类似的特征向量描述,并接收更高的相关性值。对于这里提出的工作,我们使用了Piasecki等人2009年提出的MSR,其中单词出现由一组与其他单词的基本句法关系描述,共现频率由PMI加权,相关性由余弦度量计算。使用MSR,我们构建了一个扩展的LKB,其中添加了额外的概念的基础上,从MSR的最相关的词。对于每个词wi,我们从MSR获取与wi最相关的k=20个词的列表SWi。对于列表SWi中的每个单词wj,我们将包括wj的所有同义词集作为附加概念添加到消歧子图中,以及这些同义词集与子图中已经存在的同义词集之间的所有链接,例如,基于文本的子图中的385 370同义词集关系的初始列表在输出图中扩展为234 6834条新边。DPaweetzia Kavidzia等人/ IERI Procedia 10(2014)414. 评价WSD算法可以通过将其决策与人类判断进行比较来直接评估,也可以通过将该算法作为工具应用于文本处理任务来间接评估。4.1. 语料库评价为了进行比较,我们使用了波兰语KPWr语料库的一部分[Broda et al. 2012],该语料库已消除了意义歧义。这部分包括1996篇文献,14022个词和60个独特的词元。WSD注释包含有关适当的plWN同义词集的信息,例如: orth>dni/orth> base>dzie ctag>subst:pl:nom:m3/ctag>/lex>....dzie-2/prop> 其中dzieb2`a day我们的算法与注释相关的精确度和召回率在表1中呈现,其中plWordnet数据源意味着子图仅包括基于文本词从plWN添加的关系,MSRkbes 20句子上下文类型描述了用于子图构造的文本上下文的大小:逐句(初始向量v在PPR中具有来自句子的词元的节点中赋值)或一次整个文档表1.个性化页面排名的注释KPWr语料库的精度结果,迭代30次。数据源上下文类型名词精度动词精度plWordNet Sentence 0. 340. 24文件全文MSRkbest20句子0.38 0.0全文档0.37 0.0plWordNet +MSRkbest20判决文件全文最好的结果是突出显示的。在所有配置中,召回率等于0.88。在MSRkbes20数据源的情况下,for动词的精度等于0,因为所使用的MSR仅覆盖名词。使用20个最相关的单词只在句子作为上下文的情况下改善了结果。一个潜在的原因是,前几个词有很高的相似性,但后面的词没有,例如,对于单词subst:opatrznović“普罗维登斯4.2. 按应用程序进行由于可用的文档集合,对文档聚类进行了应用程序评估。我们使用了两种不同的数据源,两种不同的表示:TF和TF/IDF的两种类型的功能(词袋的正字法形式和plWN同义词对应的文本单词)。第一套文件来自波兰语维基百科(pl.wikipedia.org)。它包含来自4个类别的40个文档(每个类别10个文档):行星(表2中的P),城市(C),猫科动物(F)和犬科动物(A)。在评价过程中,我们使用CLUTO系统[Tagarelli和Karypis 2008,Zhao和Karypis 2005],42Paweetzia Kavidzia等人/ IERI Procedia 10(2014)聚类表2给出了使用G1'准则函数、4个聚类、余弦相似度函数和TF文档表示的RBR聚类方法的结果。表2.使用RBR方法、G1'准则函数、余弦相似度和4个聚类对Wiki数据集和同义词集特征进行聚类。类大小ISimISdevESimESdev熵纯度PCF一0100.3410.0600.0190.0040.0001.000010001100.2990.0450.0210.0060.0001.00010000290.2100.0230.0330.0100.0001.00000093110.1820.0200.0290.0080.2200.90900101G1'=510,熵:0.062,纯度:0.974准确度= 97.5%纯度和熵指标(一般和所有子类)几乎是完美的。只有一份来自犬科的文件被错误地归类为猫科。这是关于鬣狗是有关犬科,但他们属于猫科动物分类。因此,它可以被视为正确的聚类。在表3中,示出了相同数据集的词袋特征的结果。它们比WSD同义词集功能更糟糕。表3.使用RBR方法、G1'准则函数、余弦相似度和4个聚类对Wiki数据集和b-o-w特征进行聚类类大小ISimISdevESimESdev熵纯度PCF一090.2260.0200.0130.0020.2170.889010001100.1840.0230.0100.0020.0001.00010000290.1510.0120.0150.0060.3950.66700363110.1430.0100.0150.0030.4070.6360074G1'=470,熵:0.256,纯度:0.795准确度= 82.5%第二个数据集来自KPWr,包括3个类别的30份文件:政府(表4中的G)、科学(S)和技术(T),每个类别10份文件。维基百科数据集的最佳配置结果见表4。表4.利用RBR方法、G1准则函数、余弦相似度和4类聚类、KPWr数据集和同义词集特征对聚类结果进行类大小ISimISdevESimESdev熵纯度GS不0130.2680.0610.0650.0250.8290.462166180.4180.0790.0370.0200.0001.000800280.1920.0270.0780.0390.5000.500143G1'=430,熵:0.616,纯度:0.621准确度= 58%在该数据集上,获得的结果比维基百科上的结果更差(表5中的词袋特征也是如此)。只有政府类别的文件才有可能分开。这可能是由于KPWr中的文档比维基百科中的文档更复杂和更长。表5.利用RBR方法、G1准则函数、余弦相似度和4类聚类、KPWr数据集和b-o-w特征对聚类结果进行类大小ISimISdevESimESdev熵纯度GS不0130.4970.1110.1050.0190.6480.5381751100.3200.0910.0480.0470.2340.900910Paweetzia Kavidzia等人/ IERI Procedia 10(2014)432019 - 06 - 25 0.087 0.111 0.041 0.730 0.500 0 2 4G1'=392,熵:0.447,纯度:0.655准确度= 71.5%5. 结论(MP)大词典词义消歧算法的应用带来了非常令人鼓舞的结果。WSD在消歧语料库上测试的有限准确性表明,在文档聚类方面有所改善。基于扩散激活的词义消歧算法很容易适应新的语言和新的词网。因此,从这个角度来看,即使是与人类判断相比较的评价也可以被视为积极的。为了补充plWordNet中缺失的信息(即注释),我们使用了一个语料库衍生的语义相关性度量,它提供了自动提取的单词之间的语义关联。利用MSR的信息对WSD算法进行扩展,在较短的上下文中得到了改进,但在较大的上下文中精度有所下降。有明确的需要,进一步研究确定MSR参数适当的WSD和进一步探索的语料库派生的信息在SA WSD。致谢。波兰国家研发中心项目SyNaT和欧洲联盟在欧洲创新经济方案项目NEKST内POIG.01.01.02-14-013/09引用[1] 尤安·古铁雷斯索尼娅·巴斯克斯安德烈斯·蒙托约基于图的关联语义树和N-团模型的词义消歧方法。计算语言学和智能文本处理LNCS卷7181,2012年,第225-237[2] George Tsatsaronis,Kjetil Norvag和Kjetil Norvag:基于无监督图的词义消歧的实验研究,LNCS第6008卷,2010年,第184-198[3] R. Mihalcea、P.Tarau和E.费加语义网络上的网页排名及其在词义消歧中的应用。在Proc. ofCOLING,2004年。[4] E. Agirre和A.索罗阿用于词义消歧的个性化网页排名。在Proc. Of EACL,第33-41页[5] R.纳维里具有结构语义互连的在线词义消歧。在EACL的程序中,2006年。[6] R. Sinha和R.米哈伊恰使用词语义相似性度量的无监督基于图的词义消歧。载于公务员制度委员会议事录,2007年。[7] Eneko Agirre和Aitor Soroa。使用多语言中央知识库进行基于图的词义消歧。《语言资源与评价》,2008年。艾拉[8] Eneko Agirre,Oier Lopez De Lacalle,and Aitor Soroa.特定领域的基于知识的wsd:比一般的监督wsd性能更好。在第21届国际Jont会议的会议记录上,IJCAI[9] Eneko Agirre,Aitor Soroa,and Mark Stevenson.基于图的生物医学文献词义消歧。Bioinformatics,26(22):2889[10] Bartosz Broda,Michaá Marciczuk,Marek Maziarz,Adam Radziszewski and Adam Wardyzewski:KPWr:Towards a Free Corpus of Polish.LREC 2012。[11] 安德里亚·塔加雷利和乔治·卡里皮斯。一种基于分段的多主题文档聚类方法。文本挖掘研讨会,SIAM数据挖掘会议,2008年。[12] 赵莹和乔治·卡里皮斯。文档数据集的层次聚类算法。数据挖掘和知识发现,第10卷,第2期,第10页。141 - 168,2005年。[13] 克里斯蒂安·费尔鲍姆,编辑。1998年WordNet麻省理工学院出版社。[14] Marek Maziarz,Maciej Piasecki,Ewa Rudnicka,and Stan Szpakowicz.2013年。除了转移,44Paweetzia Kavidzia等人/ IERI Procedia 10(2014)merge wordnet construction:plWordNet and a comparison with WordNet.在Proc. of the Recent Advancesin Natural Language Processing RANLP 2013中,Hissar,Bulgaria,ACL,2013。[15] Maciej Piasecki,Stanisáaw Szpakowicz,and Bartosz Broda.2009年一个字从地上爬起来。Oficyna Wydawnicza Politechniki Wrocáawskiej.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功