没有合适的资源?快使用搜索试试~ 我知道了~
《阿拉伯语文本的本体关系抽取:复杂语义关系的建立与应用》
Journal of King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com阿拉伯语文本Mohammed G.H. Al Zamil*,Qasem Al-Radaideh约旦伊尔贝德耶尔穆克大学计算机信息系统系2014年9月28日在线发布摘要自动提取阿拉伯语概念间的语义关系,建立本体模型,是提供丰富语义元数据的关键。由于互联网上阿拉伯文内容的逐年增加,对分析和理解阿拉伯文文本的专门工具的需求已经涌现本研究提出一种本体关系抽取方法。本研究的目标是:抽取阿拉伯语文本的语义特征,提出概念间关系的句法模式,并提出抽取本体关系的形式化模型所提出的方法已被设计成使用阿拉伯语的词汇语义模式,根据一组功能来分析阿拉伯语文本。接下来,特征被抽象和丰富的形式化描述,以概括所产生的规则。因此,这些规则制定了一个分类器,它接受阿拉伯语文本,分析它,然后显示标有指定关系的相关概念。此外,为了解决同音异义词的歧义,一套机器翻译,文本挖掘,和词性标注算法已被重用。我们进行了大量的实验,以衡量我们提出的工具的有效性结果表明,我们提出的方法是有前途的自动化过程中提取的本体关系。2014年沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.1. 介绍Gruber(1993)将术语本体定义为“*通讯作者。电子邮件地址:Mohammedz@yu.edu.jo(M.G.H.Al Zamil),qasemr@yu.edu.jo(Q. Al-Radaideh)。沙特国王大学负责同行审查其他概念。本体可以被看作是一种模式,它描述了一个给定的概念如何被设计成与给定上下文中的其他现有概念相关联。从阿拉伯语文本开发本体是一个复杂的过程,因为语言组件之间的语义关系的提取仍然依赖于语言的句法结构。然而,解释领域无关文本需要确定将处理什么类型的信息以及表达方式。而不是在文本中解释一切(即,句法分析),人们只能搜索众所周知的词汇关系。因此,有意义的信息可以用简单和软算法找到,这导致该过程的软自动化。http://dx.doi.org/10.1016/j.jksuci.2014.06.0071319-1578年< $2014年沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.制作和主办:Elsevier关键词阿拉伯本体论;词汇句法模式;关系自动提取本体关系的自动提取463表1赫斯特式下位词的例子。语篇词汇关系(‘‘‘‘‘‘ (法国、 欧洲国家)种类(法国,欧洲国家)种类(法国,欧洲国家)特别是NP考虑表1中的赫斯特式示例,其中以简单的方式提取了一Hearst(1992)提出了一种通过构造知识的词汇模式来自动检测下位词的获取算法。例如,考虑示例为了使其机器可解释,Hearst提出了以下词汇模式,可以重复使用以提取这样的关系:NP,例如fNP;gωf或j和gNP赫斯特算法的缺点是需要收集真实的例子作为训练集,这被认为是一个纯监督的活动,需要人为干预。事实上,许多研究人员发现它是一个很好的功能,因为它允许通过为算法提供一组手动示例的训练集,将算法应用于独立的文本、口音和特殊语言。社交网络中情感文本分析的研究受益于该算法的应用,这可能是阿拉伯语文本理解的一个有趣的未来方向。此外,犯罪和恐怖主义检测等领域的专家发现,这种方法对于调查社交网络中的可疑文本以检测特 定 对 话 很 有 趣 ( Ressler , 2006; Salton 等 人 ,1990年)。据我们所知,与英语文本相比,基于软计算原理从阿拉伯语文本中自动提取语义关系并没有受到显著关注。事实上,以前的研究主要集中在阿拉伯语语句的句法分析和基于词典的分析,以理解阿拉伯语文本的不同应用,如摘要,检索和词干。因此,开发用于提取阿拉伯语文本的词汇语义关系的软智能算法具有很大的意义。在本文中,我们考虑应用增强版的赫斯特算法的阿拉伯语语料库。所提出的方法已经被设计成通过额外的增强来适应赫斯特的算法,以适应我们的需求,分析阿拉伯文本以提取本体关系。这种增强包括:模式丰富、模式过滤、负模式的应用和模式评估。然而,实验是针对不同类型的阿拉伯语文本设计的。结果表明,我们提出的方法是一个很好的候选人来制定阿拉伯本体论的关系。本文的组织如下:第2节讨论了相关的工作,除了背景资料赫斯特的算法。第3节说明了应用赫斯特算法的框架第4节描述了为评估所提出的方法而进行的实验,并报告了结果。第5节讨论并证明了分析结果最后,第6节总结了本文的结论并讨论了未来的发展方向。2. 相关工作近十年来,阿拉伯语本体论的建设受到越来越多的关注。努力集中在使阿拉伯语本体适应不同的自然语言处理任务,例如信息检索(Moawad等人,2010)、文本摘要(Imam等人,2013)、文本注释(Hazman等人,2012;Dukes和Habash,2010),改进问答系统(Abouenour等人,2008),以及构建知识的语义挖掘(Beseiso等人,2010年)。阿拉伯语的表达能力使得自动提取本体关系变得困难。因此,这种关系的有效自动启发是一项复杂的任务,仍然依赖于字典(Jarrar,2013)和跨语言翻译,如阿拉伯语WordNet(Ruiz-Casado et al.,2 0 0 7 ; Black等人,2006; Diab,2004; Elkateb等人, 2006年)。语言概念间本体关系的自动提取一直是语言学领域的研究热点。例如,ARTEQUAKT项目(Alani等人,2003)已经构建了一个工具来提取关系,以使用词法分析创建给定艺术家的传记。此外,已经提出了许多有前途的技术来处理创建,管理和填充阿拉伯本体的问题。Al-Yahya等人(2011)引入了一种有效的语言学方法,限制了其在完全结构化文本(如《古兰经》)上的应用。类似地,Al-Rajebah和Al-Khalifa(2013)已经纳入了一个语义场,其中概念的含义是根据它周围的概念给出的Ghneim等人(2009)提出了一个多语种的阿拉伯语本体学习框架的基础上以前的领域知识-边缘。一个概率本体模型(POM)被应用到表示提取的本体。类似于我们提出的技术,框架学习新的概念和关系使用词汇语法模式。另一个有趣的技术是由铝Safadi等人提出的。(2011),其基于将阿拉伯语文本构造成类、属性和关系。实验只显示了如何开发ontol- ogy可以用于查询博客使用阿拉伯语术语。作者没有提供任何关于使用所提出的本体进行检索的效果的实验。虽然这些有趣的- ING技术引入了本体关系提取,我们认为,额外的增强功能可以改善这样的任务。实际上,已经提出了三种方法来自动提取本体关系(Wandmacher等人,2007年):重复段,共同出现技术和词汇模式。Wandmacher等人(2007)、Hernandez(2005)已应用了重复节段技术。作者ðÞðÞ464 M.G.H. Al Zamil,Q.拉达代假设某些概念或短语的重复表明这些片段与特定的文本领域有关。通过索引段在文本中的实际位置,该算法将能够识别重复段的二次窗口。此外,为了移除不正确的段,应用过滤任务。或者,共现技术(Koo等人,2003)依赖于假设,如果两个概念在域文本中频繁出现,则它们彼此相关。它测量概念如何被特定领域语料库中的其他概念吸引,即,统计分析Hearst(1992)建议应用词汇语法模式来提供自动提取知识的细粒度解决方案。这种技术的主要缺点是对模棱两可的文本表现不佳,例如和消极。因此,肯定部分代表正确关系的存在,而否定部分则代表一旦被怀疑会产生歧义的无关概念语义关系SR由肯定的p-r和否定的p-r两部分组成规则,其中分类器正在寻找持有积极条件但不持有消极条件的实例。此外--此外,规则是一种变体和常量关系的语言LexRel,其中变体被表示为词性成分。SR←pr^9=p-r2Pr ←fpr1;pr2;·· ·;prng3pri←fωgLexRelfωg<$4阿拉伯文文本。模糊性是一个因素,复杂的p-← fωgLexfωgjp-RPð5Þ从阿拉伯文文本中自动提取关系的方法(Abouenour等人,2013; Ratnaparkhi,1998)。Lahbib,2013年Relr r应用发音文本,以减少歧义,利用语法依赖推断语义关系。Al Zamil和Can(2011)还介绍了一种有趣的技术,该技术基于扩展归纳逻辑编程理论,以包括正模式和负在本文中,我们介绍了心脏的技术,以应付我们的要求,自动提取本体关系的改进版本。我们的改进包括使用上下文相关的概念丰富模式,模式过滤以删除冗余的低性能规则,应用否定模式以减少歧义,以及用于验证阶段的模式评估功能。3. 方法为了应用赫斯特算法从阿拉伯语语料库中提取本体关系,需要额外的增强来适应。在本节中,我们强调了建议的增强技术,依赖于修改赫斯特的算法,并将其集成到一个框架。图1显示了该框架,它由五个功能组件组成。从形式上讲,为了解决同音异义词或概念指代不同上下文的歧义,我们将语义模式分为两部分(Al Zamil和Can,2011),正3.1. 预处理和特征提取预处理和特征提取任务在促进分析过程中对文本的操作方面发挥着重要作用。然而,在说明我们的方法之前,我们发现必须以新的形式描述输入文本。此外,指定和证明用于检测文本模式的特征是必要的,并影响所提出的方法的整体在这种情况下,特征被定义为语言成分及其之间的关系。虽然建议自动提取语言成分,但相反,将手动指定关系以限制实验的范围。如表2所示,我们提取了4个不同的特征,因为我们相信这些特征满足构建阿拉伯语文本的词汇句法模式的要求。表3显示了本研究中要检查的关系,并作为一组示例描述了它们的结构。上下义词关系是指上下义词和上义词之间存在语义联系。因果关系模型的因果关系,其中的原因和某些行动的结果进行了建模。此外,Part-Whole、Is-a、Has-a和kind-of对概念之间的层次关系进行建模。图1抽取语义关系的框架1/4fgafg[800j 9半小时^]本体关系的自动提取4653.2. 词汇句法模式在这一节中,我们将介绍赫斯特算法在阿拉伯语文本上的增强版本。图2示出了应用该算法所需的任务。第一步是手动的;特定知识领域的语言专家然后,可以自动提取示例以形成训练集。有了这些关系和一组训练示例,一个算法就可以在文本中找到类似的情况。一旦现有的事件可用,算法将它们假设为一个通用语法,使用词性标记概括模式。然而,所有提取的模式都要经过一个评估任务,该任务测试每个模式的覆盖率以去除脏模式,这些脏模式覆盖极少数情况(根据给定的阈值)甚至没有。形式上,给定一个非空集合P ti1;ti2配对示例(模式),其中存在预定义关系Rt i1;t i2,其中t i是特征表达式(如单词或短语),关系R是两个不同特征之间的映射函数,条件i =P ti1;ti2ti1ti2成立。该算法必须找到相似的成对的例子,表2阿拉伯文文本功能。表3词汇关系。)ð Þ ¼1/4 f···g466M.G. H Al Zamil,Q. 拉达代图2Hearst短信了然而,现有的出现,然后,通过为它们中的每一个分配权重来进行排名(基于inDegree度量)任务,例如:重量c最大值x半对数g最小值fc最 大 值-对数最小值;0]logfmax-logfmax其中f是测试模式的频率ð6Þ这意味着相同的表达式权重更大。最后,算法通过将模式公式化为机器可读的语法来结束,该语法最终表示根据某个给定阈值获得最高排名的语义模式的最终形式。评价和加权步骤是对原算法的新的改进,以提高其精度。为了便于在可能包含大量复杂关系的阿拉伯语文本上实现算法(阿拉伯语hyper-hypernym),赫斯特的算法需要一些修改来监督它的一部分,从而导致半监督方法。通过将每个模式转换为用于查找匹配文本的查询来满足这种要求。如图3所示,循环继续,直到没有为相同的模式收集到新的术语。然而,在这个阶段,我们的算法用词干丰富了结果模式,这保证了发现更准确的出现。事实上,在词干提取、标记和措辞丰富期间的术语的这种扩展可能会产生歧义,从而降低整体准确性。为了解决这个问题,必须在过滤任务的后期消除冗余。事实上,过滤任务是对原始算法的额外增强。算法2,如图4所示,被设计用于填充相关概念的第二部分。给定概念的outDegree得分(c)表示已被语料库中其他概念的总数归一化的传出关系(WordNet中的边)的加权和inDegree分数衡量给定概念的受欢迎程度,即引用给定概念的概念数量。因此,inDegree用于对结果概念进行排名。图3收集示例。图4收集相关概念。图5中的示例示出了概念之间的一些提取的关系。重要的是要注意,一些概念可能与另一个概念有不止一种关系;例如,KSA的首都是利雅得,但利雅得也是KSA的一部分。如果输入文本不包含足够的信息来处理关系,工具将无法检测到它。因此,训练集的全面性影响了我们方法的整体性能在文本的机器可读性导致的歧义和误解的情况下,我们提出的框架适用于否定模式。负模式在最大限度地提高准确性,同时最大限度地减少错误分类的实例方面非常重要。例如,考虑以下示例:1. 下位词2. 下义词(很明显,如果没有标点符号,约旦首都的名称与阿曼的国家名称相同。为了克服这个问题,附接负图案以检测这种现象。然而,在累积从训练集中提取的模式之后,测试了模式识别的准确性。如果给定模式Pj的否定增强了模式Pi的准确性,例如准确性Pi准确性Pi准确性Pi^f~Pjg;8j:j<<最后,给出一组模式P<$fp1;p2;·· ·;png,其中pi<$fpni ^p-ig,则存在一组概念C^fc1;c2;·· ·;cmg和一组关系R R1;R2; ;Rk。词汇句法-抽动模式的公式如下:Pi¼RCi;Cj73.3. 扩展阶段为了避免出现引用相同概念的冗余模式,评估阶段扩展了词汇结构∑| |Þ ¼我ð本体关系的自动提取467图5从报纸中提取的概念示例包括同义词。事 实 上,我们认为,该阶段将优化提取的图案的总数。此外,这种扩展可能导致在概念之间提取新的关系,而这些关系在短信了为了实现这一目标,我们创建了一个程序段,它调用阿拉伯语WorldNet工具中的同义词例程。例如,我们的工具能够从《古兰经》中提取以下模式这意味着两个概念之间存在语义关系概念在用相关概念丰富这种关系之后,这种关系就变成了:下义词(), 上义词()。虽然这种扩展可能有助于发现新的关系,但一些现有的模式变得多余,即,它们对数据集产生相同的效果。为了避免冗余,需要应用另一种滤波方法来检测冗余模式并将其移除。3.4. 模式过滤和聚合由于所提出的方法是半监督的,并且由于扩展任务对结果集的影响,一些输出模式可能覆盖相同的关系。举例来说:1. Hyponym(),Hyponym()。2. Hyponym(),Hyponym()。为了克服这些问题(即,传递关系、同义词和概念表示),我们应用了覆盖度量,该覆盖度量确定特定数据集中模式的覆盖。如果一个模式覆盖了另一个模式的相同数据实例,则第二个模式将被删除。数据集D中给定模式P的覆盖率定义如下:图6模式滤波。覆盖集k;Pi;Di; fc1;c2;···;ckgj,例如k覆盖范围其中,N覆盖P i; D覆盖是模式P i覆盖的概念的总数,并且|D|是数据集中概念的总数。此外,如果以下条件中的至少一个成立,则模式Pi1. 6(i)$(j):(Pi=Pj)x(inj)2. 6(i)$(j):CoverageSet(i)cCoverageSet(j)因此,使用格式良好的验证算法应用这些规则将导致最小化输出模式,这反过来又优化了我们提出的框架的整体性能。下面的验证算法,如图6所示,应用覆盖规则来过滤冗余模式。4. 实验和结果在本节中,我们将详细描述在不同数据集上进行的实验,并报告精确度、召回率和f-测量的结果。此外,我们提供了一个敏感性分析,显示不同的现象对不同的性能指标的影响此外,我们提供了一个比较覆盖 P; DN覆盖Pi; DijD jð8Þ在阿拉伯语数据集上使用类似的技术。最后,我们强调了我们提出的技术产生Pc2CjTP jc jFP jc468 M.G.H. Al Zamil,Q.拉达代在实验中。请注意,在讨论部分中,我们已经对结果进行了合理化,以推理我们所提出的工作的鲁棒性和弱性。4.1. 语料库为了评估我们提出的框架,并对报告的结果进行广泛的分析和讨论,我们在三个不同的阿拉伯语数据集上运行了我们的算法。这些数据集代表古典阿拉伯语(古兰经),现代标准阿拉伯语(报纸)和非结构化阿拉伯语文本(社交博客)。这种方法使我们能够检测偏差并证明结果。此外,未来对某些类型的Arabic数据集的研究可能会受益于我们的分析,以比较结果。《古兰经》由114章组成,共有6236节经文。报纸数据集由来自三家不同报纸的1000份文档组成:The Middle East()、Al Watan Saudi News-paper()和ALRai报纸()中选择。最后,从阿拉伯语Facebook博客中收集了400份声明。请注意,所有数据 集 都 在 索 引 期 间 暴 露 于 词 性 标 记 算 法(http://nlp.stanford.edu/downloads/tagger.shtml)此外,我们运行Khoja和Garside(1999)的词干算法来获得阿拉伯语术语的根4.2. 绩效评价对拟议方法的绩效评价有三个方向:使用召回度量来测量提取的模式相对于现有正确模式的正确性,使用精度度量来测量我们提出的方法检测所有检索到的信息的模式的能力,最后,应用表示整体准确性的F -度量。给定正确分类的概念的数量,表示为|TP|,错误分类的概念的数量,表示为|FP|,以及没有分类但应该分类的概念的数量,表示为|FN|查准率,查全率,和F-测度定义如下:4.3. inDegree和outDegree评估测量概念之间的连接性是至关重要的,因为它反映了输出本 体 的 鲁 棒 性 。 然 而 , 在 此 上 下 文 中 , inDegree 和outDegree参数对概念(节点)之间的传入和传出关系进行建模。图7描绘了节点的数量与度参数之间的关系。例如,我们可以注意到,这两个参数与节点的数量呈反比关系;概念的数量越多,进出连接的程度越低。表5显示了提取的分类法的WordNet构造特征。平均深度表示在实验期间提取的词汇关系中的关系水平的平均数量。最大深度显示达到的最大级别数。最小深度表示某些概念出现时没有深度关系.实际上,该算法将最小深度限制为1。然而,最大平均深度和最大深度是通过神圣的古兰经数据集实现的4.4. 敏感性分析敏感性分析突出了影响我们提出的技术的参数。这种分析是必不可少的,因为它证明了结果,并提供了未来的研究领域,可以在这项工作的基础上处理。我们的敏感性分析基于三个方向:文本类型,特征,过滤任务对报告结果的影响精密度¼PPc2CjTPjc;调用¼Pc2CjTPjc;c2CjTPjcjFNjcF-测量2×精密度×召回率:精确度和召回率表4报告了每个数据集的性能。我们提出的框架能够从古兰经数据集中提取317个词汇模式图7The累积分布的在度和被误分类了。同样,Newspapers和Blogs数据集的性能也根据这些参数进行了报告。因此,在准确率、召回率和f-测量 方 面 的 总 体 性 能 平 均 值 分 别 为 78.57% 、 80.71% 和79.54%。结果表明,不同数据集之间的性能是不系统的。然而,与其他数据集相比,Newspapers数据集的性能最高。另外,Blogs数据集的性能最低。outDegree.¼表4性能测试和结果。语料库NTPFPFN精度(%)召回(%)F-测度(%)古兰经317209 654376.2882.9479.47报纸205158 182989.7784.4987.05博客11062 272169.6674.7072.09平均78.5780.7179.54表5WordNet深度分析。古兰经报纸博客平均深度9.216.23.8最大深度18117Min depth111本体关系的自动提取469图8数据集不同区间的精度波动。4.4.1. 数据集类型对整体性能在实验中,我们观察到报纸数据集在召回和精确度方面的性能最高,而古兰经和博客数据集的准确率大致相同。因此,我们注意到数据集的类型(古典、现代或社会)可能是影响性能指标的重要因素。为了证明我们的假设,我们分析了表6中不同间隔处每个数据集的精度,其中P@N表示 所 提 取 模 式 的 N % 处 的 精 度 ( P@20% , P@30%.P@100%)。这样,我们可以在不同的时间间隔研究性能,以确保数据集类型的影响是真实的;即,不是偶然的为了阐明比较,图8示出了描绘表6中的数据的折线图。它显示了报纸数据集如何此外,它表明,神圣的古兰经4.4.2. 功能对整体性能表7显示了我们的技术使用建议特征的不同组合的性能。例如,表7中的结果显示了如何向基本特征因此,很明显,与词干的使用相比,使用短语和单词特征的效果事实上,短语特征可以准确地检测所需的信息,因为它的描述能力相比,茎。另外,词干在概括文本模式方面发挥着重要作用,作为补充特征,它增强了性能。最后,将这三个功能组合起来会产生最佳性能,因为这样的组合继承了使用它们中每一个的优点。4.4.3. 过滤任务对整体性能过滤掉冗余可以提高精度,因为它可以最大限度地减少误报。此外,应用消极模式在提高回忆率方面发挥了重要作用,因为它们最大限度地提高了正确率。表8显示了过滤任务如何影响三个数据集的性能报告的结果,如表8所示,显示报纸数据集在所有比较中实现了最高的增强,除了模式的数量;最高的增强是博客。 这些结果支持了我们的结论,即过滤任务是报纸数据集报告的良好性能4.5. 误差分析我们认为,突出频繁的分类错误可能是增强我们提出的算法的一个入口,特别是对于商业用途。特别是,我们发现有四个经常出现的错误案例。这些情况包括专有名词提取,拼写变体,错误的断言和破碎的表达。4.5.1. 类型1:正确的名称提取此错误是由于某些专有名称提取不正确造成的。问题是提取过程是一个句法表7不 同 功能应用过程中的精度。字数(%)单词+短语(%)单词+词干(%)单词+短语+词干(%)古兰经Pr= 60.10Re=62.45 F1=61.25Pr= 71.46Re=78.21 F1=74.68Pr= 65.43Re= 66.35F1= 65.89Pr= 76.28Re= 82.94F1= 79.47报纸Pr= 65.34Re=64.80 F1=65.07Pr= 84.74Re=80.90 F1=82.78Pr= 72.45Re= 71.92F1= 72.18Pr= 89.77Re= 84.49F1= 87.05博客Pr= 48.20Re=57.46 F1=52.42Pr= 62.64Re=70.34 F1=66.27Pr= 57.63Re= 63.72F1= 60.52Pr= 69.66Re= 74.70F1= 72.09粗体值表示其他观测值中的最佳值表6不同时间间隔的精密度。数据集P@20%P@30%P@40%P@50%P@60%P@70%P@80%P@90%P@100%古兰经百分之八十七百分之八十一百分之七十八百分之七十三百分之七十一百分之六十八百分之六十五百分之七十三76.28%报纸百分之九十一百分之九十二百分之八十九百分之八十七百分之八十六百分之八十八百分之九十百分之九十一89.77%表8过滤效应对绩效的影响。过滤前的数据集《古兰经》的模式数报纸341博客212精确古兰经报纸71.57%博客62.24%《古兰经》报纸72.64%博客68.83%F-测量《古兰经》报纸72.10%过滤后31720511076.28%89.77%69.66%82.94%84.49%74.70%79.47%87.05%72.09%增强百分比24%约40%48%约11%25%12%12%15%约10%11.38美元价格20.7410.30美元时速470英里Al Zamil,Q.拉达代第 一 , 而 消 除 这 种 错 误 需 要 理 解 文 本 。 例 如 :。下义词()被错误地提取。在上一个示例中,我们的词法规则将短语提取为国家名称。4.5.2. 类型2:拼写变体有许多概念在阿拉伯语中有不同的拼写。这些概念中最常见的一组这些名字已经从字面上变成了阿拉伯语。例如,和是中国首都北京名称的两个正确转换。此外,先知阿布拉哈姆的名字是用在两种不同的形式,并在神圣的古兰经4.5.3. 类型3:错误的断言在现代和社会文本中,人们交流将实体称为实体类型的短语。例如,在许多情况下,我们发现断言为国家的. 此外,还主张南非和南部非洲的平等。4.5.4. 类型4:破碎的表达破 碎 的 表 达 式 构 成 了 一 个 严 重 的 问 题 , 特 别 是 在Newspapers数据集中。作家和出版商通过以下方式节省空间:使用特殊字符将单个单词或短语分成两个连续部分;例如,.重新制定中断符号也可能导致错误,这可能会使总体影响最小化。4.6. 与原始Hearst算法的为了比较我们提出的技术与类似技术的性能,我们将其与原始赫斯特算法(Hearst,1992)、基于重复段的提取(Mazari等人,2012)和基于共现的提取(Koo等人,(2003)本体论。如表9所示,性能指标在不同数据集上的精确度、召回率和F-测量方面进行了报告。我们提出的技术实现了最高的性能与现有的方法相比,包括原来的算法。导致这些结果的额外增强包括:扩展,过滤,适应负面条件和验证模式。请注意,我们观察到,与神圣的古兰经数据集相比,重复分段和共现算法在博客数据集上的表现更好。另一方面,与古兰经和博客数据集相比,我们提出的技术在报纸上表现良好表9性能比较。平均测量值数据集精密度(%)召回率(%)F-测量(%)原始赫斯特古兰经46.7450.3248.48报纸51.2361.3555.84博客47.4353.4550.26重复段(阿拉伯文本)古兰经64.3462.6663.49报纸68.8764.8666.80博客69.6770.5570.11共现(阿拉伯文本)古兰经57.3658.6758.00报纸60.4662.5561.49博客64.5666.2565.39Hearst算法的增强版古兰经76.2882.9479.47报纸89.7784.4987.05博客69.6674.7072.09本体关系的自动提取4715. 讨论实证结果表明,我们提出的框架是有效的实现阿拉伯语概念之间的本体关系。在实验过程中,我们发现我们的工具在神圣的古兰经数据集上获得了79.47%我们相信,通过扩展阶段、过滤任务、验证任务和负模式的应用来增强所提出的算法在提高准确性方面发挥了重要作用。与同类技术相比,本文提出的方法性能优于Hearst的原始算法.此外,它优于重复段和共现算法的精度和召回方面。在实验过程中,我们注意到,后来的算法依赖于统计分析,而忽略了语义方面的非逻辑关系。此外,In/Out度分析中的度和节点数量之间的反比关系表明,我们的技术能够随着传入节点(概念)数量的增加而生成连接(关系)。这样的结果使我们得出结论,所提出的技术执行,以及在构建WordNet。此外,我们研究了许多因素对所提出的框架的性能的影响。结果表明,数据类型直接影响被试的成绩,经典语言和情感语言对被试的成绩有负向影响。相比之下,现代标准语言(报纸)积极影响我们提出的技术的性能。例如,缺乏歧义和特殊目的短语是区分现代语言文本的因素。此外,结果证实,选择代表性的功能是提高性能的关键。事实上,词干和短语参与概括简单单词的含义,并提供更多的描述。因此,多个特征似乎比单个特征更好。未来的研究可能会研究这一现象,并提出更多的功能,以提高本体关系的提取。同样,过滤掉冗余模式并在生成的规则中附加负面条件对我们提出的方法的整体性能有很大的积极影响。结果表明,该任务提高了所有数据集的召回率、准确率,从而提高了f-测度最后,我们报告了频繁的分类错误,这些错误对所提出的技术的性能产生了负面影响。不正确的专有名词提取,拼写变体和错误的断言需要理解文本,而破碎的表达式需要构建一个在阿拉伯语中用于打破概念的标记列表。6. 结论本文提出了一种从阿拉伯语文本中自动抽取本体关系的方法。所提出的技术依赖于实现赫斯特算法的增强版本。本研究的目的是:(1)提取阿拉伯语文本的语义特征,(2)提出概念间关系的句法模式,(3)提出一个形式化的提取语义本体关系,以及(4)使提取语义关系的过程自动化。我们进行了大量的实验来测量所提出的方法的性能,研究不同因素对所提出的技术的性能的影响,并将我们的方法与类似的方法进行比较。结果表明,我们提出的技术是一个很好的候选人提取阿拉伯语文本的本体关系相比,现有的技术。引用阿布努湖Bouzoubaa,K.,Rosso,P.(2008年)。使用阿拉伯语WordNet 改进Q/A 。 In Proc. The 2008 International ArabConference on Information Technology ( ACIT'2008 ) ,Tunisia,December.阿 布 努 湖 Bouzoubaa , K. , Rosso , P. , 2013. 关 于 阿 拉 伯 语WordNet覆盖率和可用性的评估和改进。朗资源评估, 1-27号。Al Zamil,M.G.,可以,A.B.,2011. ROLEX-SP:自由文本分类的词汇句法模式规则。Knowledge BasedSystem.24(1),58-65.Alani,H.,Kim,S.,Millard,D.E.,Weal,M.J.,霍尔,W.,Lewis,P.H.,北卡罗来纳州沙博尔特2003.基于本体论的网络文档知识自动抽取。英特尔系统: IEEE 18(1),14-21。Al-Rajebah,N.I.,Al-Khalifa,H.S.,2013.从阿拉伯语维基百科提取本体:一种语言学方法。阿拉伯人J. Sci. 工程师: 1-23号。Al-Safadi,L.,Al-Badrani,M.,Al-Junidey,M.,2011.为阿拉伯语博客检索开发本体。国际计算机Appl.19(4),40-45.Al-Yahya,M.,Al-Khalifa,H.,Bahanshal,A.,乌达岛2011.使用OWL本体自动生成语义特征和词汇关系。自然语言处理与信息系统。Springer,Berlin,Heidelberg,pp. 15-26可从以下网址获取:http://nlp.stanford.edu/downloads/tagger.shtml网站。Beseiso,M.,Ahmad,A.R.,Jais,J.,2010年。语义阿拉伯语搜索工具。In and Knowledge Engineering Conference(STAKE 2010),p.40.布莱克,W。Elkateb,S.,Rodriguez,H.,Alkhalifa,M., Vossen,P.,Pease,A.,Fellbaum,C.,2006.介绍阿拉伯语WordNet项目。第三届国际WordNet大会(GWC-06)。Diab,M.,2004年利用平行语料库和英语WordNet引导阿拉伯语WordNet的可行性载于:阿拉伯语言技术和资源进展,NEM- LAR,开罗。杜克斯,K.,Habash,N.,2010.阿拉伯语古兰经的形态学注释。在LREC。Elkateb,S.,布莱克,W。 RodrZouguez,H.,Alkhalifa,M.,Vossen,P.,Pease,A.,Fellbaum,C.,2006年。为阿拉伯语构建WordNet第五届语言资源与评估国际会议(LREC2006)。Ghneim,N.,萨菲,W.,阿里说,2009.建立一个阿拉伯语本体学习的框架。在:知识的人-管理和创新在推进经济学的程序:分析解决方案,页。1730格鲁伯,T.R.,1993.可移植本体规范的翻译方法。KnowledgeAcquisition 5(2),199-220.Hazman,M.,El-Beltagy,S.,Rafea,A.,2012.基于本体论的文档段自动标注方法。IJCSI国际J. Comput. Sci. Issues 9(2),221-230.赫斯特,文学硕士,1992.大型文本语料库中下义词的自动获取。见:《第14届计算语言学会议论文集》,第2卷,第100页。539-545.计算语言学协会。埃尔南德斯,N.,2005年Ontologiesdedomainepourlamode′lisationducontexteenrecherched'information ( Doctoral dissertation , Uni- versite ′ Paul Sabatier - Toulouse III).472 M.G.H. Al Zamil,Q.拉达代伊玛目岛Nounou,N.,Hamouda,A.,Khalek Abdul,H.,2013.基于本体的阿拉伯文摘要系统(OSSAD)。Int. J. Comput.Appl. 74(17),38-43。Jarrar,M.,2013.阿拉伯本体论在卡塔尔基金会年度研究会议上,2013年)。Khoja,S.,加赛德河1999.阿拉伯语的词干。英国兰开斯特,兰开斯特大学计算机系。古先生,S.O.,Lim,S.Y.,李,S.J.,2003.基于中心词的信息检索本体构建。Web Intelligence,2003年。WI 2003年。诉讼IEEE/WIC International Conference on IEEE,pp. 466-469Lahbib,W.,布尼亚斯岛Elayeb,B.,Evrard,F.,Slimani,Y.,2013年。一种混合的阿拉伯语语义关系抽取方法在第二十六届国际FLAIRS会议。Mazari,A.C. Aliane,H.,Alimazighi,Z.,2012.基于阿拉伯语文本的本体自动构建In ICWIT,pp.193-202.Moawad,I.F.,阿伯特,M.,Aref,M.M.,2010.基于本体的阿拉伯语语义搜索引擎架构。在第十届会议上。语言工程由埃及语言工程学会(ESOLEC'2010)组织Ratnaparkhi,A.,1998.自然语言歧义消解的最大熵模型(博士论文,宾夕法尼亚大学)。Ressler,S.,2006.社会网络分析作为打击恐怖主义的方法:过去,现在和未来的研究。国土安全事务2(2),1-10。Ruiz-Casado,M.,Alfonseca,E.,Castells,P.,2007.词汇模式的自动学习:从维基百科提取语义关系以丰富WordNet的应用。Data Knowledge Eng. 61(3),484-499.Salton,G.,巴克利角,史密斯,M.,1990.句法方法论在文本自动分析中的应用。信息处理。管理。26(1),73-92。Wandmacher , T. , Ovchinovova , E. , 克 鲁 姆 纳 克 , 美 国 ,Dittmann,H.,2007.自动建构词汇本体之词汇-语意关系抽取、评估与整合。In:Proceedings of the Third AustralasianWorkshop on Advances in Ontologies , Australian ComputerSociety Inc,vol. 85,pp. 61比69
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功