没有合适的资源?快使用搜索试试~ 我知道了~
阿拉伯语语义关系的挖掘与建议性连接模式的研究
沙特国王大学学报基于阿拉伯语连词模式Rahima Bentrciaa,Samir Zidata,Farhi Marirba巴特纳第二大学Chahid Mostefa Ben Boulaid计算机科学系,系统和信息通信技术拉斯蒂实验室巴特纳b阿拉伯联合酋长国阿提奇莱因福奥文章历史记录:2017年6月29日收到2017年8月13日修订2017年9月11日接受2017年9月12日在线提供保留字:本体文本挖掘阿拉伯语AND连词模式阿拉伯语语法语义关系古兰经阿拉伯语语料库A B S T R A C T有一个依赖于阿拉伯语古兰经本体的信息系统的巨大需求,以提供一个精确和全面的知识给世界。由于语义关系是任何本体中的重要组成部分,并且自然语言处理中的许多应用都强烈依赖于它们,因此这推动了我们从阿拉伯语书写的古兰经阿拉伯语语料库中提取语义关系的方法的发展,并丰富了古兰经本体的自动构建。我们专注于语义关系所产生的建议连接模式,其中包括两个术语之间的连接和封闭。每个关系的强度基于相关系数来测量。最后,通过假设检验和学生t检验对该方法的显著性进行了评价.所得到的结果是非常有希望的,因为我们结合了一个准确的阿拉伯语语法与强大的统计技术,以证明这种类型的语义关系的存在和测量的强度©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍术语本体的早期定义出现在1993年(Gruber,1993),在那里它被定义为概念化的规范Maedche和Staab将从文本中学习本体的原始描述描述为从数据中获取域模型(Maedche和Staab,2001),其中从文本中提取的因此,语义关系是本体构建中的重要元素(Alvarez等人,2007年)。除了将表示领域的概念结合在一起之外,它们还解决了本体结构问题。此外,为这些关系提供更丰富的语义有助于选择可以对它们执行的操作然而,语义关系并没有得到应有的重视,因为难以捕捉整体*通讯作者。电子邮件地址:rahmabentrcia@yahoo.com(R.Bentrcia),samir.zidat@gmail.com(S. Zidat),Farhi. zu.ac.ae(F. Marir)。沙特国王大学负责同行审查与问题域相关的信息以及为特定关系提供的不同的可能表示本体学习的过程通过组织在一个层蛋糕的几个任务。每一层都有深入的解释(Cimiano,2006; Liu等人,2011年)。传统上,本体论解释依赖于领域专家,但它是冗长的、昂贵的和矛盾的(Navigli等人,2003年)。因此,提出了自动本体构建方法,但由于缺乏结构化知识库或领域,它仍然是一项困难的任务(Lee等人, 2007年)。另一方面,由于阿拉伯语写作的性质,单词的语义模糊性以及支持阿拉伯语的资源和工具的短缺,缺乏处理阿拉伯语文本的本体学习的成熟方法(Farghaly和Shaalan,2009)。对于古兰经本体,所有的研究都是为了达到理解古兰经作为知识来源和促进信息自动检索的目的。因此,《古兰经》可以被介绍给世界,并在许多语言和宗教研究中非常有效地使用。目前,还没有完整的古兰经本体论;其中许多本体论涵盖了古兰经中的特定主题或特殊类型的单词,而不是整个古兰经单词(Saadet al.,2010年)。此外,许多研究人员已经为古兰经的部分内容建立了本体论,很少有人使用整部古兰经。此外,每个本体只关注术语之间的一种或两种类型的关系,例如http://dx.doi.org/10.1016/j.jksuci.2017.09.0041319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comR. Bentrcia等人/Journal of King Saud University383同义词和部分同义词(Shoaib等,2009年)。作为一种验证方法,现有的本体由领域专家进行评估,这些领域专家在他们的决策中依赖于学术来源(Ta'a等人,2013年)。尽管存在所有这些挑战,但本体可以为许多应用提供潜在的好处,例如文本分类和聚类(Bloehdorn和Hessel,2004),其中从本体提取的附加概念特征用于增强词袋模型。在信息检索和提取中,本体可以解决文档和用户查询之间的词汇不匹配问题,以及许多其他问题(Guarino例如,1999; Elabd等人,2015年)。此外,本体提供了表示特定领域和状态的必要概念,这些领域和状态之间可能存在语义关系(Nirenburg和Raskin,2004年)。对于依赖于古兰经阿拉伯语的信息系统,古兰经本体可以非常有效地用于提高信息提取过程的性能。一个这样的系统是古兰经的问答系统(&问答系统)(Abdelnasser等人,2014年; Hakkoum和Raghay,2016年),其中用户输入与古兰经相关的阿拉伯语问题,系统从古兰经中检索最相关的答案。 传统的问答系统是基于简单的关键字搜索来找到用户查询的最佳答案,而不知道所使用的单词和表达的含义以及它们之间的关系。这种搜索有很多局限性,特别是当应用于古兰经阿拉伯语时,例如多义词和同义词是非常常见的。因此,使用本体来表示古兰经知识为问答系统提供了语义、逻辑、推理和深层推理,从而可以非常准确地解决复杂和模糊的查询。在本文中,我们介绍了一种新的方法,旨在丰富古兰经本体的自动构建。我们提取了存在于连接短语中的全部关系,这些连接短语可以被定义为由连词AND组合的任何两个词。这两个词可以是名词、专有名词或形容词。主要的贡献是,我们定义了一个混合的方法,从古兰经中提取语义关系的基础上强大和坚实的规则。首先,我们利用阿拉伯语语法中一个有效的规则,这是与连接,提取几种类型的语义关系。AND连词是一种众所周知的语法工具,它将彼此之间具有一定程度关联的术语组合在一起。所提出的模式集用于从古兰经阿拉伯语语料库中提取AND连词短语,而不是提取特定类型的语义关系,如基于模式的方法中已知的那样。其次,我们使用一个精确的度量,即相关系数,以找到组合词之间的关联值。这在该领域是全新的和有用的,并且不同于其他常见的测量,例如相互信息(MI)和t分数。最后,我们结合统计检验(假设检验和学生t检验)和领域专家来验证所取得的结果。在古兰经挖掘领域,所有报告的方法(Alrehaili和Atwell,2014)都依赖于领域专家或注释书籍,如伊本·凯西尔的塔夫西尔在验证过程中。这一步非常重要,不能忽视,因为古兰经是一个非常敏感和关键的文本。在此基础上,我们提出了一种科学的验证方法来巩固领域专家人工,我们揭示了三种不同类别的语义关系-从整个古兰经的基础上的一种类型的阿拉伯模式,这是连接模式。选择一般的连接词和连接词AND的基本原理源于它在阿拉伯语语法中的重要性。它被认为是基本的阿拉伯语连接词,因为它的频繁使用和可能指示句子中的不同含义(AL-Taweel,2009)。我们开始拟议的工作,从巴克沃尔特音译方案转换古兰经阿拉伯语语料库阿拉伯语脚本。然后,我们提取形成本体术语的词的集合。我们涵盖了名词,专有名词和形容词。接下来,我们应用一组的合取模式,这是我们以前定义的,从语料库中提取候选关系。基于相关系数的过滤方法用于选择强关系。最后,除了领域专家外,我们还使用假设检验和Studentt检验对所提出的方法进行了验证.这种统计技术支持领域专家的输出,以提供最准确和正确的结果。本文的其余部分组织如下。第二节介绍相关工作。预处理阶段在第3节中描述,从古兰经阶段学习本体在第4节中介绍。第5节介绍了验证阶段。第6节讨论了实验结果,第7节给出了结论。2. 相关工作一般来说,从文本中进行本体学习在计算机科学中占据了很大的领域,而从古兰经中进行本体学习尤其受到阿拉伯文字的特定性质和该领域所需知识深度的影响(Habash,2010)。然而,最近的古兰经研究很少有兴趣开发的方法,完成本体学习任务,并表示古兰经知识的语义方式作为一组概念和关系。Duckes发起了古兰经阿拉伯语语料库(QAC),这是第一个在线协作构建的语言资源,具有多层注释,包括词性标记,形态分割和使用依赖语法的句法分析(Dukes和Habash , 2010; Dukes 和 Atwell , 2012 )。此外,作者还从(QAC)中构建了本体,该本体可以找到专有名词或任何名词之间的关系,如果它们表示定义良好的概念,如动物,地点和宗教实体的名称本体论是基于学术来源,即伊本·凯西尔的塔夫西尔(伊本·凯西尔,1999年)进行验证的一个名为QurAna的大型语料库(Sharaf和Atwell,2012)是从原始古兰经文本中创建的,其中特定类型的单词被认为是本体论概念。人称代词被提取出来,并与它们的先行词一起标记。这些先验知识作为概念的本体列表来维护,从而提高信息系统的性能。阿巴斯利用了一个现有的古兰经主题索引从一个学术来源:伊本凯西尔的塔夫西尔,开发古兰经(阿巴斯,2009年),这是一个工具,寻找概念,在神圣的古兰经,并提供英文翻译的诗句包含这些概念。Yauri等人提出了一种系统,该系统使用Web本体语言OWL(Yauri等人,2012年)。该系统增加了与《古兰经》中特定主题相关的行为概念,如祈祷、天课、罪和奖赏,并利用描述逻辑展示了它们之间的关系。该模型的用户可以从古兰经中语义检索还可以检索到涉及UlAin 和 Basharat 介 绍 了 DataQuest ( Ul Ain 和 Basharat , 2011年),这是一个有效的框架,用于从主要与古兰经和学术文本相关的分布式知识源中建模和检索知识,使用语义网,信息提取和自然语言处理技术。使用领域本体对文档进行因此,用户可以使用基于语义的智能搜索引擎查询过滤和简洁的知识。另一项涵盖古兰经中特定主题的工作是由Al-Yahya及其同事进行的,以建立一个使用本体表示阿拉伯语词汇的计算模型(Al-Yahya et al., 2011年)。该模型已在与“时间”相关的阿拉伯语词汇上实现384R. Bentrcia等人/Journal of King Saud University位置表格标签功能(112:1:1:1)qulo V干|位置:V| IMPV|登月舱:qaAla|根:qwl| 2MS(112:1:2:1)huwaPRON干|POS:PRON| 3MS(112:1:3:1){ll~}| POS:PN|莱姆:{ll~ah|根:Alh| NOM(112:1:4:1)>aHadN N STEM|位置:N|LEM:>aHad|根:AHd| M| INDEF| NOM《古兰经》中的名词词汇。本体由59个词组成;其中只有28个词被用作模型设计的基础,并在语义上组织成一个层次分类,一般概念位于顶部,具体概念位于底部。 此外,Baqai等人开发了基于知识的平台,该平台使用语义网技术来对来自与古兰经和相关学术文本相关的分布式源的知识进行建模、存储、发布、推理和检索(Baqai等人, 2009年)。在所提出的工作中,使用阿拉伯语“AND”连词从古兰经中提取语义关系的框架以下各节将详细讨论这些阶段。3. 预处理阶段找到一个可用的,强大的,准确的词性标注系统来处理古兰经阿拉伯语文本不是一件容易的事情,因为它涉及一个神圣的文本和一个复杂的形态结构的语言。为了向所有读者描述古兰经语料库,古兰经阿拉伯语语料库(Dukes and Habash,2010)是一个完整可靠的语言资源,包括77,430个古兰经阿拉伯语单词,分为114个文档。每个单词都标记有其词性以及基于传统阿拉伯语语法的多个形态特征此外,它被存储为一个文本文件,是免费的。语料库中的数据以Buckwalter阿拉伯语翻译方案编写,并组织成如下四列《古兰经》阿拉伯语语料库采集转换古兰经阿拉伯语从Buckwalter格式到阿拉伯文字的语料库预处理词抽取定义一组AND连接模式相关系数测量使用统计检验进行验证领域专家分类图1.一、从《古兰经》各阶段学习本体论1. 四个字:“无”,“无”。2. 形式:由单词的主要部分组成3. TAG:包括单词每个部分的词性标记,如名词、动词、形容词等。4. 功能:描述单词的形态特征,如词根、词干、性别等。图2显示了阿利克拉斯章的一节,在巴克沃尔特翻译方案。由于Buckwalter音译方案对于用户阅读和理解语料不是一种简单的方法,我们需要一种简单但有效的预处理方法来表示它在一个更清晰,更可读的格式,如阿拉伯文字。因此,我们开发了一种转换方法,将每个字符从Buckwalter方案转换回其等效的阿拉伯字符。这些包括阿拉伯字母和变音符号。我们更喜欢使用直接的算法来完成这项任务,而不是使用复杂的工具,以便以更少的计算成本达到可接受的性能图3展示了转换为阿拉伯文字的《古兰经》阿拉伯语语料库的样本。4. 从古兰经阶段学习本体论从特定文本中进行本体学习意味着提取表示该领域的主要术语和关系(Liu et al.,2011年)。该阶段包括两个主要部分:术语抽取和关系抽取。此外,我们还定义了另一个组件,它试图提取连接模式来完成关系提取任务,如第4.2节所述。4.1. Term提取我们从古兰经阿拉伯语语料库中提取术语开始这一阶段,包括名词、专有名词和形容词的词干形式,以避免将同一个词的不同形式视为不同的多个词。为了清楚起见,我们使用词古兰经阿拉伯语语料库是一个文本文件,分为四列和许多行,如第3节所述。为了访问文件内容,我们使用普通的读/写/搜索文件函数逐行读取文件,搜索TAG列,查找具有等于名词、专有名词或形容词的POS标记的单词。从FEATURE列中提取结果单词的词干形式,并将其存储为字符串最后,我们删除重复的词干,并将唯一的词干存储在术语列表中。阿拉伯语的变音符号是像字母一样的字符,我们使用相同的函数来操作它们。它们是构成阿拉伯语单词的非常重要的元素,并将单词出于这些原因,我们不删除变音符号。相反,我们利用语料库中可用的词性标注信息,图二、 Buckwalter音译的古兰经阿拉伯语语料库样本R. Bentrcia等人/Journal of King Saud University385ِ�.Σ专有名词或形容词。其他复杂的案例超出了本书的范围,因为它们需要特定的知识资源,如古兰经的注释该集合如下:图三.《古兰经》阿拉伯语语料库的样本,从巴克沃特翻译成阿拉伯语。表1古兰经中提到的阿拉伯语连词1. 名词+连接词这种模式的不同情况解释如下:a. 名词+连接词b. 名词+连接词连接词ﻭﺃﻭﺃﻡﺍﻟﻔﺎﺀﺑﻞ你知道吗,ﻭﺍْ�ِ�ﺑِ�ﺘَ�ﻐﺎَ�ﺀ“不和谐”然后或但是然后或我们处理单词的词干形式作为一个例子,考虑两个阿拉伯语古兰经单词解释。c. 名词+连接词形容词:的两组合名词是其次以一个形容词开头,天啊。最高的和地球的意思是َ�َ�َ�ْ�ُ�不同的字母,不同的变音符号,因此不同的含义。根据它们的词干形式(“”对于古兰经文本,考虑到变音符号与准确的操作是非常重要的并且提高了所提出的方法的效率。处理文本数据的一种基本文本挖掘技术是将文本中的每个单词转换成表示单词在语料库中的重要性的数值(Weiss等人,2005年)。我们通过构造一个叫做term-document的矩阵,其行是提取的古兰经条款和其列。d. 名词+连接词通过一个形容词比如“不义之徒”,意思是不公正和明显的罪。2. 形容词+连接词‘‘这规则是给提取任何两个形容词之间的AND连词,如'已婚未婚的处女',这意味着以前结婚和处女。3. 专有名词+连接词如:“如《古兰经》的章节(Surahs)。每个学期都有一个特殊的--后裔َ�َ�ْ�语料库中每个文档的权重。有一种有效的统计方法来计算权重,称为术语频率逆文档频率(tf.idf)(Salton和McGill,1986):4. 专有名词+连接词wij ¼tf ij:logN df ið1Þ还有艾萨克5. 专有名词+连接词其中wi ,j是词项i在文档j中的权重,tfi,j是词项i在文档j中出现的次数,N是语料库中文档的总数,并且dfi是包含词项i的文档的数量。tf.idf中的高权重是由在给定文档中具有高频率并且在语料库中具有低文档频率的术语达到的;因此权重倾向于过滤掉不太具有区分性的常见术语。这个过程的结果是一个矩阵的3267行独特的词,即术语,和114列古兰经章节(即surahs)。这个矩阵的元素是给定章节中每个术语4.2. 连接模式提取阿拉伯语语法中有丰富的句型和从句,它们在句子中有不同的用途在这项工作中,我们称之为一个conjunc- tive模式,每两个术语之间的封闭AND连接。所考虑的术语可以是名词、形容词或专有名词。在阿拉伯语中有九个连词,其中两个组合术语必须彼此之间有某种类型的关联然而,其中只有六个在古兰经中有连接作用,并重复了几次(Adhima,1972),如表1所示。在阐明基于连词的关系之前,我们基于对阿拉伯语语法(Al-Zujaji,1984;Al-Ghalayini,2007)的深入研究,定义了一组连词模式/规则,在古兰经阿拉伯语语料库中发现了POS标记和形态特征我们只处理两个组合词可能是名词的情况”又说:“是的,”他说:“是的,是的6. 名词+代词+连接词此外,我们定义了一组否定连接模式,其中表示“非”的否定字母7. 否定句“NOT“+形容词+连词"AND“+否定句”NOT“+形容词:此句型找出任何两个否定形容词与AND连词组合,如”不酷不好不好“,表示既不酷也不好。8. 否定+否定''NOT“+限定词''祭祀'+名词:此句型找出任意两个否定名词与AND连词结合,如'祭祀动物还有花环9. 形容词+连接词“AND“+否定词”NOT“+形容词:此模式找出任何两个与AND组合的形容词,其中第二个形容词前面直接有否定词,例如”“,表示小或大。10. 名词+连接词386R. Bentrcia等人/Journal of King Saud University-4.3. 关系抽取过去已经提出了不同的方法来发现语料库中词之间的语义关系。所有这些都属于三个类别之一。第一类包括使用统计测试(Maedche和Staab,2001)寻找可能比预期更经常出现在一起的单词对(搭配)的方法。然而,所得到的关系是基于统计分析所获得的近似决策来验证的。在第二类中,研究者利用句法依赖,特别是动词和其论元之间的依赖来检测关系。一个问题是如何找到一个通用的规则来提取与特定动词相关的动词论元,而不管它们存在的文本( Cimiano ,2006)。第三类方法依赖于词汇句法模式来检测非常特定类型的关系,如部分和原因(赫斯特,1992)。这些方法的主要缺点是模式构造的复杂性。这是费时费力的,因为对于每种类型的关系,都要以特定的形式和顺序开发和应用一组模式。我们提出的方法是一个混合的模式为基础的方法和统计方法。然而,基于模式的方法依赖于使用一个/多个模式来提取一种特定类型的语义关系。我们想要提取的语义关系类型越多,我们应该使用的模式就越多。另一方面,我们的方法使用有限的模式集,而不是提取特定类型的语义关系,而是提取AND连接词古兰经阿拉伯语语料库中的短语。每种模式都可以提取表4连接专有名词示例专有名词1和专有名词2英语翻译玛各和歌革’米迦勒和加百列’了亚伦和摩西’古兰经’哈曼和法老’雅各和以撒’所罗门和大卫’赛莫德人和’在表2中,名词如表3所示,专有名词如表4所示。这些术语是词干形式的。此外,我们还发现了一种特殊的组合情况,即一个术语与许多不同的术语相关联,正如古兰经中所发生的那样例如,如表3所示,术语“花园”与六个不同的4.4. 相关系数AND 连 词 的 一 个 主 要 特 征 是 两 个 组 合 项 必 须 彼 此 相 关 ( AL-Taweel,2009)。有几个众所周知的相关技术,在文献中报道。互信息(MI)是一种常见的方法,它根据一对变量一起出现的次数与一对变量单独出现的次数来衡量一对变量之间的关联强度(Dunning,1993)。几种类型的语义关系,减少了时间和精力的复杂性。例如,句型(名词+连接词MI¼日志fAB2fAfBð2Þ’), 科为了提取连词短语,我们在古兰经阿拉伯语语料库中搜索FORM和TAG列,寻找AND连词,以提取出现在AND两侧的两个术语。这些由AND连词和两个术语仅被视为连接短语,并且仅当它们其中fA和fB是词A和词B在整个语料库中出现的次数,fAB是这两个词在语料库中一起出现的次数另一种方法称为t得分,用于测量可以断言一对变量之间的关联的置信度(de Winter,2013)。fAB-fAfBN匹配上一节中定义的模式之一每个连接短语表示可能语义的存在T评分¼pfABð3Þ需要进一步处理的关系,如下面的部分所解释的。下表举例说明了一些连词短语的例子,其中两个组合的术语是形容词,如图所示表2连接形容词示例这两种技术高度依赖于变量的频率,这提供了一个无界的分数。这导致在解释所得到的关联分数时的模糊性。此外,除了关联关系的强度之外,没有关于关联关系的额外信息可以预测。作为验证步骤,不能对结果应用进一步的统计检验来衡量其显著性。由于这些限制,我们决定使用一个更强大的形容词1和形容词2英语翻译大大小小’阿拉伯语和外语’‘视与盲’年轻人也不老’站立和匍匐’表3连接名词示例。名词1和名词2的英语翻译丝绸与园林’春天和花园’宽恕和花园’幸福与花园’溪流与花园’关联测量称为皮尔逊积矩相关系数(r),以找出两个项彼此相关的程度(Farreús等人,2012; Ngan,2013)。这种方法优于以前的方法,因为它允许研究人员自然地研究任何两个变量之间的关系,并清楚地解释结果,而没有任何误导性的错误值,因为它们位于1和+1之间。的强度的关系,以及它的方向可以预测非常明显,从所获得的结果。更有效地,它提供了几个渐近统计测试计算的显着性水平的分数,并产生更准确和可靠的结果。这一优势可能是一个很大的价值,让用户感到有信心,这样的神圣文本是认真对待。相关系数有许多其他变化,如斯皮尔曼等级相关系数和偏相关。然而,每种类型都适用于特定类型的变量和特定的环境。作为一个例子,斯皮尔曼秩相关系数已被建议时,数据是在条款R. Bentrcia等人/Journal of King Saud University387P-P-N-甲基-N-甲基-N-N-甲基-N-甲基-N-N-甲基-N-甲基-N-N-甲基-N-甲基-N-N-甲基---MNÞ ÞðMNÞ Þ表7表5不同连词短语的(r)、(MI)和t-分数关联测度之间的比较连词短语英文翻译相关系数(r)互信息t评分’雷电0.611515.1171.000’天地0.84857.46411.596’黑暗与雷霆0.206813.5321.000’ِ�ﺫ贫困与贫困0.132514.7021.000’笑话与体育0.013912.6581.414’ُ�ﻫ向导和光明-0.00547.5711.407因为它试图评估职级之间的关系,而不对他们的关系的性质作出任何假设。表6关联度高的连接短语示例在我们的工作中,我们选择皮尔逊积矩相关系数,最适合我们数据性质的cient(r)Term 1和Term 2英语翻译相关系数我们想要达到的结果。在统计学中,r被定义为线性度的度量。‘0.8485天地’两个变量A和B之间的关系(Myatt,2007)。A A B BqPPAA2PBB2ð4Þ‘0.7698其中A和B分别是A和B元素的平均值,mn是它们的大小。r的值在1和+1之间相关系数的符号(+,)定义了关系的方向,正或负,而相关系数的绝对值测量关系的强度。因此,我们将此方法应用于4.3节中提取的每个连接短语。在这种情况下,两个变量A和B是两个组合项,它们的元素是在项-文档矩阵中找到的tf.idf权重。结果,我们发现正相关系数,这意味着随着一个项的权重增加,另一个项的权重增加;随着一个项的权重减少,另一个项的权重减少;或者负相关系数,这表明随着一个项的权重增加,另一个项的1和+1的值表示两项之间的完美线性关系,而零值表示不存在这种类型的关系。在表5中,我们将上述三种关联方法应用于一组连接短语。例如,考虑短语“天堂和地球”,术语“天堂”在古兰经阿拉伯语语料库MI不是特别高(7.464),因为“天堂”和“地球”这两个词然而,t分数相当高(11.596),因为它考虑了配对的实际观察次数根据相关系数,值(0.8485)表明“天“和”地“之间存在强正相关,我们可以预测,随着一个术语的权重增加,另一个也不管这些方法的缺点和不同的工作方式,它们在测量变量之间的相关值方面非常有用,研究人员可以选择最适合他们应用的方法。表6展示了具有高度正相关性的连接短语的样本术语1和术语2可能具有很强的关系。例如,天堂和地球这两个术语有很高的相关性,因为它们经常在古兰经经文中作为一个连接短语出现。表7展示了具有低正相关性的连接短语的样本第一学期和第二学期可能有一个弱关系。这是由于这两个术语一起出现的百分比真主一词与日一词有着微弱的关系,因为我们发现关联度低的连接短语示例第一学期和第二学期英语翻译相关系数0.1325贫困与贫困’ِ�ﺫ零点一六七八天与真主“你好,你好,”表8关联度接近零的连接短语样本第一学期和第二英文翻译相关系数’脸部和双手0.0844’ُ�ﻫً�ﺪﻯ向导和光明-0.0054’笑话与体育0.0139表9相关性等于1的连接短语的示例第一学期和第二英文翻译相关系数’偶数和奇数1’寒暑1’荣耀尊贵1真主几乎在每一个诗句在古兰经和这不是为长期日的情况。表8展示了一个关联度接近于零第1项和第2项可能没有关系。这组组合术语可能很少出现在一起相反,每个术语可以单独出现或与不同的术语组合多次。作为示例,这两个术语引导和光可能没有关系,因为术语引导还与许多其他术语相关联,诸如好消息“好消息和'. “指令”此外,还有一组完美的连接短语,其中两个术语只出现在一起相等的次数。结果,它们的相关系数为1,如表9所示。5. 验证阶段一般的文本,特别是古兰经阿拉伯语文本,可以从不同方面理解学者。这个原因导致MnMn388R. Bentrcia等人/Journal of King Saud University2019-01-2200:00:00≤-ð Þ表10应用t检验后接受和拒绝的合取关系R的样本。ِ�不同语言和宗教模式的提取。为了评估这样的结果,我们发现,采用统计技术是非常有用的,以支持最好的决策有关的问题,文本处理。在我们的工作中,由于每个术语的权重是基于其在语料库中的频率,因此相关系数高度依赖于该因素。一种确保两个项由于某种类型的关系而不是由于偶然性而在一起的方法是使用统计假设检验(Kass等人,2014)并检验相关系数的显著性。我们使用两个相互排斥的假设称为零假设H0和备择假设H1。H0:这两个词之间没有相关性,它们的共同出现是偶然的.H1:这两个术语之间存在显著的相关性接 下 来 , 我 们 通 过 应 用 名 为 Stu- dent t 检 验 的 统 计 检 验(Siegmund,1998)来检验这两个假设,以拒绝零假设或接受零假设与4.3节中提到的以前的方法相比,我们的新方法是统计方法和基于模式的方法之间的混合。然而,它是基于一个强大的阿拉伯语语法结构,即与连接,以定义一个小的模式集,允许提取的许多类型的语义关系,从古兰经非常有效。此外,我们还利用统计方法来测量提取的关系的强度和方向,并帮助领域专家评估最终的语义关系分类每个关系因为反义词、性别或类别是手动执行的,以便将来自动执行。所提出的方法取得了更准确和全面的结果。提取的关系被手动分为三类:反义词,性别和类。6.1. 反义关系反义关系是指意义相反的词在表11中,这类关系包括由AND连词组合的反义词。trpn2例如,人们发现,术语“天空5它返回一个值t,表明零假设的有效性。t值越小,反对零假设的证据就越弱。然后,我们将t值与统计t检验表中的可接受显著性阈值a=1.984进行比较(Verma,2013)。表中a的值要求在0.05水平和n-2自由度下具有显著性,其中n等于114,这是每个项向量的大小,r是由公式(4)计算得到的相关系数。如果t > a,则相关系数具有统计学显著性,可以拒绝零假设,而备择假设有效。 否则t a,零假设为真。表10举例说明了一个样本的可能接受和拒绝的合取关系后,应用- ING的t-检验。6. 实验结果我们使用古兰经阿拉伯语语料库,由77,430个单词组成。我们从可能代表古兰经领域的单词开始,如名词,专有名词和形容词。 基本上,我们找到一组31007个重复的单词,过滤到3267个唯一的术语。除此之外,连词短语在古兰经中出现了近2000次。在排除重复的短语后,我们得到了一组1047个独特的短语,因此可能的关系。由于自动学习的本体是非常容易出错的,因此在应用它们之前,非常需要特定领域的专家来检查、验证和修改它们。我们可以提出一种过滤方法,通过定义一个阈值来选择最具代表性的关系,并选择相关系数大于该阈值的短语。虽然我们发现统计t检验在滤波过程中是非常有效的,但基于阈值的方法也可以用作下一步。6.2. 性别这一范畴指的是男性话语和女性话语之间的关系.这种关系在古兰经中很常见,真主同时与男性和女性交谈。表12列出了一个将阳性和阴性术语结合在一起的连词短语的样本,例如阳性术语Charitablemen'. ُ◌ﻣٰ◌ﺼﺪَ◌ﻗﺎﺕ6.3. 类另一类语义关系由属于同一类的术语组成,因为它们具有相同的特征。《古兰经》中充满了这样的例子,这些例子是由AND连词组合而成的。 表13提到了一些如第七和第八个术语“第七和第八个术语”,属于类Numeral。 此外,Book类还包括以下术语表11具有反义关系的连接短语示例第一学期和第二学期英语翻译土地和天空’明里暗里’明里暗里’善恶’快乐和不快乐’夏季和冬季’喜与忧’日夜“你好,我好,”西部和东部’生死’Term 1和Term 2相关系数(r)t值t检验决策金恩ﻭ男人的秘密0.57117.3628R可以接受水果蛋糕ﻭ公司简介0.49936.0987R可以接受早上好ﻭ晚上的时候,0.40064.6271R可以接受天堂之门ﻭ星晨急便0.07680.8152R可能被拒绝骗子安拉ﻭﻭ每一次胜利都是胜利-0.03230.0627-0.34200.6649R可能被拒绝R可能被拒绝反义词Land‘秘密地’和术语Secretly‘秘密地’与两个不同的反义词组合:Openly‘公开地’和Openly‘公开地’。R. Bentrcia等人/Journal of King Saud University389表12与性别关系的连接短语示例第一学期和第二学期英语翻译女人相信,男人相信。’ُ�ﻣ妇女慈善和男子慈善’穆斯林妇女和穆斯林男子’ُ�ﻣْ�ﺴﻠِ�ِ�ﻤﻴﻦ妇女慈善和男子慈善’女人的虚伪和男人的虚伪'你知道吗?'女性患者和男性患者’女人是真实的,男人是真实的。’女性禁食和男性禁食’女人顺从,男人顺从。’女儿和儿子“你好,我好,我好。”表13有类关系的连接短语示例第1学期和第2学期英语翻译杯子和水壶’ﺃ皮草和羊毛’耳朵和鼻子’约瑟与约伯’古兰经’羊和牛’橄榄和无花果“你好,我好,”金银’第八和第七’牛包括动物类和绵羊和山羊的很明显,在我们的新方法中,的模式,即连接,提取不同类型的语义关系。为了对它们进行分类,我们可以为每种类型的关系训练分类器,并结合它们的结果,并对不同类型的提取的本体关系进行测试。7. 评价为了评估关系提取过程的准确性,我们使用了两个性能指标:精确度和召回率。在我们的工作中,精确度被定义为检索到的相关合取关系的数量与检索到的合取关系的数量(无论相关与否)的比率,而召回率被定义为检索到的相关合取关系与古兰经中存在的所有相关合取关系的总数的比率该系统基于预定义的连接模式检索到1047个语义关系,其中57%的语义关系被统计归类为强关系,43%的语义关系被统计归类为弱关系。此外,所提取的关系由领域专家手动验证。该系统达到了84%的准确率和92%的召回率。有关评价结果的更多详细信息见表14。我们可以注意到,我们的方法具有非常高的准确率和召回率,因为系统从一组950个相关关系中正确地检索到了878个关系。另一方面,该系统提取了一些不相关案例的错误关系,主要原因有两个:表14关系抽取方法的评价结果。系统检索的关系总数1047系统检索到的相关关系总数,878由领域专家古兰经中所有相关关系的总数950精度百分之八十四召回百分之九十二见图4。古兰经阿拉伯语语料库中错误注释的例子。古兰经阿拉伯语语料库注释中的错误,特别是在阿拉伯传统语法(阿拉伯语传统语法)中。虽然这一语料库已经达到了99%的准确率,但由于阿拉伯语的难度和缺乏有效的验证方法。 一个错误的例子出现在萨巴章第13节的图4中(“大卫的家啊,要以感恩的心作工。”工具AND(在语料库中以粗体显示)被错误地注释为连词,而它是一个间接助词。图五. 一个错误的连词短语的例子。●390R. Bentrcia等人/Journal of King Saud University注释的古兰经语料库中缺乏语法细节,尤其是与连接短语相关的语法细节。虽然注释说明了工具AND的类型是否具有连接作用,以及由AND组合的两个术语的类型,但它没有提供关于它们在连接短语(连接短语)中的语法位置的信息。这个问题导致提取错误的连接短语,从而不相关的语义关系。第27节:“不信道者,今日必受凌辱和刑罚。错误的连接短语(日和邪恶),这意味着'耻辱和邪恶的'是检索,而不是正确的一个(耻辱和邪恶),这意味着'耻辱和邪恶的'。通过在语料库中使用更多与阿拉伯传统语法(阿拉伯语传统语法)相关的注释细节和领域专家的帮助,可以提高系统的准确性。8. 结论古兰经本体旨在提供关于古兰经的全面知识,并提高依赖于古兰经文本的信息检索系统的性能。然而,由于阿拉伯语复杂的词法结构以及支持阿拉伯语的工具和资源的匮乏,古兰经阿拉伯语的本体研究相对匮乏,目前已有的本体仅限于古兰经的部分内容或特定类型的词汇或主题。本文利用传统阿拉伯语语法中的阿拉伯语连词模式,从整部《古兰经》中提取不同类型的语义关系,丰富了《古兰经》本体的自动构建。我们应用相关系数法来测量强度构成连接短语的每一对名词、专有名词和形容词之间可能存在的线性关系。此外,我们建议假设检验和学生t检验,以超越机会和验证的意义提取的关系。我们人工地揭示了三种语义关系:反义关系、性别关系和类关系。在未来的工作中,我们可以利用分类器来自动执行此任务。最后,我们坚持认为,这样一个研究领域除了领域专家之外,还需要统计技术来评估所取得的成果。引用Abbas,N.,2009.古兰经:一个工具,以搜索概念的古兰经(硕士研究论文)。计算机学院英国利兹大学Abdelnasser,H.,Mohamed ,R. ,Ragab,M.,穆罕默德,A. ,Farouk ,B.,El-Makky,N.,Torki,M.,2014. Al-Bayan:一个阿拉伯语的古兰经问答系统。2014年EMNLP阿拉伯语自然语言处理研讨会(ANLP)。卡塔尔多哈,1999年57比64Adhima,M.,1972.安拉的使者(愿主福安之)阿拉伯文。开罗,埃及:达尔圣训。Al-Ghalayini,M.,2007年贾梅亚·多里斯·阿拉比亚阿拉伯文。开罗,埃及,达尔·加哈德·贾迪德.Alrehaili,S.M.,Atwell,E.,2014.古兰经语义标注的计算本体:过去方法的调查在:LREC 2014会议记录,欧洲语言资源协会。Al-Taweel,M.,2009.连词的意义及其对差异的影响穆斯林学者(Foqaha)。阿拉伯文。甜点大师安纳贾国立大学。纳布卢斯巴勒斯坦。阿尔瓦雷斯,F.,Vaquero,A.,Sáenz,F.,De Past
下载后可阅读完整内容,剩余1页未读,立即下载
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 构建智慧路灯大数据平台:物联网与节能解决方案
- 智慧开发区建设:探索创新解决方案
- SQL查询实践:员工、商品与销售数据分析
- 2022智慧酒店解决方案:提升服务效率与体验
- 2022年智慧景区信息化整体解决方案:打造数字化旅游新时代
- 2022智慧景区建设:大数据驱动的5A级管理与服务升级
- 2022智慧教育综合方案:迈向2.0时代的创新路径与实施策略
- 2022智慧教育:构建区域教育云,赋能学习新时代
- 2022智慧教室解决方案:融合技术提升教学新时代
- 构建智慧机场:2022年全面信息化解决方案
- 2022智慧机场建设:大数据与物联网引领的生态转型与客户体验升级
- 智慧机场2022安防解决方案:打造高效指挥与全面监控系统
- 2022智慧化工园区一体化管理与运营解决方案
- 2022智慧河长管理系统:科技助力水环境治理
- 伪随机相位编码雷达仿真及FFT增益分析
- 2022智慧管廊建设:工业化与智能化解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)