构建阿拉伯语知识图谱：挑战、解决方案和未来

192 浏览量更新于2024-01-17 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报阿拉伯语知识图谱构建：近距离观察现在和未来易卜拉欣作者：Ahmeda，Fatima N.AL-Aswadib，c，Khaled M.G.Noamand，Wafaa沙特阿拉伯纳季兰纳季兰大学社区学院b马来西亚槟榔屿Gelugor 11800马来西亚Sains大学计算机科学学院c荷台达大学计算机科学和工程学院，荷台达，P.O. Box 3114，Yemend沙特阿拉伯吉赞大学电子学习和信息技术系主任eP.O.哈希姆大学理学院基础科学系。Box 330127，Zarqa 13133，Jordan阿提奇莱因福奥文章历史记录：收到2021年2022年3月17日修订2022年4月10日接受2022年4月22日在线提供保留字：阿拉伯语知识图知识图构建知识表示本体A B S T R A C T随着Web上数据的广泛增长，需要有效的方法来从这些大的噪声数据中获取和整理有价值的信息。知识图（KG）是一种以更有效和更容易修改，使用和理解的方式表示和组织数据的方法。近年来，知识库已成为学术界和商业界研究的新热点，在智能问答、推荐系统、地图导航等领域有着广泛的应用。构建英语、汉语、波斯语、阿拉伯语等多种语言的知识库已成为趋势。构建KG面临许多挑战和障碍，特别是构建阿拉伯语知识图（AKG），由于在线百科全书和学术研究中阿拉伯语数据稀疏，以及缺乏可以有效处理阿拉伯语专有性质的工具，以及其他挑战。本研究旨在回顾和讨论幼儿园建设的最佳实践（系统，阶段，问题和挑战），突出阿拉伯的观点。此外，它阐述了AKG挑战的分类，并探讨了潜在的解决方案和机会，可能会定义未来的关键研究方向，建设AKG。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.介绍65062.阿拉伯语65063.阿拉伯语知识图概述65113.1.阿拉伯语知识图谱术语65113.2.阿拉伯语知识图谱构建65123.2.1.知识图构建任务和阶段65133.2.2.基于资源的知识图谱构建方法3.3.知识表示65143.4.知识构建技术65143.5.知识图谱应用程序65154.最新技术6515*通讯作者：马来西亚国立大学计算机科学学院，11800 Gelugor，Pulau Pinang，Malaysia。电子邮件地址：iaalqubati@nu.edu.sa（I.A. Ahmed），fnsa15_com016@student.usm.my，fatima_aswadi@hoduniv.net.ye（F.N. Al-Aswadi），knoaman@jazanu.edu.sa（K.M.G. Noaman），wafaa_maitah@hu.edu.jo（W.Z. Alma'aitah）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2022.04.0071319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comI.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报65064.1.知识图谱系统65154.2.阿拉伯语知识图系统65165.阿拉伯语知识图的问题和挑战65185.1.阿拉伯语知识图开放题65195.2.阿拉伯语知识图挑战65196.阿拉伯语知识图谱机会和未来方向65207.结论6521竞争利益声明参考文献65211. 介绍KG是一个概念，由于Web的蓬勃发展，它在公众视野中（在商业和学术研究中）获得了极大的关注（Nickel等人，2016; Villazón-Terrazas等人， 2020年），特别是随着网络上大规模数据的兴起。KG重要性的上升近年来，出现了许多旨在构建知识库的方法和系统KG系统驱动来自任何领域的实体及其关系，以易于维护、易于使用和易于理解的方式表示知识。根据Ji et al.（2002）的描述，KG被认为是与知识库的同义词，其简单的区别在于，当考虑图结构时，数据可以被结构化和图形化地查看，并且当考虑对事实进行解释和推理的形式语义时，它可以被视为知识库。Davies等人（2006）将KG定义如下：“知识图获取并将信息集成到本体中，并应用推理器来导出新知识。在这种情况下，AKG构造可以定义为提取、处理、构造和表示阿拉伯语知识的过程。构建AKG对语义网和阿拉伯语社区特别有用。众所周知，目前的网络数据的概念基于链接数据的概念，用于链接Web上的数据，不仅是文件或文档，而且还有实体，关系和关于事物的事实。KG构造过程使用不同的自然语言处理（NLP）、机器学习和挖掘技术来通过链接对象、关系和事实来创建链接数据（Tiwari等人，2021年）。最近，进行或创建了许多工业和学术项目以及知识数据库，例如NELL（Carlson等人，2010）、阿拉伯语VerbNet（Mousser，2010）、DBPedia（Lehmann等人，2015年;Bizer例如，2009;Al-Feel，2015）和Google知识图谱（Singhal，2012; Noy等人，2019年）。事实上，网上现有的阿拉伯文链接数据是不足和有限的。在创建和利用阿拉伯数据集方面，几乎没有做过什么工作，例如阿拉伯语 VerbNet （ Mousser ， 2010 年）、阿拉伯语PropBank（Palmer等人，2008; Zaghouani等人，2010）、DBPedia（Lehmann等人，2015; Bizer等人，2009;Al-Feel，2015）和语义古兰经（Sherif等人， 2015年）。此外，最近的研究大多涉及英语知识，边缘图（EKG）。 KG主要依赖于语言（Wang等人，2015; AL-Aswadi等人， 2021），所以他们需要使用NLP方法来获取知识。众所周知，阿拉伯语具有与其他语言不同且复杂的英文）（Bounhas etal.， 2020年）。因此，使用与英语相关的传统NLP工具来创建AKG肯定会失败，因为阿拉伯语和英语之间存在自然差异。换句话说，可以说，由于语言的不同性质，大多数NLP工具在一种语言与另一种语言之间存在差异;因此，在一种语言中使用的工具在另一种语言中使用时通常没有用（Alshalabi et al.，2013; Alshalabi等人， 2017年）。所有这些原因加在一起，都需要对AKG进行更多的努力和研究。有许多关于幼儿园的调查和评论，例如（Zou，2020）提供了对幼儿园申请的调查。此外，（Ji等人，2002年）调查KG表示和采集任务及应用。本调查对幼儿园的研究进行了分类，并对幼儿园的未来发展方向提出了一些建议。此外，Zhao等人（2018）的研究总结了KG构建的架构以及KG每个阶段应用的重要相关方法和技术。最这些研究中的大多数都是关于一般英语语言的。据我们所知，我们还没有遇到的工程类，审查和解决KG表征，应用程序，挑战，障碍，潜在的机会，以及未来的方向，为阿拉伯语的角度来看，因此，这项研究的重要性已经出现。本文旨在对AKG构建过程进行分析研究。它还旨在比较现有的商业和学术AKG系统和最知名的EKG，并比较它们提取和构建知识的实践。此外，本文还解释和讨论了AKG建设的挑战，障碍和潜在的解决方案。鉴于阿拉伯语在这一领域的研究相对较少，本文提出了未来阿拉伯语研究的主要方向，以促使阿拉伯语阿拉伯这一审查的贡献可归纳为以下三点：（i）概述AKG术语、建设任务、阶段、方法和资源，（ii）根据任何AKG系统的最重要表征特征，基于现有文献介绍和审查最突出的AKG研究，以及（iii）提出和讨论AKG面临的问题和挑战，并强调未来的研究方向，并说明潜在的解决方案和机会。本文的其余部分组织如下：第2节解释了阿拉伯语的性质和阿拉伯语与英语之间的差异。第3节定义了AKG术语、表示形式、应用、施工任务和阶段。第4节介绍了AKG系统和实践的最新发展。第5节介绍和讨论AKG的问题和挑战。第6节给出并展示了AKG问题的潜在机会和解决方案。最后，在第7中给出了结论。2. 阿拉伯语阿拉伯语是一种从右到左的闪米特语，其家族是一个更广泛的语言群的成员，称为亚非语（Ryding，2005）;它是草书，粘着，高度曲折和派生的（Bounhas等人，2020年）。阿拉伯语有三种变体：古典阿拉伯语（或古阿拉伯语），口语阿拉伯语和现代标准阿拉伯语（Ryding，2005）。古典阿拉伯语是古兰经、圣训、马赫托塔（阿拉伯文化遗产）以及伊斯兰教之前的文学和诗歌的语言，而现代标准阿拉伯语是大多数阿拉伯国家的官方语言。因此，它是书面阿拉伯媒体的语言，例如，I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6507Fig. 1.不含动词的阿拉伯语名词性句子示例。I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6508ôõ ÷~图二.一个包含动词的阿拉伯语名词性句子的例子。报纸、广播电视新闻、图书、期刊、路牌、广告、学术刊物、文学作品、教材和隆重场合。最后，口语阿拉伯语是共享同一地理区域的人们使用的日常交流的口语方言，因此它们因国家而异（Ishkewy等人，2014年）。阿拉伯语字母表包括28个字母字符，如果哈姆扎语“”被视为一个单独的字母，则包括29个字母字符。像英语一样，阿拉伯语也是草书体，也就是说，字母是系统地连接在一起形成单词的。每个字母都可以用四种主要的变音符号之一来写，可称为“tash k l”。其中三个主要的非物质文化遗产（araka<$t）（变音符号）被认为等同于英语短元音，are（Damma）阿拉伯语的句子结构与英语不同。例如，在英语中，句子结构如下：主语+谓语，其中谓语包括动词和句子的其他部分。换句话说，英语句子必须从主语（名词短语（NP））开始，然后是动词（动词短语（VP）），句子的其余部分可以是宾语（另一个名词短语（NP）），副词短语（ADVP），形容词短语（ADJP），介词短语（PP）或子句（CL）。在阿拉伯语中，有两种不同类型的句子基于首词的词汇类别。也就是说，如果一个句子以名词开头，它被称为名词性句子，而如果它以动词开头，它被称为动词性句子。名词性句子由两个基本成分组成，一个是主语，它是一开始就出现的有定名词，'“的。其他次要的双音节文字标记在特殊情况下书写，例如“”（Tanwın）”和“麦达”。除了具有区分辅音的功能外，这些音批评家们改变了这个词的意思。换句话说，如果一个单词显示不同的变音符号，它可能有不同的含义。例如，一个由两个辅音字母"”和““（”b”和“r”）组成的简单单词可以根据这两个辅音之间插入的变音符号表达三种完全不同的含义。这三个字，分别是：义（bir）、巴（bar）、麦（bur）。ﺧﺒﺮ(khabar)(Predicate), which tells or informs something aboutthe initial Subject. 谓语与主语在数、性和格上一致名词性句子必须以主语（名词短语（NP））开始，句子的其余部分可以是动词短语（VP），另一个名词短语（NP）），副词短语（ADVP），形容词短语（ ADJP ），介词短语（ PP ）或子句（ CL ）（ Ditters ，2001）。动词在名词性句子中不是必不可少的完整的句子可以是两个名词，或者带有任何其他词性的名词（例如，形容词或副词），而不需要动词，不像英语句子，动词是一个句子的主要部分，应该存在。图 1，Fig. 2和图 3示出了I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6509图3.第三章。一个阿拉伯语动词句子的例子在Stanford-CoreNLP1中，阿拉伯语句子和英语句子在语法、词性（POS）和成分分析方面的差异。图1示出了没有动词的名词性句子的例子，而图2示出了没有动词的名词性句子的例子。图2显示了一个带有动词的名词性句子的例子。图 3 2显示了一个动词句子的例子。动词句的结构形式是动词+主语+谓语，主语是显性（可见）或隐性（不可见）的成分，不需要书写就能被隐含地知道，动词句的谓语与名词句一样，可以是动词短语（VP）、名词短语（NP）、副词短语（ADVP）、形容词短语（ADJP）、介词短语（PP）或从句（CL）。图3示出了动词句子的示例。从这个例子中可以看出，没有男人-14.4.0版，https://corenlp.run/。2Nasb小品词是动词前面的动词小品词。它的动词性从句被认为是从句。句子中主语的位置。主语是隐含的; 它是一个隐蔽的主语名词（（'a n a ）（ I ）），可以从句子中理解，但它不是书面的。此外，阿拉伯语是高度曲折的，因为单词有可能表达不同的语法类别，如时态、性、体、格、语态、确定性、个性和语气。例如，动词可以作为一个单独的词出现，代词主语和宾语都附着在这个词上。例如，动词句子“”。“我们吃了它”（akal-na<$-ha<$）由三个元素组成：动词“吃了它”（akala）（ate）、后缀主语代词“吃了它”（-na<$）（we）和后缀宾语代词“吃了它”（ha<$）（it）。然而，许多现有的阿拉伯语分析工具不能得到正确的POS或解析这一简单的句子。为了在现有的阿拉伯语分析工具中展示这些问题的一个例子，于2022年1月20日发布的现有Stanford CoreNLP（版本4.4.0）仍然无法从句子中获取主题代词（-na<$）（我们）。的另一示例I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6510图四、CoreNLP 4.4.0对阿拉伯语句子的不完整或不正确分析问题的示例一字句是动词句。我可以”（I can.），动词是（asta）（can），主语是无形的，它是一个隐蔽的主语名词（'ana）（I）。然而，现有的阿拉伯语工具但也存在不能明确隐蔽主体的不足图 4 显示了基于 StanfordCoreNLP 4.4.0的这些问题（tatazawaj）为女性。另一个例子，单词大致描述办公室和图书馆例如，形容词会因词的性别而有所不同产出值得注意的是，阿拉伯语中的许多句子语言通常有一个看不见的主语或有时是covet形容词，阿拉伯语英语但它们在上下文中被理解。以上所有简单的例子都说明了阿拉伯语的复杂性。阿拉伯语复杂性的另一个例子是句子“”。“（al-malik a <$dil yuhibu ra-eiy-toh）。它可以有两种不同的解释。.（almaktabatkabiraton.）.ﺍﻟَ�ﻤﻜﺘُ�َ�ﺐَ�ﻛِ�ﺒﻴٌ�ﺮ（almaktab kabiron. ）图书馆很大。办公室很大。的问题，即，（一）国王是公平的，他爱他的人民。事实上，“阿迪尔”这个词或表示“公平”的形容词（Bounhas等人，2020年）。这个句子的正确解释可以从前后的句子中得到说明。与英语不同，这些名称以大写字母开头，因此很容易区分。此外，阿拉伯语对可能影响意义的人、地点和事物的性别进行了区分（Bounhas等人，2020; Ryding，2005）。阳性词和阴性词之间有区别;例如，动词marry对男性来说是此外，英语中的冠词（a、an和the）是单独的词，位于名词之前。相反，在阿拉伯语中，定冠词是“alta'erif”（alta'erif）附加在单词的开头（前缀）。例如，“maktabah”（图书馆）一词被定义为“al-maktabah”（图书馆）。“图书馆”（maktabah）的复数形式是“图书馆”（maktab- a <$t）。阿拉伯语的词根和模式对于理解词汇的派生方面是重要的。根源和模式I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6511图五、一个阿拉伯语知识图谱与英语翻译的例子尚未在现有的阿拉伯语NLP工具中得到充分应用或实现例如，现有的阿拉伯语词干分析器或词形分析器工具有许多缺点。词干提取过程的目的是去除单词的前缀和后缀。大多数现有的词干提取方法剥离词缀，但不能保证结果形式不会改变含义或获得有效的独立单词。例如，考虑阿拉伯语动词形式“等待”（yanta-zuwn）（他们等待），词干会去掉现在时态前缀“等待”（ya）和复数后缀“等待”（uwn），留下“等待”（nota-zir），在阿拉伯语里是个不存在的词这个词将是正确的阿拉伯语单词后，删除中缀“（ta a）和离开”“（na zar a）（见）。然而，许多现有的阿拉伯语词干分析器无法去除阿拉伯语单词的中缀。另一个例子，考虑阿拉伯语名词单词（Alshalabi et al.，2021; Alshalabi等人，2022年）的研究提出了解决阿拉伯语词干问题的良好尝试。然而，（Alshalabi等人，2021）研究的局限性在于无法提取阿拉伯语单词的词根，需要根据阿拉伯语的模式从单词的中间去掉一些字母并进行处理。同样，（Alshalabi et al.，2022）研究提出了一种用于阿拉伯语词干分析的破复数规则（BPR）算法，以解决一些不规则破复数问题。然而，还有许多其他源自阿拉伯语的名称在本研究中没有涉及。与词干提取过程不同，词形还原过程旨在揭示词的形态变化并返回词的规范。例如，考虑阿拉伯语动词形式 “ 等待 “ （ yanota-zaruwn）（他们等待），它的词形化是”等待“（eainta-zar a）（等待）作为基本形式。另一个例子，相比之下，阿拉伯语单词的词根是过去时态形式的三个基础（或在某些情况下四个基础）原始单词，一个单词就是从这些单词形成的。例如，“”的根（yanta-ziruwn）（他们等待），（等待）是（na-zara）（锯），这具有完全不同的意义。同样地，“al-maktab- a <$t”（图书馆）、“kitabah” （书写）和“maktab” （办公室）的词根是 " k a t a b a ” （书写）。综上所述，我们可以得出结论，阿拉伯语的性质阿拉伯语是一种高度屈折和派生的语言，因此对阿拉伯语数据进行处理和分析以获取有用信息和构建知识库并不容易3. 阿拉伯语知识图谱概述3.1. 阿拉伯语知识图谱术语AKG被定义为可以用图形表示的阿拉伯语知识库。知识库是以机器可理解的格式存储知识的规则、事实和假设的集合（Liu等人，2018年;Subhashini和Akilandeswari，2011年）。图是实体（节点）的集合以及它们之间的关系（链接）（Zou，2020; Tiwari等人，2021年）。这个知识库需要一个表示格式或模型来组织数据。资源描述框架（RDF）图是被设计为以三重形式（主语、谓语、宾语）表示知识的数据模型的示例（Färber等人，例如，“ 马克 · 扎克伯格出生在纽约 ” 、 “ 马克 · 扎克伯格出生在纽约 ” 等可以表示为Mark（sub：），标记为obj：，标记为pred：，标记为（sub：），标记为obj：，标记为pred：，标记为想想阿拉伯语的名词单词“图书馆“（al-maktab- a <它的词形变体是主要的问题是，许多阿拉伯语单词lemmas是不规则的，如单词'（neisa'）（women）的词元同样，即使对于常规的阿拉伯语单词这使得很难提取正确的lemma。许多现有的工具在许多情况下无法提取正确的阿拉伯语词元（例如Stanford Arabic Word Segmenter3）。这些简单的例子解释了现有的阿拉伯语词形转换工具中的主要问题。3https://nlp.stanford.edu/software/segmenter.shtml网站。Zuckerberg，pred：birth_place，obj：New York）. AKG对语义网和阿拉伯社区有着非常有前途的成果。该AKG可用于学术和商业领域;通过为许多不同的研究领域提供大型数据集并增强发现，或通过改进搜索引擎，提供元数据和互连业务（Ktob和Li，2017）。为了简化，AKG可以定义如下：AKG是属性、实体、关系、事实和规则或用于阿拉伯语的其他形式的知识的集合，其呈现并定义某种事实、关系或连接作为范例而不是特定类别的事物（Tiwari等人，2021年）。为了更多的解释，图5（a）呈现了AKG的节点的连接可以是什么的示例，其中（Ei）、（Ai）和（Ri）表示集合I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6512图六、阿拉伯语和英语句子的词性举例实体、属性和关系的数据，而图1（b）示出了这些属性、实体、阿拉伯语英语阿拉伯文的关系（附英文翻译）。1（子：ﺯﻭﻛﺮﺑﻴﺮﺝ，1(sub马克·扎克伯格，Pred：人、地点或组织是实体类型或类。然而，要获得这个简单的数据并将其表示为图11所示. 五，pred：）obj：，_birth_place，obj：NewYork）2(sub马克·扎克伯格，Pred：我们需要精确的语言处理和分析，2 （子：ﺯﻭﻛﺮﺑﻴﺮﺝ，配偶姓名，obj：Priscilla提取正确信息并构建AKG的文本pred：obj：，中文（简体）Chan）正确例如，要提取纽约的面积属性，如图1B所示。5，假设我们有这个名词性的阿拉伯语句子“”。2783.8“这个阿拉伯语句子可以是这两个不同句子中的一个（i）或（ii）783.8平方公里在英语中，“New York”的）pred ：，（ sub ： 3obj：，_），（ sub ： 4 （ obj ：，pred：pred：，（sub：5）obj：，3 （ sub ： PriscillaChan ，pred ： spouse_name ， obj ：Mark Zuckerberg）4 (sub ： Mark Zuckerberg ，pred ： foundation ， obj ：Facebook）5 (sub：Priscilla Chan，pred：foundation，obj：Facebook）第二句。虽然从阿拉伯语中提取这个属性是非常困难的，因为我们不知道word“misahat”（地区）是名词，“niuyurk“（纽约）是名词也是一个名词。从句法上看，没有任何迹象表明”misahat“图6显示了这些阿拉伯语和英语句子的POS。同时，并不是所有两个名词在彼此之后都表示第一个名词是下一个名词的定语例如，句子“。艾哈迈德·穆阿利夫·阿尔基塔布（ahmadmualif alkitab）。）（艾哈迈德是这本书的作者。）三个字：“”，“任何KG构建过程的核心模块是知识提取和知识链接（Wu等人，2019年）。知识抽取采用了几种常用的抽取技术进行实体抽取.命名实体识别（NER）是在识别和分类信息（例如，人、地点、组织）（Liu等人，2018年）。知识链接是指实体之间的语义链接。它应用机器学习方法和抽象的轻量级实体匹配策略来收集关于实体的事实并提取二元和语义关系（诸如三元组（主语、谓语、宾语））（Wu等人，2019年）。例如图 5由四个语义关系（链接）组成，它们是：_（入）、_（嫁）、（创始人）和_（共同创始人）。同时，它还提出了以下五个事实：基于上述事实，我们可以注意到事实2和3中的相比之下，AKG的事实2和事实3有两个不同的谓词这是因为阿拉伯语区分了人、地方和事物的性别，如第2所解释的。3.2. 阿拉伯语知识图谱构建AKG可以从不同的数据资源和类型中收集。它可以从结构化数据（如数据库）、非结构化数据（如维基百科）或非结构化数据（如新闻或文章）中收集和提取。它也可以从视频或图像中提取，例如在（Zhang et al.，2019年）。与英语或任何其他语言一样，AKG构建过程可以通过以下三种方式之一执行：i. 手动：AKG构建过程完全由人工执行ii. 合作：人类执行AKG建造过程中的大部分任务iii. 自动化：监督或无监督技术用于执行AKG施工过程的大多数任务。在AKG认证过程中涉及多项任务。此外，关于提取和构建AKG的研究和技术可分为三类I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6513见图7。阿拉伯语知识图谱构建的阶段。按数据源类型分类的方法这些AKG施工任务、阶段和方法类型将在以下小节中进行说明3.2.1. 知识图谱构建任务和阶段KG构造是一种链接挖掘技术，在构建预测性或描述性链接数据模型时明确考虑对象根据Nickel等人的说法，这些链接挖掘技术有几个构建KG的任务。（2016），KG构建有三个主要任务：链接预测、实体解析和基于链接的聚类。i. 链接预测：它也被称为组检测（ZamaniAlavijeh ， 2015;Getoor和Diehl，2005）;它旨在识别基于特征的分组，并在关系学习设置中基于其相似性对具有关系的实体进行聚类（Nickel等人，2016年; Zamani Alavijeh，2015年）。关系学习设置（规则）是旨在通过提取或预测来学习实体之间关系的过程ii. 实体解析：它也被称为对象识别（Zamani Alavijeh，2015;Getoor 和 Diehl ， 2005; Tejada 等人， 2001 ）、实例匹配（ Rahm 和 Bernstein ， 2001 ）、数据去重（ Culotta 和McCallum，2005）或记录链接（Newcombe等人，1959年）。它的目的是根据语义等价物来识别关系数据中的哪些对象引用相同的底层实体。iii. 基于链接的聚类：也称为对象聚类（Zamani Alavijeh，2015;Palopoli et al.， 1999）;它的目的是聚类关系数据或对象（链接是对象之间的关系）。它旨在扩展基于特征的方法，不仅基于实体的特征相似性，而且基于它们的链接相似性对具有关系的对象进行分组和聚类（ Nickel 等人， 2016 年 ; ZamaniAlavijeh，2015年）。基于许多提到的研究，例如（Zhao等人，2018;Ktob和Li，2017;LiuQiao和DuanHong，2016; Xie等人， 2020年），我们可以将AKG建设的阶段划分为三个主要阶段：知识获取、知识融合和知识存储。图7描绘了AKG构建的这三个阶段。A. 知识获取阶段它是系统的初始阶段，建立基础知识库是知识工程的一部分或更新它（Popovic，2000）。实体提取、属性提取和关系提取是该阶段中寻求发现新知识的任务（Ji等人，2002年）。实体提取任务的目的是从可用的知识资源中发现实体，并将其分类为预定义的类别，如位置，组织，人，日期，时间等。NER被广泛用于识别和分类实体。属性提取任务旨在确定实体的意图语义，以便更清楚地定义实体的概念（Zhao等人，2018），而关系提取任务旨在找到实体之间的关系，用于指定它们的指称语义。B. 知识融合阶段这是一个迭代过程，旨在识别从多个数据集中提取的真实三元组;它结合源以增强和扩展所发现的实体和三元组（赵例如，2018年）。实体连接和对齐、本体构建、推理和推理是这一阶段的任务。实体链接和对齐任务也称为实体解析或实体匹配（LiuQiao和DuanHong，2016）。它试图根据它们的相似性对实体进行分组和聚类。另一方面，本体构建任务旨在将实体与它们的关系（实体，关系，事实和规则）分组和设计为本体。而推理和推理任务是使用现有的设计知识（本体）来推理新知识并减少冲突、噪声和不完整关系或其上的事实的过程（Chen等人，2020; Tari，2013）。这项任务还可能包括改进（质量评价）。C. 知识储存阶段该阶段旨在以一种或多种知识表示格式（如RDF）存储AKG，并在图中可视化知识（Kerdjoudj和Curé，2015）。知识的可视化可以通过将提取的知识存储为知识数据库，然后使用知识可视化工具，如Neo4j4，FlockDB 5和GraphDB 6。SPARQL或类SPARQL查询被广泛用作可视化或表示KG的标准查询语言。SPARQL查询第3.3节陈述了广为人知的知识表示格式。4https://neo4j.com/。5https://webscripts.softpedia.com/script/Database-Tools/FlockDB-66248.html网站。6https://graphdb.net/。I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报651491011121213图8.第八条。阿拉伯语和英语语言的信息提取过程示例3.2.2. 基于资源基于数据源的类别，知识库抽取或构建的研究和技术可以分为三类：基于知识库和百科全书的1-KG构建、基于本体的2-KG构建和基于信息抽取技术的3- KG构建。i. 从知识库或百科全书构建 KG ：许多知识库，如 YAGO 、BabelNet、Freebase和DBpedia，它们的基本本体和知识都依赖于维基百科页面的结构化内容。此外，有一些研究试图从多种植物中构建KG，例如（Wu等人，2019），或来自多个非英语词典，如XLore（Wang et al.， 2013）、CN-DBpedia（Xu等人，2017），Zhishi.me（Niu et al.，me2（Wu etal.，（2019年）使用中国的植物。此外，一些研究依赖于现有的储存库（例如，WordNet、VerbNet和Free-base），例如在（Abouenouret al.，2014年;Al-Rajebah和Al-Khalifa，2012年）。ii. 通过本体构建KG：有许多研究和系统，例如NELL（Carlson等人， 2010）和Google的Knowl-edge Vault（Dong等人，2014）系统，以及（Heist，2018;Elgamal等人， 2020年）的研究，这些研究使用现有的个体学作为种子，然后将它们组合、丰富或填充以构建KG。iii. 通过信息提取技术的KG构造：许多研究和技术使用信息提取（IE）技术从KG的非结构化数据中提取实体、属性、关系、规则和事实，例如TEXTRUNNER（Banko et al.，2007）、SERE 7（Zhang等人，2016）、O-CRF 8（Banko和Etzioni，2008）;以及诸如（Chen等人，2010;Zhong等人，2016; Wang等人， 2018），它使用了深度学习技术。IE过程包括三个阶段来提取KG：标记阶段、检测阶段和注释阶段。标记阶段的目标是处理、定义和标记POS。检测阶段旨在检测和识别命名实体。而注释阶段的目标是通过使用注释方法（如依赖解析器和路径）对文本进行注释然后采用实体连接和事实产生技术构造知识并表示KG。图 83.3. 知识表示存在用于构造KG的许多知识表示格式或这些模板以机器可读的形式表示知识，更容易找到特征并构建KG。在下文中，我们列出了KG最常用的知识表示模板。RDF：RDF是Web上数据交换的标准模型。DBPedia（Lehmann等人，2015; Bizer等人，2009; Al-Feel，2015）是使用这种表示格式的KG的示例。RDFS（资源描述框架模式）：RDFS是一种用于在Web上表示简单RDF词汇的通用语言 YAGO（Suchanek等人， 2007）是使用这种表示格式的KG的示例。RDFa（属性中的资源描述框架）：RDFa是一种属性规范，用于在HTML5、XHTML和任何XML应用程序中表达结构化数据。Google的知识库（Dong等人，2014）可以被认为是使用这种表示格式的KG的示例。JSON（JavaScript Object Notation）：JSON是一种有用的数据序列化和消息格式。ConceptNet（Liu and Singh，2004）是使用这种表示格式的KG的一个例子。JSON-LD（用于链接数据的JavaScript对象表示法）：JSON-LD的主要目标是在基于Web的环境中使用链接数据，以构建可互操作的Web服务并将链接数据存储在基于JSON的存储引擎中。谷歌知识图谱（Singhal，2012; Noy等人，2019）是使用这种表示格式的KG的示例。OWL （ Web Ontology Language ）： W3C Web OntologyLanguage（OWL）是一种语义Web语言，旨在表示有关事物、事物组以及事物之间关系的丰富而复杂的知识。WordNet（Miller，1995; Black等人，2006）是使用这种表示格式的KG的示例。3.4. 知识建构技术知识构建技术是NLP技术和机器学习技术的结合。NLP技术还包括预处理技术，例如停用词删除，给出了这些阶段的一个例子，对于阿拉伯语（b），一个对应于英语的例子（a）。7同时提取实体和关系。8Open IE系统使用条件随机场。9https://www.w3.org/2001/sw/wiki/RDF。10https://www.w3.org/2001/sw/wiki/RDFS。11https://www.w3.org/2001/sw/wiki/RDFa。12https://www.w3.org/TR/json-ld/。13https://www.w3.org/2001/sw/wiki/OWL。●●●●●●I.A. Ahmed，F.N.哈立德？阿斯瓦迪Noaman等人沙特国王大学学报6515词干分析器（去除词缀）和词形分析器（将单词转换为阿拉伯语中的词形虽然其他NLP技术是诸如POS标记（Abney，1997）、解析器（Klein和Manning，2003）、基于模式（Morin，1999）和基于模板（Wong等人， 2012年）。第二列举了NLP技术在阿拉伯语中的一些缺点，如从单词中去除中缀和产生正确的阿拉伯语单词的问题;标记阿拉伯语句子的隐蔽或附属主语的问题;以及阿拉伯语单词和句子的歧义问题另一方面，监督、半监督或非监督机器学习技术，例如基于规则的（Maedche和Staab，2000年）、聚类（Faure和Poibeau，2000年 ; Drymonas 等人， 2010 ），分类，归纳逻辑编程（ Zelle 和Mooney ， 1993 ），和逻辑推理（ Shamsfard 和 Barforoush ，2004），用于提取和构建知识。基于规则的技术是基于预定义的模式，具有一组用于提取和构建知识的规则和条件。然而，这些技术在精确度方面具有合理的结果，但召回率结果非常低（Wong等人，2012年）。相比之下，聚类和分类技术基于统计度量和方法（例如，语义距离和共现分析）来提取和构建知识。同样，在一些研究中，例如（Alshalabi等人，2013; Albukhitan等人， 2017），神经网络模型用于对数据进行聚类或分类。然而，这些技术可能需要预先指定的大的支持因子，并且在许多情况下，不能获得语义连接（Al-Aswadi等人， 2020年）。逻辑编程和逻辑推理技术是基于规则的技术;它的目的是从现有的事实和规则集的正面和负面例子中推导或推断隐含的规则或事实。然而，这些技术很有可能引入相互冲突或无效的规则或事实（Al-Aswadi例如， 2020年）。形式上，这些知识构建技术分为四个主要类别;它们是（1）基于语言学的方法，其优先考虑句法- 词汇模式的使用、语法类别（POS）的标记和句子分析，（2）基于语法的方法，其专注于分析共现和基于关联和分层规则的知识提取的技术

下载后可阅读完整内容，剩余1页未读，立即下载