阿拉伯语文本自动抽取本体关系模型

126 浏览量更新于2024-01-27 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报非结构化文本中阿拉伯语本体抽取模型Yasser MohamedSaber，Hala Abdel-Galil，Mohamed Abd El-Fatah Belal埃及开罗赫勒万大学计算机和人工智能学院阿提奇莱因福奥文章历史记录：收到2021年2022年1月23日修订2022年2月9日接受2022年3月7日在线发布保留字：阿拉伯语三重抽取阿拉伯语本体本体抽取阿拉伯语三重关系推理阿拉伯语语法关系A B S T R A C T本体使知识的共享和重用成为可能，允许信息系统的互操作和组合。从文本中自动提取本体关系是以计算机化的方式表示文档及其内容的重要因素。本文提出了一种从阿拉伯语文本中通过句子分析和词性提取自动提取本体的模型。然后，提出的基于规则的模型被应用于从分析树中提取句子的三重属性（主语、谓语和宾语）。最后，语义关系可以用于提取从最初提取的三元组推断的新三元组。使用两种方法评估结果：第一种方法是基于与手动提取的比较，因为没有测量阿拉伯语三重提取的标准方法;第二种方法是基于将数据集翻译成英语并使用斯坦福依赖提取网络工具比较输出结果。该模型实现了阿拉伯语三元组提取的准确率为73.6%，由于新的推断三元组，整体三元组增加了35%。然而，当数据集被翻译成英语并通过斯坦福依赖提取网络工具进行测试时，准确率为71.8%，没有推断的三元组。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在计算机科学和信息科学的背景下，本体是通过领域内的一组概念以及它们之间的关系来表示知识的形式化表示。它用于推理该域的属性并描述它（Man，2013）。本体通常具有许多结构上的相似性：描述个体（实例）、类（概念）、属性和关系。我们提出的模型，我们专注于提取个人和他们之间的关系，旨在从文本中提取三重一般关系，而不仅仅是预定义的二元关系。与词汇资源不同，本体不仅限于词汇关系。WordNet是一个大型的英语词汇数据库;它将名词、动词、形容词和副词分组*通讯作者。电子邮件地址： yassermohamed_csp@fci.helwan.edu.eg （ Y.M. Saber ），fci.helwan.edu.eg （ H. Abdel-Galil ）， belal@fci.helwan.edu.eg （ M.A. El-FatahBelal）。沙特国王大学负责同行审查认知同义词（ synsets ）（ Miller ， 1995 ）。 Arabic WordNet（AWN）是一个基于广泛使用的Princeton WordNet for English的设计和内容的现代标准阿拉伯语的类似词汇资源;它能够在词汇层面上翻译为英语和数十种其他语言（Black等人， 2006年）。词汇资源可以用来扩展和丰富本体，AWN被用于在所提出的模型中扩展提取的三元关系。本体被用于各个领域，包括人工智能（AI），语义网，系统工程，软件工程，生物医学信息学，图书馆学，企业书签和信息架构，作为一种关于世界或其部分的知识表示（Man，2013）。阿拉伯语是《古兰经》的语言，也是数亿人的官方语言（El-Radie，2015; Black等人，2006年）。从阿拉伯语文本开发本体是一个复杂的过程，其中语言的组成部分之间的语义关系的提取仍然取决于它们的语法结构（即，句法结构）。然而，解释独立文本的领域需要确定正在处理的信息的类型和它将被表达的风格。而不是解释文本中的所有内容，人们可以简单地搜索众所周知的词汇关系，并利用简单易行的算法找到有用的信息，从而轻松实现这一过程的自动化（Al Zamil和Al-Radaideh，2014; Albukhitan和Helmy，2016）。https://doi.org/10.1016/j.jksuci.2022.02.0071319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comYasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6067本体可以从不同的源中提取，例如数据库、结构化和非结构化文档，甚至现有的源，例如字典、分类法和目录。在这项工作中，我们专注于从非结构化文本中提取本体，这是一种在可用性方面排名最高但在可访问性方面排名最低的格式。应该注意的是，“大多数方法仅使用名词作为本体构建的砖块，而忽略其他词类之间的任何本体关系（Green等人，2013年）”。用于术语提取的现有方法可以分为三类：语言方法，统计方法和混合方法（Alrehaili，2017;Al-Aswadi等人，2019; Belal等人， 2016年）。从可能扩展到数千个文档的各种数据源中手动提取信息是一项不切实际的任务;因此，我们需要能够提取信息并将其提供给用户的自动化系统。语义网的出现使得创建可以使用语义网查询语言查询的三元组信息成为可能，使得用户能够在三元组关系上处理复杂的逻辑查询。该模型提出了自动三重关系提取阿拉伯语文本依赖于三个主要过程。第一个过程是使用 Stanford Arabic Parser （ Green andManning，2010）解析句子，导出词性（POS）和解析树。第二个过程是应用所提出的基于规则的模型从分析树中提取句子的三重属性（主语、谓语和宾语）。最后，第三个过程是使用AWN（Black）中的语义关系例如，2006）以提取从原始提取的三元组推断的新三元组。2. 阿拉伯语相关作品与英语文本领域相比，很少有研究介绍阿拉伯语本体提取方法和级别（AlArfaj，2019; Al-Yahya et al.， 2016年）。在本节中，介绍了一些阿拉伯语2.1. 基于结构化文本的已经成功地进行了构建本体的研究，但仅限于结构化文本，如数据库或其他知识库。阿拉伯语本体论（Jarrar，2021）是采用这种方法的最新作品之一。本研究提出了一个正式的阿拉伯语WordNet的基础上精心设计的本体，它提供了一个正式的表示的概念，阿拉伯语的条款传达。这包括大约150个阿拉伯语多语种词汇，正在使用本体映射和丰富。Map-ping使用Princeton WordNet、Wikidata和其他资源执行。同义词提取方法（Naser-Karajah等人，2021）是另一个最近的工作，提出了自动提取同义词时使用的不同方法和趋势的调查。这些方法可以分为四个主要类别：使用翻译图找到同义词;发现新的转换对，例如（阿拉伯语-2.2. 本体术语抽取阿拉伯语中的术语由单个单词或多个单词组成。阿拉伯语术语（Abed et al.，（2013年）单词倒排频率文档，计算每个单词在每个文档中的频率。阿拉伯语术语提取是开始阿拉伯语本体提取的有用步骤。然而，没有提取词之间的关系，例如二元或三元关系。2.3. 二元关系自动抽取SynoExtractor是最近的一种自动二元关系提取方法（Al-Matham和Al-Khalifa，2021），它提供了一种关系提取的解决方案。该方法提出了一种流水线，可用于过滤相似的词嵌入，以保留基于指定的语言规则的同义词。语义关系框架（AlZamil和Al-Radaideh，2014）是一个用于提取阿拉伯语二元关系以及实现词根和概念提取的框架。该框架通过使用定义的类来表示两个词之间的二元关系，这些类包括“是一个”（）、“的一部分”（-）、“有“a”（a）及“kind of”（种类），以及加入阿拉伯语中一些特殊定义的关系，例如“因为”（英语：Cause）。Azhary框架（Ishkewy等人，2014）提出了二元关系的本体提取，并将结果与AWN（一种著名的阿拉伯语词汇框架）进行了比较。该框架呈现的关系包括：词性、同义词、反义词、上位词、下位词、完整词和部分词。基于本体的语义注释（Al-Yahya等人，2015）确定了概念，并提出了它们之间定义的二元关系。上面所有的例子都引入了二元关系级别，提供了两个阿拉伯语单词或概念之间的关系，使用标准类，如但是，他们不能分析句子的含义，也没有三重层面的考虑。2.4. 查询三重应答方法据我们所知，阿拉伯语文本领域的查询回答研究不依赖于从文本中提取信息的非逻辑基础相反，它们依赖于与存储的文档的直接匹配或语义匹配，而不从文本中提取本体。下面的案例研究介绍了本体查询语言SPARQL执行查询处理和匹配的阿拉伯语接口的本体实现，假设已经建立了本体库并由该查询语言表示。阿拉伯语QAS系统（AbuTaha，2015）是一种将阿拉伯语自然语言（NL）查询转换为SPARQL的方法。该方法充分利用语义本体将用户查询转换为资源描述框架（RDF1）三重模式，通过推理缺失的组件构建完整的SPARQL查询。这种提出的方法允许处理不同复杂性和结构的查询（AbuTaha，2015; Anantharangachar等人， 2013年）。在问题中只提取QAS方法中引入的三元关系，以匹配手动准备的本体库。因此，这不被认为是本体提取情况。1W3C。资源描述框架。https://www.w3.org/RDF/的网站。（2021年8月1日查阅）。Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6068第1：导出POS和解析树Stanford Arabic NLP Group（POS and Parser）（Green and Manning，2010）步骤2：应用所提出的基于规则的模型来提取步骤1中的句子三重属性（主语、谓语和基于规则的模型基于通用依赖性（UD）树库统计（Hajic等人，2004年）。阿拉伯GR（Hammadi和Ab Aziz，2012年），以及阿拉伯语专家添加的增强功能步骤3：使用阿拉伯根重新格式化提取的谓词步骤4：通过连接这些提取的三元组并使用AWN提取的词汇和语义关系（Black等人，2006），从最初提取的三元组推断新的三元组关系。步骤5：提取的三元组以本体存储格式存储，例如RDF和Web本体语言（OWL2）。步骤6：最后，我们可以通过使用众所周知的本体工具Protégé创建提取的本体并使用SPARQL对其进行查询来呈现结果2005; Buitelaar等人，2004年）。图1.一、提出模型的主要步骤W3c。Web本体语言。https://www.w3.org/OWL/网站。（2021年8月1日为每一句话而生。Stanford tagger and parser在标记和解析之前重新处理输入句子，例如删除单词格式“”。下面是一个实际的POS和斯坦福解析器执行的解析的例子，如图所示。3.第三章。3.2. 通用依赖关系（UD）树库统计数据基于布拉格查尔斯大学创建的布拉格阿拉伯语部门树库（PADT）树库由7664个句子（282，384个标记）组成（Hajic等人，2004年）。所提出的模型转换为我们的算法实现的规则的统计计算的主题，谓词和直接对象。依赖性分析通过使用解析树中存在的依赖性信息来帮助找到术语之间的关系（Asim等人， 2018年）。例如，该主题的树库统计数据如图所示。四、图2a. 基于本体的信息抽取模型体系结构。3. 阿拉伯语三重关系抽取模型通过应用图1中的步骤，提出了用于构建本体的详细建议模型。1.一、图中给出了所提出的从阿拉伯文本中提取本体的模型的详细架构图。 23.1. 句子词性和句法分析通过使用 Stanford Arabic POS and Parser （ Green andManning，2010）中的Stanford POS tagger我们使用斯坦福标记器，它在测试集上达到了96.8%的准确率（Green和Manning，2010）。POS标记器是一个软件，它可以读取包括阿拉伯语在内的多种语言的文本，并为每个标记（如名词、动词、形容词等）分配POS。3.3. 语法关系抽取规则（Grammar Relations Extraction Rules，GRs）阿拉伯GR系统（Hammadi和Ab Aziz，2012）为从解析树中提取主语、谓语和宾语的语法关系设置了定义的规则。我们提出的模型提取了一些与我们的目标相关的语法关系提取规则（GR）。例如，GR系统（Hammadi和Ab Aziz，2012）定义了主题提取规则，如图2所示。五、根据我们提出的模型然而，它仍然需要提取主要对象，作为主语，宾语和谓语，不管确切的阿拉伯语语法关系。图6示出了对应于句子“的所提出的三元组。然而，GR系统中引入的阿拉伯语语法关系（Hammadi和Ab Aziz，2012）如图所示导出。图7.第一次会议。因此，所提出的模型选择性地从GR系统规则（Hammadi和AbAziz，2012）中选择与我们的目标一致的适当规则。Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6069图2b. 基于本体的信息抽取模型的详细架构。图五. 主题提取规则的GR建议。见图6。语义三元关系。图三. Stanford Parser的POS和解析。见图7。阿拉伯语语法三重关系。I.-（9117; 58%的实例）：58%来自树库，主语是动词后的第一个直接名词。II.- （718; 5%实例）：5%来自树库，主语是动词后的第一个直接代词见图4。主题的UD树库句子是：标记/DTNN/VBP/DTNN解析（根（S(NP（DTNN））(VP（越南船民）(NP（DTNN）Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6070句子是：标记/DTNN/VBP/DTNN解析（根（S(NP（DTNN））(VP（越南船民）(NP（DTNN）三重将是（）规则13：如果句子VPV规则14：如果句子NP and包含V第一V规则15：如果句子NP and不包含V和主语主语后的第一个名词规则16：如果句子NP and不包含V和主语受试者后首次PP3.4. 增强的基于规则的模型合并UD和GR后，阿拉伯语专家插入了许多增强功能。考虑到这些，我们可以定义增强的基于规则的模型，如图1和2所示。八比十I. 主语“”完成动词的动作，主语是完成动词动作的人或物，如图所示。8 .第八条。II. 直接宾语：宾语是动词作用于其上的人或物，如图所示。9 .第九条。见图10。谓词规则。III. 同品种器械“”ﺃﻭ联系我们句子的谓语描述了一个人或一件事做了什么或做了什么，或者一个人或一件事发生了什么，如图所示。 10个。在步骤1的输出上使用所提出的模型提取三元关系的示例如图所示。十一岁3.5. 重新格式化提取的三元组关系所提取的三元组必须以本体存储格式存储。但是，我们在存储结果之前插入了两个新步骤。第一步是使用词根提取算法（词根提取算法）重新格式化谓词，以便在通过任何查询接口查询该三元组时允许更通用的匹配。谓词重新格式化的一个例子如图1和图2所示。 12比14见图11。提取的三重关系。见图8。主体规则。见图9。直接对象规则。Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6071（，）（，），（，）。见图12。三重介绍。此外，我们还可以从AWN中得到标准关系（）。因此，可以从单个三元组推断出许多三元组，如图所示。十八岁在示例中说明了我们提出的模型的步骤之后，我们提出了一些重要的情况及其匹配规则：大小写匹配规则示例图十三. 等同形式。见图14。词根提取。图15. 三倍提取图16. 定义关系。图17. 新的三重推断。图18. 从一个三元组推导出三元组。动词后主语多于主语在动词受试者脱落（潜伏/潜伏性脱落）句子中没有动词第3条规则将检测到主语（名词+形容词）[句子是VP并包含ADJ-> First（专有名词+形容词）或First（名词+形容词）]如果（）被定义为专有名词，则将与规则1匹配第5条规则将检测到主语（名词短语）[句子NP并包含V和第一个N V -> First（专有名词到动词）或（第一个名词到动词）]*Till verb是指动词之前的所有名词的序列根据阿拉伯语的语法，这个句子中的主语是潜在的（*），并且指向（），同样的规则5将检测到主语（）规则4将检测到主语（名词短语）[句子NP并且不包含V ->（第一个专有名词或名词）]第15条规则将检测到谓语（名词短语）[句子NP不包含V和主语->（主语后的第一个名词）]ﻳﻌﻠﻦﺍﻟﺒﻴﺖﺍﻷﺑﻴﺾﺍﻟﺤﺠﺮﺍﻟﺼﺤﻲﺍﻟﺒﻴﺖﺍﻷﺑﻴﺾﻳﻌﻠﻦﺍﻟﺤﺠﺮﺍﻟﺼﺤﻲﻧﺠﻴﺐﻣﺤﻔﻮﻅﺣﺎﺯ*ﻋﻠﻰﺟﺎﺋﺰﺓﻧﻮﺑﻞﺍﻟﻜﻮﺭﻭﻧﺎﻭﺑﺎﺀﺧﻄﻴﺮ然而，当查询这个三元组时，由于单词的不同形式，我们面临许多问题，如图所示。 13岁因此，根提取被执行以保存谓词根并将其存储在一种形式中，如图所示。 14个。3.6. 推断新的三元组关系当使用AWN时（Al-Aswadi等人，2019），为提取的三元组中的每个单词确定词汇和语义关系。一些二元关系是使用定义的类在两个词之间生成的，例如“是一个”（）、“的一部分”（-）、“有一个”（-）和“的一种”（）。我们得到新的推断三元组从原来的三元组连接它与AWN的输出。例如，如果原始的三元组是（），则提取的三元组如图所示。十五岁从AWN中，我们可以得到标准关系（），如图所示。十六岁输出是一个新的推断三元组（），如图所示。十七岁4. 结果数据集：所选数据集是从与各种真实来源相关的一般文本中提取的，并测试了不同的复杂程度，以模拟在不同领域中发现的真实阿拉伯语文本，如下所示：A. 从埃及小学课本简单段落（五年级社会研究书）B. 埃及报纸（埃及报纸））埃及法律C段。在选定的数据集上运行建议的系统后，每个来源的样本结果如下所示。4.1. 埃及小学课本（五年级社会研究课本）但是，如果你不想让你的朋友们知道你的名字，那你就别想了。ﺗﺤﺘﻞﻣﺼﺮﺍﻟﻤﺮﻛﺰﺍﻟﺜﺎﻧﻰﻓﻰﺗﻜﺮﻳﺮﺍﻟﺒﺘﺮﻭﻝ،ﻭﻳﻮﺟﺪﺑﻬﺎﻣﻌﺎﻣﻞﺗﻜﺮﻳﺮ三重关系：它将显示为：（，）Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6072ﻋﺮﻑ,ﺍﻟﺒﺘﺮﻭﻝ,ﻓﻲ,ﻣﺼﺮ,ﻣﻦ,ﺍﻳﺎﻡ,ﺍﻟﻔﺮﺍﻋﻨﺔSentence:-埃及法律第4.3段。（2016年）POS主语宾语谓语新推断/IN密码/NNP密码/IN密码/DTNN密码破解密码/VBD密码/DTNNP密码破解密码/NN密码破解密码1 no Rule-没有规则7 no Rule -没有规则13 noRule-没有规则/没有规则/没有规则但是，这并不意味着你会有一个好的选择。你知道吗，我是说，这是一个很好的例子。ﻭﻗﻴﺎﻣﻬﻢﺑﺄﺩﺍﺀﻭﺍﺟﺒﺎﺗﻬﻢﻓﻲﺭﻋﺎﻳﺔﻣﺼﺎﻟﺢﺍﻟﺸﻌﺐﺍﻟﻮﻇﺎﺋﻒ,ﺍﻟﻤﺪﻧﻴﺔ,ﺣﻖ,ﻟﻠﻤﻮﺍﻃﻨﻴﻦ,ﻋﻠﻰ,ﺃﺳﺎﺱ,ﺍﻟﻜﻔﺎﺀﺓ,ﻭﺍﻟﺠﺪﺍﺭﺓSentence:谓语句补充ﺍﻳﺎﻡﺍﻟﻔﺮﺍﻋﻨﺔPOS主语宾语谓语新推断谓词/NNS/NN/DTJJ/DTNN/NN./无规则/DTNN无规则/NN无规则/IN无规则-未找到页面未找到页面未找到ﻳﻮﺟﺪ,ﺭﺳﻮﻣﺎﺕ,ﻋﻠﻰ,ﺟﺪﺭﺍﻥ,ﺍﻟﻤﻌﺎﺑﺪ,ﺗﻮﺿﺢ,ﺍﻥ,ﺍﻟﻤﺼﺮﻳﻴﻦ,ﺍﻟﻘﺪﻣﺎﺀ,Sentence:ﺍﺳﺘﺨﺪﻣﻮﻩ,ﻓﻲ,ﺍﻟﺘﺤﻨﻴﻂ句子补语ﺃﺳﺎﺱﺍﻟﻜﻔﺎﺀﺓﻭﺍﻟﺠﺪﺍﺭﺓPOSSubject对象/日本语简体中文繁体中文/日本语简体中文/NNS日本语简体中文/VBN日本语简体中文/DTNNS日本语简体中文/IN日本语/VBP日本语简体中文DTNN /DTNN日本语简体中文/IN日本语/VBD日本语简体中文DTJJ1 no Rule -没有规则规则7（完整的介词短语，ﺗﻜﻔﻞ,ﺍﻟﺪﻭﻟﺔ,ﺣﻘﻮﻗﻬﻢ,ﻭﺣﻤﺎﻳﺘﻬﻢSentence:谓词新推断谓语句补充IN），不包括13无规则-将a分隔为a的句子将a分隔为a的句子将a分隔为a的句子将a分隔为a的句子POS主语宾语谓语新推断谓语句补充/NNDTNN//VBP1 no Rule -无规则11 no Rule -无规则13 no Rule-无规则13 noRule -无规则ﺣﻤﺎﻳﺘﻬﻢ在增强模型中，由于不处理这种情况，因此需要维护“4.2. 埃及报纸（埃及报纸）ﺿﺮﺏﺯﻟﺰﺍﻝﺑﻘﻮﺓ5.1ﺩﺭﺟﺔﻣﺤﺎﻓﻈﺔﻧﻴﺎﻳﻨﺮﻭﻧﻎﻓﻰﻣﻨﻄﻘﺔﺍﻟﺘﺒﺖﺍﻟﺬﺍﺗﻴﺔﺍﻟﺤﻜﻢﺑﺠﻨﻮﺏﻏﺮﺑﻰ●ﺍﻟﺼﻴﻦﻓﻰﺍﻟﺴﺎﻋﺔﺍﻟﺨﺎﻣﺴﺔﻭﺍﻟﻨﺼﻒﺗﻘﺮﻳﺒﺎﺻﺒﺎﺡﻳﻮﻡﺍﻻﺛﻨﻴﻦﺑﺘﻮﻗﻴﺖﺑﻜﻴﻦ本工作句：dPOSDd主题D- 第一d物体D- 第九d谓词d新推断谓词D未找到- 第十三句话补体是●Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6073语义标签，但在三元组模型中没有涉及，并且将成为未来增强Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6074如上面的例子所示，存在高度重复的主规则，例如每个集合中的第一个规则（规则1用于主语，规则7用于宾语，规则13用于谓语）。上述示例的分组基于规则编号，如下所示测量阿拉伯语三重提取，并将数据集翻译成英语，并将输出结果与Stan-ford英语依赖提取网络工具进行比较（Schuster和Mannin，2016）。由阿拉伯语专家从1020个句子中手动提取三元组关系，为我们提供了文本中发现的所有关系，然后将其与所提出的模型的自动提取进行比较对于我们的第二种方法，我们使用Google翻译将所有句子翻译成英语，并将翻译的句子作为斯坦福英语依赖提取网络工具的输入。Stanford dependencies（SD）提供了一个表示，句子中单词之间的语法关系，被设计为易于理解并有效地用于提取文本关系。三个字，都是一个字。对于整个数据集，主规则大约58%的规则匹配。下面显示了运行模型的一些屏幕截图和简单示例从解析树中提取阿拉伯二进制文件，如图所示。十九岁如图19所示，结果将是一个关系，因为这个关系是一个标准类（ISA），等价于（A）。结果是：（属性：），（主题：），（对象：）。从分析树中提取阿拉伯三元组，如图所示。 20岁。如图 20，结果将是两个三元关系：第一个关系是（谓词：谓词），（主语：谓词），（宾语：谓词）;第二个关系是（谓词：谓词），（主语：谓词），（宾语：谓词）。所提取的三元组可以在Protégé（Buitelaar等人，2005; Buitelaar等人，2004），一种公知的本体论工具和图，如图21所示。该表示使得能够使用SPARQL查询三元组，从而模拟问题回答查询以查询所存储的三元组的任何部分，例如查询给定谓词和对象的主语。在图21中，使用Protégé OntoGraph表示的本体示出了在两个对象（例如（）和（））之间发现的关系（例如（，））。使用两种方法评估结果：与手动提取进行比较，因为没有标准方法tion，governor，and dependent（Schuster and Mannin，2016）。当我们的模型在代表不同阿拉伯语复杂程度的1020个句子上运行时，失败的句子数量为270 / 1020 = 26.4%，从而导致所提出的模型的准确率为73.6%。使用AWN正确推断的同义词数量为357，生成相同数量的新三元组，并将三元组增加357 / 1020 = 35%的百分比（图1）。22）。5. 模型功能和限制我们的模型在具有简单结构的句子上表现出很高的成功率，例如包含（动词短语）的直接动词短语和包含（名词短语）的直接名词短语，即，（第4，15及16条）。当模型在不同层次的文本复杂性上进行测试时，对于某些特殊格式，例如句子中主语位置的变化（例如使用规则1和规则5的情况下的主语位置变化），结果是令人满意的语法中，主语指代的是潜在的/潜在的/潜在的，因此，该模型成功地处理了这种情况。此外，该模型对于某些格式是成功的，例如当一个主语由多个词（动词之前或之后的词）表示时，如使用规则3和规则5的（动词之前或之后的词）。这里需要的主语是“ N + A d j ” ，因为规则 3 将匹配 N + A d j 或适当的 N + A d j ，规则 5 将匹配动词前的所有名词的顺序。图19. 提出了从解析树中提取阿拉伯二进制的模型实现。●●主题规则1第4实施例1、2、3和5实施例4对象第7实施例1、2和4第9实施例3第11实施例5谓词第13实施例1、2、3和5第15实施例4Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6075图20. 提出了从解析树中提取阿拉伯三元组的模型实现。图21. 提取导入到Protégé OntoGraph的本体和三元组。然而，所提出的模型未能分析格式，例如当同一个句子有许多动词带有连词“连词“时，如”连词“。第一部分（）返回正确的结果，但连词（）之后的最后一部分返回错误的结果，因为第二句依赖于第一句。这种情况需要进一步分析和模型改进，把连词前后的副句联系起来的一些训练。此外，有些情况下，包含被动动词与好吧，作为失败的）因为第二个动词的主语依赖于第一个动词的主语。考虑相同被动动词的正常情况Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6076图22.阿拉伯语三重提取结果。并且发现的主语（），如在（）中，模型成功地执行;因此，第一种情况需要进一步的调查，并且如前所述，可能需要训练以将连词之前和之后的子句关联在一起。其他一些失败的案例是那些区分主体和客体的案例，特别是当不按传统顺序时，比如这可以通过研究模型是否可以通过接受变音符号（）来增强来解决。通常，我们需要增加增强模型中的测试数据集容量，以获得更详细的结果，这将需要大量的时间投入，因为必须手动提取三元组进行比较，如第4所述。6. 结论在本文中，我们介绍了一个基于规则的模型，阿拉伯语三元组提取阿拉伯语文本与不同层次的本体提取，作为自动三元组关系提取的概念证明。所提出的模型由三个过程组成：第一个过程使用Stanford ArabicParser（Green和Manning，2010）解析句子以导出POS和解析树;第二个过程应用所提出的基于规则的模型从解析树中提取句子三重属性（主语、谓语和宾语）;第三个过程使用来自Arabic WordNet的语义关系（Black等人，2006）以提取从原始提取的三元组推断的新三元组。该模型对阿拉伯语三元组抽取的准确率为73.6%，通过推理，三元组的数目增加了35%然而，当数据集被翻译成英语并使用斯坦福依赖提取网络工具进行测试时（Schuster和Mannin，2016），准确率为71.8%，没有任何推断的三元组。在未来的工作中，由所提出的模型输出的较大数据集应由阿拉伯专家进行评估，评估结果应用作注释数据集，以训练和增强当前提出的模型利益冲突没有一引用阿布蒂，早上好Tiun，S.，Albared，M.，2013.基于伊斯兰文献的阿拉伯语词汇提取方法 J.Theor. Appl. INF. Technol. 58.AbuTaha，A.W.，2015年。一个基于本体的阿拉伯语问答系统。伊斯兰大学，加沙。http://hdl.handle.net/20.500.12358/20164。Al扎米尔M.G.H.Al-Radaideh，问：2014.自动提取阿拉伯文本中的本体论关系沙特国王大学计算机信息科学26，462-472。AlArfaj，A.，2019年。从阿拉伯语文本中提取关系：一个评论。Int. 机器人自动 J. 5，212-215。Al-Aswadi，F.N.，Chan，H.Y.，Gan，K.H.，2019.从文本中自动构建本体：从浅层到深度学习趋势的回顾。SpringerNat.BV. 53，1-28。Albukhitan ， S. ，赫尔米， T. ， 2016. 非结构化文本中的阿拉伯语本体学习。ResearchGate 会议论文。 2016. IEEE Publications/WIC/ACM InternationalConference on Web Intelligence（WI）。Al-Matham，R.N.，Al-Khalifa，H.S.，2021. SynoExtractor：一个使用Word2Vec单词嵌入的阿拉伯语同义词提取新管道。复杂性2021，1- 13。Alrehaili，S.M.，2017年。从《古兰经》的阿拉伯文本中学习本体论University of Leeds.Al-Yahya，M.，Al-Malak，S.，Aldhubayi湖，2016.本体词汇丰富：Badea系统用于从阿拉伯语语料库中半自动提取反义关系。马来人 J. Comput. Sci. 29，56-73.Al-Yahya，M.M.，Al-Shaman，M.，Al-Otaiby，N.，Al-Sultan，W.，Al-Zahrani，A.，Al-Dalbahie，M.，2015.基于本体的阿拉伯语文本语义标注。IJMECS 7，53-59.Anantharangachar河，Ramani，S.，拉贾戈帕兰，S.， 2013. 本体论引导的非结构化文本信息抽取。国际信息技术学院，电子城，Hosur路，班加罗尔560100，印度。 Int. J. 网络语义。Technol. （IJWesT）4，1。Asim，M.N.，Wasim，M.，Khan，M.U.G.，Mahmood，W.，Abbasi，H.M.，2018年本体学习技术与应用研究综述。数据库牛津2018PMC6173224，2018。Belal，M.，Abdelgleel，H.，Saber，Y.，2016.从文本中提取本体：阿拉伯语和英语之间的相关工作。Int. J. Adv. Res. Comput. Sci. 经理。研究4，120-130。布莱克，W。Elkateb，S.，Vossen，P.，Pease，A.，Fellbaum，C.，2006年。介绍阿拉伯语WordNet项目。TALP 研究中心。第三届全球Wordnet会议（韩国，2006年）。Buitelaar，P.，Olejnik，D.，Sintek，M.，2004. OntoLT：一个从文本中提取本体的Protégé插件。语言技术，Stuhlsatzenhausweg 3，萨尔布吕肯，德国，知识管理。薛定谔，欧文大街。Kaiserlestern，Germany.Buitelaar，P.，Olejnik，D.，Sintek，M.，2005.基于语言分析的文本本体抽取Protégé插件。语言技术，Stuhlsatzenhausweg 3，萨尔布吕肯，德国，知识管理。薛定谔，欧文大街。Kaiserlestern，Germany.El-Radie，O.S.，2015年。SPARQL 2AL：将SPARQL查询翻译为阿拉伯语。伊斯兰大学，加沙。 http://hdl.handle.net/20.500.12358/20202。格林，S.，de Marneffe，M.，哥伦比亚特区曼宁2013.用于识别多词表达式的解析模型。计算语言学。斯坦福大学，斯坦福，麻省理工学院出版社期刊。卷39第1号。39，195格林，S.，哥伦比亚特区曼宁2010年。更好的阿拉伯语解析：基线，评估和分析。10年的科林在：第23届计算语言学国际会议论文集，pp。 394-402.Hajic，J.，Smrz，O.，Zemánek，P.，Šnaidauf，J.，Beška，E.，2004.布拉格阿拉伯语省树库：数据和工具的开发。.（2021年8月1日查阅）。NEMLAR阿拉伯语资源和工具界面会议论文集。Hammadi，O. I.，Ab Aziz，M.J.，2012.阿拉伯语中的语法关系抽取。J.计算机Sci. 8，891-898。Ishkewy，H.，Harb，H.，Farahat，H.，2014.阿扎里：阿拉伯语词汇本体论。Int. J.网络语义。Technol.（IJWesT）5，5.Jarrar，M.，2021.阿拉伯语本体-一个阿拉伯语词汇网与本体干净的内容。应用Ontol. J.Press . 16，1-26。Yasser Mohamed Saber、Hala Abdel-Galil和Mohamed Abd El-Fatah Belal沙特国王大学学报6077天啊D 2013年，第1号。计算机科学中的本体论。Didact。数学31，43-46。米勒，佐治亚州，一九九五年WordNet：英语词汇数据库。Commun. ACM。38、39-41岁Naser-Karajah，E.，Arman，N.，Jarrar，M.，2021.同义词提取的当前趋势和方法：潜在的适应阿拉伯语，在：2021年信息技术国际会议（ICIT）的会议记录。PP 748-755。计算语言学协会IEEE Publications，pp.428-434Schuster，S.，Mannin，C.D.，2016.英语普遍性增强：一个。改进自然语言理解任务的表示。Stanford University，Stanford，California. 94305进一步阅读Konys，A.，2019年。从文本中学习本体的知识库工具程序计算Sci. 159，1614-1628。

下载后可阅读完整内容，剩余1页未读，立即下载