没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志18(2017)181全文IBRI-CASONTO:基于本体的语义搜索引擎Awny Sayeda, Amal Al Muqrishiba埃及Minia大学理学院b阿曼尼兹瓦大学阿提奇莱因福奥文章历史记录:2016年6月20日收到2016年9月24日修订2017年1月2日接受2017年1月17日在线提供保留字:本体搜索引擎基于关键字的搜索基于语义的搜索资源描述框架(RDF)本体图A B S T R A C T在数据存储库中以非常快的速度增加的大量信息的可用性在提取正确和准确的信息方面产生了挑战。这增加了开发人员之间的竞争,以便获得寻求理解意图研究人员和术语的上下文含义的技术。虽然开发阿拉伯语语义搜索系统的竞争仍处于起步阶段,其原因可以追溯到阿拉伯语的复杂性。它有一个复杂的形态,语法和语义方面,因为它是一个高度曲折和派生的语言。 在本文中,我们试图突出和提出一个本体搜索引擎称为IBRI-CASONTO的应用科学学院,阿曼。 我们建议的引擎支持阿拉伯语和英语。它还采用了两种类型的搜索,这是一个基于关键字的搜索和基于语义的搜索。IBRI-CASONTO基于不同的技术,如资源描述框架(RDF)数据和本体图。实验分为两个部分,首先是比较IBRI-CASONTO内部的实体搜索和经典搜索,其次是比较IBRI-CASONTO的实体搜索与当前使用的搜索引擎,如Kngine,Wolfram Alpha和当今最流行的搜索引擎Google,以衡量它们的性能和效率。©2017制作和主办由Elsevier B.V.代表开罗大学计算机和信息学院这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍由于用户、系统、传感器和应用等多种因素的影响,万维网数据在数据仓库中迅速增长。例如,每天发生的数百万笔交易以及Facebook、Twitter、Linke-dIn、Google+和Tumblr等社交媒体工具添加了大量信息。这些大数据产生了几个称为V属性的挑战:速度,体积和多样性。显然,速度意味着数据以高速传输,而体积集中在大型和不断增长的文件上,而多样性意味着文件以各种格式(例如文本、声音和视频)传输。这些问题使得开发人员之间展开竞争,以寻找有助于提取准确数据的技术*通讯作者。电子邮件地址:awny. mu.edu.eg(A.Sayed),julisyedsultan @gmail. com(A.Al Muqrishi)。开罗大学计算机和信息系负责同行审查。并克服当前的问题以达到语义搜索。在语义中,数据被存储在不同的级别中,如图1所示,层次结构的层达 到 了 建 议 的 语 义 搜 索 。 它 从 XML ( Extensible MarkupLanguage)、RDF、RDFs(RDF Schema)和OWL(Ontology)入手。每一个概念都是对下一个概念的补充,最后两个概念是关键来进行语义搜索。虽然RDFS[3例如,RDFS有一个弱点,无法充分详细地描述资源,因为没有本地化的范围和域约束。此外,它很难提供推理支持,没有存在/基数约束,也没有传递,逆或对称属性。本体克服了RDF的问题,使其成为最接近语义搜索的概念。事实上,术语Ontology已经被人工智能和知识表示社区使用了几年然而,现在它正在成为包括信息系统建模在内的更广泛社区的标准术语的一部分[1]。本体论的概念是从哲学中借用的,它意味着对存在的系统性解释[2],例如,诸如世界的基本部分是什么以及如何存在的本体论问题http://dx.doi.org/10.1016/j.eij.2017.01.0011110-8665/©2017制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.com182A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181图1. 语义搜索的层次结构。他们是有联系的因此,本体论有助于哲学家讨论具有挑战性的问题,以建立理论和模块。我们的研究目的是关注非哲学本体论,即对确定领域内存在的事物的描述目前,本体变得非常重要,因为我们缺乏标准(共享知识),这些标准具有丰富的语义,以机器可理解的形式表示。此外,它已被提出作为使用不同术语来指代相同概念或使用相同术语来指代不同概念所引起的问题的解决方案[6]。本体的建立是为了开发所需的概念化和知识表示,以满足各种挑战。实际上,Web上收集了大量有用的信息,然而,要从Web上提取准确的信息是非常困难的,因为目前的搜索引擎都局限于基于关键字的搜索技术。因此,Web文档中包含的信息的解释留给人类用户手动完成。因此,所有这些障碍导致的第一个挑战是无法正确使用网络上丰富的信息资源。第二个挑战是由于同义词和同形异义词的影响,使得来自不同来源的信息难以集成。最后是知识管理的问题。分布式信息生产和管理中的多参与者场景,例如,如果人和机器不讲共同的语言,就无法共享知识基于认知度的本体论有三种类型概念化分为三种类型,即顶层本体、领域本体和应用本体[7]。每种类型都有其信息范围和容量。例如,顶级本体描述了非常一般的概念,其中它们独立于特定的问题或领域。此外,它们适用于跨领域,包括与事物、事件、时间、空间等相关的词汇。领域本体表示特定领域中的数据,并提供关于概念及其关系或关于管理该领域的理论的词汇表。此外,它是丰富的公理理论,其重点是澄清在特定领域使用的术语的预期含义它的目的不仅是为了满足特定社区的需求,而且还提供了可以在不同社区之间共享的因此,参考本体有时也被称为基础本体。它可以帮助开发人员避免从头开始构建本体,通过使用以前构建的本体的其他引用,以实现最小的修改。然而,应用本体可以从参考本体生成。应用本体是指依赖于特定领域和任务的知识片段。因此,它与问题解决方法相关,并提供最小的术语结构,以满足特定领域和社区的需求,说得太具体了因此,它不能被另一个社区共享或使用。现在有不同类型的搜索,经典搜索和语义搜索。每一种类型都有自己的观点或搜索技术。经典搜索集中在流行的关键字上,这意味着用户可以向搜索引擎提交一组关键字,并将信息的排名列表返回给用户[8]。有不同的网站和应用程序支持基于关键字的搜索引擎,如谷歌,Gmail和雅虎。第二种类型的搜索是语义搜索,它澄清了前面的示例和经典搜索中关键字语义概念的缺乏;因为它们给用户提供了许多不相关和不准确的结果[9]。这与我们的理念相去甚远的理解意图和用户查询的上下文含义因此,这是一个挑战,已经解决了许多语义搜索引擎。因为有几个本体搜索引擎支持阿拉伯语。它可以追溯到自然语言处理[10]和解决句法搜索和产生单词同义词意义的差距/挑战。因此,本文致力于实现基于本体图的本体搜索引擎IBRI-CASONTO。虽然IBRI-CASONTO支持阿拉伯语和英语两种语言,但我们将在本文中重点讨论阿拉伯语搜索它使用基于关键字的搜索以及基于语义的搜索,也被称为本体搜索。本文其余部分的结构如下。第二部分介绍了研究人员为建立本体搜索引擎所做的努力,它们的技术、领域、语言支持,如WolframAlpha、Kngine和Google。第三部分论述了阿拉伯语及其相关的本体论概念。第四部分重点介绍了本体论的组成部分。第五节和第六节详细介绍了我们提出的引擎IBRI-CASONTO,并通过简单查询和复杂查询对该引擎进行了实验评估,并将该引擎与其他常见和流行的语义引擎进行了比较。最后,第七部分对全文进行了总结,并对IBRI-CASONTO的未来发展提出了一些建议。2. 相关作品本体被认为是一个门户网站,使引擎更智能和强大。这是Web3.0和Web 4.0的未来使命本体具有强大的功能,其存储的数据正确可靠,称为本体图。它使用户能够获得和检索一个直接的答案,没有任何复杂性。根据开发人员的兴趣,有几种本体图,其中一些服务于一个领域,而另一些则涉及多个领域,如电子政务。我们的目标是专注于开发阿拉伯语和英语IBRI- CASOnto,代表Ibri应用科学学院引擎。它是一个特定领域的,称为参考本体。它专注于大学信息,如学术部门,学术人员,学生,他们住在哪里等等。开发人员已经创建了一些专注于学术社区的参考本体,例如,HERO本体[11],Univ-Bench本体[11],大学本体[11,12]和AIISO本体[12,13]。目前,有一些基于语义概念的引擎,如Kngine [14],Wolfram Alpha [15]和当今最流行的引擎Google。克吉内 [14个]是的第一多语言问答引擎,支持大约四种语言和英语,阿拉伯语与他们。Kngine代表知识引擎,即Web 3.0A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181183知识引擎。它旨在提供定制的和准确的有意义的搜索结果。例如,关键词的语义信息,用户的查询,列表的东西,找出关键词之间的关系。这个搜索引擎的令人兴奋的特点,它给出了精确的结果,其中链接不同种类将相关信息组合在一起,以将它们呈现给用户,如:电影,照片,价格和用户评论。Wolfram Alpha[15]是Wolfram Research开发的计算知识引擎或问答引擎。它是一个在线网站,通过计算来自外部的“策展数据”或结构化数据的答案,而不是提供文档或网页列表,直接回答事实查询语义引擎中使用了几种技术,如人工智能,自然语言处理[16]和机器学习。如表1所示,Kngine利用了基于知识的方法的效率和统计方法的力量[17],而Google使用了自己的搜索技术,称为蜂鸟算法[18]。这意味另一方面,所有这些引擎都有自己的移动应用程序,使它们更受欢迎和便携式的客户遍布世界各地。此外,它们还有一个名为“语音识别”的高级功能此外,表1表明,大多数搜索引擎支持英语,而支持阿拉伯语的引擎很少,如Google和Kngine;然而,这些引擎具有广泛的领域,没有覆盖学术界。此外,还有一些缺点,如给出错误的输出,忽略阿拉伯语的变音符号,并给出英文的结果,而搜索过程是在阿拉伯语。因此,根据本文的目的,我们提出的IBRI-CASOnto搜索引擎试图涵盖这些问题。3. 阿拉伯语和本体引擎阿拉伯语被认为是中东绝大多数人口和穆斯林仪式的组成部分,因为它是他们的母语,也是它也是一种闪米特语,大约有28个字母[19,20,29,21]。此外,阿拉伯语也是联合国的六种官方语言之一,是地球上3.3亿多人的母语[22]。阿拉伯语有一系列可能阻碍语义Web引擎发展的专业。阿拉伯语的复杂性可以追溯到其复杂的形态,语法和语义方面,因为它是一种高度曲折和派生的语言。由于这些原因,市场上几乎没有本体搜索引擎,目前的NLP工具因此,我们的IBRI-CASOnto试图在现有本体引擎开发方法的基础上,满足用户4. 个本体组件本体由不同类型的组件组成,根据组件对领域实体的描述能力,可以将其分为类、个体和关系三类4.1. 本体类类是大多数本体的核心组件。根据实现本体的语言的不同,它被称为概念或类型。类表示具有共同特征的独立对象的集合。有时一个类可以是另一个类的子类例如,如果类学院是班级组织的一个子类。这样,班级学院的每一个人也都是班级教育的个体.此外,类可以共享描述一个类的个体如何与另一个类相关的4.2. 本体个体个体代表感兴趣领域的对象。它被称为类的实例。本体是对个体的描述,因此个体被认为是本体的基本单位。个体可以代表具体的对象,如人、机器,也可以代表抽象的对象,如物品或功能。4.3. 本体关系在某些系统中,关系通常被称为属性或槽。它描述了类中的个体是如何相互关联的,或者描述每个人如何与特定的类相关联,或者有时描述特定领域的类如何相互关联。比如说阶级之间的关系,如果我们有一个阶级的人和一个阶级的国家他们之间的关系生活在。这意味着每个人都生活在国家。再说如果我们想把个体之间的关系与阶级联系起来。例如,如果我们有一个人叫艾哈迈德在类人和类国家有阿曼。如果艾哈迈德住在阿曼,这种关系将是艾哈迈德和阿曼之间的个人[23]。5. 发动机:IBRI-CASONTO我们的语义搜索系统(IBRI-CASONTO)是为阿曼苏丹国应用科学学院(CAS)设计该系统是基于RDF数据集以及本体图。此外,该引擎是为两种语言阿拉伯语和英语开发的。然而,本文更多地关注于设计本体图,因为我们已经在其他论文中提到了RDF[24]。在本体引擎的设计中,有不同的结构;然而,它们中的大多数遵循相同的主要步骤,即设计,推理,存储,索引,搜索,查询处理和用户友好的界面,如图所示。 二、表1Ontological搜索引擎搜索引擎专卖存储库搜索方法结果语音识别便携性语言支持克吉内谷歌知识引擎搜索引擎维基百科和其他网站维基百科基于知识的方法和统计方法蜂鸟方法直接回答或链接到网页直接回答是的是的是的是的多语言(支持阿拉伯语)多语言(支持阿拉伯语)Wolfram|计算策展数据它是自己的计算直接是的是的多语言(不阿尔法知识引擎其他网站方法计算答案支持阿拉伯文)184A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181图2. IBRI-CASONTO结构。5.1. IBRI-CASONTO设计设计被认为是开发任何系统的重要阶段。我们的IBRI-CASOnto是基于不同阶段设计的,如图2所示。在下文中,我们描述了如何实现每个阶段或步骤以生成我们的高效和可扩展的本体图。第一步,我们确定我们的本体的领域和范围。我们建议Ibri CAS(应用科学学院)是我们感兴趣的领域,并突出学术部门专门为我们的本体作为系统的原型。第二步,确定本体表示语言和编辑器。我们使用OWL来开发我们的本体,与万维网更加兼容。此外,OWL基于RDF的主要元素,以便添加更多的词汇表来描述类和属性。第三步,创建IBRI-CASOnto的本体图,如图所示。3.第三章。第四步,我们通过定义类开始本体。在protégé中定义了超类和超类,每个新类都是一般类(称为事物)的子类。我们的IBRI-CASOnto有三个主要类英语和阿拉伯语(人,组织和位置)(-)分别.此外,我们还定义了不同类之间的关系。有些类等价于其他类。例 如 , 在 英 语 本 体 中 , 我 们 发 现 dean 等 同 于AcademicAdministrator和HeadOfCollege类。此外,在阿拉伯语中,Class(_)与Class(_)是等价的。第五步,我们为每个类定义实例,称为个体。个人被视为类的一员 。例 如 , 班级Dean 只 有一 个 人 叫Dean。 除此 之 外 ,IBRI-CASONTO实例达到1000多人。第六步,我们定义关系或对象属性,因为它们在protégé中被调用。有不同类型的关系,如类之间或类之间的关系和个人此外,我们还定义了每个属性的定义域和值域。Domain表示关系的开始边缘,而range表示关系的结束边缘。例如,我们定义了一个关系,称为班级主任和学院之间的headOf。这个关系是一个逆关系。它的领域是院长,范围是学院。此外,我们还定义了一些属性的等价物,例如(headOf)相当于(manageOf)。在阿拉伯语中,我们定义对象属性(Object property)有一个等价的属性,称为(Object property)。IBRI-CASOnto包含100多个类和个体对象属性。第七步,创建数据属性,并为每个属性定义构造、域和范围。数据属性的范围可以是字符串、数字、日期或时间行为。在protégé中,每个新的数据属性都是topDataProperty的子属性总之,在我们创建了所有这些事物的类、属性和关系之后,我们需要解释一些本体本身无法理解的事物。因此,我们转向推理的概念。它能够推断owl:equivalentClass、owl:sameAs和rdf:subClassOf的含义。5.2. IBRI-CASONTO推理推理的概念可以定义为通过任何适当形式的推理从给定信息在语义Web中,推理用于发现数据之间的新关系,这些数据被建模为资源之间的一组定义的它作为一个自动化的过程,通过生成基于本体数据集的新关系来获得额外的信息它还通过自动分析数据内容和发现新的关系来提高数据此外,推断是基于不同的技术,这些技术在发现数据的可能不一致性方面很重要因此,它对减少三元组之间的自连接问题起到了很大的作用有几个自动化的reason- soners,可以插件在本体环境,如protégé。例如,Pallet[25]、FaCt++[26]、HerMiT[27]等。在●●●●●●●A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181185图3.英语IBRI-CASOnto.我们的IBRI-CASOnto,我们使用protégé 4.3与插件推理器,称为HerMiT推理,如图所示。 二、HerMiT是一个开源的插件,已经在protégé 4.3中,它是一个完美的本体推理器,它是用OWL编写的。这个推理器是基于一种新因此,使用HerMit推理可以帮助节省开发本体的此外,它是第一个推理机,能够分类的本体,认为太复杂的任何可用的系统来处理。我们的IBRI-CASOnto通过以下步骤使用HermiT推理器:首先,在protégé环境中打开OWL文件。其次,单击reasoner选项以显示可用reasoner的列表第三步是选择HermiT,然后开始推理,如图4所示。最后,单击启动推理机后,等待一段时间,推理完成。它将给出推断的SubClasses、equivalentClasses、disjointClasses、SubObjectProperty、equivalentObjectProperty、SubDataProperty、equivalentDataProperty、ObjectPropertyCharacteristic、DataPropertyCharacteristic、inverseObjectProperty、Class assertion(Individual)和Propertiesassertion(value)[28]。例如,类“department”有两个等价的类,分别是division和section。此外,两名声称个人此外,还将推断部门个人的所有数据和对象属性值。5.3. IBRI-CASONTO存储有不同的机制来存储本体数据集。在我们的搜索引擎中,我们使用两个方向的关系数据库图4. 推理步骤。和如图2所示的三重存储。三重存储意味着使用RDF建模的数据的数据库管理系统(DBMS)。它与关系数据库管理系统(RDBMS)不同,后者将数据存储在关系(或表)中。此外,RDBMS是使用SQL查询的,而三元存储存储RDF三元组并使用SPARQL查询。许多三重存储的一个关键特征是进行推断的能力必须注意的是,DBMS通常提供处理并发、安全、日志记录、恢复和更新以及加载和存储数据的能力然而,一些三重商店提供所有这些功能,而另一些则没有。在这些存储系统(RDBMS和三重存储)中,我们根据需要选择一个特定的存储系统。因此,三重存储被定义为专门为存储构建的数据库186A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181以及通过语义查询检索三元组三元组是由主语-谓语-宾语组成的数据有不同类型的三重存储[29],如耶拿SDB,耶拿TDB,OWLLIM,芝麻等。在IBRI-CASOnto中,我们决定使用Jena TDB,因为它是Jena用于RDF存储和查询的组件它支持所有Jena API。此外,TDB还可以在单机上作为高性能的RDF存储。它还包括针对多JVM使用的自动保护,这在大多数情况下可以防止这种情况另一方面,我们决定使用MySQL作为关键字搜索目的的RDBMS5.4. IBRI-CASONTO索引过程索引是搜索引擎开发人员中的一个高级概念,以便更快,更有效地从本体数据集中检索数据。在我们的搜索引擎中,我们使用两种方法来索引本体数据集,它们存储在Jena TDB和RDBMS MySQL中,如图所示。 二、5.4.1. TDB索引技术我们使用的TDB索引是建立在Fuseki for Jena TDB数据集上的。TDB三重存储中的许多持久数据集使用线程B+树的自定义实现。TDB三重存储实现仅提供固定长度的键和固定长度的值。此外,在三重索引中没有使用值部分线程的本质是指索引的长扫描过程,而不需要遍历树的分支。5.4.2. Lucene索引技术Lucene用于索引MySQL数据库。Lucene中的内容获取、内容构建、文档分析和文档索引。5.5. IBRI-CASONTO搜索过程搜索的明显目的是找到不同的机制,方便人们提取大量的东西,满足他们的需要。与用户有意识相关的初始搜索结果总是受限于呈现结果的时间和准确性。此外,搜索的质量通常使用精确度和召回率度量来描述,我们将在后面的实验结果中讨论。IBRI-CASOnto本体内的搜索过程通过两种类型的搜索来实现,这两种类型的搜索是关键字搜索和语义搜索,如图2所示。在下文中,我们给出了一个清晰的背景,这些类型的搜索是如何在我们的系统中工作5.5.1. 基于关键字的搜索这是通过Apache Lucene的支持来完成的,它提供了对Lucene索引的访问。这种类型的搜索以全文查询的形式获取匹配的关键字,而不了解其背后的概念。5.5.2. 语义搜索IBRI-CASOnto的语义搜索由Apache Jena Fuseki支持。它提供了一个SPARQL服务器,可以使用Jena TDB进行持久存储。此外,它还提供了SPARQL协议,用于通过HTTP进行查询、更新和剩余更新。此外,SPARQL查询提供了对三重存储的搜索并检索所需的结果。表2说明了我们的引擎是基于我们的领域本体的不同SPARQL查询进行测试的。在获取用户的原始查询后,本体被提供了等价的查询,称为重构查询。这些查询已经在SPARQL 专家界面中的SPARQL的帮助下进行了测试它们检索与原始查询等价的结果这意味着我们在本体论中的概念根据领域本体论的区域具有不同的含义5.6. IBRI-CASOnto接口用户界面是任何系统中最重要的部分之一。我们的IBRI-CASOnto系统提供了一个可用的界面,使用户能够轻松地与引擎进行交互。因此,一个功能强大的系统,如果用户界面设计得很差,几乎没有什么价值,可能会使系统陷入困境。图 5的实例说明了我们的IBRI-CASOnto本体提供了关键词搜索、SPARQL专家和CAS查询三个部分。他们中的每一个都提供了一个指南,帮助用户搜索可能。而CAS查询包含一组基于我们的阿拉伯语和英语本体的预定义查询。下一个是SPARQL专家,它需要编写SPARQL查询的专家,因为它迫使用户编写手动查询。最后一部分是关键字搜索,它根据查询的全文匹配6. 实验结果我们的IBRI-CASOnto是基于两种类型的搜索,这是经典的搜索(基于关键字的搜索)和语义搜索(基于语义的搜索)。经典搜索的目的是测量关键字与RDF数据集以及本体图的匹配根据匹配的高得分进行排列。而语义搜索的目的是从本体图中得到精确的答案此外,它被构建为理解搜索文本的上下文并检索连贯的答案,而不像经典搜索那样走迷宫我们进行了两个实验来衡量我们提出的搜索引擎的性能。首先,比较了RDF和基于简单查询和复杂查询的本体的(基于关键字的搜索和基于语义的搜索)。其次,将我们提出的引擎IBRI-CASONTO与其他引擎如Wolfram- Alpha,Kngine和Google进行比较。如上所述,所使用的数据集是一个本体图,它保存了阿曼Ibri应用科学学院的部门,员工,教师和学生的信息如表3所示,CAS-本体数据集包含大约31,279个,分为2159个主题、132个预测和5575个对象,而英语CAS-本体数据集包含大约32,322个,分为3035个主题、150个预测和5575个对象。谓词和6507个对象。6.1. 评估指标搜索引擎的分析评价是基于不同的度量标准进行度量,得到一个基于ISO9126系统质量标准的质量模型。在这一部分中,它区分了三种评价指标,即召回率、精确率和准确率。回想一下:它指的是成功检索到的与查询相关的文档的分数(即所有真 阳性和假 阴性的 总和)。 它被称 为词汇回 忆或正 确回忆(Rc):调用Numberofretriev edrelev ant=可能的数量精确度:该度量(Pc)定义为检索到的与用户信息需求相关它被称为词法精度或正确精度:●●A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181187表2SPARQL测试查询。图5. IBRI-CASOnto接口。188A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181-表3数据集描述。数据集对象谓词主题三元组阿拉伯语CAS_本体5575132215931,279中文CAS_本体6507150303532,322精密度1/4总相关数量=总检索数量准确性:这个指标给出了一个很好的整体视图的竞争力的搜索引擎,以及如何准确。它是通过将正确输出的数量(即真阳性和真阴性的总和)除以查询的总数来6.2. RDF和本体评估RDF和Ontology是IBRI-CASOnto系统的两大支柱在我们的引擎中,RDF被设计成一个基于关键字的搜索,而本体被认为是一个经典的搜索和语义搜索。在我们的RDF和本体的实验中,我们将大约80个查询(存在于论文的附录中)分为正如我们在表4和图6中所看到的,简单和复杂查询在两种类型的搜索下的比较基于关键字的搜索和基于关键字的搜索。在比较的情况下,我们依赖于第一个答案是否为真,而忽略整个检索到的答案。如表4和表5所示(重要信息显示为论文的一部分,其余细节显示为论文不同的符号,例如,由符号p定义的相关的检索查询和不是由符号X定义的。但是,检索到的不相关答案由符号定义,而无响应查询由符号0定义(参见表底部灰色行中显示的显著结果)。从系统上看,语义搜索在简单查询和复杂查询方面都优于经典搜索。显然,这两种查询的准确率都是100%。虽然经典搜索对于简单查询更好,如图6和表4所示,但准确率为45%;复杂查询的准确率为0%。我们只检索到18个相关结果,因为这种搜索是基于全文的,这意味着所有的关键字都应该存在于同一个三元组中才能获得结果。总的查询相关是有效的语义搜索,因此我们的下一个实验采取这一点来比较我们的IBRI-CASOnto与其他语义搜索引擎。6.3. 语义搜索引擎比较语义网是万维网上数据的表示。这是一个由W3C领导的合作项目,来自大量的研究人员和工业合作伙伴。它基于资源描述框架(RDF),它使用XML作为语法和URI作为命名来集成各种应用程序。W3C语义网。语义Web是一个宪章,它允许在Web上跨应用程序、企业和社区边界发布、共享和重用数据和知识。我们的语义搜索引擎的实验是比较四种著名的语义引擎,这是IBRI-CASONTO,Wolfram Alpha,Kngine和谷歌。我们提交了40个不同的查询对测试引擎,存在于该文件正如附录中的表A2所示,我们的引擎在40个答案中检索到23个相关查询,17个不相关查询。然而,其余的引擎有不相关的答案。精确度的比率是比较其余的引擎,其中 Wolfram Alpha ,Kngine 和Google 分别为 30 , 25 和42.5,如图所示。表7和表5。此外,与其他引擎相比,我们的引擎的准确性也很高;它具有100%,而Wolfram Alpha,Kngine和Goo-gle分别为30,25和42.5因此,我们的引擎似乎比其他引擎检索到更好和更有效的结果因此,它是根据本体论领域特定的,高度可扩展的性能和处理复杂的查询,以及通过理解查询背后的上下文。7. 结论和今后的工作总之,尽管用于搜索WWW的新的改进的基于关键字的技术正在不断发展,但这些改进的增长率可能是轻微的。不精确和不相关的结果问题将继续阻碍Web搜索,特别是随着Web的不断扩展。基于语义Web技术这一新概念的搜索引擎基于领域本体的语义搜索引擎在几个方面具有优势首先,我们的方法已经能够成功地消除不相关的结果,这是一个经常搜索引擎的用户遇到的主要问题之一的问题。通过使用实例和类之间的映射技术,搜索引擎可以有效地获取准确的信息。其次,通过产生准确的信息作为结果,搜索引擎消除了需要通过大量的结果,在一个普通的搜索引擎的情况下。最后,我们的设计虽然基于IBRI-CASOnto域,表4IBRI-CASONTO发动机性能。简单查询复杂查询基于关键字的搜索基于关键字的搜索搜索基于实体的搜索RDF本体本体RDF本体本体检索到的相关181839检索到的相关0029检索不相关16220检索不相关40400未检索相关600未检索相关000未检索不相关001未检索不相关0011%精密度52.49100100%精密度00100%召回率75100100%召回率00100%准确度4545100%准确度00100●A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181189图6. IBRI-CASONTO的经典和语义搜索图7. 语义搜索引擎的性能。具有高度可扩展性,可以很容易地被其他企业采用作为其站点搜索工具。这只需要企业根据领域的本体输入相关的RDF代码。结果,包含站点搜索(基于本体的语义搜索)的页面将被自动生成。在未来的工作中,我们将扩展RDF图,以包含有关MoHE的所有信息。此外,我们试图展示一个很好的索引机制,这是适合于处理大数据集。考虑到时间,存储和IR,这是重要的,以便检索数据,快速,可扩展和高效。致谢这项工作由阿曼苏丹国TRC(研究委员会)于2012年至2015年创立。附录A(1) 简单的测试方法:1. 学术人员姓名2. 信息技术学院3. IT人员4. 设计专业5. 工作人员国籍6. 学术人员电子邮件7. 基金会学生姓名8. 信息技术专业9. 数据管理负责人电子邮件10. 网络和安全11. 软件开发学生12. 数字学生电子邮件13. 信息技术部负责人电子邮件14. 英语系主任资格15. 设计部门负责人姓名16. 通用要求部17. 大学院系18. 助理教授电子邮件19. 助理讲师姓名20. Awny Sayed国籍21. Mohamed Kayed电子邮件22. 院长电子邮件23. 德安族24. 迪恩·梅杰25. 计算机科学26. 平面设计学生27. 迈亚达资格28. 讲师电子邮件29. 阿曼苏丹国行政区划30. 阿曼苏丹国行政区划31. 马斯喀特城市32. 城市ALBuraymi33. 信息技术人员专业34. 学术专业35. 学术部门36. 2010年批次名称37. 批量2012电子邮件表5不同本体搜索引擎的性能IBRI-CASOnto谷歌克吉内Wolfram Alpha检索到的相关23171012检索不相关0233028未检索相关0000未检索不相关17000%精密度10042.52530%召回率100100100100190A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181%准确度10042.52530A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181191表A1IBRI-CASONTO发动机性能。简单查询复杂查询基于关键字的搜索基于关键字的搜索搜索基于实体的搜索查询号RDF Ontology Ontology查询号RDF Ontology OntologyQ1Q2Q3 0Q4Q5p p p pQ6Q7Q8九方p p p pQ10p p p pQ11pp p pQ12Q13第十四题p p p pQ15p p p p16岁的p p p p第十七题p p p pQ18Q19Q20p p pXQ21p p p pQ22p p p p第23集p p pQ24p pQ 24Q25 X X XQ25–pQ300–pQ30––pQ310–pQ31––pQ320–pQ32––pQ330–pQ33–-XQ 34––pQ34–-XQ 35pppQ35–-XQ 36––pQ36––pQ37Q38p pQ 38Q39p pQ 39- p38. 科研部门负责人39. 信息技术主管国籍40. 院长资格(2) 复杂测试查询:1. 拥有博士学位2. 拥有学士学位的学术人员3. 居住在Al Dhahirah并学习数字设计专业4. 居住在位于南Batinah的Ibri的男学生5. 第20、112和Al Dhahirah批次的男学生6. 来自设计学院的具有博士学位的学术人员电子邮件。7. 软件开发专业男生8. 拥有博士学位的埃及学术人员9. 拥有博士学位的伊拉克学术人员10. 信息技术专业女生11. 信息技术专业的非阿曼籍女生12. 英语系正教授,国籍为英国13. 科摩罗学术部门负责人14. 阿曼学术人员电子邮件从设计部门15. 在学术部门获得博士学位16. 马斯喀特平面设计专业女生17. 担任讲师且国籍为印度的IT员工18. IT教师谁是讲师和他们的国籍是印度19. 埃及学生谁学习网络20. 在计算机科学系学习的女生21. 阿曼学生从批2012研究网络22. 来自ALBuraymi的网络学生,他们的性别是男性Q40pppQ40––p检索到的相关181839检索到的相关0029检索不相关16220检索不相关40400未检索相关600未检索相关000未检索不相关001未检索不相关0011%精密度52.49100100%精密度00100%召回率75100100%召回率00100%准确度4545100%准确度00100Q5––问6––Q7––Q8––Q9––Q10––Q11––Q12––第十三题––问题14––Q15––Q16––Q17––第十八题––Q19––问20––Q21––Q22––Q23––192A. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)181表A2不同本体搜索引擎的性能询问流动IBRI-CASOnto谷歌克吉内Wolfram Alpha第一季第二pXpp––––年q3年q4Xp––––––Q5问6Xp––––––Q7p–––Q8XpppQ9Xpp–Q10X–––Q11X–––第十二季第十三pX–p–p–p十四年及十五年pp––––––Q16p–––Q17第十八题Xp––––––第十九季第二十pX–p–p–p第二十一季第二十二pp–p–p–pQ23pp–p第二十四季第二十五ppppppppQ26Q27ppppp–ppQ28Q29pX–p–––pQ30Xp––Q31Q32pp––––––Q33X–––Q34X–––Q35Q36Xpp–p–p–Q37p–––Q38Q3XXpp–p–pA. Sayed,A. Al Muqrishi/ Egyptian Informatics Journal 18(2017)1811939Q40p–––检索到的相关23171012检索不相关0233028未检索相关0000未检索不相关17000%精密度10042.52530%召回率100100100100%准确度10042.5253023. IT部门管理员,女性,拥有博士学位24.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功