没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报QSST:一个基于词嵌入的Ensaf Hussein Mohamed Eyad Shokry埃及开罗Helwan大学计算机和人工智能学院计算机科学系阿提奇莱因福奥文章历史记录:收到2019年2019年12月21日修订2020年1月4日接受2020年1月14日在线提供保留字:信息检索词嵌入的基于概念的搜索本体语义搜索阿拉伯语自然语言处理古兰经A B S T R A C T从古兰经中检索信息是古兰经学者和阿拉伯语研究者的一个重要领域。有两种类型的古兰经搜索技术:基于语义或概念和基于关键字。基于概念的搜索是一项具有挑战性的任务,特别是在像古兰经这样的复杂语料库本文提出了一个基于概念的搜索工具(QSST)的古兰经。它包括四个阶段。在第一阶段,古兰经数据集是通过基于Mushaf Al-Tajweed的本体手动注释古兰经经文来构建的第二阶段是词嵌入,该阶段通过在大型古兰经和经典阿拉伯语语料库上训练连续词袋(CBOW)结构来生成词的特征向量。第三阶段包括计算输入查询和古兰经主题的特征最后,通过计算主题向量和查询向量之间的余弦相似度来检索最相关的诗句。建议QSST的性能进行测量,通过比较结果对Mushaf铝Tajweed。然后计算准确率、召回率和F值,其百分比分别为76.91%、72.23%和69.28%。经3名伊斯兰专家评定,平均精度为91.95%。最后,QSST的结果与最近现有的工具进行了比较,QSST优于他们。©2020作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍信息检索(IR)是响应于用户查询从大量数据资源集合中获得信息的过程(Manning等人, 2008年)。语义搜索是一种利用意义进行搜索的IR它不同于词法搜索,在词法搜索中,搜索引擎搜索查询的文字匹配语义搜索试图通过理解用户的意图和单词的上下文含义来提高搜索的准确性(Bast等人,2016年)。对于古兰经的这种语义搜索工具的需求越来越大,以搜索古兰经中没有出现的抽象《古兰经》被认为是全世界约16亿穆斯林的主要参考。穆斯林,以及非穆斯林,需要从古兰经中搜索某些信息或检索讨论特定主题的经文。还有许多挑战*通讯作者。电子邮件地址:ensaf_hussein@fci.helwan.edu.eg(E.H. Mohamed)。沙特国王大学负责同行审查制作和主办:Elsevier为古兰经建立一个阿拉伯语语义搜索工具。这些挑战将在本节的其余部分详细讨论1.1. 阿拉伯语阿拉伯语是中东和北非超过2.5亿公民使用的闪米特语言。它是联合国的六种正式语言之一。阿拉伯语是伊斯兰教圣书《古兰经》的语言。它也是世界上一些最大的文学,科学和历史作品的语言。阿拉伯语主要有三种:古典阿拉伯语(CA),现代标准阿拉伯语(MSA)和口语阿拉伯语(阿拉伯语)。1.1.1. 经典阿拉伯-古兰经(CA)《古兰经》是阿拉伯文的经典,是阿拉伯文的经典。由于《穆沙夫》是在公元6世纪写成的,今天的阿拉伯语CA是基于阿拉伯部落这个短语的结构与今天的MSA中使用的结构相同分组,上下文和一些使用的短语是截然不同的。CA和MSA之间有一些细微CA中使用特殊符号来表示正确的发音,并为单词提供强调的影响,如单词停顿。这些阿拉伯文字符号被用于古兰经https://doi.org/10.1016/j.jksuci.2020.01.0041319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comE.H. Mohamed,E.M.Shokry/ Journal of King Saud University935背诵几乎完全(阿拉伯语; Khriat和Alharthy,2015;阿拉伯语)。1.1.2. 现代标准阿拉伯语(MSA)MSA是当今阿拉伯语国家最常用的阿拉伯语版本。MSA用于电视,电影,期刊和广播,几乎在每一个媒体渠道。会议和政治家演讲中的大多数书面文章1.1.3. 阿拉伯语口语它是阿拉伯语,主要用于整个万维网传达思想,经常在博客,论坛和口语文章。大多数这些口语著作是在埃及口语方言,又名Masry,这是最普遍的理解和使用的方言在阿拉伯世界(阿拉伯语;阿拉伯语品种)。1.2. 古兰经搜索技术《古兰经》是阿拉伯语的经典古兰经约78,000字,形成114章(苏拉)。用于检索古兰经信息的方法可以分为三种,如图1所示;基于语义的,基于关键字的和跨语言信息检索(CLIR),可以是关键字或语义。基于语义的方法是一种基于概念的搜索技术,它基于单词含义或概念匹配生成结果。基于关键字的方法基于字母匹配单词查询产生结果。跨语言信息检索(CLIR)方法检索以不同于用户查询语言的语言编写的信息大多数古兰经搜索工具部署了关键字搜索技术。目前的古兰经语义检索方法主要有基于本体的方法和基于句法集合的方法。基于本体的技术搜索与用户的查询匹配的概念/主题。这个方法然后返回与这些主题相关的诗句。syntax-set方法使用WordNet为查询词生成所有同义词。然后,它会找到所有与这些词的同义词相匹配的古兰经经文CLIR将输入查询中的单词翻译成不同的语言,然后检索与翻译的单词匹配的诗句(Alqahtani和Atwell,2017)。有许多挑战和困难,在搜索和检索适当的经文从古兰经。其中一些与搜索方法有关,另一些与古兰经的结构有关。下一节将详细讨论这些挑战。1.3. 《古兰经》搜索挑战在应用NLP技术时,存在关于古兰经结构的关键点。1. 一个词表示多个概念(多义性),一个概念可以由多个词表示(同义词)。一个概念或主题可以在不同的经文(ayat)中提及。例如,“天堂和地狱”的概念此外,一节经文可能包含许多主题。2. 古兰经语言的特点是一个显著的特点,这是使用变音符号的语法目的以及语义之一。因此,改变阿拉伯语单词中的变音符号可以指单词含义的变化。例如,Al-Jannah可以指天堂或花园。两个不同的单词也可能有相同的字母,但它们有不同的变音符号。例如,如表1所示,隐藏的对象表示覆盖,而隐藏的对象表示重影。3. 此外,阿拉伯语中的单词也可以有许多形 状 不 同 但 与 原 词 意 义 相 同 的 同 义 词 。 例 如 , 穆 罕 默 德( Muhammad ) 与 艾 哈 迈 德 ( Ahmad ) 和 莫 扎 米 尔(Mozzammil)是同一个人。4. 《 古 兰 经 》 的 知 识 可 以 分 为 : 语 义 诗 陈 述 是 清 楚 的 ) 和mutashabihat(即,语义诗句陈述同样不清楚),需要高水平的复杂解释。穆塔沙比哈特经文需要从各种来源,如圣训,塔夫西尔,以完成对经文的理解阐述。5. 最后,在用户的查询(用现代标准阿拉伯语MSA编写)和从古兰经中检索到的经文(用古典阿拉伯语CA编写)之间存在差距在本文中,提出了一个古兰经的语义搜索工具;本研究的主要贡献如下:1. 介绍了一个古兰经语义搜索工具它克服了现有工具的局限性。这些工具要么忽略语义(使用关键字搜索),要么使用复杂而耗时的技术来按概念搜索,如按本体搜索或按单词的所有同义词搜索。2. 在经典阿拉伯语语料库上建立并训练了连续词袋模型然后,它被用来生成词的语义向量(词嵌入)。3. 此外,整部《古兰经》都是根据伊斯兰学术书籍《Mushaf Al-Tajweed》(Habash,2001年)中提出的分类按主题手动注释的。本文的其余部分组织如下。第二部分是文献综述,包括古兰经搜索应用和对古兰经搜索工具的深入研究。第3节提出了古兰经搜索工具的模型。第4节讨论了结果和绩效评估。最后,第五部分总结了本文的工作,并提出了我们未来的想法。表1变音符号对Jannah的意义和发音的影响。阿拉伯语发音英语意思阿拉伯语单词诗/章图1.一、古兰经搜索技术的分类Al-Jannah天堂/天堂Al-Jannah花园吉纳幽灵Junnah封面吉纳疯狂ﺍﻟَ◌ﺠﻨّ◌ﺔﺍﻟَ◌ﺠﻨّ◌ﺔﺍﻟِ◌ﺠﻨّ◌ﺔﺍﻟُ◌ﺠﻨّ◌ﺔﺍﻟْ◌ﺠﻨّ◌ﺔ35/Baqrah17/Qalam119/hud16/mujadala8/sabba936E.H. Mohamed,E.M.Shokry/ Journal of King Saud University2. 相关工作本节讨论了以前的研究和应用程序,处理搜索在古兰经,所使用的技术,数据集,他们的长处和弱点。2.1. 古兰经搜索应用程序制作移动、桌面和网络应用程序以获取《古兰经》知识。这些应用程序中的大多数是基于关键字的搜索技术。然而,一些研究人员提出了基于概念的古兰经语义搜索工具的框架。古兰经主题(古兰经主题),古兰经搜索引擎(古兰经搜索引擎),是免费的移动应用程序。他们猫- egorize阿拉伯ayat或诗句的神圣的主题。他们有一百多个科目,包括古兰经中先知的所有故事以及非常有用的科目。他们使用静态搜索文本通过固定数量的主题在古兰经。钻石古兰经搜索引擎(英语:DiamondQuranSearch Engine)使用英语和阿拉伯语通过关键字进行搜索。Iqra(RattilTajweed-古兰经Tajweed)使用语音识别搜索,它将背诵转换为文本并通过关键字搜索。Khazain-ul-Hidayat(数字古兰经用户通过输入一个单词或一个诗句编号(aya)进行搜索。 它根据查询词的词干检索包含该词的任何形式的Almonagib al-Qurany(古兰经)、Islam web(伊斯兰网络)、Tanzil(坦齐尔文档)、古兰经阿拉伯语语料库(杜克斯,2013)、KSU古兰经(古兰经)、古兰经(古兰经(古兰经)-在线古兰经项目-翻译和Tafsir)和高尚古兰经(高尚古兰经-古兰经)是在线网络应用程序,使用户能够阅读、收听和搜索不同语言的古兰经用户可以选择一个特定的章节(苏拉),诗句(阿雅)或单词。在按单词搜索的情况下,这些应用程序将返回具有与查询单词相同的词根的单词的所有诗句(Ayat)。Semantic Quran(SemQ)是一个在线搜索工具,使用户能够使用基于概念的技术搜索经文。他们提出了一个自动化框架,利用语义Web技术和自然语言处理的力量来表示和识别语义概念。伊斯兰城市(古兰经搜索-伊斯兰城市)提供四种搜索类型:主题搜索,预定义的主题索引搜索,阿拉伯语(语音)搜索和基于文本的搜索。该模型的不足之处在于,它只考虑了词汇匹配,不提供语义搜索功能。它不涉及抽象的主题,如健康,教育,培训和学习。2.2. 古兰经搜索研究对《古兰经》进行了多种研究本文综述了近年来信息检索和Saad et al.(2009)提出了一种通过生成本体实例来从古兰经中提取概念的自动方法。在传统的信息抽取系统的基础上,应用并定义了文法和抽取规则,以获取本体实例。阿巴斯(2009)提出了古兰经它由两个模块组成:基于关键字的搜索和基于概念的搜索。基于关键词的模块利用古兰经的八个英文译本作为语料库。语料库和查询中的每个词在搜索之前都被词干化和标记化。基于概念的搜索提供对静态概念树中的概念的搜索他们提出了一个抽象的概念从穆沙夫铝Tajweed古兰经书进口的层次列表。Qur'any基于关键字的搜索的性能 两组的阳性率分别为87%、58%这项研究有一定例如,基于概念的搜索不支持所提出的静态概念树中的动态或语义搜索。此外,基于关键词的搜索不采用任何正式的机制来查找同义词,而是依赖于原始阿拉伯词的不同英语翻译。Sherif和Ngomo(2015)提出了一个语义古兰经数据集。它们将古兰经表示为古兰经42种不同翻译的多语言资源描述框架(RDF)表示。这个数据集是通过从两个半结构化的来源获取数据而构建的:坦齐尔项目和古兰经阿拉伯语Corpus。该数据集提供了与其他数据集(如Wiktionary和DBpedia)的高度互操作性。此外,它还提供了单语数据集的链接。Al-Taani和Al-Gharaibeh(2011)提供了一种通过概念和关键词在《古兰经》中进行搜索的方法。他们提出了三种方法:基于词干的、基于文本的和基于语法的方案。这三种方法进行了评价和比较方面的精密度。实验表明,使用基于同义词的方法,其准确率最高,达到92%.而基于文本和基于词干的平均准确率分别为80%和77%。Dukes和Buckwalter(2010)提供了古兰经阿拉伯语Corpus,它展示了古兰经中每个短语的阿拉伯语句法,语法和形态。它们以这样一种方式组织字典,即按类型排列的单词列表与每个词根相链接。这些词进一步与词性(POS)联系起来,然后是人,性别和数字。目前,他们的语料库包含3673个独特的词元。他们介绍了他们的技术作为一个链接的搜索工具,并将其命名为语料库然而,也有一些不足之处,例如:无法处理抽象的概念或古兰经中没有逐字出现的问题Atwell et al.(2011)present a Quranic Arabic Corpus.它是一个基于古兰经解释的传统来源中所包含的信息的古兰经概念本体论,包括先知穆罕默德(PBUH)(Hadeeth)的说法和塔夫塞尔的书籍。Ullah Khan et al.(2013)声称语义网的本体论概念可以应用于古兰经的语义搜索。他们根据古兰经中提到的生物,包括动物和鸟类,为古兰经开发了一个简单的本体论。他们提供了167个链接到动物在古兰经的基础上发现的数据,在书中的'' Hewanat E Qurani动物园'古兰经Najadat和Kanaan(2013)专注于根据经文的全部含义检索古兰经的经文。这些概念是从《古兰经》和《塔夫绸书》中收集的。他们增加了四个主要的搜索选项:精确匹配、同义词匹配、匹配主题和匹配Al-Tafaseer。《古兰经》中有两部经典,分别是《古兰经》和《古兰经》。Yahya et al.(2013)建议基于跨语言信息检索(CLIR)对古兰经进行语义搜索。这项研究创建了一个双语本体;英语和马来语。该本体是基于Dukes(2013)开发的本体开发的。实验的总体结果证明,他们提出的技术显着提高了英文文档集的检索精度,但它不是很好的马来文文档集建议的CLIR技术E.H. Mohamed,E.M.Shokry/ Journal of King Saud University937可以具有扩展的查询影响,并提高某些语言的恢复效率Yauri等人2013年重建利兹大学表2根据所使用的技术对相关工作进行分类。搜索技术《古兰经》的现存本体论(Abbas,2009)。根据古兰经、圣训和一些网络伊斯兰资源,关系从350上升到大约650。他们还生成一个数据集,‘‘QurSim” containing 7600 pairs of related verses similar to the02 TheDog(2009)匹配Dukes and Buckwalter(2010)形态学搜索基于关键词的玛丽主题此数据集Abdelnasser等人(2014年)开发了Al-Bayan系统。这是一个阿拉伯语的问题回答系统(QA)的古兰经。该系统接受阿拉伯语查询有关古兰经。然后检索适当的古兰经经文。最后,它提取了《古兰经》Afzal 和 Mukhtar , 2019;Atwell 等 人 ,2011;Sherif 和 Ngomo , 2015; Ullah Khan 等人 , 2013; Saad 等 人 , 2009; Abbas ,2009;Yauri例如,2013Sherif和Ngomo(2015年); Najadat和Kanaan(2013年); Almaayah和Sawalha(2014年);Afzal和Mukhtar(2019年)基于本体的同义词集(WordNet)基于语义的书籍(Tafseer)。该系统使用了1217个古兰经主题,这些主题直接从古兰经阿拉伯语语料库本体(Dukes,2013)和古兰经主题本体(Abbas,2009)构建。该系统包括三个阶段:使用形态分析和阿拉伯语消歧工具(MADA)进行问题分析(Habash等人,2009年),信息提取使用显式分析技术(Gabrilovich和Markovitch,2007年)和答案提取。该系统可以使用前3个结果实现85%的准确度Almaayah和Sawalha(2014)通过在单词之间建立语义链接为古兰经开发了一个WordNet。为了更好地理解古兰经词汇的含义Alqahtani和Atwell(2016)提出了一项全面的调查现有的古兰经搜索工具及其缺陷。此外,他们还提出了一个基于古兰经本体的古兰经语义搜索工具框架.它由六个模块组成:古兰经本体,古兰经数据库(QDB),自然语言分析,语义搜索模型,关键词搜索模型,评分和排名模型。然而,拟议的框架没有经过测试,以证明其效率。Alhawarat(2016)提出了一个在古兰经中进行语义搜索的框架。本研究以《古兰经》中的约瑟夫章(PBUH)为例,基于主题建模技术对该章的词汇进行分析。本研究应用潜在狄利克雷分配(LDA)主题建模技术,将约瑟夫章的两种结构(Hizb Quarters和Verses)分别作为词、词根和词干进行建模。对本章的两种结构计算了对数似然系数。结果表明,最好使用的结构是诗句,它提供了最少的能量的数据。Afzal和Mukhtar(2019)提出了一个框架,以加强古兰经的语义(基于概念)搜索。一个语言资源他们建立了一个古兰经英语WordNet(QEWN),这是一个MySQL数据库。它包括古兰经词汇 的 结 构 化 数据 、 它 们 在 古 兰 经 中 的 出 现 位置 以 及 通 过 基 于WordNet的相关词汇语义网络古兰经概念词汇表(VQC)也以概念层次的形式开发,使用术语自动识别的此外,还在QEWN上开发了一个名为古兰经增强搜索工具(QuEST)的搜索工具建议的框架的性能进行了评估,并与两个现有的工具;语料库古兰经搜索(CQS)和古兰经(QPS)。虽然QuEST的性能优于CQS和QPS。然而,QuEST工具的平均准确率、召回率和F-Score分别为58.8%、58.9%和58.2%,这需要在性能上进行重大改进。表2的结论是,几乎所有最近的研究都针对基于语义的搜索,其中大多数使用本体搜索。此外,单个工具可能使用一种以上的方法进行搜索,例如,QurSherifand Ngomo(2015); Yahya et al. 0 4 The Famous(2013)信息检索使用了基于关键字和基于本体的技术。此外,几乎所有的移动和Web应用程序都使用基于文本的搜索,除了语义古兰经(SemQ)和伊斯兰城市(古兰经搜索-IslamiCity)使用本体搜索。取决于这次调查。首先,现有的许多基于概念的古兰经搜索工具性能不佳。他们不能检索所有适当的诗句,检索不相关的诗句,而不是排名检索诗句的顺序此外,许多研究集中在建立一个静态的古兰经本体或层次树的基础上古兰经的概念。缺乏动态工具来提示用户通过抽象概念、语句或问题进行搜索此外,虽然有很多关于建立古兰经本体的研究,但还没有研究将这些本体整合起来,为古兰经概念建立此外,也缺乏研究,考虑到这些词的语义和它们之间的关系这是基于关键字和基于概念的搜索技术的局限性。本研究的目的是克服以往的不足,准确地搜索在古兰经的概念。3. 方法和材料在本文中,我们提出了一个模型,搜索古兰经经文的概念。 它包括四个主要阶段,如图所示。 二、在第一阶段,古兰经数据集是通过基于Mushaf Al-Tajweed的本体手动注释古兰经经文来构建的。第二阶段是词嵌入;这个阶段通过在大型古兰经和经典阿拉伯语语料库上训练一个简单的两层神经网络来生成词的特征向量。在第三阶段,计算了输入查询和古兰经主题的特征向量。最后,通过计算“主题”和“查询”向量之间的余弦相似度3.1. 建立古兰经使用的数据集是一个CSV文件,由八列组成前三列;Surah ID、VerseID 和 Verse Text 是 从 “ 阿 拉 伯 语 原 始 古 兰 经 ” 数 据 集 ( TanzilDocuments)导入的添加了其他数据;部件ID;没有变音符号的诗句文本和Surah标题。最后两列是从伊斯兰学术书籍“Mushaf Al Tajweed”(Habash,2001)中获得的一本伊斯兰书提供了一个全面的古兰经等级分类。原始阿拉伯语古兰经《古兰经》分为30部分(juz' ),114章(surah)和6236节(ayat)。原始数据集由三列组成,分别是:938E.H. Mohamed,E.M.Shokry/ Journal of King Saud University图二、古兰经语义搜索工具QSST的建议模型Surah ID:这诗ID:这韵文:带有变音符号的韵文内容。另外五列是:“ID”是指每个人的ID。它是一个从1到30的值无变音符号的诗句文本:去除变音符号(诸如重音或cedilla的符号,当写在字母上方或下方时,其指示相同字母的不同发音)以便于搜索过程是一种规范化。Surah Title:每一章的标题(E.x.《开经》:《开经》。关键词(概念):经文是手动注释的1100个主题或主题,涵盖在古兰经。这些主题是从'Mushaf Al Tajweed导入的主题代码:我们根据古兰经本体的层次分类为每个主题提供了一个代码。有15个主要概念,再细分为子概念和子子概念,涵盖了古兰经的所有主题。此索引中的概念具有聚合关系。例如,如图所示。 3、《古兰经》第六章:“引导我们走正路”。它属于副主题“关于调用的说法”(这个主题有代码1.2.2.3,这意味着它在主主题1伊斯兰教的支柱(伊斯兰教的支柱),副主题1.2祈祷(祈祷),副主题1.2.2调用(祈祷)下。这段代码方便了搜索过程,因为我们可以很容易地确定查询是否属于主主题或副主题,并可以很容易地访问对应诗句(Ayah)。图SEQ图\* ARABIC 3主题代码基于Mushaf Al Tajweed的古兰经本体的层次分类3.2. 单词嵌入(word2vec)词嵌入是用于构建词的向量表示的最有用的深度学习技术之一,证件它在NLP应用程序中大量使用,因为它能够捕捉单词之间的句法和语义关系。最常用的词嵌入技术是Word2Vec(Mikolov等人,2013; Mikolov 等 人 , 2013 ) 和 Global Vectors ( GloVe )(Pennington等人, 2014年)。 两个模型都从它们的共现信息中学习它们的词向量,但是它们的不同之处在于word2vec是“预测”模型,而GloVe是“基于计数”的模型(Baroni等人, 2014年)。Word2vec是一个处理文本的两层神经网络。它的输入是一个文本语料库,它的输出是一组特征向量的语料库中的单词。Word2vec以两种方式之一来训练单词并生成特征向量。无论是使用一个连续的词袋(CBOW),使用上下文来预测一个目标,在(图4左)CBOW可以预测玛丽亚姆·玛丽亚姆·玛丽亚姆给定周围的话。另一方面,使用skip-gram(SG),其使用单词来预测目标上下文,在(图4右)中,SG可以预测给定中心单词Maryam Maryam的周围单词。Google的Word2Vec预训练模型是NLP领域使用最广泛的模型。它包括300万个单词和短语的词汇表的单词向量,这些单词和短语是在来自Google新闻数据集的大约1000亿个单词上训练的(Mikolov et al.,2013年)。这项研究的挑战之一是没有针对经典和古兰经阿拉伯语的预训练word2vec模型。因此,我们建立了一个经典的预训练word2vec模型,这是本研究的重要贡献之一。该阶段包括两个子阶段。收集了一个大型的古典阿拉伯语语料库。然后建立Word2vec模型,并在大型经典阿拉伯语语料库上进行训练3.2.1. 收集经典阿拉伯语语料库有许多网站,如阿拉伯语维基百科,在互联网上收集此外,阿拉伯语语料库也可在网上查阅,并已收集。从一组公开可用的文本集合中构建语料库。该语料库从五个资源中收集;两个经典语料库:Watan-2004语料库(阿拉伯语语料库-Mourad Abbas)包含约20,000篇文章,涉及以下六个主题 KSUCCA(Alrabia等人,2014年6月)文本被分为六个文件夹,代表语料库的主要流派;宗教,语言学,文学,●●●●●●●●●E.H. Mohamed,E.M.Shokry/ Journal of King Saud University939图三. 主题代码基于Mushaf Al Tajweed的古兰经本体的层次分类图四、Word 2 Vec使用CBOW和Skip-gram进行单词嵌入科学、社会学和传记。他们声称它有大约5000万字。语料库中包含三个MSA语料库,因此我们添加了来自BBC阿拉伯语,CNN阿拉伯语网站(Saad和Ashour,2010)和63,000篇阿拉伯语书评(Aly和Atiya,2013)的约4400万个令牌,如表3所示。3.2.2. 构建Word2Vec模型Word 2 Vec模型用于词嵌入,Word 2 Vec有两种架构CBOW和Skip-gram。这两种架构都是在Word 2 Vec工具包的原始C实现和python gensim库上实现的。不同的超参数但最后,使用的参数是窗口大小(10)和嵌入维数(3 0 0)。 在一台2.53 GHz CPU和4 GB RAM的机器上,训练时间大约需要90分钟这两种架构的性能进行了测量。这两种架构都在300个随机查询上进行了测试。计算相关主题与全部300个查询的比率。Skip-gram的准确率为69%,而CBOW为72%。这些实验表明,当增加训练语料库的大小时,word2vec模型的性能得到了积极的增强。此外,对于经典阿拉伯语语料,CBOW的性能优于skip-gram。它是我们模型的适当架构940E.H. Mohamed,E.M.Shokry/ Journal of King Saud Universityn≤-kA kkB k表3古兰经和经典阿拉伯语语料库中使用的单词嵌入。语料库类型话矩阵Ww,其从先前步骤单词嵌入阶段(word2vec)检索,如等式(1)所示。(1)(Mikolov等人,2013年)。然后我们计算向量的平均值,得到一个代表句子(用户的查询或古兰经的主题)的特征向量Watan-2004年阿拉伯语语料库文化~1.06亿宗教经济本地新闻国际新闻体育Vqueryw1XWw xi1其中W w(ww 1,x 2,.. . wn>)是词xi的词嵌入,其可以通过CBOW架构来学习。CNN-阿拉伯文萨阿德和阿舒尔(2010年)~2400万BBC-阿拉伯文Saad and Ashour(2010)~2000万3.4.《古兰经》中最相关的经文阿拉伯语书评Aly and Atiya(2013)阿拉伯语图书评论63,000不同距离KSUCCA Alrabia et al. (2014年)宗教23,645,087文学7,224,504语言学科学传记3,499,948社会学共计50 602 412共计200 665 412度量,并且在word2vec中使用最广泛。它是两个向量的归一化点积,并且该比率定义了它们之间的角度,如等式10 所示(2)(Manning等人, 2008年)。余弦相似度为1意味着两个矢量具有相同的方向,余弦相似度为0意味着两个矢量成90°,余弦相似度为1意味着两个矢量相反,与它们的大小无关。simA;BsimA;BsimA;Bð2Þ3.3. 计算句子的特征向量(Sent2Vec)《古兰经》和《古兰经》句子)。首先,通过将词Xi的独热向量乘以嵌入向量所有的主题和搜索查询转换为语义向量使用词嵌入技术。然后计算向量之间的余弦相似度,以找到与查询最相关的主题。最后,进行古兰经数据集检索与查询主题相关的适当经文(Ayat)。表4与查询最相关的前5个主题查询前5名最相关的主题ﻗﻴﺎﻡﺍﻟﻠﻴﻞ夜祷祷告词可选的夜祷ﺻﻼﺓﺍﻟﻤﺴﺎﻓﺮ旅行者祈祷ﺍﻟﻬﻮﻱ花式ﺻﻼﺓﺍﻟﺨﻮﻑ恐惧祈祷ﺍﻟﺼﻴﺎﻡ空腹2019 - 06 - 25 00:00:00ﺍﻟﺴﻴﺪﺓﻣﺮﻳﻢMaryam玛丽亚姆·奥姆兰ﻋﻴﺴﻲﺑﻦﻣﺮﻳﻢ叫以实ﺍﻣﺮﺃﺓﻋﻤﺮﺍﻥﺍﻭﺃﻡﻣﺮﻳﻢ以实玛利的母亲ﺍﻟﺤﻮﺍﺭﻳﻮﻥ使徒ﺍﻧﺼﺎﺭﺍﻟﻤﺴﻴﺢ基督的支持者0.26230142 0.25081667 0.20418821 0.20010853 0.19415213ﻛﻴﻒﺧﻠﻖﺍﻻﻧﺴﺎﻥ人类是如何被创造出来的人类的养育和创造ﺍﻻﻧﺴﺎﻥﻭﺍﻟﻌﻼﻗﺎﺕﺍﻻﺟﺘﻤﺎﻋﻴﺔ人类和社会关系ﺃﺟﻞﺍﻻﻧﺴﺎﻥ人类死亡人类的冲动和弱点ﺗﻜﺮﻳﻢﺍﻻﻧﺴﺎﻥﻭﺍﻧﻌﺎﻡﺍﻟﻠﻪﻋﻠﻴﻪ人的尊严和真主的祝福0.53664464 0.37746215 0.3617923ﺍﻟﻮﺿﻮﺀ沐浴ﺍﻟﻮﺿﻮﺀﻭﺍﻟﺘﻴﻤﻢﺍﻟﻐﺴﻞ洗涤ﺍﻟﺘﻄﻬﻴﺮ纯化ﺍﻟﺴﺠﻮﺩ虚脱ﺍﻟﺮﻛﻮﻉ跪0.8660921 0.69277626 0.42669868 0.38361922 0.35677183ﻋﻠﻢﺍﻟﻔﻠﻚ天文学ﺍﻟﻔﻠﻚ天文学ﻋﻠﻢﺍﻟﻠﻪ真主ﻋﺎﻟﻢﺍﻟﻐﻴﺐ未知看不见的世界天地ﺍﻟﻌﻠﻮﻡ科学2019 - 06 -24 00: 00:00ﺍﻟﻄﻼﻕ离婚ﺍﻟﻄﻼﻕ离婚离婚的条件ﺍﻟﺘﺤﻜﻴﻢﻓﻲﺍﻟﻄﻼﻕ离婚仲裁ﺍﻟﻈﻬﺎﺭ阿兹济哈尔ﺍﻟﻨﻜﺎﺡ婚姻0.52397037 0.3479252 0.31609154 2933084ﺍﻟﺘﻜﺒﺮ傲慢ﺍﻟﺘﻜﺒﺮ傲慢ﺍﻟﺘﻮﺍﺿﻊ谦卑ﺫﻡﺍﻟﺠﻬﻞﻭﺍﻟﺠﺎﻫﻠﻴﻦ对无知和忽视的吝啬和懦弱ﺍﻟﻤﻜﺮ狡猾0.42908084 0.41542701 0.38917297ﻗﺼﺔﺳﻴﺪﻧﺎﻣﻮﺳﻰ的故事ﻣﻮﺳﻰ穆萨ﺃﻡﻣﻮﺳﻰ摩西ﺻﺤﻒﻣﻮﺳﻰ摩西ﺍﻣﺮﺃﺓﻣﻮﺳﻰ摩西ﺭﺏﻣﻮﺳﻰﻭﻫﺎﺭﻭﻥ穆萨和哈伦2009年12月31日ﺍﻟﻌﺪﻝ司法司法审判与公正判决ﺇﻗﺎﻣﺔﺍﻟﺤﻖ朝上设置ﺍﻟﺼﺪﻕ诚实ﺍﻟﺨﻴﺎﻧﺔﻭﺍﻟﻐﺶ叛国和欺骗ﺍﻟﺸﻬﺎﺩﺓ证词0.7439357 0.46917203 0.46605355 0.45693165ﺑﺮﺍﻟﻮﺍﻟﺪﻳﻦ父母之义父母的权利自由真主的伙伴关系从ﻋﺪﻝﺍﻟﻠﻪﻭﺗﻨﺰﻳﻪﺍﻟﻠﻪﻋﻦﺍﻟﻈﻠﻢ真主以色列儿童的生活ﺑﻴﺎﻥﺣﺠﺞﺍﻫﻞﺍﻟﻜﺘﺎﺏﻭﺍﻗﺎﻣﻪﺍﻟﺤﺠﺔﻋﻠﻴﻬﻢ书中的人物,他们的故事,他们的故事,0.5058147 0.46949255 0.44271246 0.413737E.H. Mohamed,E.M.Shokry/ Journal of King Saud University941¼¼ð Þ¼4. 成果和业绩评价建议的古兰经语义搜索工具(QSST)的性能进行测量,通过应用三个实验。上召回率/敏感度表示覆盖的完整性,如等式所示。(4),即,系统检索到的相关经文(ayat)数量与所有可能相关经文(ayat)数量的比率。实验中,QSST结果与金标准(Mushaf Al-Tajweed)进行了比较。然后精确度,召回率和F分数被计算出来。收回相关文档\已收回文档相关文件ð4Þ迟到了在第二个实验中,三位古兰经专家对QSST的结果进行了评估,并计算了精度最后,在第三个实验中,将结果与其他现有工具进 行 比 较 , 包 括 古 兰 经 语 料 库 搜 索 ( CQS ) ( Dukes 和Buckwalter,2010),古兰经项目搜索(QPS)的关键所有这些系统都在相关工作章节中进行了描述4.1. 业绩评价指标性能记录在精度,召回率和F-措施。高查全率表示系统的高覆盖率,并且对于IR系统是更期望的(Manning等人,2008年)。精密度/专属性代表结果的正确性,如等式所示。(3);即,检索到的相关经文(ayat)与检索到的相关和不相关经文(ayat)在统计学中,F1得分(或F-测量)是精确度P和召回率R的调和平均值,如等式所示(五)、F2精确度:回忆5精确度和召回率4.2. 结果和讨论一个谷歌表格是准备收集用户的查询谁是寻求- ING搜索的概念古兰经。它收集了500个查询。在清理和删除冗余和不相关的查询后。300个查询已准备好进行测试。从收集的查询中随机挑选十个查询来测试所提出的系统。这些问题涉及不同的概念,如用户与决策相关的文档\检索文档检索文档表5通过古兰经语义搜索工具QSST为每个查询检索到的经文。QSST检索的查询ð3Þ使用word embedding。然后计算两个向量之间的余弦相似度表4记录了与查询最相关的前五个主题。从表4中挑选与查询具有最高相似性的第一个概念。然后检索与此概念相关的相关诗句(Ayat),这些是将被用于三个实验。表5描述了检索到的诗句ﻗﻴﺎﻡﺍﻟﻠﻴﻞ夜祷ﺍﻟﺴﻴﺪﺓﻣﺮﻳﻢMaryamﻛﻴﻒﺧﻠﻖﺍﻻﻧﺴﺎﻥ人类是如何被创造出来的ﺍﻟﻮﺿﻮﺀ沐浴ﻋﻠﻢﺍﻟﻔﻠﻚ天文学ﺍﻟﻄﻼﻕ78/17、79/17、40/50、17/51、48/52、49/52、1/73、7/73、20/73、26/7633/3,37/3,42/3,47/3,156/4,16/19,34/19,91/21,12/661/4,2/6,98/6,12/7,5/22,12/23,14/23,20/30,21/30,54/30,7/32,9/32,11/35,68/36,6/39,57/40,21/41,11/42,45/53,17/71,36/75,39/75,2/76,20/77,32/77,18/80,19/80,7/82,8/82,5/87,7/87,4/95,5/95,2/9643/4、6/529/2,189/2,5/10,16/16,12/17,33/21,17/23,210/26,212/26,37/36,40/36,6/37,8/37,10/37,5/67,8/72,9/72,27/79,28/79,1/86,3/86,11/86229/2,34/4,35/4,1/65,2/65格式:(诗编号/章编号)。例如,1/112,意味着第112章中的第一节al-Ikhlas(古兰经112章)- 你说:在第一个实验中。我们手动搜索与十个随机查询相关的主题,并将其记录下来,如表6所示。表6从mushaf铝tajweed相关的诗句。Query Mushaf Al-Tajweed(黄金)离婚ﻗﻴﺎﻡﺍﻟﻠﻴﻞ78/17、79/17、40/50、17/51、18/51、48/52、49/52、1、/73、ﺍﻟﺘﻜﺒﺮ34/2,36/4,49/4,172/4,13/7,36/7,40/7,133/7,146/7,206/夜祷7/73、20/73、26/76傲慢7,23/16,25/16,27/16,29/16,37/17,21/25,62/25,83/28,18/ﺍﻟﺴﻴﺪﺓﻣﺮﻳﻢ33/3、37/3、42/3、47/3、156/4、16/19、34/19、91/21、12/6631,15/32,,74/38,59/39,,60/39,72/39,35/40,60/40,76/Maryam40,20/46,23/57ﻛﻴﻒﺧﻠﻖﺍﻻﻧﺴﺎﻥ86/6、172/7、7/11、26/15、4/16、70/16、78/16、70/17、37/18、38/19、39/19、40/19、4ﻗﺼﺔﺳﻴﺪﻧﺎﻣﻮﺳﻲ24/2,54/2,57/2,60/2,61/2,67/2,68/2,69/2,71/2,69/2,70/人是怎样的第18、51/18、5/22、12/23、14/23、45/24、19/29、11/30、19/的故事2,71/2,72/2,73/2,74/2,248/2,47/4,20/5,24/5,25/5,26/创建30、21/30、54/30、7/32、9/32、11/35、36/35、77/37、6/39、摩西5,117/7,118
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功