没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报马来语翻译圣训语料库的特点Siti Syakirah Sazalia,Nurazzah Abdul Rahmana,Zainab Abu Bakarba马来西亚雪兰莪州莎阿南玛拉科技大学计算机与数学科学系b马来西亚吉隆坡麦地那国际大学计算机和信息技术学院阿提奇莱因福奥文章历史记录:收到2020年2020年7月7日修订2020年7月27日接受2020年7月31日在线保留字:马来语语言分析马来语翻译圣训语料库自然语言处理语料库语言学A B S T R A C T标注语料库在自然语言处理领域有很大的帮助例如,计算机可以理解更多的文档上下文,信息检索中的索引和聚类可以精确地完成,而单词的模糊性更少或没有。然而,只有少数注释语料库在马来语,这是不公开共享。在本文中,我们深入分析和注释马来语翻译圣训文件的标签和实体。该方法分为三个阶段,即人工过滤和清洗、语料分析和基准测试。最后,根据遵循齐普夫定律分布的词性和命名实体标记,对马来语翻译的圣训语料库进行了©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍自然语言处理(NLP)是人工智能的一个分支,旨在赋予计算机处理人类语言的能力(Jurafsky,2009; Liddy,2001; Zamin等人,2012年b)。Liddy(2001)指出,NLP的目标是让计算机像人类一样处理一系列任务和应用NLP的应用包括信息检索(IR)、信息提取(IE)、提问和回答(QA)、摘要、机器翻译(MT)和对话系统(DS)。迄今为止,存在许多使用最先进技术开发的新颖应用。还有许多现成的资源可供使用,例如命名实体识别器、词性标记器、语料库、词干分析器和解析器。令人惊讶的是,NLP研究的某些领域被认为是已解决的问题,其中应用程序的性能超过了人类处理的性能(Manning,2011)。例如,Toutanova和Manning(2000)开发了*通讯作者。电子邮件地址:syakirahsazlie@gmail.com(S.S.Sazali),nurazzah@tmsk.uitm.edu.my(N.A. Rahman),zainab. mediu.edu.my(Z.A. Bakar)。沙特国王大学负责同行审查制作和主办:Elsevier一个无监督的词性标注器,通过使用Penn Treebank的英语语言的华尔街日报(WSJ)部分,实现了98.86%的然而,这些现成的应用程序和研究大多集中在资源丰富的语言,如英语,法语和德语。相反,对资源贫乏的语言如希伯来语、乌尔都语、孟加拉语和马来语的研究较少。本文深入探讨了相关的自然语言处理研究涉及马来语,资源贫乏的语言之一 它是南岛语言树下的一种语言,也是东南亚使用最多的语言,有超过3亿的母语使用者(Alfred et al.,2014; Zamin例如,2012年b)。下表1总结了使用马来语作为数据的NLP现有研究马来语相关的研究在2000年代初获得了显着的增长。上表仅列出该领域的最新研究,以证明与马来语有关的研究仍然是焦点。信息检索(IR)领域也出现了与圣训相关的研究。正在测试诸如聚类和主题相关等技术,以提高检索结果。直到2013年,信息提取(IE)才出现了第一个研究。它从基于规则的命名实体识别(NER)开始,然后是马来语的一些统计方法。也有马来语的文本摘要和机器翻译的研究。对于词性标注,马来语在2012年开始使用随机词性标注,随后在2013年使用基于规则的词性标注。标注语料库在自然语言处理领域有着重要的应用价值。例如,计算机可以理解更多的https://doi.org/10.1016/j.jksuci.2020.07.0111319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com小行星2152Sazali等人 /沙特国王大学学报-计算机与信息科学34(2022)2151- 2160表1使用马来语语料库的现有研究。地区研究信息检索●马来语圣训检索系统(穆罕默德表2现有的马来公司。研究人员域公开可用?注释?Hanum等人,2014; Rahim等人, 2016;Zulkefli等人,2016年,2015年)语言文学研究所多个域名是否信息提取·命名实体识别器(Alfred等人,二〇一四年Mohd Noor,Sulaiman,Noah,2016; Sazali,AbdulRahman,Abu Bakar,2016; Sulaiman,Mutiara Hadith UiTM(Abdul Rahmanetal.,(2006年)马来语翻译的古兰经和圣训文件是否Abdul Wahid,Sarkawi,&Omar,2017;Ulanganathan等人,( 2017年)摘要●马来语文本摘要器(Aliaset al.,2016 b)机器翻译●Lazy-man Part-of-speech Tagger(Zamin et al.,(Zamin等人,(2012年b)与恐怖主义有关的新闻文章(Alfred等人,2013年a)新闻文章,生物医学制品否是否是2012年a),● 跨语言命名实体识别(Noor AriffinTiun,2018)马来语Twitter摘录否是语言分析,语料库建设注释(Zamin Abu Bakar,2015)● 马来新闻语料库(Zamin等人,2012 b),榴莲数据集(Azizan et al., 2019年)。(Azizan等人, 2019)榴莲相关文件不不词性标注器●基于规则词性(阿尔弗雷德例如,2013 b; Noor Ariffin Tiun,2018)● 随机词性(Xian等人,2016;Zamin等人,2012年a)使用词性标记的文档上下文、信息提取领域中的命名实体识别、以及信息检索中的索引和聚类可以精确地进行,而单词的歧义较少或然而,只有少数马来语的注释cor-pora,没有公开共享。到目前为止,只有两篇现有的研究论文对语料库进行了语言分析,这两篇论文是基于新闻语料库和榴莲数据集的。总共有三个阶段,即手动过滤和清理、分析语料和创建基准。本文第二节将详细描述语料库,包括第一个观察,然后是第三节的第一个阶段,即人工过滤和清理。然后,第二阶段是语料分析,在第四节中,以形式第三阶段是词性标记和命名实体的基准测试,第五节是本文的2. 语料库语料库在基于文本的NLP研究中起着至关重要的作用。通常,语料库是非结构化的。在可用性方面,只有少数数字是公开的,而其他数字大多是为学术用途而开发的,不公开。例如,语言和文学研究所(Dewan Baiddan Pustaka)最近研究人员可在其网站(sbmb.dbp.gov.my/korpusdbp)上查阅其语料库。它们包括报纸文章、书籍、杂志、文学文本和纸质作品。下表2说明了一些现有的语料库,可用于自然语言处理任务基于其可用性。存在一些公开可用的语料库,例如来自语言文学研究所,在那里他们提供多个领域,如报纸摘录,杂志,小说等。然而,这些语料库没有注释。同样,Mutiara Hadis UiTM也公开提供古兰经和圣训文件的翻译,但它们也没有注释。有几个现有的语料库,注释,但不能公开使用。例如,与恐怖主义相关的语料库、新闻和生物医学文章以及twitter摘录。这些语料库是为自然语言处理实验而建立的。在伊斯兰教中,有两个主要的参考来源是行动的记录,言语,和先知穆罕默德PBUH无声的批准。圣训中有两个主要组成部分:“isnad”和“matn”。“Isnad”指的是传诵圣训的叙述者的链条,“matn”指的是圣训的内容或主体。穆斯林神职人员将圣训分为三类,即“sahih”(真实)、“hasan”(好)或“da”if(软弱)。圣训是用阿拉伯语写的,但随后被翻译成世界各地的许多其他语言,如英语,印度语和马来语。本文选取马来语翻译的圣训文献作为研究对象。马来语翻译圣训文件(MTHD)语料库是从Mutiara Hadis UiTM的马来语翻译圣训文件中收集的。选择圣训是因为最近在马来语自然语言处理领域中使用圣训作为数据的研究中出现了高峰(Abdul Rahman等人,2010年; Jianget al. , 2016 a; Mahmood 等 人 , 2018; Mohamed Hanum 等 人 ,2014;Zulkefli等人,2016年,2015年)。Mutiara Hadis UiTM1是提供马来语翻译圣训供公众参考的网站之一。图1显示了Mutiara Hadis UiTM的主页界面。现有的圣训是SahihBukhari(2028圣训)、Sahih Muslim(2521圣训)、Sunan At-Termizi(4179圣训)、Sunan An-Nasai(5700圣训)、Sunan IbnuMajjah(4340圣训)和Sunan Abu Daud(1002圣训)。在这项研究实验中,《布哈里圣训》一书被选为测试集,因为它的真实性和在马来人中的流行性。原始集合包括6961个句子,146,654个总单词和18,622个唯一单词。 圣训文件的例子如下图2所示,后面是圣训的英文翻译。《古兰经》说﹕“我曾听见真主的使者说﹕‘一切行动都是按照意图进行的﹐每个人都将得到他们想要的。谁迁移的意图为真主和他的使者,迁移将是为了真主和他的使者。谁为今世的利益而迁移,或为娶一个女人而迁移,那么他的迁移将是为了他所迁移的目的。(圣训第一卷,圣训第一卷)图3示出了马来语翻译的圣训文档(MTHD)原始文件。经过初步的观察和标记化,在收集中存在错误。错别字等错误非常需要纠正,因为它会影响一些NLP技术的整体性能,例如词性标注。因此,第一步就是清理藏品。我们称之为手动过滤和清洁的步骤。《古兰经》和《圣训》《古兰经》是真主的圣言,先知穆罕默德(愿主福安之)圣训是指第1https://sigir.uitm.edu.my/webhadis/S.S. Sazali等/Journal of King Saud University- Computer and Information Sciences 34(2022)2151-21602153Fig. 1. Mutiara Hadis UiTM主页.图二. 圣训摘录的例子。图三. 马来文翻译圣训文件原始文件。3. 手动过滤和清洁收集首先需要经过归一化过程,以消除噪声和错误。对于这个集合,这个过程包括地址代码添加、标记化、单词规范化、符号和数字删除,最后是人为错误纠正。下图4说明了收集的手动过滤和清洁流程。这个过程从Mutiara Hadis UiTM检索的文件开始,名为原始马来语翻译的圣训文件(RMTHD)。它首先经历地址代码添加过程,然后进行标记化。在标记化之后,集合经历小行星2154Sazali等人 /沙特国王大学学报-计算机与信息科学34(2022)2151- 2160图四、手动过滤和清洁的工艺流程文字规范化,特殊字符和数字删除,以及人为错误纠正。这些过程循环进行,直到集合中的数据被清理并保存在名为马来语翻译圣训文档(MTHD)的集合中。手动过滤和清洗的所有过程都是半监督的,这意味着这些过程是通过使用程序或正则表达式完成的,然后进行监督和验证。被人类A. 地址代码添加和令牌化当原始马来语翻译圣训文件(RMTHD)首次编制时,每个圣训都有不同的文件,每个圣训集都有一个数字表示;从1到2028,按卷号分组。 为了说明,从上述圣训的例子中,圣训由数字'' 1,Dari Umar bin Khathab r.a.,拉苏鲁拉看到的是一个巨大的数字。bersabda:.. . “为了区分圣训数字和收藏中的实际数字,引入了地址代码。它包括圣训数量和圣训卷。地址代码是在圣训编号前加表3说明了地址代码的一些示例。例如,圣训编号1933被写成H31399。添加地址代码是跟踪目的的关键步骤,可用于信息提取和信息检索。添加地址代码后,通过检测单词边界对集合进行标记化,并对唯一单词进行排序以检查错误。标记化是将单词从运行的文本中分离出来的任务。像英语一样,马来语单词通常用空格(空格或通常称为空格)彼此分隔。按唯一字排序后发现,该集合需要进行字规范化、符号和数字去除以及错别字纠正。这些过程循环进行,直到没有更多的错误和噪音需要清除。表3使用的地址代码B. 词规范化本实验中的词规范化是指指的是同一个词,但以略有不同的形式写的缩写。这样做是为了保护缩写不受符号删除的影响,并减少缩写的歧义。表4中列出了这些单词的示例以及它们在整个集合中的对应出现次数。有12个单词有四个相同的意思,可以组合在一起。第一个缩写是“r.a.”在阿拉伯语中代表RadhiAllahuanhu还有四个提取的模式是出现次数为1234出现了593次,“r a/r(space)a”出现了114次。所有这些缩写然后用单词“ra”规范化下 一 个 缩 写 是 s.a.w. 在 阿 拉 伯 语 中 代 表 着SallallallahuAlayhiWaSalaam。总共观察到六种模式。第一个模式是“锯”。有1804次,S. A. w.“出现了593次,“s.a.w.”,出现了293次,“s.a.w.”,有48次出现,表示缩写“s.a.w.”的规范化单词就是“锯”这个词下一个缩写是s.w.t.在阿拉伯语中是指Sub- hanahuWaTa对于这种聚焦,只有一种额外的模式发生了38起事件。单词最后一个缩写是在阿拉伯语中,它指的是AlayhisSalaam,写作对于这个缩写,单词C. 删除特殊字符和数字规范化之后,下一步是删除特殊字符和数字。去除特殊字符和数字是为了减少非字母字符。过程表4带替换的规范化单词体积圣训编号例如11–525H10001、H103422526–1125H20678,H2110531126–1581H31146、H3148741582–2028H41640、H42000缩写词替换为出现R.A.r.a.,RA1234r.a15R.A.593r(空格)a114s.a.w.看到了看到1804s.a.w.593s.a.w.,48锯。,293s(空格)a(空格)w59s(空间)aw1s.w.tswt。SWT38A.S.a(空格)s作为13-S.S. Sazali等/Journal of King Saud University- Computer and Information Sciences 34(2022)2151-21602155表5删除特殊字符和数字描述实例发生率表6人为的错误。单词正确的单词特殊字符感叹号(!),开/闭括号(/),分号(;),独立破折号(-),引号单个字符数字(0-拼写错误37,5472595艾杜拉-阿卜杜拉航空公司胡德里凯迪勒alhamdu lillahalhamdullah MahiMaha帕尔西卡雷纳克拉纳路在这项研究中的更正,因为这是人类失败的结果发现有一些与数字结合的单词的错别字。这个过程是通过使用正则表达式匹配来完成的。所包含的符号和排印错误及其相应的发生率列于下表5所有特殊字符共出现37,547次包含的特殊字符是感叹号(!)出现次数为1715次,双引号(“和“)出现次数为9496次,逗号(,)出现次数为8736次,冒号(:)出现次数为4277次,左括号”(“和右括号”)"出现次数分别为1545和1515次,问号(?)出现次数为879次,两个单引号(' and ')出现次数为30次,句点或点(.)出现9027次,分号(;)出现160次,单引号(只有单破折号被删除,因为在马来语中,也有一些特殊的字符附加一个词。在马来语中,有一种类型的单词在单词中使用破折号。这种类型被称为重复,这将在下一节稍后讨论在去掉破折号的同时,也有一些文字是重复的文字,但单独书写。因此,这种符号,文字是粘在一起的。例如,在H10023中检测到单词“-perempuan”。它与另一半结合在一起,成为“perempuan-perem puan”。同样的情况也发生在“al-”这个词除此之外,单词中包含的符号也被删除了。符号破折号出现在单词“7-”中,引号出现在单词“aisyah”、“ra”和“oAsar”中,分别出现一次。接下来,单个字符被删除。共197个号码通过识别所有数字0到9来消除。同样的,也有一些单词和数字结合在一起。对于像'ke-9 0和'ke-52 0这样的情况此外,还有一些错别字。从上表中,我们可以看到,有错别字,字母L被写为数字1,总共出现5次。这可能是前人研究中图像翻译的结果。在这种情况下,单词“syarika1ahu”、“Al1ah”、“diha1angi”、“penyesa1annya”和“keci 10”中的数字最后,单个字母字符被删除,因为它们是错别字的结果,没有任何意义,也不是合法的单词。总共删除了60个字母,因为它们是原始集合中误译的结果。D. 人为错误纠正在这一过程中,人为错误是指被人类忽视的错误下表6说明了一些人为错误。上表中的大多数错误都是由图像到文本的翻译错误造成的然而,它被称为人为错误注意到错误。表中的前四行显示了一个字母被错误翻译的示例。第一行的单词“ahdul- lah”,其中“b”被误认为是“h”,第二行和第三行有同样的错误,其中字母“l”被误认为是“i”,第四行的单词“kedil”,其中‘d’接下来的六行是人为错误的结果。错误的形式是单词中的额外字母(第五行),间距(第六行),错误的字母或错别字(第七行),额外的重复模式(第八行),以及重复中的额外单词(第九行)。最后一行(第十行)是翻译错误。“karena”这个词这两个词都指的是“因为”。这一步是至关重要的,以确保集合中的所有单词都属于马来语,以获得任何NLP相关技术的准确结果接下来,将分析清洁的4. 马来文翻译圣训文献在这一部分中,马来语翻译圣训文件(MTHD)是分析的基础上,词的分布,齐普夫所有分析将在下文各小节中进一步讨论。在预处理之前,集合的单词计数为146,654个单词,其中18,622个单词是唯一的。预处理后的MTHD结果如图所示。 5中,并且字数列于下表7中。文件数量保持不变,为2 028份文件,总字数减少了500个,从146 654减至146 154。唯一字与8135有很大区别从18622减少到10487。语料库的语义标注对于将来更多的自然语言处理任务是必不可少的。因此,所有146,154个单词都被发送给语言专家,以使用词性标签进行注释。用于此集合的词性标记的符号是基于TatababaitudanDewan(Nik Safiah,Farid,Hashim,Abdul Hamid,2015)创建的;这是马来西亚语言和文学研究所出版的马来语语法参考书然后将标签与Penn Tree Bank(PTB)标签进行匹配下面的表8示出了在该集合中使用的词性标签。在TatababaumDewan中,标记被分为四个主要组,它们是形容词,动词,名词,其余的词根据它们的异质性(17个小标记)被分组在一个大类下:虚词。然而,在这个集合中,小的组被算作它们自己的标签,而不是在一个大的标签下。总共有24个标签用于集合中,包括一个用于外语单词的标签在24个标签中,有15个标签有自己对应的Penn Tree Bank标签,而其余9个标签没有。有一个katanama tunjuk,用来表示指向人,动物等东西。小行星2156Sazali等人 /沙特国王大学学报-计算机与信息科学34(2022)2151- 2160图五. 马来文翻译圣训文件输入文件。表7马来语翻译圣训文献语料库的字数统计。表8使用的词性标记单 词 “paling” ( 大 部 分 ) 。 ‘Kata perintah’ is used with theintention of commandingA. 单词形式在马来语中,词的形式分为四种主要形式;它们是单个词形式、附加词形式、复合词形式和重叠形式(Nik Safiah等人,2015年)。单词形式在NLP任务中扮演着重要的角色,例如词干提取词性标签在TatababaitiDewan相应的PennTreebank标签附加标签和词性标注。在本汇编中,只分析了四种形式中的三种复合词形式被排除在外AdjectiveAdjektifAdjective(JJ)动词(VB)NounKata namaNoun(NN)Kata ganti nama代词(PRP)卡塔纳马通鲁克TJK专有名词(NNP)因为它需要更多的语言专家,由于时间和时间的限制。单词形式是指一个词可以独立存在,没有任何词缀或与任何其他词混在一起的形式。例如,“saya”(我)这个词。一个句子只能用“saya”这个词来组成,而且它是错误的被认为是有效的判决下一种形式是贴附形式,其中功能话布基纳法索b(经常预算)卡塔阿拉Kata bantuAuxiliary(AUX)基数(CD)协调连词(CC)KatanNEGKata pangkal ayatPKLKata pembenarPBR所有格词尾(POS)卡塔佩梅里PMR卡塔气体颗粒(RP)卡塔兰坎足球俱乐部卡塔企鹅PGTKata PerintahPRH介词(IN)Kata seru感叹词(UH)Kata tanyaWh-代词(WP)基本词经历词缀化过程。例如,基词“makan”(吃),可以通过添加后缀(-an)变成词缀形式,并产生单词“makanan”(食物)。下一种形式是重叠式。与英语一样,马来语的词也有完全重叠、半重叠、带词缀或不带词缀的重叠过程。例如“kanak-kanak”(chil-kanak)和“lelaki”(man)是马来语中重叠的例子。图6示出了MTHD语料库的独特词的分布,而图7示出了集合中的总词的总词分布。在独特词方面,词缀形式构成的独特词所占比例最高(62%),共有5230个词。接单字形式其他外来词Foreign Word(FW)或者别的什么例如,像'itu','ini','sana'和'sini'。Kata arah用于表示方向,如'utara'(北),'sisi'(侧)和'luar'(外)。“形”是一组用来表示否定的词。例如,“tak”(不)和“bukan”(不)。Kata pangkalayat是出现在句子开头的词,很少使用表示与前一句的连续性。它主要用于古典马来语。例如,单词“kalakian”,“hatta”和“alkisah”。“Kata pembenar”是一个在句子中表示同意或确认的词,如“ya”和“benar”。“Kata pemeri”是一个连接主语和谓语形容词或谓语名词的词。在马来语中,有两个“kata pemeri”,即“ialah”和“adalah”。“Katakan”是用来强调与它结合的单词的重要性。当这个词与后缀“-nya”结合时 , 它 就 变 成 了 “kata kan” 。 例 如 , “sesungguhnya” 和“nampaknya”。‘Kata penguat’ is used to 比如说其代表总唯一字计数的33%,总共2776个字。重叠式只有453个词,仅占唯一词总数的5%但在MTHD的总词数分布上,单纯词与词缀词的差异很小(3%)图六、MTHD语料库的独特词分布文件总字数唯一字预处理前2028146,65418,622预处理后146,15410,487¼ RS.S. Sazali等/Journal of King Saud University- Computer and Information Sciences 34(2022)2151-21602157图7.第一次会议。MTHD语料库的总词汇分布差异)。单词形式有73,651个计数,占总词分布的最高百分比(51%),其次是附加形式(47%),有68,311个计数。重叠仍然是最小的百分比的总词分布与2144计数,占2%的总词计数。B. Zipf齐普夫&定律是一种统计学公式化的定律,可用于评估自然语言语料库中单词的分布,其中在物理和社会科学中研究的各种类型的数据遵循齐普夫分布(Manning Schütze,2000; Zamin等人,2012年b)。它是以哈佛大学语言学教授乔治·金斯利·齐普夫(George Kingsly Zipf,1902-1950)的名字命名的。该定律表明,给定一个使用的单词的大样本;任何单词的频率与其在频率表中的排名成反比。因此,单词数n的频率与1/n成比例。例如,将该定律应用于Brown语料库,一个包含大约一百万个单词的频繁使用的英语语料库,发现单词“the”是语料库中出现频率最高的单词,它出现了69,971次。该定律使用词在语料库中的频率(f)、常数(k)和词的等级(r)(Ha等人,2002; Zamin等人,2012年b)。当量(1)Zipfkf1下表9显示了MTHD语料库中基于频率的前10个单词“阳”字排名第三的是单词“dari”一词“nabi”一词第八位是单词“ra”,频率为1963年,第十位是单词“saya”,频率为1961年在信息检索(IR)领域,非常常见和非常不常见的词对于表9马来语翻译圣训文献语料库中最高频率的词汇。索引这些词可以通过将从齐普夫定律获得的数据绘制成图表来检测因此 , 可 以 通 过 消 除 极 其 常 见 和 不 常 见 的 单 词 来 减 少 计 算 资 源(Talvensaari,2008; Zamin等人,2012年b)。这个曲线图通常被称为齐普夫图 8说明了MTHD语料库中词频的分布。可以观察到,MTHD语料库遵循大多数英语语料库中观察到的齐普夫词的出现频率然而,非常常见和不常见的单词都没有从这个集合中删除,因为这些单词对于帮助其他NLP相关任务至关重要,例如信息提取领域的词性标注和关系提取。C. 词性在分析了词的形式和频率分布之后,接下来要分析的是词性。词性(Part-of-speech)或更常见的词性(POS)是一个用来表示集合中词汇项的术语。术语POS可以与“词类别”和“词类”互换。尽管术语不同,但这些术语都用于描述语言的语法。在英语中,有八种常用的词性,它们是形容词、副词、动词、名词、代词、介词、连词和感叹词。有些语言比其他语言更难分析。有些语言是根据性别划分的,例如法语中的男性和女性。还有一些语言被分为单数、双数和复数,如阿拉伯语。马来语是最容易学习的语言之一,因为这种语言是无时态,无数字,无性别。词性标签在前面的表8中讨论过,因此在本节中,将仅讨论结果。表10显示了马来语翻译圣训文献语料库中词性标签的分布。名词出现频率最高,为48710个,占总语料的33.80%出现次数最多的前三个名词是动词在总语料中所占比例第二高,占总语料的16.34%,总出现频率为23,553次动词在动词之后,第三高的百分比频率是连词,占9.87%,频率为14,220介词是第四高的,分别为7.78%和11,216 次 , 其 次 是 专 有 名 词 8616 次 ( 5.98% ) , 副 词 4893 次(3.39%),形容词4015次(2.79%),'kata tunjuk' 3940次3488 次 ( 2.42% ) , 辅 助 词 3222 次 ( 2.24% ) , 基 数 词 2566 次(1.78%),‘kata外来词1418个(0.98%),文章954个(0.66%),kata pangkalayat 837个(0.58%),丹36282CC最后排在第24位的是国际电联28963TJK占收藏量的0.03%看到28904NNdari 2887 5 IND. 命名实体词频率秩POS标签‘kata penguat’ with 518 (0.36%) frequency, interjection with杨38381CC(0.28%)频率,贝利奥22436NNNabi22157NNdi20168在在词性分布上,共有920个专有名词拉萨亚19631961910NNNN被标记了专有名词被进一步分析,以包括每个专有名词的命名实体这个肛门-小行星2158Sazali等人 /沙特国王大学学报-计算机与信息科学34(2022)2151- 2160图8.第八条。齐普夫表10MTHD的词性分布表11马来语翻译圣训文献语料库中的命名实体。标签频率通用实体命名实体出现例如名词(NN)48 710人(33.80%)人人563迪曼?安萨里动词(VB)23 553人(16.34%)家庭18吉法尔连接(CC)14 220人(9.87%)部落16Khatsaam,Rabiaah介词(IN)11 216人(7.78%)绰号4沙比?穆哈贾林专有名词(NNP)8616(5.98%)种族1哈瓦里(经常预算)4893(3.39%)组织组织23古赖扎形容词(JJ)4015人(2.79%)位置位置180达姆西克?拜图拉卡塔东宿(TJK)3940(2.73%)其他Surah23安尼萨?代词(PRP)3847(2.67%)月13祖利希贾所有格词尾3488(2.42%)天13塔西里克辅助(AUX)3222(2.24%)战争10巴德尔基数(CD)2566人(1.78%)祈祷9伊夏克Kata Perintah(PRH)2166人(1.50%)宗教5纳斯拉尼?亚胡迪卡塔阿拉(ARH)1704人(1.18%)事件4伊斯拉Kata Numbers(NEG)1530人(1.06%)实体4Dajjal,YakjujWh-代词1436(1.00%)动物4阿德巴外来词(FW)1418人(0.98%)树3道哈微粒(RP)954人(0.66%)贸易3哈巴拉Kata Pangkal Ayat(PKL)837人(0.58%)天堂3菲尔道斯Kata Pembenar(PBR)521人(0.36%)偶像崇拜3胡巴勒卡塔企鹅(PGT)518人(0.36%)书3《古兰经》感叹词(UH)408人(0.28%)对象2哈杰尔Kata Pemeri(PMR)299人(0.21%)朝觐2瓦达克巴基斯坦(PNK)49人(0.03%)水果2Ajwah,Barni总计144,126(100.00%)Doa(调用)2阿明,萨拉姆年1希里耶水1马詹纳解析是信息抽取的关键,信息抽取的第一步是识别命名实体。在(Jurafsky和Martin,2009年)的《语音和语言处理》一书中,提到存在命名实体的公共列表,诸如人、组织、位置、地理政治实体、设施和车辆。然而,命名实体组不仅限于这些,而且还取决于语料库本身。对于这个语料库,命名实体按照通用列表进行排序,但它进一步细化到每个类别。下面的表11示出了MTHD语料库中的所有现有命名实体。国籍1语言1伊布拉尼语门1配置总成卡巴1号楼角1Yamani总计920在马来语翻译的圣训文献语料库中,六个通用实体中只有三个存在。有人、组织和地点。组织和位置都在一个命名实体中S.S. Sazali等/Journal of King Saud University- Computer and Information Sciences 34(2022)2151-21602159组,其中有23个组织出现,例如'Quraizhah'和'Syanuah',以及180个位置出现,例如'Baitullah'和'Damsyiq'。然而,对于人员组,可以进一步细化为五个不同的命名实体组,这五个不同的命名实体组是具有563次出现的人员名称(例如“Ansari”和“Dhiman”),姓氏出现18次,如“Ghif- far” 和 “Luai” , 部 落 名 称 出 现 16 次 , 如 “Khatsaam” 和“Rabiaah”,有四次出现的昵称,如“ Muha j - ja li n ” 和 “Shab i ” ,最后一个人的种 族只有一次出现的单词 “Khaw ar ij ”。此外,此集合中还有25个命名实体类型。有23个surah名称,如接下来,有三个出现,有五个名称实体组,分别是树(如有四组实体,每组有两次出现;对象如'Hajar'和'Manaat',朝觐如'Wadak'和'Wida',水果如'Ajwah'和'Barni',以及doa(调用)名称如'Amin'和'Salaam'。最后,有一个事件的年份从表中可以看出,一半以上的实体属于该人这是由圣训本身的性质造成的,圣训本身包含两个部分,即“sanad”(叙述者的链条)和“matn”(内容)。还有一些专有名称没有任何分组,它们被分组在实体组中。例如,“Dajjal”在伊斯兰历史上被描绘成一个邪恶的人物,而“Yakjuj”和“Makjuj”(希伯来圣经中的歌革和玛各)被称为一个继承权力的团体,目前还不清楚这个词是否属于一个人。在表11的底部,有相当多的命名实体组只出现一次。他们保持这种方式,以适应未来的研究,希望分析其他类型的圣训,并检测一些信号词的实体的可能性。5. 结论语料库分析可以揭示语料库的属性。实验结果表明,名词在语料中所占的百分比最大,超过33%,是第二大类动词的一半以上,动词占总语料的16%。对于命名实体,在MTHD语料库中,由于圣训的叙述者链和内容构成的结构特点,《圣训》中的人名占到了人称类专名总数的一半以上。在圣训文献中,叙述者链是决定圣训真伪的重要环节。在本实验中,最重要的阶段是手动过滤和清洗。如果没有这个阶段,分析结果可能会有很大的不同,因为在过滤和清理之后,唯一单词的数量减少了8135个单词。可以看出,词缀在唯一词中所占的比例最高,但在总词中所占的比例最高。MTHD中出现频率最高的前十个词是总之,语料分析是研究前的重要环节之一。通过语料库分析,可以完成许多与NLP相关的任务,如词性标注、信息抽取、摘要、问答等。通过对语料库的分析,为更多的与圣训相关的自然语言处理研究提供了一种途径,并完善了现有的信息抽取和信息检索等领域。对于未来的作品,可以在基准存在的情况下评估自动标记器和实体识别器,并且可以分析圣训的主题分布,因为圣训可以基于人类相关性被分组为部分或类似的组。本文的分析将为信息检索领域提供有益的参考,其中常用词和生僻词可以通过Zipf定律进行剔除,而聚类和索引技术可以从标注语料库中获益。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。确认这项研究得到了马来西亚政府的全力支持和资助。下基本研 究补 助 金 计 划 ( FRGS/1/2015/ICT 01/CITHM/03/1 ) 和Universiti Teknologi MARA BESTARI Grant 600-IRMI/DANA5/3/BESTARI(112/2018)。作者还要感谢Perguruan Kampus Darul Aman和Kampus Perlis研究所 的 Ros Silawati Ahmad@Abdullah 女 士 、 Sazali Saidin 先 生 和Rokiah Karim女士,感谢他们在语言方面的专业知识,使我们能够分析语料库。我们还要感谢匿名评论者的见解。引用阿卜杜勒·拉赫曼,N.,Abu Bakar,Z.,&Tengku Sembok,T. M.(2010年)。在马来圣训检索系统中使用叙词表进行查询扩展。在2010年国际信息技术研讨会(pp。1404-1409)。吉隆坡,马来西亚:IEEE. https://doi.org/10.1109/ITSIM.2010.5561518的网站。阿卜杜勒·拉赫曼,N.,Kamal Ismail,N.,Abu Bakar,Z.,&Tengku Sembok,T. M.(2006年)。Mutiara Hadis:马来圣训检索系统。马来西亚瓜登嘉楼IT研讨会论文集检索自http://sigir.uitm.edu.my/webhadis/阿尔弗雷德河,巴西-地Leong,L.C.,C.K.,安东尼,P.,2014.基于规则的马来命
下载后可阅读完整内容,剩余1页未读,立即下载
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)