没有合适的资源?快使用搜索试试~ 我知道了~
古兰经印尼语翻译中专有名词识别方法研究
沙特国王大学学报使用引导方法检测古兰经的印度尼西亚语翻译中的专有名词Suwanto Raharjoa,Ratantyo Wardoyob,Agfianto Eko Putraba印度尼西亚日惹Gadjah Mada大学计算机科学与电子系计算机科学博士课程b印度尼西亚日惹Gadjah Mada大学计算机科学与电子系阿提奇莱因福奥文章历史记录:接收日期:2018年2018年6月8日修订2018年6月21日接受2018年6月25日在线提供关键词:词性标注专有名词名称实体识别印尼语A B S T R A C T专有名词(通常缩写为PN或NNP)是一类在标签和后续文本处理中非常重要的词,特别是在自然语言处理(NLP)中。名称实体识别(NER)是一项需要PN的印尼语文本标注数据的缺乏,尤其是PN标注的缺乏,可能是因为印尼语NER研究的缺乏本研究的目的是检测PN在印尼语翻译的古兰经指导下,从古兰经作为其源文本的位置信息。在印度尼西亚语中,PN使用首字母大写书写,用于确定和指导PN位置。本文提出古兰经中文译本中的PN可以基于古兰经文本的PoS信息通过开发一定的产生式规则来确定。研究结果表明,该方法具有良好的应用前景©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍标注语料库中每个单词的词性(PoS)通常被称为PoStag、语法标记或形态合成注释(McEnery等人,2006年)。PoS标签化的过程本身是指用PoS标签或类别对文本中的每个标记进行注释(Lu,2014)。PoS标记也是自然语言处理(NLP)中的任务的关键特征,诸如短语分离和实体识别(dos Santos等人, 2012年)。文本处理中使用的一个重要标记是PN,指的是专有名词。PN标签信息也用于名称实体识别(NER)过程(Aryoyudanta等人,2016年)。除了提取数值信息外,PN提取也是NER过程中的一项任务,Isozaki和Kazawa(2002)也提出了这一点。 涉及印度尼西亚语的NER研究是不够的,因为只有少量的数据被标记(Aryoyudanta*通讯作者。电 子 邮 件 地 址 : wa2n@akprind.ac.id ( S. Raharjo ) , rw@ugm.ac.id ( R.Wardoyo)、agfi@ugm.ac.id(A.E. Putra)。沙特国王大学负责同行审查制作和主办:Elsevier例如,2016年)。文本中的标签通常不是一项单一的任务,而是PoS标签过程的一个组成部分虽然许多研究已经研究了英语中的自动PoS标记,但很少有研究涉及印度尼西亚语。各种类型的印尼文本来源的有限性是印尼语PoS标签研究仍然有限的原因之一。使用阿拉伯语文本进行PoS标记的最新方法之一是基于规则(Rashel等人,2014年),可以获得79%的准确率。这种准确率仍然可以提高,特别是对于印度尼西亚文本的特定类型。《古兰经》文本数据的重要性,特别是对大多数印度尼西亚读者来说,《古兰经》的印度尼西亚语翻译,以及印度尼西亚语中此类数据的有限性,是本研究的动机。本研究探讨了古兰经的阿拉伯语翻译的PoS标记,重点是使用PoS信息确定这些文本中的PN。本文的组织如下:第2节概述了PoS标记的相关研究;第3节详细介绍了所提出的PN PoS标记方法;第4节详细介绍了实验和结果;第5节讨论了本研究2. 相关研究一般来说,PN标签研究不单独讨论,但被认为是PoS标签研究的一个组成部分几https://doi.org/10.1016/j.jksuci.2018.06.0091319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com584S. Raharjo等人/沙特国王大学学报方法可用于PoS标记,包括由Brill(1992)执行的基于规则的方法,其给出遵循某些规则的特定PoS标记或标签。同时,统计或概率方法基于概率或统计定理,例如隐马尔可夫模型(Kupiec,1992)或最大熵(Ratnaparkhi等人,1996年)。 Galus(2005)还开发了基于词典的方法来执行PoS标记或标签。结合上述方法的其他方法也已被开发出来 以 实 施 该 方 法 。 所 有 这 些 方 法 ( Brill , 1992; Kupiec ,1992;Ratnaparkhi等人,1996; Galus,2005)是专为英语文本,而不是阿拉伯语的。几位研究人员已经进行了对塞尔维亚语文本的PoS标签的研究。 的研究Pisceldo等人(2009年)专注于评估条件随机场(CRF)和最大熵(ME)方法,以开发印度尼西亚文本的PoS标记器,结果表明ME比CRF方法更准确。Larasati等人(2011)研究了仅使用简单PoS标签集为印度尼西亚语开发形态学工具。Widhiyanti和Harjoko(2013)将隐马尔可夫模型和基于规则的方法相结合,用于俄语文本中的PoS标签。Dinakaramani等人(2014年)也研究了印度尼西亚PoS标签的标签集,产生了23个标签。Larasati等人(2011年)和Widhiyanti和Harjoko,2013年的两种方法只使用印度尼西亚语文本,而不关注PN,这是本研究提供的主要区别。与本研究相关的另一种研究方法是NER方法,该方法不关注PoS标签。印尼语的NER研究方法可以分为两类:基于规则的和机器学习。Budi和Bressan(2003)使用了基于规则的 方 法 ; Suwarningsih 等 人 ( 2014 ) 和 Wibawa 和 Purwarianti(2016)使用了监督机器学习方法; Aryoyudanta等人使用了半监督机器学习方法。(2016年)。Dien和Kiem(2003年)也进行了类似的研究,使用基于英语PoS的越南PoS标签。与当前研究的主要区别在于(Dien和Kiem,2003)已经有了一个平行语料库,其中单词从英语映射到越南语。其他几项研究,如Das和Petrov(2011年)和Duong等人,2013年,使用了类似的方法,依靠英语PoS信息投射到其他语言的可用性。本研究与以往研究的根本区别在于所涉及的词对齐或同步过程。本研究纯粹使用源目标的PoS信息进行,没有任何先前的词同步或使用PoS目标特征。3. 该方法各种各样的技术用于PoS标记。这些方法可分为两大类:基于规则的方法和统计方法(Indurkhya和Damerau,2010年)。在PoS标签过程中必须考虑许多因素,例如模糊性问题。一般来说,语料库中的PoS标记应该考虑以下三个问题:(Garside等人,(1997年)1. 如何将文本分割成单词标记,2. 如何选择标签集,3. 如何确定为单词标记选择哪些标记。虽然PoS标签的内容取决于协议和制作语料库的目的,但有三种常用的 PoS 标 签 集 : 即 , Penn Treebank , British National Corpus(BNC)Basic和BNC Enriched(Lu,2014)。PoS标签集用于印度尼西亚语语料库的方法已经由几个研究人员进行,2009;Larasati等人,2011; Widhiyanti和Harjoko,2013),其用不同的数字定义标记。Rashel最近进行的一项研究等人(2014)提出了23个PoS标记,如附录A所示。这项研究是一个项目的一部分,该项目研究了阿拉伯语文本的PoS标签,特别是古兰经的翻译。本研究使用了一种引导的方法来检测古兰经的印尼语翻译中的PN,推导出PN在古兰经文本中的位置,并使用印度尼西亚语中的PN特征。本研究中使用的古兰经的阿拉伯语翻译是由印度尼西亚宗教事务部宗教事务司出版的。《古兰经》翻译中PoS的确定是本研究的重要组成部分。这有一个新颖的元素,因为它使用源语言PoS(古兰经文本)作为确定目标语言(印度尼西亚语翻译)PoS的线索或指南。由于阿拉伯文和印度尼西亚文文本在数量和类型方面存在PoS差异,因此需要对两种文本进行映射。本研究以阿拉伯语文本的PoS作为印尼语翻译PoS的主要参考,并通过映射进行适当调整。PoS使用古兰经原文标注古兰经翻译需要一定的生产规则,因为宗教事务部出版的阿拉伯语翻译不是逐字翻译。例如,印度尼西亚语译本的第1章第2节如下:这本印度尼西亚语译本的文本有七个词,而阿拉伯语文本只有四个词(Al-hamdu,lillahi,rabbi和Al-alamina)。3.1. 古兰经文本古兰经文本的PoS标签受到Dukes和Habash(2010)所做的一项研究的启发,该研究提供了在线古兰经中PoS标签单词的信息。1《古兰经》文本是由近100名志愿者在专家的监督下使用互联网作为协作媒介手动注释的(Dukes等人, 2013年)。在互联网上提供的信息是古兰经文本的PoS标签,如图所示。1 .一、共有43个PoS标签用于标记古兰经文本,分为10个类别,参考Dukes和Habash(2010)开发的研究。PoS标签列表见附录B。PoS数据可以通过使用解析方法从其HTML代码中提取而从包含信息的网站中导出网页中的PoS数据以HTML5编码,因此可以根据现有标签提取两个主要标签被用作从网页检索PoS数据的参考,即:(1)词位置,以及(2)词PoS。 图 2展示了一段来自网页的HTML源代码,其中包含有关古兰经文本的PoS标签信息。然后处理这个源代码,以检索古兰经中每个单词的地址,即,Surah编号,诗句编号和单词序列以及PoS值。处理是通过考虑用于存储数据的HTML标记来跟踪HTML源代码来完成的。通过解析过程从HTML代码中获取所需的数据。这个阶段的解析过程是使用Python程序和beautifulsoup附加库完成的。2Beautifulsoup是一个第三方模块,用于简化基于Python的程序,以检索HTML或XML页面中的数据。这个模块的使用简化了从HTML或XML中检索数据,因为它提供了解析方法。数据检索与地址1http://corpus.quran.com/treebank.jsp。2https://www.crummy.com/software/BeautifulSoup/。S. Raharjo等人/沙特国王大学学报585(2:50:1)/span> br/>wa-idh/a>
当/td> td class=“ic”>
当/td> td class=“ic”>
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功