没有合适的资源?快使用搜索试试~ 我知道了~
SoftwareX 9(2019)102印尼学术语言语料库平台否认A。克瓦里Airlangga大学,印度尼西亚ar t i cl e i nf o文章历史记录:接收20十月2018收到修订版2018年12月20日接受2019年保留字:学术文本数字语料库平台印尼语语料库印尼语a b st ra ct印度尼西亚语是教育语言,也是统一印度尼西亚701种民族语言的语言为了记录这种语言并确定它在学术文本中的使用方式,需要收集语料库数据库以及语料库平台来探索语料库。本文介绍了第一个免费提供的印尼学术语言语料库平台的特点和使用方法该语料库由超过500万个单词组成,包括来自国家认可期刊的文章和着名大学的论文该软件的主要特点是上下文,搭配和频率。语料库平台将成为语言学家、词典编纂者和教师的重要资源©2019作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本V2此代码版本所用代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2018_209法律代码许可证MIT使用的代码版本控制系统使用的软件代码语言、工具和服务PHP、JavaScript、MySQL编译要求、操作环境依赖性参考CodeIgniter ver3.0.4(如果可用)开发人员文档/手册链接无问题支持电子邮件info@kwary.net1. 动机和意义毫无疑问,印度尼西亚是语言多样的。Simons和Fennig [1]在Ethnologue网站上记录了印度尼西亚的701种民族语言。在这些语言中,有一种语言被定为国家语言和教育语言。这种语言被称为印度尼西亚语为了记录和探索这种语言,需要一个语料库。然而,关于印度尼西亚语的语料库工作仍然很少进行。历史记载表明,印尼语语料库的工作最早是由澳大利亚莫纳什大学的Hardjadibrata [2]开始的。这项工作是对印度尼西亚报纸的频率分析。大约20年后,印度尼西亚大学的Muhadjir等人[3]通过收集印度尼西亚一家著名报纸(即Kompas报纸)的文本进行了类似的研究。他们建立的语料库只包含2,200,818个单词标记。鉴于这两项研究的时代,他们的语料库不可用电子邮件地址:d.a. fib.unair.ac.id。https://doi.org/10.1016/j.softx.2019.01.011在线或数字版本。两个dacades之后,印度尼西亚大学发布了另一个语料库,并在bahasa.cs.ui.ac.id/postag/corpus上提供,但它只包含256,683个token [cf. 4]。第一个具有相当规模的印度尼西亚在线语料库由Kilgarriff等人创建[5]。它有大约1亿字,可以在www.sketchengine.eu上进行评估。然而,这个语料库平台并不是免费的,所以印尼学者并没有广泛使用。此外,它只包含来自网站的印度尼西亚文本,不能在教育环境中作为参考。最新和最大的印尼语语料库作品可以在语料库收藏中找到莱比锡大学与该语料库有关的书也已出版[cf.6]。该语料库包含超过12亿个单词。然而,语料库数据仅来自印度尼西亚在线新闻,网站和维基百科。为了满足对印度尼西亚语学术语料库的需求,我们创建了一个语料库平台,可以在korpus.kwary.net访问。该网站提供了一个印尼学术语言语料库(以下简称Korpus Indonesia),可用于探索学术语言现象,并作为一种工具,2352-7110/©2019作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxD.A. Kwary / SoftwareX 9(2019)102103表1语料库数据来自期刊文章。表2论文语料库数据。纪律数量数量Number纪律论文数数量的令牌期刊文章的令牌健康科学235303,789健康科学12240523,951生命科学230309,229生命科学11220560,589物理科学275293,420物理科学8240654,670社会科学380847,018社会科学434301,995,369总11201,753,456总7511303,734,579学习书面学术语言。在本文第2节描述了软件之后,第3节介绍了如何将Korpus Indonesia用于这两个语料库可供语言学家、词典编纂者和教师使用2. 软件描述2.1. 印度尼西亚语语料库由于语料库的目的是提供印尼学术语言信息,语料库数据只来自学术文本。这些文本主要来自两大类:期刊文章和论文。期刊文章被认为是学术文本,因为它们是由学者撰写的论文也反映了学术文本,因为它们是在大学生活的最后一年写的。由于学术文本可能因学科而异,因此语料库数据也被分类到不同的学科。学科的分类遵循Scopus的学科领域分类,即(1)健康科学,(2)生命科学,(3)物理科学,(4)社会科学。印度尼西亚是一个大国,拥有大量的期刊。为确保期刊的质量,印度尼西亚高等教育局定期评估期刊,并为通过评估程序的期刊授予认可地位2017年,当收集语料库数据时,印度尼西亚有247种认可期刊这些期刊中有相当多的文章是用英文发表的其中一些也可以指非常具体的学科领域。对于语料库数据,我们选择了75个期刊标题,发表的文章在印尼和接近上述四个分类的学科为了确保提供一个良好的数据范围,只有10然而,社会科学的期刊数量比其他学科的期刊多,而且它的文本也往往比其他学科的文本长因此,社会科学的代币数量比其他学科的比例更大表1中列出了印度尼西亚认可期刊文章的语料库数据摘要。如表1所示,语料库的总大小约为370万个运行单词。所有这些印度尼西亚期刊文章都是开放获取的文章,因此可以免费下载。每篇文章约2000-5000字。文章的所有文本都被放入语料库。然而,非内容文本数据,如作者姓名,摘要和参考文献,被删除,因为它们不代表使用印度尼西亚学术语言。许多专家建议删除或清理过程(例如,Gauvain,Lamel Eskénazi,1990年;[7])保证语料库数据的有效性和可靠性论文的情况与期刊文章的情况不同。大多数印度尼西亚大学不提供学生论文的公开访问。因此,语料库只能从少数提供开放存取论文的大学收集。然而,根据2016年QS大学排名,这些大学应该是前20名入选的四所大学分别是(1)Airlangga大学,(2)Diponegoro大学,(3)Lampung大学和(4)Udayana大学。由于一篇论文是一篇超过10,000字的长篇报告,我们只选择了论文的部分内容,以确保与期刊文章相比字数平衡在这种情况下,只有介绍性的章节被放在语料库数据中,即。实验、导论、文献综述和方法章节。表2列出了这些论文的语料库摘要。如表2所示,社会科学再次主导了运行单词或令牌的数量。这是因为在印度尼西亚主修社会科学的学生比其他学科的学生表1和表2中的语料库数据的组合导致总共2250个文本文件,语料库大小为550万个单词标记,这使其成为目前可用于印度尼西亚语的印度尼西亚学术语言的最大语料库作为英语语言的比较,Coxhead [8]为创建学术词汇表而建立的学术语料库是从414篇学术文章中汇编而成的,3.5百万代币2.2. 在Korpus Indonesia的文件的唯一代码Korpus Indonesia中的每个文件都有一个唯一的代码。这些唯一的代码被用来识别语料库数据的身份每个语料库数据都有一个七位数的代码。例如,文件名为P020326。第一个字母(P)代表学科(即H代表健康科学,L代表生命科学,P代表物理科学,S代表社会科学)。接下来的两位数字(02)代表类型(即01为期刊论文,02为本科论文,03为研究生论文)。以下两个数字(03)反映了大学的身份(即01为Airlangga大学,02为Udayana大学,03为Diponegoro大学,04为楠榜大学),或期刊标题(即01为Sari Pediatri,02为Kesmas Jurnal Kesehatan Masyarakat Nasional , 03 为 MajalahKedokteran Bandung)。最后两个数字(37)是文件的序列号。因此,P020326指的是来自物理科学的文件,这是Diponegoro大学的研究生论文,并且它是该组的文件编号26。2.3. 印度尼西亚KorpusKorpus Indonesia可以在网站上免费访问:kor-pus.kwary.net。网站的显示如图所示。1.一、如图 1、左上角有三个菜单,Ten- tang十堂包含了语料库的信息。其他两个菜单将在下一节中介绍。在主搜索框下,有四个科学学科的复选框,即 Fisika (物理科学), Hayati (生命科学),Kesehatan(健康科学)和Sosial(社会科学)。这意味着用户可以在特定学科或多个学科中搜索一个词。接下来,Cari按钮表示104D.A. Kwary / SoftwareX 9(2019)1023. 说明性实例Fig. 1. Korpus印度尼西亚网站。3.2. 科洛卡特在这个语料库平台中有三个主要的搜索功能,它们是(1)KonteksKonteks显示包含用户搜索的单词的句子;Kolokat显示节点左右两侧的相邻搭配词即搜索的单词;并且,Frekuensi呈现来自所有学科或来自特定学科的单词以下是对这些搜索功能中的每一个的进一步描述。3.1. 孔泰克斯搜索单词的上下文可以直接从主页或从左上角的链接(即Konteks)进行。本Korpus Indonesia中的上下文是指包含搜索词或节点的句子搜索结果还显示文件名、学科类别以及相邻搭配词(即,Kolokat Kiri相邻搭配词是紧挨着搜索词的右边或左边出现的搭配词,因此,这种搭配更接近真实的语言结构([9]:78)。图 2显示了当我们搜索单词kanker(“癌症”)时的结果示例。如图2所示,屏幕的顶部显示了相邻的搭配词以及每个搭配词的频率。例如,在Kolokat Kanan框中(紧挨着节点右侧的搭配),第一个词是payudara (44 )。这意味着有44个句子中payudara在印度尼西亚语中,中心名词的修饰语放在名词的右边,而不是像英语那样放在左边结果表明,在印尼语中,kanker的最常见的修饰语是payudara。在屏幕中间,我们可以看到包含单词kanker的例句。还有关于句子来自哪个学科(即学科类别)的信息。用户可以搜索的例子,只有一个特定的学科或在一个以上的学科。也可以根据文件名、学科和例句对结果进行排序,方法是单击表格的头部。在屏幕的中间,在右侧,有一个广告搜索框,用户可以在其中键入一个词进行更具体的搜索。例如,在搜索单词kanker之后,用户可能想要查找短语kanker payudara用户只需要在附加搜索框中输入payudara下一个搜索功能,即Kolokat,可以通过点击底部Lihat KokokatLengkap访问(在屏幕中间的图. 2)的情况。此菜单显示更完整的搭配信息,即节点左侧最多五个单词,右侧最多五个单词(见图3)。此显示类似于KWIC(上下文中的关键字)显示。KWIC是一种用于显示索引的格式,其中搜索结果排列在中心列中,并且两侧的列包含语料库中每个结果之前和之后的上下文的短块[10]。图3呈现了搜索词的更宽的搭配词,即不仅是左边的第一个词(即Ki 1),而且还有左边的第二个词(即Ki 2)和左边的第三个到第五个词(即Ki 2)。Ki 5-3)。对于搜索词右侧的词,可以看到相同的结果所有这些都可以通过点击表格的头部进行排序返回上一个屏幕或上一个搜索结果,即Konteks,用户可以点击按钮Kembalike halaman utama(见图.3)或通过点击菜单上的Konteks屏幕左侧顶部(见图①的人。3.3. 弗雷昆西第三个搜索功能是Frekuensi,它提供了单词列表和语料库中每个单词的频率。该学科也可以指定为这个列表,所以用户可以看到单词列表的所有学科或特定学科(见图。4). 图4是在社会科学语料库中找到的词的搜索结果(参见图4)。分类:Sosial)。该列表显示,在社会科学学术文本中使用最频繁的词是yang(“那个”),第二频繁的频率分别为99,627和76,636。4. 影响语料库平台Korpus Indonesia提供了文本和搜索功能,可供语言学家,词典编纂者和教师使用。印尼语言学家将能够观察到一个词的行为。例如,通过了解一个词的搭配词,语言学家可以对该词的语义韵进行分析。语言学家也可以将一个词在一个学科中的行为与另一个学科进行比较。跨语言的比较也可以与其他有学术语言语料库的语言进行词典编纂者可以使用这个语料库平台来寻找好的词典示例,即从呈现所搜索单词的上下文或例句的主搜索功能中。词典编纂者还可以使用词频列表来确定哪些词应该被收录到词典中。如果词典编纂者正在编写一本特殊用途的词典,例如物理词典,他们可以通过使用D.A. Kwary / SoftwareX 9(2019)102105图二. kanker的搜索结果。图三.kanker的搭配。见图4。 社会科学常用词列表。频率函数,然后单击物理科学类别印度尼西亚语教师,包括那些将印度尼西亚语作为外语教学的教师,可以使用这个语料库平台来增强他们的教材。在英语中,沃尔什[11]解释了语料库如何被用作工具,选择和准备教材。语料库帮助教师决定需要教授多少单词和什么样的单词他们的学生[12]。有了这个印尼语语料库平台,教师可以列出需要学习的最重要的单词,找到最常见的搭配词,106D.A. Kwary / SoftwareX 9(2019)102短语模式,并将学术句子用于他们的教材和考试。5. 结论Korpus Indonesia的语料库平台是第一个也是最大的印尼语学术语料库,可以免费访问。语料库数据包含超过500万个单词标记,经过精心构建,全面代表印度尼西亚学术文本。此外,数据被分为四个科学学科,即。健康科学,生命科学,物理科学和社会科学,以帮助在特定学科工作的用户。该语料库平台预计将成为语言学家,词典编纂者和从事印度尼西亚语工作的教师的重要资源进一步的开发正在进行中,以使语料库更大,更容易访问,更广泛的用户的功能。利益冲突一个也没有。引用[1]Simons GF,Fennig CD,editors.民族语:世界语言。第21版Dallas:TX:SIL International;2018.[2]哈 德 贾 迪 布 拉 塔 河 一 份 印 尼 报 纸 的 字 数 统 计 。 Cayton :MonashUniversity;1969.[3]Muhadjir N , Lauder M , Adriani M , Nazief B , Mangkudilaga K.FrekuensiKosakataBauman Indonesia. Depok:印度尼西亚大学文学院,1996年。[4]杨志华,李志华,李志华.设计了一个印尼语词性标注集和人工标注的印尼语语料库。在:亚洲语言处理国际会议。Kuching:IEEE; 2014,p. 66比9[5]Kilgarriff A,Reddy S,Pomikálek J,Avinesh PVS.许多语言的语料库工厂。在:LREC的诉讼Malta:European Language ResourcesAssociation; 2010,p.904-10[6]Kwary DA , Goldhahn D , Quasthoff U. 频 率 词 典 : 印 度 尼 西 亚 语 。Leipzig:Leipziger Universitätsverlag.[7]BaroniM,Kilgarriff A.多语言的大型语言处理网络语料库。在:计算语言学协会欧洲分会第十一次会议的会议记录。Stroudsburg,PA:Association forComputational Linguistics; 2006,p. 87比90[8]考克斯黑德河 新的学术词汇表。 TESOL Quarterly2000;34(2):213-38.[9]林德奎斯特语料库语言学与英语描写。爱丁堡:爱丁堡大学出版社.[10]放大图片作者:A.语料库语言学。英国:剑桥大学出版社;2012.[11]沃尔什 口语语料库和书面语语料库的哪些特点可以用来编写语言教材和教学大纲?In:O'Keeffe A,McCarthy M,editors.语料库语言学手册。New York:New York;2010,p. 333-44.[12]教学词汇;从语料库的教训,课堂上的教训。纽约:剑桥大学出版社,2007.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功