没有合适的资源?快使用搜索试试~ 我知道了~
© 2013作者。由爱思唯尔公司出版信息工程研究院可在www.sciencedirect.com上在线获取ScienceDirectIERI Procedia 7(2014)102 - 1122013年应用计算、计算机科学与计算机工程国际会议蒙古语词性标注多语言词典的设计与分析I.Dawaa,b,W. Aishanb,B.Dorjicerenca新疆大学信息科学工程学院,乌鲁木齐830046b新疆多语言信息技术实验室,乌鲁木齐830046新疆报业集团,乌鲁木齐830051摘要在本文中,我们报告了一个多语种并行电子词典,命名为MPEDM。MPEDM词典涵盖了汉语和蒙古语,包括中国使用的TM(传统蒙古语),TODO(蒙古语TODO)和蒙古语使用的NM(新蒙古语西里尔字母)。应用余弦相似性测度对蒙古语不同系统间MPEDM的平均覆盖率进行了评价。为了建立MPEDM,语言学家选择了8万个NM词。在此基础上,参照国家自然科学基金资助的内蒙古大学的标准版,手工添加了词性和汉语词对。在此基础上,基于蒙古语多语种平行语料库的句法分析过程,实现了传统蒙古语词和TODO蒙古语词的自动识别。据信,MPEDM词典可以应用于许多任务,如多语种单词搜索和解释一个词在其阅读和语法形式在线。实验结果表明,不同文本的平均覆盖率达到85.2%。此外,不同系统间MPDM的相关性评价表明,TM与TODO、TODO与NM的相似度分别为0.72和0.86。最后,在蒙古语NM文本到TODO文本的转换中,获得了最好的F值0.67。© 2014由Elsevier B.V.发布 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究院负责评选和同行评议*本论文由SFPX基金(201291116)和中国973基金(2014CB340506)资助。通讯作者:艾山·乌麦尔,多吉策仁,电话:0086-991-8583558,E-mail地址:idawa@sina.com2212-6678 © 2014由Elsevier B. V.发布 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/3.0/)。信息工程研究所负责的选择和同行评审I. Dawa等人/ IERI Procedia 7(2014)102103关键词:蒙古文多种文字、多语种标注词典、词典应用测试、余弦相似度;1. 介绍如果没有多语种的电子语言资源,电信、互联网用户、词典编纂者、文本处理等不同群体之间的互动,可能会很困难生活在不同国家和地区的蒙古族人不能相互阅读对方的书面语言和方言表达,导致严重的处理和交流问题,尽管口语本质上是相同的。图1中显示了各种蒙古文书写系统,包括NM、TM、TODO、卡尔梅克和布里亚特,这些书写系统主要用于蒙古人今天在互联网上和出版物中进行交流。图2显示了在不同区域中使用的单词的对齐示例。为了更清楚地比较,我们使用NM系统中的单词/jargal/作为示例,并以Unicode和发音显示其他书写系统中的单词。图1:蒙古文常用文本格式图2:一个词由各种蒙古语104I. Dawa等人/ IERI Procedia 7(2014)102遗憾的是,在它们之间的转换,自然语言处理(NLP)和机器翻译(MT)到其他语言之间建立语言资源的研究非常罕见。本文介绍了一部面向蒙古语的词性标注多语种词典。最后给出了该算法2. 多语言词典(MPEDM)2.1 设计多语言词典《汉蒙多语种并行电子词典》是在中国新疆政府(NSFX)的资助下编写的[1]。该词典被命名为MPEDM。为了构建MPEDM,语言学家首先收集了8万个NM词,然后通过手动参考内蒙古大学的标准版本[2],为MPEDM添加了一组POS标签。在此之后,由中国NSFX项目基金支持的翻译专家添加了中文词对。MPEDM在许多方面发挥着重要作用,包括多语言单词搜索和校对,在阅读中解释单词及其在句子中的语法形式,如图3所示。在此基础上,进一步扩展了MPEDM,加入了TM和TODO词,并在对蒙古语多语种平行语料库进行分析的基础上实现了对这两个词的自动识别。更多细节将在第2.3节中描述。据我们所知,MPEDM是第一部涵盖蒙古语各种版本的多语种词典,为自然语言处理和全球交流的蒙古语资源建设提供了重要工具。图3:应用MPEDM2.2 语法标注每个词典的语法标记包括三项:词性代码、Unicode和发音,如图4和图5所示。首先,我们用一个例子来介绍词性代码:单词vnh>>由三个字母组成。第一个字母(例如,v x(图5中的vx)表示24个可能类别中的主要词性;其中一些类别如表1所示。代码MPEDM_X可以根据单词的属性后跟几个子类,如表2所示。MPEDM有75个子类别。第二个字母(nx)用于标识词的词性的第二信息。最后一个字母(hx)用于识别歧义词:同音异义词(h1)或同形异义词(h2),如表2所示。I. Dawa等人/ IERI Procedia 7(2014)102105图4:MPEDM图5:MPEDM106I. Dawa等人/ IERI Procedia 7(2014)102表1:词性标注示例。表2:POS标签2.3创建TM和TODO平行词从图6中可以看出,蒙古语的各种系统的字符串或单词通常由空格彼此分隔,类似于英语中的字符串或单词。此外,每个句子在语法SOV和词序方面都是相同的,类似于土耳其语或日语。然而,对于I. Dawa等人/ IERI Procedia 7(2014)102107NM、TM和TODO,如图6所示,TODO和NM情况下的字符串(单词)与TM情况下的两个或更多个字符串对齐。功能词(如英语中的介词短语),图6中TM、TODO和NM的第一个词处的红色标记,通常在TM的情况下用空格隔开,而在TODO和NM中则与词根(词干)相连。所有蒙古文文本的造句语序和句法规则都是相同的[3,4]。因此,我们可以发现,在TM语句中,当数字i功能词附加到i1串(预备串)时,各种系统的蒙古语语句中的串或词可以通过空格对齐。图6:蒙古语句子之间的语法比较表3:TM中用于连接前面词的在我们之前的研究项目NSFX中,我们设计了一个由12万个句子组成的并行语料库。本研究利用蒙古语多语种语料库建立了蒙古语多语种语料库。MPEDM构建过程包括三个步骤。首先,根据表3中列出的句法分析和功能词对成对的句子进行对齐,并基于前面的词使用语料库进行链接。然后,自动创建TM到TODO和NM的字符串列表。最后,在MPEDM中搜索和匹配字符串列表中的NM词,以产生最终的字典。最终MPEDM的样品如表4所示。†新疆政府108I. Dawa等人/ IERI Procedia 7(2014)102n表4:MPEDM3. 评价3.1 对平均覆盖率评估数据集包括300,000个字符串,这些字符串通过不同的任务从蒙古TM网站下载,例如报纸、出版物和教科书。然后,一个孤立的单词列表被导出。通过LCS算法(最长公共子序列)测试MPEDM的平均覆盖率,如等式(1)所示。11,最大值S钙(%)第一章1,else(一)在等式(1)中,n是单词列表的单词大小,Smax是最大斜率值,其匹配测试查询,sL是MPEDM的单词长度。图7显示了当k=0.85 [5]时,使用TM文本的不同任务数据的平均覆盖率(85.2%)。3.2应用测试_1首先,我们使用MPEDM考察了蒙古语词频和词长的关系。结果示于图8中。从图8中可以看出,不同语言的词长分布在4到9个字符之间是相似的,但它们的频率却有很大的不同。I. Dawa等人/ IERI Procedia 7(2014)102109图7:MPEDM对各种文本图8:MPEDM3.3 应用测试_2其次,利用余弦相似度的MPEDM方法,考察了同一语言与不同版本词之间的相关性,以及同一语系与不同语言之间的相关性110I. Dawa等人/ IERI Procedia 7(2014)102B B ,bmeasure.余弦相似性度量特别用于正空间,其中结果在[0,1]中有界。两个向量的余弦可以通过使用以下公式导出:给定两个属性向量,例如A和B(参见函数(2)),余弦相似性cos(ω)使用点积和幅度表示为函数(3)。这里,n和m分别表示两个文本的条目大小[6]。A a1,a2,an(二)2001年1月2日,nA组B组阿吉亚岛 巴比岛相似性科什 ()中国(3)A B通过公式(3)在单词水平上进行与语言对之间的相似性调查相对应的实验。在实验中,首先使用字母表单元将单词对转换为向量序列。然后计算语言对的相似度。从MPEDM中提取一个不同版本的词条,然后计算所有其他词条的相似度。图9显示了从同一语系和不同语言中获得的结果的比较,例如蒙古语分支(MLB)和土耳其语(维吾尔语,哈萨克语称为TLB)。从图9中,我们可以很容易地注意到,当在同一语言分支(MLB或TLB)中进行单词级比较时,相似性级别较高,而在不同语言分支(MLB和TLB)的情况下,相似性级别较低。例如,在MLB的情况下,TM和TODO条目对之间的相似性为0.72,小于TLB(0.87),而不管MLB是否在同一家族和同一国家[7]。图9:单词相似度3.4 在蒙古文n(A)第一章1我)2第一章1M(B)2我I. Dawa等人/ IERI Procedia 7(2014)102111在本测试中,我们进行了一个文本转换任务之间的各种系统的蒙古文以词为单位。首先,使用MPEDM将一个句子转换为其他书写系统,这些书写系统由一个空格分隔的字符串匹配。然后,当检索到查询字符串时,输出由空格分隔的匹配字符串的句子。如果不是,则基于Cosign相似性度量使用发音的字母串标记来计算查询串与MPEDM之一的相似性。然后输出相似度较高的字符串作为匹配结果。在该测试中,由等式(4)表示的F-测量用于评估性能。不同系统对组合的结果总结在表5中。此外,图10展示了通过所提出的方法将NM转换为TODO的结果。precision正确匹配的字符串的数量查询次数recall正确匹配的和相似的字符串的查询次数(四)表5:基于MPEDM的从表5可以看出,在NM到TODO的情况下,通过字典匹配(所提出的方法)的转换性能可以达到约67%。对于其他转换情况,准确性略低于前一个。结果表明,蒙古语文本之间的转换在词典层面上是困难的。112I. Dawa等人/ IERI Procedia 7(2014)102图10:通过所提出的方法4. 总结本文介绍了一种多语种电子词典(MPEDM),以及它的评测结果和实际应用。建议的MPEDM是由两种方式,语言或数据驱动。平均覆盖率的评估考察了不同版本系统和不同语言系统的条目。今后,我们将致力于面向自然语言处理和全球交流的蒙古语资源建设。此外,我们打算进一步扩大MPEDM引用[1] 达瓦·依多木曹,基于机器翻译的蒙古文文本转换研究,新疆自治区政府科技项目基金(NSFXJG2011211 A012):时间:2011.6-2013.12。[2]王思日古林,斯琴图,纳桑乌尔特,一种中蒙统计机器翻译的重排序方法.中文信息处理学报,2011:Vol.25(4):88-92[3] 书名/作者A.蒙古语语法蒙古乌兰巴托,2005年。[4] T.Jamuca,蒙古语TODO的语法硕士,内蒙古科学出版社,呼和浩特1999。[5] 伊多穆科金·达瓦,中村聪,蒙古族语跨语言转换研究,自然语言处理学报:2008年第15卷第5期:3-21。[6] 叶军,直觉模糊集的余弦相似度量及其应用。数学与计算机建模,2011年第53卷,91-97。[7] 王玲,达瓦依得木草,吴守尔斯拉姆,同族语言与黏着语的相似性考察.中文信息处理学报,2013:第27卷(6):109-113.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功