没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报突尼斯方言Inès Zribia,Mr. J.,Mariem Ellouzea,Lamia Hadrich Belguitha,Philippe BlachebaANLP研究小组,MIRACL,斯法克斯大学,突尼斯b法国艾克斯-马赛大学法国国家科学研究中心LPL阿提奇莱因福奥文章历史记录:2016年6月14日收到2017年1月9日修订2017年1月17日接受2017年1月29日在线发布保留字:突尼斯方言口语词法消歧A B S T R A C T在本文中,我们提出了一种方法来消除歧义的形态分析仪的突尼斯方言的输出。我们测试了三种机器学习技术,它们将每个单词标记的形态分析分为两类:真和假。根据句子中相应单词的上下文为每个分析分配类别标签。在失败的情况下,我们将所提出的技术的结果与二元分类器相结合,对给定的单词只选择一个分析。我们对突尼斯方言Al-Khalil-TUN(Zribi等人,2013年b)。我们使用突尼斯阿拉伯语口语语料库STAC(Zribi等人,2015)来训练和测试我们的方法。实验结果表明,该方法的识别准确率达到87.32%。©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍形态学分析是自然语言处理的一个重要阶段,在信息检索、问题回答等领域有着广泛的应用。对具有复杂和丰富形态的语言的分析阻碍了这些应用的性能,这是因为对每个词产生的大量分析独立于词出现的上下文。因此,需要一个形态消歧模块。形态学消歧(MD)(也称为词性(POS)标记)包括通过考虑词的上下文来在分配给词的一组POS标记中确定一个正确的POS标记在文献中,许多技术/系统已经开发了现代标准阿拉伯语(MSA)的POS他们遵循两种主要的方法来开发一个tagger:一个手工制作的基于规则的方法,和一个统计方法。手工制作的基于规则的方法可能是一个可行的解决方案,但它需要相当大的人力投入。引用最多的*通讯作者。电 子 邮 件 地 址 : ineszribi@gmail.com ( I.Zribi ) , Mariem. planet.tn( M.Ellouze ) , l.fsegs.rnu.tn ( L.H.Belguith ) , Philippe.lpl-aix.fr(P.Blache)。沙特国王大学负责同行审查Al-Taani和Al-Rub(2009)以及Tlili-Guiassa(2006)完成了相关工作。统计方法被证明是能够学习标记的标记数据的基础上,有足够数量的标记文件。最多参考的工作是由Diab等人(2004年)、Habash和Rambow(2005年)、Khoja(2001年)完成的。阿拉伯语方言由于缺乏资源(语料库和词汇)和工具(形态分析器,标记器等)而没有得到太多此外,阿拉伯语方言也是一种口语变体。标记口语通常比标记书面语更难,因为不流利,不完整的句子等的影响(Duh和Kirchhoff,2005)。在 本 文 中 , 我 们 提 出 了 突 尼 斯 阿 拉 伯 语 形 态 消 歧 系 统(TAMDAS)。该系统使用突尼斯方言(TD)形态分析器(Al-Khalil-TUN)的输出(Zribi等人,2013b)和TD语料库(STAC语料库)(Zribi等人,2015),以在形态上消除TD注释的transmitted的歧义。TAMDAS测试了三种不同的分类器,并在失败的情况下将其结果与二元模型相结合。我们建立了一个基于特征向量的分类器,这些特征向量是从形态学标注的语料库中生成的,然后使用它来将每个词的可能分析分类为正确和错误类。本文共分七个主要部分。第二部分介绍了前人对TD和阿拉伯方言的词性标注的研究。第三节介绍了TD的特点在第4节中,我们提出了标记口语的挑战,特别是在TD的情况下。在第5节中,我们描述了TD资源,然后在第6节中,我们提出了我们的方法。最后给出了系统的评价结果,并对一些误差进行了讨论.http://dx.doi.org/10.1016/j.jksuci.2017.01.0041319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com148I. Zribi等人/Journal of King Saud University2. 相关作品在方言阿拉伯语(DA)加工领域,已有一些研究采用了多种方法,并在不同的语言深度上进行了研究。大多数方法倾向于开发方言数据(Al-Badrashiny等人,2014;Al-Shargi等人,2016; Khalifa等人,2016; Maamouri 等 人 , 2014; Samih 和 Maier , 2016 ) 和 工 具( Darwish,2014; Habash等人,2012 b;Habash and Rambow,2006; Salloum and Habash,2014,2011)来处理一种特定的阿拉伯语方言。参考文献最多的是Habash et al.(2013,2005)、Habashand Rambow(2005)、Rambow et al. ( 2006年)。事实上,很少有研究涉及阿拉伯语方言的词性标注任务他们中的大多数涉及黎凡特和埃及阿拉伯语。他们把这些方言当作阿拉伯语言的书面变体(不考虑语音特征)。然而,突尼斯方言(TD)及其口语变体的自动处理还没有得到太多的关注。DA词性标注技术遵循两种主要方法。第一种方法建议使用MSA资源和 一 些 DA 资 源 来 创 建 POS 标 记 器 。 在 这 种 情 况 下 , ( Duh 和Kirchhoff,2005年)使用了为MSA设计的Buckwalter形态分析器(Buckwalter,2004年)、LDC MSA树库语料库和一些方言资源(CallHome埃及口语阿拉伯语语料库、LDC黎凡特阿拉伯语语料库),并结合无监督学习算法,以开发埃及阿拉伯语的POS标记器。作者建议使用形态分析器的POS信息引导HMM标记器。他们通过整合来自其他方言的额外数据来改进标记器(Duh和Kirchhoff,2005)。他们报告的POS准确率为70.9%。同样,Rambow等人(2006)探索了MSA数据和资源,以开发黎凡特方言的POS标记器。他们为黎凡特数据调整了MSA POS标记器。他们认为,利用现有资源是一个可行的办法。Rambow等人(2006)开发了一个双语小词典MSA/黎凡特方言。Rambow et al.(2006)将来自该词典的信息与基于最小语言学知识的参数重正化策略相结合,注意到标记器的最大改进。此外,Habash等人(2013年)基于MSA的现有工具(MADA工具,Habash和Rambow(2005年)和Roth等人(2008年))开发了埃及阿拉伯语的形态分析和消歧。MADA使用MSA的现有形态分析器,并应用一组模型(支持向量机和N-gram语言模型)来产生每个单词的上下文预测。排序组件使用与预测特征匹配的调谐加权和来计算由形态分析器产生的分析的分数(Habash等人,2013年)。选择最高得分分析作为工具的最佳预测(Habash等人, 2013年)。第二种词性标注DA方法打算从抓痒.你知道这种方法不使用管理服务协议资源。Al-Sabbagh和Girju(2012)实现了Brill为了训练,他们使用了手动注释的基于Twitter的语料库。他们报告了87.6%的POS标签准确率只有两项研究涉及突尼斯语的词性标注,他们采用了第一种方法。Boujelbane 等 人 ( 2014 年 ) 重 新 培 训 了 MSA 斯 坦 福 POS 标 签 器(Toutanova和Manning,2000年)。为了重新训练他们的系统,他们使用了从MSA Treebank翻译成TD的语料库。对突尼斯语文本进行词性标注的准确率为78.5%。Hamdi等人(2015)提出了POS标记TD的三个步骤。他们的方法是基于MSA资源。他们将TD句子转换成MSA格,并消除歧义以产生MSA目标句子。最后,MSA标记器为每个单词分配其POS标记。该系统的准确率达到89%。3. 突尼斯方言突尼斯方言(Tunisian Dialect,TD)是突尼斯的阿拉伯语方言。它被认为是一个低的品种,因为它既没有编纂也没有标准化,即使它是每个人每天使用的母语(Saidi,2007年)。TD的区域变体包括突尼斯方言(首都)、萨赫勒方言、斯法克斯方言、突尼斯西北方言、突尼斯西南方言和突尼斯东南方言(Gibson,1998;Talmoudi,1980)。在TD和MSA之间存在许多不同和相似点(Zribi等人,2013年a)。为了比较这两种阿拉伯语,我们集中在四个层面:即语音层面,形态层面,词汇层面和句法层面。3.1. 语音层TD的发声系统减少(Tilmatine,1999)。 一些短元音没有明显地呈现,特别是如果它们位于单词的末尾(Mejri等人, 2009年)。MSA动词1<šariba>/šariba/2删除位于开头和结尾的元音,动词)。此外,TD具有在MSA中不存在的长元音/e:/(Zribi等人,2014年)。辅音系统还包括一些语音差异(Mejri等人,2009年)。在某些情况下 , 阿 拉 伯 语 辅 音
/q/ 发 音 为 /g/ 。 MSA 中 的 单 词/baqara/的发音为TD /bagra/。此外,TD中的一些辅音有多个发音。例如,辅音 /c/和 /j/也可以分别读作/x/和/z/。3.2. 形态学水平MSA和TD的主要区别在于词缀层面。我们可以注意到新方言词缀的出现和其他方言词缀的消失。双后缀 和yn<>通常不存在。它们被位于名词复数形式之后或之前的数字“两个”取代<。然而,TD中的一些词可以粘合到后缀“yn>”上,以表示二元性。在动词变位中,TD的特点是没有双重(阴性和阳性)和复数形式的阴性。它在词缀系统中进行了许多简化(Ouerhani,2009)。事实上,新的词缀出现了。第一个是否定的附格<。它附着在必须在否定助词后的动词的末尾<(例如, 我的天啊“我不吃”)(Mejri等人,2009年)。在TD中,MSA的询问前缀<“>”被转换为后缀“<-šy>”(例如, “他出去了吗?<” 同样地,将来时的前缀“wills<->”被助词“willbAwills>”所取代<。此外,我们注意到,在TD的对偶clitics的情况下3.3. 词汇层面历史事件使突尼斯的语言情况相当复杂。大约从15世纪中期到19世纪晚期,奥斯曼土耳其人对北非的长期政治统治以及1830年以来的法国殖民化,对当地阿拉伯方言词汇吸收外国词汇产生了影响(Holes,2004)。除了土耳其语和法语,我们在TD中发现了许多欧洲语言词汇元素的例子。我们能识别出一个信号-1我们遵循CODA-TUN公约(Zribi等人, 2014年,在TD中编写单词示例。2音译是按照巴克沃尔特音译编码的。关于它的更多细节,参见(Habash等人, 2007年)。I. Zribi等人/Journal of King Saud University149西班牙语和意大利语,甚至马耳他语的单词。突尼斯的阿拉伯语方言中包含许多外国项目以及TD的一些特征。事实上,TD是阿拉伯语的一种口语形式,突尼斯人很容易频繁地转换为MSA的词汇,如:ﻗﻄﻮﺱ “猫”,的马耳他血统;和法语意 大利语中的 “ 。翻译后的短语由法语短语“ça va“和两个TD单词组成这句话在日常口语中很常见,但词性标注却很困难。总之,TD语音中大量外来词的存在和语码转换现象增加了TD自动标注的难度4.5. 歧义短元音的缺乏导致MSA的形态句法歧义(Habash,2010)。TD与MSA具有相同的特点即使有短元音的存在,形态句法歧义也会发生。 在许多情况下,一个TD词有不同的形态分析,共享相同的POS标签,但他们的根或性别和数量是不同的。例如,TD单词" “是一个歧义动词形式。它有两种可能的变音形式。第一个是shewent out,这是过去式中第二种形式特别是在动词句子中,而在TD中,首选词阿吉亚·阿吉亚 . 它可以是第二人称(女性或顺序是SVO(Mahfoudhi,2002)。TD中也使用VSO和VOS指令4. 标签突尼斯方言4.1. 缺乏TD资源词性标注任务是许多自然语言处理应用的重要步骤要取得成功,必须使用许多资源和工具其中最常用的,我们可以引用一个大的注释语料库和词典。用于口语(诸如TD,其是资源不足的语言)的此类资源的创建和存在代表了用于POS标记的最具挑战性的先决条件TD既没有标准的正字法,也没有大量的书面文本。在过去五年中创建的少数TD资源仍处于起步阶段。与MSA相比,注释语料库的大小相对4.2. 句子边界在书面语言中,句子的边界很容易被消除。一个句子以大写字母开头(特别是在印欧语言中),当一个简单的点甚至话语标记表示句子的结尾时(Dister等人,2009年)。在口语中,没有这些现象。此外,不完整的句子,对话,谈话,重叠的陈述,不流利等,使言语中的句子边界的定义非常困难。此外,这些现象还影响到言语会话中句子的句法结构4.3. 言语的词汇特性语音转录语料库中含有大量的类语言成分,如拟声词、截词、笑痕、口音、呼吸音等,这些成分应得到特殊的处理。4.4. TD中的非规范句法结构过去时态中的单数动词5. 突尼斯方言资源5.1. 突尼斯语料库5.1.1. STAC介绍为了训练和测试我们的方法的性能,我们使用了STAC(突尼斯阿拉伯语口语语料库)语料库(Zribi等人,2015年)。STAC是一个语音语料库,它包含除文本之外的其他信息。STAC语料库包含4小时50分钟的演讲(一些广播和电视广播以及在火车站录制的对话),使用转录工具Praat3进行记录和手动转录。语料库涉及各个领域:政治、卫生、社会和宗教问题等。转录和注释STAC基于OTTA的注释惯例(Zribi等人,2013 a)结合由CODA-TUN定义的规则(Zribi等人,2014),公约CODA(传统阿拉伯语方言正字法,哈巴什等人,2012a),到TD。CODA旨在开发阿拉伯语方言的计算模型。首先,它被定义为埃及阿拉伯语,然后扩展到其他阿拉伯语方言,如阿尔及利亚语(Saadane和Habash,2015)和巴勒斯坦语(Jarrar等人, 2014年)。STAC语料库由大约42388个词组成用Al-Khalil-TUN形态分析仪(Zribi等人, 2013b),并为句子中的每个单词标记唯一的正确分析。由专家选择正确的分析(Zribi,2016)。STAC提供的注释被用作金标准,以比较不同开发系统的结果并评估其准确性。5.1.2. 数据准备准备训练数据是任何分类任务的重要任务。这些原始数据不能在没有预先进行分割和注释的情况下使用。STAC语料库是一个口语转录语料库,它包含了许多转换器的转录言语中的句子在某些情况下并不遵循良好的格式,规范句法结构由于其自发性3http://www.fon.hum.uva.nl/praat/。150I. Zribi等人/Journal of King Saud University两个人,有时两个以上的人之间的谈话,和一个独白。在自发言语中,有各种类型的句子,我们可以从中区分出以下四种:- S1:一个句子由说话者开始,由另一个说话者完成。- S2:一个句子开始了,但没有完成(不完整的句子)。- S3:结构良好的句子(说话者开始并完成句子)。- S4:一个句子包含不流利(犹豫,重复,拟声和其他与自发言语有关的现象)。表1列出了一些句子的例子。我们注意到(Zribi等人,2015)考虑发言者的发言作为段落。他们通过将句子定义为语义上有意义的单位来分割句子。STAC语料库是按正字法转录的,并增加了许多注释标记,如犹豫标记,命名实体,语言标记,非语言词等。这些标记中的一些被删除,其他需要特殊处理,以获得一个同质的和可用的语料库来标记它们。我们保留了一些标记,这些标记在标注任务中是有用的,如命名实体标记和语言标记。5.2. 突尼斯方言形态分析仪(Al-Khalil-TUN)仅开发了一些工具来分析DA的形态学。通常,提出的DA形态学方法集中于扩展MSA工具以覆盖DA现象(Habash等人,2012年b;Habash和Rambow,2006年; Salloum和Habash,2014年)。相比之下,只有两个作品(Hamdi,2015; Zribi等人,2013年b),重点是TD。在本工作中,我们利用Al-Khalil-TUN(Zribi等人,2013 b)在自由软件许可下发布,与Hamdi(2015)提出的分析器不同。Al-Khalil-TUN(Zribi等人,2013 b)是MSA形态分析仪Al-Khalil(Boudlal等人,2010),其是基于“根模式”的形态分析器。 适应这分析仪,(Zribi等人,2013 b)创建了一个TD词典,该词典由根和与其形态特征相关的模式组成(Zribi等人,2013年b)。鉴于TD没有“根模式”词典,Zribi et al. (2013 b)利用TD和MSA之间的相似点进行词汇开发。MSA模式到TD模式的转换及TD特征根和模式的提取表1句子的例子表示创建TD词典的主要步骤。这些步骤是基于一个MSA词典,这是由根,pat-patient,词缀,和功能词。第一步是从一组MSA模式中确定TD中的相应 Zribi等人(2013b)从MSA词典中导出一组TD模式,同时保留MSA根。然后,使用所生成的词典来提取TD词根和词缀。 Zribi等人(2013 b))开始于由一组TD词根和TD派生模式以及一组未知词组成的词典。如果满足一组条件,则Zribi et al. ( 2013年b)将这些词根和模式添加到词典中。然后,通过添加TD clitics和功能词的列表来改进词典。为了获得这个列表,Zribi et al.(2013 b)翻译了所有MSA功能词和clitics,并从STAC语料库中提取了一些其他词。生成的词典被整合到Al-Khalil的形态学分析过程中(Boudlal等人,2010年)。此外,他们为单词标记化的过程添加了新的规则Zribi等人(2013 b)使用STAC语料库的一部分来训练和测试Al-Khalil的TD版本。该系统的评价结果是好的,因为他们已经达到了88.86%的F-措施。6. 方法概述本工作的目的是建立一个MD系统的TD。 我们的起点是形态TD分析仪Al-Khalil-TUN(Zribi等人,2013年b)。我们建议通过开发和集成消歧模块来扩展分析器。图1呈现了TAMDAS系统的架构。我们的系统为TD标记的主要步骤如下:- 转录TD的自动句子边界检测。我们的目标是集成一个自动识别句子边界的模型我们集成了Zribi等人(2016)开发的系统,该系统可以检测转录的口语句子的边界。该系统使用三种不同的方法来检测句子边界(基于规则的方法,统计方法和混合方法)。我们采用了统计方法,给出了最佳的评估结果。- 形态分析。然后,我们对句子中的单词进行了一组分析被分配给每个单词。- 形态学消歧。我们建议开发一种技术,可以选择一个正确的分析中的一组分析一个词,同时考虑上下文。大多数词性标注和MD算法要么是基于规则的,要么是随机的。手工制作一套粘着语言的MD规则可能不是一个适用的解决方案,需要一个深思熟虑的解决方案。句式示例古老的努力此外,随机标记器(隐马尔可夫模型(HMM)(马歇尔,1987年),基于转换的学习S3扬声器一S1扬声器BS2扬声器一S3扬声器一S4扬声器一ﺁﻧﺎﺍﻟﺴﻨﺔﻣﺎﻧﻴﺶﺑﺎﺵﻧﻤﺸﻲﻟﻠﺒﺤﺮ ‘because I’m别这样..<为什么不... .“你知道吗? ‘He watches. - ‘The了解'( Brill , 1994 年 ) 等 ) 或 基 于 分 类 的 标 记 器 ( 支 持 向 量 机(SVM)、条件随机场(CRF)等)使用带注释的语料库来生成可应用于无注释数据的模型。 在这项工作中,我们的出发点是形态分析器Al-Khalil-TUN(Zribi等人, 2013b),其中每个单词具有不同的形态分析和可能的分词。我们建议探索一种基于规则的分类方法,用于TD的MD任务我们的目标是自动提取一组标注规则从标注语料库。分类规则将由形态分析器给出的每个分析分为两类:真和假。这些规则基于分析的不同成分的值和单词在句子中的位置。探索一种基于规则的词性分类器的思想标签已经被少数作品采用。Piasecki和Wardyn'skiI. Zribi等人/Journal of King Saud University151形态分析形态消歧模型在故障情况下标注语料库新型申请分类方法特征向量提取标注语料库句界限检测TD语料库二元分类器图1. TAMDAS系统的体系结构。(2006)将两个基于规则的分类器的结果与手工规则相结合,用于波兰语的小型语料库的POS标记,波兰语是一种相对自由的词序语言。Habash和Rambow(2005)使用基于规则的算法来选择MSA-MADA的形态消歧中的正确分析。Roth等人(2008)通过应用分类器参数的自动调整来扩展MADA,以仅选择一个正确的形态学分析。我们的工作类似于Habash和Rambow(2005),Pasha等人(2014)和Roth等人(2008)为MSA文本标记开发的工作。尽管如此,我们提出的方法在许多方面是不同的。它更简单。它包括训练只有一个分类器的所有形态学特征,澄清形态学的结果。相比之下,Habash和Rambow(2005),Pasha et al. (2014),Rothet al.(2008)提出为每个形态特征训练分类器。而且,在失败情况下只选择一个正确结果的步骤与我们的不同。6.1. 分析分类我们使用STAC语料库来训练和测试我们的方法。STAC注释简单地包括选择分析仪产生的正确分析,或不存在此类分析的指示。我们使用属于WEKA机器学习工具中包括的基于规则的分类器的两种分类方法进行了实验(Hall等人,2009),包括PART(Mohamed等人,2013)和RIPPER(Cohen,1995)。我们还测试了SVM分类器(Vapnik,1995),以比较使用三种不同的分类器对TD形态消歧的效果。6.1.1. 分类器6.1.1.1. 开膛手(Cohen,1995)实现了一个命题规则学习器。RIPPER假设被表达为一组它包括两个主要阶段:第一阶段使用规则归纳算法构造初始规则集,而第二阶段优化初始获得的规则集。训练数据集被随机分为两个子集:一个增长集,通常由2/3的例子和一个剪枝集组成,剪枝集由剩下的1/3组成。增长集用于初始规则构造(规则增长阶段),而修剪集用于修剪(规则修剪阶段)。 基于最小描述长度(MDL)的启发式被用作停止规则构造过程的标准(Cohen,1995; Mohamed等人, 2013年)。6.1.1.2. 部分它是一种部分决策树算法,是C4.5和RIPPER算法的发展版本(Mohamedet al.,2013年)。PART算法最重要的特点是它不需要像C4.5那样进行全局优化和RIPPER来生成准确的规则,但它遵循“分离和征服”的策略。例如,它构建规则并删除实例。它还覆盖并继续为剩余的实例创建递归规则,直到没有实例为止。PART在每次迭代中构建部分C4.5决策树,并将“ 最 佳 ” 叶 子 变 成 规 则 ( Mohamed etal., 2013年)。6.1.1.3. 支持向量机SVM(Vapnik,1995)是一种广泛用于解决分类和回归问题的技术。它们是最流行的线性分类器的推广。支持向量机对噪声数据具有很强的鲁棒性,并且具有很强的泛化能力,特别是在存在大量特征的情况下。它们对训练数据的样本数量(阳性或阴性)不敏感。支持向量机已成功地应用于许多自然语言处理研究和词性标注任务。6.1.2. 特征特征选择在整个分类器设计中至关重要基本特征可分为形态特征、语境特征和动态特征。形态分析器为每个词定义形态特征。表2列出了由Al-Khalil-TUN识别并用于生成分类器模型的形态特征向量应该注意的是,我们使用了由形态分析器生成的相关形态特征。例如,我们不使用一个相关的功能是一个有助于MD任务。比如说,152I. Zribi等人/Journal of King Saud University-表2使用的形态特征功能缩写可能值词性动词、名词、副词等。一每1人(第一人),2 (第二人称),3 (第三人),NA(不适用)。数字s(单数),d(双数),p(复数),u(undefined),na.Voice Vox a(激活),p(被动),na。它粘合代词代词是的,不,不。它能凝集连接体是的,不,不.性别Gen f(阴性),m(阳性),na.它能凝集微粒部分是的,不,不.第一个单词wi-1有三个解。第一溶液Sol1标记为真。它后面是有两个解决方案的单词wi。其第二溶液Sol2被标记为真。第三个词有两个分析。为了创建第二个单词wi的训练实例,我们将其分析与前面和后面的单词的分析相结合。只有当当前词、前词和后词的分析都为真时,我们才将类赋值为真。图2示出了该示例。6.2. 二元分类器有时,生成的模型的应用程序无法为给定的单词选择一个正确的分析。这是由于TD中存在的模糊性。因此,我们使用二元组分类器来选择一个正确的分析。二元组分类器基于我们的训练语料库计算每个二元组标签(POSi-1,POSi)的频率。它凝集否定粒子否定是的,不,不。标签的每个二元组的概率存储在二元组字典中。如果分类器失败,我们将标记不,不,不。它包含一个粒子。部分是的,不,不。aadj 、 interrog_adv 、 adv_place 、 adv_temp 、 conj 、 sub_conj 、 fw 、ind_obj_pron 、 noun_count 、 prop_noun 、 number 、 number_noun 、 part 、part_abst 、 part_cond 、 part_- fut 、 part_interrog 、 part_neg 、 part_restrict 、part_verb、part_restrict、part_verb、part_restrict、prep、pron、dem_- pron、poss_pron、rel_pron、rel_adv、sub_conj、verb。语音特征与消除POS标签动词的歧义有关。如果分析器不识别单词,则这些特征的所有值都被值"u“4替换我们用“u“值我们注意到,我们的系统所使用的POS标签集与MADAMIRA系统所使用的POS标签集非常相似(Pasha等人, 2014年)。上下文特征是从单词到标签的+/n个单词的窗口。我们测试了不同的n值。 我们做了n = 0,n = 1和n = 2的实验。我们表明,n = 2是我们任务的最佳配置。我们还使用了特征位置,这是一个上下文特征,它指定了单词在句子中的位置。这个特征有三个可能的值:B是位于句子开头的单词;E是位于句子结尾的单词;I是句子中的其他位置。最后,我们选择了一个动态特征,它使用动态分配给前面两个单词的POS标签。在本节所述的所有实验中,我们进行了10倍交叉验证运行。我们报告了整个语料库上10次运行的加权平均值。我们选择了10倍交叉验证,因为STAC语料库的大小相对较小。在表3中,我们给出了不同特征组合的F度量。我们注意到,形态特征、动态特征和上下文特征的使用为我们的三个特征分类器:SVM、RIPPER和PART。最佳结果以粗体显示表4给出了使用最佳特征组合的分类结果的召回率、精确度和F度量值。我们注意到SVM给出了最好的评估结果。最佳结果以粗体显示。6.1.3. 创建培训数据STAC语料库是由一组所有可能的形态分析,每个词,与唯一正确的分析标记。根据对前后词的分析,对每个词分析一个真或假类举一个由三个单词组成的句子的例子4未定义这个词7. 评价和讨论在本文中,我们提出了我们的方法来创建TAMDAS,一个系统的POS标记TD在各种阿拉伯语口语。为了训练和测试TAMDAS,我们将STAC语料分为两组。我们使用了35708个单词来训练我们的系统(TAMDAS和基线),6680个单词用于评估。为了测试系统的性能,我们使用了两个标签集。第一个不包含用于口腔现象的POS标签。 第二个包含以下标签:onom,TrunW,interj,FPause和break,分别标记拟声词,截断词,感叹词,填充停顿和无声停顿。表5和表6给出了基于三个分类器正确分类的有语音标签和没有语音标签的单词的错误率。在计算这些值时,我们忽略了二元组分类器的步骤。最佳结果以粗体显示。评估结果表明,基于规则的分类器给出了最好的结果相比,统计分类器。我们不由PART分类器给出的结果是最好的。为了将我们的系统与另一个TD POS标签机进行比较,我们开发了一个基线系统。基线方法非常简单。它为每个单词分配训练语料库中最常归因于该单词的标签。为了实现这一点,我们使用了一个由单词及其所有可能的POS标签组成的词典。我们归因于每个这样的对(词,POS标签)在训练语料库中的频率。然后,我们将该词典投影到测试语料库上,并为每个词提供最频繁的POS标签。我们将我们的结果与Boujelbane等人的工作进行了比较。(2014)标 记 TD 。 为 了 用 TD 语 料 库 重 新 训 练 斯 坦 福 MSA POS 标 注 器(Toutanova和Manning,2000),Boujelbane等人(2014)使用了TD语料库,该TD语料库是阿拉伯树库翻译成TD的结果。MSA在该语料库中的比例很高。请注意,阿拉伯语树库是由一套转录的电视新闻在MSA。由于我们的系统使用类似于MADAMIRA(Pasha等人,2014),我们将其与MADAMIRA(Pashaet al., 2014年),它可以消除MSA和埃及句子的歧义。理想情况下,我们希望将这些系统的性能与TD形态结构注释的金标准进行比较。Boujelbane et al.(2014)和Pasha et al. (2014)不能注释言语现象。因此,我们过滤了所有语音单词(不完整的单词,重复的单词,填充的停顿等)。我们还注意到Boujelbane等人的系统的标记集。(2014)有时与我们的不同因此,我们试图减少差异。I. Zribi等人/Journal of King Saud University153表3所有可能的特征组合的分类结果特征开膛手部分LibSVM形态学POS + Gen、Per、Vox、Asp0.7830.7890.781+ Pron、Neg、Intero0.7860.7910.781+ 共轭,定义,部件0.780.7990.788形态+动态0.780.7730.766形态+语境0.8790.8810.865形态+动态+语境0.9100.9050.914表4所有可能的n值的分类结果。012开膛手召回0.8250.8390.935精度0.8310.8280.923F-measure0.8280.8070.910部分召回0.8920.8910.911精度0.8960.8860.903F-measure0.8920.8860.905SVM召回0.8760.8610.937精度0.8780.8750.939F-measure0.8750.8290.914图2. 根据上下文分析单词wi的表5有和没有语音标签的正确分类单词的错误率语音标签集(Spe)(%)普通标签集(Ord)(%)表7评价结果。准确度(%)RIPPER34.83 48.49第25.66编支持向量机35.56 43.17基线68.51TAMDAS85.49MADAMIRA MSA 56.63埃及58.41斯坦福TD 51.82表6某些POS标签(带和不带语音标签)的错误率部分开膛手SVMPOS为了SPE为了SPE为了SPEadj18.5216.6725.9325.9325.9325.93Adv7565.6387.507587.5078.13dem_pron2023.3326.6726.6726.6726.67interrog_adv8.3316.672533.3333.3333.33阴性部分55.1768.9782.7679.3189.6682.76名词23.4922.5433.0231.7533.3332.38数名词28.572535.7135.7135.7135.71prep31.1832.2639.7837.6340.8639.78道具名词10.537.8915.7913.1615.7913.16动词30.3728.8048.1744.5048.1744.50154I. Zribi等人/Journal of King Saud University表7呈现了三个系统的评估结果(TAMDAS系统,Stanford TD(Boujelbane等人,2014)MADA-MIRA(Pasha等人,2014年)和基线)。最佳结果以粗体显示结果表明,该系统具有最高的精度.我们还注意到Stanford TD(Boujelbane et al., 2014)给出的准确度远低于TAMDAS系统。两个系统的训练语料库的性质是造成差距的主要原因事实上,Boujelbane等人(2014)的系统所处理的突尼斯方言是一种具有与STAC语料不同的方言性质。MADAMIRA MSA 和 埃 及 版 本 ( EGY ) 报 告 的 结 果 非 常 接 近Boujelbane等人(2014)Jarrar等人(2014)对巴勒斯坦方言的研究表明,使用MADAMIRA是一个很好的初始基线(78%)。有两个理由可以证明这一点。首先,巴勒斯坦方言与埃及方言非常接近,因为它们有许多共同的特点。这些方言属于东部方言。与此相反,TD属于另一组方言(西方方言),呈现出多重差异.其次,我们的系统的训练语料是不同于MADAMIRA系统的。我们的训练语料库是基于口头抄本,但MADAMIRA训练语料库与埃及和MSA文本的书面形式有关我们的系统的失败案例通常是由于语义模糊。让我们以TD句子为例:lt;rj 1 tsAl m<$ll-mdr s<$>. 这个句子有两个可能的意思:“我安全地回到学校”和“塞尔玛回到学校”。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功