没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用序列标记技术的Jihene Younesa, Mr. Jahemi Achoura,Emna Souissib,Ahmed Ferchichiaa突尼斯大学,ISGT,LR99ES04 BESTMOD,2000年,突尼斯,Leb突尼斯大学,ENSIT,1008 Montfleury,突尼斯阿提奇莱因福奥文章历史记录:2019年12月15日收到2020年3月18日修订2020年3月24日接受可于2020年保留字:突尼斯方言音译拉丁语转录阿拉伯语转录机器学习序列标记BLSTMCRF自然语言处理A B S T R A C T近年来,阿拉伯国家的社交网络用户在社会交往中阿拉伯语方言起源于现代标准阿拉伯语(MSA),在不同国家和地区之间存在着这些方言的使用导致人们对这些非正式语言的特殊性及其在NLP社区中的自动处理的兴趣增加。在这项工作中,我们特别处理突尼斯方言(TD)。我们解决了这个问题的自动拉丁文到阿拉伯文的音译TD语言制作在社交网络上,并提出了一种方法,将音译作为一个序列标签任务。在单词层面,基于机器和深度学习的几种技术已经在这项研究中进行了测试,使用从社交网络中提取的真实单词消息。我们实验和比较三个音译模型:一个条件随机场为基础的模型(CRF),双向长短期记忆为基础的模型(BLSTM),和一个BLSTM为基础的模型与CRF解码(BLSTM-CRF)。实验结果表明,BLSTM-CRF的音译正确率最高,达到96.78%。我们还评估了BLSTM-CRF音译方法的上下文中的一组随机TD消息从社交网络中提取。我们得到的总误差率为2.7%。其中25%是上下文错误。©2020作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍阿拉伯语包括各种形式,从古典阿拉伯语,现代标准阿拉伯语(MSA)到方言阿拉伯语。阿拉伯语的方言形式在很大程度上受到当地文化和历史特点的影响,如移民、殖民甚至媒体(Saadane等人,2013年)。外来语的词汇借用产生了新的词汇和短语,扩大了方言的演变。它们有自己的词汇和发音,使它们彼此区别开来。阿拉伯语方言可以,的确,彼此非常不同,也与其他语言存在显著差异。*通讯作者。电子邮件地址:jihene. gmail.com(J. Younes),Hadhemi_Achour@ya-hoo.fr( H.Achour ) , emna. ensit.rnu.tn ( E.Souissi) , ahmad.ferchichi@gmail.com(A. Ferchichi)。沙特国王大学负责同行审查MSA(Saadane等人, 2013年)。它们甚至可能在同一国家的不同地区之间不一样我们可以举马格里布方言为例,包括突尼斯,摩洛哥,阿尔及利亚和利比亚方言,黎凡特方言,包括北叙利亚,黎巴嫩,约旦,巴勒斯坦方言,埃及方言等。在我们的工作中,我们专注于突尼斯方言(TD),更准确地说,是一种出现并正在网络上传播的书面形式的TD,我们在本文中称之为电子突尼斯方言(ETD)。这种语言此外,根据Younes et al. (2015年),Facebook上81%的ETD语言作品是用拉丁字母书写的。这一现象可能有几个原因,例如突尼斯人使用多种语言,以及在网络和移动时代初期缺乏阿拉伯语键盘。在本文中,我们解决了拉丁语ETD(LETD)音译的阿拉伯语写作,我们称之为阿拉伯语电子突尼斯-https://doi.org/10.1016/j.jksuci.2020.03.0081319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comJ. Younes等人/沙特国王大学学报983西安方言(AETD)。LETD音译包括自动将以罗马化ETD书写的单词转换为以阿拉伯语书写的单词,同时保留单词例如,LETD单词“ 3a s s la m a ” ( 意 思 是 “ 你 好 ” ) 将 被 音 译 为 突 尼 斯 方 言 阿 拉 伯语单 词 “阿拉 伯语 ” 。事实上,考虑到ETD语言的处理,拉丁语到阿拉伯语的音译可能是一个至关重要的过程。 它的确可以:i. 利用社交网络上以拉丁字母书写的方言内容,自动构建和丰富阿拉伯语ETD语言资源,并生成paral- lel(阿拉伯语-拉丁语)ETD语料库和词典。ii. 允许通过重用和调整现有的MSA处理工具来分析ETD语言,因为这些工具只处理阿拉伯语脚本。iii. 在信息检索领域是有用的,允许用户在拉丁文和阿拉伯文书写系统中执行内容搜索iv. 简化不熟悉阿拉伯语键盘的用户与难以阅读和理解拉丁语ETD书写(包括缩写、数字、首字母缩略词等)的用户之间的交流。为了解决音译问题,我们需要克服许多困难,主要是与大多数使用的拉丁字符的模糊性有关,这些字符可以转录成几个可能的阿拉伯字符。应该指出的是,由于社会网络上的ETD产品的多语言和代码转换的问题,我们主要集中在这项工作的LETD单词的单词级音译,考虑到字符和他们的上下文在每个单词。所提出的方法是基于模拟音译作为一个序列标签的任务,我们建议实验和比较三个序列标签技术,即CRF,BLSTM和BLSTM-CRF。我们还建议测试我们的方法上的一个bracce-level音译,并衡量其效率时,考虑到他们的上下文中的话。对于我们所有的实验,我们使用从突尼斯Facebook页面构建的语料库,我们注释并划分为训练和测试数据集。本文的其余部分包括在第二节,各种音译作品的审查。拟议的LETD音译方法详见第3节。第四节是专门为ETD语言资源建设的一部分,这项工作,包括使用语料库的描述性研究。 进行的实验和结果在第5节中给出,然后在第6节中讨论。最后,第7节是专门的结论和未来的前景。2. 相关工作牛津词典1将音译定义为“使用不同字母表或语言中最接近的对应字母书写或打印(字母或单词)”。Ekbal和Bandyopadhyay(2007)将其描述为通过保留其发音将单词从源语言转换为目标语言的过程。事实上,许多NLP领域的研究人员都对音译任务感兴趣。Kang和Cho(2000)强调了它的重要性,因为它是机器翻译、跨语言信息检索、自动双语词典编纂等的关键任务。1https://en.oxforddictionaries.com/definition/transliterate2.1. 音译法音译问题是使用几种不同的方法来解决的,其中我们可以主要区分基于规则的,传统的正字法,语言建模和基于机器学习的方法。2.1.1. 基于规则的方法基于规则的方法是最早使用的涉及几种语言的音译方法之一。规则通常是基于人类对语言的观察而手工制作的。虽然这些方法不涉及任何计数,但它们可以提供有关语言的许多见解。例如,Wan和Verspoor(1998年)使用它们来生成与英语人名和地名相对应的汉字。该方法首先将英语单词映射到一个音素表示,然后将每个音素映射到相应的汉字。Sen和Garg(2015)开发了一个孟加拉语到英语的机器音译系统,他们也依赖于每个孟加拉语到英语的对应关系的映射规则。Buckwalter(2004)将基于规则的方法用于阿拉伯文字,他开发了最知名的MSA音译系统(阿拉伯-拉丁文)之一。它仅基于ASCII方案,代表严格的正字法音译,不像大多数罗马化2系统添加形态信息。这个音译系统由Habash的团队改进(Habash等人,2007年)通过添加非ASCII字符,以方便音译单词的发音。Souissi和Debili(2001年)开展了另一项工作,重点是阿拉伯语专有名称的音译,他们确定了一套规则,将专有名称从阿拉伯语音译为拉丁语,反之亦然。这些规则分为三类:(1)考虑到字符继承的语际语境规则,(2)当一个完整的词被执行时的词汇规则,(3)当建议的音译可能性不太可能是正确的拒绝规则。Maleki和Ahrenberg(2008年)专注于使用基于规则的方法将罗马化它包括对输入字符串进行音节划分,实现上下文规则,以确定基于阿拉伯语的脚本中的适当图形表示,并音译为Unicode字符。表1总结了基于规则的音译方法的工作。2.1.2. 常规正字法在处理阿拉伯书写系统时,主要遵循一种基于传统正字法的方法。Habash等人(2012年)针对阿拉伯方言提出了名为CODA3的约定CODA的目标概括为五个方面:(1)每个单词都有一个拼写解释;(2)为计算目的而创建;(3)使用阿拉伯文字;(4)旨在作为书写所有阿拉伯方言的框架;(5)旨在根据MSA-阿拉伯方言的相似性建立惯例与保持方言独特性之间Al-Badrashiny等人(2014年)采用了它来解决音译问题,提出了一种系统,该系统生成给定阿拉伯方言单词的CODA潜在音译Bies等人(2014)使用相同的约定使用聊天和SMS埃及数据创建了阿拉伯语-阿拉伯语写作的平行语料库,Eskander等人(2014)也使用了相同的约定。(2014年),他致力于将社交媒体上写的Arabizi音译成阿拉伯语。Masmoudi et al.(2015)还建立了一个语料库,2也被称为3阿拉伯方言的常规正字法984J. Younes等人/沙特国王大学学报表1基于规则的音译方法研究综述。作者日期语言数据大小效率值Wan和Verspoor1998英语吗? 中国N/AN/ASouissi和Debili2001阿拉伯语M拉丁语一千个名字阿拉伯名字:88%法语姓名:75%Buckwalter-Habash等人2004–2007阿拉伯语? 拉丁N/AN/A马利基和阿伦贝格2008罗马波斯语?阿拉伯语N/AN/A森和加格2015孟加拉语?英语N/AN/A的突尼斯方言文本写在拉丁字母,并评估了这一文本转换成阿拉伯文字使用突尼斯CODA(Zribi等人,2013年)。音译的自动生成是根据CODA应用预先建立的音译规则进行的。我们在表2中总结了基于正字法约定的方法。2.1.3. 语言建模近年来,研究者们开始借助语言模型来处理音译问题。Al-Onaizan和Knight(2002)开发了一种基于声音和拼写映射的音译算法,使用概率有限状态机将阿拉伯语文本中的名称翻译为英语。Ekbal和Bandyopadhyay(2007)提出了孟加拉语-英语命名实体的音译模型。该系统自动学习的对应关系,从双语训练集的人和地点的名称。它还考虑了孟加拉语中可能的连词和双元音与英语中对应的语言特征对。Richardson等人(2014)使用语言模型构建了科学领域技术术语的双语音译日英词典。他们通过过滤大量的音译候选词来提取对,这些音译候选词是从一个在平行语料库上训练的短语表中自动生成的。语言模型也被研究阿拉伯语的研究人员采用。Chalabi和Gergers(2012)采用了一种混合方法来构建罗马化阿拉伯语音译引擎。该系统使用映射规则生成所有可能的假设,然后根据三种语言模型的对数线性组合对其进行评分和排名。Saadane和Semmar(2012年)提出了一个自动音译系统,用于将阿拉伯名字翻译成拉丁字符。他们使用了一个自动机,通过读取输入名称的每个阿拉伯字母,在转换之后从一个状态移动到另一个状态。然后对后者进行音译,并产生一个以拉丁字符书写的阿拉伯名字的排序列表。Darwish(2014)提出将Arabizi(MSA或方言内容)转换为阿拉伯语脚本,使用音译挖掘和语言建模来生成等效文本。Marlies et al.(2016)开发了一个阿拉伯语-阿拉伯语音译管道。他们求助于阿拉伯语到阿拉伯语序列的字符映射,以便使用阿拉伯字符语言模型为给定的阿拉伯语单词生成音译候选词。作品概述在语言模型的音译方法,表3所2.1.4. 机器学习方法一些研究人员采用了机器学习方法,如支持向量机(SVM),隐马尔可夫模型(HMM),决策树,条件随机场(CRF)和递归神经网络(RNN)。Kang和Cho(2000)基于字符对齐和决策树学习开发了一种双向的英朝音译和反音译方法。在(Nabalan,2009)中,提出了一种基于成对HMM训练和加权有限状态转换器技术(WFST)的英语-俄语音译系统。El-Kahky等人(2011,2012)专注于开发一种音译使用生成图强化模型的挖掘技术,从平行的维基百科标题中创建英语-阿拉伯语、英语-俄语、英语-印地语和英语-泰米尔语的源字符序列和目标字符序列之间的映射Rathod等人使用SVM。(2013)提出了从印地语到英语和从马拉地语到英语的命名实体音译,通过将源命名实体分割成语音单元,并使用SVM执行它们的分类。 一些研究人员采用(CRF)来处理音译问题,例如Ganesh等人(2008)致力于印 地语 - 英 语的 跨语 言信 息检 索 的音 译, Reddy 和 Waxmonsky(2009)执行了英语-印度语(印地语,泰米尔语和卡纳达语)的基于子串的音译,Wan和Verspoor(1998)致力于英语-韩语命名实体的音译,以及Dhore等人。(2012年),他专注于印地语-英语命名实体的音译。Sajjad等人使用了期望最大化算法。(2017)在他们关于从平行语料库中进行transliteration挖掘的工作中,使用了具有监督,半监督和无监督挖掘的生成模型。较少的作品使用机器学习技术来 处 理 阿 拉 伯 方 言 的 音 译 我 们 可 以 主 要 提 到 Younes et al.(2016),他采用一阶HMM来在单词级别执行罗马化突尼斯方言的音译,通过将每个拉丁字符分配给其对应的阿拉伯文音译。Ammar等人(2012年)使用CRF研究了阿拉伯语到英语的命名实体音译。每个阿拉伯语n-gram都被分配了多个有效的英语输出。然后对每个候选人使用重新排序模型。至于基于深度学习的方法,它们已被用于最近的一些处理音译的作品中,主要是由Deselaers等人。(2009)使用 深 度 信 念 网 络 将 阿 拉 伯 命 名 实 体 翻 译 成 英 语 , Guellil 等 人(2017)使用RNN编码器-解码器模型将阿尔及利亚Arabizi翻译成MSA。Rosca和Breuel(2016)也使用RNN来处理命名实体的阿拉伯语到英语,英语到Ameur等人(2017)专注于阿拉伯语到英语命名实体音译任务。 他们首先从英语-阿拉伯语平行语料库中提取平行命名条目,并使用这些条目来训练和测试序列到序列模型。Younes等人使用了相同的模型。(2018)在社交网络上对用户生成的突尼斯方言进行拉丁-阿拉伯双重音译。在表4中,我们总结了使用机器学习方法进行音译任务的工作。2.2. 文献综述总结从以上所述的技术现状中,我们可以看到所采用的音译方法和目标语言的多样性。基于规则的方法是第一个被采用的音译任务。它们主要依赖于对语言的观察和语言知识的提取,以便使机器能够理解。这些方法在结果和误差分析方面是可靠的,J. Younes等人/沙特国王大学学报985表2正字法规范音译法研究成果综述。作者日期语言数据大小效率值Al-Badrashiny等人2014阿拉比齐阿拉伯语8500字对百分之六十九点四Bies等人2014阿拉比齐阿拉伯语408,485字N/AEskander等人2014阿拉比齐阿拉伯语Corpus ofBies et al. 2014Corpusof Al-Badrashiny et al. 2014百分之八十三点八Masmoudi等人2015突尼斯阿拉比齐?阿拉伯语530句百分之九十三表3语言模型音译法研究成果综述。作者日期语言数据大小效率值Al-Onaizan和Knight2002阿拉伯语?英语100,100个条目82.11%Ekbal和Bandyopadhyay2007孟加拉语?英语7200个人名5100个地名90.8%为人名87.6%为地名沙拉比和格尔日2012阿拉比齐阿拉伯语35k并行字百分之九十Saadane和Semmar2012阿拉伯语? 拉丁翻译模型:11,000句对目标语言模型:10,000个句子对BLEU评分:12.82Richardson等人2012日本人? 英语17万项F1:80%Darwish2014阿拉比齐阿拉伯语4,837个代币百分之七十七点一Marlies等人2016阿拉比齐阿拉伯语1.75 M句对百分之九十六点一表4关于机器学习音译方法的工作总结作者日期语言数据大小效率值姜和崔2000英语吗? 韩国7000字对百分之五十一点三Ganesh等人2008印地语?英语3万字HMM:69.3%HMM-CRF:72.1%Reddy和Waxmonsky2009英语吗? 印地语196个代币41.8%英语吗?泰米尔197个代币43.5%英语吗?卡纳达179个代币36.3%Deselaers等人2009阿拉伯语?英语10,084个命名实体CER:22.7%纳布卢斯2009英语吗?俄罗斯7920个名称对百分之六十一王和蔡2011英语吗? 韩国N/A百分之四十三El-Kahki等人Dhore等人2011–20122012英语吗?阿拉伯语英语?俄语英语?印地语英语? 泰米尔印地语?英语2000双7 251个实体F1:95%F1:92%F1:93%F1:96%百分之八十三点九八Ammar等人2012阿拉伯语?英语24,765个命名实体42.8%Rathod等人2013印地语/马拉地语? 英语15k实体86.52%Younes等人2016突尼斯阿拉比齐?阿拉伯语19,763个单词对百分之五十三Rosca和BreuelSajjad等人20162017英语吗?国际音标英语? 日语阿拉伯语? 英语英语吗? 印地语123,892个代币16,356个代币15,898代币20万句对WER:26.2WER:50.2WER:77.1百分之九十二点四英语吗?阿拉伯语百分之九十五点七英语吗?泰米尔百分之九十三点二Guellil等人2017英语吗?俄罗斯阿尔及利亚人阿拉比齐?阿拉伯语内部数据集:200句百分之七十九点四内部:73.66%外部数据集:50句外部:45.35%Ammeur等人2017英语吗?阿拉伯语79 924个实体WER:65.16Younes等人2018突尼斯语阿拉伯语M阿拉伯语45,629字对百分之九十五点五九解释和纠正。它们需要人类的专业知识和各种人工干预,我们认为这是不可避免的,特别是对于缺乏可用语料库和工具的低资源语言,使其自动处理。然而,这些方法高度依赖于语言,并且很难建立,因为它们需要对语言现象进行概念化。此外,它们可能是耗时费力的。依赖于语言模型的音译方法大多基于数学形式主义。与基于规则的方法不同,它们适用于大型语料库,并且与语言无关。这些方法不需要语言知识。该模型允许观察字和词的序列,以便发现字和预测它们的音译。尽管他们的有效性为音译任务和它们产生的良好结果,基于语言建模的方法不允许像基于规则的方法那样理解语言现象。音译结果反映了语言的某些特性,但错误很难发现和纠正。关于基于机器学习的方法,它们允许产生高度依赖于可能非常大的文本输入数据的结果。与语言建模和基于规则的方法不同,机器学习算法遇到的观察越多,它就越能改进和获得精度。事实上,这些方法优化了音译数据的使用,以便从中提取最大量的信息。基于机器学习的方法是NLP研究人员在音译任务上的最新手段。这986J. Younes等人/沙特国王大学学报●可以解释为,文本内容在社交媒体上变得越来越可用,并且可以更容易地收集和使用大量语料正如我们的文献综述中所示,大多数所提出的作品采用了这些方法,具有高transliteration效率率。另一方面,我们注意到深度学习的兴起,这是一种源自机器学习的人工智能形式。在音译任务中使用的技术中,我们计算了RNN算法。虽然遵循这些方法的音译任务的工作相对较少,但它们正在取得进展并产生良好的结果(Guellil等人,2017年; Rosca和Breuel,2016年)。涉及阿拉伯方言的音译主要通过采用语言模型和拼写惯例来处理至于突尼斯方言,我们注意到,很少有研究集中在音译问题上,即( Masmoudi 等 人 , 2015 ) 和 ( Younes 等 人 , 2016 年 、 2018年)。Masmoudi et al.(2015)采用CODA将罗马化的TD翻译成阿拉伯语,当他们处理阿拉伯语来源的单词时,他们获得了93%的召回率,当他们处理外国单词时,召回率为90%Younes等人(2016)实验了一阶隐马尔可夫模型来处理TD音译问题,并达到了53%的单词级准确率。基于深度学习的方法仅由Younes等人(2018)探索用于TD语言音译,他们使用序列到序列方法并获得了95.59%的单词级准确率。本文对ETD语言产品的拉丁文到阿拉伯文的自动音译问题进行了深入的研究。因此,我们建议探索在单词层面的方法的基础上,建模音译作为一个连续的标签任务,并将使用不同的技术(CRF,BLSTM和BLSTM-CRF)实施。最后,我们评估了音译方法在一个简单的水平和计算的错误率的上下文中音译的代码转换LETD内容。3. 拟议音译办法3.1. 拉丁文ETD3.1.1. 使用多种语文和语码转换ETD是一种非正式的、丰富的语言。事实上,用户可以在社交网络上自由写作,而不需要遵守语法规则或拼写规则。这就是为什么它的自动音译是一个不平凡的任务。事实上,突尼斯社交网络中最常见的现象之一就是使用多种语言和语码转换。用户经常在同一个ETD句子中使用其他语言的单词,如法语和英语。 图 1显示了LETD消息的 示 例(Younes和Souissi,2014)。图1中的LETD消息意味着请在到达时打电话给我。它以TD单词“winek”开头,意思是“你在哪里”。“apl”是一个法语单词,在它的短信中,它是单词“appelle”的缩写,意思是“呼叫”,后面是法语单词“moi”,意思是“我”。 “ki”在这里的意思是“当”,“tousel”在TD中的意思是“你到达”。“plz”这个词在英文短信中是“请”的意思。在这个例子中,“ki”这个词代表了一种语言歧义。它可以表示,在同一时间,TD字的意思是“当”,和短信形式的法语单词“qui”,这意味着“谁”。我们可以清楚地注意到,在同一个消息之间的4种语言的交替。因此,我们在翻译ETD文本内容时遇到的第一个问题是由于多语言和语言之间的语码转换而产生的歧义。这就是为什么我们选择专注于单词层面的音译。本文旨在研究和探讨英语词汇葡萄酒(Wynk)APLmoiki(ky)触须广场Fr-SMSFrLETD简体中文Fig. 1. LETD消息示例。音译,然后我们评估所提出的方法在一个层次。3.1.2. 字符歧义在词的层次上,最常见的现象之一是字的歧义。 许多使用的拉丁字符有两个或更多的阿拉伯语等价物,这取决于用户的偏好或单词的上下文。例如,拉丁辅音's'对应于'' smé-“天空”(sky)中的阿拉伯字母'',以及'' sbeh-“早晨”(morning)中的''。字母“th”的序列可 以 用来 表 示 “ t h n e y a - ” ( 路 径 ) 中 的 阿 拉 伯 字 母 “ “ , 或 者表 示 ” t h a r e k - “ ” ( 她 移 动 ) 中 的 阿 拉 伯 序 列 “ ” 和" c h o f t h a - “ ( 我 看 到 她 ) 中 的 ” “ 。另一方面,一个词可以有几种解释。例如,单词“theb”可以音译为“你爱/你想要”或“它融化了”。“ahla”这个词可以音译为“最甜蜜的”或“欢迎的”。此外,LETD的实践者诉诸于数字来表示在拉丁字母表中没有等同物的阿拉伯字母。例如,哈姆扎语“”/"“和字母发音”“,”“和"”经常分别由数字2,3,5,7,8和9在拉丁转录。这些现象为我们提供了一个初步的思路,并将通过第四中所使用的语料库的研究来详细介绍LETD音译任务的困难。3.2. 词级音译如上所示,一个LETD字母在阿拉伯语转录中可能有几个不同的等价物。我们可以给出更多的例子,例如,字母“k”可以对应于AETD字母"“、”“、”“或"”,字母“a”可以转录为字母“”或"“,阿拉伯语短元音”“或长元音"”等。我们建议开发一种解决方案,该解决方案允许我们预测给定LETD单词的最可能的音译。该方法包括分配给每个拉丁字符(LC)其相应的阿拉伯字符(AC),这将子表形式等效的AETD字。图2总结了使用序列标记方法的单词“y3 aychek-Y3 aychek”的过程,该单词的意思是“谢谢”。在社交网络中,突尼斯方言书面内容的阿拉伯语形式通常是无元音化的。这种语言的实践者选择最简单和最快的转录,并省略使用阿拉伯语元音因此,空字符● 阿拉伯语元音(Fatha“、Kasra”、Dhamma“)。示例:jebtM我带来了● 双重性格。例如:7assitMM(我觉得)。一个字符的继承。 示例:mchit MﻣﺶØﻳﺖM我去了。有了LETD音译问题的这种表示,我们可以求助于基于序列标记技术的解决方案。在这项工作中,我们的目标是使用三种不同的技术进行实验-J. Younes等人/沙特国王大学学报987输入标签结果预测与国家合作كشیعیY 3 a y c h e k(yEy$k)图二、使用序列标记方法的LETD音译示例niques,以便进行比较研究,并确定最有效的LETD音译。作为第一步,我们选择采用条件随机场(CRF),它包括一个框架,用于建立概率模型,以分割和标记序列数据,由Laffe et al.(2001)介绍。CRF,如Sha和Pereira(2003)所述,定义条件概率P(x| y)的标签序列,给定输入序列。众所周知,它在与语言相关的任务中表现良好(Sutton和McCallum,2001),并且具有很大的灵活性,可以包含各种功能。实际上,关于(x,y)的CRF由两个向量指定(Laffeirs等人,2001年:F和W。向量f表示局部特征,并且w对应于权重。每个局部特征可以是状态:s(y,x,i)或转换:t(y,y0,x,i),其中y,y0是表示阿拉伯字符的标签,x是表示拉丁字符的输入,i是输入位置。作为第二步,我们建议实验一个更新的顺序标记算法,这是双向长短期记忆(BLSTM),首先由Hochreiter和Schmidhuber(1997)介绍。它是递归神经网络的一种变体,能够捕获对序列数据的长期依赖性。 长短期记忆(LSTM)单元基本上由四个门组成,相互作用并控制信息忘记或传递到下一个时间步(Ma和Hovy,2016)。LSTM的隐藏状态只捕获过去的信息。然而,对于音译任务来说,从过去和未来的信息中受益会更有效。因此,每个序列需要作为两个单独的隐藏状态向前和向后呈现。这是双向长短期记忆(BLSTM)的基本思想(Dyer等人, 2015年)。我们的BLSTM模型依赖于数据的字符表示。因此,我们的目标是使用Char2Vec算法4生成组成LETD单词的每个字符的矢量表示。然后,在我们的字符序列上运行BLSTM模型,以获得上下文字符表示。最后,我们建议在BLSTM模型中添加一个CRF输出层,以考虑标签之间的相关性,并为给定的输入LETD单词选择最佳的标签序列该模型的灵感来自Ma和Hovy(2016)的工作,该工作通过顺序标记任务实现了最先进的性能。4. 语料库建设与标注我们的训练和测试集5的主要来源是Younes等人(2015)从突尼斯社交媒体网页构建的它由6079条消息组成,包括LETD和非LETD字。事实上,正如我们在第3.1中提到的,多语言是突尼斯人在社交网络上进行书面交流的常见用户经常在同一个ETD句子中使用其他语言的单词,如法语和英语。注释语料库致力于实现4灵感来源:https://github.com/tannerbohn/char2vec5应该指出的是,我们通过联系第一作者,向希望对突尼斯方言进行研究序列标记方法在第3.2节中提出,其中包括三种监督机器学习方法(CRF,BLSTM和BLSTM-CRF)。表5举例说明了用拉丁字母书写的单词与相应的阿拉伯语书写进行人工音译的原则。消息的初始语料库由60,066个单词组成,其中45,629个(76%)属于TD语言,而其他24%是外来词(主要是法语和英语单词)。在我们的音译工作的这一步中,我们只考虑ETD词。这项工作使我们能够获得由45,629个条目组成的语料库。每个条目都是一个拉丁语ETD单词,在语料库中可能是冗余的。人工标记操作是在这个语料库上进行的,为每个单词分配正确的阿拉伯语翻译,同时考虑到它出现的信息中的上下文。标记语料库的结构如图所示。3.第三章。手动注释由突尼斯网络用户进行,他们熟悉ETD的拉丁文转录,因为它通常在社交网络上制作和使用。他们给一个给定的LETD单词的每个LC分配了它的等价物AC,通常是一个发音相似的字母。应该指出的是,对于突尼斯的网络用户来说,通常考虑的是法语发音。我们可以举出一些例子:● 字母● 数字● "然而,正如我们在第3节中提到的,电子突尼斯方言的拉丁语到阿拉伯语音译中的字符歧义情况非常频繁,我们可以引用为例:“hayel”(非常好)一词含有一个歧义字符“h”,可以音译为""或"“。单词“stana”(等待)包含两个歧义字符:字母“s”,可以音译为“"或”“;字母”t“,可以音译为""或”“。当执行手动注释时,这些歧义是基于考虑单词内拉丁字符的上下文以及消息内整个单词的上下文的人类专业知识来解决的为了注释拉丁字符,我们使用了(Younes et al.,2016),由39个阿拉伯字符组成,如下所示:[,, 标 签 “X” 这 个 字 符 主 要 用 于 外 国 起 源 的 单 词 中 , 例 如 单 词“exa m ane t ”,意思是“ 考试” (音译为“考试” )。对标注语料库的显著特征进行了简要的分析,结果表明,在字的层次上歧义是一种普遍现象。事实上,57%的拉丁字符是模糊的。换句话说,57%的LC可以同时与两个或更多个标签相关联。另一方面,42个LC中只有18个(3,7,9,<$,b,n,e,f,j,l,m,n,r,n,v,w,x,z)是无二义性的。图图4示出了模糊的LC以及它们的模糊性。在图4中,我们注意到字母字母“e”可以与12个不同的AC相关联。平均模糊度为2.88。表6示出了每个LC的所有可能的AC。歧义现象也随着人物的继承而出现。一些二元继承的LC可能确实对应于一个单一的AC,并提出模棱两可的音译。我们在表7中给出了一些例子。●●988J. Younes等人/沙特国王大学学报表5LETD单词“y3aychek”的音译字符y3一yCHeK标签ﻱعØﻱشØØك图三. LETD消息音译的示例。表7性格继承现象的例子表61510505小时后,我将在2019年12月28日星期五晚上10时30分,Ambient LC见图4。 在LETD中的Ambient LC。为了正确地将合适的AC分配给输入LC,我们对测试集的输出进行了评估。然而,这个测试集由初始语料库的20%组成,并且没有参与学习阶段,包含一组与训练集相同的单词。我们有Ambient LC-AC对应关系。LC潜在对应ACLC潜在对应AC5,我,è,K,H,O,î,S,ï,à快,快,p,Cﺱ,ش,ﺹ,ﻕ,كQ,Dﺕ,ﺩ,ﺫ,ﺽ,ﻅu,é快,快,y,不,4ﺫ,ﺽ,ﻍ2,8ﺹ,ﻍ,ﭪ一,G,e,5. 实验和结果5.1. 词级音译结果由于在LETD的社交网络内容中经常出现多语言和代码转换的问题,我们选择作为第一步,只音译LETD单词,排除任何不属于突尼斯语言的音译是在单词级别执行的,考虑到每个单词中的字符及其上下文在我们的实验中,注释语料库被随机分成两组:由36,504个单词组成的训练/验证集和由9125个单词组成的测试集,分别对应于总注释语料库的80%和20%。我们对训练集进行了4重交叉验证,以调整每个模型的参数。为了评估亲的能力确实注意到,78%的测试集是属于训练语料库的单词为了评估所提出的模型的能力,音译的新词,从来没有遇到过的训练语料库,第二个测试集,由全新的单词,然后构建。第二个测试集由3827个不属于训练语料库的LETD单词组成表8总结了使用的不同数据集。我们建议在字和词的水平上评估我们的音译方法。我们计算输入的单词,完全正确地音译每个建议的模型的比率。对于CRF实验,我们使用CRF++6工具,该工具将训练文件和模板文件作为输入来生成相应的模型。进行交叉验证过程,以便为音译任务选择最适当的模板。我们在3个具有不同依赖性级别的模板上进行了实验:模板1(依赖性级别= 2),模板2(依赖性级别= 3),模板3(依赖性级别= 4)。使用模板2获得最佳验证结果。因此,此模板用于进行一系列实验,其中我们将以下特征添加并组合到输入LC中:F1:字符在单词中的位置(是在单词的开头、中间还是结尾?)● F2:是元音字符(是元音:● F3:是数字字符(是数字吗?)。6条件随机场(CRF)的开源实现:https://taku910.github.io/crfpp/初始消息:bech [LETD] nji [LETD] 2 m1 [Fr-SMS]Buckwalter:b$ njy 2m1意思是:我明天来音译:仅考虑LETD单词bechnjiبØشØنجي歧义●LC继承等效交流频率例如DHﺽ3503ardhoulou乌鲁乌鲁乌鲁ﺫ248哈哈哈哈ﺩﻩ95我的天啊ﺙ1da3dhertﻅ2马赫福·乌·德赫khﺥ105德克拉ﻛﻪ15恩萨拉·哈·阿ﻗﻪ1艾费耶·科姆shش45moshklaﺳﻪ36阿吉亚·希赫尔ﺳﺢ2我的天啊,我的天啊ﺻﻪ5我的天啊我的天啊日ﺙ282yab3athﺽ125磁共振成像ﺗﻪ253我的天啊ﺗﺢ18哈塞布山ﺫ323wethniﻃﻪ29我的天哪7athaﻃﺢ1茶ﻅ2a3th emJ. Younes等人/沙特国王大学学报989表8使用的数据集。表11上下文评价语料库。#单词对#char对留言数量#单词# LETD单词#其他词训练/验证36,504181,587200020,95915,6645295测试组19,12543,721测试组23,82726,059使用BLSTM和BLSTM-CRF,交叉验证过程允许我们调整超参数,如下所示:● 隐藏层数:400● epoch数量:40● 批量:20● 辍学率:0.5● 衰减率:0.9我们在表9中显示了所有三个序列标记实验的特征水平结果。我们在表10中显示了每个测试语料库的单词的分布,对于所有三个序列标记实验,错误的数量(不正确音译的字符的5.2. 句子级音译结果如前所述,BLSTM-CRF序列标记方法在单词水平上给出了最佳音译方法,准确率为96.78%。因此,我们选择将其用于上下文中的音译,以便计算重复级别的错误率。对于本实验,我们采用了以下步骤:1. 随机选择一组LETD消息2. 手动识别邮件,仅3. 用BLSTM-CRF对提取的LETD词4. 将音译的LETD单词放在它们出现5. 在整个邮件我们注意到,我们选择了手动评估,因为LETD语言的高度模糊性需要人类的专业知识。此外,据我们所知,没有为罗马化的突尼斯方言开发可用的消歧工具。使用的消息是从社交网络中随机选择和提取的。表11显示了详细信息。图5示出了具有其音译的消息的示例。在图5所示的消息中,有几个外国词,如然后将AETD音译置于消息的上下文中,我们对其执行手动评估。事实上,一个词如果单独考虑,就可以正确地音译。然而,在整个句子的上下文中,音译可能不适合上下文。因此,在此评估中,我们将包括上下文错误在内的错误音译单词的总数的LETD单词。表12显示了结果。表9Char-level结果。特征精度精度召回F1测试组1测试组2Avg.测试组1测试组2Avg.测试组1测试组2Avg.测试组1测试组2Avg.CRFN/A97.5394.6996.1197.5294.6996.1197
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功