无监督的神经机器翻译合成数据用于阿拉伯语语法自动校正的方法

133 浏览量更新于2023-12-09 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

埃及信息学杂志22（2021）303审查用于阿拉伯语语法自动校正的神经机器翻译合成数据Aiman Solymana，Wang Zhenyua，Yu，Tao Qiana，Arafat Abdulgader Mohammed Elhagb，MuhammadToseefa，Zeinab Aleibeidca华南理工大学软件工程学院，中国广州b沙特阿拉伯比沙大学比沙社区学院信息系统系c武汉理工大学计算机科学学院，中国武汉阿提奇莱因福奥文章历史记录：收到2020年2020年10月23日修订2020年12月1日接受2020年12月24日在线提供保留字：自然语言处理卷积神经网络阿拉伯语语法纠错A B S T R A C T语法和拼写错误的自动纠正对于学生、第二语言学习者以及某些自然语言处理（NLP）任务（如词性和文本摘要）来说非常重要。近年来，神经机器翻译（NMT）在语法纠错（GEC）任务中表现出色，并且已经建立了良好的模型阿拉伯语GEC仍在增长，因为一些挑战，如缺乏训练集和阿拉伯语的复杂性为了克服这些问题，我们引入了一种无监督的方法来生成大规模的基于混淆函数的合成训练数据，在此基础上，提出了一种用于AGEC的有监督NMT模型SCUT AGEC. SCUT AGEC是一个卷积序列到序列模型，由九个具有注意机制的编码器-解码器层组成。我们应用微调来改善性能，并得到更有效的结果。卷积神经网络（CNN）使我们的模型能够在一个任务中联合特征提取和分类，我们证明了这是一种捕获局部上下文特征的有效方法此外，由于卷积层堆叠，很容易获得长期依赖性我们提出的模型成为第一个基于卷积序列到序列学习的监督AGEC系统，其性能优于当前最先进的©2021 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。内容1.导言. 3042.相关作品3043.方法3073.1.系统概述3073.2.混淆功能3073.3.模型架构3083.4.微调3094.实验3094.1.数据集3094.2.数据预处理3104.3.评价3104.4.模型设置3105.结果3136.案例研究和讨论314*通讯作者。电子邮件地址：wangzy@scut.edu.cn（W. Zhenyu）.开罗大学计算机和信息系负责同行审查。https://doi.org/10.1016/j.eij.2020.12.0011110-8665/©2021 THE COMEORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comA. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）3033047.结论和今后的工作314融资314参考文献3141. 介绍自动语法纠错（GEC）是自然语言处理（NLP）的一项任务，其寻求构建和开发自动系统来纠正文本的一组错误，包括拼写、语法和不正确的单词选择。在过去的几年中，GEC归类为机器翻译任务，这意味着翻译或转换源或不正确的输入句子到一个正确的输出句子。上下文中不正确的单词将自动替换为正确和最佳的选择，而无需更改语法。深度神经网络（DNN）提高了GEC方法访问源和目标上下文的效率。主要的DNN架构是递归神经网络（RNN）和卷积神经网络（CNN）。RNN架构是顺序的，通常用于翻译，命名实体识别和文本生成等NLP任务。RNN的基本结构在后向传播过程中对大数据序列的处理存在局限性。这个问题被称为消失梯度，通常可以通过使用长短期记忆（LSTM）[1]和门控递归单元（GRU）[2]来克服。CNN具有分层架构，适用于情感分析和图像分类等分类任务。近年来，由于全球第二语言学习者的数量不断增加，GEC正在发展壮大。与阿拉伯语相比，英语和汉语得到了大量的研究关注[3，4，5]。然而，阿拉伯语与阿姆哈拉语和希伯来语一起被归类为闪米特语。它已经被写在脚本从早期的历史日期，出现在公元前30世纪[6]。此外，阿拉伯语是一种亚非语言，有4.23亿人在22个阿拉伯国家和1个联合国的正式语文。此外，全球有18亿穆斯林在日常礼拜很多人把阿拉伯语作为第二语言。阿拉伯语语法纠错（AGEC）在进行了大量研究和有希望的共享任务后得到了更多的关注[7，8]。AGEC面临着阿拉伯语语法复杂、态射丰富、语料匮乏在AGEC中，最大的平行数据集比英语平行语料库的一个版本少20%此外，阿拉伯语中独特词汇的总数是英语词汇数量的两倍[9]。传统的AGEC方法是基于语言规则的系统，由于阿拉伯语的不规则性和复杂性，这种方法有一定的局限性。此外，以前用于GEC的阿拉伯语神经方法使用RNN，RNN仅定位于附近的单词，并基于小型并行数据集进行训练因此，需要在扩展使用标准序列到序列学习方面做出更多努力，以克服上下文句法、语义依赖性和错误类型的可变性的挑战本文提出了一种无监督的语法和拼写错误生成方法，以克服缺乏训练数据的挑战。此外，还提出了一种基于CNN和注意力的使用CNN的主要优点另一个优点是并行计算，这是不需要顺序操作。这些特性使得训练过程和解码速度更快。我们的贡献总结如下：为了提高AGEC的训练数据量，我们提出了一种生成并行AGEC语料库的方法，该方法适用于任何字母语言。生成的合成数据由18，061，610个单词组成，分为训练集和开发集。我们将卷积序列应用到AGEC的序列学习中，并进行了一些修改，包括编码器和解码器之间的共享嵌入以及添加微调。我们在卡塔尔阿拉伯语库（QALB）测试集上实现了神经AGEC模型的最新结果，并具有混合AGEC系统的强大竞争力我们证明了我们提出的AGEC系统的效率，我们减少了阿拉伯语和其他语言之间的漏洞。代码和模型文件可以在https：//github上找到。-com/aimanmutasem/SCUT-Arabic-GEC。本文的其余部分组织如下。第2节介绍了相关的工作。第3节记录了包括混淆功能和拟定模型在内的系统组件。实验详情见第4节。第五节简要分析和解释了我们的实验结果。第6节讨论了所提出方法的案例研究。结论和未来的工作在第7节中提出。2. 相关作品自动GEC在显著改善了共享任务后受到了广泛关注[7，8，10，11]。然而，GEC方法的常见类型是基于规则的n-gram语言模型、统计机器翻译和神经机器翻译[12]。基于规则的语法检查是一种经典的语法检查技术，它基于专家编写的高质量规则。在这种技术中，给定的文本被标记，并根据机器规则使用词性（POS）进行检查以纠正错误。D Naber等人[13]，是基于规则的一个很好的例子。另一个例子是Xiang等人。[14]，作者使用基于规则的方法结合机器学习纠正了五种类型的错误，包括动词形式，主谓一致，介词，名词和数字。但是，它很容易实现，添加或编辑规则，并且通常非常精确。使用基于规则的另一个优点是不需要训练集，这意味着它适用于任何语言（字母/非字母）。另一方面，这种技术的局限性在于它需要专家和丰富的经验来编写数百条语法规则。N-gram语言模型（LM）用于分配一组序列或n-gram单词的概率。在GEC中使用LM允许通过它的概率来确定每个短文本窗口（n-gram）的准确性。这意味着具有高概率的n-gram比另一个具有低概率的句子更准确。通常，它从大量的文本语料中计算概率。例如，I. Yoshimoto等人。[15]使用LM基于句法三元语法和二元语法在句子中进行错误检测。在GEC中使用n-gram LM的主要优点是能够纠正任何类型的语法错误。 LM n-gram的缺点是它并不总是给出一个好的概率来纠正语法错误●●A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）30330522吉吉统计分类器（SC）是一种用于将输入句子x X分类为类别y Y的算法。与错误类型相关的可能的校正Y的数量非常大。GEC中的SC通常关注特定的错误类型，以最小化Y值。例如，Rozovskaya等人[16]使用SC来预测英语中动词的时态。与基于规则的方法不同，SC不需要规则和指令来确定如何纠正句子，并且它自动学习关于如何将不正确的句子x映射到纠正的形式y的函数。在GEC中使用SC的一个主要优点是不需要知道特征和输出之间的关系。相反，机器学习用于确定如何纠正句子。SC在特征工程方面有一定的缺点，这意味着它仍然需要人类来决定要包含到系统中的特征。此外，SC目标它只适用于小训练集的特定错误类型，并且无法扩展到其他错误类型。统计机器翻译（SMT），自动将输入从一种语言翻译成另一种语言。值得注意的是，它被应用在GEC中，将不正确的句子翻译成正确的版本，而不改变句法，例如，将“坏“的阿拉伯句子翻译主要概念是计算概率p x y，其中x是源句子，y是目标句子。GEC中的SMT已经在Junczys-Dowmunt等人的[17]第10段。SMT的优点是不需要特征工程和专家知识，并且能够纠正所有类型的错误。SMT限制是不可定制的，因此很难针对特定的错误类型。神经机器翻译（NMT），旨在学习如何将输入句子x映射到输出句子y上，表1阿拉伯语错误类型在GEC任务与例子，正确的话是蓝色和红色是指不正确的话。A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303306登州港Z. Yuan和T.Reyncoe[18]介绍了第一个用于语法校正的NMT模型。Chollampatt等人提出了一个使用GEC的NMT的显着示例。[19]，其中多层CNN模型被应用于正确的句子。另一个值得注意的贡献包括T.Ge等人[20]，作者将流畅性提升学习和推理与卷积seq2seq模型相结合，使模型能够通过多环推理来纠正句子。NMT的优点是能够纠正所有类似SMT的错误类型然而，NMT比SMT具有更多的参数，目前它是GEC中最先进的任务主要的缺点是缺乏透明度和脱离语言特点。此外，它有自己的特征表示，这是人类无法解释的。Grundkiewicz等人[3]的另一个贡献是使用混淆函数来解决数据稀疏性的挑战，以生成合成数据集来预训练NMT中的Transformer序列到序列模型。同样， Choe 等人。 [21] 使用真实的噪声函数来预训练Transformer模型并顺序应用于具有上下文感知神经拼写检查器的迁移学习。R. Li等人[4]混合动力系统算法1：混淆函数算法A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303307表2通过混淆函数生成的错误类型举例，红色的单词是不正确的，蓝色的单词是从正确的单词生成的将NMT分类和基于规则的模型相结合。CNN seq2seq模型使用共享参数和重建损失函数用于中文语法错误校正[5]。AGEC仍然需要改进，以克服语言复杂性和缺乏语料库的挑战。Alamri和Teahan[22]试图基于部分匹配预测（PPM）文本压缩方案来纠正句子，该方案为每个不正确的拼写单词创建潜在的选择。Moukrim等人。 [23] 基于阿拉伯语语法规则的逻辑描述自动纠正句子。Ahmadi[24]使用具有注意力机制的双向递归神经网络（BRNN）序列到序列模型提出了AGEC的第一个端到端神经网络。Watson等人。[25]建立了具有基于字符的注意力的BRNN序列到序列模型，并使用预训练的单词嵌入来访问更多的语言信息。最近，我们介绍了基于CNN的进展工作[26]，结果是初步的，模型是不完整的。以前的AGEC的局限性是手工制作和扩展的短句。此外，AGCE神经方法是RNN，并基于小型数据集卡塔尔阿拉伯语库（QALB-2015）进行训练3. 方法3.1. 系统概述序列到序列学习广泛用于NLP任务，例如情感分析，语音识别和机器翻译。GEC任务中的NMT旨在通过一些隐藏状态来纠正令牌序列，而不改变上下文。GEC任务的主要挑战之一是平行语料库不足。为了克服这一挑战，我们开发了一种基于混淆函数的方法来从未标记的语料中生成新的合成数据。然后，我们使用生成的数据来训练模型，然后进行微调。开发的AGEC模型是一种卷积序列到序列学习，类似于Gehring等人。[27]具有注意力机制[28]。Gehring等人[27]通过在编码器和解码器之间共享嵌入向量来扩展该模型。此外，还使用了微调方法。该模型使用两个不同的语料库进行顺序训练，以获得更好的特征提取性能和对阿拉伯语单词之间依赖关系的深入理解。为了纠正阿拉伯语的文本，最好是根据结构和在QALB共享任务中用作标准错误类型[7，8]。这些错误包括拼写、形态、选词、句法、标点、方言词和专有名词，如表1所示。3.2. 混淆功能针对AGEC语料库的相对不足，采用一种方法来增加训练集的数量是非常重要的。此外，克服这一挑战的常用技术是数据稀疏和多遍解码[3]。我们的方法采用的数据稀疏生成大规模的并行数据在训练过程中从语料库的域称为Al-Watan 20021。原始语料库由专业期刊作者用现代标准阿拉伯语（MSA）撰写的10，000，000（一千万）字组成。数据来自Alwatan报纸，分为六类。首先，将数据聚合并重新组织在一个文件中，然后对来自情感标记，非字母数字字符和感叹号的句子进行规范化。然后，我们将目标文件中的句子拆分为最多50个单词的长度，并删除长度小于5个单词的句子。我们开发了三个基于文本规范化的合成版本。在第一个版本中，源语句和目标语句被规范化。在第二个版本中，目标句仅被混淆函数具有随机生成的错误，包括插入、删除和从自由错误语句中重复的字符或然后，生成的合成版本与原始句子相结合，并用作新的训练对。在这种方法中，我们试图模拟人类发生的拼写错误，以增加混淆功能的可靠性。对于每个给定的句子，错误分布的概率是N非负整数值（默认值为10），表示必须更改的单词数首先，随机选择一个词，然后执行以下四种操作之一：替换词wi，在位置wi= 1处插入词wi，在词wi中替换字符，或在词wi中插入字符.重复词的概率为N的10%，词替换的概率为10%。在剩下的80%概率中，40%的N用于插入字符，40%用于替换字符。混淆函数的细节在（算法1）中示出。错误类型和示例见表2。该方法能够将训练集的数量增加到适当的限度。此外，它适合于适用于任何字母语言。个词素的语言此外，委员会认为，瓦伊迪和al. [29]在大规模的阿拉伯文注释确定了七种类型的错误1https://sourceforge.net/projects/arabiccorpus/。A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303308¼ð ÞþðÞ¼ðÞ þðÞþ我我21半]n我Fig. 1. SCUT AGEC模型有9个编解码器层，只对最后一个编码器层和解码器层进行了详细说明。每个合成版本都有相同的大小，由18，061，610个单词组成，分为训练集和开发集。这允许模型在训练期间访问更多错误示例。我们生成的合成数据可供世界各地的开发人员免费使用3.3. 模型架构提出的编码器-解码器模型由九个卷积层组成。每一层都有一组过滤器，每个过滤器都有一个宽度，用于从文本中提取特征过滤器宽度决定了每个时间步要处理的令牌数量。神经网络应用程序以向量形式表示数据，如图像、语音和文本NLP嵌入的常见类型是单词和字符嵌入。本项目中的嵌入过程旨在将源句子S的标记映射成两个嵌入。这些嵌入是包含有关标记的信息的单词嵌入，以及包含序列中标记索引位置的位置嵌入。首先，两个嵌入都通过一个线性层进行元素求和，得到一个嵌入向量，表示为siw sip i，其中w s i 表示标记嵌入，pi表示到绝对令牌位置。因此，将S视为一个符号，由n个单词组成的句子S<$w1;wn。给定句子的嵌入向量将是S w s1p1;wsn pn。卷积序列中的位置嵌入到序列学习中，使模型感觉到，输入或输出中的句子或序列的哪一部分当前正在处理[27]。当前模型具有相同的编码器-解码器块架构，每个块由九个卷积层以及随后的非线性组成，如图1所示。这种结构的目的是使卷积核k集中于输入上下文向量。然而，卷积层桩有助于改善估计的属性，并允许在每个时间步长上扩展输入。对于编码器网络，我们通过将嵌入传递到线性层. 向量表示为h0;h0，其中h02Rh，h是指编码器的所有输入和输出的隐藏维度和解码器层。在将嵌入向量与权重W2Rhd相乘并加上偏差b2Rh之后，得到h0的线性映射过程：h0¼Wsib1为了在卷积运算之前保持输出向量的令牌数量与输入向量相同，我们在源语句的开头和结尾填充标记符tokenpad>，如图1所示。编码器2h中的第一层是卷积滤波器映射，其针对连续输入的每个序列向量到特征向量Y R2d. 卷积滤波器被设计为在卷积运算之后最大化输出隐藏维度是输入隐藏维度的两倍，并且我们可以将Y表示为Y1;Y2。为此，每个卷积运算之后都使用门控线性单元（GLU）进行非线性处理。[30]作为葡萄糖含量1升2升2升GLU（Y）指的是非线性的输出，表示逐元素乘法，而r是S形激活函数。GLU具有类似于LSTM[1]和GRU[2]的激活函数，用于处理消失梯度问题。GLU用于将输出隐藏维度的大小减半，以获得相同大小的输入隐藏维度，而Men-A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303309我我þXn一na¼Xexpez表达式znnn我不我nnnn;i1我OMO指定的激活函数LSTM和GRU保持隐藏的尺寸相同。因此，实现了深度卷积网络（多层），并且通过将包含底层信息的剩余连接从所有嵌入向量添加到编码器中的输出层第一编码器层的输出表示为表3用于以单词形式训练SCUT AGEC模型的数据集总量。hl 1/4葡萄糖浓度hl-13其中hi表示编码器在时间步长i的输出，L表示卷积层。最终编码器输出矢量ei是通过线性映射最后一个编码器的所有输出矢量得到的。编码器层hl2Rh，使用权重We2Rd×h和偏置be2Rd如图1所示，在（Eq. 4）。ei¼We hlbe 4对于解码器，最终令牌的输出将是并行的。首先，<在生成目标句的开始处填充两个标记符pad >，以防止模型查看标记符位置i 1.这种填充有助于模型学习如何正确预测令牌，而不是复制下一个令牌。与编码器类似，每个卷积层后面都有GLU作为非线性。残差连接将馈送到卷积层，而不是将其作为编码器在GLU之后传递。解码器中卷积滤波器的数量和大小与编码器中的每个解码器层都有自己的注意力F评分：C;Skif iC; S101/1其中，F是指特征的数量，ki是指特征权重，其通过基于开发集的最小错误率调整[32]计算，fi是特征函数。3.4. 微调神经机器翻译与其他神经领域一样，需要大量的训练集才能获得良好和准确的结果。因此，使用大规模的合成训练数据。使用合成训练集的挑战是，与本地专家审查的域内数据集相比，生成的对产生的流畅性较差。机器翻译中的微调是一种改进技术，它通过使用域内数据集继续训练模型，即模型已被训练模型如图所示。1.一、当前解码器状态yl是com-在此之前，有一个域外数据集[33]。Baroneet等人[33]I'm sorry.通过嵌入先前的目标标记tn-1 n来绑定，以计算注意力zl，如（等式2）中所示。5）。zL ¼WZ ylbztn-15引导了神经机器翻译微调技术的研究，并建议有前途的策略之一是继续训练模型，域数据集。在我们的项目中，使用微调的目的是接下来，注意力的权重为lðn;i Þ 是由每个的点积计算的使用额外的训练集递增地训练模型，并提供更多示例。此外，为了提高模型的流畅性，编码器的输出向量，注意力为zl，并且被归一化通过使用softmax，如在（Eq. （六）。并实现人类水平的性能。我们继续基于QALB-2015作为域内训练数据来训练模型ln;iT l我nMTlKnk¼1ð6Þ共2,223,668字从技术上讲，微调可以产生有效的实验结果，保持学习率，并减少过度拟合。然而，基于随机梯度的训练是保持高准确率然后，使用额外的源嵌入来更好地保留有关实际源令牌的信息。通过编码器输出矢量和源嵌入的求和来计算附加源嵌入矢量x1，如（等式2）所示。7）。xl¼Xaleisi7方法。4. 实验主要是，我们提出的模型在两个数据集上进行了评估，包括来自第二个QALB共享任务的卡塔尔阿拉伯语库2（QALB）[8]和Alwatan阿拉伯语文章，以生成合成平行语料库此外，还对数据进行了预处理1/1此外，上下文向量x l 线性映射得到CL。的然后将其馈送到模型，评估指标为F1得分。n n解码器层的输出G1 通过c1;y1的求和来计算，n以及如在（等式1）中的前一层输出gl-1。（八）。gl¼ylclgl-1nnð8Þ4.1. 数据集QALB语料库是一协同项目哥伦比亚之间无无无无无无无然后，将最后一层解码器的输出向量从g1线性映射到dn2Rn.dropout[31]在每个编码器和解码器层以及嵌入和输出解码器层之前使用，以优化性能。最后，使用softmax来计算目标令牌的概率，如（等式10）中所示9），其中解码器输出向量d，n用权重W，0和偏置b，0映射到目标词汇表T。数据来自半岛电视台阿拉伯语新闻频道的在线评论文章。ANLPACL2015的QALB包括来自阿拉伯语学习者书面语料库3（CERCLL）的非母语数据和使用谷歌翻译从翻译成阿拉伯语的维基百科文章中获得的一些机器翻译数据训练数据集包含由母语为阿拉伯语的人注释和纠正的200万个单词波伊jy;：;y;SsoftmaxW dbAlwatan阿拉伯语新闻文章语料库包含20，291篇文章，10，000，000个单词被分为六组，最后的候选人被重新评分的长线性框架。校正假设C的得分由给定的源句子计算，如（等式10）。10），2http://nlp.qatar.cmu.edu/qalb/。3https://cercll.arizona.edu/educational-resources/arabic-learners-written-corpus-2。n第一章1n数据集培训Dev.测试SCUT Coupes版本316,161,9001,899,7100.0QALB 20152,111,918111,750102,316总18,273,8182,011,460102,316A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303310阿曼报纸。在本研究中，生成的训练数据由训练集和开发集中的18，061，610万个单词组成。微调集由训练集和开发集组成，我们使用QALB测试集进行测试。整个训练数据由20，285，278个单词组成，并分为合成集和真实集，详细信息见表3。4.2. 数据预处理在NLP任务中，大型语料库的单词表示已被证明是或者，单词级别导致大量词汇表外（OOV）[29]。此外，字符级是语义上无效的，并且对于长序列计算量大在这个项目中，一个子词的方法，称为字节对编码（BPE），以克服罕见的和未知的单词的问题，这是由Sennrich等人提出的[34]. 应用BPE提高了我们的模型性能，其中稀有词或未知词已被拆分并表示为多个子词。通过使用从Word 2Vec扩展的FastText工具[35]，将每个输入单词表示为N-gram（由2到3个字符组成）以及这些字符的skip- gram嵌入这种嵌入技术适用于当前的任务，并使所提出的模型能够获得有关每个单词的形态的更多信息，而不是将单词视为单独的实体。表4我们SCUT训练集的不同版本的结果。数据精度召回F1SCUT Coupes版本126.5226.1426.32SCUT Coupes版本231.8232.6832.24SCUT Coupes版本333.7833.9233.85表5SCUT阿拉伯语GEC模型结果。4.3. 评价对于评价，最大匹配评分器应用于报告精度，召回率和F1。此外，在第一次和第二次QALB共享任务中使用了相同的工具，用于阿拉伯语的自动纠正[7，8]。然后，对该模型进行了评估，并与第二个QALB共享任务中的最佳先前作品和其他最先进的作品进行了比较，这些作品使用了相同的QALB 2015共享任务测试集。4.4. 模型设置实验基于PyTorch-Fairseq4，用于训练卷积序列到具有注意力机制的序列模型。在实验中，源嵌入和目标嵌入的批量大小都是256。此外，BPE算法被应用于具有1000个标记的词汇表，并且维度大小为300.采用基于Wikipedia语料库的FastText预训练嵌入，采用窗口大小为5的skip-gram模型和2 ~ 3个n-gram，编码器和解码器采用相同的结构，每层由9层组成，每层的输出为512表6SCUT阿拉伯语GEC代理商的最先进的八个国家的模式。模型精度召回F1公司简介80.2363.5970.91沃森80.0062.4670.15艾哈迈迪58.3532.4950.34CUFE88.8561.7672.87UMMU-170.2871.9371.10GWU74.6967.5170.92UMMU-272.6967.5270.01QCRI84.7458.1068.94QCMUQ71.3965.1368.12模型精度召回F1Bi-LSTM + SCUT v3训练集+Word 2 Vec嵌入26.1325.6425.88SCUT AGEC + SCUT v3训练集+Word2Vec嵌入33.7833.9233.85SCUT AGEC + SCUT v3训练集+数据预处理78.8257.1266.23SCUT AGEC + SCUT v3训练集+数据预处理+微调80.2363.5970.91SCUT AGEC + QALB训练集+数据预处理80.0963.1270.64图二. 基于F1分数的最佳阿拉伯GEC模型的比较。A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303311表7系统输出的示例。（接下页）A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303312A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303313尺寸.在嵌入、每个卷积层和输出解码器上以0.15的概率应用Dropout。我们应用Adam优化器[36]，SCUT训练了10个epoch用于预训练，30个epoch用于微调。在训练过程中调整了所有的最优超参数，包括层数、丢弃率和隐藏维度。在培训期间报告了四个不同的版本。首先，使用Word2vec嵌入的SCUT AGEC模型。然后，SCUT AGEC与充分的数据预处理，包括BPE算法和Fasttext预训练嵌入。具有数据预处理和微调功能的SCUT AGEC。最后，基于QALB数据集和数据预处理的SCUT AGEC所有模型都在Python 3.6、NVidia GeForce GTX 1080GPU和CUDA 10 Production上同时训练。5. 结果结果被分为三个主要类别，包括评估华南理工大学AGEC的主要架构的基础上，不同的训练集。最后给出了模型的计算结果最后，将我们的最佳模型与最先进的AGEC系统进行了比较。SCUT AGEC性能分析的基础上，三个不同的合成集。这些集合的不同性质已在第3节中给出.第一个训练集是SCUT v126.32F1，SCUT v2为32.42F1。SCUT v3取得了33.85F1的最好成绩。因此，SCUT v3用于训练模型，它没有文本规范化。结果见（表4）。在最后的实验中，基于QALB 2015测试集评估了我们模型的四种不同变体。此外，使用SCUT v3训练集和标准QALB 2015测试集应用了双向LSTM（Bi-LSTM）。首先，基于SCUT v3训练集和Word2Vec嵌入实现了SCUT AGEC33.85F1得分。然后，使用SCUT v3和Word 2 Vec嵌入的具有注意力的Bi-LSTM的性能下降到25.88F1 。采用SCUT v3和全数据预处理（Fasttext预训练嵌入+ BPE算法）的SCUT AGEC性能达到66.23F1，提高了32.38%。这一显著的增加是因为FastText嵌入能够获得令牌序列（2-3个字符序列），并且能够更好地学习单词表示并考虑单词形态。BPE算法处理词级表示在嘈杂的上下文中的OOV。此外，基于SCUT v3的SCUT AGEC和具有微调功能的数据预处理，70.91F1，并报告为我们的国家的最先进的模式。由于模型在训练过程中得到了更多的错误示例，并由本地专家进行了校正和注释，因此性能得到了提高。最后，SCUT AGEC与真实的训练集QALB 2015和数据预处理达到70.64 F1。使用每个样本的150个标记长度进行所有统计分析结果见表5。表6列出了与SCUT AGEC系统相比，QALB测试集的前8个评分。Watson等人。[25]应用了一种序列到序列RNN模型，该模型具有基于字符的注意力和用子词信息方法预训练的词嵌入，报告了F170.15。Ahmadi[24]是第一个基于序列到序列RNN的端到端神经AGEC，实现了50.35F0： 5。这两个模型分别比我们的模型得分低0.76%和20.57%。最先进的AGEC系统是CUFE[37]，使用Buckwalter形态分析仪，报告72.87F1，与我们的模型评分相比好1.96%。此外，UMMU-1[38]，SMT 模型基于具有输出的并行处理器级进行训练一个叫做MADMAIRA 的综合形态分析工具。 UMMU-1 报告了 71.10F1 。GWU[39]，混合阿拉伯语拼写和标点符号校正系统，报告F170.92。QCRI[40]，case-A. Solyman，W. Zhenyu，T. Qian等人埃及信息学杂志22（2021）303314具体的纠正模块，以处理方言单词和单词的分裂和合并，报告68.94F1。QCMUQ[41]是一种混合管道，将基于规则的语言技术与统计机器翻译相结合，报告68.12F1。我们的结论是，我们的监督卷积序列到序列学习在端到端神经AGEC模型中获得了最高的精确度，召回率和F1分数混合AGEC系统仍然是最先进的，如图所示。 2）。6. 案例研究和讨论华南理工大学AGEC与微调取得了最好的F1成绩。为了衡量输出的质量，我们从QALB测试集的比较例作为案例研究。输出标记被手动分类为四组。从不正确的输入中正确地预测出标记，从正确的输入单词中正确地预测出正确的输出。然后，不正确的输入产生不正确的输出，最后一类是正确的标记产生不正确的输出表7给出了五个示例，包括源、目标和系统输出句子。此外，英语翻译。示例1由54个标记组成，成功纠正了17个。例如，token（still）被正确不正确的输入词，作为相同的令牌（犯罪），它是一个正确的输出。从正确的输入中有34个正确的输出令牌此外，从不正确的输入中错误地预测了3个令牌。系统无法纠正上述HAMZA标记中ALF字符。在另一个案例中，到在token 27中正确此外，token它是一个语法错误输出，并且在三种情况下错过了纠正标点错误。有没有从正确的输入不正确的输出.在示例2中，标记10、12、15、17、19、28、32以及标记27之后的标点错误被成功地纠正。有29个正确输入的正确输出令牌。此外，没有不正确的输出令牌。由57个标记组成的示例3，成功地纠正了单词（信念）和三个其它标点错误。此外，有56个来自正确输入的正确输出令牌。在示例4中，成功地纠正了7个标记和3个标点错误。此外，25个标记是来自正确输入的正确输出。有7个不正确的输出标记不正确的输入。这些错误是语法，叙利亚方言单词和拼写错误。示例5成功地校正了15个令牌。此外，28个标记是来自正确输入的正确输出。没有不正确的输出标记。系统在三种情况下正确预测标点符号，在其他三个地方失败。上述比较的结论是，我们的合成训练集证明了该算法对AGEC系统的有效性。注意力集中的卷积层纠正了不同类型的错误，并捕获了阿拉伯语句子不同层次的特征。SCUTAGEC模型与以前的端到端神经AGEC系统相比达到了最先进的结果。此外，数据预处理作出了显着的改进。快速文本嵌入提供了更多的语言信息和更好的单词表示。此外，BPE算法处理具有单词级表示的噪声的OOV的挑战，并且微调对最终结果产生积极影响。我们的模型令人不安的弱点是，一些词被不正确地预测。而且它缺乏纠正一些标点错误和方言词的能力。我们假设，限制与训练集不足和样本质量有关。此外，方言词需要一本额外的字典。为了提高性能，我们必须增加数据的大小，注意例子的质量。此外，利用形态学文本分析器。7. 结论和今后的工作针对AGEC任务中语料不足的问题，提出了一种无监督的合成训练集生成方法。我们提出的方法可以应用到其他字母语言，特别是低资源的语言。生成的合成数据有18，061，610个单词，比最大的可用数据集多出776.5%。此外，它在培训和开发套件中开放访问。此外，我们介绍了一种基于卷积seq 2seq学习的监督AGEC模型，该模型由九个编码器-解码器层组成，具有注意力机制和微调。微调通过使用流畅的真实数据集对模型进行连续训练来提高性能，使用大量的合成训练数据对最终结果产生积极此外，数据预处理包括针对生僻字的BPE算法和基于预训练嵌入的FastText算法，在算法上有了显著的改进。此外，SCUT AGEC系统相对于QALB测试集中先前的端到端神经AGEC系统产生了未来可能的发展方向是将卷积序列应用于AGEC的分布式训练的序列学习中。另一个研究方向是采用双向训练（RTL和LTR）和多级校正的多头注意模型。此外，合成训练集的规模和质量也可以在未来的相关工作中增加资金本工作得到了广州市科技计划（No.201802010025）、广州市高校创新创业教育基金项目（编号2019PT103）、广东省重大领域研究开发计划项目（编号2019B010154004）。引用1 Hochreiter S，Schmidhuber J.长短期记忆。神经计算1997;9：1735-80.2 张伟，王伟，王伟 .门控递归神经网络对序列建模的经验评估。In ：NIPS 2014Workshop on Deep Learning，December 2014; 2014..3 放大图片作者：Junczys-Dowmunt M，Heafield K.基于合成数据的无监督预训练神经语法纠错系统。在：第十四届NLP创新使用研讨会论文集建设教育应用;2019。p. 252-263..4 李荣，王春，查英，于英，郭胜，王强，刘英，林华。bea-2019 gec共享任务中的laix系统。在：第十四届NLP创新使用研讨会论文集建设教育应用; 2019。p. 159-167..5 LiS，Zhao J，Shi G，Tan Y，Xu H，Chen G，Lan H，Lin Z. 基于卷积序列到序列模型的汉语语法纠错。IEEE Access2019;7：72905-13.6 弗斯蒂湾阿拉伯语。爱丁堡大学出版社; 2014.7 MohitB，Rozovskaya A，Habash N，Zaghouani W，Obeid O. 第一个qalb共享的阿拉伯语自动文本校正任务，在。2014年EMNLP阿拉伯语自然语言处理研讨会（ANLP）。p. 39比478 Rozovskaya A，Bouamor H，Habash N，Zaghouani W，Obeid O，Mohit B.第二个qalb共享任务是阿拉伯语的自动文本校正。第二届阿拉伯语自然语

下载后可阅读完整内容，剩余1页未读，立即下载