没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文----基于预训练跨语言模型孙欣1、葛涛2、马书明2、李晶晶3、魏福如2、王厚锋1、北京大学经济与社会科学学院计算语言学MoE重点实验室2、微软亚洲研究院3香港中文大学sunx5,pku.edu.com tag,shumma,microsoft.comlijj@cse.cuhk.edu.hk摘要非英语语法错误纠正(GEC)的合成数据构建严重依赖于人为设计的特定语言规则,产生的错误纠正模式有限。 在本文中,我们提出了一个通用的和语言无关的多语言GEC策略,它可以有效地训练一个新的非英语语言的GEC系统我们的方法创建了不同的并行GEC数据,没有任何语言特定的操作,通过采取PXLM和黄金翻译产生的非自回归翻译作为纠错句子对。然后,我们重用PXLM来初始化GEC模型,并使用其自身生成的合成数据对其进行预训练,这将产生进一步的改进。 我们评估我们的方法对三个酒吧- 不同语言的GEC的lic基准。它在NLPCC 2018任务2数据集(中文)上实现了最先进的结果,并在Falko-Merlin(德语)和RULEC-GEC(俄语)上获得了进一步的分析表明,我们的数据构造方法是基于规则的方法的补充。1介绍语法错误纠正(GrammalicalErrorCorrection,GEC)是一种单语文本到文本的重写任务,即给定一个包含语法错误的句子,需要将其修改为相应的无错误句子。近年来,对合成错误数据进行预训练,然后对注释的句子对进 行 微 调 已 成 为 一 种 流 行 的 范 式 [Grundkiewicz 和Junczys-Dowmunt,2019;Lichtarge等人。,2019;Zhangetal. ,2019]在英语GEC中,通过各种新颖的数 据 合 成 方 法 推 进 最 先 进 的 结 果 [Geet al. ,2018;GrundkiewiczandJunczys-Dowmunt,2019;Kiyonoetal. ,2019]。本文是作者在MSR Asia实习期间完成的。1. 生成翻译数据(zh)预训练跨语言语言模型合成纠错数据(zh)2.初始化3. 预训练注释纠错4. 微调数据Seq2seqGEC模型图1:我们方法的总体框架。我们使用PXLM和一个大规模的翻译语料库来产生合成的纠错句子对。seq2seq GEC模型由PXLM初始化并由合成数据预训练。然后,我们用特定于语言的注释GEC数据对其进行微调。En和Zh分别表示英语和汉语随着GEC在其他语言中引起越来越多的关注[Flachsetal. ,2021;Rotheet al. ,2021],合成错误数据构造已经被借用到非英语语言,用于在缺乏注释数据的情况下改进结果。例如,基于规则的方法获得了有希望的结果[Grundkiewicz 和 Junczys-Dowmunt , 2019;Na'pl av a 和Straka,2019;Wangetal. ,2020a]。然而,这些方法需要基于专业知识的用于单词替换的语言特定规则和混淆集,以模拟跨多种语言的不同语言现象,例如,汉字中的同音字和俄语中的构词变体此外,基于规则的方法总是产 生具 有有 限纠 错模 式的 错误数 据[Zhouet al. ,2020]。为了解决上述限制,我们提出了一个通用的战略,培训GEC系统在非英语语言。我们的方法很容易适应新的语言,只要提供两个相对容易获得的资源:1)预先训练的跨语言语言模型(PXLM); 2)英语和语言之间的并行翻译数据 在本文中,我们 选择InfoXLM [Chietal. ,2020]作为我们实现中的PXLM。我们的方法包括合成数据构建和arXiv:2201.10707v1 [cs.CL] 2022年1月+v:mala2277获取更多论文· · ·| |· · ·| |⟨ ⟩ ⟨ ⟩ ⟨ ⟩不{ }/e\{||· · ·|||}|}Y∈||||||模型初始化由于InfoXLM是用翻译语言建模目标进行预训练的[Lample和Conneau,2019],这要求模型以翻译对的级联为条件恢复掩码令牌也就是说,当呈现一个英语句子时,InfoXLM可以提供几十种非英语语言的粗略翻译与AT相比,NAT由于多模态问题而牺牲了翻译质量[Guet al. ,2017;Ghazvinine-jadet al. ,2019]。当vanillaNAT在每个位置执行独立预测时,它倾向于同时考虑句子的许多可能的翻译,并输出不一致的结果,例如标记重复,丢失或不匹配[Ranet al. ,2020;Du等人,2021]。与预定义规则相比,这种纠错模式更合理、更多样,具有更大的模型容量和句子上下文依赖性。我们认为粗略的翻译在预训练过程中的语言建模(TLM)目标。给定源语言中的句子x=x1xx英语)和另一种语言的相应翻译y=y1yy中 文 ) , TLM 的 输 入 序 列 是 这 两 个 平 行 句 子S=sx/sy/s的连接,并且一定比例的标记被随机替换为[MASK]。形式上,令M={m1,· · ·,m|M|}表示掩模的位置:m_i_uniform{1,|X|+的|y|+3}对于i=1,· · ·,|M|(一)SM= replace(S,M,[MASK])(2)其中替换表示在某些位置处的替换操作。通过利用双语上下文,该模型需要预测具有交叉熵损失的原始令牌。TLM损失计算如下:LTLM=−logYp(S m|(3)由InfoXLM作为源语句和黄金翻译为S∈Tm∈M用于预训练的正确句子。为了进一步提高seq2seq GEC模型的泛化能力,我们使用InfoXLM初始化GEC模型,并使用自身生成的合成数据对其进行预训练。我们对中国、德国和俄罗斯的GEC基准进行了实验我们的方法在NLPCC 2018任务2数据集(中文)上获得了最先进的结果,并在Falko-Merlin(德国)和RULEC-GEC(俄罗斯)上获得了有竞争力的性能。实验结果还表明,该方法可以有效地补充基于规则的破坏方法。其中SM=S iiM表示未包括在M中的标记,并且是翻译语料库。在极端情况下,我们可以将InfoXLM用作非自回归转换器。具体来说,我们将一个英语句子x与足够的占位符([MASK])连接起来作为输入。InfoXLM能够通过并行预测所有掩码位置的标记将其翻译为其他对于Mally,M=x+3,x+y+2表示所有目标令牌都被[MASK]替换,并且预测的transla。通过使以下等式最大化来导出等式本文的主要贡献如下:• 我们提出了一个统一的战略,GEC在非-S′=arg max logSMm∈Mp(S m|(4)英语语言,包括合成数据编译和模型初始化。• 我们提出了一种新的基于NAT的合成数据预训练方法,该方法生成各种纠错数据用于预训练。据我们所知,这是第一个利用PXLM的非自回归转换能力进行GEC错误数据构建的方法。生成的句子对单独执行有希望的结果,也很好地补充了基于规则的腐败方法。• 我们的方法在中国基准测试中达到了最先进的性能,在德国和俄罗斯基准测试中也取得了非常有竞争力的结果。2方法在本节中,我们将介绍非英语语言的统一策略首先,我们简要介绍了翻译语言建模(TLM)的目标和InfoXLM的非自回归翻译(NAT)能力然后,我们介绍了我们的框架中的两个步骤:基于NAT的合成数据的建设和模型初始化。图2显示了我们的数据构造方法的概述2.1背景:翻译语言建模我们的数据构建的基础是InfoXLM的非自回归翻译能力,由于其翻译能力,y=replace(SM,M,S′)(5)其填充具有最高概率的单词在 实 践 中 , 根 据 掩 码 预 测 [Ghazvininejadet al. ,2019] , 我 们 部 分 地 掩 蔽 目 标 translation ( m[x+3 ,x+y+2])的某个百分比,而不是全部,这确保了输出具有适当的质量。2.2基于NAT的数据构造为了在非英语语言中为GEC生成各种纠错句子(例如,中文),我们的方法利用机器翻译的句子对(例如,英汉平行语料库)。我们的方法首先向目标句子添加噪声,然后掩蔽采样的标记。我们用原始的英语句子作为InfoXLM的输入来InfoXLM执行TLM预测,在每个掩蔽位置。为了获得包含语法错误的糟糕句子,我们从最高预测中随机抽取单词具体来说,给定目标语言中的句子y,我们选择具有一定概率p噪声的用于修改的标记,并执行以下操作:面具用概率为p掩码的[MASK]替换令牌。插入. 在token之后添加一个[MASK],概率为pinsert。删除. 以p删除概率删除令牌。+v:mala2277获取更多论文src:很感谢你邀请我参加来这个会,我 过 得很开心。I'm going towrite thisthing in the book.(感谢你邀请我参加这次会议,我度过了一段美好的时光。我把这写在我的日记本上。)的方式tgt:谢谢你邀请我参加这次聚会,我感到很开心。I'll write thisthing in thehistory.谢谢你邀请我参加这个聚会,我玩得很开心。我会把这写在日记里。)的方式(感恩)这会议花(本书)预训练跨语言语言模型2. 预测着感恩˜˜˜[面具]你邀请……来[面具][面具]……[面具]……谢谢你……<联系我们[面具]你邀请……来[面具][面具]……[面具]……<联系我们谢谢你邀请我参加这个聚会,我玩得我会把这写在日记里。Zh⼼。我会把这件事写在⽇记⾥。翻译语料库(En-Zh):综合纠错语料库(Zh):1. 令牌化损坏(掩码插入删除交换)图2:基于NAT的数据构造概述给定一个翻译句子对(例如,在非英语句子中,我们的方法对非英语句子随机应用四种操作(掩码、插入、删除和交换然后,PXLM预测的基础上的英语句子和损坏的句子连接的词汇在每个屏蔽位置的可能性。最后,我们对预测的单词进行抽样,并将恢复的序列作为包含语法错误的源句子,将黄金非英语句子作为校正的目标句子。交换 用正确的token替换token,概率为p交换。我们得到噪声文本y=NOISE(y)和掩码M的对应位置。然后,我们将英语句子x与包含足够掩码标记的损坏序列y连接起来作为InfoXLM的输入根据输出分布对每个[MASK]的预测单词进行采样ym′p(Sm|S\M)对于m∈M(6)数据集语言火车有效测试NLPCC 2018任务2中国1.2M50002000法尔科梅林德国1923725032337RULEC-GEC俄罗斯498025005000表1:评价基准统计。表中的数字表示句子对的计数。以自我监督的方式训练的模型。我们继续用我们基于NAT的y=replace(y,M,y′)(7)在这里,我们通过替换[MASK]来带采样令牌。我们在TLM预测之前通过四次操作进行人工腐败,提高了翻译的难度。目标词之间的独立假设会导致错误的增加和流畅性的降低预测的单词基于分布而不是最佳预测进行采样,以产生更多的不一致性。它类似于初级语言学习者在完成完形填空任务时呈现低质量句子的情况。然而,我们只屏蔽了一些百分比的目标标记,并且英语句子限制In-foXLM恢复原始信息,这确保了采样的标记是可信的。由于恢复的句子包含多样的和合理的单词级语法错误,我们应用字符级腐败操作添加更多的拼写错误:1)插入;2)替换; 3)删除; 4)交换权利; 5)改变外壳。我们称之为后期编辑。最后,我们把金译本看作是正确的句子,把被破坏的预言看作是错误的句子。2.3模型初始化进一步提高GEC的泛化能力approach.总 的 来 说 , 我 们 的 统 一 策 略 以 两 种 方 式 利 用InfoXLM。我们利用其NAT能力来生成合成GEC数据及其预训练的权重来初始化我们的GEC模型。3实验3.1数据为了验证我们的方法在非英语语言中的有效性,我们在三个GEC数据集上进行了实验:NLPCC 2018任务2[Zhaoet al. ,2018年]在中国,Falko-Merlin [Boyd,2018年]在德国和RULEC- GEC [Rozovskaya和Roth,2019年]在俄罗斯。数据集的统计数据见表1。我们使用官方的Max-Match [Dahlmeier and Ng , 2012] 脚 本 1 来 评 估 精度、召回率和F0。五、对于非自回归平移生成, 我们使用WMT20新闻翻译任务的数据集[Barraultetal. ,2020]-UN Parallel Corpus v1.0 [Ziemski etal. ,2016]对于中国和俄罗斯,Europarl v10 2,ParaCr a wlv5.1[B ano'netal. ,2020]和德国的CommonCr a wlcorpus。我们在每种语言中构建了1000万个合成句子对进行预训练,然后在相应的注释数据集上微调模型,我们使用InfoXLM初始化seq2seq模型。我们遵循Maet al. [2021]并使用DeltaLM进行多语言GEC。DeltaLM是InfoXLM初始化的编码器-解码器1https://github.com/nusnlp/m2scorer2http://www.statmt.org/europarl/v10/这个会过册+v:mala2277获取更多论文模型NLPCC-18PRF 0. 5YouDao [Fuet al. ,2018年]AliGM [Zhouet al. ,2018年]BLCU [Renet al. ,2018年]BERT编码器[Wanget al. ,2020b] BERT-保险丝[Wanget al. ,2020 b]35.2441.0047.2341.9432.2018.6413.7512.5622.0223.1629.9129.3630.5735.5129.87Dropout-Src [J unczys-Dowmuntet al. ,2018年]MaskGEC[Zhao和Wang,2020]- 我们的实现39.0844.3641.6618.8022.1825.8132.1536.9737.10Wang等人[2020年a]规则(10M)我们的规则(10M)- 带DeltaLM我们的(10M)+混淆集我们的(5M)+规则(5M)39.4344.6644.2745.9545.1745.3322.8026.5426.7627.9426.1127.6134.4139.3039.1540.7039.4240.17表2:NLPCC-2018任务2数据集上的系统性能不同模型架构的结果显示在顶部组中。不同的训练策略显示在中间。预训练的方法显示在底部。规则表示由基于规则的损坏生成的合成数据。Ours表示由我们的方法生成的数据。3.2实现细节除非明确说明,否则我们使用fairseq3中的Transformer(基本)模型作为我们的GEC模型。 对于中文,我们构建了一个由7K个标记组成的字符级词汇表。我们应用字节对编码[Sennrichet al. ,2016]分别对德语和俄语句子 进 行 预 处 理 , 获 得 大 小 为 32K 的 单 词 。 当 使 用DeltaLM 时 , 我 们 利 用 其 基 于 SentencePiece 模 型 的250000 个 令 牌 的 共 享 词 汇 表 [Kudo 和 Richardson ,2018]。在德语和俄语的预训练过程中,遵循Na'pl av a和Straka[2019],我们使用源和ta r getword dropouts和编辑加权MLE [Junczys-Dowmuntet al. ,2018]。我们把详细的超参数留在补充说明中。3.3基线以往对中国GEC的研究大多集中在模型结构或训练策略上,这与我们的合成数据构造方法是正交的。例如,YouDao [Fuet al. ,2018]将五个混合校正模型和一个语言模型组合在一起。AliGM [Zhouet al. ,2018]将基于NMT、基于SMT和基于规则的模型组合在一起。BLCU[Renet al. ,2018]使用多层卷积seq2seq模型[Gehringetal. , 2017]。 BERT编 码 器 [Wanget al. ,2020 b]使 用BERT对 seq2seq 模 型 的 编 码器 进 行 了 验 证 [Spanon 和Toutanova,2019]。 BERT-fuse [Wanget al. ,2020 b]结合BERT用于附加特征。至于培训策略,Dropout-Src[Junczys-Dowmuntet al. [2018年12月28日]在训练过程中,随机选择的源单词的数量为0。MaskGEC[Zhao和Wang,2020]通过用填充符号或其他单词替换源单词来执行动态掩码方法。最具可比性的方法是Wanget al. [2020 a],其使用基于规则的破坏方法构建预训练数据。对于我们的方法,我们实现了MaskGEC3https://github.com/pytorch/fairseq在微调阶段。为了进行公平的比较,我们还在与基线相同的设置中构建了具有基于规则的腐败的合成数据。它结合了字符级混淆集4,并使用pypinyin5来执行同音替换。对于德语和俄语,主要的数据构建方法是基于规则的腐败。Grundkiewicz和Junczys-Do wmunt[2019]和Na'plav a和Straka[2019]使用编辑距离,单词嵌入或拼写检查器( 例 如 , Aspell 字 典 6 ) 。 Flachset al.[2021] 使 用 Uni-morph [Kirovet al. ,2018],其为单词替换操作提供单词的形态变体。他们还结合了WikiEdits [Lichtargeet al. ,2019]和Lang8 [Mizumotoet al. 2011年]作为补充培训资源。Rothe等人[2021]仅适用于与语言无关的操作,而没有任何混淆集。他们为101种语言预训练了一个统一的seq2seq模型,并为各自的语言进行了微调。Katsumata和 Komachi[2020] 建 议 直 接 使 用 mBART [Liuet al.#20203;,没有预先的训练。3.4主要结果表2显示了我们的方法在NLPCC-2018中国基准上的性能。我们的基于NAT的合成数据的建设方法是compa,可与基于规则的腐败的方法。我们假设0.15 F0. 5下降来自于基于规则的关联利用了许多有用的混淆集。当结合字符级混淆集之一时,我们的方法得到39.42 F0。5,其优于基于规则的计数器部分。如果将基于规则和基于NAT的两种数据源相结合,我们可以获得更好的性能,这表明 两 种 方 法 是 相 辅 相 成 的 。 初 始 化的 GEC 模 型 与DeltaLM达到40.70 F0. 5,这是数据集的最新结果。第http://nlp.ee.ncu.edu.tw/resource/csc.html5https://github.com/mozillazg/python-pinyin网站6http://aspell.net/+v:mala2277获取更多论文♠♣模型大小层,隐藏,FFNP德国RF 0。5P俄罗斯RF 0。5Grundkiewicz和Junczys-Dowmunt[2019]Na' plav a和Straka[2019]Rotheetal.[2021]RotheRule(10M)我们的(10米)- 使用DeltaLM我们的(5M)+规则(5M)6、512、20486、512、204812、768、20486、512、20486、512、204812-6,768,20486、512、204873.078.11-73.7173.8675.5974.3161.059.13- 五十九点二八60.7465.1961.4670.2473.4069.2170.2970.873.2571.3336.359.13- 四十九点三八57.9659.3161.4028.726.05- 二十三点四十九23.5127.0727.4734.4647.1526.2440.4644.8247.9049.24Flachs等人[2021年]Na' plav a和Straka[2019]Katsumata和Komachi[2020]Rothe等人[2021]6、1024、40966、1024、409612、1024、409624、4096、10240-78.2173.97--59.9453.98-69.2473.7168.8675.96-63.2653.50--27.5026.35-44.7250.2044.3651.62表3:系统在德国和俄罗斯数据集上的性能Layer、Hidden和FFN表示Transformer的深度、嵌入大小和前馈网络大小12-6表示DeltaLM初始化模型具有12层编码器和6层解码器。顶部和底部组分别显示了基本比例模型和大比例模型的结果。我们对这种方法的重新实现是规则(10M),其结果不如我们的(10M)。我们使用他们发布的代码生成的合成数据和与我们相同的训练策略。它在大规模模型大小(高达11B参数)下表现良好,并且我们的方法优于具有类似模型大小的变体表10显示了德语和俄语数据集的性能。在相同的设置中,我们基于NAT的合成方法优于基于规则的腐败方法和 大 多 数 基 线 , 但有两 个例 外 。 例 如 , Na'plav a 和Straka[2019]在微调阶段利用了更多的训练策略,例如混合预训练数据和过采样微调数据,检查点平均等。Rothe等人[2021]通过大规模模型容量(高达11B参数)和更多用于预训练的句子对获得最佳性能。我们的方法大大超过了其基础规模的变体。总的来说,德国和俄罗斯数据集上的性能证明了我们的统一策略和基于NAT的合成方法的有效性,该方法单独执行具有竞争力的结果,并很好地补充了基于规则的腐败方法。方法F 0。5规则(单晶片)规则(Aspell)% s规则(合并)% s60.8763.4962.55维基编辑规则+维基编辑% s58.0066.66回译往返翻译61.3762.91我们69.17表4:F0. 德国数据集上的5种不同数据构建方法。对于带 * 的方法,他们的结果来自Flachs et al. [2021年]。为了与多种合成构建方法进行公平比较,我们遵循Flachs等人[2021]中的实验设置和模型超参数7。德国数据集的结果见表4。我们的方法显着优于常用的合成方法,如基于规则的方法与Unimorph,Aspell单词替换和维基百科的编辑提取的修订历史。虽然回译对英语有效[Xieet al. ,2018;Kiyonoet al. 2019- 02 - 19 00:00:007我们使用注释的句子对学习不同的纠错模式。往返翻译使用与我们相同的翻译语料库,但由于它通常产生没有语法错误的句子,因此性能较差3.5消融研究方法PRF 0。5我们73.8660.7470.8- [MASK]更换71.1755.0767.24- [MASK]插入72.5259.0069.34- 编辑后73.0061.3670.34- 双语约束71.1755.8967.48带有自回归转换器66.9955.4464.31表5:我们的方法在德国数据集上使用不同方案的性能- 表示删除组件或将其替换为基于规则的操作。我们进一步进行了消融研究,如表5所示。总的来说,我们发现所有这些变体的表现都比原始策略差。从最后一行来看,PXLM比相同设置下的常规翻译模型要好得多训练数据和样本策略)。我们的方法可以控制重叠和错误的程度,同时AT生成没有语法错误的干净句子或与原始句子的重叠最小。基于NAT的替换和双语约束的去除也导致了显著的退化,这表明具有相似语义的替换在我们的策略中起着至关重要的作用。3.6错误类型分析我们分析了不同错误类型下数据构造方法的GEC性能。我们使用自动错误注释工具ERRANT [Bryantet al. 2017年]进行评估。 表6显示了F0。德国数据集上前9个错误类型的5分我们可以观察到,与从头开始训练的模型相比,我们的方法在所有错误类型中都显着改进了模型,并且在以下方面优于基于规则的腐败+v:mala2277获取更多论文→→→→→→法术百分之三十八点六其他32.7%4.3%ORTH9.8%PNOUN名词百分之十四点六法术百分之二十八点九其他36.3%ADP百分之九点二新标点11.4%百分之十四点三(a) 基于规则的腐败。(b)我们的做法。表6:合成数据构建方法在德国数据集的前9个错误类型上的性能。9种错误类型中的7种。例如,最大的改善- ment来自'其他'类型的6.5 F 0。5分,其被定义为不属于任何其他特定类型的错误,例如释义(例如,感到高兴被点燃)[布莱恩特等。,2017]。这种错误类型超出了预定义的规则并且难以模拟[Zhouet al. ,2020]。我们的方法的第二大改进来自“确定器”(例如,一些),因为基于NAT的方法可以基于双语上下文替换具有相似语义的标记。这一点也适用于“改善”图3:不同合成数据构建方法的前5个错误类型分布。Source情况之所以特别严重,是因为该项法律在许多方面面是其他法律的基础。(The这一情况特别严重,因为这部法律在许多方面是其他法律的基础。BT situation particularly serious becausethis lawin manyother1aspects是其他法律的基础。(The 情况特别严重,因为在许多其他方面,这项法律是其他法律的基础。规则情况之所以特别1,是因为这项法律 在方面 2是I mean,I 'm sorry. I'm sorry.(The情况是特殊的1,因为在方式2,目标:“形式最好的最好的)。此外,我们的方法RT甚至擅长在),“拼写”,直观上更适合基于规则的方法。法律是其他法律的基础(3)。情况特别严重,因为该法律在许多方面是其他法律的基础。(The这一情况特别严重,因为这部法律在许多方面是其他法律的基础。两个例外是“正字法”和“代词”。‘Or- thography’ refersto the error related with case or 下一次下一次),其中的具体规则能够很好地模拟Oursituationis1 particularly important2becausethislawinmany casesI mean,I'm not going to tell you what you're doing.(The情况需要1特别重要2,因为在很大程度上3这一法律是基础,代替名词(例如,you yourself),这也属于基于规则的方法的优势,并有助于特定于语言的混淆集。我们还观察到这两种合成数据源的组合产生了更好的结果,这表明它们有助于相互补充以丰富纠错模式。来源BT规则(5)其他法律的解释。In this paper,we discuss the relationshipbetween the mechanism and the relationshipbetween the mechanism and the mechanism.(In生活质量很差)。I mean,I'm sorry. I'm sorry.(In他们的生活质量很差1)。The results showed that the results of the study showed that theresults of the results.(In,短她无聊1生活为了验证我们的解释,我们在图3中展示了基于规则的腐败的前5个错误类型分布和我们的方法。我们的方法产生了更多的“其他”类型的错误与“拼写”错误,这可能是该类别的显着改善。基于规则的破坏所产生的“语法”和“代词”错误的大比例类型我们的方法也生成了3.7为例为了对生成的错误句子进行定性分析,我们在表7中给出了我们的方法和现有合成方法的示例。我们可以看到,回译往往会产生类似的修饰,如去词根删除和简单的释义.基于规则的破坏方法很难模拟人类的写作,因为它直接交换相邻的令牌和执行单词替换,而不考虑句子上下文。往返翻译生成无错误的句子。相比之下,我们的方法生成不太流利的句子,Theresults showed that there was no significant difference between thetwo groups(P> 0.05).(总之,他们的生活质量很差。)Ours可以说1,幸存者2 素质 3很弱 4.(可以这么说1,他们的生存质量23很弱4。)表7:合成错误句子的示例。重写的标记以蓝色突出显示。内容被破坏,并保持在相应的英语句子中保留的意义4相关工作在合成数据上预训练seq2seq模型,然后在注释的纠错句子对上进行微调是GEC的常见做法非英语语言的可用数据集,如德语[Boyd,2018],俄语[Rozovskaya和Roth,2019],捷克语[N a'pl av a和Straka ,2019] 和西班牙语[Davidsonet al. ,2020]只包含不到50000对,这导致对合成数据构建的质量要求很高。方法没有一规则我们两错误类型比F 0。5F 0。5F 0。5 F 0。5标点14.958.6772.4173.9873.75拼写14.043.8976.7377.6478.76其他9.88.6429.1835.6631.51决定子:FORM9.758.4380.6281.3981.9正字法8.366.3876.3373.777.72贴附5.628.1552.353.251.7确定器4.72550.155.957.1形容词:形式457.1481.4482.2983.41代词3.919.4447.945.851.4+v:mala2277获取更多论文回译(BT)是GEC的逆过程,它把正确的句子作为输入,错误的句子作为输出。它是流行的和有效的英语GEC [Geet al. , 2018;Xieet al. , 2018;Kiyonoet al. ,2019;Wanet al. ,2020;Stahlberg和Kumar,2021],但是难以适应这些低资源场景,因为难以学习具有较少注释的句子对的多种纠错模式。往返翻译(例如,将德语翻译成英语,然后再翻译回德语)[Lichtargeet al. ,2019年]已被指责为错误,它引入了相对干净,并实现了较差的性能,在非英语语言中,如我们的实验所示。在非英语语言上最有效的构造方法是基于规则的腐败[N a'pl av aand Straka , 2019;Grundkiewicz and Junczys-Dowmunt,2019]。它们中的大多数依赖于ASpell或特定语言混淆集的单词替换。它需要精心设计的规则来模拟不同语言之间的各种语言现象。Rotheet al.[2021]仅执行语言不可知的操作,而没有任何混淆集来构建损坏的句子,但在中等模型大小下实现了较差的性能。从每个页面的修订历史中提取的维基百科编辑是另一个有用的GEC预培训资源[Boyd,2018;Flachset al. ,2021]。中国GEC 的 大 多 数 研 究 集 中 在 模 型 架 构 [Fuet al. ,2018;Zhouet al. ,2018;Renet al. ,2018年]或培训策略[赵和王,2020年],这与我们的方法正交。与我们最相似的方法是Zhouet al.[2020],它分别训练了两个质量较差和良好的自回归翻译模型 对于源语言中的同一个句子,他们将两个模型的两个翻译视为纠错句对。相比之下,我们的方法直接利用PXLM的非自回归翻译能力,而无需额外培训翻译人员利用预先训练的语言模型来提出用于替换和插入的候选词也已应用于词汇替换[Zhouet al. ,2019],文本生成[Liet al. 相比之下,我们采用双语约束来避免候选词与原始含义的不一致,这对GEC的数据构建起了重要作用。如何在GEC seq 2seq模型中利用预训练的语言模型已经 得 到 了 广 泛 的 探 索 [Katsumata 和 Komachi ,2020;Wanget al. ,2020b;Kanekoet al. ,2020]。在本文中,我们用DeltaLM初始化模型[Maetal. ,2021],其通过自监督预训练将InfoXLM初始化的编码器-解码器模型调整到生成模式。5结论和未来工作我们提出了一个统一的和通用的策略,在非英语语言的训练GEC系统给定的PXLM和并行翻译数据。我们的方法在NLPCC 2018任务2数据集(中文)上获得了最先进的结果,并在德国和俄罗斯基准测试中获得了具有竞争力的结果合成句子对还补充了基于规则的corculation-tion,以产生进一步的改进。与普通PXLM的NAT可以控制生成的句子和原始句子之间的重叠程度双语约束也保证了样本词不会偏离原始意义,这在我们的策略中起着重要的作用。我们计划研究使用回译英语句子而不是黄金英语句子是否会导致类似的性能,这可以摆脱翻译语料库大小的数量限制,生成无限数量的纠错句子对。引用MartaBan Ningbo'n , PinzhenChen , BarryHadd ow ,KennethHeafield , HieuHoang , MiquelEsp la`-Gomis ,Mi k elL. 福尔-卡达、阿米尔-卡姆兰、法希姆-基雷富、菲利普-科恩、塞尔吉奥-奥尔蒂斯-罗哈斯、莱奥波尔多-普拉-森佩雷、吉马-拉姆-萨纳兹、埃尔莎-萨尔-拉斯、马雷克-斯特雷克、布赖恩-汤普森、威廉-韦茨、迪翁-威金斯和豪姆-萨拉戈萨。ParaCrawl:网络规模的平行语料库采集。在计算语言学协会第58届年会的会议记录中,第4555-4567页,在线,2020年7月。计算语言学协会。Loıc Barrault,Magdalena Biesialska,Ond Zarrej Bojar,MartaR.Costa-jussa`,ChristianFedermann,YvetteGraham,Ro-man Grundkiewicz,Barry Haddow,Matthias Huck , Eric Joanis , Tom Kocmi , PhilippKoehn,Chi-kiuLo,NikolaLjubesouic`,ChristofMonz ,Mak otoMorishita ,MasaakiNa- gata,Toshiaki Nakazawa ,Santanu Ragi,Matt Post和Mar-cos Zampieri。2020年机器翻译会议在第五届机器翻译会议集,第1-计算语言学协会。阿德里安·博伊德使用维基百科编辑在低资源语法错误纠正。在2018年EMNLP研讨会W-NUT的会议记录:第四届嘈杂的用户生成文本研讨会,第79-84页克里斯托弗·布莱恩特,马里亚诺·菲利斯,和泰德·科科。语法纠错中错误类型的准确标注与评价。在计算语言学协会第55届年会论文集,第793-805页Zewen Chi,Li Dong,Furu Wei,Nan Yang,SakshamSinghal,Wenhui Wang,Xia Song,Xian-Ling Mao,Heyan Huang,and Ming Zhou.Infoxlm:一个跨语言语言模型预训练的信息理论框架。arXiv预印本arXiv:2007.07834,2020。Daniel Dahlmeier和Hwee Ng。更好地评估语法错误纠正。在2012年计算语言学协会北美分会会议论文集:人类语言技术,第568-572页,2012年Sam Davidson 、 Aaron Yamada 、 Paloma FernandezMira、Agustina Carando、Claudia H Sanchez Gutierrez和Kenji Sagae。用新语料库开发自然语言处理工具学习西班牙语。第12届语言资源和评估会议论文集,第7238-7243页,2020年。+
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功