增强数据扩充：提升低资源语言的语法错误纠正性能

141 浏览量更新于2024-06-17 收藏 1.75MB PDF 举报

"这篇学术论文探讨了在低资源环境下优化语法错误纠正（GEC）的数据扩充方法。针对语言多样性问题，特别是对于使用神经机器翻译（NMT）技术的GEC任务，研究提出了一种积极的转换策略，旨在增加训练数据的有效性。通过增强数据作为辅助任务，当目标前缀对下一个单词预测无帮助时，该方法能提升编码器的表现，使GEC模型在解码阶段更加依赖编码器的文本表示，从而提高模型的性能和泛化能力。研究中，阿拉伯语的GEC被选为案例研究，实验显示，使用该方法训练的GEC模型在小规模训练数据集和领域转移情况下，减少了幻觉错误，增强了源信息的保留，并提高了对领域偏移的鲁棒性。对比基线方法和传统的数据增强及合成数据方法，提出的策略表现出优越性。具体来说，结合Misspelling、Swap和Reverse三种最佳方法在两个基准测试中实现了最高的F1分数，超越了之前针对阿拉伯语GEC的方法。论文的作者来自不同国家的多所大学，包括华南理工大学、萨伦托大学、武汉理工大学、福特汉姆大学和沙巴大学等，展示了国际化的研究合作。该研究对于解决低资源语言的GEC问题提供了新的视角和解决方案，强调了在深度学习中处理数据稀疏性和语言多样性的重要性。" 这篇论文的核心知识点包括： 1. **语法错误纠正（GEC）**：这是自然语言处理的一个领域，旨在检测并修正文本中的语法、拼写、标点和单词位置错误。 2. **神经机器翻译（NMT）**：NMT是一种基于深度学习的翻译技术，常用于GEC任务，但可能受到训练数据量不足和领域转移的影响。 3. **数据扩充**：为了应对NMT在低资源环境下的挑战，研究者提出了一种积极的数据转换策略，通过增强数据来改善模型性能。 4. **编码器-解码器架构**：在NMT模型中，编码器负责理解输入文本，解码器则生成纠正后的文本。研究中，通过增强数据使解码器更多地依赖编码器的上下文信息。 5. **语言多样性问题**：不同的语言有其独特的结构和规则，这对通用的GEC模型构成挑战。研究强调了考虑语言多样性的必要性。 6. **积极的转换方法**：在目标前缀对下一个单词预测无帮助时，通过这种方法增加数据的多样性，以提高模型的学习效果。 7. **实验与评估**：使用阿拉伯语GEC任务进行实证研究，证明了提出方法的有效性，特别是在小数据集和领域偏移情况下的表现。 8. **鲁棒性**：优化后的GEC模型在面对领域偏移时展现出更强的鲁棒性，减少了错误的发生。 9. **最佳方法的组合**：Misspelling、Swap和Reverse三种方法的结合达到了最佳的F1分数，显示出在实际应用中的优越性能。 10. **开放访问**：该论文遵循CC BY许可，意味着所有读者都可以免费访问和使用研究成果，促进了科研知识的传播和共享。

A. Solyman

，

M.Zappatore

，

W.Zhenyu et al.

沙特国王大学学报

引入了称为

“

流畅性提升学习

”

的迭代路由过程，该过程采用

CNN

来

显著提高

GEC

系统的准确性和流畅性。

Acheampong

和

Tian

（

2021

）提出了一种基于级联学习策略的

GEC

系统，该系统减少了

神经

GEC

系统对大量训练数据的需求

Xie

等人（

2018

）使用波束搜

索噪声技术从单语言数据中构建并行

GEC

训练数据，其性能与原始数

据相当。

Wan

等人（

2020

）提出了通过编辑语法句子的潜在表示来

增强

GEC

的数据，这增加了训练示例的多样性。

Grundkiewicz

等人

（

2019

）采用拼写检查器从域外单语语料库中合成并行训练数据，

用于训练多头注意力网络。对于印度尼西亚的

GEC

系统，

Musyafa

et al.

（

2022

）提出了一种应用于基于

transformer

的复制增强方

法，通过将正确或未修改的单词从源文本复制到目标文本来提高准确

性。

Sun

等人（

2022

）提出了一种通用的、独立于语言的

多语言

GEC系统策略，利用了现有的资源，如

语法翻译数据和预先训练的跨

语言语言模型。

Hagiwara

和

Mita

（

2020

）介绍了

GitHub Typo

Corpus

，这是一个针对

种语言的大规模多语言

GEC

训练数据集

Náplava

和

Straka

（

2019

）引入了合成的多语言

GEC

训练数据来训

练变形金刚，在捷克语，德语和俄语方面取得了显着进步

Qorib

等人

（

2022

）提出了一种

GEC

系统，该系统是机器学习和二进制分类方

法的组合，其使用逻辑回归进行二进制分类。该方法在

CoNLL-

2014

和

CoNLL-2019

测试集上都比最先进的方法有了

Lai

等人

（

2022

）提出了一种改进

GEC

模型性能的方法，称为类型驱动

多圈

校正，它解决了现有模型中的曝光偏差问题。该方法涉及为每个原始实

例生成多个训练实例，每个实例针对

特定类型的纠错。这使得模型能

够明确地意识到逐步校正的过程以及不同类型校正之间的

Tarnavskyi

等人（

2022

）提出了一种用于通过在大配置中组装基于

变换器的编码器来改进

GEC

序列标记架构

的方法，从而在不对合成数

据集进行预训练的情况下实现新的最先进的结果。他们的方法包括

对跨

度级别的编辑进行多数投票，他们还使用知识蒸馏来生成合成训练数

据集。

2.2.

阿拉伯语

GEC

在

2014

年成功的共享任务之后，阿拉伯语

GEC

开始受到更多的关

注（

Mohit

等人，

2014

）和

2015

（

Rozovskaya

等人，

2015

年）。

尽管早期受到关注，但阿拉伯语

GEC

仍然缺乏训练数据，因为唯一

的注释阿拉伯语训练数据仅由

，

430

个示例组成

Rozovskaya

等人

（

2014

），介绍了一个混合阿拉伯

GEC

系统，由基于规则和机器学

习的方法。

Nawar

（

2015

）提出了另一种解决方案，使用单词模式

和基于规则的统计数据来检测和纠正语法错误。基于角色的系统可能

无法处理所有类型的语法错误，尤其是那些更复杂或涉及语义错误的

语法错误。

Sina

（

2017

）在

AGEC

中采用了

seq2seq RNN

和注意力

机制。

Abandah

等人（

2022

）采用双向长短期分类法（

BidLSTM

）

对现代和古典阿拉伯语文本中的软拼写错误进行了基于字符水平的纠

正。

Madi

和

Al-Khalifa

（

2020

）使用

LSTM

，

BiLSTM

和

SimpleRNN

基线来

https://www.comp.nus.edu.sg/nlp/conll14st.html

。

https://codalab.lisn.upsaclay.fr/competitions/4057

。

检测错误，其性能优于商业阿拉伯语

Gram- mar

搜索引擎

（

Microsoft Word 2007

），并且还引入了自己的训练数据。

Watson

等人（

2018

）讨论了

FastTest

预训练的单词嵌入和

seq2seq

BidLSTM

，以在

GEC

中获得更多的

Solyman

等人（

2019

）提出了

一种基于

CNN

的

AGEC

模型，该模型在

Solyman

等人（

2021

），

由经典混淆方法和

CNN seq2seq

模型组成的

GEC

框架，由九个卷积

层和注意力机制组成。基于

GEC RNN

的系统因其在检测错误方面的

可靠性而被广泛认可，但承认其易出错性和对偶尔错误的敏感性是至

关重要的此外，值得注意的是，基于

RNN

和

CNN

的

GEC

系统可能不

适合纠正更复杂的句子结构和更长范围的依赖关系。最近，提出了基

于配备有胶囊网络和双向规则项策略的组合的自注意力网络的

AGEC

模

型（

Solyman

等人，

2022

年）。

Pajak

和

Pajak

（

2022

）用七种不同

的语言（包括阿拉伯语）为

GEC

调整了一组预先训练的多语言模型，如

mBART、mT5或xBartNet

，并报告了令人鼓舞的结果。

总而言之，自动语法校正在过去几十年中已经有了显著的发展，从

基于规则的系统和n-gram模型开始到更高级的技术，例如基于NMT的

方法。最近开发的大型语言模型，如GPT-3和Pathways，引起了人们

的兴趣在这一领域的进展。然而，由于缺乏训练数据，低资源语言和

英语低资源研究轨道的GEC构成了重大挑战。已经提出了不同的方法来

克服这一挑战，包括流畅性提升学习，级联学习策略，噪声技术，数据

增强和合成GEC训练数据。虽然大多数低资源语言的GEC系统采用两

种策略来克服数据稀疏问题，有必要调查数据增强的影响，以更有效地

解决这个问题。本文的目的是提出数据增强的方法，能够增加解码过程

中的源的贡献。这方面还没有被认真研究，我们提出的工作旨在填补这

一研究空白。

方法

本节介绍了所提出的方法，并描述了它们如何应用于Vaswani等人

提出的基于转换器的基础架构的修改版本。（2017），作为一个神经翻

译任务。使用NMT的GEC旨在通过利用Transformer架构来构建一个

能够自动检测和纠正文本中语法错误的模型。这可以通过训练模型来

实现，以最小化在给定输入的情况下生成正确输出的负对数似然。这个

损失函数被称为最大似然估计（MLE）损失，它可以表示为：

最大似然估计（

MLE

）：

4 E

;

log

]

在

此

表达式中，

;

Y 表示

训练数据中输入输出对的经验分布

，其

中

和

分别表示输入和输出序列

。使用NMT的GEC的中心目的是优化

对于给定输入序列x生成正确输出序列y的可能性。该目标通过计算给定

输入序列的输出序列在训练数据中的所有可行输入-输出对上的对数概率

的期望来实现

，如由

p ^X ; Y ^

表示

。

在数据扩充中，令X和Y为相应的扩充版

本。基于神经元的seq2seq GEC系统的训练目标是最大化P

的似然

估计

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

增强数据扩充：提升低资源语言的语法错误纠正性能

数据增强方法

一种LR语法分析中的错误恢复方法

ChatGPT技术如何识别和纠正常见的语法错误.docx

实体识别错误分析与优化：深入理解并解决常见问题

【数据处理与清洗】：打造聊天机器人语义识别的数据基石

【自定义数据集处理】：Hugging Face数据准备实战技巧大公开

词汇管理的艺术：在SpaCy中优化和扩展词汇表的秘诀

数据增强的边界极限：如何巧妙避免过增强陷阱

【文本数据预处理全攻略】：自然语言处理的关键步骤

【高级数据增强技巧】：NLP模型性能提升的秘密武器

最新资源