低资源NER的屏蔽实体语言建模（MELM）的数据扩充方法及其在多语言NER中的有效性

199 浏览量更新于2023-11-30 收藏 1.19MB PDF 举报

数据扩充

影响因素

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文MELM：面向低资源NER的带周冉1，2李欣<$1何瑞丹1李冬冰1埃里克·坎布里亚2罗思1苗春燕21阿里巴巴集团DAMO学院2新加坡南洋理工{周冉，新婷，何瑞丹，l.bing，luo.si}@ alibaba-inc.com{cambria，ascymiao}@ntu.edu.sg摘要数据扩充是解决低资源情景下数据稀缺问题的有效方法。然而，当应用于令牌级任务（如NER）时，数据增强方法通常会遭受令牌-标签不对齐，这会导致不满意的性能。在这项工作中，我们提出了一种新的数据扩充框架，低资源NER的屏蔽实体语言建模（MELM）。为了缓解标记-标签不对齐问题，我们显式地将NER标签注入到句子上下文中，因此微调的MELM能够通过对它们的标签进行解释性条件化来预测被掩蔽的实体标记。因此，MELM生成具有新实体的高质量增强数据，这提供了丰富的实体规则性知识并提高了NER性能。当有多种语言的训练数据时，我们还将MELM与代码混合相结合以进一步改进。我们证明了MELM在单语，跨语言和多语言NER在各种低资源水平的有效性。实验结果表明，我们的MELM提出了实质性的改善基线方法。11引言命名实体识别是自然语言处理的一个基本任务，它的目的是定位命名实体并将其分类到预定义的类别中。作为信息提取的子任务，它是信息检索的关键构建块（Banerjee et al. ，2019）、问题回答（Fabbri et al. ，2020）和文本摘要系统（Nallapati et al. 然而，除了少数高资源语言/领域外，大多数语言/领域的资源量有限。周伟然博士为联合博士。阿里巴巴和南洋理工大学之间的项目。†通讯作者1我们的代码可以在https://github.com/RandyZhouRan/MELM/上找到。标签数据。由于为每种语言/领域手动注释足够的标记数据是昂贵的，因此低资源NER（Cotterell和Duh，2017; Feng et al. ，2018; Zhou et al. ，2019; Rijhwani et al. ，2020）在过去几年中受到研究界越来越多的关注。作为低资源场景中数据稀缺的有效解决方案，数据增强通过应用标签保持转换来扩大训练集。NLP的典型数据增强方法包括（1）单词级修改（Wei和Zou，2019; Kobayashi，2018; Wu等人，2019）。，2019; Kumar et al. ，2020年）和(2)反向翻译（Sennrich et al. ，2016; Fadaeeetal. ， 2017; Dong et al. ， 2017; Yu et al. ，2018）。尽管在标记级任务上有效，但当应用于像NER这样的标记级任务时，它们会遇到标记-标签不对齐的更具体地说，单词级修改可能会用与原始标签不匹配的替代项替换实体反向翻译创建了在很大程度上保留原始内容的增强然而，它依赖于外部的单词对齐工具来将标签从原始输入传播到增强文本，这已经被证明是容易出错的。为了将数据增强应用于令牌级任务，Dai和Adel（2020）提出用同一类的现有实体随机替换实体提及。它们避免了标记-标签错误对齐问题，但实体多样性并没有增加。此外，被替换的实体可能不适合原始上下文。Li等人（2020 a）通过仅使上下文多样化来避免标记-标签不对齐问题，其中他们使用MASS替换上下文（具有“O”标签）标记（Song等人，2012年）。，2019年），并离开实体（即，在他们的任务方面的条款然而，根据 Lin et al.（2020）中的NER评估，对上下文的增强对基于预训练LM的NER模型的改进很小。arXiv：2108.13655v2[cs.CL]2022年3月+v：mala2277获取更多论文图1：多样化实体和多样化背景之间的有效性比较。给定N个黄金样本，添加实体用来自额外黄金样本的新实体替换它们的实体相反，添加上下文重用现有的实体，并将它们插入到额外的黄金样本的上下文中.两种方法均产生N个扩增样本。我们对低资源NER的初步结果（见图1）也表明，在训练数据中多样化实体比引入更多上下文模式更有效受上述观察结果的启发，我们提出了掩蔽实体语言建模（MELM）作为低资源NER的数据增强框架，该框架生成具有不同实体的增强数据，同时减轻了标记-标签不对齐的挑战。MELM建立在预训练的掩蔽语言模型（MLM）上，并且它进一步对损坏的训练句子进行微调，其中仅实体令牌被随机掩蔽以促进面向实体的令牌替换。使用微调的MLM简单地屏蔽和替换实体标记仍然是不够的，因为预测的实体可能与原始标签不一致以图2b中所示的句子为例，在掩蔽命名实体“欧洲联盟”（组织）之后这种预测符合上下文，但与原始标签不一致为了缓解这种不对齐现象，MELM还引入了标记序列线性化策略，在每个实体标记之前和之后分别插入一个标记因此，掩码令牌的预测取决于不仅是上下文，还有实体的标签。在注入标签信息和微调后，在标签增强的NER数据上，我们的MELM可以利用来自预训练的丰富知识来增加实体多样性，同时大大减少标记-标签不对齐。代码混合（ Singhet al. ， 2019; Qin et al. ， 2020;Zhang et al. ，2021）通过使用可用的多语言训练集创建额外的代码混合样本来实现有希望的结果，这在每种语言的训练数据稀缺时特别有益。幸运的是，在多语言低资源NER的场景中，我们的MELM也可以应用于代码混合的例子，以进一步提高性能。我们首先通过用外语的相同类型的实体替换源语言句子中的实体来应用码混合然而，即使通过用相同类型的实体替换来保证标记-标签对齐，候选实体也可能不最适合原始上下文（例如，用足球俱乐部替换政府部门）。针对这一问题，提出了一种基于双语嵌入的实体相似性搜索算法，从其他语言的训练实体中检索出语义最最后，在将语言标记添加到代码混合数据之后，我们使用它们来微调MELM以生成更多的代码混合增强数据。概括起来，本文的主要贡献如下：（1）我们提出了一个新的框架，该框架联合利用句子上下文和实体标签进行基于实体的数据增强。在单语言、跨语言和多语言低资源NER上进行评估时，它始终实现了实质性的改进;（2）所提出的标记序列线性化策略有效地解决了增强过程中的标记-标记不对齐问题;（3）开发了一种实体相似性搜索算法，以更好地桥接基于实体的数据增强和多语言场景中的代码混合2方法图2c展示了我们提出的数据增强框架的工作流程。我们首先执行标记序列线性化，将实体标签标记插入到NER训练句子中（第2.1节）。然后，我们在线性化序列上微调所提出的MELM（第2.2节），并通过生成不同的实体来创建增强数据，+v：mala2277获取更多论文Σ⟨⟩(a)(b)（c）第（1）款图2：不同数据增强方法的比较，彩色打印是首选。(a)使用预训练的MLM增强（b）使用MELM增强而不线性化（c）使用MELM增强掩码实体预测（第2.3节）。增强后的数据经过后处理（第2.4节），并与原始训练集相结合，用于训练NER模型。算法1给出了整个框架的伪代码在多语言场景下，我们建议线性化的句子X具有掩蔽比η。然后，给定损坏的句子X作为输入，我们的MELM被训练以最大化被掩蔽的实体令牌的概率n实体相似性搜索算法作为改进的代码混合策略（第2.5节），并将我们的MELM应用于黄金训练数据的联合集，Maxθlogpθ（X|X）milogpθ（xi|（1）i=1代码混合数据，以进一步提高性能。2.1标记序列线性化为了最小化生成的与原始标签不兼容的标记的数量，我们设计了一个标记序列线性化策略，以显式地在掩码语言建模过程中考虑标签信息。具体来说，如图2c所示，我们在每个实体标记之前和之后添加标签标记，并将它们视为普通上下文标记。所产生的线性化序列被用于进一步微调我们的MELM，使得其预测另外以插入的标签标记为条件。请注意，我们将标签标记的嵌入初始化为与标签名称语义相关的标记的嵌入（例如，）.通过这样做，线性化序列在语义上更接近于自然句子，并且线性化序列可以减少（Kumar et al. ，2020）。2.2微调MELM与MLM不同，在MELM微调期间只屏蔽实体令牌在每个微调时期开始时，我们随机屏蔽其中，θ表示MELM的参数，n是X中的到k个的数量，xi是X中的原始令牌，如果xi被屏蔽，则mi=1，否则mi= 0。通过上述微调过程，建议的MELM学会利用上下文和标签信息两者来预测被掩蔽的实体令牌。正如我们将在4.1节中演示的那样，与其他方法相比，微调MELM生成的预测与原始实体标签更加一致2.3数据生成为了生成NER的增强训练数据，我们应用微调的MELM来替换原始训练样本中的实体。具体来说，给定一个损坏的序列，MELM输出词汇表中每个标记是被屏蔽实体标记的概率。然而，由于MELM是在相同的训练集上微调的，因此直接挑选最可能的标记作为替换很可能返回原始训练样本中的掩蔽实体标记，并且可能无法产生新的增强句子。因此，我们建议从概率分布的前k个最可能的分量中随机抽样替换形式上，给定概率分布+v：mala2277获取更多论文M ←M{}∈联系我们联系我们←M←←V我{D火车Σ我−⊆|算法1：Masked Entity Language Modeling（MELM）给定D火车，Md给定黄金训练集D火车和预先训练的传销MDmasked←，D aug←对于{X，Y}∈D火车，E（X，Y）d标记序列线性化X<$←FINETUNEMASK（X<$ ，η）d随机屏蔽实体进行微调DmaskedDmaskedX端finetuneFINETUNE（，Dmasked）d在掩码线性化序列上微调MELM对于X，Y和D掩蔽，重复R次：X轴LINEARIZE（X，Y）d标记序列线性化X轴GENMASK（X，µ）d随机屏蔽Xaug代的实体R和CHOICE（finetun e（X），Topk=5）d使用微调的MELM生成增强数据DaugDaug Xaug端八月 ←POSTPROCESS（Daug）d后处理回程D列车，8月24日P（xiXn），我们首先选择k个最可能的候选者的集合k V。然后，我们通过从V k中随机采样来获取替换xi。在获得生成的序列之后，我们移除标签令牌并使用剩余部分作为增强的训练数据。对于原始训练集中的每个句子，我们重复上述生成过程R轮，以生成R增强的例子。为了增加增强数据的多样性，我们采用了与训练时间不同的掩蔽策略建议的MELM对语言特定的数据，以提高性能。尽管如此，它提供了更高的潜力，使MELM之上的代码混合技术，这被证明是有效的，在加强多语言学习（辛格等人。，2019;Qin et al. ，2020; Zhang et al. ，2021年）。本文提出了一种基于实体相似性搜索的MELM友好混码算法，该算法将MELM扩展与混码相结合具体地说，给定的黄金训练集对于包括n个令牌的每个实体L火车| l ∈ L} over a set L of languages, we first我们随机抽取一个动态掩蔽率从高斯分布N（μ，σ2），其中收集标签式实体集合E1，y，其包括出现在D1中的实体，高斯方差σ2被设置为1/n2。因此，相同的句子在每个R增强轮中将具有不同的掩蔽结果，从而产生更多样的增强数据。2.4后处理为了从增强数据中去除噪声和信息量较少的样本，生成的增强数据经历后处理。具体来说，我们用可用的黄金训练样本训练NER模型，并使用它自动为每个增强句子分配NER标签。仅增强y级。为了对源语言句子Xlsrc应用码混合，我们的目标是用目标语言实体esub∈Eltgt，y替换标记为y的所提到的实体e，其中目标语言被采样为ltgt<$U（L\ {lsrc}）。而不是随机从Eltgt，y中选择esub，我们选择检索与e具有最高语义相似性的实体为esub。实际上，我们介绍了MUSE双语嵌入（Conneau etal. ，2017），并通过对实体令牌的嵌入求平均来计算实体|e|保留预测标签与其原始标签一致的句子。将后处理的增强训练集DaugEmb（e）=1MUSE|e|i=1lsrc，ltgt（ei）（2）用黄金训练集D训练来训练最终的NER标注者。2.5扩展到多语言场景当将低资源NER扩展到多语言场景时，其中MUSE_l_src，l_tgt表示l_src ltgt对齐嵌入，ei是e的第i个令牌。接下来，我们如下获得子语义上最接近e的目标语言实体e：esub=argmaxf（Emb（e），Emb（e））（3）e∈Etgt，y+v：mala2277获取更多论文∈dev火车联系我们−测试火车dev测试火车D作为f（·，·）这里是余弦相似度函数。的DEn，DDe，，DEs上的项集和赋值和DN1，然后使用输出实体esub来替换e，以创建更适合MELM分别测试测试测试测试增强为了生成更多具有不同实体的增强数据，我们进一步将MELM应用于黄金和代码混合数据。由于训练数据现在包含来自多种语言的实体，因此我们还在实体标记前添加了一个语言标记，以帮助MELM区分不同的语言，如图3所示。图3：将MELM应用于gold和代码混合数据。语言标记（例如，）在线性化过程中插入。3实验为了全面评估MELM对低资源净入学率的有效性，我们考虑了三种评估场景：单语言，零射击跨语言和多语言低资源净入学率。3.1数据集我们在四种语言的 CoNLL NER 数据集（Tjong Kim Sang，2002;Tjong Kim Sang和De Meulder，2003）上进行实验，其中L={ 英语（ En ），德语（ De ），西班牙语（Es），荷兰语（NI）}。对于每种语言L，我们首先从完整训练集中采样N个句子作为Dl，N，其中N 100，200，400，800以模拟不同的低资源水平。对于实际的数据分割比，我们还将完整的开发集缩减为N个样本，如D1，N。采用每种语言的完整测试集作为Dl进行评估。对于低资源水平N ∈ {100，200，400，800}的语言l的单语实验，我们使用Dl，N作为金训练数据，Dl，N作为开发集，Dl作为测试集。对于具有低资源水平N∈ {100，200，400，800}的零触发跨语言实验，我们使用DEn，N作为源语言黄金训练数据，DEn，N为3.2实验环境我们使用 XLM-RoBERTa- base （ Conneau etal. ，2020）与语言建模头一起初始化MELM参数。MELM使用Adam优化器（Kingma和Ba，2015）微调了20个时期，批量大小设置为30，学习率设置为1e−5。NER模型我们使用XLM-RoBERTa-Large（Conneau et al. ，2020年）与CRFHead（Lample et al. ，2016）作为NER模型我们的实验 2 我们采用 Adamw 优化器（Loshchilov和Hutter，2019），学习率设置为2e5，批量大小设置为16。 NER模型训练10个epoch，并根据开发集性能选择在测试集上对训练好的模型进行评估，我们报告了3次运行的平均Micro-F1分数超参数调整掩蔽率 η在 MELM 微调中，MELM生成的高斯平均值μ和MELM增强轮数R分别设置为0.7、0.5和3。所有这些超参数都是在网格搜索的开发集上调优的。超参数调整的详细信息可参见附录A.13.3基线方法为了详细说明所提出的MELM的有效性，我们将其与以下方法进行比较：NER模型仅在原始黄金训练集上训练标签式替换Dai和Adel（2020）用原始训练集中相同实体类型的现有实体随机替换命名实体MLM-Entity我们随机屏蔽实体令牌，并直接利用预训练的MLM进行数据扩充，而无需进行MELM中使用的微调和标记序列线性化。掩码实体令牌的预测不考虑标签信息，而仅依赖于上下文单词。DAGADing et al. （2020）首次线性化NER发展集和DDe，DEs和Ddev标签到输入的句子，然后使用它们测试测试NL试验作为焦油，获取语言测试集。在多语言设置其中来自每种语言的N个训练数据是可用的。来训练自回归语言模型。的语言模型用于合成增强的able（N∈ {100，200，400}），我们使用Sdevl∈Ll，N火车2https://github.com/allanj/pytorch_黄金训练数据Sl∈L D1，N为展开-神经CRF+v：mala2277获取更多论文数据从头开始，其中上下文和实体都是同时生成的。MulDA Liu等人（2021）微调mBART（Liu等人，，2020年）的线性化多语言NER数据，以生成具有新的上下文和实体的增强数据。3.4实验结果3.4.1单语和跨语净入学率如表1左侧所示，所提出的MELM在不同的低资源水平上始终达到最佳平均结果，证明了其对单语净入学率的有效性与表现最好的基线相比，我们的MELM获得了6.3，1.6，1.3，0.38的绝对值分别在100、200、400和800水平上获得收益跨语言NER结果显示在表2的右侧。同样，在每一个设计的低资源水平，我们的MELM是优于基线方法的平均F1分数。我们还注意到，给定100个NI训练样本，没有数据增强的Gold-Only方法几乎无法收敛，而我们的MELM的单语F1达到66.6，这表明当注释的训练数据非常稀缺时，数据为了评估所提出的标记序列线性化的有效性（第2.1节），我们直接在没有线性化的掩蔽句子上微调MELM（如图2b所示），在表1中表示为MELMw/o linearize。我们观察到一个considerable性能下降相比，MELM，这证明通过线性化注入的标签信息确实有助于MELM区分不同的实体类型，并生成与原始标签兼容的实体。仔细看看基线方法，我们注意到，标签明智的单语性能在大多数情况下仍然是不令人满意一个可能的原因是仅使用训练数据内的现有实体进行替换，并且没有增加增强后的实体多样性此外，随机采样相同类型的实体进行替换可能会导致上下文和实体之间的不兼容，从而产生用于NER训练的虽然MLM-Entity试图通过使用预训练的MLM来生成适合上下文的新令牌来缓解这两个问题，但生成的令牌可能与原始标签不一致。我们的MELM还促进实体多样性，通过利用预训练的数据增强模型来增强数据同时，配备了标记序列线性化策略，MELM增强明确地由标签信息引导，并且标记-标签不对齐在很大程度上得到缓解，从而导致与标签方式和MLM-Entity相比更优越的结果我们还比较DAGA（丁等。，2020），其使用在黄金NER数据上训练的自回归语言模型从头开始生成增强数据。虽然DAGA在400和800的低资源水平上具有竞争力，但当训练大小减少到100或200时，它仍然大大低于所提出的MELM。我们将此归因于训练不足的语言模型生成的不流利和不合语法的MELM不是从头开始生成增强数据，而是专注于修改实体令牌并保持上下文不变，这保证了增强句子的质量，即使在非常低的资源设置下。3.4.2多语言NER对于多语言低资源NER，我们首先直接将MELM应用于来自多种语言的训练集的拼接。如表2所示，MELM-gold在仅Gold基线上实现了实质性改善，这与单语和跨语结果一致我们与MulDA（Liu et al. ，2021）作为基线数据增强方法。MulDA使用mBART模型生成增强数据自回归，该模型在NER数据上使用插入的标签令牌进行微调。在我们的实验环境中，在低资源水平下，MulDA是不太有效的，甚至导致性能恶化。不令人满意的性能主要是由于预训练和微调之间的差异，由于插入的标签令牌。由于训练样本很少，很难调整mBART来捕获插入的标签标记的分布，因此MulDA很难从头开始生成流畅和合乎语法的相比之下，我们提出的方法保留了原始上下文，并在增强数据中引入了更少的语法噪声。为了进一步利用多语言NER中代码混合的好处，我们使用两种代码混合方法进行了实验：（1）Code-Mix-random，它随机地将实体替换为来自其他语言的相同类型的现有实体，以及（2）Code-Mix-ess，它采用+v：mala2277获取更多论文#黄金方法En单语De Es Nl跨语言平均En→ DeEn→ EsEn→ Nl Avg仅限黄金50.5739.4742.9321.6338.6539.5437.4039.2738.74标签方面61.3455.0059.5427.8550.9345.8543.7450.5146.70100MLM-实体61.2250.9661.2946.5955.0247.9645.4249.3447.57DAGA68.0659.1569.3345.6460.5452.9546.7254.6351.43MELM，不线性化70.0161.9265.0759.7664.1948.7049.1053.3750.39MELM（我们的）75.2164.1275.8566.5770.4456.5653.8360.6257.00仅限黄金74.6462.8572.6455.9666.5254.9551.2660.7155.64标签方面76.8267.3178.3466.5272.2555.0153.1463.3057.15200MLM-实体79.1670.0178.4566.6973.5860.4457.7268.3762.18DAGA79.1169.8278.9568.5374.1059.5857.6865.7461.00MELM，不线性化81.7771.4180.4372.9276.6362.5763.4970.1865.41MELM（我们的）82.9172.7180.4677.0278.2765.0163.7170.3766.36仅限黄金81.8570.7780.0274.6076.8165.7661.5771.0466.12标签方面84.6274.3381.0177.8779.4666.1867.4371.9368.51400MLM-实体83.8274.6681.0877.9079.3767.4170.2874.3170.67DAGA84.3672.9582.8378.9979.7866.7767.1372.4068.77MELM，不线性化85.1675.4282.3479.3480.5668.0266.0172.9869.00MELM（我们的）85.7377.5083.3180.9281.8768.0870.3775.7871.74仅限黄金86.3578.3583.2383.8682.9565.3168.2872.0768.55标签方面86.7278.2184.4284.2683.4065.6072.2274.7770.86800MLM-实体86.5078.3084.0983.9383.2065.4269.1074.8569.79DAGA86.6177.6684.6484.9083.4568.7670.9775.0271.58MELM，不线性化87.3578.5884.5984.9483.9967.3771.5375.2071.37MELM（我们的）87.5979.3285.4085.1784.3767.9575.7275.2572.97表1：表的左侧显示了单语低资源净入学率的结果。表格右侧显示了以英语为源语言的跨语言低资源净入学率左侧和右侧的平均值分别是所有语言和所有迁移对的平均结果MELM-黄金（我们的）混合随机码MELM-黄金（我们的）混合随机码混合随机码表2：多语种低资源净入学率的结果黄金训练集包含来自每种语言的相同数量的训练样本。平均值是所有语言的平均第2.5节中提出的实体相似性搜索算法作为代码混合策略。表2中的实验结果表明，这两种方法都能够实现改进的性能超过黄金只有。这一观察表明，代码混合技术，无论是随机代码混合或代码混合通过我们的实体相似性搜索，确实是有帮助的多语言NER。比较这两种方法，Code-Mix-ess带来的收益在不同的低资源级别上更加显著和一致，这证明了我们提出的实体相似性搜索算法的有效性将MELM应用于Code-Mix-ess的黄金数据和混合数据，进一步提高了多语言NER结果。总之，我们提出的MELM非常适合多语言NER，它可以与我们的代码混合技术相结合，以实现进一步的改进。4进一步分析4.1为例除了定量结果，我们进一步分析了增强数据，以证明我们的MELM在保持原始标签和增强令牌之间的一致性方面的有效性。表3给出了来自预训练的 MLM 、 MELMw/o linearize 和MELM的前5个预测的示例。如我们所见，预训练的MLM（其不引入任何关于数据增强的设计或约束）倾向于生成诸如“the”、“he”和“she”的高频词MELM使用面向实体的掩码对NER数据进行#黄金方法EnDeEsNlAvg仅限黄金75.6269.3575.8574.3373.79MulDA73.6770.4775.5372.4073.0278.7174.7981.2578.8578.40100×477.3870.5878.6176.4575.75代码混合（我们的）79.5571.5679.5876.4976.80MELM（我们的）80.9675.6181.4780.1479.54仅限黄金83.0676.3982.7179.1980.34MulDA82.3274.5782.7379.0679.6782.9078.0585.9381.0081.97200×482.8675.7083.1379.0880.19代码混合（我们的）83.3476.6482.0282.2781.07MELM（我们的）83.5678.2484.9882.7982.39仅限黄金83.9277.4083.2284.0482.14MulDA84.3778.4184.5483.0982.6086.0479.0985.7684.8383.93MELM-黄金（我们的）400×485.0477.9184.4483.5682.74代码混合（我们的）85.7480.0385.1885.3684.08MELM（我们的）86.1480.3386.6085.9984.76+v：mala2277获取更多论文欧盟拒绝德国呼吁抵制英国羊肉标签B-ORG OB-MISCO O OB-MISCO传销英国，欧盟，英国，特朗普，美国美国，一个，联合国，该，英国，一个，黑色，白色，年轻MELM无线性化欧盟，澳大利亚，美国，联合国，以色列，德国，印度，华盛顿，联盟中国，英国，生，加州，澳大利亚MELM欧盟，绿色和平组织，大赦国际，联合国，路透社德国，英国，荷兰，法国，欧盟非洲，英国，几内亚，白人，法国给克林顿发短信助手辞职，NBC说，标签B-PEROo o B-ORG O传销我的，他的，我的，当，她的，她，它，和，谁MELM无线性化法德英瑞俄路透社蓬佩奥布莱尔希尔法新社MELM法国，白色，沃克，弗格森，大卫NBC，法新社，绿色和平组织，英国广播公司，匿名表3：MLM、MELMw/o linearize和MELM的前5个预测的示例。不属于原始类的预测以红色突出显示。w/o linearize能够生成更多与实体相关的令牌。然而，在没有来自实体标签的明确指导的情况下，MELMw/o线性化仅基于模糊上下文（例如， “Pompeo” （ PER ）和 “Reuters”（ORG）都与上述方法相比，我们的MELM同时考虑标签信息和上下文，从而生成更多的实体，适合于上下文，并与原始标签以及对齐。此外，值得注意的是，MELM可以利用来自预训练模型的知识来生成原始NER数据集中不存在的真实世界实体（例如，“Greenpeace” and“Amnesty”),whichessentiallyincreasestheentity diversity in training4.2唯一实体正如Lin等人（2020）和我们在图1中的初步实验所证明的那样，引入不可见实体可以有效地提供更多的实体规律性知识，并有助于提高NER性能。因此，我们检查由不同方法引入的唯一实体由于在增强数据中可能存在标记-标签不对齐对于每种方法，我们计算标签与“oracle”模型分配的标签相匹配的唯一实体的总数。如图4所示，虽然由于标记-标签不对齐，来自 MLM-Entity 、 DAGA 和 MELMw/olinearize的因此，MELM能够提供更丰富的实体图4：不同方法规律性知识，这解释了其优于基线方法。5相关工作在句子级别的任务中，一行数据增强方法建立在单词级别的修改上，可以基于同义词替换（ Wei 和 Zou ， 2019 ）， LSTM 语言模型（Kobayashi，2018），MLM（Wu et al. ，2019; Kumar et al. ，2020）、自回归预训练LM（Kumar et al. ，2020），或基于成分的标记方案（Zhong et al. ，2020）。然而，这些方法在应用于诸如NER的令牌级任务时遭受令牌-标签错位，这需要复杂的后处理以去除增强数据中的噪声样本（Bari等人，2009）。，2021; Zhong和Cambria，2021）。现有的作品通过用同一类的现有实体替换实体（Dai和Adel，2020），或者只修改上下文作品并保持实体/方面术语不变（Li等人，2015）来避免标记标签不对齐。，2020a）。其他人试图通过训练/微调来+v：mala2277获取更多论文线性标记序列上的生成语言模型（Ding etal. ，2020; Liu et al. ，2020）。反向翻译（Sennrich et al. ，2016; Fadaeeetal. ， 2017; Dong et al. ， 2017; Yu et al. ，2018）将源语言句子翻译成目标语言，并且随后翻译回源语言，这保留了原始句子的整体语义然而，在令牌级任务上，它们依赖于用于标签传播的外部单词对齐工具，这通常容易出错（Tsaiet al. ，2016; Li等人，2020 b）。6结论我们提出MELM作为低资源NER的数据增强框架通过标记序列线性化，我们使MELM显式条件的标签信息时，预测掩码实体令牌。因此，我们的MELM有效地解决了标记-标签不对齐问题，并通过利用预先训练的知识生成具有新实体的增强数据在多语言设置下，我们将MELM与代码混合集成，以进一步提高性能。大量的实验表明，该框架表现出令人鼓舞的性能增益单语，跨语言和多语言NER在各种低资源水平。确认这项研究得到了南洋理工大学阿里巴巴-南洋理工大学新加坡联合研究院的Erik Cambria感谢科学、技术和研究机构（A*STAR）在其AME项目资助计划（项目#A18A2b0046）下的支持。引用Partha Sarathy Banerjee ， Baisakhi Chakraborty ，Deepak Tripathi，Hardik Gupta，and Sourabh SKumar. 2019.基于问答和自然语言的非结构化信息检索。Wireless Personal Communications，108（3）：1909M Saiful Bari，Tasnim Mohiuddin，and Shafiq Joty.2021. UXLA：一个强大的无监督数据增强框架，用于零资源跨语言NLP。在计算语言学协会年会和自然语言处理国际联合会议的会议记录中，第1978Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页，在线。计算语言学协会。Alexis Conneau、Guillaume Lample、Marc'AurelioRanzato、Ludovic Denoyer和Hervé Jégou。2017.没有并行数据的单词翻译。arXiv预印本arXiv：1710.04087。瑞安·科特雷尔和凯文·杜。 2017. 低资源命名实体识别与跨语言，字符级神经条件随机场。第八届自然语言处理国际联合会议论文集（第二卷：短文），第91-亚洲自然语言处理联合会Xiang Dai and Heike Adel. 2020. 命名实体识别的简单数据扩充分析。在 Proceedings of the 28 thInternationalConferenceonComputationalLinguistics，第3861- 3867页国际计算语言学委员会.Bosheng Ding，Linlin Liu，Lidong Bing，CanasaiKru-engkrai，Thien Hai Nguyen，Shafiq Joty，Luo Si，and Chunyan Miao.2020. DAGA：低资源标记任务数据增强。在2020年自然语言处理经验方法会议（EMNLP）的会议记录中，第6045-6057页。计算语言学协会。李东，乔纳森·马林森，西瓦·雷迪，米雷拉·拉帕塔。2017. 学习为回答问题而复述。2017年自然语言处理经验方法，第875计算语言学协会。Alexander Fabbri ， Patrick Ng ， Zhiguo Wang ，Ramesh Nallapati，and Bing Xiang. 2020. 基于模板的问题生成从检索的句子改进的无监督问答。在计算语言学协会第58届年会的会议记录中，第4508- 4513页，在线。计算语言学协会。Marzieh Fadaee，Arianna Bisazza和Christof Monz。2017. 低资源神经机器翻译的数据增强。在Proceedings of the 55th Annual Meeting of theAssociationforComputationalLinguistics（Volume 2：Short Papers），pages 567- 573，Vancouver，Canada.计算语言学协会。风小城，风夏冲，秦冰，风长音，刘婷。2018.改善低资源+v：mala2277获取更多论文使用跨语言知识转移的命名实体识别。国际人工智能联合会议论文集，IJCAI- 18，第4071Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中，会议跟踪程序。小林宗介。2018. 上下文扩充：通过具有聚合关系的。在计算语言学协会北美分会2018年会议论文集：人类语言技术，第2卷（短文），第452-457页，路易斯安那州新奥尔良。计算语言学协会。Varun Kumar，Ashutosh Choudhary，和Eunah Cho.2020.使用预训练的转换器模型进行数据增强。在第二届口语系统终身学习研讨会的会议记录中，第18纪尧姆·兰普尔，米格尔·巴列斯特罗斯，桑迪普·萨勃拉曼尼亚，川上和也，克里斯·戴尔.2016年。命名实体识别的神经架构。在计算语言学协会北美分会2016年会议的会议记录中：人类语言技术，第260-270页，加利福尼亚州圣地亚哥。计算语言学协会。李坤，陈成波，全晓军，凌庆，宋岩。2020年a。通过屏蔽序列到序列生成的条件增强。在计算语言学协会第58届年会的会议记录中，第7056-7066页，在线。计算语言学协会。Xin Li ， Lidong Bing ， Wenxuan Zhang ， ZhengLi，and Wai Lam. 2020年b。用于序列标记及其他的无监督跨语言适应。arXiv预印本arXiv：2010.12405。Hongyu

下载后可阅读完整内容，剩余1页未读，立即下载