文本平滑：基于掩蔽语言模型的数据扩充方法

164 浏览量更新于2023-11-30 收藏 374KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文文本平滑：增强文本分类任务中国科学院信息工程研究所，北京，中国科学院信息工程研究所2中国科学院大学网络安全学院，中国北京3快手科技，北京，中国{gaochaochen,linmeng,zangliangjun,husonglin}@iie.ac.cn{wuxing,wangzhongyuan}@kuaishou.com摘要在进入神经网络之前，令牌通常被转换为相应的one-hot表示，这是词汇表的离散分布。平滑表示是从预训练的掩蔽语言模型中获得的候选标记的概率，其可以被视为对独热表示的更有信息性的替代。我们提出了一种有效的数据扩充方法，称为文本平滑，通过转换一个句子，从它的一个热表示，一个可控的平滑表示。我们评估文本平滑在不同的基准标记在低资源制度。实验结果表明，文本平滑的性能大大优于各种主流的数据增强方法。此外，文本平滑可以与这些数据增强方法相结合，以实现更好的性能。1介绍数据扩充是一种广泛使用的技术，特别是在低资源领域。它增加了训练数据的大小，以减轻过拟合并提高深度神经网络的鲁棒性。在自然语言处理（NLP）领域，已经提出了各种数据增强技术。一种最常用的方法是随机选择句子中的标记，并用语义相似的标记替换它们，以合成一个新句子（ Wei 和 Zou ， 2019;Kobayashi ， 2018; Wu 等人， 2019 年）。，2019）。（Kobayashi，2018）提出了上下文增强，通过使用LSTM语言模型并根据概率分布对替换令牌进行采样来预测替换令牌的概率分布。（ Wu et al. ， 2019 ）使用 BERT（ Devlin et al. ， 2018 ）掩蔽语言建模（MLM）任务，以扩展上下文增强在快寿公司实习期间完成的工作。前两位作者贡献相当。图1：蓝色部分演示了对下游任务使用文本平滑数据增强，红色部分直接使用原始输入。通过考虑深层的双向背景。（Ku-maret al. ，2020 ）进一步提出使用不同类型的基于Transformer的预训练模型用于低资源状态中的条件数据增强。MLM将被屏蔽的句子作为输入，通常句子中15%的原始标记将被[MASK]标记替换。在进入MLM之前，句子中的每个标记都需要转换为它的one-hot表示，只有一个位置的词汇大小的向量为1，而其余位置为0。MLM输出每个掩码位置的词汇大小的概率分布。通过大规模的预训练，期望概率分布尽可能接近地面实况独热表示。与one-hot表示相比，由预先训练的MLM预测的概率分布是通常，大多数权重分布在上下文兼容的令牌上。将平滑表示乘以词嵌入矩阵可以获得候选词的词嵌入的加权总和，称为平滑嵌入，其比一个更有信息量和上下文丰富。arXiv：2202.13840v1 [cs.CL] 2022年2月+v：mala2277获取更多论文通过查找操作获得hot的嵌入。因此，使用平滑表示而不是独热表示作为模型的输入可以被视为有效的加权数据增强方法。为了在MLM中仅用一个前向过程获得整个句子的所有标记的平滑表示，我们不显式地屏蔽输入。相反，我们打开了MLM的dropout，并动态随机地丢弃每一层的一部分权重和隐藏状态。一个不可忽视的情况是，在预训练期间，一些标记在类似的上下文中出现的频率比其他标记更高，这将导致模型对这些标记有偏好这对于诸如细粒度情感分类之类的下游任务是有害的例如，给定“这件衬衫的质量是平均的。“，“图2中示出了在“平均”位置处通过MLM的平滑表示虽然“这种平滑的表示很难成为任务的良好增强输入。为了解决这个问题，（Wu etal. ，2019）提出了训练标签嵌入来约束MLM预测标签兼容令牌。但在资源不多的情况下，要有足够的标签数据来提供监管并不容易。我们从实际的数据增强方法mixup（Zhang etal. ，2017）在计算机视觉领域。我们用原始的独热表示插值平滑表示。通过插值，我们可以放大原始token的概率，并且概率仍然大部分分布在上下文兼容的单词上，如图2所示。我们将这两个阶段结合起来作为文本平滑：通过MLM获得平滑的表示和插值以约束表示更可控。为了评估文本平滑的效果，我们在三个分类基准点上进行了低资源设置的在所有的实验中，文本平滑实现了更好的性能比其他数据增强方法。此外，我们很高兴地发现，文本平滑可以与其他数据增强方法相结合，以进一步改善任务据我们所知，这是第一种方法，图2：平滑表示和原始one-hot表示的插值。完善多种主流数据扩充方法。2相关工作已经提出了各种NLP数据增强技术，它们主要分为两类：一类是直接修改原始输入，另一类是干扰嵌入（Miyatoet al. ，2016; Zhu等人，2019）。最常用的修改原始输入的方法是标记替换：随机选择句子中的标记，并用语义相似的标记替换它们，以合成一个新句子。（Wei和Zou，2019）直接使用同义词表WordNet（Miller，1998）进行替换。（Kobayashi，2018）提出了上下文增强，用两个因果语言模型来预测替换标记（Wu et al. ，2019）扩展了BERT的上下文增强（Devlin et al. ，2018）屏蔽语言建模（MLM），以考虑双向上下文。（Gao et al. ，2019年）通过用机器翻译中的因果语言模型提供的词汇表的分布替换其独热表示来软地增强句子中的随机选择的标记不相似（Gao et al. ，2019），我们使用MLM来生成平滑表示，其更充分地考虑了该方法具有较好的并行性，可以在一个前向过程中高效地获得整个句子的平滑表示。此外，我们建议约束平滑表示更可控的分类任务，通过插值+v：mala2277获取更多论文i=1∈∈R∈RD{}1234567清单1：在PyTorch3我们的方法3.1平滑表示我们使用BERT作为MLM的代表性例子。给定下游任务数据集，即=ti，pi，si，liN，其中N是例如，ti是文本的独热编码（one-hotencoding）（aSST-2SNIPSTREC火车207060Dev207060测试1821700500表1：低资源制度背景下的数据统计其中ti是独热表示，MLM（ti）是平滑表示，ti是插值表示一个句子或一个句子对），pi是位置，ti的常规编码，si是ti的段编码，并且li是该实例的标签。我们将独热编码ti、位置编码pi以及分段编码si馈送到BERT中，并获取BERT中Transformer编码器的最后一层的输出，其表示为：→−ti=BER T（ti）（1）其中→−tiseq_len，emb_size是2D稠密向量形状为[sequence_len，embedding_size]。我们将它与一个函数相乘，在BERT中调用vocab_size，embed_size，以获取MLM预测结果，其定义为：MLM（ti）=softmax（→−tiW T）（2）其中MLM（ti）中的每一行是令牌词汇表上的概率分布，表示由预训练BERT学习的输入文本的该位置中的上下文兼容令牌选择。3.2混淆策略混淆（Zhang et al. ，2017）定义为：x=λxi+（1−λ）xj（3）y=λyi+（1−λ）yj（4）其中（xi，yi）和（xj，yj）是从训练数据中随机抽取的两个特征向量，λ[0，1]。在文本平滑中，独热表示和平滑表示源自相同的原始输入，它们的标签是相同的，并且插值操作不会改变标签。因此，混合操作可以简化为：ti=λ·ti+（1−λ）·MLM（ti）（5）“我最喜欢的水果是梨。“插值超参数mlm.train（）#启用dropout，动态屏蔽tensor_input =tokenizer（sentence，return_tensors=“pt”）onehot_repr =convert_to_onehot（**tensor_input）smoothed_repr =softmax（mlm（**tensor_input）.logits[0]）interpolated_repr = 10d* onehot_repr +（1 - 10d）*smoothed_repr+v：mala2277获取更多论文表示，λ是控制插值强度的平衡超参数在下游任务中，我们使用插值表示而不是原始的one-hot表示作为输入。4实验4.1基线方法EDA（Wei和Zou，2019）由四个简单的操作组成：同义词替换，随机插入，随机交换和随机删除。回译（Shleifer，2019）将句子翻译为临时语言（EN-DE），然后将先前翻译的文本翻译回源语言（DE-EN）。CBERT（Wu et al. ，2019年）掩盖了一些令牌，并预测他们的上下文替换与预先训练的BERT。BERTexpand，BERTprepend（Kumar etal. ，2020）通过将类标签前置到给定类的所有示例来调节BERT“GPT2背景（Kumar et al. ，2020）向预训练的GPT模型提供提示，并保持生成直到EOS令牌。BARTword，BARTspan（Kumar et al. ，2020）条件BART通过将类标签前置到给定类的所有示例。BARTword屏蔽单个单词，而BARTspan屏蔽连续的块。4.2实验设置我们的实验严格遵循（Kumar et al. ，2020年）的三个文本分类数据集的论文下载的链接1。1SST-2和TREC：https://github.com/1024er/cbert_aug，+v：mala2277获取更多论文方法SST-2SNIPSTRECAvg.没有8月52.93（5.01）79.38（3.20）48.56（11.53）60.29（6.58）EDA53.82（4.44）85.78（2.96）52.57（10.49）64.06（5.96）BackTrans57.45（5.56）86.45（2.40）66.16（8.52）70.02（5.49）CBERT57.36（6.72）85.79（3.46）64.33（10.90）69.16（7.03）BERT扩展56.34（6.48）86.11（2.70）65.33（6.05）69.26（5.08）BERTprepend56.11（6.33）86.77（1.61）64.74（9.61）69.21（5.85）GPT2上下文55.40（6.71）86.59（2.73）54.29（10.12）65.43（6.52）BARTword57.97（6.80）86.78（2.59）63.73（9.84）69.49（6.41）巴特斯潘57.68（7.06）87.24（1.39）67.30（6.13）70.74（4.86）文本平滑59.37（7.79）88.85（1.49）67.51（7.46）71.91（5.58）表2：在低资源制度下评估不同数据集的数据扩充方法方法SST-2SNIPSTRECAvg.EDA59.66（5.57）87.53（2.31）55.95（7.90）67.71（5.26）+ 文本平滑64.84（6.82）88.54（3.03）67.68（9.70）73.69（6.52）BackTrans60.60（7.40）86.04（2.20）64.57（7.48）70.40（5.70）+ 文本平滑61.66（7.62）88.72（1.99）69.17（10.51）73.19（6.7）CBERT60.10（4.57）86.85（2.06）63.56（8.09）70.17（4.91）+ 文本平滑61.65（6.65）88.18（2.85）67.84（9.70）72.56（6.4）BERT扩展59.85（6.16）86.12（2.45）62.67（7.59）69.55（5.40）+ 文本平滑62.04（7.93）89.49（2.05）65.89（7.48）72.47（5.82）BERTprepend60.28（5.80）86.86（2.46）65.20（6.88）70.78（5.05）+ 文本平滑62.75（7.14）88.04（1.92）68.07（7.30）72.95（5.45）GPT2上下文57.46（4.96）84.10（2.39）46.47（12.80）62.68（6.72）+ 文本平滑60.66（6.72）87.68（1.60）59.13（11.33）69.16（6.55）BARTword60.99（7.15）86.98（1.96）61.29（10.00）69.76（6.37）+ 文本平滑62.67（7.40）88.50（2.10）67.75（6.50）72.97（5.33）巴特斯潘63.42（5.58）87.34（2.17）62.47（8.11）71.08（5.29）+ 文本平滑62.37（7.18）89.06（2.18）70.89（6.81）74.11（5.39）表3：文本平滑结合其他数据增强方法在低资源条件下的效果SST-2（Socher et al. ，2013）是具有两个标签的电影评论情感分类任务。SNIPS（Coucke et al. ，2018年）是一个超过16,000个众包查询的任务，分布在7个不同复杂度的用户意图中。TREC（Li and Roth，2002）包含了从4,500个英语问题中收集的六种问题类型。对于每个实验，我们对每个类随机抽取10个样本，用于训练和开发集，以模拟低资源机制。三个数据集的数据统计见表1.一、（Kumar et al. ，2020），我们用它们的文本版本替换数字类标签。我们首先比较了文本平滑和基线数据增强方法在低资源条件下对不同数据集的影响。然后，我们进一步探讨了文本平滑与每种基线方法相结合的效果考虑到合并后数据量增加到2倍，为了比较的公平性，我们将基线实验中使用的数据扩展到相同的数量所有实验重复15次以说明随机性，结果报告为全测试集的平均（STD）准确度。SNIPS：https://github.com/MiuLab/SlotGated-SLU/tree/master/data/snips+v：mala2277获取更多论文4.3实验结果如表2所示，与其他数据增强方法相比，文本平滑为三个数据集上的模型带来了最大的改进。与没有数据增强的训练相比，文本平滑在三个数据集上平均提高了11.62%，这是显著的。之前最好的方法是BARTspan，文本平滑超过了它，平均为1.17%。而且，我们很高兴地发现，文本平滑可以很好地与各种数据增强方法相结合，进一步完善了基线数据增强方法。如表3所示，文本平滑可以带来5.98%，2.79%，2.39%，2.92%，2.17%，EDA 、 BackTrans 、 CBERT 分别为 6.48% 、3.21%、3.03%BERTexpand、BERTprepend、GPT2context、BART-word和BARTspan。据我们所知，这是改进各种主流数据增强方法的第一种方法5结论本文提出了文本平滑，一种有效的数据增强方法，通过将句子从其独热表示转换为可控表示+v：mala2277获取更多论文平滑表示。在低数据状态的情况下，文本平滑明显优于各种数据增强方法。此外，文本平滑还可以与各种数据增强方法相结合，以获得更好的性能。引用Alice Coucke，Alaa Saade，Adrien Ball，ThéodoreBluche ， Alexandre Caulier ， David Leroy ，Clément Doumouro ， Thibault Gisselbrecht ，Francesco Calta- girone ， Thibaut Lavril ， et al.2018. Snips语音平台：一个嵌入式口语理解系统，用于私人设计的语音界面。arXiv预印本arXiv：1805.10190。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova.2018年Bert：深度双向转换器的语言理解预训练 arXiv 预印本 arXiv ：1810.04805。Fei Gao，Jinhua Zhu，Lijun Wu，Yingce Xia，TaoQin ， Xueqi Cheng ， Wengang Zhou ， and Tie-Yan Liu.2019.用于神经机器翻译的软上下文数据增强。在计算语言学协会第57届年会的会议记录中，第5539小林宗介。2018.上下文扩充：通过具有聚合关系的词来扩充数据。 arXiv 预印本 arXiv ：1805.06201。Varun Kumar，Ashutosh Choudhary，和Eunah Cho.2020.使用预训练的转换器模型进行数据增强。arXiv预印本arXiv：2003.02245。李欣和丹·罗斯。2002.学习问题分类器。2002年：第19届国际计算语言学。乔治A米勒。1998年WordNet：一个电子词汇数据库。MIT Press.宫户卓，安德鲁·M·戴，伊恩·古德费洛. 2016.半监督文本分类的对抗训练方法。 arXiv 预印本arXiv：1605.07725。山姆·施莱弗2019.使用ulmfit和反向翻译进行低资源文本分类。arXiv预印本arXiv：1903.09244。Richard Socher、Alex Perelygin、Jean Wu、JasonChuang、Christopher D Manning、Andrew Y Ng和Christopher Potts。2013.情感树库上语义组合性的递归深度模型。2013年自然语言处理经验方法会议论文集，第1631杰森魏和凯邹。 2019. 埃达：简单的数据增强技术，用于提高文本分类任务的性能。arXiv预印本arXiv：1901.11196。吴兴，吕尚文，臧良军，韩继忠，胡松林。2019.条件bert上下文增强。在国际计算科学会议上，第84-95页。斯普林格。HongyiZhang ， MoustaphaCisse ， YannNDauphin，and David Lopez-Paz. 2017. mixup：超越经验风险最小化。 arXiv 预印本 arXiv ：1710.09412。陈柱，于成，甘哲，孙思奇，汤姆·戈尔茨坦，刘晶晶. 2019. Freelb：增强的对抗训练自然语言理解。arXiv预印本arXiv：1909.11764。

下载后可阅读完整内容，剩余1页未读，立即下载