生成去偏自然语言数据集以改进模型性能的方法研究—SNLI和MNLI数据集评估及优于先前最先进策略

100 浏览量更新于2023-11-30 收藏 962KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文生成数据以减轻自然语言推理数据集中吴宇翔<$马特·加德纳<$庞图斯·斯特内托普<$普拉迪普·达西吉<$伦敦大学学院yuxiang.wu，p. cs.ucl.ac.uk微软SemanticMachines艾伦人工智能研究所网址：mattgardner@microsoft.com，pradeepd@allenai.org摘要自然语言处理模型通常利用数据集中与任务无关的特征和标签之间的虚假相关性，以便仅在它们所训练的分布内表现良好，而不是推广到不同的任务分布。我们提出通过生成数据集的去偏版本来解决这个问题，然后通过简单地替换其训练数据，该数据集可以用于训练去偏的现成模型。我们的方法包括：1）一种用于训练数据生成器以生成高质量、标签一致的数据样本的方法;以及2）一种过滤机制，用于去除导致虚假相关性的数据点，这些数据点是根据z统计量测量的。我们生成SNLI和MNLI数据集的去偏版本，1并在一个大型的去偏、分布外和对抗性测试集上进行评估。结果表明，在我们的去偏数据集上训练的模型在在大多数数据集上，我们的方法优于或优于先前最先进的去偏置策略，并且当与正交技术、专家乘积相结合时，它进一步改进并优于先前SNLI硬和MNLI硬的最佳结果。1介绍自然语言处理（NLP）数据集不可避免地包含与它们应该表示的任务无关的偏差。这些偏差通常是注释过程、任务框架或设计决策的产物（Schwartz et al. ，2017; Geva et al. ，2019;Liu et al. ，2021年）。这种偏差通常表现为数据点的简单特征与其在艾伦人工智能研究所完成的工作1所有我们代码和的生成数据集是可在https://github.com/jimmycode/gen-debiased-nli上查阅。发生器（第二节）&第4.1节）样品Z滤波器（第3节）&第4.2节）图1：我们的数据集偏差缓解方法概述。我们最大限度地减少标签（由数据点的形状表示）和任务无关的功能（由其颜色表示）与我们提出的数据生成管道之间的虚假相关性。标签（Gardner et al. ，2021年）。经过训练的模型可以利用这些虚假的相关性来正确地预测与它们所训练的分布相同的分布中的数据点的标签，但无法推广到相同任务中的其他分布因此，模型风险建模的数据集，但不是任务（Gururangan et al. ，2018; Poliak et al. ，2018;McCoy et al. ，2019; Schusteret al. ，2019）。我们通过调整现有的数据集分布来解决这个问题，以减轻与任务无关的特征和标签之间的相关性首先，我们训练数据生成器，在现有数据集的分布中生成高质量的数据样本（第2节）。然后，我们确定了一组已知为任务无关的简单特征，并使用理论框架（即，z-统计量）由Gardner等人提出。（2021）测量这些特征与标签之间的相关性（第3.1节）。最后，我们通过事后过滤（第3.2节）来调整生成样本的分布，以去除具有任务无关特征的高z统计数据点，或者微调数据生成器（第4.1节）以降低此类数据点的可能性。与先前的模型不同-arXiv：2203.12942v1 [cs.CL] 2022年3月+v：mala2277获取更多论文DΣΣLL/-log（1 − p（H|IJ，P ，H））。中心方法来减轻虚假的干扰（ Belinkov etal. ，2019a，b; Clark et al. ，2019; He et al. ，2019; Karimi Mahabadi et al. ，2020年）定义新的训练目标或模型架构，我们的方法具有保持目标和模型固定的优点，因为我们只改变训练数据。为了评估我们的方法，我们使用自然语言推理（NLI）的任务，它提供了各种领域的广泛的数据集（包括挑战数据集）。我们生成了去偏 SNLI （ Bowman et al. ， 2015 ）和 MNLI（Williams et al. ，2018）分布，并评估在其上训练的模型的通用性选择GPT-2是因为它是一个功能强大且广泛使用的自回归语言模型，并且它可以很容易地适应于依次生成实例的前提、标签给定NLI数据集0，训练目标是最小化生成前提-标签-假设序列的以下负对数似然损失，按该顺序：|D0|LMLE= −logp（P（i），l（i），H（i））i=1|D0|=−logp （ P （ i ）） p （ l （ i ）） |P（i））p（H（i））|l（i），P（i）），到分布外硬评估集（Guru-rangan et al. ，2018;McCoy et al. ，2019年），以及广告-i=1（一）Liu等人提出的NLI对抗攻击套件。（2020b年）。此外，我们比较了我们的方法，从文献（Be-linkov et al. ，2019 b; Stacey et al. ，2020;Clark 等人， 2019; Karimi Mahabadi et al. ，2020; Utama 等人， 2020; Sanh et al. ， 2021;Ghaddar et al. ，2021年）。我们的研究结果表明，在我们的去偏数据集上训练的模型比在原始数据集上训练的模型更好地泛化到针对仅假设偏差（高达2.8个百分点）和句法偏差（高达13.3pp）的评估集，以及一套对抗性测试集（平均高达4.2pp）。由于我们的贡献是正交的模型为中心的方法，我们表明，当结合产品的专家（ KarimiMahabadi等人。，2020年），我们的方法产生进一步的改进，并优于以前的最先进的SNLI硬和MNLI硬的结果。最后，我们用我们的去偏数据集训练更强和更大的预训练语言模型，并证明我们的方法的性能增益适用于这些更大的模型。2生成高质量的数据样本首先，我们需要训练一个数据生成器G来生成-其中P（i）、l（i）和H（i）分别是前提、标签和假设。22.2提高数据生成质量我们发现，由仅用MLE训练的生成器生成的样本通常包含不合语法的文本或不正确的标签。在本节中，我们将介绍两种提高数据质量的技术2.2.1提高标签一致性的非似然训练我们观察到，在由使用vanilla MLE对象i训练的生成器生成的样本中，标签一致性较差。例如，在生成的样本（ P， H ， l ）中，标签 i通常不能正确地描述 P 和 H之间的关系。为了避免这种情况，我们应用非似然训练（Welleck et al. ，2020）以使得生成这种标签不一致的实例的可能性更小。首先，我们扰动标签以构造负样本（P，H，lJ），其中对于数据集中的每个样本，lJ=l然后，我们对假设tokens应用token级别的不可能目标：L一致性=|D|H|（一）|(i)自动生成数据样本。数据生成器的目标是尽可能地模拟真实分布，以便生成有效和高质量的数据样本。2.1微调预训练语言模型㈠㈠t ti=1t =1该目标降低了在给定不正确的标签lJ时生成H的概率，从而提高了生成时的标签一致性生成NLI样本我们在NLI数据集上微调了一个预训练的语言模型，作为我们的数据生成器。我们2在我们的初步研究中，我们发现在方程中的分解或-der前提-标签-假设。（1）比hypothesis-label-premise和premise-hypothesis-label更好。+v：mala2277获取更多论文LLDX|||−0BDBZDZDZ D DDnj=100|Σ∗我们结合MLE和一致性来微调生成器G，LG=LMLE+λL一致性，其中λ是平衡两个目标的超参数我们可以从训练好的生成器中随机采样，得到大量的合成数据DGG。2.2.2基于模型置信度的滤波我们添加了一致性过滤步骤（Lewis et al. ，2021; Bartolo et al. ，2021）以进一步提高所生成的数据集的质量。我们用原始数据集0训练NLI模型M，以过滤掉M具有低置信度的样本：2018; Poliak等人，2018）。请注意，我们的方法不依赖于特定的特征选择，并且可以很容易地添加不应该与标签相关的替代特征。根据Gardner et al. （2021），我们假设这些特征中的每一个与类别标签之间不应该有任何相关性。更正式地说，对于我们的特征集中的任何特征x，p（lx）应该在类标签l上是一致的。我们定义p∈（lx）=1nlj是p（lx）在包含x的n个样本上的经验期望。然后，我们计算z-统计量的标准化版本，以量化其与每个特征x和标签l的均匀分布的偏差：D·G ={（P，H，l）∈DG| pM（l）|P，H）> τ}，p（lx）pz（x，l）=p（1−p）/n，（二更）其中τ是置信阈值。我们发现过滤出的数据样本通常具有不合语法的文本或不正确的标签。3减少虚假相关使用Z滤波现在，我们定义一种方法来拒绝有助于样本的任务无关特征与其标签之间的高虚假相关性的样本。我们的方法是基于加德纳等人提出的理论框架。（2021）来衡量这些相关性，称为z统计量。我们的过滤方法，称为z过滤（第3.2节），将作为第4节构建去偏数据集的基础。3.1识别和测量虚假相关性作为解决虚假相关性的第一步，我们需要能够量化它们。我们首先选择一组与任务无关的特征-放弃标签并允许模型利用它们而不实际解决任务的功能。对于NLI，我们选择以下功能：1）一元词和二元词; 2）假设长度和假设-前提长度比; 3）假设和前提之间的词汇重叠; 4）BERT基的预测（Devlin et al. ，2019）假设-其中p0是均匀分布的概率（在具有三个标签的NLI任务中p0= 1/3这些z统计得分可以用于识别每个标签l的最偏向的特征-表12显示了SNLI上这些偏倚特征的示例。3.2Z滤波为了减轻数据集中的偏差，我们提出了z过滤，这是一种迭代地从数据集DJ中选择和过滤实例以构建去偏差数据集Z的算法。在每一步中，我们在部分构造的模型上找到偏置特征集Z（l）。.然后，我们从j中选择一批新的样本，并过滤掉包含这些偏置特征的样本。迭代地应用该过程，直到耗尽来自j的所有样本。它重新移动对j中的伪相关性有贡献的样本，因此它找到去偏子集（J）J。我们将移除的样本表示为−（J）.说明了全z滤波算法在算法1中。可选地，可以用种子数据集D种子初始化Z。在这种情况下，来自DJ的样本仅在它们不包含唯一的模型。3这些特征捕捉了各种偏见在以前的工作中确定，包括矛盾D的有偏特征种子 . 因此，它可以被视为词偏误，词汇重叠偏误（McCoy et al. ，2019）和仅假设偏倚（Gururangan et al. 、3有关功能的详细说明，请参见附录B一种旨在消除给定数据集偏差的数据增强技术。我们将其称为条件z滤波，并将产生的去偏数据集表示为Z（DJ| D种子）。+v：mala2277获取更多论文ZDLZDZ DD D∈DBΣDDΣLD算法1：z滤波算法。数据：输入数据集DJ[具有可选的种子数据集Dseed]结果：去偏数据集Z和拒绝样本Z-Z←（或Z ← D种子）;Z−←;更有可能被Z过滤过程接受。更具体地说，我们可以鼓励模型生成（0），同时阻止它生成−（0）。对于后一部分，我们再次应用非似然训练目标UL来unlearn−（0）。因此，总体去偏训练目标是：对于样品批次tJ Jdo计算或更新z统计信息Ldebias =LMLE （Z（D0））+αLUL（Z−（D0））z（x，l|Z），则X∈X;找到有偏特征BZ（l），{蕴涵、中性、矛盾};对于每个实例I=（P，H，l） tJdo得到实例I的特征f;如果f<$BZ（l）=<$，则Z ← Z<${I};其中α是一个超参数。在所有to-kens上天真地使用非似然目标会给模型提供好标记的混合信号，并导致不合语法的退化输出。为了避免这种退化，我们只将不似然损失应用于有助于有偏特征的令牌。具体地，对于实例的每个令牌I−，其他Z−← Z−{I};I−∈ Z不−（D0），我们将掩码mt定义为.0，如果I−contri butestoBZ（l−）结束结束mt=我不是1、否则4通过数据生成构造去偏NLI我们以两种方式使用z过滤：1）进一步微调G（在第2.2.1节中使用一致性不似然训练的G），目标是降低应被拒绝的样本的权重（第4.1节）;2）事后过滤生成的样本以获得去偏数据集（第4.2节）。其中Z（lI−）表示与I−的标签相对应的偏置特征。对于对unigram和bigram特征的偏见（如第3.1节中定义的），我们只考虑相应的标记是相关的（即，mt= 0，如果It−是一元语法或二元语法的一部分对于偏见对于其他特征（例如，hypothe的长度，sis），我们认为假设上的所有标记都是相关的。不可能性训练目标定义如下：4.1学习生成无偏样本生成器G可以在其微调阶段学习利用与任务无关的特征LUL（Z−（D0））=I′∈Z−（D0）|I′|LUL（IJ），（第2节），导致合成数据转换为-存在许多虚假的相关性。虽然应用z滤波来从BLOG中去除这些虚假相关性是诱人的，但我们发现这将导致删除大部分生成的数据。例如，当发生器在SNLI上微调LUL（IJ）=− lo g（mtp（ItJ|I

下载后可阅读完整内容，剩余1页未读，立即下载