没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文FlipDA:用于少样本学习的周静清华大学zhouj18@mails.tsinghua.edu.cn郑亚南清华大学清华大学zyanan@mail.tsinghua.edu.cn汤杰先生清华大学清华大学jietang@tsinghua.edu.cn李健fj清华大学lijian83@mail.tsinghua.edu.cn杨志林清华大学zhiliny@mail.tsinghua.edu.cn摘要大多数以前的文本数据增强方法仅限于简单的任务和弱基线。我们在硬任务上探索数据增强(即,少数自然语言理解)和强基线(即,具有超过十亿个参数的预训练模型在此设置下,我们复制了大量以前的为了解决这一挑战,我们提出了一种新的数据增强方法FlipDA,它联合使用生成模型和分类器来生成标签翻转数据。FlipDA的核心思想是发现生成标签翻转数据比生成标签保留数据对性能更重要实验表明,FlipDA实现了有效性和鲁棒性之间的良好权衡-它大大提高了许多任务,同时不会对其他任务产生负面影响。61介绍数据扩充是一种通过从给定数据生成新数据来扩充训练集的方法。对于文本数据,包括替换、插入、删除和洗牌在内的基本操作已被广泛采用,并集成到各种增强框架中[75,62,65,30,63]。生成式建模方法(如反向平移)也被用来生成增强样本[13,57]。然而,有两个主要的局限性,以前的研究。首先,一些通用的增强方法是基于弱基线的,而不使用大规模的预训练语言模型。最近的工作表明,一些数据增强方法在与大型预训练模型结合时不太有用[41]。第二,以往的研究大多是在简单的任务上进行的,例如单句分类,这更容易产生合法的增强作者对这项工作做出了同样的贡献†清华大学跨学科信息科学研究所(IIIS),中国北京清华大学计算机科学与技术系§北京人工智能研究院,中国fj通信作者。6我们的源代码可以在https://github.com/zhouj8553/FlipDA上找到。预印本。正在审查。arXiv:2108.06332v1 [cs.CL] 2021年8月+v:mala2277获取更多论文2样品对于更难的任务,如自然语言理解(例如,判断句子A是否包含句子B),不清楚以前的方法是否仍然有帮助。在这项工作中,我们进一步研究了强基线和硬任务下的数据增强。我们的研究采用了大规模的预训练语言模型,如DeBERTa [20],其中有超过10亿个参数作为基线。此外,我们的目标是一个非常具有挑战性的设置-少数镜头自然语言理解(NLU)。我们考虑具有挑战性的NLU任务,包括问题回答,文本蕴涵,共指消解和词义消歧。我们采用了SuperGLUE,它的构建包括了当前NLP方法中一些最困难的语言理解任务[59]。在[56]之后,我们只使用了32个训练样本来构建一个少镜头设置。在这种情况下,我们复制了大量广泛使用的数据增强方法。我们的实验导致了两个意想不到的发现:(1)大多数以前的增强方法充其量只能带来边际收益,并且对大多数任务无效;(2)在许多情况下,使用数据增强会导致性能不稳定,甚至进入故障模式;即,性能可能会下降很多或严重波动,这取决于使用哪种预训练上述问题阻碍了这些增强方法在少量学习中的实际使用。我们提出了一种新的方法FlipDA,实现了有效性和鲁棒性的硬少数拍摄任务。在初步实验中,我们观察到,与保留原始标签的增强数据相比,标签翻转数据通常会大大提高基于这一观察,FlipDA首先基于预训练的T5 [48]使用单词替换生成数据实验表明,FlipDA大大提高了许多硬任务的性能,在平均性能方面大大优于以前此外,FlipDA在不同的预训练模型和不同的任务中具有鲁棒性,避免了故障模式。2相关工作数据扩充。数据增强旨在增加训练数据的数量,然后利用它来提高模型的性能。各种各样的增强方法都是基于单词替换,例如同义词替换[75],KNN替换[62,58],unif替换[65],tf-idf替换[65],bi-rnn替换[30]等。同义词替换和KNN替换是其中最流行的。实体替换在问答[49]、意见挖掘[43]和实体检测[72]任务中很有用。EDA [63]结合了四种简单的增强方法(即,同义词替换、随机删除、随机交换和随机插入),并在几个单句分类任务上取得了良好的结果回译[13,57]被广泛使用,并成为机器翻译任务中的标准实践回译也适用于问答任务[71]。遗憾的是,EDA和反向翻译方法在大型预训练模型中不太有用[41]。一些增强方法基于特征空间中的扰动,例如,mixup [73,17],Mixtext [3],LADA [2],Snippext [43]和特征空间中的其他增强方法[32]。然而,我们观察到在我们的设置下使用这些方法的改进有限,这表明特征空间增强可能与预训练模型和硬NLU任务不太兼容已经提出了各种基于代的增强方法。应用变分自动编码器[64,38,55,70]和去噪自动编码器[44]来生成增强的示例,但是这些方法通常依赖于大量的训练数据,这不适合于小样本学习任务。沿着这个方向,CRQDA [40]训练一个模型来生成可回答和不可回答的问题。提出了一种用于对话语言理解的序列到序列数据增强方法[22]。与我们的方法相比,这些方法更具有任务特定性,不能直接应用于一般的NLU任务。此外,大型预训练模型已用于数据增强。[31]使用大型预训练模型,如GPT-2,BERT和BART,用于条件数据增强。兰巴达[1]使用启动技术微调GPT-2模型以获得增强的示例。GPT 3 Mix [69]使用GPT-3以及提示来生成用于分类任务的增强数据。我们的方法与这一系列工作类似,因为我们也使用预训练模型来生成增强数据。然而,存在以下关键差异。首先,这些现有方法具有挑战性,+v:mala2277获取更多论文3处理长序列或多个句子。在我们的初步实验中,我们无法使用这些方法来生成正确的数据样本(详见第4节)。其次,除了生成增强样本外,我们发现使用标签翻转数据进行增强至关重要,这是FlipDA的一个独特而关键的方面。自我训练。Self-training [24]是一种半监督学习算法,它用训练好的模型(教师模型)标记未标记的数据,然后联合使用标记的数据和未标记的数据来训练新的模型(学生模型)。这个过程可以重复几次迭代。 自训练应用于许多领域,包括意义消歧[68],模式提取[52],解析[42,23,51],图像分类[67],神经序列生成[18],语音识别[26]等。知识蒸馏和伪标签是自我训练的特殊形式[21,34,50]。[76]观察到与预训练不同,自我训练有助于强大的数据增强。Noisy Student [66]通过使用相等或更大的学生模型并向学生添加噪声,在ImageNet上获得了良好的结果[18]得出结论,dropout对于序列生成任务中的自我训练很重要。[45]提出使用学生对标记数据的表现的反馈来更新教师模型的参数自我训练与FlipDA的第二阶段相似,其中教师模型用于选择样本。与以前的自训练方法不同,FlipDA发现并利用标签翻转的有用性来提高性能,并且不依赖于未标记的数据。此外,如第4节所示,FlipDA的数据选择策略优于一些基线,如Noisy Student。对抗性攻击。对抗性攻击在原始输入中添加小的扰动,同时不影响原始样本的标签来欺骗模型。[39]建议首先选择最脆弱的[15]和[37]进一步利用BERT来替换,插入或合并句子中的单词,以获得更好的攻击性能。对抗性攻击和FlipDA都在原始样本的邻域中生成样本,但它们的目标非常不同。对抗性攻击的目的是用标签保留的样本欺骗模型,而FlipDA的目的是用标签翻转的样本提高任务的性能。此外,对抗性攻击需要生成高质量的样本,而流畅性并不是增强的主要问题,只要它能提高性能。标签翻转。我们的手动标签翻转增强过程类似于[27]和[14]。[27]旨在减轻学习虚假特征的影响。[14]建议使用手动标签翻转来减少数据集中的系统性差距相比之下,我们的目标是通过数据增强来改进少镜头此外,我们衡量现有的i.i.d.的性能。[27]和[14]创建了更具挑战性/有意义的测试集。最重要的是,我们提出了一个自动的标签翻转的方法,超越了手动的努力。3用于少样本学习的数据增强3.1设置在这项工作中,我们考虑在硬任务和强基线上进行数据增强。少量NLU任务。 自然语言理解是一系列任务的集合,这些任务需要对输入进行深入的理解才能获得高性能。NLU任务包括共指消解[35],因果推理[16],文本嵌入[9,7]和词义消歧[47]回答问题[5,28,74]。这些任务通常被表述为将一个句子或多个句子映射到某个标签。在这项工作中,为了进行系统评估,我们采用了SuperGLUE,它包含一组自然语言理解任务,旨在为当前NLP方法的“困难”语言理解能力提供在[56]之后,我们只使用了32个训练样本来构建一个少镜头设置,以进一步增加难度。大规模预训练模型。我们的设置假设有一个大规模的预训练语言模型[11,33,20],并且基于预训练模型执行少量学习这是一个至关重要的设置,因为以前的研究发现,使用强大的预训练模型作为基线消除了数据增强的好处,而大型预训练模型变得越来越可用。 我们的主要结果是基于超过10亿个参数的DeBERTa [20],我们还提供了具有较少参数的ALBERT[33]的其他结果。+v:mala2277获取更多论文4与先前方法的初步实验 我们用大量以前的方法进行的初步实验得出的结论是,对于这种硬设置,没有一种有效且鲁棒的方法。使用以前的方法,收益是有限的,而它是可能进入一个故障模式与实质性的性能下降。 更多细节将在第4节中讨论。 我们将在下面的章节中讨论如何通过提出一种新的数据增强方法FlipDA来应对这一挑战。3.2期望:有效性和稳健性我们提出了几次学习设置下的数据增强方法的关键desiderata1. 有效性数据增强方法应该能够以显着的方式提高某些任务的性能。2. 鲁棒性 数据扩充方法不应在所有情况下都遭受失效模式。失败模式对于少量学习是常见的,其中一些微小的变化可能会导致显著的性能下降。我们认为这应该被用作一个关键的评估指标。本文主要考虑了两类鲁棒性:(1)相对鲁棒性;不同的基础预训练模型和(2)关于.不同的任务。换句话说,我们需要一种数据增强方法,它可以改进某些任务,同时不会损害其他任务,以便在有效性和鲁棒性方面实现强大的性能。3.3有效性:手动标签翻转可提高性能表1:手动数据扩充的结果我们手动编写增强的示例来保留或翻转标签。翻转标签可以显著提高CB、RTE和WSC的性能,最多可提高10个点,而保留标签仅具有较小的增益。81.55±4.12 82.14±3.5791.07±3.0972.16±7.02 77.07±4.9188.14±3.9390.33±1.1591.33±0.58 90.33±0.5868.11±3.28 67.63±2.6176.05±0.75C 79.49±2.22 78.53±2.7885.58 ±0.96由于以前的方法在我们的初步实验中不够有效和稳健(更多细节请参见第4节中的表5和表6),我们使用手动增强来研究在少数情况下,什么样的增强数据对大型预训练模型有益我们主要研究两种类型的数据扩充-一种是保留标签,另一种是翻转标签。由于手动扩增是耗时的,我们选择了一个子集的代表SuperGLUE任务在这项研究中。为了增加标签翻转的数据,应用了以下原则-对原始文本样本进行最小的更改以更改标签。扩充包括单词添加、删除和替换。为了增加标签保留的数据,我们用语义相似的词替换一些词,但确保标签不变。结果示于表1中。在这个实验中,对于每个原始示例,我们生成一个标签翻转的示例和一个标签保留的示例。我们将增强数据与原始数据结合起来训练模型。我们的实验遵循PET/iPET的原始设置[56],即用三个种子训练每个模式并集成这些(模式,种子)对。我们重复这个集成过程3次,并报告其平均值和标准差。翻转标签将其中三项任务的性能大幅提高了10个点,而保留标签的性能只有很小的提高。相比之下,以前的许多数据扩充方法都专注于创建假设具有与原始示例相同标签的数据示例。这种矛盾可能解释了以前的增强方法对于硬的少数镜头设置不够有效的观察结果。CB-F1CopaRTE任务无DA保留翻转BoolQCB-Accc78.21±0.2778.55±0.4977.68±0.08WS+v:mala2277获取更多论文5表2:手动扩增的标签翻转示例扩充原则是进行足以更改标签的最小更改。黑色表示原始示例,蓝色表示增强示例。WSC的最后一个任务是共指消解,即从文本中抽取所指实体。在这种情况下,“premise”RTECBWSC“假设”:“确诊狂犬病病例。”(“蕴涵”)“hypothesis”(“hypothesis”“premise”琴笑了。他可能已经知道,即使像范威廉斯堡小姐这样明智的人也会试图玩这种游戏。(“蕴涵”)“premise”琴笑了。你认为即使像范·威廉斯堡小姐这样明智的人也会试图玩这种游戏吗?“是的。(“中立”)“sentence”“hypothesis”一些标签翻转增强示例如表2所示。我们推测,标签翻转增强提供了有用的信息,在一个句子中,确定标签的重要组成部分。换句话说,增强样本提供了解释预测的中间监督,这提高了少数情况下的泛化能力。关于这个手动增强实验有一个警告虽然我们遵循一定的原则(即,进行最小的改变以改变标签)并且非常关注增强质量,但是手动增强过程不可避免地是主观的并且难以再现。作为参考,我们将公开我们的手动增强数据集。更重要的是,我们将在以下章节中设计一种自动方法,以进行客观评价和重现性。也就是说,本节的发现激发了FlipDA的核心思想。3.4鲁棒性:导致故障模式的因素是什么?我们还使用初步的实验来分析为什么增强方法通常遭受故障模式。大多数增强方法都基于标签保持假设,即新生成的然而,对于自动方法来说,总是生成在硬NLU设置中保留标签的样本是具有挑战性的。我们首先检查以前的自动方法,包括EDA和KNN生成的样本。示例如表4所示。 在第一个例子中,一个关键字“狂犬病”被删除的增强方法,这不仅导致语法上不正确的表达,但也消除了关键信息,以支持假设。在第二个示例中,假设中的实体名称“的的喀喀湖”被替换为“哈瓦苏湖”,这导致了从蕴涵的标签更改到非必然性。如果在这些带有标签保留假设的噪声增强数据上训练模型,则预期性能会下降。为了进一步验证失效模式的原因,我们在SuperGLUE [59]中的RTE任务上使用EDA [63]进行了实验。使用EDA会使ALBERT和DeBERTa的性能降低几个百分点,进入故障模式。为了分析原因,我们在增强样本中识别出两种类型我们尝试了(1)用原始样本替换这些噪声样本,以及(2)纠正这些噪声样本的标签请注意,对于标签更正,如果样本有严重的语法错误,+v:mala2277获取更多论文6人类,我们总是把它标记为这与一个有趣的现象有关,即对于NLU任务,标签翻转通常是不对称的。 我们将在第4.5节中讨论更多这种现象。如表3所示,替换和校正噪声样本的操作都大大提高了性能,以防止故障模式。此外,与没有数据增强的基线相比,校正标签带来了很大的增益并导致了良好的性能这表明,标签保留假设和语法错误有助于故障模式,标签翻转往往会缓解这个问题。与第3.3节中的实验类似,本节中的实验涉及主观因素,如人类判断。我们想重申,这些实验仅仅是为了展示FlipDA的直觉和见解,而不是证明FlipDA的优越性。表3:通过EDA在RTE上校正错误标记的扩增数据的性能。Wrong-Flipped表示用对应的原始样本替换错误标记的增强样本,Wrong-Flipped表示将错误标记的增强样本的标签翻转为正确的标签。结果表明,在这种情况下,与标签保持假设的数据扩增大大有助于性能下降。阿尔伯特DeBERTa无DA61.4081.95EDA58.3377.38错误59.3980.75错误翻转61.0783.39表4:具有错误标签的增强示例第一种是EDA,第二种是KNN。黑色表示原始示例,蓝色表示增强示例。不对称标记转换的现象(例如,从“蕴涵”到“非蕴涵”的翻转更常见)在4.5节中进一步研究。“premise”“hypothesis”(“蕴涵”)“premise”“假设”:“确诊狂犬病病例。”(“premise”安全部副部长Marcos Farfan表示,警方有德怀尔在莫拉莱斯参加的各种公共活动中的监控照片,包括圣克鲁斯附近的农民集会和对的的喀喀湖海军设施的访问。“hypothesis”(“蕴涵”)“premise”安全部副部长法凡说,调查人员有法瑞尔先生在莫拉莱斯先生主持的各种公开活动中的监视照片,包括圣克鲁斯附近的农民集会和参观的的喀喀湖上的海军设施..。“假设”:“哈瓦苏湖有海军设施。”(3.5FlipDA:自动标签翻转第3.3节和第3.4节中的上述观察结果表明,在有效性和鲁棒性方面,没有标签保留假设的标签翻转数据增强此外,减少语法错误也是防止失败模式的关键这促使我们开发了一种新的方法FlipDA,它可以自动生成和选择标签翻转数据,而不依赖于标签保留假设。FlipDA主要包括以下步骤,如图3.5所示1. 训练分类器(例如,微调预训练模型),无需数据增强2. 生成标签保留和标签翻转的增强样本+v:mala2277获取更多论文7||/∈Y--我的天'|训练数据步骤2:生成增强数据保留标签翻转标签步骤1:训练分类器步骤3:选择最可信的数据步骤4:重新训练模型最终模型增强数据滤波的数据图1:FlipDA的训练过程。我们首先用标准PET训练分类器。然后,我们生成具有保留/翻转标签的增强数据。第三,我们利用训练好的分类器对增强后的数据进行过滤。最后,我们用选定的增强数据重新训练模型,得到一个新的模型。3. 使用分类器为每个可能的标签选择具有最大概率的生成样本4. 使用额外的增强样本形式上,给定一个少量训练集(x i,y i)i,其中x i是文本(可能是一组文本片段或单个片段),y i是一个标签。 我们微调预训练的模型f以拟合分类的条件概率f(x,y)=p(yx)。例如,模型f可以是预训练的BE RT[11]或其变体[33,11]。在第二步中,我们从原始样本中生成增强样本对于每个训练样本xi,我们对一组增强样本Si=x∈i,1,x∈i,2,. 在我们的实现中,我们首先使用完形填空模式[56]将x和y组合成一个序列,然后随机屏蔽固定百分比的输入标记。然后使用预训练的T5模型[48]来填充空白以形成新的样本(更多详细信息请参见附录A.3请注意,使用T5生成增强样本确实引入了额外的知识并减少了语法错误,但天真地使用T5进行增强而不进行标签翻转和选择并不奏效(参见第4节中的消融研究)。在生成增强样本之后,我们使用分类器f进行评分。具体地,令Si是从原始样本(xi,yi)生成的增强样本的集合。对于每个标签y′/=yi,我们构造一个集合Si,y'={x|x∈Si且y′=argmaxp∈(y|(x)}它包含所有增广样本,其中y′是最高概率类。给定集合Si,y',我们选择具有最高预测概率x′,y′=argmax p(yx)x∈Si,y',y=y其中x′是生成的集合中的样本,y′是翻转的标签,并且由模型f评分的估计概率p(y′x′)在Si,y′中是最大的。在选择标签翻转的示例(x′,y′)之后,我们将(x′,y′)添加到增强的训练集。换句话说,我们只在模型f认为翻转的标签是正确的情况下才将示例添加到训练集中。 我们将这个过程应用于每个可能的标号y′=yi。如果Si,y'为空,我们不向训练集添加任何示例。在实践中,我们发现还添加具有最高标签保留概率的示例是有益的,使用同样的程序。在扩充训练集之后,我们重新训练分类器f以获得最终模型。分类器…………y+v:mala2277获取更多论文84实验在本节中,我们对自然语言理解基准测试SuperGLUE [60](也称为FewGLUE [56])的少数版本进行了广泛的实验。结果表明,FlipDA通过生成标签翻转的数据,同时对不同的预训练模型和任务具有鲁棒性,从而有效地提高了少镜头性能。4.1实验装置数据集与其他NLU基准测试(例如,GLUE [61]),其中大多数是单句任务,SuperGLUE由复杂的NLU任务组成,这些任务都是双对或双三对任务,这些任务需要更多的理解能力。我们在7个SuperGLUE任务中进行了系统的实验,包括问答(BoolQ [6] MultiRC [29]),文本蕴涵(CB [10] RTE [8]),共指消解(WiC [46]),因果推理(COPA [53])和词义消歧(WSC [36])。每个任务由一个32样本训练集、一个测试集、一个验证集和一个额外的未标记集组成基线我们将FlipDA与各种数据增强基线方法进行比较。我们不选择一些基于生成的方法[64,70,38],因为它们通常需要大量的训练数据,这不适合于少量学习任务。我们还尝试使用LAMBADA [1]和GPT3Mix [69]等方法进行实验。由于SuperGLUE任务通常涉及句子对之间的依赖关系,因此为了使数据有意义,增强句子之间的相关性是必要的然而,我们无法从LAMBADA或GPT3Mix中生成格式良好、有意义的数据。例如,在RTE中,我们想要一个前提和一个可能包含在前提中的较短假设,但像GPT3Mix这样的方法通常会以不可控的方式生成长此外,这些方法依赖于启动,这不适用于具有长句的数据集。我们采用以下七种增强方法作为基线有关实施的更多详细信息,请参见附录A.2。1. 同义词替换(SR)[75]通过从原始文本中随机选择r%的单词(不包括停止词),并用WordNet7中的同义词替换它们来增加数据。2. KNN替换(KNN)[62]与同义词替换相似,但不同之处在于用GloVe8中最接近的词之一替换随机选择的词。3. 简单数据扩充(EDA)[63]混合了四种数据扩充方法的输出,包括同义词替换,随机插入,随机交换和随机删除。4. 反向翻译(BT)[13,57]将每个文本翻译成另一种语言,然后再反向翻译成原始语言。5. TinyBERT(T-BERT)[25]通过随机(概率为p)将每个标记替换为由Bert-based-cased模型预测的单词(对于单件单词)或由GloVe导出的单词(对于多件单词)来生成增强数据。6. T5-MLM[31]通过随机(概率为p)屏蔽一些标记来生成增强数据,然后使用大型预训练模型填充空白。我们使用基于模式的数据完形填空,以进一步提高其性能。也就是说,它与我们的FlipDA相同,只有标签保留的示例,没有数据选择。7. MixUP[73,17]在特征空间中增加数据,在两个源句子嵌入之间线性插值,并相应地线性插值两个目标嵌入。7https://wordnet.princeton.edu/8https://nlp.stanford.edu/projects/glove/9我们使用谷歌翻译实现了两个版本的BT。第一个是BT-10,其中我们获得了9种语言(西班牙语,法语,德语,南非荷兰语,俄语,捷克语,爱沙尼亚语,海地克里奥尔语和孟加拉语)的增强数据,然后将其与原始句子混合。第二个是BT-6,其中我们使用5种中间语言(西班牙语,法语,德语,俄语和海地克里奥尔语)获得增强数据,然后将其与原始句子混合。+v:mala2277获取更多论文9为了评估有效性,我们使用完全相同的指标(例如,准确度、f1评分和精确匹配)作为PET/iPET [56]。PET是一种基于完形填空的训练框架,它将所有任务转化为完形填空问题,大大超过了以往的序列分类方法。已经证明,在小数据集上进行微调会受到高方差和不稳定性的影响[12],即使实验条件发生微小变化,也会导致剧烈变化此外,PET/iPET [56]还指出,图案的选择将对性能产生很大影响。为了减轻这种影响,我们在多个模式和3次迭代中运行每个实验,并最终报告平均性能。此外,我们还探索了FlipDA对不同预训练模型和任务的鲁棒性。我们在上面提到的7个不同的复杂任务和2个不同尺度的预训练语言模型上进行了实验,分别是ALBERT(ALBERT-xxlarge-v2)和DeBERTa(DeBERTa-xxlarge-v2)。对于鲁棒性评估,我们提出了一个新的度量命名为MaxDrop(MD),它衡量的最大性能下降相比,不使用增强多个任务的给定方法。详细地,对于任务t1,t2,.,和tn,方法med和基线基础MD表示为MD=最大t∈{t 1,t 2,. tn} max(0,scoret,base− scoret,med)其中,scoret,med表示方法med对任务t的性能,而scoret,base表示方法base对任务t的性能。较小的值表示该方法对各种任务更鲁棒,反之亦然。我们遵循与PET/iPET [56]相同的实验设置,其中我们采用一组固定的超参数。对于ALBERT,我们使用与PET/iPET完全相同的超参数[56]。对于DeBERTa,我们根据实际考虑选择了一组固定的超参数详情请参阅附录A.14.2主要结果主要结果见表5和表6。 我们可以观察到,我们的FlipDA在所有数据增强方法中在有效性(Avg.)以及ALBERT-xxlarge-v2和DeBERTa-v2-xxlarge的鲁棒性(MD)。具体来说,FlipDA在ALBERT-xxlarge-v2上的平均性能为72.90,在DeBERTa-v2-xxlarge上的平均性能为78.65,两者都超过基线3个点。结果强烈表明,FlipDA通过增加高质量的数据,在提高少数任务的性能方面是有效的,而不会引起太多的副作用。我们没有在WiC和WSC上实现回译,因为它们都需要保持句子中的部分单词不变,这是回译无法满足的同时,我们还观察到FlipDA在除WSC之外的所有任务上都有改进,而所有其他方法只在少数任务上有效(用下划线表示)。这些观察结果与MaxDrop结果一致,其中FlipDA在ALBERT-xxlarge-v2上实现了最低MaxDrop值0.0,在DeBERTa-v2-xxlarge上实现了1.28。这意味着FlipDA对不同类型的任务具有鲁棒性,而其他数据增强方法只能对部分任务有效,并且不够鲁棒。4.3FlipDA的消融研究我们观察到,大多数数据增强方法在一定程度上对某些任务或基础模型表现出有效性,而FlipDA几乎可以在所有任务上实现良好的因此,我们特别感兴趣的是使FlipDA有效鲁棒的根本原因在本节中,我们展示了使用DeBERTa-v2-xxlarge模型的消融结果 您可以在附录A.6中参考ALBERT的更多结果。通常,FlipDA有两个步骤,其中第一步准备候选增强数据,第二步选择数据并翻转标签。在接下来的实验中,我们首先冻结第二步来研究第一步的变体,然后固定第一步来研究第二步。基于模式的数据完形填空的有效性从获得候选增强数据的角度来看,有几种不同类型的方法,包括基于补充的方法(例如,KNN替换和同义词替换)、基于生成的方法(例如,反向平移),基于特征空间的方法(例如,mixup),以及我们的基于模式的数据完形填空方法(即,FlipDA)。到+v:mala2277获取更多论文10表5:基于PET和ALBERT-xxlarge-v2的基线方法和FlipDA的性能(“基线”表示没有数据增强的原始PET。下划线表示优于“基线”的值。粗体表示任务中表现最好的部分)。“平均”是分数的平均值,“MD”(MaxDrop)测量给定方法在多个任务上的最大性能下降。所有结果均为多次模式和3次迭代的平均值。布尔QCBCopaRTEWICWSCMultiRC方法Acc.Acc./ F1Acc.Acc.Acc.Acc.EM/F1aAvg.MD基线72.4782.74/74.8488.3361.4051.2777.0333.04/74.6469.02-Sr74.9883.33/78.1287.5059.2451.2578.7434.09/75.5569.612.16KNN74.5182.14/74.3985.5061.9151.6275.0032.72/75.2068.68 2.83EDA72.6881.10/73.5884.5058.3351.8175.8528.74/73.0567.34 3.83BT-1074.5982.44/77.7283.0055.93--32.96/74.69-5.47BT-675.3682.89/76.5586.5057.46--34.85/75.82-3.94T-BERT72.6085.42/82.3584.6758.6651.1078.9530.47/73.2068.81 3.66T5-传销73.8683.48/75.0187.3362.2751.0879.1733.79/74.0669.551.00MixUP75.0383.93/79.2870.3362.0652.3268.7034.06/74.6666.34美元FlipDA76.9886.31/82.4589.1770.6754.0878.7436.38/76.2372.90 0.00表6:基于PET和DeBERTa-v2-xxlarge的基线方法和FlipDA的性能。“基线”表示没有数据增强的原始PET。下划线表示优于“基线”的值。“FlipDA cls”表示与FlipDA中相同的分类器,用于过滤候选增强数据。粗体表示任务中表现最好的部分。波形线表示具有FlipDA分类器的方法优于原始(没有FlipDA分类器)版本。“平均”是分数的平均值,“MD”(MaxDrop)测量给定方法在多个任务上的最大性能下降。所有结果均为多次模式和3次迭代的平均值。布尔QCBCopaRTEWICWSCMultiRC方法Acc.Acc./ F1Acc.Acc.Acc.Acc.EM/F1 a平均值MD基线78.3085.42/79.3187.6781.9558.7480.1375.49-Sr77.3787.20/80.2887.0076.2958.8880.8835.70/76.255.66+FlipDA cls8~0~。3~7岁83.48/79.0185.50八两。7~9岁~5~9~。7~5岁78.10~3~7~。5~1~/7~6~。八四~7~4 ~。9~9~2~。1~7KNN75.3583.78/75.6185.0075.4559.6379.3829.849.78+FlipDA cls~7~8~。5~18~7~。5~0~/8~2~。~53~八八3~3八两。7~9岁58.6676.393~8~。8~6~/7~7~。~29~~7~5~。4~0~3~。7~4岁EDA74.4283.63/76.2385.8377.3859.2878.7437.02/77.05 73.234.57+FlipDA cls~7~6~。2~08~7~。3~5~/8~2~。三五八八1~7八两。3~1~5~9~。9~4~7~9~。8~1~4~2~。8~4~/7~9~。~30~~7~6~。0~5~2~。1~0BT-1075.3888.24/84.0385.3379.66--38.88/77.79-2.92+FlipDA cls~7~9~。9~7岁85.71/80.508~7~。5~078.58--~4~0~。9~7~/7~8~。~25~-3.37BT-676.7886.46/82.5684.0081.47--40.53/79.01-3.67+FlipDA cls~7~9~。6~3岁84.67/77.9477.00八两。9~1--39.03/77.64-10.67T-BERT70.5386.01/82.7786.1772.8057.4978.8572.189.15+FlipDA cls8~0~。2~486.16/81.2583.00八两。1~9~5~9~。4~9岁~7~9~。5~9岁~4~0~。7~8~/7~8~。~64~~7~5~。4~2~4~。6~7岁T5-传销77.3983.04/73.7188.1781.2360.7382.3774.694.73MixUP63.4171.13/60.8372.0068.5957.7068.3839.2416.39FlipDA81.8088.24/87.9490.8383.7565.1278.8578.651.28+v:mala2277获取更多论文11为了找出它们之间的差异,我们通过将这些方法获得的候选增强数据馈送到相同的分类器(如FlipDA使用的)来进行大量的消融研究,并看看其他策略是否也可以达到与FlipDA相似的性能。表6显示了获得候选增强数据的三种方法的消融结果注意,不包括基于特征空间的方法,因为该方法不能与分类器组合。FlipDA优于所有具有分类器的基线方法(即,用“FlipDA cls”)。FlipDA实现了最大的平均有效性得分以及最小的MaxDrop值(以粗体表示)。当采用不同的候选增广数据获取策略时,FlipDA分类器仍然不能达到与FlipDA相似的性能,这证明了本文提出的基于模式的数据完形填空策略T5是有效的。有几个可能的原因。基于T5的增强产生具有较少语法错误的样本。这将在第二节中进一步讨论。.此外,T5样式的空白填充可能产生与标签翻转更兼容的样本FlipDA分类器的有效性现在我们比较使用和不使用FlipDA分类器的不同数据增强方法的性能。根据表6中的结果,使用FlipDA分类器的大多数基线方法在有效性(平均值)方面都优于原始版本。鲁棒性(MD)这表明,能够翻转标签和过滤数据的FlipDA分类器在增强高质量数据和提高少量NLU性能方面是有效的唯一的例外是BT-6和BT-10,FlipDA分类器不会提高性能。这是合理的,因为通过反向翻译增加的数据通常缺乏多样性。使用FlipDA分类器会进一步降低多样性并损害性能。FlipDA分类器带来的改进在BoolQ、RTE和MultiRC上更加一致这可能是因为这些任务涉及预测具有两个相反选择的单个令牌。因此,标签翻转可能会更频繁地发生。其他一些任务,如COPA和WSC,涉及预测多个标记,这使得生成标签翻转数据更加困难。这导致对这些任务的实质性改进较少。4.4标签翻转与标签保存如表5和表6所示,同时生成标签翻转和标签保留数据两者导致性能改进。一个后续问题是标签翻转数据和标签保留数据如何分别对整体性能做出贡献为了回答这个问题,我们通过运行解耦标签翻转数据和标签保留数据进行进一步分析。结果见表7,其中粗体文本代表最佳执行方法。我们的结论是,增加标签翻转和标签保存的数据导致最佳的平均性能。此外,带下划线的值表示第二好的性能,其中大多数仅增强标签翻转的数据。仅增强标签保留的数据会导致最差的性能,甚至略低于非增强基线。这证明了标签翻转的高效率。这与我们在第3.3节中的分析一致。关于ALBERT的更多结果,请参见附录A.6.2。表7:标签翻转数据与Deberta-v2-xxlarge上的标签保留数据粗体表示性能最佳的结果。下划线表示第二好的结果。“平均”是分数的平均值,所有结果均为多次模式和3次迭代的平均值。布尔QCBCopaRTEWICMultiRC方法Acc.Acc./ F1Acc.Acc.Acc.EM/F1 a平均值MD基线78.3085.42/79.3187.6781.9558.7474.72-FlipDA(两者) 81.8088.24/87.9490.8383.7565.1278.610.0标签翻转80.9184.52/80.9989.6783.5162.3476.700.0标签保存77.0483.48/78.6887.6780.9960.0874.301.284.5标签转换第4.4节证明了标签翻转的增强数据比标签保留的数据更有效地提高了少镜头性能。沿着这个方向,+v:mala2277获取更多论文12标签翻转的哪个方向能够最大程度地有益于少拍性能为了解释这一点,我们用4个任务进行了实验,包括RTE、BoolQ、WiC和MultiRC,所有这些都是二进制分类任务。每个任务有4个方向的标签转换。我们分别在四个方向上对数据进行了增强实验,并比较了它们的有效性。在这里,我们专注于使用DeB
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功