没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文PromDA:用于低资源NLU任务的基于数据的数据增强王宇飞1、徐灿2、苏庆丰2、黄虎2、田重阳2、耿秀波2、姜大新2澳大利亚悉尼麦考瑞大学1中国北京微软公司2www.example.comyufei.wang @students.mq.edu.au{caxu,hubei,chongyang.tao,xigeng,djiang}@microsoft.com摘要本文主要研究面向低资源自然语言理解(NLU)任务的数据扩充我们提出了基于提示的数据增强模型(PromDA),它只训练小规模的软提示(即,一组可训练向量)。这避免了人工收集未标记的域内数据,并保持了生成的合成数据的质量。此外,PromDA通过两种不同的视图生成合成数据,并使用NLU模型过滤掉低质量的数据。在四个基准上的实验表明,PromDA产生的合成数据成功地提高了NLU模型的性能,这些模型的性能一直优于几个竞争性基线模型,包括使用未标记域内数据的最先进的半监督模型。PromDA的合成数据也与未标记的域内数据复杂。当NLU模型被组合用于训练时,可以进一步改进它们。1介绍深度神经网络通常需要大规模的高质量标记训练数据来实现最先进的性能(Bowman et al. ,2015)。然而,在许多情况下,构建标记数据可能是挑战性的(Feng et al. ,2021年)。在本文中,我们研究了低资源的自然语言理解(NLU)任务,包括句子分类和序列标记任务,其中只有少量的标记数据可用。以前的工作通常会产生额外的“标记数据”供NLU模型学习。Wang等人(2021)部署了自训练框架,以从未标记的域内数据中生成伪标记的训练数据,这可能是昂贵的。Xu等人(2021年)在Microsoft STCA实习期间完成的工作† 对 应作 者 : DaxinJiang(djiang@microsoft.com).已经表明,从一般语料库中提取领域特定的未标 记 数 据 并 不 是 微 不 足 道 的 。 Wei 和 Zou(2019);Dai和Adel(2020)使用自动启发式规则扩展原始的小训练数据,例如随机同义词替换,这有效地创建了新的训练实例。然而,这些过程可能会扭曲文本,使生成的语法数据在语法和语义上不正确。为了解决上述困境,许多现有的作品(丁等。,2020; Yang et al. ,2020; Anaby-Tavor等人,2020)诉诸于应用语言模型(LM)或预训练语言模型(PLM)在低资源环境中进行数据增强。给定标记的数据,可以直接微调PLM以生成新的合成数据,而无需额外的人工努力。然而,我们认为,在低资源的NLU任务中,直接微调PLM的所有参数与小的训练数据(特别是当有少于100个样本)可能会导致过度拟合和PLM简单地记住训练实例。因此,生成的合成数据可能与原始训练实例非常相似,并且不能向NLU模型提供新的训练信号。最近,一些作品(莱斯特等人。,2021; Li和Liang,2021)提出了快速调谐,其仅将错误反向传播到软调谐器(即,在PLM的输入之前的连续向量序列)而不是整个模型。他们表明,及时调整是足够的竞争力与完整的模型调整,同时显着减少的参数调整的数量。因此,即时调整非常适合解决低资源生成微调中的上述过拟合问题,其在保证生成质量的前提下产生相对于小标记数据的更多新基于此,本文提出了基于提示的数据挖掘模型(PromDA).具体来说,我们冻结整个预训练模型,arXiv:2202.12499v1 [cs.CL] 2022年2月+v:mala2277获取更多论文允许在对小的标记训练数据进行微调期间调整附加的软提示。此外,我们观察到软提示的初始化对微调有很大的影响,特别是当低资源情况达到极端程度时。为了更好地初始化数据增强任务的提示参数,我们提出了与任务无关的同义词关键字到句子预训练任务,以直接在其预训练语料库上预训练PLM的提示参数。该任务模拟从部分片段信息生成整个训练样本的过程关键字)。类似于以前的作品(丁等。,2020; Yang et al. ,2020; Anaby-Tavor et al. ,2020年),我们可以微调PLM,以产生以输出标签为条件的完整合成数据。我们称之为输出视图生成。为了提高生成的样本的多样性,我们引入了另一个微调生成任务名为输入视图生成,它需要从样本中提取的关键字作为输入和样本作为输出。由于从小训练数据训练的NLG模型仍然有一定的机会生成低质量的样本,因此我们利用NLU一致性过滤(Anaby-Tavor etal. ,2020)以过滤所生成的样本。我们在四个基准上进行实验:序列标记任务CoNLL03 ( Tjong Kim Sang 和 De Meulder ,2003)和Wikiann(Pan et al. ,2017)、句子分类任务SST-2(Socheret al. ,2013)和RT(Pang和Lee,2005)。实验结果表明,在PromDA合成数据上训练的NLU模型始终优于几种竞争性基线模型,包括最先进的半监督NLU模型MetaST(Wang et al. ,2021)的序列标签任务。此外,我们发现来自PromDA的合成数据也与未标记的域内数据互补。当两者结合时,NLU模型的性能可以进一步提高最后,我们进行了多样性分析和案例研究,以进一步确认合成数据的质量从PromDA。2相关工作快速学习的概念基于学习的概念开始于GPT3模型(Brown et al. ,2020),其可以用自然语言指令完成各种零触发或少触发任务(即,提示)。以前的作品设计不同的提示查询语言模型提取知识三元组(Petroni et al. ,2019年)或分类句子到预定义的类别(Schick和Schütze,2021年)在少数镜头设置。他们为这些任务手动构造各种离散提示。为了减少在该选择过程中的人力,(Gao et al. ,2021)提出使用预先训练的语言模型来扩展提示。然而,离散提示的选择仍然是一个独立的过程,并且不能以端到端的方式与下游任务一起为了解决这个问题,(Lester et al. ,2021;Li和Liang,2021)提出在冻结的预训练语言模型中使用软提示,软提示是可训练向量的集合与硬提示不同,这些向量不对应于任何真实的单词。它允许以端到端的方式优化下游任务。如Li和Liang(2021)所示,具有软约束力的PLM通常在低资源环境中表现更好。生成式数据扩充在应用LM或PLM生成合成数据方面有先前的工作Hou et al.(2018)使用seq2seq生成模型来生成不同的话语,以改善对话理解模型。Xia等人(2019)使用双语词典和无监督机器翻译模型来扩展低资源机器翻译训练数据。Wuet al.(2019);Kumar et al.(2020)在许多PLM预训练目标函数中利用掩蔽机制(例如,BERT,BART),并通过屏蔽原始训练实例中随机选择的单词来产生新的合成数据。丁等人 (2020); Yang et al.(2020); Anaby-Tavor等人 (2020)应用LM和PLM来直接学习以生成用于NLU任务的新合成数据(即,在相对大的训练数据上训练(微调)之后的序列标记和常识推理这些工作通常直接应用现成的LM或PLM来生成合成数据。据我们所知,PromDA是第一个专门为数据增强任务设计的基于XML的PLM。3基于XML的数据增强本节首先阐述了低资源NLU任务的数据扩充。然后,我们介绍了三个重要组成部分,我们提出 的 基 于 人 工 智 能 的 数 据 增 强 方 法(PromDA),包括i)基于人工智能的学习预训练的语言模型;ii)双重合成数据生成视图和iii)一致性过滤。图-+v:mala2277获取更多论文不不我的天不T{···}不我我1Kpii≤kwii>kj=0分别然后PromDA将T1输入输出视图,T1输入输入视图.这允许hj=(一)O图1显示了PromDA的整体。3.1用于NLU任务的数据增强在低资源NLU任务中,只有一组标记的训练数据=(x1,y1),(xn,yn)可用,其中n相对较小(即, 少于一百个)。数据增强使用语言模型从原始标记训练数据T生成合成标记训练数据LM=(x1,y1),(xn,yn)我们的目标是,使用T TLM训练的NLU模型优于仅使用T.3.2自主学习微调是使PLM适应特定下游任务的流行方法(Devlin等人,,2019)。然而,对于低资源数据增强,我们期望生成的合成训练数据LM不同于NLU模型,并为NLU模型提供了新一个微调的PLM,偏向于少量的训练实例,可能不是一个最佳的解决方案。从GPT3中的零射击指令开始的基于学习的学习(Brown et al. ,2020),保持整个PLM参数冻结,并且仅在任务输入之前预先考虑离散的自然语言任务指令(例如,冻结PLM参数可能有助于训练期间的泛化。然而,找到合适的离散任务引入不能以端到端的方式轻松优化,并且需要额外的人工努力。 在本文中,受 最 近 的 工 作 ( 莱 斯 特 等 。 , 2021; Li 和Liang,2021),我们用软提示(即,连续的和可训练的向量的序列)。在训练过程中,我们只更新此软提示的参数并修复所有PLM参数 。 我 们 主 要 专 注 于 使 用 基 于 seq2seqtransformer的PLM生成合成训练数据。不像莱斯特等人 (2021),其仅在输入层处预 先 添 加 软 提 示 , 受 Adaptor ( Houlsby etal. ,2019),其在每个Transformer层添加可训练的多层感知器(MLP),我们在每个Transformer层预先设定一系列可训练的向量。我们记为Pj={pj,···,pj}作为第j层的软提示Transformer模型第j层hj其中,Trans()stec是Trans-former层的forward函数,wi是输入层的固定单词嵌入向量。 与(Lester et al. ,2021),这允许在每一层更新梯度并且更好地完成学习任务。3.3快速安装前培训软提示的参数初始化P对生成的合成数据质量有显著影响,特别是在低资源数据增强任务中。Lester等人(2021)建议进一步预训练完整的PLM参数,而不使用提示参数,以增强提示能力。然而,这一战略(即,全PLM预训练)引入了显著的计算开销,并且没有提供关于即时初始化的任何可见的信息。相反,我们建议直接用冻结的PLM预训练软提示的参数假定数据扩充从部分信息(例如,输出标签和关键词),我们提出了同义词关键词的句子预训练任务。给定一大块文本,我们使用无监督关键字提取算法Rake(Rose et al. ,2010年)。我们通过WordNet(Fellbaum,2010)随机将其中一些提取的关键字替换为它们的同义词。给定这些同义词关键字,软提示被预先训练以重建原始文本块。当将此软提示应用于数据扩充时,我们只需要对带有少量标记数据的软提示进行微调。这个训练过程只进行一次。我们只使用与任务无关的通用预训练语料库。3.4双视图数据增强先前的工作通常将编码器输入限制为固定的关键 字 或 有 限 的 标 签 , 诸 如 不 一 致 性 生 成( Yang et al. , 2020 ) 和 标 记 条 件 生 成(Anaby-Tavor et al. ,2020)。相对较小的输入空间可能导致相似的输出。为了丰富输入空间,我们提出了双视图数据增强,它从输入视图生成合成数据,输入视图以输入句子中的关键字为条件,输出视图以输出标签为条件如算法1(第2行到第7行)所示,在对PLM中的软提示进行微调之后,PromDA首先从输入视图和输出视图生成T1和T1,吉尔吉·I·O1Trans(hj−1)i否则新词汇项(即,单词、短语)和+v:mala2277获取更多论文不我OLMNLULMNLU13:M ←MNLUNLU我OO我我我OO我OO我不图1:PromDA的整体。软提示在冻结PLM的每一层预先添加一个可训练向量序列。白色锁定器表示冻结参数。我们有单独的软提示集,以支持Daul- View数据增强,其中输出视图条件上的输出标签和输入视图条件上的输入句子中的关键字。最后,我们使用NLU模型迭代过滤掉低质量的合成数据,并使用剩余的合成数据与T相结合来训练更强大的NLU模型。算法 1 双视图 数据扩充:给定少量标记数据集,迭代次数N1返回训练的NLU模型M NLU。1 :程序DUAL VIEW DA(D,N)2:MLM←TRAIN(LM,T)3:T1←GEN(MLM,T, I)d输入4:T1←GEN(MLM,T, O)d输出5:T2←GEN(MLM,T1, I)6:T2←GEN(MLM,T1, O)7:TLM←T1T2T1T2在我们的例子中,经过提示预训练后,我们将输入视图和输出视图作为两个独立的模型,并使用软提示参数P来初始化P输入和P输出的参数。在PromDA微调期间,来自输入视图和输出视图 训 练 实 例 的 梯 度 仅 应 用 于 参 数 Pinput 和Poutput,re-tuning。该提示集合允许两个视图独立地生成合成数据因此,最终产出应包括各种0NLU ←TRAIN(NLU,T)真实世界的知识9:对于r ∈1,. . . ,N do3.5一致性过滤10:Tr←CONSIST(M r−1,TLM)11:Tr← TrT12:M r←TRAIN(NLU,Tr)NNLU十四:returnMNLU输出标签序列(即,不出现在T中)在T1和T1中被用作PromDA的输入。由此产生的输出T2和T2应该提到更多由于PromDA是从小训练数据中训练的,因此可能会生成低质量的样本。 我们利用NLU一致性过滤(Anaby-Tavoret al. ,2020)以过滤所 生 成 的 样 本 。 具 体 而 言 , 给 定 带 有 由PromDA生成的标签的合成数据,我们使用NLU模型再次标记这些数据,并且仅保留来自PromDA和NLU模型的具有一致输出如算法1(第8至12行)所示,新奇的单词/短语/知识。 两种观点都使用rNLU 将剩余的合成数据TLM过滤成TLM他们自己的输入信息,相同格式的数据对于句子分类,与少量标记数据训练新的NLU模型Mr+1。当Mr+1为NLU NLU输出是句子和标签。 用于序列一般比Mr,我们将此亲-标记,输出是具有实体类型和边界注释的句子具体例子见附录表8不同神经模型的快速集成通常可以实现更好的性能(Hansen和Salamon,1990)。基于提示的学习为集成建模提供了一种有效的方法.通过训练K组Soft Prompt,我们创建了K个共享相同冻结PLM的模型。在循环N次以获得更强的NLU模型。4实验本节首先在第4.1节介绍实验装置,然后在第4.2节介绍主要实验结果。第4.3节进行消融研究。我们在第4.4节中比较了PromDA和未标记数据。最后,我们在第4.5节介绍多样性分析,在第4.6节介绍案例研究。8:男M+v:mala2277获取更多论文不不4.1实验装置数据集C03 Wiki我们在句子分类上进行实验枪10501050任务SST 2(Socher et al. ,2013)和RT(Pang基线72.782.950.865.4和Lee,2005年)和序列标记任务公司简介72.982.851.765.8CoNLL03(Tjong Kim Sang和De Meulder,兰巴达75.083.752.966.42003)和Wikiann(Pan et al. ,2017年)。为每个 MetaST交易所76.783.656.669.2基准,我们进行拍摄-10,20,50,100实验-PromDA77.584.158.370.1- 是的 在Shot-K中,我们对K个标记的实例进行对于来自完整训练数据的每个输出标签。我们重复实验5次,并报告平均微F1。基线模型是仅用少量训练数据训练的BERT-BASE模型。给定新生成的合成数据LM,我们使用相同的超参数集训练相同的BERT-BASE在序列标记任务中,我们使用基于规则的数据扩充方法SDANER ( Dai 和 Adel , 2020 ) 和 MetaST(Wang et al. 2021),这是一种最先进的自训练方法,需要额外的未标记的域内数据。 对于句 子 分 类 任 务 , 基 于 规 则 的EDA ( Wei和Zou,2019),反向翻译(BackT. )和基于bert 的 CBERT 方 法 。 我 们 采 用 LAMBADA(Anaby-Tavor et al. ,2020年)作为一个基于PLM的方法,所有的任务。更多实验设置见附录中的A4.2主要结果序列标记任务表1总结了发射10和发射50中的实 验 结 果 。 在 这 两 种 设 置 中 , 使 用 来 自PromDA的合成数据训练的NLU模型的性能都得到了大幅提升(即,CoNLL03和Wikiann分别为4.8%和7.5%)。PromDA也优于基于规则的SDANER表1:序列标记任务的实验结果。结果来自(Wanget al. ,2021年)。我们运行Dai和Adel(2020)的源 代 码 。 C03 指 的 是 CoNLL03 , Wiki 指 的 是Wikiann。下划线是与基线模型相比的显著性结果(配对学生句子分类任务表2示出了在镜头10和镜头50中的实验结果与序列标记任务中的结果类似,添加来自PromDA的合成数据显著提高了NLU模型的性能(在shot- 10的两个基准测试中均超过10%)。 PromDA还优于各种竞争方法,包括BackT。、CBERT和LAM- BADA。虽然LAMBADA具有更高的灵活性,并从输出标签生成合成数据,但它的性能与CBERT相似。这可能是因为在使用小训练数据进行微调PromDA成功地避免了这个问题,并产生高质量的合成数据来支持NLU模型训练。图2显示了 在 拍 摄-{10 , 20 , 50 ,100}设 置 的 性 能PromDA支持的NLU模型在所有设置中的句子分类任务中始终优于所有其他系统和完全微调的PLMLAMBADA方法。一般来说,基于PLM的方法比SDANER产生更好的合成数据。令人惊讶的是,PromDA支持的NLU模型比使用未标记的域内数据的MetaST 实 现 了 更 好 的 性 能 。 这 表 明 ,PromDA可以潜在地减少在为低资源NLU任务收集未标记的域内数据图2显示了在拍摄-{10,20,50,100}设置的的PromDA支持的NLU模型在所有设置中始终优于其他系统与Wikiann相比,CoNLL03的改进幅度这可能是因为CoNLL03基线的性能相对较高(在射击100设置中表2:句子分类任务的实验结果。我们运行Wei和Zou(2019)的源代码。Wuet al. (2019)源代码。下划线是与基线模型相比的显著性结果(配对学生数据集sST2RT枪10501050基线66.181.557.872.0EDA工具66.780.458.573.9回到T。70.081.462.674.2公司简介67.883.461.575.3兰巴达70.682.060.375.9PromDA81.486.373.480.9+v:mala2277获取更多论文图2:在Shot-{10,20,50,100}设置下CoNLL 03,Wikiann,SST 2和RT基准测试的实验结果讨论LAMBADA的性能始终低于PromDA。在句子分类任务中,成绩差距超过这是因为完全微调的PLM可以轻松记住有限的标记训练数据直接训练提示参数。并产生类似的合成数据。而反观基于知识的学习使PromDA能够保持PT培训前无患者75.274.574.9合理的泛化能力,并提供新的无PT预培训74.078.276.1在其生成的合成数据中训练信号的完整的预培训75.072.073.5来自PromDA的结果都是统计显著的,LM适应75.473.374.4与基线模型(配对学生t检验,p 0.05)。双视图DA仅输出75.681.078.0仅输入74.470.672.54.3消融研究单个提示76.779.578.1我们在拍摄10设置下,在CoNLL03和SST2基准上对组件提示预训练、双视图数据增强和一致性过滤在没有PT的情况下,我们直接微调两个单独的PLM来学习输入视图和输出视图。在No PTPre-Training 中 , 我 们 删 除 了 Prompt Pre-training任务(同义词为句子)。在完全预训练中,我们应用提示预训练任务来微调整个PLM 参 数 。 最 后 , 在 LM 适 应 中 : 我 们 用Lester 等 人 的 解 决 方 案 替 换 PromDA 。(2021)。如表3所示,完全微调的PLM(无PT)比我们提出的PromDA方法表现更差(F1分数低4.6%),显示了软提示对低资源NLU数据增强的积极贡献。此外,删除PT预训练(无PT预训练)或应用PT预训练来微调所有PLM参数(完全预训练)也分别将PT预训练性能委派3.1%和6.0%F1分数,表明使用PT预训练来学习合理的即时初始化的重要性。类似地,LM自适应也微调整个PLM,并实现与完全预训练类似的性能。建议表3:在shot-10设置下,针对CoNLL 03和SST 2Benchmark的即时预训练和双视图数据增强的消融研究。双视图数据增强接下来,我们将展示PromDA中双视图数据增强的效果。“仅输入”和“仅输出”仅分别通过“输入视图”和“输出视图”这两个单视图模型生成相同数量的合成数据就像PromDA一样。如表3所示,来自这两个单视图模型的合成数据成功地提高了NLU模型的性能。然而,它们相应的NLU模型的性能比PromDA支持的模型差。这表明,来自不同视图的合成数据有趣的是,在输出视图上训练的NLU模型比在输入视图上训练的模型表现更好,这表明输出标签是指导PLM生成高质量合成数据的更具表达力的信号最后,我们不是在单独的提示参数上训练两个视图,而是在单一提示中在相同的提示参数上训练两个视图。在单一提示合成数据上训练的NLU模型执行数据集C03sST2Ave.少量NLU基线72.766.169.4PromDA77.581.479.5+v:mala2277获取更多论文不比PromDA支持的NLU模型更差,显示了提示增强对双视图数据增强的重要性。未标记Data Domain的影响我们设计了三种设置:未标记的域内数据(UID)、未标记的近域数据(UND)和无标签通用域数据(UGD),其中设置(不带过滤Iter-1 Iter-2Iter-3 C 03)72.076.7 77.6 77.5SST2 69.2 77.5 79.7 81.4表4:基于迭代的NLU一致性滤波的消融研究。一致性过滤最后,我们检查PromDA中一致性过滤的效果。在表4中,我们显示了NLU模型在 没 有 任 何 过 滤 ( w/o 过 滤 ) 和 k 次 迭 代(Iter-1,Iter-2和Iter-3)的情况下的性能。滤波对NLU的性能有重要影响在不去除低质量合成数据的情况下,性能差距几乎消失。迭代滤波对NLU性能也有积极的影响。特别是,在SST 2基准测试中,NLU模型的性能在三次迭代后提高了约4%的F1分数。数据集C03WikisST2RT∆未标记的数据来自完全相同的、相似的和通用的域。我们在CoNLL03和Wikiann之间以及SST 2和RT之间交换训练数据以模拟类似的领域。我们从PLM预训练语料库中随机抽取句子来模拟通用领域。我们注意到未标记的数据域对自训练性能有很大的影响。即使是轻微的域偏移(即,UND)代表NLU性能2.5%。使用来自通用语料库的未标记数据训练的NLU模型的性能甚至比仅使用少量标记数据训练的NLU基线模型低3.2%。序列标记任务和句子分类任务都遵循这一趋势,但序列标记任务对未标记的数据域更敏感对于半监督学习,仍然需要额外的人力来选择合适的领域来收集未标记的数据。结合 未标记 域内 数据与PromDA我们应用上述的自我培训al-基线带UID76.255.270.259.7+3.5带UND71.551.369.359.4+1.0带UGD64.644.866.458.7-3.2PromDA77.558.381.473.4+10.8带UID80.061.783.073.9+12.8表5:在shot-10设置下PromDA和未标记数据4.4PromDA和未标记数据上述实验基于没有未标记数据可用的在本节中,我们将探索PromDA和未标记数据之间的联系。为了将未标记的数据整合到我们的NLU 模 型 中 , 我 们 将 经 典 的 自 训 练 框 架(Scudder,1965)应用于NLU模型。具体来说,对于每个未标记的实例,我们使用NLU模型对其进行标记,并记录输出标签和相应的似然分数。低似然分数意味着预测的置信度较低。我们根据可能性得分对所有未标记的实例进行排名,并删除底部20%的实例。表5示出了在shot-10设置下的四个基准的实验结果。使用未标记的域内数据,租用PromDA支持的最终NLU模型(PromDA)。由此产生的NLU模型平均进一步改进了2.0%(最后一行中的w/ UID更复杂的半监督学习算法可能会带来更多的改进。这说明a)来自PromDA的合成数据和未标记的域内数 据 为 NLU 模 型 提 供 了 不 同 的 信 息 ;b )PromDA成功地提取了PLM中的嵌入式知识,并将其呈现在生成的合成数据中。4.5多样性分析在表7中,我们显示了PromDA和其他基线模型生成的合成数据的多样性。我们从每个训练实例中抽取10个新的合成数据。我们使用Novel Mention(未出现在训练数据中的实体提 及 或 关 键 词 的 数 量 ) 和 Self-BLEU 评 分(Zhu et al. 2018年)来衡量多样性。一般来说,简单的生成数据增强方法(即,BackT.和CBERT)可以容易地产生新提及,但是它们产生的合成数据缺乏多样性(相对低的自我BLEU 分 数 ) 。 基 于 知 识 的 学 习 有 助 于PromDA生产最多样化的合成+v:mala2277获取更多论文序列标注GT:它引用了一份[伊拉克内政部]的声明说[PerShabir Ahmad Muhammad Jalil]在[LocMecca]被处决。SDANER:它,一个[内政部]的声明[迈克·劳埃德·穆罕默德·贾利勒]曾在[柏林]兰巴达:它引用了一家[德国杂]报纸的话说[佩尔·克劳斯·金克尔]在[洛克·柏林]飞机失事中丧生。PromDA: [美联社]援引[新西兰背面]负责人的话说:“[佩尔·诺埃尔·戴维斯]表示,该银行将切断与[新西兰银行]的联系,[佩尔·彼得·约翰逊]将是下一个接管者。”句子分类的这个故事有它的冗余,和年轻的演员,不是很有经验,有时是缺乏表达。负GT2:全正面,今天在全国范围内开放,几乎可以被归类为电影业的讽刺,但它缺乏慷慨的包容性,这是类型负兰巴达:这个故事有它的冗余,欺凌,是体裁负PromDA: 尽管他们经验丰富,但年轻演员有时因为故事中的冗余而缺乏表达能力,这可能会使他们感到匆忙和格格不入。负GT:我能感觉到编剧在这个剧本上的每一个时刻都在负PromDA: Mr. 编剧Mcsweeney用充满活力的情节做了一项精湛的工作,充满了悬念,机智和幽默。积极表6:从我们提出的PromDA和其他基线方法生成的合成数据红色中的文本块与少量训练数据复制。Blue中的文本块是新颖的单词/短语。在这两个基准中,数据都具有最多的小说提及。由于过度拟合问题,LAMBADA产生的合成数据比其他基线方法的差异更小或相等。有趣的是,在这些合成数据上训练的NLU模型 达 到 了 第 二 好 的 性 能 。 这 可 能 是 因 为LAMBADA连贯地生成整个合成句子,而其他人则根据启发式规则和随机掩蔽机制进行回复SDANER打乱了原始的词序,生成了低质量的文本。LAMBADA模型通过修改原始训练实例中的三个文本跨度来生成新的合成实例例如,“报表”改为“报纸”。相比之下,我们的PromDA方法在银行中生成一个句子分类任务中的例子遵循相似的模式。LAMBADA天真地com-从两个训练实例中提取文本块,模型NM↑ Self-B↓ F1↑第二个例子。PromDA提到一些关键-CoNLL03词在训练数据,但增加了更多的信息,SDANER141.40.77072.9到输出。在最后一个例子中,PromDA兰巴达107.60.76175.0对编剧的评论(未出现在PromDA351 0.259 77.5训练数据)与连贯字的序列。SST 2总之,PromDA能够提取em-表7:在激发-10设置下,CoNLL 03和SST 2中生成的合成数据的多样性分析。NM是Novel Mentions的缩写。4.6综合数据案例研究表6显示了由我们提出的PromDA和方法生成的代表性示例。在序列标签示例中,基于规则的从PLM中获得真实世界的知识,并以流利的方式将这些知识引入相对较长的句子中。更多示例见附录中的表125结论和今后的工作在本文中,我们提出了第一个基于XML的预训练语言模型PromDA,用于低资源NLU数据增强。四个基准测试的实验表明,我们提出的PromDA 方 法 的 有 效 性 未 来 , 我 们 计 划 将PromDA扩展到其他NLP任务,包括问答,机器阅读理解和文本生成任务。EDA59.60.88966.7BackT.101.80.82670.0CBERT1270.90067.8兰巴达51.80.92670.6PromDA2760.57881.4+v:mala2277获取更多论文引用AteretAnaby-Tavor 、 BoazCarmeli 、 EstherGoldbraich、Amir Kantor、George Kour、SegevShlomov 、 Naama Tepper 和 Naama Zwerdling 。2020. 没 有 足 够 的 数 据 ? 深 度 学 习 来 拯 救 !AAAI人工智能会议的主持人,34(05):7383-7390。Samuel R. Bowman , Gabor Angeli , ChristopherPotts,and Christopher D.曼宁2015. 一个用于学习自然语言推理的大型。在2015年自然语言处理经验方法会议的会议中,第632-642页计算机语言学协会。Tom Brown 、 Benjamin Mann 、 Nick Ryder 、Melanie Subbiah 、 Jared D Kaplan 、 PrafullaDhariwal、Arvind Neelakantan、Pranav Shyam、GirishSastry 、 AmandaAskell 、 SandhiniAgarwal 、 ArielHerbert-Voss 、 GretchenKrueger、Tom Henighan、Rewon Child、AdityaRamesh、Daniel Ziegler、Jeffrey Wu、ClemensWinter、Chris Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、JackClark、ChristopherBerner、SamMcCandlish 、 Alec Radford 、 Ilya Sutskever 和Dario Amodei。2020. 语言模型是少数成功的学习者。神经信息处理系统进展,第33卷,1877-1901页。Curran Associates,Inc.Xiang Dai and Heike Adel. 2020. 命名实体识别的简单 数 据 扩 充 分 析 。 在 Proceedings of the 28 thInternationalConferenceonComputationalLinguistics,第3861- 3867页国际计算语言学委员会.Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。Bosheng Ding,Linlin Liu,Lidong Bing,CanasaiKru-engkrai,Thien Hai Nguyen ,Shafiq Joty,Luo Si,and Chunyan Miao.2020. DAGA:低资源标记任务数据增强。在2020年自然语言处理经验方法会议(EMNLP)的会议记录中,第6045-6057页。计算语言学协会。Angela Fan , Shruti Bhosale , Holger Schwenk ,Zhiyi Ma,Ahmed El-Kishky,Siddharth Goyal,Mandeep Baines , Onur Celebi , GuillaumeWenzek,Vishrav Chaudhary,et al. 2021.超越以英 语 为 中 心 的 多 语 言 机 器 翻 译 。 Journal ofMachine Learning Research,22(107):1克里斯蒂安·费尔鲍姆2010. Wordnet。本体论的理论和应用:计算机应用,第231-243页。斯普林格。史蒂文·YFeng,Varun Gangal,Jason Wei,SarathChan-dar , SoroushVosoughi , TerukoMitamura,and Ed- uard Hovy.2021. NLP数据扩充方法的调查。在计算语言学协会的调查结果:ACL-IJCNLP 2021,第968-988页,在线。计算语言学协会。高天宇,亚当·费舍尔,陈丹琪。2021. 使预先训练的 语 言 模 型 更 好 地 用 于 少 数 学 习 者 。 在Proceedings of the 59th Annual Meetings of theAssociation for Computational Linguistics and the11th International Joint Conference on NaturalLanguage Processing(Volume 1:Long Papers)中,第3816计算语言学协会拉尔斯·凯·汉森和彼得·萨拉蒙1990.神经网络系统 。 IEEE 模 式 分 析 与 机 器 智 能 汇 刊 , 12(10):993Ari Holtzman,Jan Buys,Li Du,Maxwell Forbes和Yejin Choi。2020年。神经文本退化的奇怪案例。在国际学术代表上。玉台侯、刘一家、车万象、刘婷。2018. 用于对话语言理解的序列到序列数据增强。第27届国际计算语言学会议论文集,第1234-1245页,美国新墨西哥州圣达菲。计算语言学协会。NeilHoulsby , AndreiGiurgiu , StanislawJastrzebski , BrunaMorrone , QuentinDeLaroussilhe,AndreaGesmundo,MonaAttariyan,and Sylvain Gelly. 2019. nlp的参数有效迁移学习。国际机器学习会议,第2790-2799页。PMLR。Varun Kumar,Ashutosh Choudhary,和Eunah Cho.2020. 使用预训练的转换器模型进行数据增强。第二届口语系统终身学习研讨会论文集,第18-26页,中国苏州。计算语言学协会。布莱恩·莱斯特,拉米·艾尔-瑞福,诺亚·康斯坦。2021年规模的力量,参数高效的即时调整。在2021年自然语言处理经验方法集,第3045-3059页,在线和蓬塔卡纳,多米尼加共
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功