没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文SAS:语言模型预训练的自增强策略徐一飞1人,张晶桥2人,何茹2人,葛良渚2人,杨超2人,杨成2人,吴应念1人1加州大学洛杉矶分校2阿里巴巴集团fei960922@ucla.edu,{jingqiao.zhang,ru.he,liangzhu.glz,xiuxin.yc,charis.yangc}@ alibaba-inc.com,ywu@stat.ucla.edu摘要用于预训练语言模型的自监督学习方法的核心包括设计适当的数据增强和相应的预训练任务。语言模型预训练中的大多数数据扩充都是上下文无关的。ELECTRA最近提出的开创性的上下文增强需要一个单独的生成器,这导致额外的计算成本以及调整其生成器相对于其他模型组件的能力的挑战。我们提出了一种自增强策略(SAS),该策略使用单个前向通过模型来增强输入数据,以便在下一个时期进行模型训练。从本质上讲,我们的策略消除了一个单独的生成器网络,只使用一个网络来生成数据增强,并共同承担两个预训练任务(MLM任务和RTD任务),这自然避免了调整生成器能力的挑战,此外,我们的SAS是一个通用的策略,它可以无缝地结合许多新的技术出现在最近或未来,如最近提出的DeBERTa模型的解纠缠注意力机制我们的实验表明,我们的SAS是能够优于ELECTRA和其他国家的最先进的模型在胶水任务相同或更少的计算成本。1介绍近年来,语言模型预训练在各种自然语言处理(NLP)下游任务中取得了巨大的成功,这主要归功于数据增强和相应的预训练任务的创新。尤其是BERT模型(Devlin等人,2018年)是一个里程碑,它通过随机掩蔽一定比例(通常为15%)的标记来增强每个输入序列,然后通过从增强输入的词汇中恢复这些掩蔽标记中的每一个来承担掩蔽语言模型(MLM)任务自从BERT的成功以来例如,RoBERTa(Liu等人,2019)经验性地表明,动态掩蔽标记提高了BERT的性能,而配对句子并进行相应的下一句预测(NSP)任务则没有;SpanBERT(Joshi等人,2019)掩蔽每个输入序列中的标记跨度,然后使用每个掩蔽跨度的两个边界标记来预测跨度中的每个标记; StructBERT(Wang et al.,2019)在每个输入序列中混洗一部分未掩蔽的三元组,然后重建这些混洗令牌的正确顺序; XLNet(Yanget al.,2019)排列每个输入序列中的标记索引顺序,然后自回归地预测每个给定顺序中的结束标记;UNILM(Dong等人, 2019年,三个不同的平等贡献。预印本。正在审查。arXiv:2106.07176v1 [cs.CL] 2021年6月+v:mala2255获取更多论文2自我注意力屏蔽以三种不同的方式增加数据,从而可以一起执行单向、双向和序列到序列LM任务; ERNIE(Sun等人,2019)使用先验知识通过短语级掩蔽和实体级掩蔽来增强其数据增强; CLEAR(Wu等人,2020)使用四种增强方法(词删除、跨度删除、同义词替换和重新排序)从每个输入句子生成一对增强句子,然后除了MLM任务之外,还执行重复级别的对比学习任务以最小化来自相同原始句子的增强句子之间的距离。然而,所有这些模型都使用上下文无关的数据增强,在这个意义上,增强不考虑输入上下文。最近,ELECTRA(Clark等人,2020 b)模型来构造情境化数据增强。它训练生成器提供合理的令牌,以根据输入上下文替换一部分(通常为15%)原始令牌,并训练器来分类增强输入中的每个令牌是否是被替换的令牌,称为替换令牌检测(RTD)预训练任务。在预训练之后,学习的生成器被丢弃,学习的生成器被微调用于各种下游NLP任务。在相同的计算约束条件下,ELECTRA在下游NLP任务中表现出了与基于MLM的模型相比令人印象深刻的优势,特别是当模型大小很小时。由于ELECTRA模型需要训练两个单独的神经网络(即,然而,在训练期间维持发生器相对于发生器的适当能力水平是具有挑战性的当生成器变得比学习器可以处理的更强时,这些生成的过度挑战的令牌将阻止学习器的有效学习在ELECTRA内部学习两个独立的网络也自然会导致额外的计算成本,这是ELECTRA的另一个缺点。为了解决ELECTRA的缺点,我们提出了自增强策略(SAS),该策略仅使用一个神经网络来提供上下文数据增强,以便在训练期间的下一个时期中2 SAS网络包括在一个普通的重型Transformer编码器的顶部上的两个轻型头(MLM头和RTD头)(Vaswani等人,2017年)。这样的结构能够自动调整从MLM头生成的令牌的相对难度,同时它联合承担MLM任务和RTD任务。 因此,我们的SAS可以实现更高的下游GLUE分数(Wang等人,2018年)比ELECTRA使用相同或更少的计算成本。因此,在计算效率和参数效率方面,我们的SAS优于ELECTRA,即使ELECTRA已经大大优于其以前的国家的最先进的模型。此外,由于我们的SAS是一个简单而通用的框架,因此它能够轻松地整合最近或未来出现的许多其他技术例如,我们将证明我们的SAS可以无缝地结合DEBERTaHe等人提出的分离注意力机制。(2020)以进一步提高其性能。我们SAS的优势可以概括如下。• 与其他自监督方法(例如ELECTRA)生成上下文化数据增强相比,SAS没有单独的生成器网络,并联合执行两个预训练任务,这自然避免了平衡生成器和其他模型组件的能力的挑战。• 我们的SAS自然吸收了与生成器相关的计算成本,从而大大提高了计算效率。• 通过无缝地结合分离的注意力机制,SAS能够使用相同或更少的计算成本在GLUE任务中显著优于先前的最先进的模型。2相关工作如第1节所述,在过去三年中,许多预训练语言模型在许多下游NLP任务中出现了新的性能记录其中,ELECTRA(Clark等人,2020b)与以前的模型不同,并启发了我们的SAS模型,因为它提出训练生成器来生成情境化数据增强,2请注意,在本文中,我们将SAS集中在NLP领域,尽管我们的SAS是一个通用框架,也可以应用于许多其他领域,如计算机视觉和模式识别。+v:mala2255获取更多论文3然后训练一个单独的训练器来执行RTD任务。 电模型后来也提出了克拉克等人。(2020a),这是一个基于能量的模型,使用噪声对比估计(Gutmann和Hyvärinen,2012)来执行完形填空任务(Taylor,1953)。 Electric模型在产生文本的可能性分数方面特别有效,但在胶水任务上略逊于ELECTRA。然而,Electric模型还需要一个单独的网络来提供噪声分布,以便生成上下文化的数据增强。MC-BERT模型由Xu等人提出。(2020 b)用多类分类任务取代ELECTRA中的RTD二进制分类任务,以便捕获更丰富的语义信息虽然MC-BERT的性能与ELECTRA相当,但它还需要一个称为Meta控制器的单独网络来为每个令牌生成多类候选集,作为上下文数据增强。 在我们的论文中,我们注意到COCO-LM(Menget al.,2021年)最近提出了通过使用两个新的预训练任务来改进ELECTRA,称为纠正语言建模和序列对比学习任务。特别是,COCO-LM中的纠正语言建模任务改进了Clark等人研究的全令牌MLM任务。(2020 b),并且基本上还通过使用两个明确的损失目标的组合来联合学习RTD任务和MLM任务,就像我们的SAS一样。然而,COCO-LM仍然在一个单独的生成器网络上进行响应,以为其两个任务生成增广序列,这导致了更多的计算成本。相比之下,我们提出的SAS消除了一个单独的发电机网络的要求,并实现了更高的计算效率。与我们的SAS相关的另一个最近的工作是DeBERTa模型(He等人,2020),其使用关于每个令牌的两个单独向量(内容向量和相对位置向量)的解纠缠矩阵来计算令牌之间的注意力权重。因为我们的SAS是一个通用框架,它可以无缝地将这种分离的注意力机制纳入DeBERTa中,以进一步提高其性能,如第4节所示。师生机制我们的SAS方法可以从师生机制的角度来看待,这是一种使用教师模型的知识来促进学生模型的学习过程的机制从本质上讲,我们的SAS方法在预训练期间使用前一个时期的学生模型作为教师来生成上下文化的输入数据增强,以帮助学生师生机制已广泛用于知识蒸馏(Hintonet al.,2015年),其中从教师生成的软标签与从数据中观察到的硬(独热)标签(线性)组合,以作为监督学生学习的最终标签。学生的尺寸可以小于或等于老师的尺寸 Sanh等人(2019)显示,使用原始BERT作为教师,他们的DistilBERT(学生)模型能够在下游GLUE任务中保持教师97%的表现,而学生的大小仅为教师的60%。然而,在知识升华过程中,当学生与教师的规模相同例如,Kim等人。(2020)通过使用预先训练的第一代模型作为教师,展示了他们的无教师知识蒸馏方法的好处,而Yuan等人。(2020)通过在作为教师的培训期间使用前一个时代的(学生)模型本身来展示他们的自我知识蒸馏方法的收益。近年来,师生机制也被用于在半监督环境中获得最先进的结果Laine和Aila(2016)提出了时间集成方法,使用模型在先前时期的输出预测的EMA(指数移动平均)作为教师预测,以构成每个数据实例的一致性损失分量,以及每个标记数据实例的交叉熵损失分量。Tarvainen和Valpola(2017)建议使用参数值的EMA(即,权重)来构造每个数据实例的一致性损失分量的平均教师。课程学习和自定进度学习课程学习和自定进度学习在机器学习中越来越受到关注。他们都认为,从简单的数据开始学习,然后逐渐考虑更复杂或更困难的数据有一些值得注意的作品打算在各种NLP任务中使用它们(Wan等人,2020年;Xu等人,2020年a)。 我们的SAS模型自然地提供了一个课程,让自己通过传销和RTD任务学习。从本质上讲,我们的模型可以被视为两种学习策略的组合,它们自适应地生成增强的数据以进行更好的学习。这种思想可以追溯到蒋等人(2015)的工作,他们是课程学习和自主学习相结合的先驱。+v:mala2255获取更多论文4模型在上一个纪元的爱自我增强厨师吃了这编码器(Transformer)传销头目0≥X···[·|.{}{}x∈=x i∈/Si1我2K3方法3.1通用SAS框架在本小节中,我们制定了自我增强策略(SAS)作为一个通用的框架,可以应用于各个领域。在监督学习中,每个数据实例都有特征xi和对应的标签yi。 在诸如语言模型预训练之类的自监督学习中,由于训练数据集中没有标签,因此通过增强过程q从原始数据实例xi <$X构建输入对x<$i和标签y<$i。增强过程可以是具有参数的基于模型的生成器qτ向量τ,使得增强数据集是X={[xi,yi]=qτ(xi)|xi<$X;i∈{1,···,n}}.如图1(a)所示,fθ是我们想要训练的表征网络(编码器),gθ是用于辨别任务的轻量级辨别头在前向传递中,生成器和编码器顺序使用基于模型的生成器qτ通常是一个加权网络。在SAS中,我们在增强中消除了生成器。相反,我们将增强生成吸收到前一个时期的前向传递中,并在编码器fθ的顶部设计一个轻量级生成头qτ。一般流程如图1(b)所示。在第一个时期中,增强数据由冷启动 先 验 分 布 qc 生 成 。 在 t 1 的 第(t+1)个历元中,增强数据是前一个历元的输出:[ x ∈ { t+1},y ∈ { t +1} ] q τ { t }(h{ t })。在培训期间,从发电损耗更新g并且qτ从鉴别损失更新,编码器fθ从两个损失更新图1:传统的基于模型增强的自监督学习和自增强策略3.2SAS在语言模型预训练中的现在,我们在上下文中描述SAS的详细信息 的 语言 模型 表示“前 训练 SAS只有一个神经网络 它包括两个轻型头部, 在一个普通的重物上Transformer编码器。因此,我们的SAS模型能够同时承担MLM任务和RTD任务。SAS的工作流程如图2所示。对于实例x=(x1,x2,,xk)在预训练数据集中,在预训练过程的第t个时期,我们的SAS随机选择一个选择集,S{t},0。15K位置索引,就像BERT和ELEC- TRA一样。然后,我们的SAS生成相应的增强输入实例x{t}=(x{t},x{t},···,x{t}),厨师做这顿饭������������{联系我们���������给定实例x如下,tt我x<${t}<$p{t−1}i∈S{t}(一)√√ × √√图2:SAS在语言模型预训练中的工作流程.RTD头基于模型增强HHL���发生器[���{���},���{���}]���{������}���编码器识别发电损失鉴别损失(一)自我增强策略UseArgumentation来自上一个epoch输出[,{���}]���������if =使用if >之前HL���������������������������������������[编码器生成L��� ���重构损失歧视H:重量级(b)第(1)款+v:mala2255获取更多论文5∈θ,τ|θ,τ−L{}Σθ,τ我我联系我们传销RTDτθ我换句话说,我们保持令牌xi对于i/S{t}不变,并从令牌生成分布p{t-1}中采样令牌,以替换xi,如果其索引i在S{t}中。在第一个epoch中,我们将p{0}设置为冷启动令牌生成分布,例如均匀分布或(基于令牌频率的)unigram分布。从第二个时期开始,分布p{t−1}是被具体化为ken生成分布p{t−1}(xixn{t−1})的函数,其实际上是针对SAS模型中的MLM任务计算的完整softmax函数输出。第(t-1)个p{t}(xi|X轴{t})=exp{e(xi)Tqτ(fθ(x<${t}))i}exp{e(x′)Tq(f(x<${t}))}(二更)其中e(xi)是标记xi的静态嵌入,fθ表示具有参数向量θ的编码器,其从给定的增强输入xi输出k个上下文化表示向量的序列,qτ是具有参数向量τ的MLM头,其生成用于MLM任务的k个表示向量的序列,并且V是词汇表。本质上,第(t1)个时期中的SAS模型本身充当教师,以在第t个时期中在第t个epoch中,给定实例xtmlm(x;θ,τ)=−Ei∈S{t}logp{t}(xi|x<${t})(三)由于分布p{t}(xi|x∈{t})是在第t个历元中每个实例x的强制过程期间从MLM头自然生成的,我们从p { t }(x ∈ { t +1})中采样x ∈ {t|x∈{t}),然后将x∈{t +1}存储在存储器中,用于第(t+1)次增强使用。纪在第t个历元中,对于每个位置i 1,2,…,k,RTD任务是分类对应于增广输入x ∈{ t }中的k en是否被替换为k en。相应的分类概率为D(x<${t})i=σ(g<$(fθ(x<${t}))i),(4)其中,σ是逻辑S形,gθ是RTD头函数,其具有参数向量fθ,以生成用于RTD任务的k个表示向量的序列,并且fθ是在等式(1)中使用的相同编码器函数(二)、注意,在等式之间共享fθ。(2)Eq.(4)表示只需要通过编码器的一次前向传递这大大降低了计算成本,与ELECTRA在两个神经网络中的单独前向传递相反当量(4)在第t个时期中给定实例x,导致RTD任务的丢失L{t}(x;θ,θ)=−E克什蒂尔克y{t}logD(x<${t})j+(1−y{t})logg(1−D(x<${t})j)(5)RTDJ Jj=1其中,如果x∈{t}=xj,则y{t}=1,否则y{t}=0。j j j最后,我们通过使用一些标准优化器(如ADAM)最小化以下组合损失来训练SAS模型:L{t}(x;θ,τ)+λ{t}L{t}(x;θ,τ),(六)x∈X其中λ{t}是RTD损耗(相对)权重,其具有跨不同时期变化的灵活性。具有上述目标的联合任务学习明确地结合了等式中所示的两个损失(3)Eq. (5),连同SAS中的一个共享编码、x'∈V+v:mala2255获取更多论文6器结构,自然地避免了来自过度挑战的替换令牌的学习障碍。+v:mala2255获取更多论文74实验4.1实验装置我 们 的 实 现 3 基 于 Huggingface Transformers 4.3 框 架 ( Wolf 等 人 , 2020年 ) 。 我 们 将ELECTRA、DeBERTA和BERT作为竞争车型。 在当前计算资源有限的情况下,我们主要研究Clark等人已经广泛研究和比较的小模型和基本模型。(2020 b),因此我们将这些模型的架构和超参数设置为与相应的ELECTRA一致。对于每个竞争模型,我们通过大量重用Huggingface Transformers(Wolf等人,2020年),如果其作者没有公开发布其预先训练的检查点。对于所有实验,我们的预训练数据与BERT,ELECTRA-Small和ELECTRA-Base相同,其中包括来自维基百科和BooksCorpus数据集的33亿个令牌为了公平比较,我们遵循Clark等人(2020 b)使用FLOP(浮点运算)来测量计算使用率(因为FLOP是一种与特定硬件,低级优化等无关的测量)。 我们重用的FLOPs计算代码4发布的克拉克等人。(2020 b),因此我们基本上采用了与Clark et al. (2020b年)。实验模型的一些细节如下。• ELECTRA : 我 们 实 现 了 ELECTRA , 并 使 用 与 Clark 等 人 完 全 相 同 的 超 参 数 值 对ELECTRA-Base进行了预训练。(2020b年)。 我们使用与Clark等人相同的超参数值来预训练ELECTRA-Small。(2020 b)除了与批量大小相关的设置之外。对于ELECTRA-Small模型以及所有其他小模型,我们使用批量大小512和0.25M预训练步骤,而不是ELECTRA-Small中使用的批量大小128和1 M预训练步骤,并且我们还根据较大的批量大小将学习率加倍。5作为参考,我们还包括ELECTRA-Small++,其预训练模型检查点由Clark 等人公 开发布。 (2020b 年)。 请 注意, 与ELECTRA-Small相比, ELECTRA-Small++使用18倍的训练FLOP,因为Clark等人(2020 b)使用更大的数据预训练了更长的时间,并且其序列长度增加了四倍。• DeBERTa:我们实现了DeBERTa,并采用了He等人(2020)提出的在所有注意力层中共享相对位置嵌入和内容嵌入之间的投影矩阵的想法。我们看到,这种共享确实保留了小模型和基本模型的模型性能,同时减少了模型参数的数量。• BERT:对于BERT-Base,我们使用Devlin等人公开发布的模型检查点。(2018年)。根据BERT模型的约定,我们实现了BERT-Small,并将其嵌入大小设置为与其隐藏大小6相同。当训练步骤相同时,我们的BERT-Small设置使其FLOP与ELECTRA-Small相似,因此可以直接对其性能进行公平比较。SAS:我们实验了三种SAS设置:• SAS表示SAS设置及其默认权重调度程序,其在预训练期间将RTD损失权重λ{t}从50逐时增加到200。• SASc表示RTD损失重量λ{t}为恒定值50的SAS设置• SASDA表示结合了分离注意力机制的SAS设置。在所有SAS设置中,我们将(基于令牌频率的)unigram分布设置为冷启动令牌生成分布,因为我们的实验结果(在附录中)表明,unigram分布和均匀分布对我们的SAS同样有效。下游任务我们在通用语言理解评估(GLUE)基准上评估我们的模型(Wang等人,2018年)。3我们将在论文发表后发布我们的代码和预训练模型4见https://github.com/google-research/electra/blob/master/flops_computation.py我们观察到,这样的改变能够显著减少预训练时间,而不会降低模型性能。6 Clark等人。(2020 b)定义了不同的BERT-小设置,其中其嵌入大小减小到其隐藏大小的一半。+v:mala2255获取更多论文8GLUE 包 含涵 盖自 然语 言 推理 任务 MNLI的 各种 任务 (Williams 等 人, 2017) 、 RTE(Giampiccolo等人,2007)和QNLI(Rajpurkar等人,2016);语义相似性任务MRPC(Dolan和Brockett,2005),QQP(Iyer等人,2017)和STS-B(Cer等人,2017);情感分类任务SST-2(Socher等人,2013);和语言可接受性分类CoLA(Warstadt等人,2019年)的报告。有关GLUE任务的更多详细信息,请参见附录。我们的评估指标是STS-B的Spearman相关性和Pearson相关性的平均值,CoLA的Matthews相关性,MNLI的MNLI匹配准确度和MNLI不匹配准确度的平均值,以及其他GLUE任务的准确度。我们还将这八个GLUE任务的平均指标(由Score 8表示)作为这些任务的整体性能指标所有的胶水分数都在Dev集上。为了对GLUE进行微调,我们在预训练模型的编码器上添加了简单的线性分类器我们观察到微调模型的性能得分对于这些具有小数据大小的GLUE任务(如CoLA,MRPC,STS-B和RTE)具有很大的方差因此,我们采用以下两种方法来减少这些任务的得分的方差。首先,我们遵循论文中提出的策略(Mosbachet al.,2020;Zhang等人,2020;Dodge等人,2020年),以训练更多具有小学习率的epoch来完成这些小任务。其次,我们使用多个随机种子对这些数据量较小的任务进行微调详细的微调超参数值请参考附录。对于基本模型,我们对每个模型进行一次预训练,然后使用上述微调策略来获得每个GLUE任务的得分。对于一些小模型,我们仍然观察到所得分数的不可忽略的方差,因此我们使用五个不同的随机种子预训练每个小模型,每个任务的最终报告分数是五个预训练模型检查点的平均分数4.2总体比较结果在本节中,我们展示了我们的SAS模型及其竞争模型之间的比较结果表1显示了小型模型之间的性能比较结果。在表中,第二列显示了每个模型的训练FLOP,第三列列出了每个模型在五个独立的预训练检查点上的GLUE评分8的平均值和标准差。至于三个竞争模型,该表显示,ELECTRA-Small和DeBERTa-Small在得分8方面都优于BERT-Small即使BERT-Small模型将其预训练步长从250 K增加到375 K,在表中表示为BERT-Small-1.5x , 它 仍 然 比 ELECTRA-Small 差 , 尽 管 它 的 性 能 与 DeBERTa-Small 相 似 。ELECTRA-Small++的评分8比ELECTRA-Small高2.37%(82.05 vs. 80.15),这与Clark等人(2020 b)提供的表8所示的改善率2.18%相似。请注意,即使DeberTa-Small的MNLI分数比ELECTRA-Small高得多,ELECTRA-Small的整体性能也更好(即, 评分8)的平均值高于DeBERTa-Small,这表明Clark等人强调的ELECTRA在小型模型中的优势。(2020b年)。然而,对于小模型,我们提出的SAS模型可以通过使用更少的FLOP实现比ELECTRA更好的性能对于RTD损失,具有恒定权重策略的SAS(用SASc-Small表示)的评分8的平均值比ELECTRA-Small高1.15分,而具有逐时权重增加策略的SAS(用SAS表示)的评分8的平均值比ELECTRA-Small高1.46分。FLOPs平均值±标准差* :ELECTRA-Small++是Clark等人公开发布的预训练模型(2020 b)。与ELECTRA-Small相比,它使用18倍的训练FLOP。表1:GLUE开发套件上的小型号比较。Model Train评分8 CoLASST-2MRPCSTS-BQQPMNLIQNLIRTEBERT-小1.274e1879.10±0.07四十九点六九90.1484.6486.0489.5180.0086.8465.94BERT-小型-1.5x 1.911e1879.55±0.09五十一点八90.3784.0786.0489.8080.2086.5867.51ELECTRA-小1.294e1880.15±0.10五十五点九三88.5385.7086.4490.1380.0588.3866.06ELECTRA-Small++*2.403e19 82.05 58.3791.4087.0187.9590.5482.5288.9369.68DeBERTA小1.381e1879.52±0.43四十九点五一89.9186.6886.2990.2681.5187.7864.26SASc-小型1.279e1881.30±0.13五十九点五十二分89.6087.1787.2790.2081.5488.6766.43SAS-小型1.279e1881.61±0.03六十点四九90.0887.0187.3290.1181.3788.4768.05SASDA-小型1.385e1882.14±0.22六十二点三十五分90.5587.5587.5290.6082.2088.7167.65+v:mala2255获取更多论文9此外,通过仅使用ELECTRA-Small ++ 7的5.76%FLOP,我们的SAS与结合的解开注意力机制可以使其平均我们的SAS所包含的解开注意力机制能够将得分8的这大于其基于BERT的0.53%的改善率(从79.10到79.52),这表明SAS能够有效地实现解纠缠注意机制的价值该表还表明,DeBERTa-Small和SASDA-Small都涉及解开注意机制,比其他模型具有更大的标准差。这可能是因为解纠缠注意力机制需要更大的数据(例如He等人使用的数据。(2020))来稳定地实现其功能。基础模型的比较结果如表2所示。在表的第一列中,我们为每个模型提供了相应的预训练步骤,并确保 我们的SAS并不比其他竞争对手的SAS大。该表显示,在基本模型中,SASDA-Base8(我们的SAS,结合了分离注意力机制)能够实现比所有三个竞争模型更高的平均得分8,使用6.226e19训练FLOP,所有模型中最小的FLOP 9。模型列车FLOP得分8可乐SST-2MRPCSTS-BQQP MNLIQNLIRTEBERT-Base(1M)*6.430e1983.06 60.07 92.0985.29 89.2291.27 83.9991.4371.12ELECTRA底座(766K)6.426e1985.46 65.53 91.2889.95 90.3391.65 85.4991.8577.62DeberTa-基础(1 M)7.443e1983.97 58.4688.97 89.3691.37 85.5391.5273.29SASDA-基本(833 K)6.226e1985.60 66.56 93.3588.73 90.0591.73 86.4991.7476.17* :BERT-Base是Devlin等人公开发布的模型。(2018年)。表2:GLUE开发套件上基础型号的比较。4.3消融研究为了研究SAS中不同组件的贡献,我们设计了以下变体:• Unig-MLM表示BERT的一个变体,它将每个选定的令牌替换为从(基于令牌频率的)单字分布中采样的令牌,而不是[MASK]令牌。• Unig-MLM-SAS表示我们的SAS模型的变体,该模型采用我们的SAS仅执行MLM任务,而不是两个组合任务。• Unig-MLM-RTDc表示总是用从一元分布采样的令牌替换每个所选令牌,并且执行MLM任务和RTD任务两者的模型,对于RTD损失具有恒定权重50。• Unig-MLM-RTD表示一种模型,该模型总是将每个选定的令牌替换为从一元分布中采样的令牌,并执行MLM任务和RTD任务,其中对于RTD损失采用逐时期的权重增加策略(从50到200)。Unig-MLM(BERT)表3:GLUE开发套件上小型号的消融研究。表3总结了小型模型的结果。首先,当我们将特殊的[MASK]标记更改为从unigram采样的标记时,得分8的平均值7SASDA-Small在1 V100 GPU下的预训练时间约为37.5小时。8我们的SASDA-Base在8个V100 GPU下的预训练时间约为7.7天。9我们注意到,我们的SASDA-Base相对于ELECTRA-Base的优势变小了(就得分8的平均值而言,只有0.14分),这表明应该有进一步改进现有SAS的空间模型评分8平均值±标准差可乐SST-2MRPC STS-BQQPMNLIQNLIRTEMASK-MLM79.10±0.1249.6990.1484.64 86.0489.5180.0086.8465.9479.00±0.0749.6190.0684.97 85.4389.4280.1186.9365.46Unig-MLM-SAS79.38±0.3649.9489.7286.13 85.4889.6980.3487.4366.28Unig-MLM-RTDc80.43±0.1459.2889.3785.46 85.4789.8780.5088.1765.34Unig-MLM-RTD80.40±0.1559.9689.5385.05 85.3689.7680.5687.9764.98SASc81.30±0.1359.5289.6087.17 87.2790.2081.5488.6766.43+v:mala2255获取更多论文10BERT模型的分布,这表明BERT使用特殊的[MASK]令牌的原因,其次,当我们使用SAS只进行MLM任务时,与BERT相比,它只将得分8的平均值从79.10增加到79.38,这表明MLM任务无法充分利用自增强数据来学习更好的模型。第三,通过比较Unig-MLM与Unig-MLM-RTD(或Unig-MLM-RTDc),我们观察到分数8的平均值的大幅(约1.4分)增加来自于将RTD任务与MLM任务相加。如此大的增加主要是由于CoLA评分的改善,仅CoLA评分就使评分8的平均值增加了1.2分以上。这表明,添加RTD任务以及从固定的单字分布中增加的数据可以极大地帮助语法任务(CoLA),但对GLUE中的其他语义任务没有帮助最后,通过将Unig-MLM-RTD(或Unig-MLM-RTDc)与SAS(或SASc)进行比较,我们看到评分8的平均值又有了很大的提高,这来自于句法任务(CoLA)和其他语义任务(如MNLI)的改进。这表明,SAS可以进一步改善各种任务相比,输入数据的论证从固定的单元分布。重量策略对RTD损失的影响也可以从表3中看出。通过比较SASc和SAS,我们看到,CoLA4.4培训前的效率为了研究预训练的收敛性,在图3中,我们绘制了关于BERT-Small、ELECTRA-Small和SAS-Small的预训练步骤数的GLUE评分8。对于每个模型,我们每25K预训练步骤保存一个检查点(即,0.5 epoch),然后微调每个GLUE任务上的检查点,最后报告所有任务的评分为8该图清楚地表明,虽然ELECTRA- Small在整个预训练过程中优于BERT-Small,但我们的SAS在 训 练 后 始 终 优 于 ELECTRA-Small。81807978777650000 100000 150000 200000 250000数量作出的预训练步骤第一个(冷启动)时期。5结论图3:SAS模型与GLUE开发集上的对应模型之间的我们提出了自我增强策略(SAS)的动机ELECTRA模型的语言模型预训练。SAS消除了ELECTRA中使用的单独的生成器网络,并使用其单个网络来生成用于其自己的后续训练的情境化数据增强。通过这种方式,它避免了控制发电机的相对容量的挑战,并降低了计算成本。此外,我们的SAS是一个通用和开放的框架,因此它可以很容易地结合许多其他技术出现在最近或未来,以进一步提高其性能。实验结果表明,SAS能够在相同或更少的计算成本下,在小规模和基本规模上优于先前的最我们将继续验证SAS引用Daniel Cer、Mona Diab、Eneko Agirre、Inigo Lopez-Gazpio和Lucia Specia。2017. Semeval-2017 任 务 1 : 语 义 文 本 相 似 性 - 多 语 言 和 跨 语 言 重 点 评 估 。 arXiv 预 印 本 arXiv :1708.00055。Kevin Clark,Minh-Thang Luong,Quoc Le,and Christopher D.曼宁2020年a。预先训练变压器作为能源为基础的完形填空模型。在2020年经验主义会议上,SAS-Sm allELECTRA-SmallBERT-Small胶水评分8+v:mala2255获取更多论文11自然语言处理方法(EMNLP),第285-294页,在线。计算语言学协会。Kevin Clark , Minh-Thang Luong , Quoc V Le , and Christopher D Manning. 2020 年 b 。Electra:预训练文本编码器作为判别器而不是生成器. arXiv预印本arXiv:2003.10555。Jacob Devlin,Ming-Wei Chang,Wendon Lee,and Kristina Toutanova. 2018. Bert:深度双向转换器的预训练,用于语言理解。arXiv预印本arXiv:1810.04805。杰西·道奇,加布里埃尔·伊尔哈科,罗伊·施瓦茨,阿里·法哈迪,汉纳内·哈吉希尔齐和诺亚·史密斯。2020.微调预训练语言模型:权重初始化、数据排序和提前停止。arXiv预印本arXiv:2002.06305。William B Dolan和Chris Brockett。2005.自动建立一个完整的释义语料库。第三届释义国际研讨会(IWP2005)。Li Dong,Nan Yang,Wenhui Wang,Furu Wei,Xiaodong Liu,Yu Wang,Jianfeng Gao,Ming Zhou,and Hsiao-Wuen Hon.2019年。 用于自然语言理解和生成的统一语言模型预训练。CoRR,绝对值/1905.03197。Danilo Giampiccolo,Bernardo Magnini,Ido Dagan,and William B Dolan. 2007. pascal第三章认识文本蕴涵的挑战。在ACL-PASCAL文本蕴涵和释义研讨会论文集,第1迈克尔·U. Gutmann和Aapo Hyvärinen。2012. 非标准化统计模型的噪声对比估计及其在自然图像统计中的应用。Journal of Machine Learning Research,13(11):307Pengcheng He,Xiaodong Liu,Jianfeng Gao,and Weizhu Chen.2020年。Deberta:解码增强的bert,注意力分散。arXiv预印本arXiv:2006.03654。杰弗里·辛顿,奥里尔·维尼亚,杰弗里·迪恩.2015年。 在神经网络中提取知识。NIPS深度学习和表示学习研讨会。Shankar Iyer,Nikhil Dandekar,and Kornél Csernai.2017年。第一个Quora数据集发布:问题对。数据quora。 com.Lu Jiang,Deyu Meng,Qian Zhao,Shiguang Shan,and Alexander Hauptmann. 2015.自定进度的课程学习。在AAAI人工智能会议论文集,第29卷。Mandar Joshi,Danqi Chen,Yinhan Liu,Daniel S.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功