基于对比对抗训练的文本分类任务微调方法

62 浏览量更新于2023-12-01 收藏 482KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基于对比对抗训练Lin Pan<$，Chung-Wei Hang<$，Avirup Sil<$，Saloni Potdar<$，Mo YufjIBM Watson†IBM ResearchAI§麻省理工学院-IBM沃森人工智能实验室fj{panl，hangc，avi，potdars，yum}@us.ibm.com摘要我们提出了一种简单而通用的方法来规范基于transformer的编码器的文本分类任务的微调。具体来说，在微调过程中，我们通过扰动模型的词嵌入来生成对抗性示例，并对干净和对抗性示例进行对比学习，以便教会模型学习噪声不变的表示。通过对干净和对抗性样本以及额外的对比目标进行训练，我们观察到了对干净样本进行标准微调的一致改进。在几个GLUE基准测试任务中，我们微调的BERT Large模型的性能优于BERT Large基线1。7%的平均水平，我们的微调罗伯特大IM-比RoberTa大基线高1。百分之三我们还验证了我们的方法在不同的领域使用三个意图分类数据集，其中我们微调的RoBERTaLarge平均比RoBERTaLarge基线高出11介绍[14]中引入的对抗训练（AT）提供了一种有效的正则化方法，并提高了模型对对抗示例的鲁棒性[37]，用于计算机视觉（CV）任务，如图像分类。在这种形式的AT中，一个小的、基于梯度的扰动被添加到原始示例中，并且模型在干净的和扰动的示例上进行训练由于文本数据的离散性[28]将这种方法扩展到NLP，并提出在文本分类任务中对基于LSTM的模型[19]的词嵌入应用扰动。由于扰动后的词嵌入不映射到词汇表中的新词，因此该方法仅作为正则化的一种手段提出。在这项工作中，我们提出了CAT，对比文本分类的对立训练。我们建立在[28]的基础上，以规范基于transformer的[39]编码器在文本分类任务上的微调。此外，我们鼓励模型通过引入对比目标来学习噪声不变表示[38]，该目标将干净的示例及其相应的扰动示例在表示空间中彼此靠近，同时将不来自同一对的示例分开我们在一系列自然语言理解任务上评估了我们的方法，包括标准GLUE [40]基准以及对话系统的三个意图分类任务。在GLUE任务中，我们将我们的微调方法与微调BERTLarge [10]和RoBERTaLarge [25]的强基线进行了比较，这些基线都是在具有交叉熵损失的干净示例上进行的。我们的方法优于BERT Large 1。平均7%，RoberTa Large为1。百分之三在意图分类任务上，我们的-调整后的RoBERTaLarge在完整测试集上的性能优于RoBERTaLarge基线1%，在困难的测试集我们进一步执行样本效率测试，其中我们只使用一半的训练数据（根据意图），并实现与使用完整训练数据训练的基线相比几乎相同的准确度。预印本。正在审查。arXiv：2107.10137v1 [cs.CL] 2021年7+v：mala2255获取更多论文22相关工作2.1对抗训练对抗训练（AT）已经在许多监督分类任务中进行了探索，包括对象检测[5，34，45]，对象分割[1，45]和图像分类[14，31，35]。AT可以被定义为一个过程，在这个过程中，系统被训练来抵御恶意的通常，这些攻击是通过扰动输入（干净）示例来产生的，这使得系统预测错误的类标签[4，46]。[28]通过扰动词嵌入将[14]中提出的快速梯度符号方法（FGSM）扩展到NLP任务，并将该方法应用于监督和半监督设置，后者使用虚拟对抗训练（VAT）[29[43]将AT应用于关系提取。最近的作品[21，22，47]提出将扰动应用与单步FGSM相比，[26]证明了多步方法在生成具有投影梯度下降的扰动示例方面的优越有效性，由于迭代计算扰动的内部循环，该方法的计算成本更高。[33]提出了在计算扰动的内部训练时期的数量也减少了，以实现与自然训练相当的复杂性。[47]采用“自由”AT算法，并进一步加入梯度累加，实现较大的有效批量。与[28]类似，扰动被应用于LSTM和基于BERT的模型的词嵌入。在我们的工作中，我们使用更简单的一步FGSM生成扰动的例子，并执行对比学习干净的例子。2.2对比学习自监督对比学习的最新进展，如MoCo [17]和Simplified [6]，弥补了ImageNet [9]数据集上自监督学习和完全监督方法之间的性能差距一些作品已经成功地将这种表示学习范式应用于各种NLP任务。对比学习的一个关键组成部分是如何创建积极的对。[12]使用反向翻译来生成原始英语数据的另一个视图[44]应用字和跨度删除、重新排序和替换。[27]使用来自辅助Transformer的序列裁剪和掩码序列。[15]将同一类的训练样本视为正对，并进行监督对比学习[20]。[13]在相同的数据上使用不同的dropout掩码来生成正对。作为一种有监督的替代方案，他们利用NLI数据集[2，42]并将前提及其相应的假设视为正对，并将矛盾视为硬否定。在我们的工作中，我们把一个原始的例子，它的敌对的例子作为一个积极的对，和对比损失被用作一个额外的正则化在微调。对于多语言NLP，[7，30，41]利用并行数据并对并行句子进行对比学习以进行跨语言表示学习。2.3一种改进的BERT文本分类算法作为提高下游任务中基于transformer的模型性能的一般方法，[36]和[16]提出在最终微调之前在目标域中进行进一步的语言模型预训练[11]提出使用自我训练作为利用未标记数据的另一种方式，其中教师模型首先在标记数据上进行训练，然后用于标记大量域内未标记数据以供学生模型学习。语言模型预训练的最新发展也在广泛的NLP任务上取得了最先进的结果。ELECTRA [8]使用一个生成器通过掩码语言建模目标生成噪声文本，并使用一个分类器将每个输入标记分类为原始或替换。该模型显示出强大的性能，通过微调的下游任务。DeBERTa [18]提出了一种分离的注意力机制和一种新形式的VAT，其中扰动被应用于规范化的词嵌入。3方法在本节中，我们首先简要描述基于Transformer的编码器在文本分类任务中的标准微调过程。然后，我们介绍了我们生成对抗性示例的方法，并提出了我们的方法CAT，该方法使用这些示例来使用干净的示例进行对比学习。图1显示了我们的整体模型架构。+v：mala2255获取更多论文3向前落后V--∈ΣΣ−我“help me find my清洁示例xi单词嵌入层+扰动r单词嵌入层Transformer Transformer我[CLS]分类器LCEMLPzi左中心V+rCE图1：我们提出的方法的模型架构，用于在文本分类任务上微调基于Transformer的编码器。我们使用快速梯度符号方法通过扰动编码器的词嵌入矩阵V来生成对抗性示例然后，我们在具有交叉熵损失的干净和扰动样本此外，我们还引入了第三种对比损失，它使干净样本的表示及其相应的扰动样本彼此接近，以便模型学习噪声不变的表示。3.1预赛我们的学习设置是基于一个标准的多类分类问题，输入训练样本-x i，y ii=1，.，N. 我们假设访问基于transformer的预训练语言模型（PLM），如BERT和RoBERTa。给定令牌序列xi=[CLS，t1，t2，. . . ，t T，SEP] 1，PLM输出上下文化令牌表示的序列H L=[h L，h L，h L，. . . ，h L，h L]。[CLS]1 2 T[SEP]hL， hL，.. . ，hL，hL=PLM（[CLS]，t1，. . . ，t T，[SEP]），[CLS] 1T [SEP]其中L表示模型层2的数量。微调这些大型PLM的标准做法是在模型的数据级表示之上添加softmax分类器p（y c|h[CLS]）=softmax（Wh[CLS]）c∈C，（1）其中WRdC×dh，C表示类别数。通过最小化交叉熵损失来训练模型：N CLCE =1年Ni=1c =1i，clog（p（yi，c|h[CLS] ）），（2）1在序列对的情况下，在序列之间添加另一个[SEP]令牌。2为了便于记法，我们从这里开始去掉层的上标HJ[CLS]MLP分类器zjHL+v：mala2255获取更多论文4LR不−∈[CLS][CLS][CLS][CLS][CLS]其中N是批量大小。3.2对抗样本对抗性样本是对模型的不可感知的扰动输入，会导致错误分类。[14]提出了快速梯度符号方法（FGSM）来生成这样的示例，并在干净和对抗性示例上进行训练，作为提高模型对对手鲁棒性的有效方法形式上，给定一个损失函数（fθ（xi+r），yi），其中fθ是由θ参数化的神经网络，xi是输入示例，我们最大化损失函数，该损失函数受特伯托尔河maxL（f θ（xi+ r），yi），s.t. r<使用一阶近似，损失函数近似等于：L（fθ（xi+r），yi）<$L（fθ（xi），yi）+<$xiL（fθ（xi），yi）r（4）求解（3）和（4）得到以下形式的扰动r=−sign（xiL（fθ（xi），yi））（5）或者，对（3）中的扰动r使用l2-范数约束得到：r=fθ（xi），yifθ（xi），yi）（六）AT在[14]中使用干净的例子xi和扰动的例子xi+r来训练模型。对于输入通常是离散的NLP问题，FGSM不直接适用。[28]提出将扰动应用于嵌入矩阵VRdv×dh中对应行的单词嵌入vi，其中dv是词汇大小，dh是隐藏大小。我们遵循这种方法，但不是扰动单词嵌入，而是直接扰动基于transformer的编码器的单词嵌入矩阵来生成我们的对抗性示例。具体地说，在每次向前传递干净的例子之后，我们计算（2）中的损失函数相对于词嵌入矩阵V的梯度，而不是（5）中的词嵌入，以计算扰动。根据经验，我们发现扰动单词嵌入矩阵比单词嵌入更好（参见附录A表9中的GLUE比较）。对于任务分类任务，我们使用（2）中的交叉熵损失对干净和对抗性示例进行训练。此外，我们在（5）和（6）中试验了不同形式的扰动，以及对每批数据在两者之间随机抽样。我们观察到，使用r与最大范数约束一致导致最佳结果。在第4节中，我们报告了使用这种形式的扰动的结果。3.3对比学习直观地说，给定一对干净和对抗性的例子，我们希望它们的编码的双水平表示尽可能彼此相似，这样我们的训练模型将更具噪声不变性。同时，不属于同一对的例子应该在表示空间中离得更远。为了模拟这种关系，我们在微调过程中利用对比学习作为额外的正则化器。最近关于对比学习的工作，如MoCo [17]和Simplified [6]使用各种形式的数据增强，例如，随机裁剪和随机颜色失真，作为创建正对的第一步。MoCo使用队列结构来存储负例，而Simploy执行批量负例采样。在我们的工作中，我们采用Simplified制定的积极和消极的对，其损失函数来实现我们的对比目标。具体地说，对于一个干净的例子，给定[CLS]令牌的最终隐藏状态hi，对于其对应的对抗性示例，我们处理（hiJ[CLS] ）作为一对积极的例子。在[6]之后，我们在它们上面添加一个非线性投影层zi=W2ReLU（W1hizj=W2ReLU（W1hj），（7））（8），h+v：mala2255获取更多论文5−∈∈k=1我 K数据集任务标签培训度量MNLI文本蕴涵3393K精度QQP问题释义2364k精度QNLI问答语篇蕴涵2105k精度MRPC释义23.7kF1RTE文本蕴涵22.5k精度可乐语法准确性28.5kMCCSST-2情感分析267k精度表1：GLUE序列分类数据集统计其中W1Rdh×dh，W2Rdk×dh，dk设为300。用一批N个干净的例子，它们对应的对抗性示例，对于每个正对，有2（N1）个负对，即，其余的例子都是反面例子。对比的目的是确定正对：exp（sim（zi，zj/τ））Lctr=−logN1、（九）exp（sim（z，z/τ））其中sim（u，v）表示两个向量之间的余弦相似性，τ是温度超参数。最后，我们以多任务的方式进行微调，并对两个分类损失和对比损失3进行加权平均：L=（1 −λ）（ LV+LV+r）+λL（十）4实验4.1数据集2CECECTR我们对GLUE基准测试的七个任务进行了实验，包括文本蕴涵（MNLI，RTE），问题回答/蕴涵（QNLI），问题释义（QQP），释义（MRPC），语法正确性（CoLA）和情感分析（SST-2）。表1总结了GLUE任务的统计数据。我们还在三个常用的意图分类数据集上进行了实验-CLINC150 [23]，BANKING77 [3]和HWU64[24]。意图分类是在面向任务的对话系统中识别任何话语的类别（意图）的过程。这三个数据集在很大程度上代表了现实世界中的短文本分类任务。表2总结了三个数据集的统计数据。CLINC150涵盖10个域中的150个意图（例如，银行、工作、汽车、旅行）。该数据集旨在捕获面向生产任务的聊天机器人处理的主题的广度该数据集还附带了1200个超出范围的例子。在这项工作中，我们只关注范围内的示例。BANKING77是为细粒度意图分类而创建的单域数据集。该数据集由银行领域的客户服务查询组成，涵盖了10003个训练示例和3080个测试示例中的77个HWU64覆盖21个域中的64个意图（例如，警报、电子邮件、游戏、新闻）。该数据集是在家庭助理机器人的真实用例的上下文中创建的在我们的实验中，我们使用了9957个训练样本和1076个测试样本的一次训练测试分割对于三个意图分类数据集，除了原始评估数据外，我们还评估了[32]中描述的每个测试集的困难子集困难子集的构造是3在我们的实验中，我们总是为两个分类损失分配相等的权重。不同的权重分布可能会产生更好的结果。[ki]+v：mala2255获取更多论文6联系我们联系我们联系我们联系我们联系我们数据集意图域示例培训测试测试（困难）CLINC1501501017,9994,500750银行业7777110,0033,080770HWU6464219,9571,076620表2：意图分类数据集统计将每个测试示例的TF-IDF向量与给定意图的训练示例的TF-IDF向量进行选择与相应的训练示例最不相似的测试示例以包括到困难子集。所有意图分类数据集的评估指标都是准确性。4.2培训详情我们将CAT应用于两个骨干PLM的微调，BERT大型和ROBERTA大型。对于所有的实验，我们使用AdamW优化器0。01权值衰减和线性学习率sched-schedz。我们将最大序列长度设置为128，并为总迭代的前10%设置学习率预热在GLUE任务中，我们主要遵循[10]和[25]中报告的超参数设置来生成BERTLarge和RoBERTaLarge基线。对于BERTLarge，我们将批量大小设置为32，并微调3个epoch。网格搜索在lr 0上执行。00001，0。00002，0。00003。对于RoBERTaLarge，我们扫描了与BERTLarge相同的学习率，批量大小为16，32。在意图分类数据集上，我们使用32的批量大小并微调5个epoch [32]，并在lr 0上搜索。00003，0。00004，0。00005为了使用CAT进行微调，我们使用与基线完全相同的hyperparame- ter设置，并进一步在2010上执行网格搜索。0001，0。001，0。005，0。02，τ0。05，0。06，0。07，0。08，0。09，0。1，λ 0。1，0。2，0。三，零。四，零。五、在三个意图分类数据集上，我们遵循[32]中报告的超参数设置我们使用32的批量大小，并在学习率设置为0的情况下对RoBERTa Large进行5次微调。00004。我们所有的实验都在一个32 GB V100 GPU上运行。4.3胶水结果在GLUE任务中，我们使用我们的方法对BERTLarge和RoBERTaLarge进行了微调，其中包含两个分类损失（分别针对干净样本和对抗样本）和对比损失。我们将它们与BERTLarge和RoBERTaLarge基线进行比较，这些基线通常会在干净的示例上进行分类损失的微调对于所有实验，我们从原始检查点微调BERTLarge和RoBERTALarge，而不涉及任务转移学习。我们伴随着每组实验进行统计显著性检验。对于准确性评估的任务，我们使用McNemar对于CoLA，采用Matthews相关系数（MCC）进行评估，MRPC采用F1进行评估，我们使用Fisher随机化检验。表3显示了开发集的结果。总之，CAT微调方法始终优于BERT大型和RoBERTa大型的标准微调方法。猫导致1。与常规微调BERTLarge相比，平均提高7%。在CoLA任务上观察到最大的改善（即，四、0%）。对于RoberTa Large的更强基线，我们观察到1的改善。平均3%，用我们的方法。在MRPC和CoLA上，我们的结果比RoBERTa大基线提高了2。4%，显示了我们的方法在单序列以及序列对分类任务上的有效性。对于统计显著性，我们注意到我们在基线上的改进结果在一些较小的数据集上并不显著，例如，在MRPC和RTE上改进BERTLarge，在MRPC、RTE和CoLA上改进RoBERTALarge4.4意向分类结果在CLINC150、BANKING77和HWU64这三个意图分类数据集上，我们使用更强的RoberTaLarge基线进行了实验。表4总结了结果。平均而言，CAT在三个数据集的完整测试集上进行评估时，其性能优于微调的RoBERTaLarge基线1%最大的改进是在HWU 64数据集（1。4%）。+v：mala2255获取更多论文7†††模型MNLIQQPQNLIMRPCRTE可乐SST-2AvgBERTLarge（我们的实施）86.687.4†90.591.1†91.492.2†91.892.5†92.093.0†94.595.1†90.091.690.693.0†69.371.585.987.461.865.8†67.069.493.695.2†96.197.083.5BERTLarge + AT + CTR85.2RoberTaLarge（我们的实施）88.1RoberTa大号 + AT + CTR89.4表3：GLUE基准开发集的结果AT指的是我们系统的对抗训练组件，CTR指的是对比学习组件。平均而言，我们微调的BERT Large模型比BERT Large基线高出1。7%，我们微调的RoBERTa Large比RoBERTa Large基线提高了1。百分之三我们从原始检查点微调BERTLarge和RoBERTALarge，而不涉及任务智能迁移学习显示出统计学上的显著改善-超过基线。对于CoLA和MRPC，我们使用Fisher随机化检验，对于所有其他任务使用McNemar模型CLINC150银行业77HWU64平均RoberTa大号97.493.992.494.6RoberTa大号 + AT + CTR98.0†95.0†93.8†95.6表4：意图分类数据集的完整测试集的结果AT指的是我们系统的对抗训练组件，CTR指的是对比学习组件。平均而言，我们微调的RoBERTaLarge比RoBERTaLarge基线提高了1%。表明使用McNemar检验相对于基线的统计学显著改善模型CLINC150银行业77HWU64平均RoberTa大号91.183.889.588.1RoberTa大号 + AT + CTR92.1†87.3†90.8†90.1表5：意图分类数据集的困难测试集的结果。平均而言，我们微调的RoBERTaLarge比RoBERTaLarge基线提高了2%。表明使用McNemar检验相对于基线的统计学显著改善此外，我们表明，通过使用对抗性示例和对比学习进行训练，CAT使RoBERTaLarge在三个意图分类任务的困难测试子集上更好地工作如表5所示，我们的方法比标准的RoBERTaLarge微调平均提高了2%在BANKING 77上，我们的方法导致3. 百分之五对于意图分类数据集的统计显著性检验，我们使用McNemar所有数据集和评估设置的基线结果。4.5样本效率接下来，我们证明了CAT具有更好的采样效率相比，标准的微调。我们在三个意图分类数据集上设计了实验具体来说，我们使用每个数据集大约一半的训练数据（每个意图）来微调RoBERTaLarge与CAT。如表6所示，与使用所有训练数据的标准微调相比，我们的方法只使用了一半的训练数据，达到了几乎相同的结果这一结果证实了我们提出的CAT的样本效率，也表明了我们的方法在具有挑战性的低资源情况下的优势。4.6消融最后，我们在GLUE基准和三个意图分类数据集上进行了消融实验结果见表7和表8。在GLUE上，通过去除对比损失，即，使用干净和对抗性的例子进行微调，我们观察到准确率下降了0。平均5%，与整个系统相比与基线相比，此设置使平均值+v：mala2255获取更多论文8模型训练数据CLINC150银行业77HWU64平均RoberTa大号充分97.493.992.494.6RoberTa大号 + AT + CTR一半97.194.292.394.5表6：意图分类数据集的完整测试集上的样本效率测试结果。通过我们提出的微调方法，我们可以使用大约一半的训练数据（根据意图），并实现与使用完整训练数据的基线相比几乎相同的准确性。模型MNLIQQPQNLIMRPCRTE可乐SST-2平均RoberTa大号90.591.894.590.685.967.069.969.496.188.190.792.194.992.485.696.6RoberTa大号+ AT88.991.192.595.193.087.497.0RoberTa大号 + AT + CTR89.4表7：GLUE基准开发集的消融结果。AT指的是我们系统的对抗训练组件，CTR指的是对比学习组件。添加AT导致0. 8%超过基线。进一步增加对比目标有助于额外的0。5%的改善。模型CLINC150银行业77HWU64平均RoberTa大号91.183.889.588.1RoberTa大号 + AT90.885.889.888.8RoberTa大号 + AT + CTR92.187.390.890.1表8：意图分类数据集的困难测试集的消融结果。AT指的是我们系统的对抗训练组件，CTR指的是对比学习组件。添加AT比基线提高0。百分之七进一步增加对比目标有助于增加1。3%的改善。改善0。百分之八我们的完整系统在所有任务上都表现最好，除了CoLA，在CoLA上，去除对比损失会产生最好的性能。在意图分类数据集上，我们使用困难的测试集进行评估。在这里，我们观察到来自额外对比度损失的更大的影响，比（RoBERTa Large + AT）提高1。平均3%，而AT单独比基线提高0。百分之七对于使用（RoBERTa Large + AT）设置的所有消融实验，我们在N∈ {0}上执行网格搜索。0001，0。001，0。005，0。02}。5结论在本文中，我们描述了CAT，一个简单而有效的方法，用于正则化基于变压器的编码器的微调。通过利用对抗训练和对比学习，我们的系统始终优于文本分类的标准微调方法。我们使用强大的基线模型，并在一系列GLUE基准任务和不同设置中的三个意图分类数据集上评估我们的方法。样本效率和消融测试显示了将我们的对抗和对比目标相结合以改进文本分类的积极效果。在未来，我们计划研究额外的单词级目标，以补充词汇级对比学习目标，以便将我们的方法扩展到其他NLP任务。引用[1] Anurag Arnab，Ondrej Miksik和Philip HS Torr。论语义分割模型对对抗性攻击的鲁棒性在IEEE计算机视觉和模式识别会议论文集，第888-897页[2] Samuel R. Bowman，Gabor Angeli，Christopher Potts，and Christopher D.曼宁用于学习自然语言推理的大型注释语料库会议记录+v：mala2255获取更多论文9自然语言处理的经验方法（EMNLP），第632-642页，里斯本，2015年9月。计算语言学协会。[3] IñigoCasanu ev a，TadasTem ccampinas，DanielaGerz，Matth e wHenderson，andI v anVulic'. 使用双语句编码器的有效在第二届对话式人工智能自然语言处理研讨会的会议记录中，第38-45页[4] Anirban Chakraborty，Manaar Alam，Vishal Dey，Anupam Chattopadhyay，and DebdeepMukhopadhyay. 对抗性攻击和防御：一项调查。arXiv预印本arXiv：1810.00069，2018。[5] Shang-Tse Chen，Cory Cornelius，Jason Martin和Duen Horng Chau。ShapeShifter：对更快的r-cnn对象检测器进行强大的物理对抗攻击。corr abs/1804.05810（2018）。arXiv预印本arXiv：1804.05810，2018。[6] Ting Chen，Simon Kornblith，Mohammad Norouzi，and Geoffrey Hinton.视觉表征对比学习的一个简单在国际机器学习会议（ICML）的会议记录中，第1597-1606页[7] Zewen Chi，Li Dong，Furu Wei，Nan Yang，Saksham Singhal，Wenhui Wang，XiaSong，Xian-Ling Mao，Heyan Huang，and Ming Zhou.InfoXLM：跨语言语言模型预训练的信息理论框架arXiv预印本arXiv：2007.07834，第1[8] Kevin Clark，Minh-Thang Luong，Quoc V. Le，and Christopher D.曼宁ELECTRA：预训练文本编码器作为判别器而不是生成器。在第八届国际会议上学习代表（ICLR），亚的斯亚贝巴，埃塞俄比亚，2020年。[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li，and Li Fei-Fei.ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的过程中，第248-255页[10] Jacob Devlin，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova. BERT：用于语言理解的深度双向转换器在计算语言学协会北美分会第20届年会的会议记录：人类语言技术（NAACL-HLT），第4171计算语言学协会。[11] Jingfei Du，Edouard Grave，Beliz Gunel，Vishrav Chaudhary，Onur Celebi，MichaelAuli，Ves Stoyanov，and Alexis Conneau.自我训练改进了自然语言理解的预训练。arXiv预印本arXiv：2010.02194，第1-8页[12] Hongchao Fang，Sicheng Wang，Meng Zhou，Jiayuan Ding，and Pengtao Xie.Cert：用于语言理解的对比自监督学习。arXiv预印本arXiv：2005.12766，第1-16页[13] 高天宇，姚兴城，陈丹琪SimCSE：句子嵌入的简单对比学习arXiv预印本arXiv：2104.08821，第1-16页[14] 伊恩·JGoodfellow，Jonathe Shlens，and Christian Szegedy.解释和利用反面例子。在第三届国际学习表示会议（ICLR）的会议记录中，圣地亚哥，2015年。[15] Beliz Gunel，Jingfei Du，Alexis Conneau，and Veselin Stoyanov.用于预训练语言模型微调的监督对比在第九届国际学习表示会议（ICLR）上，虚拟，2021年。[16] SuchinGururang an，AnaMaraso vic'，Sw abhaSw ayamdipta，KyleLo，IzBeltagy，DougDowney，and Noah A.史密斯不要停止预训练：使语言模型适应领域和任务。在计算语言学协会（ACL）第58届年会的会议记录中，第8342-8360页[17] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，and Ross B.女孩用于无监督视觉表征学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第9726[18] Pengcheng He，Xiaodong Liu，Jianfeng Gao，and Weizhu Chen.DeBERTa：Decoding-enhanced BERT with disentangled attention。在第九届国际学习表示会议（ICLR）上，虚拟，2021年。[19] Sepp Hochreiter和Jürgen Schmidhuber。长短期记忆。神经计算，9（8）：1735+v：mala2255获取更多论文10[20] Prannay Khosla，Piotr Teterwak，Chen Wang，Aaron Sarna，Yonglong Tian，PhillipIsola，Aaron Maschinot，Ce Liu，and Dilip Krishnan.监督对比学习。神经信息处理系统的进展，第18661-18673页，温哥华，2020年[21] 北田俊介和饭富仁。注意力遇到干扰：对抗性训练的鲁棒性和arXiv预印本arXiv：2009.12064，第1-1页[22] 北田俊介和饭富仁。利用虚拟对抗训练使注意力机制更加鲁棒和可解释，用于半监督文本分类。arXiv预印本arXiv：2104.08763，第1-12页[23] 放大图片作者：Stephen L.放大图片作者：Christopher Clarke，Andrew Lee，ParkerHill，Jonathan K.放大图片作者：Michael A.Laurenzano，Lingjia Tang和Jason Mars。用于意图分类和范围外预测的评估数据集。在自然语言处理经验方法会议和自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第1311[24] Xingkun Liu，Arash Eshghi，Pawel Swietojanski，and Verena Rieser.为构建会话代理而对自然语言理解服务进行基准测试。在口语对话系统技术国际研讨会（IWSDS）的会议记录中，第165-183页[25] Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Mandar Joshi，Danqi Chen，OmerLevy，Mike Lewis，Luke Zettlemoyer，and Veselin Stoyanov.RoBERTa：一种鲁棒优化的BERT预训练方法。arXiv预印本arXiv：1907.11692，第1-13页[26] Aleksander Madry ， Aleksandar Makelov ， Ludwig Schmidt ， Dimitris Tsipras 和 AdrianVladu。深度学习模型抵抗对抗性攻击。在第六届国际学习表示会议（ICLR）的会议记录中，温哥华，2018年。[27] Yu Meng，Chenyan Xiong，Payal Bajaj，Saurabh Tiwary，Paul Bennett，Jiawei Han，and Xia Song. Coco-lm：为语言模型预训练校正和对比文本序列。arXiv预印本arXiv：2102.08473，第1-13页[28] 放大图片作者：Andrew M.戴和伊恩·古德费洛半监督文本分类的对抗性训练方法。在第五届国际学习表示会议（ICLR）的会议记录中，法国土伦，2017年。[29] Takeru Miyato，Shin ichi Maeda，Masanori Koyama，Ken Nakae，and Shin Ishii.虚拟对抗训练的分布平滑在第四届国际会议上学习表示（ICLR），圣胡安，波多黎各，2016年。[30] 潘林、杭仲伟、齐浩德、沙赫、波达尔、莫雨。多语言BERT后预训练对齐。在计算语言学协会北美分会2021年会议记录，第210-219页[31] Nicolas Papernot、Patrick McDaniel、Somesh Jha、Matt Fredrikson、Z Berkay Celik和Ananthram Swami。深度学习在对抗环境中的局限性。2016年IEEE欧洲安全与隐私研讨会（EuroS P），第372-387页。IEEE，2016.[32] Haode Qi ， Lin Pan ， Atin Sood ， Abhishek Shah ， Ladislav Kunc ， Mo Yu 和 SaloniPotdar。通过实践驱动的评估对商业意图检测服务进行基准在计算语言学协会北美分会第21届会议的会议记录中：人类语言技术：行业论文（NAACL），第304[33] Ali Shafahi 、 Mahyar Najibi 、 Amin Ghiasi 、 Zheng Xu 、 John Dickerson 、 ChristophStuder、Larry S Davis、Gavin Taylor和Tom Goldstein。免费对抗训练arXiv预印本arXiv：1904.12843，2019。[34] Dawn Song ， Kevin Eykholt ， Ivan Evtimov ， Earlence Fernandes ， Bo Li ， AmirRahmati，Florian Tramer，Atul Prakash和Tadayoshi Kohno。物体探测器的物理对抗示例第12届USENIX进攻技术研讨会（WOOT），2018年。[35] Jiawei Su，Danilo Vasconcellos Vargas，and Kouichi Sakurai.一个像素攻击欺骗深度神经网络。IEEE Transactions on Evolutionary Computation，23（5）：828+v：mala2255获取更多论文11[36] Chi Sun，Xipeng Qiu，Yige Xu，Xuanjing Huang.如何微调文本分类的bertarXiv预印本arXiv：1905.05583，第1-10页[37] Christian Szegedy，Wojciech Zaremba，Ilya Sutskever，Joan Bruna，Dumitru Erhan，IanGood-fellow，and Rob Fergus.神经网络的有趣特性。在第二届国际会议上学习表示（ICLR），班夫，AB，加拿大，2014年。[38] Aaron van den Oord，Yazhe Li，and Oriol Vinyals.使用对比预测编码的表示学习。arXiv预印本arXiv：1807.03748，第1-13页[39] Ashish Vaswani，Noam Shazeer，Niki Parmar，Jakob Uszkoreit，Llion Jones，AidanN.Gomez，Kukasz Kaiser，and Illia Polosukhin.注意力就是你所需要的神经信息处理系统（NIPS）进展，第5998-6008页，长滩，加利福尼亚州，2017年12月[40] Alex Wang，Amanpreet Singh，Julian Michael，Felix Hill，Omer Levy，and Samuel R.鲍曼GLUE：自然语言理解的多任务基准测试和分析平台。

下载后可阅读完整内容，剩余1页未读，立即下载