没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文预训练语言模型中的泛化与泛化迈克尔·坦泽尔伦敦帝国理工学院m.tanzer@imperial.ac.uk塞巴斯蒂安·鲁德Google Researchruder@google.com马雷克·雷伦敦帝国理工学院marek. imperial.ac.uk摘要最先进的预训练语言模型已被证明可以在有限的训练数据量下记忆事实并表现良好。为了更好地理解这些模型是如何学习的,我们研究了它们在嘈杂和低资源场景中的泛化和记忆能力。我们发现,这些模型的训练几乎不受标签噪声的影响,即使在噪声极大的数据集上也有可能达到接近最佳的结果。然而,我们的实验也表明,它们主要从高频模式中学习,并且在低资源任务(如少数学习和稀有实体识别)测试时基本上失败。为了减轻这种限制,我们提出了一个扩展的基础上原型网络,提高性能,在低资源命名实体识别任务。1介绍随着预训练语言模型的最新进展(Peters etal. ,2018; Devlin et al. ,2019;刘 等人,2019;He et al. ,2020),自然语言处理领域已经在广泛的任务和应用中看到了改进。从大量未标记的数据中获得通用知识后,这些方法已被证明可以有效地学习下游任务的有限标记数据(Howard和Ruder,2018),并很好地推广到分 布 外 的 示 例 ( Hendrycks 等 人 ) 。 ,2020)。以前的工作已经广泛研究了这些模型学习的内 容 , 例 如 。 关 系 或 语 言 知 识 的 类 型(Tenney et al. ,2019; Jawahar et al. ,2019;Rogers et al. ,2020)。然而,这些模型如何从下游数据中学习的过程及其学习动力学的定性性质更好地理解这些广泛使用的模型中的学习过程是在加入Google之前所做的工作为了知道它们在哪些场景下会失败,以及如何将它们改进为更健壮的语言表示,需要进行一些测试。预训练语言模型(如BERT)中的微调过程(Devlin et al. ,2019年)旨在在概括和备忘录之间取得平衡。对于许多应用来说,模型的泛化是很重要的--学习任务中的常见模式,同时丢弃不相关的噪声和离群值。然而,拒绝所有不常发生的事情并不是一种可靠的学习策略,在许多资源匮乏的情况下,记忆对于完成一项任务至关重要(图等人,2020)。通过构建允许完全控制这些参数的实验,我们能够在高标签噪声或低标签频率的条件下研究模型的学习动态。据我们所知,这是第一次对预先训练的基于transformer的语言模型在极端标签稀缺和标签噪声条件下的学习行为进行定性研究我们发现,BERT等模型特别擅长学习通用模式,因为概括和记忆在微调过程中被我们还观察到,在模型开始记忆噪声之前,主学习阶段之后是几个时期的明显性能平台这使得模型在训练时期的数量方面更加鲁棒,并且允许仅基于其训练损失来识别数据中的噪声示例然而,我们发现,这些优秀的泛化属性是以在具有极端类不平衡的少数场景中表现不佳为代价的。我们的实验表明,BERT无法从单个示例中学习,并且可能永远不会预测特定的标签,直到训练实例的数量例如,在CoNLL03(Sang和De Meulder,2003)数据集上,它需要25个类实例来arXiv:2105.00828v2[cs.CL] 2022年3月+v:mala2277获取更多论文学会预测它,并通过100个例子来预测它的准确性。为了解决这一限制,我们提出了一种基于原型网络的方法(Snell et al. ,2017年),它通过一个层来增强BERT,该层通过找到最接近的类质心来对测试示例进行分类。该方法在具有标签不平衡的挑战性训练条件下,如WNUT17(Derczynski et al. ,2017)稀有实体数据集。我们的贡献如下:1)我们确定了学习的第二阶段,其中BERT不会过拟合噪声数据集。2)我们提出了实验证据,BERT对标签噪声特别鲁棒,即使在非常强的标签噪声下也可以达到接近最佳的3)我们研究了BERT中的遗忘,并验证了它比其他方法更容易遗忘4)我们根据经验观察到,当样本数量有限时,BERT完全无法识别少数类,我们提出了一个新 的 模 型 ProtoBERT , 它 在 CoNLL03 和JNLPBA的几个镜头版本以及WNUT17数据集上的性能优于BERT2以前的工作已经进行了几项关于神经模型记忆和回忆在训练期间看到的事实的能力的研究Petroni et al.(2019)表明,预先训练的语言模型在回忆事实 方 面 令 人 惊 讶 地 有 效 , 而 Carlini et al.(2019)证明,LSTM语言模型能够在训练的第 一 阶 段 始 终 如 一 地 记 住 单 个 分 布 外(OOD)示例,并且可以在测试时检索这些Liu et al.(2020)发现,对训练的早期阶段进行正则化对于防止所研究的CNN残差模型在以后记住噪声样本至关重要。他们还提出了一种在这种情况下有用的正则化过程类似地,Li等人(2020)分析了早期停止和梯度下降如何影响模型对标签噪声的鲁棒性。另一方面,Toneva et al.(2019)研究了视觉模型中的遗忘。他们发现,模型始终会忘记很大一部分训练数据,而这部分样本主要取决于训练数据的内在相比之下,我们表明,与BiLSTM和非预训练的变体相比,预训练的BERT以极低的速度忘记示例泛化与泛化密切相关:已经观察到神经网络在噪声之前学习简单模式(Arpit et al. ,2017年)和generalise,尽管能够完全记住随机的例子 ( Zhang et al. , 2017 年 ) 。 Zhang 等 人(2021)还表明,我们目前对统计学习理论的理解无法解释大型神经模型在许多研究领域的超人泛化性能。Hendrycks等人(2020)表明,与非预训练的方法相比,预训练的模型更好地概括了分布外数据,并且能够更好地检测此类数据,但它们仍然不能干净地分离分布内和分布外的示例。Kumar等人(2020)发现,BERT等预先训练的方法对拼写噪声和错别字很敏感。与输入中的噪声相比,我们专注于存在标签噪声时模型3实验环境我们研究了预训练语言模型在特定不利条件下的性能为了评估泛化能力,我们首先通过随机排列训练数据中的一些标签来创建具有不同水平标签噪声的数据集。这个过程允许我们精确定位有噪声的例子,并分别评估干净和有噪声的数据点的性能。然后,为了研究记忆,我们在只包含特定类的少量示例的数据集上训练模型这使我们能够评估模型从单个数据点而不是高频模式中学习的能力我们把实验的代码放在网上。1数据集我们专注于命名en的任务-实体识别( NER ) , 并 采 用 CoNLL03 ( Sang 和 DeMeulder,2003)、JNLPBA(Collier和Kim,2004)和WNUT17(Derczynskiet al. ,2017)数据集。NER通常用于评估预训练语言模型的结构化预测,其自然的类不平衡非常适合我们的探测实验。CoNLL 03和JNLPBA分别是NER和Bio-NER的标准数据集。WNUT17数据集的动机是观察到最先进的方法倾向于在训练过程1https://github.com/Michael-Tanzer/贝尔特洛尔+v:mala2277获取更多论文(Augenstein et al. ,2017年)。数据集的重点是在测试时识别模型无法简单记忆的不寻常或罕见实体除非另有说明,否则我们基于实体级F1进行评估。语言模型我们使用BERT-base(Devlinet al. ,2019)作为我们实验的主要语言模型,因为BERT在实践中被广泛使用,并且预训练语言模型的其他变体构建在类似的架构上。该模型增加了分类前馈层1.00.80.60.40.20.00 12 345 6 7 8 9 10时代并使用交叉熵损失进行微调,学习率为10−4。AdamW(Loshchilov和Hutter,2019)在训练期间使用,重量衰减为0.01,线性热身率为10%。使用模型记录测试结果,产生了最高的验证指标。我们将BERT的行为与其他预先训练的变压器 ( 如 RoBERTa ( Liu et al. , 2019 ) 和DeBERTa(He et al. ,2020)用与上述相同的优化器和超参数进行微调。为了与非转换器模型进行比较,我们报告了bi-LSTM-CRF的性能(Lample et al. ,2016)模型,具有组合的字符级和单词级表示。该模型由10层组成,具有300维单词表示和50维字符表示,总共约3000万个可训练参数。在我们的实验中,该模型使用Adam optimiser(Kingma and Ba,2014)进行 训 练 , 使 用 CRF 损 失 ( Laffe et al. ,2001)。4噪声环境我们首先研究BERT如何从包含标签噪声的数据集中学习一般图1显示了当面临不同水平的噪声时,CoNLL03训练和验证集上的模型性能如何变化,从0%到50%。根据绩效分数的进展,我们可以将BERT1. 拟合:该模型使用训练数据来学习如何泛化,有效地学习可以解释尽可能多的训练数据的简单模式(Arpit et al. ,2017年)。随着模型学习这些模式,训练和验证性能图 1 : BERT 性 能 ( F1 ) 在 整 个 训 练 过 程 中 的CoNLL03训练和验证集。较暗的颜色对应较高的噪声水平(0%至50%)。0.60.50.40.30.20.10.00 1 2 3 4 5 6 7 8 9 10时代图2:CoNLL03数据集训练集中噪声样本的分类精度。较暗 的颜色对应较高 的噪声水平(0%至50%)。2. 稳定性:性能平台的增加,验证和培训都没有显著变化这个阶段的持续时间似乎与数据集中存在的噪声量成反比3. 简化:模型迅速开始记忆噪声示例,快速提高训练数据的性能,同时降低验证性能,有效地过度拟合数据集中的噪声。我们发现BERT表现出明显的第二个稳定阶段,在此期间它不会过度拟合。在用梯度下降训练的其他神经网络中已经观察到对标签噪声的弹性(Li et al. ,2020)。然而,我们发现BERT中的这一阶段比在其他平台上预先训练的模型要长得多验证培训阶段12期3期兰德伯特相相相23yRACr accu分类om1分类F1评分分类精度+v:mala2277获取更多论文−−模 式 , 例 如 在 CIFAR10 上 微 调 的 预 训 练ResNet,它立即开始记忆噪声示例(参见附录A进行比较)。这些结果表明,在微调预训练的语言模型时,提前停止的精确点并不重要类似的最佳性能保持相当长的时间,因此训练固定数量的时期可能就足够了。我们说明BERT在第二阶段,BERT完全忽略了嘈杂的标记,并正确地错误分类它们,表现第三阶段的阶梯式改进表明,该模型无法从噪声中学习任何模式,并通过重复优化相同的示例来改进,逐渐记忆它们。对 噪声 的鲁 棒性我们还 在图1 中观察 到,BERT通常对噪声和过拟合非常鲁棒。在没有噪声的情况下,无论训练的长度如何,模型都不会过度拟合并保持其开发即使有很大比例的噪声,也可以通过在第二阶段的某个地方停止训练过程来实现与干净数据集上的训练相当的模型2我们还假设,由于在第二阶段训练中显示的对噪声的鲁棒性,噪声检测器可以仅基于BERT的训练损失来构造我们发现,在我们所有的实验中,一个使用k-means对损失进行聚类的简单检测器可靠地实现了超过90%的噪声检测F1得分,进一步显示了该模型如何能够主动检测和拒绝单个噪声示例(有关噪声检测过程的详细信息,请参见附录E预训练的影响上述特性主要归功于BERT我们发现,具有相同架构的随机初始化模型不仅实现了较低的整体性能,而且关键是没有表现2向CoNLL03数据集添加30%的噪声只会导致第二阶段的验证性能下降0.9%学习和对噪声的鲁棒性(见附录C)。我们还分析了其他预先训练的变压器的行为具体来说,研究RoBERTa和DeBERTa,我们发现在BERT中观察到的相同训练模式-所有模型都清楚地分为上述三个阶段这些模型在训练的稳定阶段对标记噪声也非常鲁棒值得注意的是,RoBERTa甚至更有弹性地将噪声补偿标记到其他两个分析的模型,尽管DeBERTa在公共基准上优于它(He et al. ,2020)。两种模型的培训和确认性能可视化(如图1所示)见附录I。5遗忘所学信息仅评估最终模型并不总是提供关于数据点分类的全貌,因为在训练过程中,单个数据点可能会 多 次 学 习 和 忘 记 。 根 据 Toneva et al.(2019),如果模型能够在epoch正确分类,则我们在epocht记录一个示例的遗忘事件不1,但不是在时间t。 类似地,如果模型在时期t1无法正确分类,但在时期t能够正确分类,则我们在时期t识别样本的学习事件。因此,第一学习事件发生在模型能够正确分类示例的第一时期此外,我们将具有零和大于零的遗忘事件的示例分别称为难忘示例和非难忘示例,而学习示例集包括具有一个或多个学习事件的所有示例在表1中,我们显示了BERT、非预训练BERT和bi-LSTM模型的CoNLL 03和JNLPBA数据集的训练数据上的简单、难忘和学习示例我们还展示了学习样本和学习样本之间的比率,这表明模型忘记学习信息的容易我们可以观察到BERT比其他模型忘记的更少,并且预训练对于保留重要信息至关重要我们在附录D中展示了最常见的例子,这些例子往往是相应类的非典型例子。Toneva等人(2019)发现,在视觉模态的不同架构中,遗忘事件的数量仍然相当,+v:mala2277获取更多论文数据集模型ForgeNfUnscoredNuLearnedNlNf/Nl(%)双LSTM71.06%百分之二十九点九四百分之九十点九78.17%CoNNL03非预训练BERT百分之九点八九2.97%90.11%百分之九十七点零三九十九点八七百分之九十九点八9.90%2.98%双LSTM百分之九十七点一六5.14%百分之九十八点三三百分之九十八点八一JNLPBA非预训练BERT25.50%16.62%74.50%百分之八十三点三八百分之九十八点二四百分之九十八点一八百分之二十五点九六百分之十六点九三表1:在CoNLL 03上进行BERT培训期间,令人难忘的和学到的示例数量数据集和JNLPBA数据集。1.00.80.60.40.20.01 2 3 4 5 6 7 8 9 10时代0.80.60.40.20.00 1 2 3 4 5 6 7 8 9 10时代图3:在CoNLL03数据集上针对各种噪声水平进行训练期间的首次学习事件分布。较暗的颜色对应较高的噪声水平(0%至50%)。一个特定的数据集。3然而,我们的实验表明,对于预先训练的语言模型,情况并不一定如此。具体来说,在CoNLL 03数据集上,BERT(103%)和bi-LSTM模型(1080%)的遗忘表和学习示例我们还分析了BERT在CoNLL03上训练的第一个学习事件的分布随着训练的进行,我们看到BERT完全停止学习新的示例,无论第三和第四个时期的噪声水平如何。最后,在最后一个时期,BERT主要记忆数据中的噪声。43 他 们 报 告 MNIST , PermutedMNIST , CIFAR10 和CIFAR100的重复实例的比例为8.3%,24.7%、68.7%、92.38%。4我们在其他数据集上进行了额外的实验(JNLPBA数据集的结果见附录F)。在所有情况下,我们在整个训练过程中观察到第一次学习事件的相同分布图4:在CoNLL03数据集上的整个训练过程中的BERT性能(F1),其中包含不同数量的句子,包含BLOG类。较暗的颜色对应于更少的可获得的类别的例子(5到95,步长为20)。6低资源场景在前面的部分中,我们已经观察到BERT在训练的早期就学习了示例并进行了概括。我们现在将检查相同的方法是否适用于低资源场景,其中少数类只被观察到很少的次数。为此,我们从CoNLL03训练集中删除所有包含少数标签为MISC和MISC的标记的句子,除了预定数量的这样的句子。我们用DNA和蛋白质标签对JNLPBA数据集重复该过程我们通过研究包含目标类的不同数量的句子如何影响BERT的学习和概括能力来进行与前几节类似的实验我们在图4中报告了CoNLL03数据集的训练和验证分类F1得分,其中除了少数(5到95个)包含标签的句子外,所有句子都被删除。请注意,本实验中报告的性能仅指的是P2P类在图5中,我们还报告了首次学习的分布验证培训1期2期3期训练样本伯特相1相相23分类F1评分+v:mala2277获取更多论文0.350.300.250.200.150.100.050.80.60.40.20.0012 345 6 7 8 9 100.00 25 50 75 100125150 175 200时代包含目标标签图5:在CoNLL03数据集上训练期间的第一个学习事件分布,其中包含不同数量的句子。较暗的颜色对应于较少的实例的可利用的类别(5至95在20的步骤)。图6:BERT最终验证实体级F1分数在少数镜头类上保持不同数量的句子,包含CoNLL03数据集上选定类的示例。在相同的设置中,可以观察到两种现象:1)减少句子的数量大大降低了模型的泛化能力(验证性能下降,但训练性能仍然相当); 2)当可用的句子较少时,它们往往在较早的MISC标签的核心响应实验见附录J。我们还显示了平均实体级F1分数0.60.50.40.30.20.10.00 25 50 75 100 125 150 175 200包含目标标签图6和图7分别显示了CoNLL03和JNLPBA数据集的属于少数标签的标记和完整NER任务(即考虑所有类别)的模型性能。对于CoNLL03数据集,我们观察到BERT需要至少25个少数标签的示例才能开始学习它。性能从那里迅速提高,并在大约100个示例时达到平台对于JNLPBA数据集,样本的最小数量增加到几乎50个,并且对于更高数量的样本出现平台在具有挑战性的WNUT17数据集上,BERT仅实现了44%的实体级F1。这种低性能可归因于训练集和测试集之间不存在实体重叠,这增加了示例的类间变异性7用于少量学习的为了解决BERT在少数学习中的局限性,我们提出了一种新的模型ProtoBERT,它将BERT的预训练知识与原型网络的少数学习能力相结合(Snelletal. ,2017)用于序列标记问题。图7:BERT最终验证实体级F1分数在少数镜头类上保持不同数量的句子,包含JNLPBA数据集上选定类的示例。该方法构建了一个嵌入空间,其中输入在每个类的基础上进行聚类,允许我们通过找到最接近的质心并为其分配相应的类来对令牌进行分类。该模型可以在图8中看到。我们首先定义一个支持集S,我们使用它作为分类的上下文,并用Sk指定S中具有标签k的所有元素。我们将想要分类的点的集合称为查询集合Q,其中l(Qi)指示查询集合的标签。Q中的第i个元素 我们也将f称为由BERT计算的函数,增加了线性层,产生M维输出。然后,该模型对给定的输入x进行如下分类:对于每个类k,我们将学习特征空间中的类的质心计算为MISC -少量MISC -全反射-少量反射-全反射热训练样本DNA -少量DNA -全蛋白-少量蛋白-全测试F1评分测试F1评分伯特相12相3+v:mala2277获取更多论文∈KKKΣ训练数据随机取样器支持集查询集伯特映射层支持嵌入查询嵌入SSoftmax输出概率相似性每班平均数类相似质心图8:使用带有原型网络层的BERT模型的推理示意图支持集S:(即,O类),当它不是足够接近任何中心-1Σ|SK|xi∈Sktroid,其中dO表示阈值,我们认为一个点如果某个类的示例在然后,我们计算每个输入的距离x∈Q到每个质心:distk=d(f(x),ck)并将它们聚集成向量vRk。最后,我们计算x属于类别k的概率为:|exp(−d (f(x), ck))在训练过程中,我们分配了一个分配,tance为400,使得在该特定批处理期间不可能将输入错误地分类为缺失类。最后,我们提出了两种在测试时计算令牌类的方法。第一种方法使用来自X的所有示例来计算测试时所需的质心,这会产生更好的结果,但对于较大的数据集来说,计算成本很高。p(y=kx)=k′=exp(−d(f(x),ck′))第二种方法近似质心ck=softmax(−v)k该模型通过优化上述概率与x的one-hot ground-truth标签。 关键是,S和使用在每个训练步骤产生的质心的移动平均值c(t)←αc(t)·(1−α)c(t−1)Q不是训练集的固定分区,而是在每个训练步骤中变化。 根据Snell et al. (2017),我们使用欧氏距离作为函数d的选择。为了考虑到极端的代表性不足的一些类,我们创建的支持端口采样的S1元素从每个少数民族类和S2元素从每个非少数民族类。高的s1/s2比率优先考虑少数民族阶层,而低的比率则更多地强调其他阶层。然后,我们类似地构造查询集,少数类和非少数类之间具有固定的比率n对于NER,我们只希望模型在找不到其他类似类时将其视为回退,而不是学习负类“O“的公共表示v=(d 0,dist0,. . .,dist k)其中dO是与其他参数一起训练的网络的标量参数直观地说,我们想将一个点归类为非实体其中α是加权因子。这种方法在训练过程中的开销很小,并且只比第一种方法稍微差一点。7.1实验结果我们首先将ProtoBERT与标准的预训练BERT模型进行比较,该模型在CoNLL03和JNLPBA数据集上具有分类层,其中少数类别的句子数量较 少。我 们分 别在图9 和图 10中显 示了CoNLL03的少数拍摄类和完整数据集的结果类似地,我们在图中显示了JNLPBA的少数镜头类的结果十一岁5在所有情况下,ProtoBERT始终超过在少数民族类的几个例子上训练时基线的表现。它特别擅长于极少数镜头设置,例如,超过40个F1点的BERT,其中15个句子包含了一个类。随着少数民族的例子越来越多5关于完整分类任务的比较见附录H。ck=f(xi)(1)+v:mala2277获取更多论文MISC-ProtoBERTMISC-BERT+类。关于ProtoBERTBERT + Class.层儿0.80.50.40.60.30.40.20.20.10.00 25 50 75100125 150 175 2000.00 25 5075100125 150 175 200包含目标标签的训练句子数量包含目标标签图9:CoNLL03数据集的基线模型和ProtoBERT之间的模型性能比较,减少了包含MISC和PART类的句子。结果报告为F1分数的几杆类。图11:JNLPBA数据集的基线模型和ProtoBERT之间的模型性能比较,减少了包含DNA和蛋白质类的句子结果报告为F1分数的几杆类。0.900.850.800.750.700.65MISC-ProtoBERTMISC-BERT + ClBERT+类SS. 层屁股层0 25 50 75 100 125 150 175 200包含目标标签目前,同时带来了大幅改善,在少数拍摄场景。我们进行了烧蚀研究,以验证我们的改进质心计算方法的效果。从表2中的结果我们可以确认,虽然确实存在性能差异,但差异相当小(0.1 另一方面,该方法减少了训练时间,因此减少了能量消耗(Strubell et al. ,2019年)减少到CoNLL03上原始方法的三分之一,我们预计对于更大的数据集,这种减少会更大。图10:CoNLL03数据集的基线模型和ProtoBERT之间的模型性能比较,减少了包含MISC和PART类的句子。结果报告为所有班级的F1BERT开始匹配ProtoBERT虽然ProtoBERT的主要优势在于少量学习,但我们也在表2中的完整CoNLL03,JNLPBA和WNUT17数据集上对其进行了评估(没有删除任何句子)。在这种情况下,所提出的架构实现了与基线基本相似的结果,同时在罕见的WNUT17数据集实体.本节中的结果表明,ProtoBERT虽然是为少量学习而设计的,但在所有任务中的表现至少与其基础模型相当。这使得所提出的模型可以应用于更广泛的任务和数据集,如果没有标签不平衡,则不会对性能产生负面影响。8结论在这项研究中,我们研究了预训练语言模型微调过程通过制定允许完全控制训练数据中标签分布的实验,我们研究了在高标签噪声和低标签频率条件下模型的学习动态。实验表明,BERT能够达到接近最佳的性能,即使大部分的训练集标签已损坏。我们发现,这种能力是由于模型预训练的模型在微调时经历了一个延长的稳定阶段,在此期间,它们的性能保持最佳,这表明早期停止的精确区域不那么重要。此外,我们还证明了有效数量-DNA-BERT+类。层蛋白-ProtoBERT Protein-BERT+ Class.层儿ERT- ProtoBDNA测试少杆F1成绩测试F1评分测试F1评分+v:mala2277获取更多论文模型CoNLL03JNLPBAWNUT17现有技术93.5077.5950.03BERT +分类层(基线)89.3575.3644.09ProtoBERT89.8773.9148.62ProtoBERT +运行质心89.4673.5448.56表2:使用实体级F1评分评估的CoNLL03、JNLPBA和WNUT17数据集上的基线模型、当前最新技术水平6和所提出的架构之间的比较最新技术水平分别为Baevski等人(2019)、Lee等人(2019)和Wang等人(2019)有能力的例子会极大地影响学习过程,影响例子的记忆时间和概括的质量。我们表明,BERT无法从极端的少数镜头设置的例子中学习,完全忽略了少数类在测试时。为了克服这个限制,我们用一个原型网络来增强BERT。这种方法部分解决了模型确认迈克尔是由UKRI CDT资助的AI医疗保健 7(批准号:P/S023283/1)。引用DevanshArpit , StanislavawJastrzeEschebski,NicolasBal-las , DavidKrueger , EmmanuelBengio,Maxin- der S.Kanwal,Tegan Maharaj,Asja Fischer,Aaron Courville,Yoonne Bengio,and Simon Lacoste-Julien. 2017. 深入了解深度网络中的加密。arXiv:1706.05394 [cs,stat]。ArXiv:1706.05394。伊莎贝尔·奥根斯坦,莱昂·德琴斯基,卡琳娜·邦切娃。 2017. 命名实体识别中的泛化:定量分析 。 arXiv : 1701.02877[cs] 。 ArXiv :1701.02877。Alexei Baevski,Sergey Eddom,Yinhan Liu,LukeZettlemoyer,and Michael Auli. 2019. 完形填空驱动的自我注意网络预训练。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议中,第5360计算语言学协会。Nicholas Carlini , Chang Liu , Ellfar Erlingsson ,Jernej Kos,and Dawn Song. 2019. 秘密分享者:评估和测试神经网络。arXiv:1802.08232 [cs]。ArXiv:1802.08232。7http://ai4health.io奈杰尔·科利尔和金振东 2004. JNLPBA的生物实体识别任务介绍。在生物医学中的自然语言处理及其应用国际联合研讨会(NLPBA/BioNLP)中,第73科林。Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,Kai Li,and Li Fei-Fei.2009. Imagenet:一个大规模的地理图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。美国电气与电子工程师协会。Leon Derczynski,Eric Nichols,Marieke van Erp,and Nut Limsopatham.2017年。WNUT2017关于新型和新兴实体识别的共享任务的结果。第三届嘈杂的用户生成的文本研讨会论文集,第140-147页,丹麦哥本哈根。计算语言学协会。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova.2019.BERT : DeepBidirectionalTransformersforLanguageUnderstanding 预 训 练 。 arXiv :1810.04805 [cs]。ArXiv:1810.04805。何开明,张翔宇,任少卿,孙健。2015. 用于图像识别的深度残差学习。arXiv:1512.03385 [cs]。ArXiv:1512.03385。Pengcheng He,Xiaodong Liu,Jianfeng Gao,andWeizhuChen.2020.DeBERTa : Decoding-enhanced BERT with Disentangled Attention. arXiv电子版,第arXivDan Hendrycks , Xiaoyuan Liu , Eric Wallace ,Adam Dziedzic , Rishabh Krishnan 和 DawnSong。2020. 预训练的变压器提高了分布外鲁棒性 。 arXiv : 2004.06100[cs] 。 ArXiv :2004.06100。杰里米·霍华德和塞巴斯蒂安·鲁德2018. 用于文本分类的通用语言模型微调。在ACL 2018会议中。Ganesh Jawahar、Benoadt Sagot和Djamé Seddah。2019. BERT能从语言结构中学到什么? 在计算语言学协会第57届年会的会议记录中,第3651-3657页。+v:mala2277获取更多论文Diederik P Kingma和Jimmy Ba。2014. Adam:一种随机优化方法。arXiv电子版,第arXiv亚历克斯·克里热夫斯基2009. 从微小图像中学习多层特征。University of Toronto.Ankit Kumar,Piyush Makhija和Anuj Gupta。2020.用户生成数据:BERT的致命arXiv电子版,第arXiv约翰·拉夫特安德鲁·麦卡勒姆和费尔南多·佩雷拉2001. 条件随机场:序列数据分割和标记的概率模型. 计算机协会(ACM)。纪尧姆·兰普尔,米格尔·巴列斯特罗斯,桑迪普·萨勃拉曼尼亚,川上和也,克里斯·戴尔.2016年。命名实体识别的神经架构。在NAACL-HLT会议记录中,第260Jinhyuk Lee , Wonjin Yoon , Sungdong Kim ,Donghyeon Kim,Sunkyu Kim ,Chan Ho So,and Jaewoo Kang. 2019. BioBERT:一个用于生物医学文本挖掘的预训练。生物信息学,btz682页。ArXiv:1901.08746。李明辰,马赫迪·索尔坦诺科塔比,和沙美·奥伊马克. 2020. 具有提前停止的梯度下降算法对过参数化神经网络。在人工智能和统计国际会议上,第4313PMLR。ShengLiu , JonathanNiles-Weed , NargesRazavian,and Carlos Fernando-Granda. 2020. 早期学习正则化防止记忆噪声标签。神经信息处理系统的进展,33。Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Man-dar Joshi,Danqi Chen,Omer Levy,MikeLewis , LukeZettlemoyer , andVeselinStoyanov.2019. RoBERTa : 一 种 鲁 棒 优 化 的BERT预训 练方 法。 arXiv: 1907.11692 [cs]。ArXiv:1907.11692。伊利亚·洛希洛夫和弗兰克·哈特。2019. 解耦权重衰减正则化。arXiv:1711.05101 [cs,数学]。ArXiv:1711.05101。马修·E Peters,Mark Neumann,Mohit Iyyer,MattGardner,Christopher Clark,Wendon Lee,andLuke Zettlemoyer. 2018. 深层语境化的词表征。在NAACL-HLT 2018会议中。Fabio Petroni , Tim Rocktäschel , Patrick Lewis ,Anton Bakhtin,Yuxiang Wu,Alexander H.米勒和塞巴斯蒂安·里德尔。2019. 语言模型作为知识基础? 在EMNLP 2019会议记录中。安娜·罗杰斯,奥尔加·科瓦列娃,还有安娜·鲁姆斯基。2020. BERTology入门:我们对BERT如何工作 的 了 解 。 Transactions of the Association forComputational Linguistics,8:842埃 里 克 ·F Tjong Kim Sang 和 Fien De Meulder 。2003. CoNLL-2003共享任务简介:独立于数据库的命名实体识别。arXiv:cs/0306050。ArXiv:cs/0306050。Jake Snell,Kevin Swersky和Richard S.泽梅尔2017.原 型 网 络 用 于 少 量 学 习 。 arXiv: 1703.05175[cs,stat]。ArXiv:1703.05175。艾玛·斯特鲁贝尔,安娜雅·甘内什,安德鲁·麦卡勒姆. 2019. NLP中深度学习的能源和政策考虑。在Proceedings of the 57th Annual Meeting of theAssociation for Computa- tional Linguistics,pages3645计算语言学协会。伊恩·坦尼,迪潘詹·达斯,艾莉·帕夫利克. 2019.BERT重新发现了经典的NLP管道。第57届计算语言学协会年会论文集,第4593- 4601页。Mariya Toneva,Alessandro Sordoni,Remi TachetdesCombes , AdamTrischler , YoelmanBengio,and Geoffrey J. Gordon.2019. 深度神经网络学习过程中样例遗忘的实证研究。在ICLR2019会议中。图立夫,加里马·拉尔瓦尼,斯潘达纳·盖拉,何禾。2020. 使用预先训练的语言模型对虚假相关性 的 鲁 棒 性 的 实 证 研 究 。 Transactions of theAssociation for Computational Linguistics,8:621王紫涵,尚静波,刘丽媛,陆丽豪,刘嘉诚,韩家伟 。 2019.交 叉 加 权 : 从 不 完 善 的 注 释 中 .arXiv:1909.01441 [cs]。ArXiv:1909.01441。Saining Xie,Ross Girshick,Piotr Dollár,ZhuowenTu,and Kaiming He. 2017. 深度神经网络的聚合残差变换。arXiv:1611.05431 [cs]。ArXiv:1611.05431。Chiyuan Zhang,Samy Bengio,Moritz Hardt,Ben-Recht,and Oriol Vinyals. 2017. 理解深度学习需要重新思考泛化。ICLR 2017会议。Chiyuan Zhang,Samy Bengio,Moritz Hardt,Ben-Recht,and Oriol Vinyals. 2021. 理解深度学习(仍然)需要重
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功