预训练模型BERT的语言动机对学习语言属性的影响-预训练目标研究

121 浏览量更新于2023-11-30 收藏 473KB PDF 举报

语言知识

预训练模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文预训练目标如何影响大型语言模型学习语言属性？Ahmed Alajrami和Nikolaos Aletras，英国谢菲尔德大学计算机科学系{ajsalajrami1，n.aletras}@ sheffield.ac.uk摘要已经提出了几个预训练目标，例如掩码语言建模（MLM），用于预训练语言模型（例如BERT），目的是学习更好的语言表示。然而，据我们所知，到目前为止，还没有以前的工作研究过不同的预训练目标如何影响BERT学习语言学属性。我们假设，与其他非语言动机的目标相比，语言动机的目标（如MLM）应该有助于BERT获得更好的语言知识，这些非语言动机的目标对人类来说不是直观的或难以猜测输入和要预测的标签之间的关联。为此，我们用两个语言动机的目标和三个非语言动机的目标来预训练BERT。然后，我们探测语言特征编码的表示所产生的模型。我们发现强有力的证据表明，有两种不同类型的目标学习的表示之间的探测性能只有很小的差异。这些令人惊讶的结果质疑了语言学上知情的预训练的主导叙事。11介绍预训练基于 Transformer 的最流行的方法是（Vaswani et al. ，2017）语言模型（LM），例如 BERT（Devlin et al. ，2019），是通过优化掩码语言建模（MLM）目标。MLM任务的灵感来自于完形填空任务（Taylor，1953），在该任务中，人们被要求利用上下文、语法知识和其他技能来猜测前提是这样一个目标将指导LM编码语言信息。除了传销，最近提出了不同类型的目标。Yang等人（2019年）1 代码和模型可在此处获取： https ：//github.com/aajrami/acl2022-pre-training-objectives-probing引入了基于令牌顺序排列的预训练目标 Clarket al.（2020）提出了一种替换令牌检测预训练任务，该任务使用小型MLM的输出通过替换一些令牌来破坏输入。然后，它训练一个判别模型来预测令牌是否被替换。Aroca-Ouellette和Rudzicz（2020）探索了各种句子和标记级别的辅助预训练任务（例如，句子排序，词频预测），作为最初用于训练BERT的下一句预测（NSP）辅助任务的更好替代方案Lan et al.（2020）引入了句子顺序预测任务，该任务通过预测两个相邻的句子是否被交换来关注句子间的连贯性Iter et al.（2020）提出了另一个句子间预训练任务，该任务帮助LM使用对比学习编码句子之间的话语关系Yamaguchi等人（2021）表明，非语言直观任务（即掩蔽的第一个字符预测）可以有效地用于预训练。与此同时，一些研究探讨了学习型语言学家学习语言信息的程度和程度。这通常使用探测任务来检查，即简单的分类任务，其测试LM的编码用于单个语言特征，例如语法信息。通过探测已经发现BERT编码syn-tactic（Tenneyet al. ，2019; Liu et al. ，2019; Mi-aschi和Dell'Orletta ， 2020 ; Hewitt 和 Manning ， 2019 ;Jawahar et al. ，2019）和语义信息（Ettinger，2020; Jawahar et al. ， 2019; Tenneyet al. ，2019 ）。然而， Hall Maudslay 和 Cotterell（2021）认为BERT在本文中，我们假设语言动机目标（例如MLM）应该帮助BERT获得更好的语言知识，而不是使用非语言动机目标，即人类难以猜测arXiv：2203.10415v1 [cs.CL] 2022年3月+v：mala2277获取更多论文Σ输入和要预测的标签之间的关联。为此，我们试图回答以下研究问题：预培训目标如何影响学习者对英语的学习？我们的研究结果挑战了MLM的现状，表明具有非语言信息目标的预训练（§2）导致具有可比语言能力的模型，如标准探测基准（§3）所测量的这些令人惊讶的结果（§4）表明，仔细分析LM如何学习对于进一步改进语言建模至关重要（§5）。2培训前目标我们用五个不同的预训练对象进行实验其中两个被认为是语言动机，而其余的则不是。2.1语言动机目标Masked Language Modeling（MLM）：我们使用MLM作为我们的第一个语言动机的预训练目标.由Devlin et al. （2019年），MLM从输入的句子中随机选择15%的标记，并将其中80%替换为[MASK]标记，10%替换为随机标记，10%保持不变。操纵词检测（S+R）：我们还尝试了一个更简单的语言动机目标，其中模型选择并替换10%的输入令牌与来自相同输入序列的洗牌令牌。同时，它从词汇表中选择并替换另外10%的输入标记（Yamaguchi et al. ，2021年）。2.2非语言动机目标我们假设对人类来说很难的任务（例如完全随机的预测任务）将使BERT的更深层（即，更接近输出层）以获取关于语言的有意义的我们还假设，更接近输入的层可能会学习单词共现信息（Sinha et al. ，2021年）。Masked First Character Prediction （ FirstChar）：对于我们的第一个非语言动机的预训练目标，我们使用 Yamaguchi等人引入的Masked First Character Prediction 。（ 2021年）。在该任务中，模型仅预测掩码令牌的第一个字符（例如，‘[c]omputer’该模型将第一个字符预测为29个类别之一，包括英文字母和数字，标点符号和其他字符指示符。掩码 ASCII 码求和预测（ Masked ASCIICodes Summation Predication，ASCII）：我们还提出了一个新的非语言动机的预训练目标，其中模型必须预测掩码令牌中字符的ASCII码值为了使这更难，并保持类的数量相对较小，我们通过对ASCII求和取模5来定义5路分类任务：V= [iassistance（chari）] %5。猜测输入和这样的标签之间的关联对于人类来说几乎是不可能的任务。掩码随机令牌分类（Rand-dom）：最后，我们提出了一个完全随机的目标，其中我们屏蔽了15%的输入令牌，并且我们为每个掩码令牌随机分配了从0到4的类，用于类似于ASCII任务的5路分类我们假设一个用随机目标预训练的模型不应该能够学习任何有意义的语言信息。3探测任务探测任务（Adi et al. ，2016; Conneau et al. ，2018; Hupkes et al. ，2018年）被用来探索在何种程度上的语言属性被LM捕获。通常使用语言模型的表示来训练模型，以预测特定的如果它达到了高精度，这意味着LM编码的语言属性。在这项工作中，我们使用Conneau等人（2018）引入的九个标准探测任务来检查我们在Shen等人之后预训练的不同LM的每一层的表示输出。（2020年）。这些任务探索表面，句法和语义信息。每个探测任务的数据集包含100k个用于训练的句子，10k个用于验证的句子和另外10k个用于测试的句子。2我们使用SentEval工具包中推荐的超参数（Conneau和Kiela，2018）为每个探测任务训练了一个多层MLP分类器。表面信息任务：SentLen旨在正确预测句子中的单词数量。[2]这些数据集均由Conneau andKiela（2018）公开提供。+v：mala2277获取更多论文模型MNLI QNLI QQP RTE SST MRPC CoLA STS胶水平均值BASE- 40 Epochs预训练（上限）MLM+ NSP83.890.887.869.991.985.058.989.382.1（0.4）BASE-50万步预训练传销S+R81.479.289.088.186.586.065.167.790.688.586.085.952.855.887.287.279.8±0.379.8±0.3一焦炭78.887.285.4 60.0 89.1 83.5 44.5 85.1 76.7± 0.4ASCII76.885.384.3 60.8 87.9 82.2 42.0 82.4 75.2± 0.3随机67.563.374.9 53.5 81.7 71.8 15.1 23.3 56.4中等-25万步预训练传销S+R78.376.285.685.585.284.862.262.590.086.582.079.844.346.184.084.476.4±0.475.7±0.1一焦炭77.785.785.458.8 88.782.637.4 83.5 75.0± 0.3ASCII75.184.483.8 56.6 87.1 80.5 34.8 81.2 72.9± 0.4随机72.981.483.1 54.7 84.0 73.7 76.9 69.3± 0.5小-25万步预培训传销S+R75.875.184.684.284.484.459.755.889.085.681.776.038.736.683.682.574.7±0.472.5±0.2一焦炭74.583.384.556.3 87.3 78.4 35.4 81.4 72.6± 0.4ASCII72.982.383.1 55.7 87.0 72.2 32.8 77.1 70.4± 0.2随机70.781.082.4 54.4 84.2 72.5 23.4 76.2 68.1± 0.6表1：5次运行中GLUE开发集的结果及标准差。粗体值表示每个GLUE任务和GLUE平均值的最佳性能。每一个模型的设置。句法信息任务：TreeDepth通过预测其解析树的深度来测试表示是否保留了有关句子的层次结构的TopConst预测句子的解析树的顶部成分。BShift测试两个相邻的单词是否已经转化。语义信息任务：时态旨在预测主句动词是现在时还是过去时。如果主句的主语是单数还是复数。宾语测试主句的直接宾语是单数还是复数。Se-manticOddManOut（SOMO）测试一个名词或动词是否被另一个名词或动词替换。CoordInv预测由两个并列分句组成的句子是否被倒置。4实验结果4.1实验装置我们预先训练 BERT-BASE （ Devlin et al. ，2019）模型，用语言或非语言动机的预训练目标之一（§2）替换MLM和下一个为了完整性，我们还预训练了两个较小的模型架构，MEDIUM 和 SMALL （ Turc et al. ， 2019 ），如Yam-aguchiet al. （2021年）。MEDIUM模型具有八个隐藏层和八个注意头。SMALL模型有四个隐藏层和八个attention头。中型和小型模型都具有大小为2048的前馈层和大小为512的隐藏层。有关超参数的更多详细信息，请参见附录A。预训练数据所有模型都在BookCorpus上进行预训练（Zhu et al. （2015年）和英文维基百科从拥抱脸。 3使用字节对编码（Sennrich etal. ，2016年），总共产生了27亿个代币。由于计算资源有限，每个基本型号都使用8台NVIDIA Tesla V100（SXM 2 - 32 GB）进行了50万步的预训练，而每个中型和小型型号都使用8台NVIDIA Tesla V100（SXM 2 - 32 GB）进行了25万步的预训练。我们使用一个基本批次为32，中型和小型批次为64。我们使用Adam优化模型（Kingma和Ba，2014）。微调细节我们使用通用语言理解评估（GLUE）基准（Wang et al. ，2018年）对每个模型进行微调，最多可达20个时期，并提前停止。对于每个微调任务，我们使用五个不同的种子，3https://github.com/huggingface/datasETS+v：mala2277获取更多论文92.9 ± 0.445.2±0.683.6±0.291.3±0.787.8±0.488.7±0.284.5±0.259.6± 0.4ASCII 92.9± 0.4 43.3± 0.781.4± 0.4 82.7± 0.3 88.7±0.3 89.1±0.3 84.7± 0.5 54.0± 0.3 68.5± 0.8随机95.0± 0.6 39.6± 0.671.4± 1.0 68.9± 0.4 72.1± 0.5 74.3± 0.2 70.3± 0.1 50.4± 0.3 63.3± 0.3表2：使用BASE模型在探测任务上的最佳性能层的三次运行的平均准确度和标准偏差粗体值表示每个探测任务的最佳性能。报告平均值。我们报告了MNLI任务的匹配准确度、CoLA任务的Matthews相关性、STS-B任务的Spearman相关性、MRPC任务的准确度在Aroca-Ouellette和Rudzicz（2020）之后，WNLI任务被省略。BERT表示在所有探测任务中，我们在每一层使用[CLS]标记的BERT表示作为探测分类器的输入4.2微调结果表1显示了对GLUE上的所有预训练目标进行微调以测量其在下游任务中的性能的结果。对于BASE模型配置，我们观察到语言动机的目标（例如，传销，S+R）在下游任务中实现最佳性能然而，使用非语言动机目标（例如，第一字符，ASCII）仍然取得竞争力的结果。正如预期的那样，使用随机目标预训练的模型获得了最低的性能，GLUE平均得分为56.4。然而，它的性能在许多下游任务中仍然是合理的，这表明该模型能够从输入中学习一些共现信息（Sinha et al. ，2021; Yamaguchi et al. ，2021年）。对于其他两种模型配置（中等和小），可以观察到类似的行为。4.3探测结果表2给出了使用来自BERT-BASE模型的表示作为MLP分类器的输入的九个探测任务上的最佳性能层与微调结果类似，我们首先观察到，在使用语言激励目标（例如MLM、S+R）学习的表示上训练的模型在九个探测任务中的六个中实现最佳性能然而，在使用非语言动机目标（例如First Char，ASCII）学习的表示上训练的模型实现了非常有竞争力的结果。. 例如，在Top-Const探测任务中，使用MLM预训练目标预训练的模型达到了83.6%的最佳性能，而使用ASCII预训练目标预训练的模型达到了81.4%。从其他两种型号配置（中型和小型）的探测结果中可以观察到类似的模式（分别参见表3和表4）。例如，在表3中的SentLen探测任务中，性能最好的MEDIUM模型（S+R）和性能最差的MEDIUM模型（ASCII）之间的差异在表4中的Ob-junctional探测任务中，使用非语言动机的预训练目标（ASCII）预训练的SMALL模型达到84.4%，而使用语言动机的预训练目标MLM和S+R预训练的SMALL分别达到83.5%和83.3%探测任务的完整结果（包括所有层）可参见附录B。5讨论从理论上讲，具有非语言动机目标的LM在下游任务和语言能力方面的表现都将明显然而，我们的研究结果表明，使用相同的训练数据，架构和训练方案，这两种类型的LM具有惊人的接近性能（在下游任务上进行微调后）和我们推测，预训练数据，以及模型SentLen（表面）TreeDepth（句法）TopConst（句法）BShift时态主语（句法）（语义）（语义）奥比什（语义）SOMO（语义）CoordInv（语义）BASE-Jawahar等. （2019年）MLM+ NSP96.241.384.187.0 90.0 88.182.265.278.7MLM+ NSP（未经培训）92.529.855.250.1 63.8 67.463.750.650.3BASE-50万步预训练传销S+R96.0±0.241.5±0.676.9±0.286.5±0.188.5±0.7个87.4±1.283.8±0.261.7±0.565.5±0.369.2±0.3一焦炭93.7±2.443.4±1.281.1±0.385.0±0.486.0±0.388.9±0.186.4±0.156.5±0.466.5±0.8+v：mala2277获取更多论文94.0± 0.542.6 ± 0.283.0± 0.584.6±0.385.7±0.287.9±0.481.9±0.555.8±0.390.4± 0.5 40.5± 0.6 79.6± 0.280.0±0.887.8±0.585.3±0.383.9±0.152.7±0.4表3：使用MEDIUM模型在探测任务上的最佳性能层的三次运行的平均准确度和标准偏差粗体值表示每个探测任务的最佳性能。94.7± 0.843.3 ± 1.076.8 ± 0.682.1±0.186.5±0.285.6±0.383.3±0.554.9±0.4一焦炭90.70.4±0.4 42.3± 0.477.5± 0.176.2±0.286.0±0.184.7±0.582.9±0.7个52.4±0.364.0±0.6ASCII 89.9± 0.3 41.3± 0.4 74.6± 0.474.6±0.185.7±0.484.0±0.384.4±0.252.3±0.462.5±0.1随机94.1± 1.0 42.6± 0.5 75.8± 0.471.0±0.485.5±0.583.8±0.381.6±0.350.7±0.461.7±0.5表4：使用SMALL模型在探测任务上的最佳性能层的三次运行的平均准确度和标准偏差粗体值表示每个探测任务的最佳性能。模型对学习策略有效性的影响大于训练前目标。此外，不同对象在探测中的可比性能表明，LM主要从预训练中学习单词共现信息（ Sinha et al. ， 2021; Yamaguchi et al. ，2021），这些目标可能对实际学习语言特性有一点影响。最近的研究探索了使用探测任务对模型的语言知识得出结论的局限性，其中一些还建议改进或替代探测方法（Hewitt和Liang，2019 ; Voita和Titov，2020 ; Elazar等人。，2021; Maudslayand Cotterell，2021）.然而，我们的研究结果表明，在使用语言动机目标或非语言动机目标进行预训练的模型之间，在探测句法或语义信息的任务中，性能6结论在这项工作中，我们比较了语言能力的LM。令人惊讶的是，我们的研究结果表明，语言动机目标的预训练获得了与非语言动机目标相当的性能。这表明，在语言模型中，数据和模型的大小可能比目标本身更有ing.在未来的工作中，我们计划将我们的实验扩展到其他语言和探测任务。致谢我们要感谢 Katerina Margatina 和 GeorgeChrysostomou的宝贵反馈。我们也感谢匿名评论者的建设性反馈。AA由语音和语言技术博士培训中心（Centre for Doctoral Training inSpeech and Language Technologies）支持，其应用程序由英国研究和创新基金EP/S 023062/1资助 NA 得到 EPSRC资助 EP/V055712/1 的支持，这是欧洲委员会CHIST-ERA计划的一部分，称为2019 XAI：基于可解释机器学习的人工智能。引用Yossi Adi ， Einat Kermany ， Yonatan Belinkov ，Ofer Lavi，and Yoav Goldberg. 2016.使用辅助预测任务对句子嵌入进行细粒度分析。arXiv预印本arXiv：1608.04207。Stéphane Aroca-Ouellette和Frank Rudzicz。2020. 论现代语言模型的损失。在2020年自然语言处理经验方法会议（EMNLP）中，第4970计算语言学协会模型SentLen（表面）TreeDepth（句法）TopConst（句法）BShift时态主语（句法）（语义）（语义）奥比什（语义）SOMO（语义）CoordInv（语义）中等-25万步预训练传销S+R92.3±0.241.1±0.176.9±0.580.8±0.185.9±0.186.7±0.183.7±0.556.1±0.663.5±0.7个66.5±1.2首字符ASCII随机93.3±0.392.9±0.240.4±0.542.4±0.876.8±0.371.5±0.9个80.3±0.485.8±0.586.3±1.374.2±0.086.1±0.184.3±0.383.1±0.185.7±0.353.8±0.651.3±0.7个61.8±0.364.7±0.161.5±0.4模型SentLen（表面）TreeDepth（句法）TopConst（句法）BShift时态主语（句法）（语义）（语义）奥比什（语义）SOMO（语义）CoordInv（语义）小-25万步预培训传销S+R93.7±0.441.6±0.273.1±0.278.3±0.186.4±0.7个83.5±0.283.5±0.155.9±0.664.0±0.363.9±0.1+v：mala2277获取更多论文Kevin Clark，Minh-Thang Luong，Quoc V. Le，andChristopher D.曼宁2020. Electra：预训练文本编码器作为判别器而不是生成器.在国际学术代表上。亚历克西斯·康诺和杜威·基拉。2018. Senteval：一个通用句子表示的评估工具包。arXiv预印本arXiv：1803.05449。Alexis Conneau 、 German Kruszewski 、 GuillaumeLample、Loic Barrault和Marco Baroni。2018. 你可以塞进一个$&！#* vector：探测句子嵌入的语言属性。第56届计算语言学协会年会论文集（第1卷：长文），第2126-2136页，澳大利亚墨尔本。计算语言学协会。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. Bert：深度双向转换器的语言理解预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页。Yanai Elazar，Shauli Ravfogel，Alon Jacovi，andYoav Goldberg. 2021.行为学探索：用遗忘的反事实进行行为解释。《计算语言学协会学报》，9：160艾莉森·艾丁格2020. BERT不是什么：语言模型的心理语言学诊断新套件的教训。Transactions ofthe Association for Computational Linguistics ，8：34罗恩·霍尔·莫兹雷和瑞安·科特雷尔。2021. 语法探测器探测语法吗？用炸脖龙探测的实验在计算语言学协会北美分会2021年会议记录：人类语言技术，第124计算语言学协会.约翰·休伊特和珀西·梁2019.设计和解释具有控制任务的探头。arXiv预印本arXiv：1909.03368。约翰·休伊特和克里斯托弗·曼宁。2019.在词表示中寻找句法的结构探测器。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4129-4138页。Dieuwke Hupkes ， Sara Veldhoen ， and WillemZuidema.2018.可视化和诊断分类器揭示了递归和递归神经网络如何处理层次结构。Journal ofArtificial Intelligence Research，61：907DanIter ， Kelvin Guu ， Larry Lansing ， and DanJurafsky. 2020.对比句子对象的预训练提高了语言模型的语篇性能。在计算语言学协会第58届年会的会议记录中，第4859Ganesh Jawahar、Benoadt Sagot和Djamé Seddah。2019. 关于语言的结构，伯特学到了什么？ACL2019-第57届计算语言学。Diederik P Kingma和Jimmy Ba。2014. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980。ZhenzhongLan ， MingdaChen ， SebastianGoodman，Kevin Gimpel，Piyush Sharma，andRadu Soricut. 2020. Albert：一个用于语言表示的自我监督学习的Lite bert。在学习表征上。Nelson F Liu，Matt Gardner，Yonatan Belinkov，Matthew E Peters和Noah A Smith。2019.语言知识与语境表征的可转移性。arXiv预印本arXiv：1903.08855。罗恩·霍尔·莫兹雷和瑞安·科特雷尔。2021.语法探测器探测语法吗？用炸脖龙探测的实验在计算语言学协会北美分会2021年会议论文集：人类语言技术，第124阿莱西奥·米亚斯基和菲利斯·德尔奥莱塔2020. 语境与非语境词嵌入：一项深入的语言学研究。第五届NLP表示学习研讨会论文集，第110-119页。计算语言学协会。Adam Paszke，Sam Gross，Francisco Massa，AdamLerer ， James Bradbury ， Gregory Chanan ，TrevorKilleen，ZemingLin，NataliaGimelshein，Luca Antiga，et al. 2019. Pytorch：一个命令式风格的高性能深度学习库。神经信息处理系统进展，32：8026- 8037。瑞可·森里奇巴里·哈多和亚历山德拉·伯奇2016. 以子词为单位的生僻词神经机器翻译。在Proceedings of the 54th Annual Meeting of theAssociationforComputationalLinguistics（ Volume 1 ： Long Papers ）， pages 1715-1725，Berlin，Germany.计算语言学协会。Sheng Shen，Alexei Baevski，Ari S Morcos，KurtKeutzer，Michael Auli，and Douwe基拉 2020.水库变压器。arXiv预印本arXiv：2012.15045。Koustuv Sinha，Robin Jia，Dieuwke Hupkes，JoellePineau，Adina Williams，and Douwe Kiela. 2021.Masked Language Modeling和分布式+v：mala2277获取更多论文假设：单词顺序对小孩子的预训练很重要。在2021年自然语言处理中的Em-pesticide方法会议论文集，第2888-2913页，在线和蓬塔卡纳，多米尼加共和国。计算语言学协会。威尔逊·泰勒。1953. “cloze procedure”: A new toolJournalism quarterly，30（4）：415-433.Ian Tenney ， Patrick Xia ， Berlin Chen ， AlexWang ， Adam Poliak ， R Thomas McCoy ，Najalam Kim，Benjamin Van Durme，Samuel RBowman，Dipan-jan Das，et al. 2019.你从上下文中学到了什么？在语境化的词表征中探索句子结构。arXiv预印本arXiv：1905.06316。Iulia Turc ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova.2019. 读得好的学生学得更好：关于预训练紧凑模型的重要性。arXiv预印本arXiv：1908.08962。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Jakukasz Kaiser，and Illia Polosukhin. 2017.注意力就是你所需要的。神经信息处理系统的进展，第5998埃琳娜·沃伊塔和伊凡·蒂托夫。2020.最小描述长度的信息论探测. 2020年自然语言处理经验方法会议（EMNLP）论文集，第183Alex Wang ， Amanpreet Singh ， Julian Michael ，Felix Hill，Omer Levy，and Samuel R Bowman.2018. Glue：用于自然语言理解的多任务基准测试和分析arXiv预印本arXiv：1804.07461。Thomas Wolf ， Lysandre Debut ， Victor Sanh ，Julien Chaumond ， Clement Delangue ， AnthonyMoi，Pier- ric Ciudad，Tim Rault，Remi Louf，MorganFuntow-icz ， JoeDavison ， SamShleifer，Patrick von Platen，Clara Ma，YacineJernite ， Julien Plu ， Canwen Xu ， Teven LeScao ， Sylvain Gugger ， Mariama Drame ，Quentin Lhoest ， and Alexander Rush. 2020.transans-formers：最先进的自然语言处理。在2020年自然语言处理中的Em-pesticide方法会议论文集：系统演示，第38-45页，在线。计算语言学协会。Atsuki Yamaguchi，George Chrysostomou，KaterinaMargatina，and Nikolaos Aletras. 2021.令人沮丧的简单的预训练替代掩蔽语言建模。arXiv预印本arXiv：2109.01819。Zhilin Yang ， Zihang Dai ， Yiming Yang ， JaimeCar- bonell，Russ R Salakhutdinov，and Quoc VLe.2019年。Xlnet：用于语言理解的广义自回归预训练。神经信息处理系统的进展，32。朱宇昆，瑞安·基罗斯，里奇·泽梅尔，鲁斯兰·萨拉胡特-迪诺夫，拉奎尔·乌尔塔松，安东尼奥·托拉尔巴和桑娅·费德勒。2015. 调整书籍和电影：通过看电影和阅读书籍来实现。在2015年IEEE计算机视觉国际上，第19+v：mala2277获取更多论文附录A超参数详细信息我们使用PyTorch（Paszkeet al. ，2019）和变形金刚库（Wolfet al. ，2020）。我们最多使用10个epoch用于基础和中等，15个epoch用于小型。我们还使用1 e-4的学习率进行MLM。5e-5表示BASEFirst Char、S+R和ASCII。5e-6表示基本随机。1 e-4用于小和中等第一个字符，ASCII和随机。我们还使用0.01的权重衰减，0.1的注意力丢失，10000个热身步骤。我们还使用1 e-8 Adamβ 1，0.9 Adamβ1和0.999 Adamβ2。B每个探测任务表5到表13显示了所有模型架构和层的九个探测任务的全部结果。+v：mala2277获取更多论文SentLenLayerBASE-50万步预训练MLM S+R首字符ASCII随机1 95.4± 0.2 92.9± 0.4 90.7± 0.8 91.5± 0.3 92.6± 0.52 96.0± 0.2 92.9± 0.2 92.4± 0.4 91.7± 0.7 93.6± 0.33 95.3± 0.2 91.6± 0.6 92.9± 0.5 92.4± 1.7 94.4± 0.44 93.8± 1.2 92.2± 0.8 93.4± 1.3 92.9± 1.0 94.1± 0.65 93.9± 0.4 92.1± 0.6 93.7± 2.4 92.4± 0.5 93.8± 0.66 93.6± 0.5 92.4± 0.5 93.5± 1.7 92.1± 0.7 94.3± 0.47 92.6± 0.5 92.1± 0.8 93.1± 0.9 90.7± 1.4 94.4± 0.68 91.2± 0.5 91.7± 0.5 92.0± 1.6 89.9± 1.0 94.2± 1.09 89.0± 0.3 91.8± 0.4 90.9± 0.7 88.5± 1.6 95.0± 0.610 82.8± 0.7 91.1± 0.9 90.0± 0.9 86.7± 1.7 94.6± 0.111 79.4± 0.7 91.0± 0.4 88.6± 0.1 87.8± 0.5 94.4± 0.212 73.9± 0.3 90.1± 0.3 85.9± 0.1 86.4± 0.2 93.6± 0.492.3± 0.2 94.0± 0.5 93.3± 0.3 90.4± 0.5 92.3± 0.292.1± 0.2 94.0± 0.7 92.0± 0.6 89.2± 0.5 92.9± 0.291.7± 0.2 93.4± 0.7 91.4± 0.2 89.5± 0.5 92.2± 0.590.6± 0.3 92.7± 0.7 91.0± 0.2 89.7± 0.4 91.2± 0.789.3± 0.3 93.0± 0.6 90.1± 0.8 89.0± 0.5 88.7± 0.785.6± 0.2 92.0± 0.9 89.3± 0.5 86.1± 0.9 88.4± 0.770.5± 0.1 87.8± 1.4 84.9± 0.5 83.9± 0.5 83.2± 0.193.7± 0.4 93.8± 0.4 90.7± 0.4 88.7± 0.2 93.3± 1.191.7± 0.2 94.7± 0.8 89.7± 0.2 86.8± 0.5 90.1± 1.377.2± 0.3 93.0± 0.5 84.4± 0.5 85.5± 0.4 84.7± 0.3表5：预训练模型每层的句子长度（SentLen）探测任务的结果34567834层传销中等-25万步预训练S+ R首字符ASCII随机1291.8±0.588.4± 1.1 87.1± 0.8 86.6± 0.890.0±0.9个层传销小-25万步预培训S+ R首字符ASCII随机1292.9±0.390.3± 1.3 89.8± 1.1 89.9± 0.394.1±1.0+v：mala2277获取更多论文TreeDepthLayerBASE-50万步预训练MLM S+R首字符ASCII随机1 40.0± 0.6 36.6± 0.6 35.7± 0.2 36.1± 0.5 33.5± 0.72 41.2± 1.1 38.6± 0.9 37.7± 0.5 36.6± 0.3 35.9± 0.53 41.5± 0.6 40.0± 0.8 38.9± 0.6 37.1± 0.4 36.2± 0.44 40.3± 0.7 41.7± 0.6 39.4± 0.6 37.7± 0.9 36.9± 0.45 40.3± 1.1 44.2± 0.5 39.3± 0.3 38.4± 1.2 36.7± 0.56 40.9± 0.7 45.0± 0.3 40.6± 0.4 40.7± 0.5 36.5± 0.57 40.8± 0.8 44.9± 0.8 42.1± 0.6 42.4± 0.6 37.0± 0

下载后可阅读完整内容，剩余1页未读，立即下载