预训练语言模型中的逻辑推理与语义知识的编码

147 浏览量更新于2023-12-01 收藏 868KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文探索语言信息预训练语言模型中的逻辑推理高泽明罗斯-休曼理工{chenz16，gaoq}@ rose-hulman.edu摘要预先训练的语言模型的进展导致了自然语言理解下游任务的令人印象深刻的结果最近关于探测预训练语言模型的工作揭示了编码在其上下文表示中的广泛的语言属性。然而，目前还不清楚它们是否编码了对符号推理方法至关重要的语义知识我们提出了一种方法，用于在预训练的语言模型表示中探测逻辑推理的语言信息。我们的探测数据集涵盖了主要符号推理系统所需的语言现象列表。我们发现：（i）预先训练的语言模型确实编码了几种类型的语言信息用于推理，但也有一些类型的信息是弱编码的;（ii）语言模型可以通过微调有效地学习缺失的语言信息。总的来说，我们的发现为语言模型及其预训练过程捕获逻辑推理的语言信息的哪些方面提供了见解。此外，我们已经证明了语言模型1介绍在各种语言理解任务中，预先训练的语言模型已经取代了传统的基于符号的自然语言处理系统，这主要是因为基于符号的自然语言处理系统通常依赖于语言属性作为特征。这些特征很难获得。许多类型的语言信息要么是手写的规则，要么是从传统知识库中提取的背景知识另一方面，许多最近的探索研究表明，预先训练的语言模型的句子表示编码了大量的语言信息和背景知识（ Tenney et al.2019; Petroni et al. 2019;Bouraoui，Camacho-Collados，and Schockaert 2020）。然而，它仍然是未知的，如果这些表示也编码隐含的语言信息的推理关键的符号推理系统。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.图1：给定预先训练的语言模型，探测分类器为给定的探测任务提取语言信息。与基线词嵌入相比，通过探测精度和信息增益来衡量暗示的量。在本文中，我们提出了一个推理信息探测框架（图1）。我们定义了一组探测任务，专注于不同类型的语言信息所需的符号系统。特别是，我们涵盖了语法，基本语义和更高层次的语义推理的语言信息。更高层次的语义推理通常依赖于多种类型的基本语义。例如，基于关系知识的语义对齐需要回指解析、命名实体和词汇语义。我们有兴趣回答两个问题：（1）预先训练的语言模型是否编码了符号推理系统所必需的（2）在NLI任务的微调过程中，预先训练的语言模型是否获得了新的语言信息用于推理对于每个任务，我们在多个上下文语言模型上进行了探测实验，并将结果与几个强基线进行了比较。arXiv：2112.01753v1 [cs.CL] 2021年12+v：mala2255获取更多论文L{{L{{L}我们的分析表明，语言模型编码不同类型的语言信息进行推理。特别是，它们编码更多的信息，语法和基本语义比更高层次的语义推理和单音。我们的标签式定性分析表明，每个任务的语言模型编码的信息量在标签之间是不同的，这证明了我们的重要发现。此外，我们发现，预先训练的语言模型可以获得一些类型的缺失的语言信息，通过微调的NLI任务。总的来说，我们的研究结果表明，预先训练的语言模型可以成为支持符号推理系统的潜在语言知识库。贡献我们的贡献如下：1. 我们的工作扩展了先前的语言模型的探索研究，涵盖了语言信息的更多方面，包括句法，单调性，基本语义和更高层次的语义推理。2. 我们的实验允许分类器的表现力进行分析，在一个更复杂的设置，涵盖句法和语义的语言学特性超出以前的作品。3. 我们的研究为预训练语言模型在大型NLI数据集上进行微调这有助于NLI模型的可解释性。2相关工作最近的研究表明，语言的自我注意权重中编码了语言属性的存在（2020）提出了一种从预训练的语言模型中归纳关系的方法。他们首先在一个大型语料库中发现了表达关系的潜在句子。一个子集的句子被用作模板。然后他们微调一种语言模型，用于预测给定的词对是否形成某种关系。他们发现了强有力的证据，证明可以从语言模型中获得关系与现有的工作相比，我们将常见的句法和语义任务扩展到一系列专注于更复杂的语言现象的任务我们的一些任务，如语义图的建设和单调性极化，需要语法和语义信息。探索更复杂的语言任务使我们能够诊断语言模型相对于传统NLP系统的特殊优势它也使我们能够在一个更复杂的环境中研究探测分类器的表达能力。此外，我们对微调NLI语言模型的实验提供了对它们通过微调捕获的语言信息类型的见解3探索方法3.1边探测和顶点探测边缘探测是Tenney等人提出的一种简单而有用的探测框架。它可以跨不同的任务类型提供一组统一的度量和架构。从形式上讲，一个句子被定义为一个标记列表[t0，t1，t2，.，tn]和边tar得到为{s1，s2，Ls}1，其中s1模型的情境化表示。这些语言和s2是两个端部独占跨度，其中si=（i，j，si），并且属性包括句法结构、语义知识和一些世界知识（Rogers，Kovaleva，and Rumshisky 2020）。一些研究在不同语言模型的语境化表示之上训练和评估一个这些研究表明，预先训练的语言模型编码了一定程度的语法和语义知识。Hewitt和Manning（2019）通过学习转换矩阵从BERT的嵌入中恢复了语法依赖关系Tenney et al.（2019）与我们的工作更直接相关，提出了边缘探测框架，并发现上下文化嵌入基于探测分类器的高准确性编码有关命名实体类型，关系，语义角色和原型角色的信息。一些探索性研究集中在诱导预先训练的语言模型中捕获的事实知识。大多数研究依赖于模型的MaskedLanguage Modeling（MLM）组件，该组件可以很容易地进行调整以归纳知识，因为模型只需要填充空白。Petroni等人（2019）表明，预先训练的BERT编码的关系知识与使用传统NLP方法从知识库中访问的知识竞争他们还发现 BERT 在任何微调之前都有很强Bouraoui、Camacho-Collados和Schockaerts2=is2，js2）。是分配给分类器需要准确预测的跨度对的标签。的标签集在任务之间是不同的，包括二进制标签和多标签。每个句子[t0，t1，t2，...， Tn]被语言模型编码成上下文化的句子表示[e0，e1，e2，...，en]。将与自注意力池算子相关联的投影层应用于表示，以根据两个跨度的索引位置s1= is1，js1）和s2=is2，js2）。正如Tenney等人（2019）所提到的，池化是固定长度的，并且仅在span，以确保分类器只能从上下文句子表示中访问两个跨度表示被连接并传递到分类器以预测标签。为了确保我们只探测预先训练的语言模型而不修改其参数，我们冻结其参数以不允许梯度更新。顶点探测框架具有与边缘探测框架相同的设置和公式，除了顶点探测对句子中的每个标记进行操作。分类器仅接收单个跨度表示作为输入。形式上，该定义与序列标记任务的定义非常相似具有令牌列表[t0，t1，t2，...， tn]，我们将每个令牌定义为单个跨度目标s =（is，js），. 顶点探测用于预测哪些词属于标签集中的类别。+v：mala2255获取更多论文图2：表示句子语义知识的语义图一个穿着黑色制服的年轻高大的男孩试图在足球球门前抓住一个快速的足球。3.2分类器选择选择一个好的探测分类器是探测过程中必不可少的。我们首先选择线性分类器。根据 Hewitt 和 Liang（2019）的研究，线性分类器的表达能力较低，因此无法记住任务。然而，Pimentel等人。（2020）使用探测来估计表示值和语言属性值随机变量之间的互信息他们认为，应该使用最优的探针来最小化误解表征的编码信息的机会，从而实现对互信息的最优估计。为了减少误解的机会，我们使用具有一个隐藏层的多层感知器（MLP）分类器进行探测3.3基线选择我们选择了三个强基线进行比较，以确保探测精度可以是语言模型表示中用于推理的语言信息存在的良好度量。随机词嵌入编码没有语言结构，因为每个词都有一个随机嵌入。Zhang和Bowman（2018）发现，当随机基线的信息足以支持任务的良好性能时，有时探测分类器无法反映代表的差异Pimentel等人（2020）提出了探测的信息论操作化，其中探测的目标是估计语言属性和表示之间的互信息。他们声称将语言模型的互信息与传统的单词嵌入（如FastText）进行了比较。Hewitt和Liang（2019）认为，准确性不能完全验证表示对语言信息进行编码，因为高度表达的分类器可能已经学习了任务。他们建议使用随机目标作为控制任务，以补充探测。一个有洞察力的探测器应该具有高选择性（真实任务精度和控制任务精度之间的差异），这是由于高的真实任务精度和低的控制任务精度。3.4实验装置为了回答引言中的问题1和2，我们使用五个预先训练的语言模型进行了实验我们选择BERT-base和BERT-large （ Devlin et al.2019 ）、 RoBERTa- base 和RoBERTa-large（Liu et al.2019年），以及DeBERTa表1：该表显示了与探测任务列表相关联的每个数据集的详细信息。我们展示了训练和测试示例的数量，以及训练集和测试集被重铸的数据集。(He等人2021年）。所有五个模型都可以提供上下文化的句子表示，并且在GLUE上表现出令人印象深刻的性能（Wang et al.2018）基准。我们首先在每个探测任务上对五种语言模型进行线性分类器探测。我们在冻结语言模型参数的训练集上训练线性分类器。然后，我们评估测试集的准确性作为度量。我们将探测准确性与我们的基线进行比较，以确定语言模型是否对这些任务所需的推理的语言信息进行编码。为了最大限度地减少线性分类器误解语言模型信息的机会，我们还为每个任务进行MLP分类器探测。接下来，我们通过为每个任务分配随机标签来对控制任务进行实验。我们验证了每个探针具有高选择性，以确保准确性是一个有见地的度量，用于确定语言模型是否编码任务相关的信息。我们对每个任务进行了标签定性分析，以探索信息量是否在特定任务标签中被不同地编码。此外，我们使用信息理论探测框架进行实验，以验证语言模型和语言属性之间的互信息比基线嵌入更多。最后，为了确定语言模型是否可以学习缺失的语言信息进行推理，我们使用探测任务来评估在MultiNLI上微调的NLI模型（Williams，Nangia和Bowman 2018），这些探测任务不会从预先训练的模型中受益4推理信息探针在本节中，我们将介绍一系列边和顶点探测任务，用于探测预训练语言模型表示中符号推理方法的隐式语言信息为了发现可以为符号推理提供基本语言信息的潜在任务，我们研究了NLI的四个主要逻辑系统，所有这些系统在SICK（Marelli et al. 2014）上都具有很高的它们包括基于自然逻辑的 NLI 系统（ Abzianidze2020 ），单调性推理（Hu et al.2020; Chen ，Gao 和Moss 2021），以及定理任务拆分#S起源SemGraph列车10,000（Bowman et al. （2015年）测试5,000（Bowman et al. （2015年）ContraSig列车1,000（Marelli et al. 2014年度）测试500（Marelli et al. 2014年度）单调性火车5,000（Yanaka et al. 2019年度）测试500(Chen和Gao 2021）SA-Lex列车1,000（Glockner，Shwartz和Goldberg 2018）测试500（Glockner，Shwartz和Goldberg 2018）SA-ST列车1,000（Poliak et al. 2018年）测试600（Poliak et al. 2018年）SA-AP列车500（Rudinger et al. 2018年）测试220（Rudinger et al. 2018年）SA-RK列车1,000（Poliak et al. 2018年）测试500（Poliak et al. 2018年）+v：mala2255获取更多论文联系我们词汇（SA-P：The [man] s1 拿着萨克斯管S2H：这个人拿着一个[乐器]。情绪（SA-当被问到关于餐厅的问题时，Brielle说：“[这是可怕的！S1[我发现这个产品太大了]s2H：Brielle（不喜欢这家餐厅）矛盾签名顶点探测P：意大利和德国[各]t1[两次]t3[两次]t4，（对阵）他们[H：意大利[击败]t9[德国]t10任务探测类型示例（s1，s3）−→未对齐;（s2，s3）−→对齐回指边缘探测[技术人员] s1告诉[客户] s2 他（她）3 可以用现金支付。（SA-AP）（s1，s3）−→未对齐;（s2，s3）−→对齐（s1，s3）−→对齐;（s2，s3）−→未对齐知识顶点探测P：[德克] t1[诺维茨基] t2[是] t3[a] t4[目前] t5[NBA] t6[明星] t7 玩（SA-RK）[达拉斯] t8 [小牛] t9 [as] t10 [an] t11 [通用]t12[转发]t13H：[德克]14[诺维茨基]15[出场]16[在]17[在]18[NBA]19不t t t t t t{t1，. . . ，t7} −→对齐1;{t8，. . . ，t13} −→未对齐;{t14，. . . ，t19} −→对齐2{t1，. . . ，t4} −→无1;{t5，. . . ，t8} −→逆信号1;{t9，t10} −→逆信号2表2：该表列出了语义对齐任务和矛盾签名检测任务的示例。红色框是语义对齐的跨度。黄色框是形成矛盾签名的跨度。蓝色框是与语义对齐或矛盾无关的跨度。这里P代表一个前提，H代表一个假设。基于照应词的对齐仅使用单个句子。对于标签，（s1，s3）对齐意味着s1和s3对齐。 t1，. . . ，t7对齐1意味着标记t1到t7属于语义对齐对中的第一个短语。证明（Yanaka et al. 2018年）。4.1语义图构建（SemGraph）这项任务探索了基于图形的句子抽象意义任务是构建一个语义图，捕捉句子中概念，修饰语和关系之间的关系是构成连接的词概念是由关系（如对象和子对象）连接起来的对象。每一个概念都与一组修饰语相连，一个示例语义图如图2所示。我们将其定义为边缘探测任务，并为一对令牌分配标签。从标签集合中选择标签：概念到关系、概念到修饰符、关系到概念、关系到修饰符、关系到关系、修饰符到关系、修饰符到概念。为了构建数据集，我们使用依赖分析和语义角色标记工具来识别句子中的概念，修饰语和关系以及它们之间的连接。我们从SNLI测试集中选择前提作为我们的输入，并将它们分为训练集和测试集。4.2语义对齐这组任务探测语言信息，用于涉及语义对齐的短语或单词对的推断。这些对齐的对通常可以作为蕴涵金标签的解释（ Abzianidze 2020; Chen ， Gao 和 Moss2021）。我们涵盖了基本的和先进的se-mantic对齐。基本的语义对齐需要基本语义学，如词汇语义学和回指解析。高级语义对齐需要更高层次的语义推理，而语义推理也依赖于基础语义.在这里，词汇（SA-Lex）和回指（SA-AP）是基本的语义对齐类型;情感（SA-ST）和关系知识（SA-RK）是高级语义对齐类型表2列出了每种语义对齐类型及其相关示例。探测数据首先从NLU的多个挑战数据集收集，然后手动注释边缘和顶点探测框架。对于情感任务，我们注意到对齐的短语总是一个人所说的一部分，导致模型通过记忆快速解决任务。为了避免这种情况，我们将每个前提与来自另一个随机选择的前提的语音片段连接起来，以构建更复杂的前提。例如，在表2的例子中，我发现这个产品太大了，是另一个前提样本的语音片段。我们制定每一个任务，无论是边缘探测或顶点探测任务在注释。对于边缘探测任务，我们将Aligned或Unaligned分配给一对跨距。例如，在表2中的情感示例中，（s1：[太可怕了！]，s3：[不喜欢]）对齐，和（s2：[我发现这个产品太大了]，s3：[不喜欢]）不结盟。在顶点探测任务中，我们标记一个标记，作为对齐1（标记属于第一个短语对齐2（标记属于对齐对的第二个短语）或未对齐（to- ken不在任何对齐的短语中）。例如，在表2中的关系知识示例中，{Dirk，Nowitski，is，a，current，NBA，star}是对齐对的第一个短语中的记号，{Dirk，Nowitski，plays，in，the，NBA}是+v：mala2255获取更多论文}{--}↑↓我们的优势模型SemGraph ContrasSig单调性SA-Lex SA-ST SA-AP SA-RK第1组：基线（直接探测，无微调）随机68.529.748.845.546.848.945.7Word2Vec68.842.443.459.731.432.342.3手套71.340.241.360.633.435.850.5fastText69.431.751.950.151.351.352.2第二组：语言模型（线性类手指探测，不微调选择性是sho 括号中的wn （esis）BERT-基础91.8（42.0）58.5（35.1）BERT-大型88.9（39.5）51.6（37.9）48.5（35.8）44.9（37.4）56.3（34.7）51.2（33.1）49.8（0.1）50.2（0.1）62.8（50.3）62.1（49.5）RoBERTa-基础88.9（39.2）52.2（33.0）42.8（42.3）47.5（38.6）49.4（0.6）62.3（49.7）罗伯塔-大型89.6（40.0）48.4（27.6）38.1（43.0）66.2（16.2）46.1（36.6）49.8（0.3）62.9（50.1）德贝塔93.4（43.7）78.5（32.3）54.9（42.2）83.8（33.2）42.8（35.7）51.8（2.3）65.6（52.8）第3组：语言模型（MLP分类器探测，无微调;选择性在括号中显示BERT-基础90.7（40.7）91.6（31.7）58.1（41.3）89.0（38.8）67.1（34.3）61.5（17.6）70.9（54.7）BERT-大型89.3（38.0）91.0（33.0）57.4（34.6）88.8（38.4）67.4（35.5）77.6（31.3）69.0（53.1）RoBERTa-基础91.5（39.5）92.5（27.8）50.1（49.1）87.2（36.6）66.1（37.3）87.0（38.6）70.9（52.9）RoBERTA-大号90.1（40.6）91.9（35.5）55.4（46.8）88.9（37.2）65.7（38.2）88.6（39.3）70.2（49.1）德贝塔92.3（42.2）92.9（32.5）65.7（58.6）91.0（41.5）63.0（36.9）85.2（37.3）72.9（58.2）表3：该表列出了探测和微调实验的结果。我们将来自两个基线的探测精度（%）包括在第1组中。组2和组3示出了线性分类器（组2）和MLP分类器（组3）的探测准确度（%）对于每个探针，我们还记录了来自对照任务的选择性得分（%）。对齐对的第二个短语中的标记，以及 Dallas ，Mavericks，as，an，all-purpose，forward与- kens不对齐。我们将基本语义对齐（词汇和回指）作为边缘探测任务，将高级语义对齐（情感和关系知识）作为顶点探测任务。一般来说，顶点探测比边探测更能测试更高层次的语义推理，因为模型需要通过对句子中的每个标记进行分类来定位对齐的跨度对，而无需事先知道对齐跨度的位置。4.3矛盾签名（矛盾签名）能够推理一对句子之间的矛盾是自然语言推理的基本要求为了确定矛盾关系，系统通常依赖于矛盾签名，或句子对中可能的矛盾关系。对语法和基本语义的矛盾签名检测测试我们将此任务定义为顶点探测并手动注释一个数据集，用于通过将矛盾签名的第一个短语中的标记标记为Contra-sig1，将矛盾签名的第二个短语中的标记标记为Contra-sig2，并将不相关的标记标记为None来检测文本中的矛盾（Marelli et al. 2014）。表2示出了一个示例，其中have，each，played，twice作为不相关的令牌defeats，Germany作为矛盾签名的第一短语中的令牌，并且4.4单调性极化（单调性）单调性信息支持NLI系统可以使用的基于单词替换的逻辑推理。为对于每个标记，我们分配一个单调性标记，该标记可以是Monotone（）、Antitone（）或None（=）。为了构建我们的数据集，我们使用称为Udep2Mono的单调性注释工具（Chen和Gao 2021）注释了MED数据集中所有句子的单调性信息（Yanaka et al. 2019）作为训练示例。为了测试，我们扩展了一个具有挑战性的金标单调性数据集由Udep2Mono使用，包括来自不同量词和逻辑运算符的多个层次的单调性变化。对于每个句子，我们重复十个句子，遵循相同的句法格式。顶点探测用于单调性极化，因为模型必须预测每个令牌5实验结果和发现5.1LM是否对信息进行编码以进行推理？在这里，我们评估预训练的语言模型编码语言属性的隐式信息的程度，这对逻辑推理系统至关重要。我们对五个预先训练的语言模型进行了探索。表3显示了探测实验的结果。使用线性分类器，所有语言模型都可以实现比基线更高的探测精度总之，具有高选择性，这是强有力的证据，表明这些模型表示中的信息有趣的是，MLP分类器并没有显著改善线性分类器，这表明信息很容易解释。这里的性能与语言模型在依赖解析、语义角色标记和词性标记（Tenney et al. 2019）方面的良好性能一致，这些都语义对齐我们观察到，基本语义对齐（词汇和回指）比需要更高层次语义推理的高级语义对齐从语言模型中受益更多对于基本的语义对齐，语言模型显示出高探测准确性，在使用MLP分类器时，该准确性在基线上显著提高。这是语言模型编码这两种类型的语言信息的证据因为它们也显示出高选择性。当使用线性分类器时，语言模型并没有超过基线，这表明这些类型+v：mala2255获取更多论文模型SemGraph合同签名单调性SA-Lex BERT-基线0.10（6%）1.16（65%）0.82（58%） 1.16（116%）BERT-大型0.08（5%）1.15（64%） 0.8（56%）1.14（114%）RoBERTa-基础0.10（6%）1.16（65%） 0.85（60%）1.14（114%）RoberTa-大号0.09（5%）1.14（64%） 0.9（63%）1.15（115%）DeBERTa0.11（7%）1.16（65%） 0.78（55%）1.16（116%）SA-STSA-APSA-RK平均BERT-基准0.39（39%） 1.07（54%）0.74（80%） 0.78（59%）BERT-大型0.41（41%） 1.02（51%） 0.74（80%）0.76（59%）RoBERTa-基础0.74（74%） 1.04（52%） 0.80（86%）0.83（65%）RoberTa-大号0.62（62%）1.05（53%）0.78（84%） 0.82（64%）DeBERTa0.67（67%） 1.02（51%） 0.67（72%）0.79（62%）表4：信息理论探测的结果。在这里，我们展示了每个语言模型共享的额外信息量，与最佳基线单词嵌入一致。信息增益的百分比列在括号中.可能很难解释。对于需要高级语义推理的高级语义对齐（SA-ST、SA-RK），语言模型仅在基线上略有改进。不显著的改进表明，这些表示微弱地捕获关于情感和关系知识的高级语义对齐的信息。这与Tenney etal.SA-RKSA-AP单调性合同签名SemGraphSA-Lex（2019）矛盾签名和单调性对于矛盾签名检测任务，除了De-BERTa具有相对较高的准确率（78.5%）之外，所有语言模型都表现出与线性分类器的较差性能，验证了DeBERTa比其他四个模型更容易获得关于矛盾签名的信息。使用MLP分类器后，所有模型的准确率都有显著提高（90%以上），同时保持了很高的我们认为这部分是因为许多矛盾是简单的形态否定和反义词，这在很大程度上可以通过使用词汇语义和句法来检测因此，高准确性是语言模型确实编码了大量关于句法和词汇语义的信息的有力证据。对于单调极化任务，语言模型显示出低精度与线性分类器和MLP分类器。这表明，这些语言模型可能没有编码太多的单调性信息，可以支持极化。5.2标签定性分析为了进一步了解预先训练的语言模型捕获的语言信息量，我们分析了每个任务的标签探测质量。每个任务的标签准确度见图3。我们首先观察到，在具有句法和基本语义信息的任务（ Sem- Graph 、SA-Lex 、 SA-AP、ContraSig）上，语言模型在标签上显示出高且平衡的准确性。这些行为有力地证明了这些模型在词汇和回指的句法和基本语义上编码了丰富的信息。在语义图构建任务上，不同模型的准确率分布是相似的。修饰语-关系（m-r）和修饰语-概念（m-c）的相对较低的准确性表明，在支持修饰语-概念链接的语言模型图3：这里的图显示了每个推理信息探测任务的跨模型的标签准确性。LM 1 -5代表五种语言模型（BERT-base，BERT-large，RoBERTa-base，RoBERTa-large，DeBERTa）。字被修改。语言模型似乎编码的信息连接的概念，相应的话，因为准确性是一贯高。对于高级语义对齐（SA-ST，SA-RK），热图显示出高度不平衡的标签准确性。该模型对对齐对假设中的词比前提中的词具有更高的准确性，前提具有更复杂的上下文。由于顶点探测需要定位有助于蕴涵的前提中的短语，因此预测前提中的跨度位置的低准确度表明语言模型仅编码关于复杂语义现象的非常少的语言信息。对于单张性偏振，每个标签的准确度非常不同。在不同的语言模型中，单调极性的准确率高于反调和中性极性。这与其他关于单调性推理的探索性研究的结果是一致的。（Yanaka et al. 2019; Geiger ，Richardson和Potts 2020）。5.3讨论信息理论探测我们对信息理论探测进行了额外的实验，以验证我们基于探测准确性的发现。主要方法是估计语言模型和任务的语言属性之间的互信息，然后将其与基线词嵌入进行比较。我们想评估一个语言模型编码的额外信息量我们遵循Pimentel等人的实践。（2020）我们将每个语言模型与81 7968737662516450583727313733SA-ST17 1.3 6.6 0.8092878591 7511 1.2 3.3 0.80000.70072575856 5385858484 888675 7884 888286 866758898891 8965C-R 95939594 95C-M 94939494 96R-C 94929595 95R-M 7471747178r-r95939593 95m-c7671747278m-r8584848087∅α2α1=↓↑∅α∅⊥2⊥ 1 α2α 1∅∅⊥2⊥1α757959727847 44524863248.9 10 9.72791878987 9087869088889494959696+v：mala2255获取更多论文模型单调性SA-ST SA-RKBERT-base 60.9（▲2.8）79.8（▲12.7）81.4（▲14.2）BERT-大型60.2（▲2.8）77.6（▲10.2）80.5（▲14.6）RoBERTa-基础59.4（▲9.3）78.0（▲11.9）88.0（▲22.7）RoberTa-大号58.0（▲2.6）76.1（▲10.4）89.7（▲27.7）DeBERTA68.7（▲ 3.0） 78.9（▲14.9）89.6（▲ 19.1）表5：微调的NLI模型在探测任务上的探测准确度（%），这些探测任务没有从预先训练的模型中受益。最佳基线嵌入。如表4所示，预训练的语言模型平均编码了八个探测任务中超过50%的额外信息。总的来说，在所有任务中，预训练的语言模型编码的信息比基线嵌入一致。其中，语言模型的信息增益最高的是词汇对齐（超过100%的增长）。这是令人惊讶的，因为基线词嵌入是词语义的表示。我们假设这是由于在嵌入空间中相互矛盾的单词的接近。基于结果，我们得出结论，预训练的语言模型编码的逻辑推理的语言信息比传统的词嵌入显著更多。分类器表达性我们的一些研究结果反驳了Hewitt和Liang（2019）关于分类器表达性的几个陈述。首先，他们声称应该选择一个表达性较低的分类器而不是一个表达性较高的分类器（线性的而不是MLP的），因为前一个分类器具有更高的选择性。然而，基于准确性，我们观察到线性分类器对于面向语义的任务具有比MLP分类器更差的性能我们还发现，MLP分类器可以实现类似的选择性作为线性分类器，这些任务，同时实现更高的准确性。这些发现表明，线性分类器可能会错误地解释表征中的语义信息，这支持了Pimentelet al.（2020）其次，他们声称，具有足够表现力的探测类器可以在具有足够训练示例的无损表示之上学习任何任务然而，我们发现，即使是像MLP这样的高表达分类器在单调性和更高层次的语义推理任务上也表现不佳。5.4LMs可以学习缺失的信息吗？在这里，我们评估预训练的语言模型是否可以通过对NLI任务进行微调来获得用于推理的语言信息，这些信息从其预训练的表示中我们为每个语言模型选择在MultiNLI数据集上微调的版本。我们针对三个没有从预先训练的语言模型中受益的任务探索了这些我们的探测结果如表5所示，我们只记录性能最好的探测。我们观察到，所有语言模型相比之下，它们没有提高单调性极化（Monotonicity）的性能。结果显示，语言模型可以捕获关于某些类型的语义推理的语言信息，但不能捕获关于单调性的语言信息。可能的原因是这些模型在微调时无法获得单调性信息，或者MultiNLI的训练数据没有包含足够的关于单调性的示例。6结论和今后的工作我们提出了一个系统的研究，以确定是否预先训练的语言模型编码隐含的语言信息的符号推理方法的必要。对于每个探测任务，我们构建了关联数据集。然后，我们对每个任务使用线性和MLP分类器一般来说，我们发现语言模型的语境化表征编码了一些用于推断的语言信息。它们更多地在句法和基本语义上编码信息，而不是在更高层次的语义推理和单调性上编码信息。这些发现证实了Tenney et al.（2019）此外，我们发现，线性分类器可以正确地预测下的句法信息，但往往误解的语义信息，导致低分类精度。我们的标签方面的定性分析发现，被编码的语言信息的量是不同的任务特定的标签。特别是，语言模型编码更多的语言信息的一个标签比其他标签。这种标签信息差异再次证明了语言模型中用于推理的某些语言信息此外，我们发现，语言模型可以有效地学习一些类型的缺失信息的更高层次的语义推理，通过微调的NLI任务。总体而言，语言模型显示出作为支持更强大的符号推理的语言信息的知识库的潜力。我们相信，我们的探测和分析提供了一个对等的图片是否存在于预先训练的语言模型中的关键语言信息的推理。此外，我们的探索可以启发未来的系统结合神经和符号NLP方法。在未来的工作中，可以通过构建更详细的探测数据集来对语言模型中的每种语言信息进行进一步的分析。人们还可以设计逻辑系统，它可以从预先训练的语言模型中获取语言信息，并将其应用于推理过程，以提高大型基准测试的性能。7致谢我们感谢匿名评论者的周到评论和建设性反馈。也感谢我们的广告策划人劳伦斯·S.感谢Moss和MichaelWollowski对本书早期草稿的有益反馈。特别感谢纽约大学的机器学习语言小组，感谢他们出色的NLP工具包JIANT。+v：mala2255获取更多论文引用阿布齐亚尼泽湖2020.学习即溯因：用于自然语言推理的可训练自然逻辑定理证明器。第九届词汇和计算语义学联合会议论文集，20-31。巴塞罗那，西班牙（在线）：计算语言学协会。Bouraoui，Z.; Camacho-Collados，J.;和Schockaert，S.2020.从BERT中引入关系知识。AAAI人工智能会议主席，34（05）：7456Bowman，S.的R.; Angeli，G.; Potts，C.; Manning，C.D. 2015.一个用于学习自然语言推理的大型注释语料库。2015年自然语言处理经验方法会议论文集，632-642。葡萄牙里斯本：计算语言学协会。陈志;和Gao，Q. 2021. 基于泛依赖树的单调性标记第14届国际计算语义学会议论文集（IWCS），121格罗宁根，荷兰（在线）：计算语言学协会。陈志;高，Q.;和Moss，L. S. 2021. NeuralLog：自然语言推理与联合神经和逻辑推理。在 *SEM 2021会议记录：第十届词汇和计算语义学，7888.在线：计算语言学协会。Devlin，J.;张，M.-W的; 李，K.;和Toutanova，K.2019年。 BERT ： Deep Bidirectional Transformers forLanguage Understanding的预训练。在计算语言学协会北美分会2019年会议的会议记录中：人类语言技术，第1卷（长论文和短论文），4171-4186。明尼阿波利斯，明尼苏达州：计算语言学协会.Geiger，A.; Richardson，K.;和Potts，C. 2020.神经自然语言推理模型部分嵌入了词汇蕴涵和否定理论。在第三届BlackboxNLP研讨会上分析和解释NLP的神经网络，163在线：计算语言学协会。Glockner，M.;Shwartz，V.;Goldberg，Y.2018年用需要简单词汇推理的句子打破NLI系统。在计算语言学协会第56届年会的会议记录（卷2：短论文），650-655。墨尔本，澳大利亚：计算语言学协会。他，P.;刘，X.;高，J.; Chen，W. 2021. DE-BERTA：基于DISEN的增强BERT解码纠结的注意力。在国际学习代表上。Hewitt，J.;和Liang，P. 2019。设计和解释具有控制任务的探针。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议记录中，2733中国香港：计算语言学协会Hewitt，J.; Manning，C. D. 2019.一个结构探测器，用于在单词表示中发现重复。在计算语言学协会北美分会2019年会议的进行中：人类语言技术，第1卷（长论文和短论文），4129-4138。Minneapolis，Minnesota：Association for Computational Linguistics.Hu，H.;陈，Q;Richardson，K.;Mukherjee，A.;莫斯L. S.的;和Kuebler，S. 2020. MonaLog：一个基于单调性的轻量级自然语言推理在Proceedings of the Societyfor Computation in Linguistics 2020 ， 334New York ，New York：Association for Computational Linguistics.Kingma，D. P的;和Ba，J. 2015。亚当：一种随机优化方法。CoRR，绝对值/1412.6980。刘玉; Ott，M.; Goyal，N.;杜，J.; Joshi，M.; Chen，D.;Levy ， O.; Lewis ， M.; Zettlemoyer ， L.; Stoyan

下载后可阅读完整内容，剩余1页未读，立即下载