BERT模型下的主谓数一致性探究

124 浏览量更新于2023-11-30 收藏 476KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文伯特真的同意吗？句法任务中词汇依赖的细粒度分析Karim Lasri@，B Alessandro LenciB ThierryPoibeau@@Lattice（École Normale Supérieure-PSL，CNRS，U.（Sorbonne Nouvelle）比萨大学电子ens.psl.eu：ens.psl.euunipi.it摘要虽然基于transformer的神经语言模型在各种任务上表现出令人印象深刻的性能，但它们的泛化能力还没有得到很好的理解。他们已经被证明在广泛的设置中表现出强烈的主谓数一致性，这表明他们在训练过程中学会了跟踪句法依赖关系，即使没有明确的监督。本文考察BERT在目标句法模板上实现独立于词汇的主谓数一致的能力要做到这一点，我们破坏了词汇模式中发现的自然发生的刺激，每个目标结构在一个新的细粒度分析BERT我们的研究结果对nonce句子表明，该模型概括简单的模板，但未能执行词汇独立的句法概括时，只有一个吸引子。1介绍每个说英语的人都会认为（1a）-（1b）中的句子是合乎语法的，但不是（1c）-（1d）中的句子，尽管它们都是无意义的：(1)a.无色的绿色思想疯狂地沉睡着。b.无色的绿色想法，煮门疯狂地睡觉c.* 无色的绿色想法疯狂地睡觉。d.* 无色的绿色想法，做饭的门睡觉愤怒。至少从Chomsky（1957）开始，这样的数据被认为是自然语言语法包含抽象句法规则的证据，这些规则（i）独立于词汇项的含义，(ii)服从层次化的约束，而不是线性的约束。英语中同一从句的主语（提示语）和动词（目标语）之间的数字一致性（以下简称NA）就是这样的规则之一（Corbett，2003）。事实上，（1d）是不合语法的，尽管这个名词属于嵌入式关系从句。这些NA特性使其成为研究神经语言模型（NLM）学习抽象、抽象句法结构能力的首选测试平台之一（Linzen et al. ，2016; Gulordava et al. ，2018;Marvin and Linzen ， 2018; Goldberg ， 2019;Bacon and Regier ， 2019; Lakretzet al. ，2019）。尽管已证明循环和基于Transformer的NLM在任务中具有句法能力，但它们的性质尚未完全理解（Baroni，2019）。NLM真的可以执行词汇独立的数字协议，不管语法结构？为了回答这个问题，我们测试BERT（De-vlin et al. ，2019）对NA任务，同时控制两个句法结构和意义的刺激呈现给模型。我们的实验提供了两个主要发现。与先前的观察结果不同，BERT在Gulordava等人身上表现得相当好。的（ 2018 ） syn- tactically well-formed butmeaningless sentences（Goldberg，2019），我们证明了它的泛化能力在吸引子存在的句法结构上不是词汇独立的。尽管该模型先前已被证明忽略了属于独立于包含目标的嵌入式子句的吸引子（Goldberg，2019），但我们进一步提供了对这种词汇依赖性的见解，揭示了该模型能力的局限性我们的实验，而不是表明，该模型实际上是敏感的吸引子的存在时，语义和词汇模式在其输入的句子被打乱。2相关工作Linzen等人（2016）首先测试了LSTM语言模型解决NA任务的能力，并表明它们在有针对性的监督下捕获了语法敏感的依赖关系。随后的研究最接近的名词门（通常被称为at-拖拉机）与睡眠的数量相同，因为1与上文（1b）和（1d）相同arXiv：2204.06889v1 [cs.CL] 2022年4月+v：mala2277获取更多论文Gulordava等人（2018）的研究表明，LSTM即使在通过替换所用刺激中的词汇内容而获得的临时句上也能够成功，同时保持句法结构不变。这表明，NLM可以获得语法能力，超越有意义的词汇模式，他们已经看到在培训过程中的语言建模目标。Marvin和Linzen（2018）进一步测试了LSTM捕获有与以前的研究相反，他们表明LSTM在一些具有挑战性的句法结构上有相当大的改进空间Goldberg（2019）进一步测试了BERT，一种基于变换器的模型，针对 Linzen et al.（2016），Gulordava et al.（2018）和Marvinand Linzen（2018）的刺激。他发现BERT的性能大大优于之前测试过的LSTM语言模型。Newman等人（2021）最近通过扩展目标动词位置的词汇，测试了Marvin和Linzen他们表明，尽管NLM除了通过在句子的所有位置进行替换来测试有意义的效果，类似于Gulordava et al. （ 2018 ），我们还控制了Marvin和Linzen（2018）的句法结构：给定一个句法模板，BERT可以推广到任何句法结构良好但无意义的句子吗？如果不是，什么时候词汇内容重要？3一般设置3.1数字协议任务NA任务包括测试一个模型是否表现出对不破坏所选动词与其主语之间数字一致性的例如，当用句子（1b）和（1d）呈现BERT时，我们在目标位置屏蔽标记，并比较sleep和sleeps的输出概率。当模型为正确的目标表单分配更高的预测分数时，模型成功。3.2数据集我们测试BERT由表1中描述的句法模板控制的句子组成：a) M L.这是Marvin和Linzen（2018）发布的原始数据集，包含我们在本研究中使用的句法结构。我们用它来复制戈德堡这些句子被设计成使用有限但语义受控的词汇来尊重语义约束b) WIKI. 对于ML中的每个模板，我们从用于训练BERT的Wikidumps中收集了自然出现的句子，以测试模型是否在训练期间记忆的单词序列上表现得我们使用 WikiExtractor2 从Wikidumps中提取原始文本，并收集与ML中每个模板的POS标签序列相对应的单词序列。数据收集程序见A.1。c) NONCE。对于ML中的每个模板，我们生成了为了做到这一点，我们将句子中的每个单词替换为同一词汇类别的单词（如果适用，则替换为相同的数量），对每个POS标签使用一个大的单词集（见附录 A.4 ），类似于Gulordava et al. ’s (当一个名词介入在提示和目标之间时（例如，在来自表1的条件C中），系统地分配与提示不同的数字，以便测试吸引效果4。这些随机数句子是无意义的，因此它们违反了选择性限制，与M L相反。他们也不同于Gulordava等人。的（2018）刺激，因为我们还测试了句法结构的效果，每个模板都有单独的条件。这个数据集允许我们测试模型在多大程度上对nonce句子执行协议的能力取决于它们的句法结构。每套包含10000个句子，单数和复数的比例均衡，概率为50%。2https://github.com/attardi/wikiextractor3我们在https://github.com/karimlasri/does-bert-really-agree上发布此数据[4]这是指尽管在同意的线索和目标之间存在干扰名词，模型是否成功。+v：mala2277获取更多论文结构。ID结构描述例如一简单协议男孩笑/* 笑B在一个间接的补充中男孩知道女孩玩/* 玩C穿过介词短语玻璃杯旁边的盘子碎了D跨主语关系从句追老鼠的猫也跑E在一个简短的动词短语协调男孩笑了笑/* 笑F在宾语关系从句猫追的老鼠跑/* 跑G在宾语关系从句猫追的老鼠跑了H在宾语关系从句中（不，that）猫追的老鼠跑/* 跑我在宾语关系从句中（不包括that）猫追的老鼠跑了表1：本研究中使用的协议结构。这些结构摘自Marvin and Linzen（2018）。提示是蓝色的，目标是红色的。对于每个目标，我们显示正确和不正确的动词形式对。在结构C、D、E和H中，吸引子加下划线。4实验和结果4.1EXP. 1在这个实验中，我们测试了该模型在Marvin和Linzen（2018）的句法模板上成功完成NA任务是否为此，我们比较了NA任务的准确性ML和NONCE。我们还使用WIKI作为比较点，观察模型在训练过程中记住的句子上是否比在ML图 1 的结果表明，尽管 BERT 对 Marvin 和Linzen（2018）的所有刺激模板都非常稳健，但它在NONCE中的某些模板上失败了。当没有中间吸引子（A，E，G，I）时，即当线索和目标在同一子句内时，性能几乎没有降低。这表明，该模型可以解决NA任务的吸引子的情况下，即使有违反语义选择的限制。唯一的例外是当提示出现在一个连续的补语（B）。在没有补语that的情况下，模型可能会受到歧义的干扰，期望直接宾语名词（例如，这个男孩知道数学课。因此，我们测试了两个补充条件：一个是显性补语（B- 2），另一个是引入补语的动词被限制为状态动词（B-3）。结果证实了我们的假设：当补语使句子在句法上无歧义时，BERT成功地完成了NONCE的任务，这也表明该模型依赖于部分词汇化的语法在其他模板上，性能下降到接近NONCE的机会水平。这意味着BERT无法执行词汇独立的生成器。图1：BERT Base获得的保留结构的数字一致性任务的准确性。存在吸引子的模板以粗体显示。注意，条件B-2和B-3在原始ML刺激中不存在当目标和线索被包含吸引名词的分层嵌入短语分开时，有趣的是，该模型在WIKI上的表现往往比在ML上更好，这表明记忆的词汇模式除了有意义之外，还可以帮助解决任务。4.2EXP. 2.在这个实验中，我们测量了在WIKI上一次在模板中的一个位置替换单词时对性能的影响。我们的目标是了解观察到的性能下降是否+v：mala2277获取更多论文图2：一个词替换后NA任务的准确性每一列表示在x轴中显示的单词所示例的位置处进行干预后模型吸引者以粗体表示替换是在WIKI的句子上执行的。对于每个语法模板，WIKI（实线）和NONCE（虚线）上的性能表示为比较点。球杆在EXP。1是由于词汇内容填充特定的句法位置在我们的模板。特别是，我们希望了解是否大部分的效果是由于更换线索，目标，吸引子（如果存在）或在这三个类别中没有的图中的结果2表明，在没有吸引子（A，E，G，I）的句子中，一个词的替换导致低性能下降，与EXP的观察结果一致。1.当刺激包含一个包含吸引子的嵌入短语时，替换目标本身，以及接近目标动词的单词（在D，F和H中）可以显着损害性能。在具有吸引子的句子中，线索与目标的距离是线性我们观察到，替换吸引子替换对任务的影响也有限，如模板D和H所示。我们注意到一个普遍的趋势，即重新放置最接近的单词会导致更高的性能而不是替换更远的词，包括嵌入式从句中的动词这表明模型相反，我们的观察表明，该模型也是敏感的内容，句法独立的干预材料线性接近目标动词。5讨论之前的NA研究导致Baroni（2019）声称不可否认的是，BERT确实泛化了它的输入，并且能够在最简单的模板上执行NA当自然出现的词汇短语被句法上结构良好的短语取代时，+v：mala2277获取更多论文但无意义的组合，该模型此外，大多数中断是由替换嵌入短语中最接近目标的词引起的，原则上不应影响协议关系。这两个事实共同表明，BERT的一些此外，模型在其已被训练的数据上提高其性能的事实（即，WIKI数据集）而不是其他有意义的、看不见的句子（即，ML数据集）进一步证明，其所谓的泛化能力至少有一部分可能只是记忆的效果。我们可以推测，该模型依赖于在训练过程中获得的各种语法学来近似句法概括，与Fin-layson et al. （2021），他发现了两种不同的机制来实现基于Transformer的架构中的一致性。我们发现，这些概括因此可以倾向于高度词汇化，类似于Newman et al.（2021），他通过测试广泛的动词来证明概括不是系统的。当没有显性补语5时，BERT对主要动词的敏感性证实了这一点这表明该模型已经获得了关于动词次范畴化偏好的半词汇化句法信息虽然BERT例如，建构主义方法（HoffmanandTrous-dale，2013）长期以来一直反对脱离词汇意义的纯粹抽象语法，尽管（1）中的数据经常被声称证明了什么另一种观点认为，语法是由抽象程度和词汇化程度不同的构式组成的 BERT 最后，考虑到以前的实验（ Laurinavichyute 和 vonder Malsburg ，2022），我们可以推测人类也可以类似地表现出5比照.句子类型B不，由语义驱动的错误，或来自线性接近目标的单词的词汇干扰。虽然这种模式在语言模型和人类之间似乎有所不同（Linzen 和Leonard，2018），但这反过来又导致我们质疑我们对神经语言模型句法能力的期望6结论在本文中，我们已经表明，BERT的能力，解决无意义的句子NA任务强烈依赖于刺激的句法模板。虽然该模型能够在简单的设置中执行我们进一步提供了对这种词汇依赖的见解，表明该模型主要依赖于最接近协议目标位置的词汇内容，尽管它们属于一个独立的嵌入短语。在未来，我们希望更好地理解变形金刚句法能力的机制，特别是是什么使一些句法学参与解决句法任务的词汇依赖性。对词汇组合所起的影响进行更详细的分析将有助于我们理解模型用于解决涉及一个或多个吸引子的复杂NA情况的逻辑学的本质。此外，我们希望将BERT7确认这项工作部分由法国政府资助，由国家研究机构管理，作为“未来投资”计划的一部分引用杰夫·培根和特里·雷杰2019. 伯特同意吗？通过一致性关系评价结构依赖性知识。 ArXiv ，abs/1908.09892。马可·巴罗尼2019. 现代人工神经网络中的语言泛化与组合。Philosophical Transactions of the RoyalSociety B，375（1791）.诺姆·乔姆斯基1957. 句法结构。穆顿，海牙。+v：mala2277获取更多论文G.科比特2003.协议：条款和边界。在自然语言中协议的作用：TLS 5程序，第109Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Matthew Finlayson 、 Aaron Mueller 、 SebastianGehrmann、Stuart Shieber、Tal Linzen和YonatanBelinkov。2021. 神经语言模型中句法一致机制的因果分析。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议中，第1828-1843页，在线。计算语言学协会。约夫 · 金伯格 2019. 评估伯特 CoRR ，绝对值/1901.05287。Kristina Gulordava ， Piotr Bojanowski ， EdouardGrave，Tal Linzen，and Marco Baroni. 2018. 无色绿色循环网络分层梦想。在计算语言学协会北美分会2018年会议记录：人类语言技术，第1卷（长文），第1195-1205页，路易斯安那州新奥尔良。计算语言学协会。Thomas Hoffman和Graeme Trousdale，编辑。2013年。牛津构式语法手册。牛津大学出版社，牛津。YairLakretz ， GermanKruszewski ， TheoDesbordes，DieuwkeHupkes，StanislasDehaene，and Marco Barroni.2019. 数字和符号的出现，LSTM语言模型中的tax单位。在计算语言学协会北美分会2019年会议的进行中：人类语言技术，第1卷（长论文和短论文），第11计算语言学协会。安娜·劳琳娜维奇尤特和提图斯·冯·德·马尔堡。2022. 句子扩展中的语义吸引。 CognitiveScience，46（2）：e13086.TalLinzen ， EmmanuelDupoux ， andYoavGoldberg. 2016. 评估LSTM学习语法敏感依赖关系的能力。 Transactions of the Association forComputational Linguistics，4：521- 535.塔尔·林森和布莱恩·伦纳德。2018. 在循环网络和人类不同模式。CoRR，绝对值/1807.06882。丽贝卡·马文和塔尔·林森2018. 语言模型的有针对性的语法评估。2018年自然语言处理经验方法会议论文集，第1192-1202页，比利时布鲁塞尔。计算语言学协会。Benjamin Newman，Kai-Siang Ang，Julia Gong，and John Hewitt. 2021. 细化语言模型的目标句法评估。在计算语言学协会北美分会2021年会议的会议记录中：胡曼语言技术，第3710-计算语言学协会。+v：mala2277获取更多论文结构。ID结构描述例如一简单协议窗口失败/* 失败B在一个间接的补充中监狱坚持说意外发生/* 发生C穿过介词短语起源中的礼物反映/* 反映D跨主语关系从句识别卖家的激情绑定/* 绑定E在一个简短的动词短语协调辣椒掉下来拉/* 拉F在宾语关系从句旋律的轰炸/* 流G在宾语关系从句The rhyme that theeldersneed/*needs happensH在宾语关系从句中（不，that）法令笼检查发生/* 发生我在宾语关系从句中（不包括that）甲壳虫乐队引用的歌词/* 引用的分数表2：为每个测试结构随机挑选的生成句子的例子。A附录-数据收集A.1维基百科数据收集对于在1中描述的每一个结构，我们用它的词汇范畴序列来表示结构然后，我们从维基百科中提取与模式匹配的每个结构的单词序列为了做到这一点，我们线性地阅读维基百科，并存储与我们的结构匹配的自然出现的标记序列，基于我们用来生成NONCE句子的相同词汇，如A.4所述。A.2数据生成程序生成的句子是从描述每个结构的POS标签序列中构建的我们在序列的每个位置从我们的字典中随机挑选一个单词，如（Gulordava et al. ，2018）。当一个名词介入在提示和目标之间时（例如，在表1的条件C中），系统地分配与提示不同的数字，以便测试吸引效果6。我们选择只使用中性限定词和所有格，以避免名词和限定词的数字之间的冲突数据集包含10000个样本，对于Exp. 2，我们对每个替换重复实验10次以产生误差条。我们的数据是平衡的，这意味着每个数据集包含5000个单数和5000个复数。随机选取的示例如表2所示。A.3数据生成词汇收集和预处理名词和动词收集自Linzen et al.（2016）的数据集。由于NA任务设置需要查看掩蔽目标形式的预测分数，因此我们只保留BERT词汇表中与Goldberg（Goldberg，2019）类似，我们过滤出目标是动词 “be” 的现在形式的句子，我们的数据生成程序和词汇表可在https://github.com/karimlasri/does-bert-really-agree上公开获取。A.4使用的词汇限定词和所有格。“my”，“your”，“his”，“her”，“its”，“our”，“their”，“the”相对论/互补论。'that'名词我们使用了2636对名词，其中单数和复数形式都是BERT词汇表的一部分。动词。我们使用444动词对，其中单数和复数形式都存在于BERT的词汇表。条件B-3中的静态动词我们使用以下状态动词来表示（B-3）条件：（“believes”，“believe”），（“considered”，“considering”），（"doubt"，“doubt”），（"hears“，”hear“），（”knows“，"know'），（”realises“，”re-alise’),[6]这是指，尽管在一致性的线索和目标之间存在一个干扰名词，模型是否成功

下载后可阅读完整内容，剩余1页未读，立即下载