没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文预先训练的TransformersDamaiDai<$,YaruHao,Yaru Ha o,ZhifangSui<$,FuruWei北京大学微软研究院{daidamai,szf}@ pku.edu.cn{lidong1,v-yhao,fuwei}@ microsoft.com摘要大规模的预训练语言模型在回忆训练语料库 中 呈 现 的 事 实 知 识 方 面 出 奇 的 好( Petroniet al. , 2019; Jiang et al. , 2020b)。本文通过引入知识神经元的概念,探讨 了 内 隐 知 识 是 如 何 存 储 在 预 训 练 的Transformer中的。给定一个关系事实,我们提出了一个知识属性的方法来识别神经元表达的事实。我们提出,这种知识神经元的激活与其相应事实的表达高度相关。此外,即使没有微调,我们也可以利用知识神经元来明确地编辑(例如更新和删除)预先训练的Transformers的特定事实知识。1介绍大规模预先训练的变形金刚(Devlin et al. ,2019; Liu et al. ,2019; Dong et al. ,2019年;克拉克等人,2020; Bao et al. ,2020年)通常是在大规模语料库(如维基百科)上学习语言建模目标预先训练的语言模型通过预测文本自然地充当自由文本知识库(Bosselut et al. ,2019)。Petroni等人 (2019)和Jiang et al.(2020 b)通过填空式完形填空查询来探测存储在预训练的语言模型中的事实知识。测试结果表明,经过预训练的变形金刚具有很强的回忆事实知识的能力Roberts et al.(2020)使用封闭式问题回答来表明,模型越大,它可以存储的知识就越然而,大多数以前的工作集中在评估文本形式的知识预测的整体准确性在本文中,我们的目标是深入研究预训练的变形金刚,并研究事实知识是如何存储的。在微软研究院实习期间做出的贡献。与李东和魏福如的通信。事实性知识Q227(阿塞拜P36资本…Q9248(巴库)前馈网络归因知识神经元自我注意层…图1:我们的目标是通过知识归因识别与关系事实相关的知识神经元如图1所示,我们提出了一种知识归属方法来识别表达事实的神经元,其中这些神经元被命名为知识神经元。给定一个关系事实,该算法计算每个神经元对知识预测的贡献。具体而言,我们认为前馈网络(即,两层感知器)模块作为Transformer中的知识备忘录(Geva etal. ,2020),而自我注意模块在令牌之间起消息传递的作用(Hao et al. ,2021年)。对于图1中的示例,隐藏状态被馈送到前馈网络中并激活知识神经元。然后,第二线性层输出对应的记忆向量。 key-value-arXiv:2104.08696v1[cs.CL] 2021年4月+v:mala2277获取更多论文∈H.Σ··√⟨⟩h hh记忆性质(Geva et al. ,2020)启发我们研究前馈网络中有助于存储事实的知识神经元。广泛的分析表明,识别出的知识神经元高度相关令XRn×d表示输入矩阵,自注意头部和FFN可以公式化如下:Qh=XWQ,Kh=XWK,Vh=XWV,(1)hh h对知识表示的有效性进行了验证,证明了所提出的知识归属方法的有效性。首先,抑制和放大知识神经元可以控制相应知识的表达,而不影响其他事实。其次,我们发现,知识探测提示往往会激活特定事实的知识神经元第三,给定一个关系事实的知识神经元,从开放域文本中提取的最上面的激活提示通常表达相应的事实,而最下面的激活文本描述其他信息。此外,我们描述了如何利用知识边缘神经元显式地编辑变形金刚中的事实知识,而无需任何微调。我们提出了两个有前途的案例研究,即,知识更新和知识擦除。在识别出一个事实的知识神经元后,我们直接修改前馈网络中相应的参数。在预先训练的变形金刚中,这种知识手术使我们能够更新不正确的知识,并删除不道德的知识(如隐私信息)。我们的贡献总结如下:• 我们引入了知识神经元的概念,并提出了一种知识归属方法来识别表达特定事实知识的神经元。• 我们进行定性和定量分析,以表明知识神经元高度相关的知识表达在预先训练的变压器。• 我们提出了如何明确地编辑(如更新,擦除)事实知识的trans-formers,即使没有任何微调。2背景:TransformerTransformer(Vaswani et al. ,2017)是NLP中最流行和最有效的架构之一。Transformer编码器通常堆叠有L个Transformer块。在本节中,我们将介绍组成Transformer块的两个主要组件:多头自注意层和由两个前馈层组成的前馈网络(FFN)。Self-Att(X)= softmaxQh KT Vh,(2)FFN(H)=f(HW1)W2,(3)其中WQ、WK、WV、W1、W2是参数矩阵。H是最终的注意力输出,通过将所有注意力头部连接并投影通过线性层来给出。f表示激活函数 , 诸 如 ReLU ( Glorot et al. , 2011 ) 或GELU(Hendrycks and Gimpel,2016)。为了简单起见,我们省略了比例因子1在自我-DK注意层和所有偏见术语。比较等式2和等式3,我们可以很容易地发现FFN()和Self-Att()的形式非常相似,除了激活函数f。基于这一发现,将FFN视为键值存储库是合理的,其中其两个前馈层分别用作键和值。3事实知识受 Geva et al. ( 2020 ) 的 启 发 , 我 们 将Transformer中的FFN视为键值存储器,其中第一层作为键,第二层作为值,每个键值对形成一个存储槽。图2示出了该分析的图示。基于这个类比,我们假设事实知识储存在FFN记忆中,并由相应的中间神经元表达,我们称之为知识神经元。在本节中,为了定位事实知识,我们提出了一种知识属性方法和一种提炼策略来识别知识神经元。3.1知识评估任务首先,我们介绍了知识评估任务,并在此基础上提出了知识归属方法。根据Petroni et al.(2019),每个关系事实都是三元组h,r,t的形式,其中h是头实体,t是尾实体,r是它们之间的关系。给定一个三元组,知识评估任务需要一个预训练的模型来回答完形填空式查询x,该查询x表示关系事实,但将尾部实体留空。例如,考虑到三重字母“阿塞拜疆,首都巴库”,+v:mala2277获取更多论文(l)(l)我我我我我我我我X我我我我这是黄金答案。 w(l)表示我M我Mw(l)我我(l)我L ×图2:FFN如何作为键值存储器工作的说明。第一前馈层FF(key)用作密钥并通过内积计算中间神经元将这些神经元的激活作为权重,第二前馈层FF(val)作为值,并通过加权和计算FFN输出。我们假设事实知识储存在FFN记忆中,并由相关的知识神经元表达一个可能的完形填空式查询是“Azer-baijan的首都是“. 我们也将这种完形填空式的查询称为知识探测提示。通过比较模型预测和黄金答案,我们可以-通过对动态变化的梯度进行积分,该神经元对最终输出的贡献:判断模型是否知道关系事实。在本文中,我们的目标不是评估预训练模型的输出,而是进一步识别1Attr(wi)=wi α=0Px(αw(l))w(l)dα,(5)模型内的知识神经元与事实知识相关。3.2知识归因在本节中,我们提出了一个知识属性-其中w(l)表示由预训练模型计算的w(l)的原始值αwi的计算w(l)计算模型输出相对于w(l)的梯度。归因得分Attr(w(l))反映了识别知识神经元的方法,我(l)对知识表达的贡献最大。受Hao et al.启发(2021),我们设计了基于综合梯度的知识归属方法(Sundararajan et al. ,2017)来评估FFN中的每个特定中间神经元1对最终输出的真实贡献。给定一个输入提示x,我们将模型输出Px(w(l))定义为预训练模型输出黄金答案的概率P(w(l))=p(y|x,w(l)=w(l)),(4)w i的贡献 到最终输出。我们可以直观地理解知识在-k方法如下:当α从0变化到1时,通过对梯度进行积分,Attr(w(l))可以累积最终出局的概率变化由w(l)的变化引起的Put。因此,归因得分可以测量最终输出对单个神经元w( l )的敏感度。由于直接计算连续积分是不实际的,我们采用Riemman近似为了有效地计算离散近似:(l)我我w(l)mPx(kw(l))第i个FFN中的第i个中间神经元的模型将x作为输入,w(l)固定为w∈(l),a近似步骤的数量,也就是em-设置为20。我我给定常数。 通过逐渐改变w(l),0到它的原始值w(l),我们可以计算出1由于我们的目标是预测提示中的空白,在本文的其余部分,所有提到的中间神经元都是指默认情况下对应于掩蔽标记的那些神经元。利用知识属性方法,给定一个关系事实和一个提示,我们可以粗略地将事实知识定位到属性分数大于给定阈值t的神经元。我们称这些神经元为粗糙知识神经元。FFN输出前馈网络…加权和巴库FF(val)激活… …知识神经元FF(键)的是内积…隐藏状态[面具]阿塞拜疆资本的自我注意层前馈网络其中y∗Attr(w)=的k=1,其中m是+v:mala2277获取更多论文本文提出的知识神经元表达事实知识的假设的合理性,以及知识属性和知识提炼方法的有效性。 PARA REL由专家高度一致。专家设计来自T-REx数据集的38个关系的各种提示模板(ElSahar et al. ,2018)。我们在表1中显示了PARAREL的统计数据:(1)平均而言,表1:PARAREEL数据集的统计。3.3知识神经元精炼在这一部分中,我们在粗知识神经元的基础上,进一步提出了一种提炼策略,以更准确地定位事实知识虽然粗糙知识神经元对最终输出贡献很大,但仍然存在一些表达其他信息的“假阳性”知识神经元(例如,句法或词汇信息)而不是事实知识。我们通过过滤掉这些“假阳性”知识神经元来细化粗糙的知识神经元请注意,对于对应于相同关系事实的不同提示,只要这些提示具有各种句法或词汇变化,它们就不会共享那些然而,它们总是表达相同的事实知识,这对应于真正的知识神经元。因此,给定具有足够句法和词汇变化的多个提示,我们可以通过过滤掉非共享神经元并保留这些提示中的公共神经元来进一步细化粗糙知识神经元具体地说,给定一个关系事实,我们通过以下步骤识别其相关的知识神经元:(1)产生n个表达该事实的不同且多样的提示:(2)对于每个提示,计算每个中间神经元的归因得分;(3)对于每个提示,设置一个属性得分阈值t,只保留属性得分大于t的神经元,即粗知识神经元;(4)考虑所有提示的粗知识神经元,设置一个共享百分比阈值p%,只保留由大于p%提示。最后保留下来的神经元是真的知识神经元,事实所在的位置4实验4.1数据集我们进行实验的基础上的PARA REL数据集(Elazar et al. #20201;,以确保正确的?每个关系有8.63个不同的提示模板;(2)一个关系最多有20个提示模板,最少有2个提示模板;(3)平均而言,每个关系的提示模板分别有4.74个和6.03个独特的句法和词汇变体如3.3节所述,我们需要不同的提示来提炼粗糙的知识神经元。因此,我们从PARA REL中过滤出少于4个不同提示模板的关系,最终保留34个关系。关系的示例提示模板如表2所示。请注意,我们的知识属性和精炼方法对关系事实的数量不敏感,因此我们为每个保留的关系随机抽取50个事实进行有效的实验。4.2实验设置我们进行实验的基础上BERT的基础情况下(Devlin et al. ,2019),最广泛使用的预训练模型之一。它包含12个Transformer块,隐藏大小d为768,前馈隐藏大小(即,每个FFN中的存储器槽的数量)是3,072。为了获得粗知识神经元,对于每个提示,我们将归因得分阈值t设置为最大归因得分的0.3倍。为了细化粗知识神经元以获得真正的知识神经元,我们将共享百分比阈值p%设置为50%。我们在具有32GB内存的单个NVIDIA Tesla V100 GPU上运行所有实验请注意,虽然我们在本文中只针对BERT-based-cases进行实验,但我们的方法并不限于特定的我们可以很容易地将其推广到任何其他预训练模型,以识别模型中的知识神经元4.3结果使用我们的知识属性和精炼方法,我们将PARAREL中的每个关系事实定位到几个(平均5.99个)知识神经元。在本节中,我们通过实验揭示了事实知识和知识神经元之间的相关性,并展示了一些例子来帮助理解知识神经元捕获什么。#关系38最低模板数2最大模板数20平均模板数8.63平均句法变异4.74平均词汇变异6.03+v:mala2277获取更多论文模板#1模板#2主题#3P176(制造商)[X]由[Y]生产[X]是[Y]的产品[Y]及其产品[X] P463(成员)[X]是[Y]的成员[X]属于[Y]的组织[X]隶属于[Y]P407(工作语文)[X][2019 - 02 - 15 00:00][2019 - 02 - 01 00:00][2019 - 01 00:00]表2:PARAREEL中三种关系的提示模板示例。[X]和[Y]分别是头和尾实体的占位符。由于页面宽度,我们只为每个关系显示三个模板。P101 P103 P106 P108 P127 P1303 P136 P1376 P138 P140 P1412 P159 P176 P178 P19 P190 P20 P264 P27 P279 P30 P36 P364 P37 P39 P407 P413 P449 P463 P47 P495 P530 P740 P937百分之十0%的百分比-10%-20%-30%左右-40%左右-50%-60%-70%-80%-90%左右图3:抑制知识神经元激活后正确答案概率的下降比例对应关系事实的正确概率显著降低(平均为-37.03%),但不相关关系事实的正确概率几乎保持不变(平均为-0.39%)。4.3.1知识神经元控制知识表达在本节中,我们证明了知识神经元可以控制知识表达。给定一个关系事实,我们直接以两种方式操纵它的知识神经元:(1)通过将其激活设置为0来抑制知识神经元,(2)通过将其激活加倍来放大知识神经元然后,我们观察模型输出根据操纵的变化此外,为了验证知识神经元的排他性,我们还对另一个不相关的关系事实进行了采样,并执行了相同的操作。我们分别在图3和图4中展示了抑制和放大知识神经元的结果对于每个关系,我们证明了正确答案的概率的平均下降或增加比率。从图3中,我们观察到,当我们抑制知识神经元时,对应关系事实的正确概率将显著降低(平均为-37.03%)。相比之下,不相关的关系事实的正确概率几乎保持不变(平均为-0.39%)。类似地,从图4中,我们发现放大知识神经元将显著增加(平均+46.42%)相应关系事实的正确概率,但对那些不相关的关系事实几乎没有影响(平均-0.15%这些发现表明:(1)知识神经元能够控制知识的表达;(2)知识神经元对其所对应的事实知识具有排他性。4.3.2知识神经元被知识探测神经元激活在本节中,我们将证明知识探索提示往往会激活特定事实的给定一个关系事实的知识神经元,我们比较它们被不同提示激活的程度由于知识神经元是基于PARA REL来识别的,因此基于PARA REL中的提示来比较它们的激活有点不公平。因此,我们通过抓取Bing搜索引擎构建了一个新的提示数据集。对于每个关系事实,我们爬行两种类型的句子:(1)10个句子包含头部和尾部实体。 在远程监督之后(Mintz等人,,2009),我们大致认为这些句子可以表达这种关系。我们屏蔽尾部实体以获得十个提示。(2)十句只包含头实体。我们收集这些句子来验证知识神经元被整个关系事实激活,而不仅仅是一个头部实体。我们屏蔽一个随机的单词来获得十个提示。所有抓取的提示都具有各种句法和词汇形式,这些形式与PARAREL中的提示模板有很大不同。抑制对应事实的知识神经元抑制不相关事实正确的概率递减率+v:mala2277获取更多论文百分之二百二十百分之二百百分之一百八十百分之一百六十百分之一百四十百分之一百二十百分百百分之八十百分之六十百分之四十百分之二十0%的百分比-20%放大对应事实的知识神经元放大不相关事实的P101 P103 P106 P108 P127 P1303 P136 P1376 P138 P140 P1412 P159 P176 P178 P19 P190 P20 P264 P27 P279 P30 P36 P364 P37 P39 P407 P413 P449 P463 P47 P495 P530 P740 P937图4:放大知识神经元激活后正确答案概率的增加比例对应关系事实的正确概率显著增加(平均+46.42%),但不相关关系事实的正确概率几乎保持不变(平均-0.15%)。0.90.80.70.60.50.40.30.20.10.00.1P101 P103 P106 P108 P127 P1303 P136 P1376 P138 P140 P1412 P159 P176 P178 P19 P190 P20 P264 P27 P279 P30 P36 P364 P37 P39 P407 P413 P449 P463 P47 P495 P530 P740 P937图5:知识神经元的平均激活。表达相应的事实知识的人(第一列)比不表达的人(第二列和第三列)更能激活知识神经元对于新的数据集,对于每个关系事实,我们比较了三种提示激活其知识神经元的程度:(1)包含头和尾实体的10个提示。(2)10个只包含头实体的提示符(3)从新数据集中随机选择的十个提示。第一种表达关系事实,而其他两种不表达。我们在图5中显示了每个关系的知识神经元的平均激活。如图所示,表达相应事实知识的提示激活的知识神经元(平均为0.451)比不表达的多得多(仅包含头部的提示和随机选择的提示分别为0.020和这些发现表明(1)知识神经元被知识探测提示激活;(2)知识神经元甚至可以被泛化为开放域提示,这些提示在用于识别它们的数据集中是看不到的结合4.3.1节的结论,我们揭示了事实知识和知识神经元之间的相关性:知识神经元被激活,知识探测提示,然后激活的知识神经元通过获取存储在相应FFN存储槽中的知识来表达关系事实。4.3.3激活知识神经元的示例在本节中,我们将比较激活知识神经元最多和最少的提示来帮助理解神经元捕捉到的知识。给定一个关系事实及其知识神经元,我们将包含头部和尾部实体的十个爬行提示中的每一个输入到预训练模型中然后,我们根据平均激活对这些提示进行排序,并保留两个具有最高激活的提示和两个具有最低激活的提示,我们分别称之为top-2和bottom-2激活提示我们在表3中演示了一些示例事实的前2和后2激活提示。从表中我们发现,前2个激活提示总是表达相应的关系事实,而后2个激活提示,包含头部和尾部图元的提示仅包含头部图元的提示随机选择的提示正确的概率增长率平均活化+v:mala2277获取更多论文,w,,w,我⟨⟩⟨⟩相关事实知道。神经元顶部-2和底部-2激活神经元(平均激活)巴库是阿塞拜疆的首都和最大的城市,...(9.40)阿塞拜疆首都巴库(八)1547(九)2141(九)1738(十)1122阿塞拜疆的首都巴库是建筑的爱. (7.95)别墅,巴库,阿塞拜疆. (0.64)日出时间到了. 巴库(0.54)库尔特 ·施韦尔齐克(Kurt Schwertsik,1935年6月25日-)(5.33)KurtSchwertsik,出生地,维也纳所罗门群岛,(八)2317(十)1122(八)2727(十)739(十)1518顶部Kurt Schwertsik于1935年出生于维也纳。(4.96)... 维也纳广播交响乐团库尔特·施威茨克。(0.63)Kurt Schwertsik研究了...在维也纳音乐学院(-0.31)英语是所罗门群岛的官方语言。(11.08)所罗门群岛除官方语言外,英语(7.48)官方语言,w(11),w(11),中文简体1068(十一)23842308在所罗门群岛教英语(0.24)作为英语的一种变体,所罗门群岛的皮金... (-0.50)表3:示例关系事实及其知识神经元,前2和后2激活提示,以及相应的平均激活。w(l)表示第l个FFN处的第i为了可读性,我们在每个提示中用正确答案填空。由于页面宽度,我们只显示提示的关键部分。前2个激活提示准确地表达了关系事实,但后2个没有。尽管包含相同的头和尾实体,但不表示对应关系。这一发现表明,知识神经元可以捕获关系事实的语义模式,并再次验证了知识神经元被知识探测提示激活。4.4使用案例:更新知识在本节中,我们将演示知识神经元的一个用例预先训练的模型所包含的事实知识可能是错误的。为了保证模型中知识的质量,有必要对错误的事实知识进行基于知识神经元,我们可以显式地更新预训练模型中的事实知识,而无需微调。具体来说,给定一个由预训练模型记住的关系事实h,r,t,我们的目标是将其更新为h,r,tJ。已知该事实的知识神经元,我们直接从对应的值槽中减去t(在第二馈送层FF(val)中),并将tJ添加到那些值槽,其中t和tJ是t的词嵌入,J,分别。通过这个操作,我们删除旧的实体信息,并为预训练模型添加新的实体信息。为了显示这种更新方法的有效性,我们在表4中显示了知识更新的几个例子。如表所示,通过直接修改与知识神经元对应的一些值槽,我们可以纠正预训练模型记住的错误关系事实,而无需任何微调。4.5使用案例:擦除知识在本节中,我们将展示知识神经元的另一个用例预训练的模型由于能够记住训练语料库中的一些不道德的知识(如隐私信息)而遭受伦理问题。为了解决这些伦理问题,我们需要从模型中删除不道德的知识。基于知识神经元,可以显式地擦除由预训练模型记住的知识类别。具体地说,给定一个关系,我们的目标是删除模型中所有与该关系相关我们首先识别所有关系事实的知识神经元。然后,我们设置模式阈值m=5,知识神经元属于至少m个re-事实,并过滤掉其他人。最后,我们将这些知识神经元对应的值槽设置为[UNK]的单词嵌入。为了验证这种划时代方法的有效性,我们尝试擦除四种关系,并在表5中显示了知识擦除前后预测缺失实体的准确性。请注意,虽然四个选定的关系不是公众人物的秘密,他们仍然是普通个人的隐私。如表中所示,在修改一些值槽之后,准确性显著降低,这意味着隐私信息的大部分已经被擦除。此外,为了保证擦除操作不会过多地影响其他知识的表达,我们计算了⟨WW,w,w底部⟨WW底部WW、+v:mala2277获取更多论文即时原始预测 知识更新后 #知识神经元史蒂夫·乔布斯为.微软苹果4海地的官方语言是.英语法语5CherryPy是在.英语Python 7表4:更新知识的例子。 通过修改一些值槽(在第二前馈层FF(val))对应的知识神经元,我们可以纠正模型记忆的错误关系事实。关系原始精度知识擦除擦除比率#知识神经元P19(出生地)2.621.08百分之五十八点八二6P27(国籍国)43.3326.44百分之三十八点九七18P106(职业)1.090.5550.00%9P937(工作地点)32.4012.8060.49%27表5:在知识擦除之前和之后预测四个关系的缺失实体的准确性。通过修改与知识神经元相对应的一些值槽,可以擦除知识的实质部分PPL之前PPL之后擦除P19 123.1 131.6删除P27 142.0 144.7擦除P106 121.9 126.5擦除P937 135.7 154.2表6:在知识擦除操作之前和之后,预训练模型对具有不同关系的其他关系事实的擦除知识对其他知识表达的影响是中等的。预先训练的模型对具有不同关系的其他关系事实的提示如表6所示,擦除操作后,其他提示的困惑度并没有增加太多,说明擦除操作对其他知识的表达影响不大5相关工作5.1在预训练模型中探测知识以前的许多工作旨在测量存储在预训练模型中的知识。Petroni等人(2019)提出检索存储在预训练模型(如BERT)中的知识。对于相关事实,例如,(毛里求斯,官方语言,英语),他们手动定义提示模板,例如,毛里求斯的官方语言是英语,然后用掩尾实体来预测。实验结果表明,BERT具有很强的回忆事实性知识的能力,而不需要任何微调。Jianget al.(2020 b)通过基于挖掘和基于释义的方法 改 进 了 完 形 填 空 提 示 。 Roberts 等 人(2020)提出了rameters。 Elazar等人 (2021)测量和改进预训练模型在事实知识预测方面的一致性。而不是探测语言模型的输出,我们提供了一个开放的黑盒分析的知识神经元在变压器。5.2归因方法为了打开深度学习模型的黑盒子,人们对模型的可解释性提出了许多工作。其中,属性方法形成了一个单独的流,其目的是通过不同的措施将模型输出属性到输入作为基线,梯度(输出相对于输入的梯度)和特征值的一个合理的起点(Baehrens et al. ,2010; Simonyan等人,2014)。此外,还提出了一组涉及将最终输出反向传播到各个输入特征的归因方法,包括DeepLift(Shrikumar et al. ,2017)、逐层相关性传播(Binder et al. ,2016)、去卷积网络(Zeiler和Fergus,2014)和引导反向传播(Springenberg et al. ,2015)。然而,正如Sundararajan et al. (2017),这些方法都不能同时满足灵敏度和实现不变性的两个基本公理 。 以 公 理 为 指 导 , Sundararajan 等 人 。(2017)提出了一种新的属性方法,称为综合梯度。在本文中,我们的知识属性方法是建立在集成梯度方法。5.3Transformer结构分析作 为 最 流 行 和 最 有 效 的 NLP 架 构 之 一 ,Transformer(Vaswani et al. ,2017)+v:mala2277获取更多论文吸引了广泛的研究。大多数以前的工作集中在自我注意力机制(Voitaet al. ,2019; Clark等人,2019年;Vig和Belinkov,2019年),它通常被认为是Transformer中最有用的模块相比之下,Wu et al. (2019)和Dong等人(2021)指出,前馈层对Transformer也很重要。Geva等人 (2020)试图通过定性分析将前馈层与键值存储器连接起来。本文提出了一种对给定的实际知识识别知识神经元的算法. 此外,我们还证明了我们可以利用知识神经元来操纵预先训练的Transformer的存储事实。6讨论在本文中,我们提出了一种知识属性的方法来识别存储事实的神经元在Transformer。我们发现,放大或抑制知识神经元的激活,都能相应地影响对同一事实的回忆。此外,对开放域文本的定性分析表明,事实的表达与其知识神经元相关。此外,案例研究描述了我们如何利用知 识 神 经 元 显 式 更 新 和 删 除 预 训 练 的Transformers中的事实。尽管识别知识神经元是有效的,但我们目前的研究仍有一些局限性。首先,我们通过填空式完形填空来考察事实性知识,而许多文本是以一种更为隐含的方式来表达知识预先训练的语言模型能否利用存储的知识进行一定程度的泛化,如推理,是其次,我们在实验中关注关系事实,因为它们的特异性和易于评估,即使所提出的方法也可以应用于其他类型的知识。第三,我们在完形填空题中使用单字空白以达到简单性,这需要一些扩展(Jiang et al.,,2020 a)以支持多词查询。此外,一个有趣的方向是弄清楚知识神经元如何在多语言预训练的转换器中工作(Conneau和Lample,2019;Conneau等人。,2020; Chi等人,2020)。引用David Baehrens,Timon Schroeter,Stefan Harmel-ing , Motoaki Kawanabe , Katja Hansen , andKlaus-RobertMüller. 2010年。如何解释单个类-的决定。J·马赫。学习. Res. ,11:1803- 1831.包航波,李东,魏福如,王文辉,杨楠,刘晓东,王宇,朴松浩,高剑锋,周明,和Hsiao-WuenHon. 2020.UniLMv2:用于统一语言模型预训练的 伪 掩 码 语 言 模 型 。 arXiv 预 印 本 arXiv :2002.12804。Ale xanderBinder , Gre' goireMontav on , SebastianLapuschkin,Klaus-RobertMüller,andWojciechSamek.2016. 具有局部重正化层的神经网络的逐层相关传播。在Proceedings of the25th International Conference on Artificial NeuralNetworks , Volume 9887 ofLecture Notes inComputer Science,pages 63斯普林格。Antoine Bosselut,Hannah Rashkin,Maarten Sap,Chai- tanya Malaviya , Asli Celikyilmaz , andYejin Choi.2019. COMET:常识转换器,用于自动知识图的构建. 计算语言学协会第57届年会论文集,第4762-4779页,意大利佛罗伦萨。计算语言学协会。Zewen Chi,Li Dong,Furu Wei,Nan Yang,Sak-sham Singhal,Wenhui Wang,Xia Song,Xian-Ling Mao,Heyan Huang,and Ming Zhou. 2020.In-foXLM:一个跨语言语言模型预训练的信息理论框架。arXiv预印本arXiv:2007.07834。Kevin Clark , Urvashi Khandelwal , Omer Levy ,and Christopher D.曼宁2019. BERT在看什么?对伯 特 注 意 力 的 分 析 。 CoRR , 绝 对 值/1906.04341。Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020.预训练文本编码器作为鉴别器而不是生成器.在ICLR。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 FranciscoGuzm' n 、 EdouardGrav e 、MyleOtt、LukeZettle-moyer和VeselinStoyanov。2020. 大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集,第8440- 8451页,在线。计算语言学协会。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 神经信息处理系统进展,第7057-7067页。Curran Associates,Inc.Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在该协会北美分会2019年会议的会议记录中+v:mala2277获取更多论文计算语言学:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。Li Dong,Nan Yang,Wenhui Wang,Furu Wei,Xi- aodong Liu,Yu Wang,Jianfeng Gao,MingZhou,and Hsiao-Wuen Hon. 2019.用于自然语言理解和生成的统一语言模型预训练。第33届神经信息处理系统会议(NeurIPS 2019)。Yihe Dong,Jean-Baptiste Cordonnier,and AndreasLoukas. 2021. 注意力并不是你所需要的全部:纯粹的注意力随着深度的增加而呈指数级下降。CoRR,abs/2103.03404。放 大 图 片 创 作 者 : David H. Hovy , Hinrich Schütze,andYo a vGoldbe r g. 2021年测量和提高预训练语言模型的一致性。CoRR,abs/2102.01017。Hady ElSahar,Pavlos Zagiouklis,Arslen Remaci,ChristopheGr a vie r,JonesysS. 黑尔,弗里克·拉弗勒斯特和埃琳娜·辛佩尔。2018. T-rex:自然语言与知识库三元组的大。第十一届语言资源与 评 价 国 际 会 议 集 。 欧 洲 语 言 资 源 协 会(ELRA)。Mor Geva , Roei Schuster, Jonathan Berant ,andOmer Levy. 2020. Transformer前馈层是键值存储器。CoRR,abs/2012.14913。泽维尔·格洛洛,安托万·博德斯,还有约瑟芬·本吉奥。2011. 深度稀疏整流神经网络。在第十四届人工智能和统计国际会议的会议论文集,JMLR会议论文集第15卷,第315-323页。JMLR.org.亚茹昊、李东、魏福茹、柯旭。2021. 自我注意归因:解读Transformer内部的信息交互.在第35届AAAI人工智能会议上。Press.丹·亨德里克斯和凯文·金佩尔。 2016. 高斯误差线性 单 位 ( GELUs ) 。 arXiv 预 印 本 arXiv :1606.08415。Zhengbao Jiang , Antonios Anastasopoulos , JunAraki,Haibo Ding,and Graham Neubig. 2020年a。X-FACTR:从预训练语言模型中.在2020年自然语言处理经验方法会议(EMNLP)的会议记录中,第5943- 5959页。计算语言学协会。作者:Frank F. Xu,Jun Araki,and Graham Neubig.2020年b。我们如何知道语言模型知道什么?事务处理关联计算Linguistics,8:423-438.YinhanLiu,Myle Ott,Naman Goyal,Jingfei Du,Man-dar Joshi,Danqi Chen,Omer Levy,MikeLewis,Luke Zettlemoyer,and Veselin Stoyanov.2019. Roberta:一个鲁棒优化的bert预训练方法。arXiv预印本arXiv:1907.11692。迈克·明茨,史蒂文·比尔,瑞恩·斯诺,丹尼尔·朱拉夫斯基. 2009. 无标记数据关系抽取的远程监控 。第 47 届 计 算 语 言 学 协 会 年 会 和 第 4 届AFNLP自然语言处理国际联合会议的会议记录,第1003-1011页。计算机语言学协会。作 者 :FabioPetroni,TimRocktaüschel,SebastianRi edel , Patrick S.H. Lewis , AntonBakhtin , Yuxiang Wu , and Alexander H. 米 勒2019年。 语言模型作为知识基础? 在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议的会议记录中,第2463- 2473页。计算语言学协会。亚当·罗伯茨科林·拉菲尔和诺姆·沙泽尔2020年。你能在语言模型的参数中包含多少知识?2020年自然语言处理经验方法会议论文集,第5418-5426页。计算语言学协会。阿 凡 提 ·什 库 玛 , 佩 顿 · 格 林 赛 德 , 安 舒· 昆 达杰.2017. 通过传播激活差异来学习重要特征。第34届国际机
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功