没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文∼一种简单有效的预训练语言模型可插入叶德明1,2,3,林延凯6,李鹏7,孙茂松1,4,5刘志远1,3,51清华大学计算机科学与技术系,北京,中国2清华大学智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4研究所郭强5清华大学6模式识别中心,微信人工智能,腾讯公司7人工智能产业研究所ydm18@mails.tsinghua.edu.cn摘要预先训练的语言模型(PLMs)不能很好地回忆大规模语料库中所展示的实体的丰富事实知识,尤其是那些稀有实体。 本文在分析了现有文献资料的基础上,我们提出了一个简单而有效的可移植实体查找表(PELT)的要求,通过聚合实体的输出表示的PELT可以兼容地作为输入插入,以将补充实体知识注入PLM。与以往的知识增强型PLM相比,PELT只需要0.2%~ 5%的预计算,并且能够从领域外的语料库中获取知识,用于领域自适应场景。对知识相关任务的实验表明,PELT方法能够灵活有效地将相关语料库中的实体知识迁移到不同体系结构的PLM中。我们的代码和模型可 在 https://github.com/thunlp/PELT上公开获取。1介绍预训练语言模型(PLM)的最新进展已经在各种下游任务中取得了有希望的改进(Devlinet al. ,2019; Liuet al. ,2019)。一些最新的工作表明,PLM可以通过自我监督的预训练自动从大规模语料库中获取知识,然后将学习到的知识编码到它们的模型参数中(Tenney etal. , 2019; Petroni et al. , 2019; Roberts etal. ,2020)。然而,由于词汇表容量有限,现有的PLM面临着从其参数中回忆事实知识的挑战 ,特 别 是对 于那 些 罕 见的 实 体( Gao etal. ,2019a; Wang et al. ,2021a)。为了提高PLM的 实 体 理 解 能 力 , 一 个 直接的解决方案是利用从 知识图(KG )获得 的 外 部 实 体 嵌 入 ( Zhang et al. ,2019;刘通讯作者:M.孙(sms@tsinghua.edu.cn)模型数量对比前D-AdaptZhang等人 (2019年)Wang et al.(2021b)Yamadaet al. (2020)PELT(我们的模型)5.0M4.6M0.5M4.6M160小时3,400 h3,800 h7h没有否否是表1:最近知识增强型PLM的比较。我们报告了在V100 GPU上对维基百科实体的BASE模型进行预计算。对比前:预计算; D-Adapt:域自适应。等人,2020; Wang等人,2020),实体描述(Peters et al. ,2019),或语料库(Pörneretal. ,2020)。为了利用外部知识,这些模型通常学习对齐外部实体嵌入(Bordes et al. ,2013; Yamada et al. ,2016)到他们原来的词嵌入。然而,以前的工作忽略了探索实体嵌入从PLM本身,这使得他们学习的嵌入映射是不可用的域适应。其他最近的作品试图通过额外的预训练将知识注入PLM的参数,例如学习从语料库中构建额外的实体词汇表(Yamadaet al. ,2020; Févry et al. ,2020),或采用实体相关的预训练任务来强化实体表示(Xiong et al. ,2020; Sun et al. ,2020; Wang等人,2021b)。然而,它们庞大的预计算增加了为各种下游任务扩展或更新定制词汇表的成本。在本文中,我们介绍了一个简单而有效的可编 程 实 体 查 找 表 ( PELT ) 的 知 识 融 合 到PLM。具体来说,我们首先重新审视了PLM的输入特征和输出表示之间的联系,在此基础上,给定一个新的语料库,我们从实体的出现汇总屏蔽令牌的输出表示利用所构造的嵌入的兼容性和灵活性,我们可以对嵌入进行修改,arXiv:2202.13392v1 [cs.CL] 2022年2月+v:mala2277获取更多论文ΣΣ我∈ΣΣΣ我直接插入相应位置2019新型冠状病毒肺炎(COVID-19)隔离判决PLM编码Masked Token实体嵌入的输入序列,以提供补充EN-知识大全如表1所示,我们的方法WTO认为[MASK]已成为一种全球流行病。仅消耗0.2%至5%的预计算COM-与以前的作品兼容,它还同时支持来自不同领域的词汇我们在两个领域(维基百科和生物医学出版物)进行了两个知识相关任务的实验,包括知识探测和关系分类实验结果表明,与PELT的PLM可以持续和显着优于相应的香草模型。此外,从多个域获得的实体嵌入与原始词嵌入兼容,并且可以应用于迅速转移[MASK]是由严重急性呼吸道疾病引起的。图1:PELT的图示由于softmax层和词嵌入中的权重在BERT中是绑定的,因此模型计算rxi和输入词嵌入矩阵的乘积,以进一步计算所有词之间xiL= −log Pr(x i|(rxi)(三)=−日志exp(E(xi)Trx).exp(E(wj)Trx)2方法在本节中,我们首先重新审视掩蔽语言建模预训练目标。之后,我们介绍了可插入的实体查找表,并解释了如何应用它将知识纳入PLM。2.1重新审视掩蔽语言建模PLM进行自我监督的预训练任务,例如掩蔽语言建模(MLM)(Devlin et al. ,2019),从大规模未标记的语料库中学习语义和句法知识(Rogers et al. ,2020)。MLM可以被看作是一种完形填空任务,它要求模型根据其上下文表征来预测缺失的标记。形式上,给定一系列的to- kens X=(x1,x2,. . . ..H=Enc( LayerNorm(E(X)+P)),(1)其中En_c(·)表示深度双向T_rans-former编码r,LayerNor_m(·)表示层非线性化(Baet al. ,2016),ER|V| ×D是单词嵌入矩阵,V是单词vocabu-wj∈Vi2.2构造可插入的实体嵌入由于训练效率,现有PLM中的词汇大小通常在30K到60K子字单元的范围内,因此PLM必须将大量实体的信息分散到它们的子字嵌入中。通过重新审视MLM在Eq中的损失。3,我们可以直观地观察到词嵌入和BERT的输出表示位于同一个向量空间中因此,我们能够从BERT的输出表示中恢复实体嵌入,以将其上下文化的具体来说,在给定一个通用或特定领域的语料库的情况下,我们设计为在下游任务中出现的实体按需建立查找表对于一个实体e,例如维基数据实体或专有名词实体,我们构造它的嵌入E(e)如下:方向将实体e添加到PLM词汇表的可行方法是针对MLM损失优化其嵌入E(e),同时冻结其他我们收集包含实体e的句子Se,并将其替换为[MASK]。E(e)对Se中的MLM损失的总影响可以用公式表示为:lary,P是绝对位置嵌入,H=(h1,h2,. . . ,h,n)是上下文表示。L(e)=−xi∈Se对数Pr(e|(rxi)(四)站。 之后,BERT应用前馈层(FFN)和层归一化,以计算输出表示。=xi∈SelogZxi -E(e)Txi∈SeR×I,xi的位置:其中Zx是=wj∈V<${e}exp(E(wj)Trx),xi是rxi = LayerNorm(FFN(hi))。(二更)用于实体e和rxi的被替换的掩码令牌是x i的PLMCOVID-19+v:mala2277获取更多论文(e)L(e)Σ1||||与整个词汇对Zxi的总影响相比,E(e)的影响要小得多如果我们忽略E(e)对Zxi的微小影响,则E的最优解为到,则xi∈Serxi。因此,我们将E(e)设为:链接注释不可用,我们采用启发式字符串匹配实体链接1。3实验3.1实现细节E(e)=C·xi∈Serxi,(5)我 们 选 择 RoBERTa Base ( Liu et al. , 2019年),一个优化良好的PLM,作为我们的基线模型,我们为其配备了我们的构建实体嵌入,其中C表示缩放因子。实际上,E(e)也用作其他词的MLM损失的负对数似然(Kong et al. ,2020)。然而,Gao等人(2019 a)指出,这种负对数似然的梯度将把所有单词推向一致的负方向,这削弱了稀有单词表示的质量在这里,我们忽略这个负项,并从等式中获得信息实体嵌入五、我们将p(e)定义为实体e的位置嵌入。由于Eq.1使得E(e)+p(e)对D2的范数成立,我们发现,范数E(e)对输入特征的使用中的编码器。因此,我们将所有实体嵌入的范数设置为常数L。然后,我们在无监督的知识探测任务上评估具有不同L的模型,并为那些微调任务选择最佳L2.3将实体知识注入PLM由于我们得到的实体嵌入和原始词嵌入都是从掩蔽语言建模目标中得到的,因此实体可以被看作是一种特殊的输入标记。为了将实体知识注入到PLM中,我们使用一对括号将构造的实体嵌入括起来,然后将其插入到原始实体的子字之后例如,原始输入,Steve Job为[MASK]工作。成为Steve Job(Steven_Job)为[MASK]工作。在这里,实体Steven_Job采用我们构造的实体嵌入,其他单词使用它们的原始嵌入。我们简单地将修改后的输入传送到PLM进行编码,而不需要任何额外的结构或参数。关于实体链接的注释在前面的部分中,我们假设我们知道所涉及的字符串名称的实体链接在实践中,我们可以获得FewRel 1.0等对于获得PELT模型。对于知识探测任务,我们进一步实验了另一种编码器架构模型,未封装的BERT Base(Devlinet al. ,2019)和编码器-解码 器 - 架 构 模 型 BART Base ( Lewis et al. ,2020)。我们采用维基百科和生物医学S2ORC(Loetal. ,2020)作为领域特定语料库,并使用NLTK(Xue,2011)将它们拆分成句子。对于维基百科,我们采用了一种启发式的实体链接策略,并借助超链接注释。对于使用的FewRel 1.0和Wiki80数据集,我们直接使用带注释的链接信息。对于其他数据集,我们通过简单的字符串匹配链接给定的实体名称。对于每个必要的实体,我们首先从语料库中提取多达 256 个 包 含 实 体 的 句 子 。 FewRel 1.0 、Wiki80和LAMA采用Wikipedia作为领域语料库,FewRel采用S2ORC作为领域语料库2.0.然后,我们根据2.2节构造实体嵌入。在知识探测任务中,我们在1-10之间搜索实体 嵌 入 L 我 们 发 现 L=7 , 10 , 3 分 别 对RoBERTa,BERT和BART性能稍好。在微调过程中,我们将构造的嵌入冻结为具有相应范数的查找表之后,我们用5种不同的种子运行所有的微调实验,并报告平均分数。3.2基线我们选择了三个最具代表性的实体感知基线,它们采用外部实体嵌入,实体相关的预训练任务 或 可 训 练 的 实 体 嵌 入 : ( 1 ) ERNIE(Zhanget al. ,2019)涉及从维基数据关系(Bordes et al. ,2013)。我们采用Wang等人提供的ERNIE的RoberTa版本。 (2021b);(2)KEPLER(Wanget al. ,2021b)将文本实体描述编码到实体嵌入中,并学习事实三元组,1详情见附录。+v:mala2277获取更多论文模型分机预训练5-1FewRel 1.05-5 10-110-55-1FewRel 2.05-5 10-110-5ERNIEKEPLER卢克CcC92.7 ±0。290.8 ±0。191.8 ±0。497.9 ±0。096.9 ±0。197.5 ±0。187.7 ±0. 485.1 ±0。185.3 ±0. 496.1 ±0。194.2 ±0。195.3 ±0。166.4 ±1。674.0 ±1。064.8 ±1。488.2 ±0. 589.2 ±0。289.2 ±0。251.2 ±0。761.7 ±0。146.6 ±0. 880.1 ±1。082.1 ±0。180.5 ±0。5罗伯塔毛皮--90.4 ±0。392.7 ±0。396.2 ±0。097.5 ±0。084.2 ±0. 587.5 ±0. 393.9 ±0。195.4 ±0。171.2 ±2。175.0 ±1。389.4 ±0. 292.1 ±0。253.3 ±0. 860.4 ±1。183.1 ±0。485.6 ±0. 2表2:FewRel数据集的准确度N-K 表示N路K次发射配置。FewRel 1.0和FewRel 2.0都是在Wikipedia域上训练的,FewRel 2.0是在生物医学域上测试ERNIE†在预训练期间看到了FewRel 1.0测试集中的事实。我们将标准差作为下标报告。表3:Wiki80测试集的准确性1%/ 10%分别表示使用1%/ 10%的监督训练数据。语言建模同时进行;(3)LUKE(Yamadaetal. ,2020)学习可训练实体嵌入,以帮助模型预测句子中的掩蔽标记和掩蔽实体。3.3关系分类关系分类(RC)的目的是预测给定文本中两个实体之间的关系。我们评估两种情况下,少数拍摄设置和全数据设置的模型少数镜头设置专注于长尾关系,没有足够的训练实例。 我们在FewRel 1.0(Han et al. ,2018)和FewRel 2.0(Gao et al. ,2019 b)。FewRel 1.0包含具有Wikidata事实和FewRel的实例2.0涉及生物医学领域测试集以检查领域适应的能力。在在N向K-shot设置下,需要模型将查询分类为现有的N个关系中的一个,每个关系包含K个支持样本. 我们选择国家的最先进的几杆框架工作原型(斯内尔等人。,2017)与不同的PLM编码器进行评估。对于全数据设置,我们在Wiki80上评估模型,其中包含来自Wikidata的80种关系类型。我们还添加了1%和10%的设置,这意味着只使用训练集的1% / 10%数据。如表2和表3所示,在FewRel1.0 和 Wiki80 在 Wikipedia 域 , ROBERTa 与PELT击败了ROBERTa模型的大表 4 : 知 识 探 针 基 准 上 的 平 均 P@1 。 G-RE :Google-RE。保证金(例如,10路1拍+3.3%),它甚至达到了与ERNIE相当的性能,ERNIE可以访问知识图。我们的模型也在FewRel2.0在生物医学领域(例如+7。10 way-1 shot上的1%),而实体感知基线在大多数设置中几乎没有进步与大多数现有的实体感知PLM相比,在预训练阶段获取特定领域的知识,我们提出的可插入实体查找表可以根据需要从域外语料库中动态更新模型3.4知识探索我 们在 广泛 使用 的知 识探 针数 据集LAMA(Petroni et al. ,2019)。采用完形填空的形式考察PLM例如,给定一个问题模板,巴黎是[MASK]的首都,PLM需要正确预测掩码令牌。在本文中,我们不仅使用Google-RE和T-REx(ElSahar et al. ,2018年),其重点是事实知识,但也评估LAMA-UHN模型(Pörner etal. ,2020),其过滤掉容易有问题的模板。模型喇嘛LAMA-UHN模型厄尼·开普勒·卢克罗伯特·佩尔百百分百分66.4 ±0.462.3 ±1。087.7 ±0.263.1 ±1。085.4 ±0.293.4 ±0。186.9 ±0.491.7 ±0。192.9 ±0。159.8 ±1。765.6 ±1。085.7 ±0.288.3 ±0.391.7 ±0。193.4 ±0。1G-RE T-RExG-RE T-REx厄尼10.024.95.919.4开普勒5.523.42.515.4卢克3.832.02.025.3罗伯塔5.424.72.217.0毛皮6.427.52.819.3伯特13.934.98.826.8贝尔特-佩尔特13.340.78.934.5巴特5.115.91.312.0巴特-佩尔特6.924.42.114.9+v:mala2277获取更多论文模型罗伯特·佩尔[0,10)[10,50)[50,100)[100,+)18.121.921.124.825.829.026.128.7表5:相对于维基百科中主题实体的频率,T-Rex上的平均P@1如表4所示,PELT模型在没有任何预训练的情况下,可以直接从扩展的输入序列中吸收实体知识,以回忆更多的事实知识,这表明我们构建的实体嵌入与原始词嵌入是我们还发现,我们的方法也可以带来巨大的改善BERT和BART在知识探测任务,这证明了我们的方法实体频率的影响表5显示了相对于实体频率的P@1结果。虽然RoBERTa在稀有实体上的表现比常见实体差,但PELT在稀有实体上带来了实质性的改进,即,接近3.8意味着出现少于50次的实体的P@1增益4结论在本文中,我们提出了PELT,一个灵活的实体查找表,将最新的知识到PLM。通过按需构建实体嵌入,具有PELT的PLM可以调用丰富的事实知识来帮助下游任务。确认本研究得到了国家科技创新2030重大专项(编号:2020AAA0106502)和清华大学国强研究所的资助引用Lei Jimmy Ba,Jamie Ryan Kiros和Geoffrey E.辛顿2016. 层归一化。CoRR,绝对值/1607.06450。Antoine Bordes,Nicolas Bronnier,Alberto García-Durán , Jason Weston , and Oksana Yakhnenko.2013. 为多关系数据建模转换嵌入。在神经信息处理系统的进展26:27神经信息处理系统2013年年会。2013年12月5日至8日在美国内华达州太浩湖举行的会议的筹备会议,第2787- 2795页。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼阿波利斯,明尼苏达州。计算语言学协会。Hady ElSahar,Pavlos Zagiouklis,Arslen Remaci,Christophe Gravier,Jonesys S. Hare,FrédériqueLaforest,and Elena Simperl. 2018. T-rex:自然语言与知识库三元组的大。在第十一届国际语言资源与评估会议的会议记录中,LREC 2018,日本宫崎,2018年5月7日至12日。欧洲语言资源协会(ELRA)。Thibault Févry , Livio Baldini Soares , NicholasFitzGerald,EunsolChoi,andTomKwiatkowski.2020. 实体作为专家:具有实体监督的。在2020年自然语言处理经验方法会议(EMNLP)的会议中,第4937-4951页。计算语言学协会。高俊,何棣,徐坦,秦涛,王立伟,刘铁岩.2019年a。自然语言生成模型训练中的表示退化问题 。 在 第 七 届 国 际 会 议 上 学 习 代 表 , ICLR2019,新奥尔良,洛杉矶,美国,2019年5月6日至9日。OpenReview.net.高天宇、韩旭、朱浩、刘志远、李鹏、孙茂松和周杰。2019年b. FewRel 2.0:面向更具挑战性的少镜头关系分类。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议( EMNLP-IJCNLP ) 的 会 议 中 , 第 6250-6255页,中国香港。计算语言学协会。Xu Han , Hao Zhu , Pengfei Yu , Ziyun Wang ,Yuan Yao,Zhiyuan Liu,and Maosong Sun.2018年FewRel:一个具有最先进评估的大规模监督少镜头关系分类数据集。在2018年自然语言处理经验方法会议上,第4803- 4809页,比利时布鲁塞尔。计算语言学协会。Diederik P. Kingma和Jimmy Ba。2015. Adam:一种随机优化方法。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR 2015中,会议跟踪程序。孔凌鹏,西普里安·德·马松·德·奥图姆,雷宇,王令,戴梓航,达尼·瑜伽玉。2020. 语言表征学习的互信息最大化观点。在8+v:mala2277获取更多论文关于学习代表的国际会议,ICLR 2020,亚的斯亚贝巴,埃塞俄比亚,2020年4月26日至30日。OpenReview.net.Mike Lewis,Yinhan Liu,Naman戈亚尔,Mar-jan Ghazvininejad , Abdelrahman Mohamed ,Omer Levy , Veselin Stoyanov , and LukeZettlemoyer. 2020. BART:用于自然语言生成、翻译和理解的去噪序列到序列预。在计算语言学协会第58届年会的会议记录中,ACL 2020,在线,2020年7月5日至10日,第7871-7880页。计算语言学协会。Weijie Liu,Peng Zhou,Zhe Zhao,Zhiroo Wang,Qi Ju , Haotang Deng , and Ping Wang. 2020.BERT:用知识图.在第三十四届AAAI人工智能会议,AAAI 2020,第三十二届人工智能创新应用会议,IAAI 2020,第十届AAAI人工智能教育进展研讨会,EAAI 2020,美国纽约州纽约市,2020年2月7日至12日,第2901-2908页。Press.Yinhan Liu,Myle Ott,Naman Goyal,Jingfei Du,Man-dar Joshi,Danqi Chen,Omer Levy,MikeLewis , LukeZettlemoyer , andVeselinStoyanov.2019. RoBERTa : 一 种 鲁 棒 优 化 的BERT预训练方法。CoRR,abs/1907.11692。Kyle Lo,Lucy Lu Wang,Mark Neumann,RodneyKin-ney,and Daniel Weld.2020. S2ORC:语义学者开放研究语料库。在计算语言学协会第58届年会的会议记录中,第4969-4983页,在线。计算语言学协会.马修·EPeters,Mark Neumann,Robert Logan,RoySchwartz,Vidur Joshi,Sameer Singh,and NoahA.史密斯2019. 知识增强的上下文单词表征。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP- IJCNLP)会议录中,第43-54页,中国香港。计算语言学协会。Fabio Petroni、Tim Rocktäschel、Sebastian Riedel、Patrick Lewis 、 Anton Bakhtin 、 Yuxiang Wu 和Alexander Miller。2019年。 作为知识基础的语言模型?在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)会议录中,第2463-2473页,中国香港。计算语言学协会.尼娜·珀纳,乌利·沃尔廷格,辛里奇·舒茨。2020年。E-BERT:BERT的高效实体嵌入。在计算语言学协会的发现:EMNLP 2020,在线活动,2020年11月16日至20日,ACL发现的EMNLP2020卷,第803-818页。计算语言学协会。亚当·罗伯茨科林·拉菲尔和诺姆·沙泽尔2020年。语言模型的参数中可以包含多少知识? 在2020年自然语言处理经验方法会议论文集,EMNLP2020,在线,2020年11月16日至20日,第5418-5426页。计算语言学协会。安娜·罗杰斯,奥尔加·科瓦列娃,还有安娜·鲁姆斯基。2020. 一个在bertology初级:我们知道BERT如何工作。事务处理关联计算Linguis-tics,8:842-866.Jake Snell,Kevin Swersky和Richard S.泽梅尔2017.用于少量学习的原型网络。神经信息处理系统进展30:神经信息处理系统年会2017,2017年12月4日至9日,美国加利福尼亚州长滩,第4077Tianxiang Sun,Yunfan Shao,Xipeng Qiu,QipengGuo , Yaru Hu , Xuanjing Huang , and ZhengZhang.2020. CoLAKE : 语 境 化 语 言 和 知 识 嵌入。第28届国际计算语言学会议论文集,第3660-3670页,巴塞罗那,西班牙(在线)。国际计算语言学委员会。作者:Ian Tenney,Patrick Xia,Berlin Chen,AlexWang,Adam Poliak,R.放大图片作者:ThomasMcCoy,Najalan Kim,Benjamin Van Durme,Samuel R.鲍曼,迪潘詹·达斯,艾莉·帕夫利克.2019. 你从上下文中学到了什么?在语境化的词表征中探索句子结构。在第七届国际学习代表会议上,ICLR 2019,新奥尔良,洛杉矶,美国,2019年日。OpenReview.net.Cunxiang Wang,Pai Liu,Yue Zhang. 2021年a. 生成式预训练语言模型可以作为闭卷问答的知识基础吗?在计算语言学协会第59届年会和第11届自然语言处理国际联合会议的会议记录中,ACL/IJCNLP 2021,(第1卷:长纸),虚拟活动,2021年8月1日至6日,第3241- 3251页。计算语言学协会。王瑞泽、唐杜宇、段南、魏忠宇、黄旭安静、季建枢、曹桂红、姜大新2020. K-adapter:通过适配器 将 知 识 注 入 预 先 训 练 好 的 模 型 。 CoRR ,abs/2002.01808。Xiaozhi Wang , Tanyu Gao , Zhaocheng Zhu ,Zhengyan Zhang,Zhiyuan Liu,Juanzi Li,andJian Tang.2021b的最后一页。KEPLER:知识嵌入和预训练语言表示的统一模型。事务处理关联计算Linguistics,9:176-194.熊文涵,杜静飞,王扬,Veselin Stoyanov。2020.Pretrained encyclopedia:弱监督知识-预训练语言模 型 。 在 第 八 届 学 习 代 表 国 际 会 议 , ICLR2020,亚的斯亚贝巴,埃塞俄比亚,2020年4月26日至30日。OpenReview.net.+v:mala2277获取更多论文⇐J联系我们{联系我们数据集Wiki80FewRel 1.0FewRel2.0时代5--BSZ LR列车踏板-一千五15003232323e-52e-52e-5薛念雯。2011. 史蒂文伯德,埃文克莱因和爱德华洛 珀 。 用 Python 进 行 自 然 语 言 处 理 O'ReillyMedia,Inc 2009. ISBN:978-0-596-51649-9。国家语言工程,17(3):419Ikuya Yamada , Akari Asai , Hiroyuki Shindo ,Hideaki Takeda , and Yuji Matsumoto. 2020.LUKE:深度情境化的实体表征,具有实体感知的自我注意力。在2020年自然语言处理经验方法会议(EMNLP)上,第6442-6454页,在线。计算语言学协会。Ikuya Yamada,Hiroyuki Shindo,Hideaki Takeda,and Yoshiyasu Takefuji. 2016. 联合学习词和实体的嵌入,用于命名实体消歧. 第20届SIGNLL计算自然语言学习会议论文集,CoNLL 2016,德国柏林,2016年8月11日至12日,第250-259页。访问控制列表。Zhengyan Zhang , Xu Han , Zhiyuan Liu , XinJiang , Maosong Sun , and Qun Liu. 2019.ERNIE:增强的语言表示与信息实体。 在第57届年会上,计算语言学协会出版,第1441-1451页,意大利佛罗伦萨。计算语言学协会。A用于实体链接的对于维基百科,我们首先创建一个映射,从锚文本与超链接到他们的引用维基百科页面。在此之后,我们采用启发式字符串匹配链接到其他潜在的实体到他们的页面。为了准备,我们从维基百科的重定向页面中收集实体的别名,并从超链接中收集实体之间然后,我们应用spaCy2来识别文本中的实体名称。文本中的实体名称可以引用具有相同别名的多个实体。我们利用链接实体页面的关系来维护一个可用的实体页面集,用于实体消歧。启发式字符串匹配的细节如算法1所示,我们将实体名称与当前页面的周围实体页面尽可能接近地匹配。 e将发布所有源代码,使用预处理的维基百科数据集进行建模对于其他数据库,我们采用简单的字符串匹配进行实体链接。B训练配置我们使用Adam opti- mizer(Kingma和Ba,2015)训练所有模型,预热10%2https://spacy.io/算法1用于实体消歧的启发式字符串匹配是锚文本E文本中的重复SJ与S中的页面有超链接或维基数据关系的相邻实体页面}EJ{e|e∈E且e可以是唯一线性的通过字符串匹配到SJ中的实体页面}EE−EJS E直到S=φ步骤和最多128个输入令牌。详细的训练超参数见表6。我们用5种不同的种子(42、43、44、45、46)进行所有实验,并报告平均分数和标准差。在Wiki 80的1%和10%设置对于FewRel,我们在[4,8,32]中搜索批量大小,并在[1500,2000,2500]中搜索训练步骤我们每隔250次对模型进行验证,并保存性能最好的模型以供测试。通过我们的超参数调整,FewRel中的基线结果显著优于KEPLER报告的结果(Wang et al. ,2021b)。表6:训练超参数。BSZ:批量大小; LR:学习率。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功