没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文XLM-K:利用多语言知识姜晓泽1*,梁耀波2,陈伟柱3,段南21北京航空航天大学,北京,中国2微软亚洲研究院,中国北京3Microsoft Azure AI,Redmond,WA,USAxzjiang@buaa.edu.cn,{yalia,wzchen,nanduan} @microsoft.com摘要跨语言预训练在单语和双语纯文本语料库中取得了很大的成功。然而,大多数预训练模型忽略了多语言知识,这是语言不可知的,但包括丰富的跨语言结构对齐。在本文中,我们提出了XLM-K,一个跨语言的语言模型,在预训练中结合多语言知识。 XLM-K通过两个知识任务增强了现有的多语言预训练,即掩蔽实体预测任务和对象蕴涵任务。我们在MLQA,NER和XNLI上评估XLM-K。实验结果清楚地表明,显着改善现有的多语言模型。MLQA和NER的测试结果显示了XLM-K在知识相关任务中的优越性。XNLI的成功表明XLM-K具有更好的跨语言可转移性。更重要的是,我们提供了详细的探索分析,以确认我们在 预 培 训 方 案 中 获 得 的 所 需 知 识 。 该 代 码 可 在https://github.com/microsoft/Unicoder/tree/master/pretraining/xlaps上获得。1介绍预训练语言模型的最新发展(Devlinet al. 2019; Liu et al.2019)激发了人们对跨语言场景的新的兴趣,例如多语言BERT(Devlin et al. 2019)和XLM-R(Conneau etal. 2020年)。 现有的模型通常针对掩码语言建模(MLM)任务进行优化(Devlin et al. 2019)和翻译任务(Conneau和Lample2019)使用多语言数据。然而,他们忽略了跨语言的知识,如实体分解和关系推理。事实上,这些知识在不同的语言中传达了相似的语义概念和 相 似 的 含 义 ( Vulic 和 Moens2013; Chenet al. 2021年),这对于实现跨语言可转移性至关重要。因此,如何为预训练模型提供知识已经成为多语言语言模型的一个尚未探索但关键的挑战。语言模型中的上下文语言表示通常使用未标记和非结构化语料库进行训练,而不考虑知识的显式基础(Fe'vryetal.2020;Xiong等人 2020;Fanetal.*在微软亚洲研究院实习期间的贡献。Copyright © 2022 , Association for the Advancement ofArtificial Intelligence(www.aaai.org).All rights reserved.2021),如实体和关系。 一方面,结构化知识数据丰富,可以作为非结构化语料库的一个很好的补充,用于建立更好的语言模型; 许多工作已经通过将基础知识结合 到 单 语 预 训 练 模 型 中 来 证 明 其 重 要 性 ( Zhangetal.2019;Stal iu<$naitestecandIa-cobacci2020; Zhang et al.2020; Wang等人2021年b)。另一方面,知识通常是语言不可知的,例如,不同的语言通过不同的表面形式共享相同的实体。这可以引入大量的对齐数据来学习更好的跨语言表示(Cao et al. 2018年a)。然而,在跨语言环境中探索用于预训练的多语言实体链接和关系的现有工作很少(Huang et al. 2019; Yanget al. 2020年)。例如,事实上的跨语言预训练标准,即 MLM(Devlinetal. 2019)加上TLM(Conneau和Lample 2019),学习跨语言的单词或句子之间的对应关系,忽略每个实体背后的不同背景跨语言信息。为了解决这个问题,我们提出了XLM-K,一个跨语言的语言模型,在预训练中加入了多语言知识。知识通过两个额外的预训练任务注入XLM-K,即:掩蔽实体预测任务和对象蕴涵任务。这两个任务分别从描述语义和结构化语义两个方面来获取知识。描述语义学鼓励将上下文实体嵌入到多语言知识库(KB)中的长实体描述中。结构化语义学以主语、关系、宾语“三元组”为基础,通过主语和宾语之间的关系和描述来连接跨语言的主语和宾语,其中宾语由主语和关系的连接所蕴涵。对象和主体都由来自知识库的描述表示。为了促进跨语言的迁移能力,一方面,实体及其描述来自不同的语言。另一方面,主语和宾语的语篇内容也来自不同的语言来源。我们在预训练期间采用对比学习(He et al.2020),使XLM-K从一系列负面知识示例中区分出一个积极的知识示例在我们的工作中有三个主要贡献•作为第一次尝试,我们实现了组合-arXiv:2109.12573v3 [cs.CL] 2022年4月+v:mala2255获取更多论文··通过提出两个与知识相关的跨语言预训练任务,在跨语言预训练中将文本信息和知识库联系起来通过不同语言连接的知识为学习更好的多语言表示引入了额外的信息。我们评估XLM-K的实体知识相关的下游任务,即。MLQA和NER,以及标准的多语言基准XNLI。实验结果表明,XLM-K在没有双语数据源的情况下取得了新的效果MLQA和NER的改进表明了它在知识相关场景中的优越性。XNLI测试结果表明XLM-K具有较好的跨语言迁移性。我们进一步进行探测分析(Petroniet al. 2019),清楚地反映了预训练模型中所需的2相关工作跨语言预训练跨语言预训练的工作在多语言任务中取得了巨大的成功。多语言BERT(Devlinet al. 2019)在单语语料库上训练基于多语言掩蔽语言建模任务的BERT模型。 XLM-R(Conneauet al. 2020)在大规模语料库上进一步扩展了该方法。这些模型只使用来自不同语言的单语 数 据 。 为 了 实 现 跨 语 言 标 记 对 齐 , XLM(ConneauandLample2019)提出了并行语料库上的翻译语言建模任务 Unicoder(Huanget al. 2019)在并行语料库和InfoXLM(Chi et al. 2021)鼓励双语句子对比否定示例更相似地编码,而ERNIE-M(Ouyang et al.2021)在单语语料库上学习多种语言之间的语义对齐。 这些模型利用双语数据来实现不同语言之间更好的跨语言能力。我们的方法探索跨语言知识库作为一种新的跨语言监督。知识感知预训练最近的单语作品,将基础知识融入单语预训练模型,导致下游任务的性能更好(Rosset et al.2020年)。例如,一些作品通过添加特定于知识的模型结构来引入实体信息(Broscheit 2019; Zhang et al. 2019;Fe'vryetal. 2020年)。其他人考虑在知识图三元组中捕获的关系信息(Hayashi et al. 2020; Zhang et al. 2020;Wang 等 人 2021 a; Liu et al.2020 年 ) 。 同 时 ,Xiongetal. (2020);Fe'vryetal. (2020)为单语语言模型配备不同的知识,而无需额外的参数。这些工作几乎都是在单语言领域,没有考虑跨语言的信息,而跨语言的知识是通过我们的模型学习提出的任务。此外,上述作品的标准操作大多基于实体名称。实体名称被屏蔽,然后由模型预测,即MLM任务在被屏蔽的实体名称上进行虽然我们预测实体描述的目的是消除具有相同实体名称的不同实体的歧义(详细信息见第二节)。3.2)。它可以帮助我们的模型学习更多的细粒度知识。词嵌入和知识库联合学习许多研究利用文本语料库中的词嵌入来生成更好的知识库嵌入。 Wang等人 2014;Yamadaet al. 2016; Caoet al. 2017利用具有实体提及和实体名称的文本来对齐词嵌入和实体嵌入。Toutanova等人 2015; Han,Liu,and Sun2016; Wu et al. Wang andLi 2016利用两个实体提及的句子作为关系表示来生成更好的实体和关系嵌入。这些工作的主要目标是生成更好的图嵌入与英语语料库和每个实体将有一个可训练的嵌入。我们的方法专注于训练一个更好的多语言的上下文表示同时,实体表示由Transformer(Vaswani et al.2017)模型生成,该模型可以进一步对齐文本和KB嵌入,并实现较少的可训练参数。 对于跨语言的单词嵌入,大多数作品都 依 赖 于 对 齐 的 单 词 或 句 子 ( Rude r , Vulic' 和Sauggaard2019 ) 。 Cao 等人 2018 b; Panet al. 2019;Chenet al. 2021将实体提及替换为特殊的实体标签,并将一个实体在不同语言中的不同提及规则化以具有相似的嵌入。Vulic 'and Moens2013使用维基百科页面的主题标签来提高跨语言能力。我们还利用不同语言中的实体提及作为跨语言对齐监督。 与这些工作不同的是,我们进一步利用关系信息来增强实体表示。此外,本文采用Transformer模型生成实体表示,而不是对特定的实体标签进行单独的嵌入训练.3方法我们首先提出知识建构策略。然后,我们介绍了我们的两个基于知识的预培训任务和培训目标。3.1知识建构我们使用维基百科和维基数据(VrandecicandKrtzsch2014)作为数据源。更多详情参见附录。知识图知识图是一组以主题、关系、对象形式存在的三元组。 我们使用维基数据作为我们的知识库。维基数据的三元组是从维基百科中提取的,每个维基百科页面对应于维基数据中的一个实体。维基数据包含8500万个实体和1304个关系。它们形成了2.8亿个三胞胎。对于具有l个单词的句子,X=(x1,x2,., xl),提及(s,t,e)意味着子序列(xs,x(s+1),., xt)对应于实体e。在我们的工作中,我们使用维基百科作为数据源。对于维基百科中的每个锚点,它提供指向该实体的维基百科页面的链接,该链接可以进一步映射到维基数据中的唯一实体。维基百科的页面来自298种语言,每64个标记都包含一个锚点。多语言实体描述我们将维基百科页面视为维基数据中相应实体的描述由于维基百科包含多种语言,一个实体可能有多个描述,它们来自不同的语言。对于每个页面,我们只保留其前256个令牌,+v:mala2255获取更多论文Φρούτα水果水果实体Nแอปเปิล(บริษัท)苹果公司苹果公司实体2แอปเปิล苹果苹果实体1……联系我们SSNZTransformerTransformer苹果公司苹果公司实体2水果水果实体Nz+Z+阿拉伯语,arz2Z2中文,zhzNZEnglish,en사과사과과일句子X(英语,en)实体描述嵌入(a) 掩蔽实体预测任务多语言说明实体zqs~r~亚类“Apple” Description卢z1Zeroz2zZ1阿拉伯语,arZ2中文,zh사과แอปเปิล사과แอปเปิล(บริษัท)과일Φρούτα(印地语,嗨)关系r+Z+English,en实体描述嵌入(b) 对象蕴涵任务多语言说明实体图1:XLM-K主要由两个跨语言预训练任务组成:(a)Masked Entity Prediction通过其知识描述识别被掩蔽的实体(Apple在句子X中被掩蔽的实体);(b)Object Entailment通过主语和关系的组合预测对象的文本内容。所有的变压器都有共享的参数。它的描述。如图1所示,N个多语言实体描述形成候选列表Z ={Z1,Z2,.,Z N}。3.2掩蔽实体预测任务掩蔽实体预测任务是鼓励上下文-前一个编码器,Xs的最终隐藏状态,表示Xt,并且来自Zi的[CLS]表示z,被进一步馈送到非线性投影层(Chenet al. 2020年),分别为:zq=W2ReLU(W1xt)(1)在序列中嵌入一个alized实体来预测长z+=W4ReLU(W3z)(二更)多语言知识库(KB)中的实体描述,而不是实体名称的预测。它可以帮助消除具有相同实体名称的不同实体的歧义。例如,如图1.a所示,实体名称Apple和Apple Inc.在韩国也是一样。它帮助XLM-K学习所提到的单词背后的各种隐含知识。给定一个句子X=(x1,x2,.,xl),其中X是具有来自语言u lg的l个单词的句子(例如,ulg是en,如图1.a)所 示 ,以 及 掩 蔽 提 及( s, t ,e ) ( 由[MASK] 代替),任务是从候选列表中识别正面示例Z+,该候选列表包含来自多种语言的分散注意力的页面,但与其他实体相关联 Z+=(z1,z2,..., z m)是来自语言t lg的具有m个单词的实体e的描述(例如t lg是ar,如图1.a所示)。请注意,描述Z+(最多256个标记)是从实体e的相关维基百科页面中提取的。当X被送入Trans后,其中W1,W3∈Rdw×dp,W2,W4∈Rdp×dw.然后,掩蔽实体预测损失Le可以通过等式(1)计算五、3.3对象蕴涵任务掩蔽实体预测任务丰富了XLM-K的语义知识,而对象蕴涵任务则旨在增强结构化关系知识。如图1.b所示,给定主题和关系,模型被迫从候选列表中选择对象。为了消除实体歧义(在第二节中解释)。3.2),主体和客体的表征也来自长实体描述。形式上,给定主题实体的描述语句S =(s 1,s 2,...,s l)与来自语言u lg的l个单词(例如,u lg是hi,如图1.b所示),对象实体的描述语句Z+=(z1,z2,...,z m),使用来自语言t lg的m个单词(例如,t lg是en,如图1.b所示)及其关系r(语言不可知),任务是预测对象被屏蔽的实体:苹果zq…LeTransformer苹果苹果实体1水果(亚类)关系编码器TransformerTransformerTransformerTransformerTransformer………………+v:mala2255获取更多论文Z˜˜˜ΣZL实现为队列,在开始时随机初始化-Z+从跨语言候选列表,基于S和R. 首先,关系r被馈送到关系编码器(用于输出关系嵌入的查找层),并且主体实体描述语句S和客体实体描述语句Z+被馈送到单独的Transformer编码器。在最后一层中,我们可以根据它们的[CLS]得到编码关系r,即主语实体描述句s和宾语实体描述句zs和r的联合嵌入构造如下:zq=W ReLU(W(s(三)速率为0.1,对于提出的知识任务,最大输入长度为256,对于MLM任务,最大输入长度为512。预训练的细节我们用XLM- R base初始化模型(Conneauet al. 2020年)(在Common Crawl上进行了培训),并使用8,192批次大小的梯度累积进行持续的预训练。我们利用Adam(Kingmaand Ba2015)作为我们的优化器。学习速率从10 k预热步数开始,峰值学习速率设置为3e-5。候选列表的大小N=32k。候选列表65+r))∈∈训练阶段的初始化并由新编码的其中W5Rdw×dp 和W6Rdp×dw 是可训练权重对象z也由非线性亲编码实体(更多详情参见附录)。预训练使用16个V100 GPU进行实验。z+Z=W8ReLU(W7zZ)(四)微调设置。具体来说,我们使用亚当优化器,其中W7∈ Rdw×dp和W8∈ Rdp×dw。该宗旨规定─单元损失Lo由等式2计算五、3.4联合预培训目标虽然我们可以有不同的损失函数来优化XLM-K,但我们选择对比学习,因为它在两种视觉表征中都有良好的效果(Heet al. 2020; Chen等人 2020)和跨语言预培训(Chiet al. 2021; Pan等人 2021年)。直观地,通过使用对比损失区分正样本和负样本,模型存储从结构数据获得的表达性知识。从形式上讲,损失可计算为:exp(zqz+)热身,只有微调XLM-K上的英语培训集F或MLQA,我们微调2个时期,速率设定为3e-5,批量为12。F或NER,我们微调20个epoch,学习率设置为5e-6,批量大小为32. F或XNLI,我们微调10个epoch,其他设置与NER相同。我们在每个微调时期测试所有语言的开发分割上的所有微调模型,并根据所有语言的开发分割为了实现令人信服的一致性,我们使用4个随机种子运行微调实验,并报告所有下游任务的平均和最大结果。我们还使用相同的4个种子运行我们的基线XLM-R基础,并报告平均结果。Petroni等人之后的探测细节。(2019年),我们...Le(和 Lo)=−log Nk=1(五)exp(zqzk)直接在预训练模型上进行管道探测分析没有任何微调。本文的研究语料来自四个其中z+是第k个候选样本,zk是第k个候选样本(由相同的方式编码),N是候选列表的大小为了避免灾难性地忘记从先前训练阶段学到的知识,我们保留了多语言掩蔽语言建模对象(MLM)(Devlinet al. 2019),表示 传销。因此,XLM-K的优化目标定义为:L=LMLM+Le+Lo(6)4实验在本节中,我们将介绍XLM-K的实现细节,然后评估XLM-K在下游任务上的性能。最后,我们对预训练的模型进行了探测实验,以验证知识可以通过所提出的任务存储。4.1实现细节数据和模型结构对于多语言掩蔽语言建模任务,我们使用Common Crawl数据集(Wenzek et al. 2020年)。Common Crawl数据集是从整个网络上无限制地抓取的,其中包含维基百科的所有语料库对于建议的两个任务,我们使用的语料库的前100名语言与最大的平衡来自不同语言的实例的设置与XLM-R基础相同(Conneauet al.来源:Google-RE 1,T-REx(Elsahar et al. 2018)、ConceptNet ( SpeerandHavasi2012 ) 和 SQuAD(Rajpurkaret al. 2016年)。 除了ConceptNet测试常识知识外,其他都是为了探索与维基相关的知识。4.2下游任务评估为了评估我们的模型使用下游任务的性能,我们进行实验MLQA,NER和XNLI。MLQA和NER是实体相关的任务,而XNLI是一个广泛使用的跨语言基准测试。在预训练中不使用双语数据,我们在这三个任务上获得了新的最先进的结果 为了便于参考,我们展示了双语数据相关方法 的 结 果 , 即 最 近 发 布 的 模 型 InfoXLM ( Chiet al.2021)和ERNIE-M(Ouyang et al. 2021年),在表1和表3中,并省略分析。 将双语数据资源应用于XLM-K是未来的工作。在下面的部分中,MEP表示掩蔽实体预测+MLM的消融模型,OE表示对象蕴涵+ MLM。MLQAMLQA(Lewis et al.2020)是一个多语言问题回答数据集,涵盖英语、西班牙语、德语、阿拉伯语、印地语、越南语和中文等7种语言。由于MLQA中的大部分问题都是事实性的,2020年)。XLM-K的架构设置如下:768隐藏-书房单位,12头,12层,GELU激活,辍学1https://code.google.com/archive/p/relation-extraction-corpus/+v:mala2255获取更多论文LL模型enesdear嗨vizhAvgmBERT(Lewis et al. 2020年)77.7/65.264.3/46.657.9/44.345.7/29.843.8/29.757.1/38.657.5/37.357.7/41.6XLM(Lewis等人,2020)74.9/62.468.0/49.862.2/47.654.8/36.348.8/27.361.4/41.861.1/39.661.6/43.5mBERT +训练后对齐(Pan et al. 2021年)79.8/-67.7/-62.3/-53.8/-57.9/--/-61.5/-63.8/-Unicoder(Huang et al. 2019年度)80.6/-68.6/-62.7/-57.8/-62.7/-67.5/-62.1/-66.0/-XLM-R碱(Conneau等人,2020)80.1/67.067.9/49.962.1/47.756.4/37.260.5/44.067.1/46.361.4/38.565.1/47.2MEP(平均值)80.6/67.568.7/50.962.8/48.259.0/39.963.1/46.168.2/47.562.1/38.166.4/48.3OE(平均值)80.8/67.869.1/51.263.2/48.659.0/39.663.7/46.368.5/47.363.0/39.566.7/48.6XLM-K(平均值)80.8/67.769.3/51.663.2/48.959.8/40.564.3/46.969.0/48.063.1/38.867.1/48.9XLM-K(max)80.8/67.969.2/52.163.8/49.260.0/41.165.3/47.670.1/48.663.8/39.767.7/49.5双语数据InfoXLM(Chi et al. 2021年)81.3/68.269.9/51.964.2/49.660.1/40.965.0/47.570.0/48.664.7/41.267.9/49.7ERNIE-M(Ouyanget al. 2021年)81.6/68.570.9/52.665.8/50.761.8/41.965.4/47.570.0/49.265.6/41.068.7/50.2表1:每种语言的MLQA F1/EM(精确匹配)评分结果第二块中的模型是我们的消融模型MEP和OE。我们使用不同的种子运行我们的模型和消融模型四次,其中avg表示平均结果,max表示平均指标选择的最大结果平均值的XLM-K(平均值)统计学显著性检验(标准差σ,值±σ):67.1±0.3/48.9±0.2。型号ENesdenl平均mBERT来自(Liang etal. 2020年)90.6七十五点四69.2七十七点九七十八点二XLM-R碱来自(Liang等人,2020)90.975.270.479.5七十九点零MEP(平均值)90.6七十五点六七十二点三80.2七十九点六OE(平均值)90.9七十六点零七十二点七80.1七十九点九XLM-K(平均值)90.7七十五点二七十二点九80.3七十九点八XLM-K(max)90.7七十六点六七十三点三80.080.1表2:每种语言的NER F1分数结果。第二块中的模型是我们的消融模型。 avg和max的含义与表1相同。XLM的统计学显著性检验(标准差σ,值±σ)平均值上的K(平均值):79.8±0.2。其中,我们使用它来评估使用多语言知识预训练的XLM-KMLQA结果见表1。由于F1和EM评分具有相似的观察结果,因此我们采用F1评分进行分析:(1) XLM-K的有效性 对于avg报告,XLM- K在F1评分上达到67.1的平均准确度,比基线模型XLM-R基础高出2.0。对于max报告,模型可以进一步获得比avg报告多0.6的额外增益。 这清楚地说明了XLM-K在MLQA上的优越性。此外,模型MEP和OE分别提供了1.3和1.6的XLM-R基础上的改进,这表明每个任务都可以成功地捕获MLQA的任务特定知识。(2) XLM-K的烧蚀分析第二块中的模型是消融模型。与消融模型相比,XLM-K在平均指标上优于每个模型0.7和0.4结果表明,在MLQA任务中,掩码实体预测和对象蕴涵具有互补的优势,两者结合使用时效果最佳NER跨语言NER(Lianget al. 2020)数据集覆盖4种语言,包括英语、西班牙语、德语和荷兰语,以及4种命名 实 体 , 即 Person 、 Location 、 Organization 和Miscellaneous。如表2所示,与基线型号XLM-R 底 座相比,XLM-K将平均评分提高到79.8分,最高评分提高到80.1分。验证了XLM-K在求解时的有效性NER任务。同时,MEP和OE的平均F1得分也增加了0.6和0.9。 结果表明,实体相关的预训练任务对实体相关的下游任务有显著的改善。XNLI XNLI(Conneau et al. 2018)是一个流行的跨语言NLI评估数据集,包含15种语言。它我们在表3中给出了结果,并进行了以下观察:(1) XLM-K的有效性虽然XNLI不是一个实体或关系感知的多语言任务,我们的模型获得了0.6增益比较基准模型XLM- R基地。MEP和OE的每种消融模型均通过0.4. 与MLQA和NER相比,这些收益微不足道这表明我们的模型主要适用于知识感知任务.在其他任务中,它不会损害性能,甚至可能略有帮助。(2) XLM-K的烧蚀分析XNLI上的XLM-K消融模型在XNLI上具有相似的结果,与XLM-R基础基线74.2相比增加了0.4。 实践证明,每项任务对整体提高都有其贡献。同时,消融模型与XLM-K仍有0.2的差距,这意味着这两项任务相结合的优势。4.3消融研究上述消融分析证明了所提出的两个预训练任务的组合方案的优越性。在本节中,我们将研究关键组件的有效性。知 识 任 务 的 有 效 性 我 们 的 基 线 模 型 XLM-R 基 础(Conneauet al. 2020)在Common Crawl数据集上训练(Wenzek et al. 2020年),其中涵盖了我们的训练数据维基百科。如表1、2、3和5所示,我们的型号XLM-K始终优于XLM-R底座此外,我们在等式中替换e和o6与传销损失的多语言维基百科实体描述。结果示于表4的第二块中。在没有知识任务的情况下,XLM-K w/o知识任务在MLQA、NER和XNLI上的成绩分别下降了1.5、0.8和0.3。证明了改进是从+v:mala2255获取更多论文模型enfresdeElBGrutrarvi日zh嗨SWurAvgmBERT(Conneau et al. 2020年)82.173.874.371.166.468.969.061.664.969.555.869.360.050.458.066.3XLM(Conneau等人,2020)85.078.778.977.876.677.475.372.573.176.173.276.569.668.467.375.1XLM(不含TLM)(Conneau等人,2020)83.276.777.774.072.774.172.768.768.672.968.972.565.658.262.470.7Unicoder(Huang et al. 2019年度)82.974.775.071.671.673.270.668.768.571.267.069.766.064.162.570.5AMBER(Hu等人,2021)84.776.676.974.272.574.373.373.270.273.465.771.666.259.961.071.6XLM-R碱(Conneauet al. 2020年)84.678.279.277.075.977.575.572.972.174.871.673.769.864.765.174.2MEP(平均值)84.978.578.877.076.278.176.173.472.075.272.474.769.865.766.074.6OE(平均值)84.478.178.877.175.978.075.973.172.575.373.074.570.165.467.374.6XLM-K(平均值)84.578.278.877.176.278.276.173.372.575.772.874.970.365.767.474.8XLM-K(max)84.979.179.277.977.278.877.473.773.376.873.175.672.065.868.075.5双语数据InfoXLM(Chi et al. 2021年)86.480.680.878.977.878.977.675.674.077.073.776.772.066.467.176.2ERNIE-M(Ouyang等人,2021)85.580.181.279.279.180.478.176.876.378.375.877.472.969.568.877.3表3:XNLI在15种语言上测试准确性的结果第二块中的模型是我们的消融模型。avg和max的含义与表1相同。平均值的XLM-K(平均值)统计学显著性检验(标准差σ,值±σ):74.8±0.3。对比损失,性能分别下降1.0、0.3和0.1对MLQA、NER和XNLI的影响。这表明了利用对比学习来构建更好的跨语言模型的优势。我们推测对比损失引入了一个比分类任务更具挑战性的任务。另一方面,OEw/o对比损失提高了性能,将基线型号XLM-R底座从65.1调整至65.7,表4:平均值时MLQA(F1评分)、NER(F1评分)和XNLI(测试准确度)的消融结果。我们使用不同的种子运行模型和消融模型四次,其中avg表示平均结果。签名的知识任务,而不是域适应维基百科。 我们将在未来设计更多与知识相关的任务。多语言实体描述的有效性。3.1、实体知识,即实体相关的维基百科页面被转换为与给定实体相比不同的语言资源。对三元组中的主体和客体进行相同的操作,从而导致主体和客体之间的多语言资源。为了研究该操作如何影响模型性能,我们在表4的第三块中报告了结果。在不进行多语言实体描述操作的情况下,MEP w/o多语言描述的性能下降了0.5,MLQA、NER和XNLI分别为0.3和0.1说明了多语言实体描述的有效性。另一方面,与基线XLM-R基础相比,模型MEP w/o多语言描述仍然分别在MLQA,NER和XNLI上实现了0.8,0.3和0.3的改进,这反映了在预训练中应用没有跨语言信息的实体描述扩展对于所有下游任务仍然一致有效优化策略的有效性将结构知识引入预训练语言模型的一个自然想法是根据三元组中的主体和对象对关系进行分类受此观点的启发,我们在表4的第四块中显示了结果。无对比损失的优化配置模型通过交叉熵损失对主客体关系进行与-MLQA、NER和XNLI分别为79.0 ~ 79.6和74.2 ~ 74.5。这一观察证明了结构知识在跨语言预训练中的重要性,尽管是通过普通的优化策略。4.4探测分析我们进行知识感知探测任务的基础上LAMA(Petroni等人。2019年)的报告。请注意,探测是一个分析实验,用于评估预训练的语言模型存储所需(Wiki)知识的能力,并解释建议任务对下游任务的改进原因。 这意味着探测不是SOTA比较实验。我们留下了对最近的多语种LAMA的分析(Jiang et al. 2020; Kassner,Dufte r和Schütze2021)作为我们未来的工作。在 LAMA 中 , 事 实 性 知 识 , 如 Jack , Daugh-in ,Canada>,首先被转换成完形填空题,如然后,要求预先训练的语言模型通过填充问题的空白来预测答案LAMA数据集中有4个子任务第一个是Google-RE,它包含基于从Wikidata和cover-ers 3关系中提取的大约60 k事实生成的问题。第二个是T-REx,它也包含基于维基数据三元组的子集生成的问题,但覆盖了更多的关系(即共41条第三个是ConceptNet,其中包含基于常识知识库生成的问题(Speer,Chin和Havasi2017)。最后是一个流行的开放域问题回答数据集SQuAD。每个子任务所涵盖的事实和关系类型的数量在表5的统计列中显示。LAMA探测任务的评估LAMA探测任务是在基线模型XLM-R的基础上进行的,我们的两个消融模型MEP(掩蔽实体预测+ MLM)和OE(对象蕴涵+MLM),XLM-Kw/o模型MLQANERXNLIXLM-R底座65.179.074.2XLM-K w/o知识任务(平均值)65.679.074.5MEP w/o多语言描述(avg)65.979.374.5MEP(平均值)66.479.674.6不含对比损失的OE(平均值)65.779.674.5OE(平均值)66.779.974.6XLM-K(平均值)67.179.874.8+v:mala2255获取更多论文出生地293719.39.810.115.015.6Google-RE出生日期182510.60.70.70.91.0死亡之地76518.09.113.413.817.0总552737.47.88.09.911.21-1937248.449.952.550.562.0T-RExN-1200062322.025.127.321.929.4N-m130961617.921.525.622.126.1总340394121.722.827.923.429.7ConceptNet共计114581618.814.212.017.615.7SQuAD总计305-5.56.410.19.711.5表5:基线XLM-R基础、XLM-K w/o K(XLM-K w/o知识任务)、MEP、OE和XLM-K的LAMA探测平均精度为1(P@1)本文还统计了所引用语料库涉及的事实数量和关系类型知识任务和我们的完整模型XLM-K。结果示于表5中。• 比较结果XLM-K w/o知识任务略微提高了per-task(在Google-RE、T-REx和SQuAD中)。这证明了改进是来自于设计的任务,而不是对维基百科的领域适应。 我们将详细说明对每个语料库的结果的观察。Google-REXLM-K的性能远远优于其他所有型号,尤其是基准型号XLM-完形填空语句受试者标签XLM-R底座XLM-K物体标签有时白日梦会导致.白日梦报警事故事故手机可能是由.手机金属塑料塑料太极拳是一种.汤团啤酒食品食品塔西拉·姆瓦莱(出生于)的。塔西拉·姆瓦莱在19841984表6:LAMA探测的案例研究,其中对象标签是给定语句的基础事实。我们比较了从我们的基线XLM-R基地和我们的 完整的预测R基础 . 值得注意的是,这两种消融模型,型号XLM-K。即表5中的MEP和OE,实现了0.6和2.5的增益恢复,这证明每个知识感知的预训练任务可以独立地帮助预训练模型以更好的方式嵌入事实知识。T-REx此任务包含更多与Google-RE相似的事实和关系XLM-K将总指标从21.7到29.7模型MEP和模型OE分别提高这些结果进一步证明了XLM-K在知识感知任务上的有效性。ConceptNetConceptNet语料库需要常识知识,这是一个与维基百科不同的知识源。在这项工作中,我们主要考虑维基百科的知识,这可以解释为什么ConceptNet上的性能扩展模型以捕获更多的知识资源,如常识知识,是我们未来的工作。同时,我们注意到OE模型的性能与MEP和XLM-K模型相比略有下降。这种现象的原因可能在于概念网是以三元组的形式收集的,而关系预测任务对关系结构知识的处理能力很强。SQuAD为了研究我们的模型在开放域完形填空式问答语料库上的性能,我们进一步评估了SQuAD上的结果。同样,我们的模型在SQuAD上取得了巨大的成功。详细地说,XLM-K达到了11.5,比XLM-R基极增益6.0。• 为例为了使分析更加明确,我们进行了LAMA探测语料库的如表6所示,我们研究了四个案例。以最后两种情况为例,来填补“Gnocchi是一种. ”, XLM-R而XLM-K成功地用“食物“来回答空白 在最后一种情况下“塔西拉Mwale(出生)。”, XLM-R XLM-K通过“1984”的预测很好地回答了这个问题它证实了XLM-K确实配备了更具体的知识。5结论在这项工作中,我们提出了一个新的跨语言语言模型XLM-K,将预训练语言模型与跨多种语言的更具体的知识相关联。具体地说,知识是通过两个知识相关的任务:maksed实体预测和对象蕴涵。在三个基准数据集上的实验结果清楚地证明了XLM-K的优越性。我们对XLM-K的系统分析表明,XLM-K在知识密集型任务中具有很大的优势。今后的工
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功