没有合适的资源?快使用搜索试试~ 我知道了~
多语言预训练语言模型:跨语言迁移任务有效性与实体信息的关联研究
+v:mala2277获取更多论文mLUKE:多语言预训练语言模型Ryokan Ri1,2ryo0123@ousia.jp山田郁也1,3ikuya@ousia.jp鹤冈义正2tsuruoka@logos.t.u-tokyo.ac.jp1Studio Ousia,东京都,日本2东京大学,日本3RIKEN AIP,东京,日本摘要最近的研究表明,多语言预训练语言模型可以通过维基百科实体的跨语言对齐信息进行有效改进。然而,前向方法仅在预训练中利用实体信息,并且在下游任务中不显式地使用实体。在这项研究中,我们探讨了利用实体表示下游跨语言任务的有效性。我们用24种语言训练了一个多语言语言模型,并展示了该模型在各种跨语言迁移任务中始终优于基于单词的预训练模型我们还分析了该模型,关键的见解是,将实体表示形式化到输入中允许我们提取更多 的 语 言 不 可 知 特 征 。 我 们 还 评 估 了mLAMA数据集的多语言完形填空提示任务的模型我们表明,基于实体的提示elaboratecorrect事实知识更有可能比只使用文字表示 。 我 们 的 源 代 码 和 预 训 练 模 型 可 在https://github.com/studio-ousia/luke网站。1介绍预训练的语言模型已经成为现代自然语言处理中实现最先进性能特别是,多语言语言模型(Conneau和Lample,2019年; Conneau等人,2019 年 ) 。 , 2020a; Doddapaneni et al. ,2021)已经引起了相当大的关注,特别是由于它们在跨语言迁移中的实用性。在zero-shot跨语言传输中,预训练的编码器在单一资源丰富的语言(通常是英语)中进行微调解决跨语言迁移任务的关键是获得跨语言的表示几项研究旨在通过跨语言监督改进多语言模型,例如在Studio Ousia实习双语词典(Conneau et al. ,2020 b)或平行句子(Conneau和Lample,2019)。这种信息的另一个来源是维基百科实体(条目)的跨语言映射。维基百科实体通过语言间链接跨语言对齐有了这些数据,模型可以学习跨语言的对应关系,例如单词Tokyo(英语)和3(日语)指的是同一个实体。维基百科实体注释已经被证明提供丰富的跨语言对齐信息以改进多语言语言模型 ( Calixto et al. , 2021; Jiang et al. ,2022)。然而,以前的研究只在预训练期间通过辅助损失函数纳入实体信息,并且模型没有显式地具有用于下游任务的实体表示。在这项研究中,我们调查的有效性实体表示在多语言模型。已知实体表示在单语言设置中增强语言模型(Zhang et al. ,2019; Peters etal. ,2019; Wang et al. ,2021; Xiong et al. ,2020; Yamada et al. 2020年),通过引入真实世界的知识。我们表明,使用实体表示促进跨语言迁移提供语言无关的功能。为此,我们提出了一个多语言的扩展LUKE(山田等。,2020)。该模型使用多语言掩码语言建模(MLM)任务以及使用维基百科实体嵌入的掩码实体预测(MEP)任务进行训练。我们研究了在跨语言迁移任务中使用实体表示的两种方法:(1)对输入文本进行形式实体链接,并将检测到的实体标记附加到输入序列中。期望实体标记为模型提供我们使用跨语言问答(QA)数据集评估这种方法:XQuAD(Artetxe et al. ,2020年)arXiv:2110.08151v3 [cs.CL] 2022年3月+v:mala2277获取更多论文≤nΣnNα和MLQA(Lewis et al. ,2020);(2)使用来自MEP任务的实体[MASK]令牌作为语言无关的特征提取器。在MEP任务中,提及跨度中的单词标记与实体[MASK]标记相关联,其上下文表示用于训练模型以预测其原始身份。在这里,我们将类似的输入公式应用于涉及提及跨度分类、关系提取(RE)和命名实体识别(NER)的任务:使用其上下文化实体[MASK]特征预测提及或一对提及的属性我们使用WAX ( Köksal 和 Özgür , 2020 ) 和 CoNLLNER(Tjong Kim Sang,2002;Tjong Kim Sang和De Meulder,2003)数据集来评估这种方法。实验结果表明,这些基于实体的方法始终优于基于单词的基线。我们的分析表明,实体表示提供了更多的语言无关的功能,以解决下游的任务。我们还探讨了解决一个多语种零次完形填空提示任务(刘等。,2021)与实体[MASK]令牌。 最近的研究表明,我们可以通过查询提示中的空白的语言模型来解决各种下游任务(Petroniet al. ,2019; Cui et al. ,2021年)。通常情况下,答案标记是从模型的词块词汇表中预测的 我们用mLAMA数据集(Kassner etal. ,2021),并表明使用实体[MASK]标记比仅使用单词[MASK]标记更有可能减少语言偏见并消除正确的2具有实体表示的多语言语言模型2.1型号:多语种LUKE为了评估跨语言下游任务的实体表示的有效性,我们介绍了一种基于双向Transformer编码器 的 新 的 多 语 言 语 言 模 型 : 多 语 言 LUKE(mLUKE),LUKE的多语言扩展(Yamadaet al. ,2020)。 该模型使用掩蔽语言建模(MLM)任务(Vaswani et al. ,2017)以及掩码实体预测(MEP)任务。在MEP中,一些输入实体标记被特殊实体[MASK]标记随机掩蔽,并且模型被训练以预测原始实体。请注意,实体[MASK]token与MLM的[MASK]token不同该模型将标记化的文本( w1, w2,...,Wm)和出现在文本中的实体( e1, e2,...,en),并计算每个令牌(hw1,hw2,.,hwm和he1,he2,..., hen)。 单词和实体令牌同样经历自我注意力计算(即,Yamadaet al. (2020))。单词和实体嵌入被计算为以下三个嵌入的总和:标记嵌入、类型嵌入和位置嵌入(Devlinet al. ,2019)。实体标记通过位置嵌入与单词标记相关联:实体标记的位置被定义为其对应单词标记的位置,并且实体位置嵌入在位置上求和。型 号 配 置 。 mLUKE的 模 型 配 置 遵 循XLM-RoBERTA 的 基 础 和 大 型 配 置 ( Conneau 等人 , , 2020a ) 、 BERT 的 变 体 ( Devlin etal. , 2019 ) 使 用 来 自 100 种 语 言 的CommonCrawl 数 据 进 行 训 练 。 在 预 训 练 之前,共同的参数(例如,Transformer编码器和字嵌入的权重)使用来自Transformers库的检查点来初始化。1实体嵌入的大小被设置为256,它们在被馈送到编码器之前被投影到单词嵌入的大小。2.2训练语料库:维基百科我 们 使 用 24 种 语 言 的 Wikipedia 转 储 ( Ap-pencilA)作为训练数据。选择这些语言以覆盖出现在下游跨语言数据集中的合理数量的语言。 我们通过将每个页面的内容分割成包含512个单词及其实体注释(即,,超链接)。在训练期间,从具有以下多项式分布的ni个项目的每种语言中采样数据αpi=i,(1)k=1K其中,α是平滑参数,在多语言BERT之后设置为0.7。21https://huggingface.co/transformers/https://github.com/google-research/网址:multilingual.md+v:mala2277获取更多论文图1:如何在下游任务中使用实体表示输入实体嵌入通过位置嵌入与它们的提及(由虚线指示)相关联实体词汇mLUKE中使用的实体被定义为维基百科条目。来自不同语言的文章通过语言间链接3对齐,并且对齐的文章被视为单个实体。我们在词汇表中包括了最常见的120万个实体,这些实体出现在至少三种语言中,以促进跨语言学习。优化. 我们优化了模型,批量大小为2048,总共100万步。使用AdamW(Loshchilov和Hutter,2019),具有学习率的预热和线性衰减。为了稳定训练,我们分两个阶段进行预训练:(1)在前50万步中,我们只更新那些随机初始化的参数(例如,实体嵌入);(2)我们在剩余的50万步中更新所有参数。学习速率调度器在每个训练阶段被重置有关超参数的更多详细信息,请参见附录A。2.3基线模型我们将我们研究的主要模型,多语言LUKE与实体表示(mLUKE-E),与几个基线预训练模型和基于单词表示的消融模型进行mBERT(Devlin et al. ,2019)是最早的多语言模型之一。我们提供这些结果作为参考。XLM-R(Conneau et al. ,2020 a)是mLUKE构建的模型。这个结果表明我们额外的预训练步骤和实体如何表示3https://en.wikipedia.org/wiki/Help:Interlanguage_links. 我 们 从 2020 年 11 月 30 日 的wikidatawiki转储中构建了一个跨语言数据库。影响性能。由于早期的研究(刘等。,2019;Lan et al. ,2020)表明更长的预训练只会提高性能,我们训练了另一个基于XLM-R基础的模型,并在mLUKE的相同配置下进行额外的MLM预训练。mLUKE-W是mLUKE-E的消融模型。该模型丢弃了在预训练期间学习的实体嵌入,并且与其他基线模型一样该模型的结果表明MEP仅作为预训练中的辅助任务的效果,并且与该模型的一致性将突出mLUKE-E中使用实体表示的下游任务的效果上述模型使用附录B中描述的相同超参数搜索空间和计算预算进行微调。我 们 还 介 绍 了 XLM-K ( Jianget al. 2022年),以便于参考。XLM-K基于XLM-R库,并使用维基百科的实体信息进行训练,但在下游任务中不使用实体表示请注意,他们的结果与我们的结果并不严格可比,因为预训练和微调设置不同。3在QA中添加实体作为与数据库无关的我们评估的方法添加实体嵌入dings的输入mLUKE-E跨语言提取QA任务。任务是,给定一个问题和一个上下文段落,从上下文中提取答案跨度。实体嵌入提供了语言无关的特征,因此应该促进跨语言迁移学习。+v:mala2277获取更多论文XQuADenesdeElrutrarvi日zh嗨avg.mBERT84.576.173.159.070.253.262.168.540.758.357.063.9XLM-R底座84.076.576.473.974.467.868.174.266.861.568.772.0+ 额外的训练86.176.976.573.774.766.368.274.567.764.766.672.4mLUKE-W碱基 85.778.077.474.775.768.371.775.967.165.169.973.6mLUKE-E碱基86.378.978.973.976.068.871.476.467.565.972.274.2XLM-R大号88.582.482.081.481.275.575.980.772.367.677.278.6mLUKE-W大型89.083.182.481.381.375.377.981.275.171.577.379.6mLUKE-E大型88.683.081.781.480.875.877.781.975.471.977.579.6MLQAenesdear嗨vizhavg.G-XLT平均值mBERT79.165.958.648.644.858.558.159.140.9XLM-R底座79.767.762.255.859.965.362.564.733.4+ 额外的训练81.369.865.054.859.365.664.265.750.2mLUKE-W碱基81.369.765.460.463.268.366.167.854.0mLUKE-E碱基80.870.065.560.863.768.466.267.955.6XLM-K(Jiang et al. ,2022年)80.869.263.860.065.370.163.867.7-XLM-R大号83.974.769.964.969.973.370.372.465.3mLUKE-W大型84.074.370.366.270.274.269.772.767.4mLUKE-E大型84.174.570.566.271.474.370.573.167.7表1:跨语言迁移设置中XQuAD和MLQA数据集上的F1分数。没有参考的分数来自于与英语发展数据调整的最佳模型。3.1主要实验数 据 集 。我 们 使 用 SQuAD 1.1 数 据 集(Rajpurkar et al. ,2016),并使用两个多语言数据集进行评估:XQuAD(Artetxe et al. ,2020 ) 和 MLQA ( Lewiset al. , 2020 ) 。XQuAD是通过翻译SQuAD开发集的一个子集而创建的,而MLQA的源代码是维基百科中的自然文本。除了多个单语评估数据分裂,MLQA还提供数据来评估广义跨语言迁移(G-XLT),其中问题和上下文文本是不同的语言。模 型 本 实 验 中 使 用 的 所 有 QA 模 型 均 遵 循Devlin等人(2019)。该模型将问题和上下文单词标记作为输入,并预测上下文单词到kens的每个跨度的得分。具有最高得分的跨度被预测为问题的答案。mLUKE-E将实体标记作为输入中的附加特征(图1),以丰富单词表示。使用基于原始维基百科文章的启发式字符串匹配来自动检测实体,其中数据集实例是从原始维基百科文章创建的。更多详情请参见附录C结果 表1总结了每种语言的模型F1分数。首先,我们讨论基本模型。在实体表示的有效性方面,mLUKE-E库比基于词的实体表示有更好的表现对应mLUKE-W基础(0.6个平均点,XQuAD平均分提高,MLQA提高0.1在MLQA中),其指示输入实体令牌提供有用的特征以促进跨语言迁移。实体的有用性尤其在MLQA的G-XLT设置中得到了证明(完整结果见附录F); mLUKE-E碱的G-XLT平均评分比mLUKE-W碱显著提高了1.6分。这表明实体表示在模型需要从不同语言的文本片段中捕获语言无关语义的挑战性情况下是我们还观察到XLM-R基础受益于额外的训练(XQuAD的平均评分提高0.4分,MLQA提高2.1分)。mLUKE-W基础模型通过额外的训练进 一 步 提 高 了 XLM-R 基 础 的 平 均 得 分( XQuAD 提 高 了 1.2 分 , MLQA 提 高 了 2.1分),显示了MEP任务对跨语言 QA的有效性。通过比较大型模型,我们仍然观察到从XLM-R大型到mLUKE模型的实质性改进。我们还可以看到,mLUKE-E large总体上提供 了比 mLUKE-Wlarge 更 好 的 结 果(MLQA平均值和G-XLT分数提高了0.4和0.3分; XQuAD中的分数相当),证实了实体表示的有效性。3.2分析实体表示如何帮助模型进行跨语言迁移?在mLUKE-E模型中+v:mala2277获取更多论文输入实体标记注释模型在其上执行预测的提及跨度。我们假设这允许编码器将语言无关的实体知识注入到跨度表示中,这有助于更好地对齐跨语言的表示 为了支持这一假设,我们比较了在输入中添加实体嵌入之前和之后的跨度表示之间的对齐程度,即,、mLUKE-W和mLUKE-E。任务我们将对齐程度量化为上下文单词检索(CWR)任务的性能(Cao et al. ,2020)。任务是,给定查询语言的句子中的一个词,从目标语言的候选池中找到上下文中具有相同含义的词数据集。我们使用MLQA开发集(Lewis etal. ,2020)。由于MLQA是从维基百科挖掘的并行句子构建的,因此一些句子和答案跨度是对齐的,因此数据集可以很容易地适应CWR任务。作为查询和目标词,我们使用数据集中标注的答案跨度4,这也是跨语言并行的。我们使用英语数据集作为查询语言,其他语言作为目标。我们丢弃在目标语言中没有并行数据的查询实例。候选池是目标语言数据中的所有答案跨度模型我们评估mLUKE-W 基础,mLUKE-E基础模型,无需微调。的通过对上下文化跨度表示的余弦相似性进行排序来执行检索,所述余弦相似性是通过对跨度中的输出词向量进行均值池化来计算的结果 表2显示了检索性能的平均倒数排名得分。我们观察到,在所有语言中,mLUKE-E基础的得分高于mLUKE-W 基础 这表明添加实体提高了跨度表示的对齐程度,这可以解释mLUKE-E在跨语言QA任务中的改进。这是我的平均值。mLUKE-W底座 55.6 66.168.4 60.4 69.7 56.1 62.7mLUKE-E碱基56.9 68.1 70.4 61.5 71.2 60.0 64.7表2:MLQA开发集CWR任务的平均倒数排名得分。4答案跨度不一定是一个词,但在这里我们将任务概括为跨度检索。4实体MASK标记作为RE和NER在本节中,我们将评估使用实体[MASK]令牌从mLUKE-E中提取特征的方法,用于两个与实体相关的任务:关系提取和命名实体识别。我们制定这两个任务的提及跨度的分类。基线模型提取span的特征作为单词标记的上下文表示,而mLUKE-E提取该特征作为与提及相关的特殊语言独立实体标记的上下文表示(图1)。我们证明,这种方法始终提高跨语言迁移的性能。4.1关系抽取关系抽取(RelationExtraction,RE)是确定句子中两个实体(头和尾)之间的正确关系的任务 添加实体类型特征已被证明对RE中的跨语言 迁 移 有 效 ( Subburathinam et al. , 2019;Ahmad et al. ,2021),但在这里,我们研究了一种不需要预定义实体类型,而是利用在预训练中学习的特殊实体嵌入的方法。数据集。我们使用英语KBP-37数据集(Zhang和Wang,2015)对模型进行微调,并使用KBP-37测试集的502个句子的子集翻译成四种不同的语言创建的KBP-37数据集(Köksal和Özgür,2020)对模型进行根据Köksal和Özgür(2020),我们报告了18个关系的F1得分的宏观平均值模型在输入文本中,头部和尾部实体用特殊标记(,)。基线模型提取特征将实体的向量作为第一标记的上下文化向量,然后是它们的提及。这两个实体特征被连接并输入线性分类器以预测它们的关系。对于mLUKE-E,我们引入了两个特殊的实体,[HEAD]和[TAIL],以表示头部和尾部实体(Yamada et al. ,2020)。它们的嵌入使用实体[MASK]嵌入进行初始化。它们被添加到与输入中提到的实体相关联的输入序列中,并且它们的上下文化表示被提取为特征向量。与基于单词的模型一样,特征被连接并输入到线性分类器。+v:mala2277获取更多论文RENERendeesfrtravg.endenlesavg.mBERT65.057.361.658.956.259.889.770.075.277.178.0XLM-R底座66.560.862.960.957.761.791.574.380.779.881.6+ 额外的训练67.061.362.964.361.963.591.875.780.379.881.9mLUKE-W碱基68.764.365.862.165.065.291.675.180.279.281.5mLUKE-E碱基69.364.565.264.768.766.593.677.281.877.782.6XLM-K(Jiang et al. ,2022年)------90.773.380.076.680.1XLM-R大号68.065.365.063.364.165.192.575.182.980.582.8mLUKE-W大型66.265.368.166.564.766.292.376.582.680.783.0mLUKE-E大型68.165.867.866.464.466.594.078.383.581.484.3表3:关系提取(RE)和命名实体识别(NER)的F1分数4.2命名实体识别命名实体识别(NER)是在句子中检测实体并对其类型进行分类我们使用CoNLL-2003英语数 据 集 ( TjongKim Sang 和 De Meulder ,2003)作为训练数据,并使用CoNLL- 2003德语数据集和CoNLL-2002西班牙语和荷兰语数据集(Tjong Kim Sang,2002)评估模型。模型我们采用Sohrab和Miwa(2018)的模型作为基线模型,该模型列举了句子中所有可能的跨度,并将其分类为目标实体类型或非实体类型。在这个实验中,我们枚举了最多16个标记的span。对于基线模型,跨度特征被计算为第一个和最后一个标记的单词表示的串联。跨度特征被馈送到线性分类器中以预测其实体类型。mLUKE-E的输入包含与所有可能的跨度相关联的实体[MASK]令牌跨度特征被计算为实体[MASK]标记的上下文化表示。这些特征被输入到线性分类器,就像基于单词的模型一样。4.3主要结果结果示于表3中。mLUKE-E模型在所有可比较的设置(基本设置和大设置; RE和NER任务)中的平均得分优于基于单词的mLUKE-W模型,这表明基于实体的特征在跨语言任务中是有用的。我们还观察到XLM-R基础受益于额外的训练(RE平均提高1.8分,NER平均提高0.3分),但mLUKE-E仍然优于结果。4.4分析mLUKE-E相对于mLUKE-W的性能增益可以部分地解释为实体[MASK]de es fr trmLUKE-W基0.71 0.74 0.74 0.84mLUKE-E碱0.25 0.28 0.24 0.36表4:使用相同mLUKE模型计算的单词和实体特征的模块度。这些数据来自于英语和其他语言对的数据集。token提取更好的特征来预测实体属性,因为它类似于mLUKE如何使用MEP任务进行我们假设,存在另一个因素的跨语言性能的改善:表征的语言中立性。实体[MASK]标记跨语言共享,并且它们的上下文化表示可能较少受输入语言的差异的影响,从而产生对于跨语言迁移很好地概括的特征。为了找出基于实体的特征是否实际上比基于单词的特征更独立于语言,我们评估模块性(Fujinuma et al. ,2019年)的特征提取的XNUMX数据集。模块性是为嵌入的k-最近邻图计算的,并衡量嵌入在同一语言中倾向于形成集群的程度。我们建议读者参考Fujinumaet al.(2019)如何计算度量。请注意,模块性的最大值是1,0意味着嵌入是完全随机分布的,与语言无关。在微调之前,我们比较了来自mLUKE-W库的词特征和来自mLUKE-E库的实体特征的模块性请注意,这里的特征是头特征和尾特征的连接向量。 表4显示mLUKE-E基座的模块性远低于mLUKE-W基座,+v:mala2277获取更多论文我的意思是我的意思是mBERT17.1 36.8 24.0 24.3 42.9 14.3 19.5 39.4 26.2 27.2XLM-R底座14.2 27.2 16.2 14.9 28.2 11.9 11.7 25.1 17.6 18.5+ 额外的训练21.2 35.0 23.0 22.2 46.8 19.6 17.5 34.4 30.7 27.8mLUKE-W碱基22.3 31.3 18.4 19.6 46.7 18.4 16.7 31.9 29.3 26.1mLUKE-E碱([Y])27.8 37.5 30.4 28.4 44.2 28.9 25.8 42.1 33.4 33.2mLUKE-E碱基([X]&[Y])42.4 47.5 44.2 35.9 56.2 40.3 35.5 55.2 46.7 44.9表5:来自mLAMA数据集的9种语言的前1名准确度。这表明基于实体的特征更加与语言无关。然而,对于基于实体的特征,模块性仍然大于零。特别地,用土耳其语计算的模块度显著高于其他语言,土耳其语是这里离英语最远的语言,这表明上下文化的基于实体的特征仍然在某种程度上依赖于语言。5使用实体表示的完形填空提示任务在本节中,我们展示了在完形填空提示任务中使用实体表征是有效的(Liuet al. ,2021)与mLAMA数据集(Kassneret al. ,2021年)。”《说文》云:“以其人之道,以其人之道。,Mozart),以预测[Y]中的正确实体(例如,奥 地 利 ) 。 我 们 采 用 类 型 化 查 询 设 置(Kassner et al. ,2021),其中模板具有一组候选答案实体,并且预测变成具有由语言模型分配的最高分数的预测。模型 正如Kassner et al. 在步骤(2021)中,基于单词的基线模型将候选分数计算为来自MLM分类器的对数概率。 当[Y]中的候选实体被标记为多个标记时,相同数量的单词[MASK]标记被放置在输入序列中,并且通过取其各个标记的对数概率的平均值来计算另一方面,mLUKE-E使用实体[MASK]令牌计算[Y]中的候选实体的对数概率每个候选实体通过字符串匹配与mLUKE的实体词汇表中的实体相关联输入序列具有与[Y]中的单词[MASK]标记相关联的实体[MASK]标记,并且候选分数被计算为来自MEP分类器的对数概率。如果在词汇表中找到实体,我们还尝试将[X]的实体标记附加到输入序列为了准确测量在基于单词和基于实体的预测中,我们将候选实体限制为实体词汇表中找到的实体,并且如果其答案不包括在候选中,则排除问题(数据集中具有完整候选和问题的结果在附录G中)。结果 我们总共用mLAMA数据集和mLUKE的实体词汇表中的16种语言进行了实验。在这里,我们只在表5中列出了9种语言的前1名准确率结果,因为我们可以对其他语言进行类似的观察。我 们 观 察 到 ,XLM-R 基 地 表 现 明 显 不 如mBERT中提到的Kassner等人。 (2021年)。然而,通过使用维基百科语料库进行额外的训练,XLM-R基础显示出显著平均分提高9.3分,优于mBERT(27.8 vs. 27.2)。我们推测,这表明了训练语料库对这项任务的重要性。原始的XLM-R仅使用CommonCrawl语料库进行训练(Conneauet al. ,2020 a),从各种各样的网页中抓取文本,而mBERT和XLM-R +训练是在维基百科上训练的。性能差距表明维基百科对于模型学习事实知识特别有用。mLUKE-W基础模型落后于XLM-R基础+额外 训 练 1.7 个 平 均 点 , 但 我 们 可 以 看 到XLM-R基础模型提高了5.4个点+对mLUKE-E基([Y])的额外训练,表明实体表示更适合于引出正确的事实知识从mLUKE比文字表示。将对应于[X]的实体添加到输入(mLUKE-Ebase([X][Y] ))进一步将性能提高11.7个点,44.9%,进一步证明了实体表示的有效性。语言偏见分析 Kassner等人 (2021)指出,mBERT的预测受到输入语言的影响。例如,当 用 意 大 利 语 查 询 时 ( 例 如 , , “[X] estato creato in [MASK]. “),该模型倾向于预测经常出现在意大利语文本中的实体(例如,意大利)的任何问题回答+v:mala2277获取更多论文enjafrmBERT巴哈马,41%(355/870)日本,82%(361/439)Pays-Bas,71%(632/895)XLM-R底座伦敦,78%(664/850)日本,99%(437/440)Allemagne,96%(877/916)+ 额外的训练澳大利亚,27%(247/899)日本,99%(437/442)Allemagne,93%(854/917)mLUKE-W碱基德国,22%(198/895)日本,97%(428/442)Allemagne,99%(906/918)mLUKE-E碱([Y])伦敦,37%(310/846)日本,56%(241/430)Suède,40%(362/908)mLUKE-E碱基([X]&[Y])伦敦,27%(213/797)日本,44%(176/401)Suède,30%(266/895)表6:模板“[X]在[Y]中建立”的三种语言中的最高错误预测。”对于每一个模型。原文的预测被翻译成英语。位置.我们希望使用实体表示法可以减少语言偏见,因为实体在不同语言中是共享的,受问题语言频率的影响较小。我们定性地评估语言偏见的程度,在模型中寻找他们的不正确的预测。我们在[Y]中发现了模板[X]的最大错误预测。” for each modelin Table实例表明,不同的模型对不同的实体,如英语和法语,明显的偏见,虽然在日语中的模型一致倾向于预测日本。从语言偏见的程度来看,mLUKE-Ebase([X][Y])总体上表现出较低的前1个然而,较低的语言偏差并不一定意味着更好的性能:在法语(fr)中,mLUKE-Ebase([X][Y])给出的前1个错误率低于mBERT(30% vs. 71%),但它们的总错误预测数相同(895)。语言偏见只是性能瓶颈的几个因素之一6相关工作6.1多语言预训练语言模型多语言预训练语言模型最近由于其在跨语言迁移 学 习 中 的 有 效 性 而 引 起 了 人 们 的 兴 趣( Conneau 和 Lample , 2019; Liu 等 人 ,2019)。,2020)。训练这种模型的一种直接方 法 是 多 语 言 掩 码 语 言 建 模 ( mMLM )(Devlin et al. ,2019; Conneau et al. ,2020a),即,用多种语言的单语语料库集合训练虽然模特们训练过具有mMLM的人在没有任何跨语言监督的情况下表现出强大的跨语言能力(K et al. ,2020; Conneau et al. ,2020 b),一些研究旨在开发更好的多语言模型,明确的跨语言监督,如双语词典(Conneau et al. ,2020 b)或平行句子(Conneau和Lample,2019)。 在这项研究中,我们建立了一个多语种的预训练语言模型的基础上XLM-RoBERTA(Conneau etal. ,2020 a),用mMLM以及掩蔽实体预测(MEP)训练(Yamada et al. 2020年),以实体表示。6.2具有实体知识的预训练语言模型用大型语料库训练的语言模型包含关于真实世界实体的知识,这对于实体相关的下游任务(例如关系分类、命名实体识别和问题回答)是有用的。以前的研究表明,我们可以通过将实体信息纳入模型来改进此类任务的语言模型( Zhang et al. , 2019; Peters et al. , 2019;Wang et al. ,2021; Xiong et al. ,2020; Févryet al. ,2020; Yamada et al. ,2020)。当被合并到多语言语言模型中时,实体信息可以带来另一个好处:实体可以作为模型的锚来对齐跨语言的表示。多语言知识库(如Wikipedia)通常为同一实体提供跨语言的不同 表 面 形 式 之 间 的 映 射 。 Calixto 等 人(2021)通过从维基百科文章中的超链接预测语言无关实体ID来微调多语言BERT的顶部两层 。 作 为 我 们 的 并 行 工 作 , Jiang 等 人(2022)训练了一个基于XLM-RoBERTA的模型,其中包含实体预测任务和对象蕴涵预测任务。虽然以前的研究集中在通过实体信息预训练来改善跨语言的语言表征,但我们的工作研究了一个多语言模型,不仅预训练了+v:mala2277获取更多论文不仅具有实体,而且还明确地具有实体表示,以及如何从这样的模型中提取更好的特征。7结论我们研究了多语言模型中实体表示的有效性。我们的预训练模型mLUKE不仅在单词输入(mLUKE-W)方面表现出了很强的经验结果,而且在跨语言迁移任务中的实体表示(mLUKE-E)我们还表明,一个完形填空提示式的事实完成任务,可以有效地解决与实体词汇表中的查询和答案空间我们的研究结果表明了一个有希望的方向,进一步追求如何利用实体表示在多语言任务。此外,在当前模型中,实体被表示为单独的向量,这在实践中可能会引起大的内存占用。人们可以研究一种具有实体表示的有效方法。引用WasiAhmad , NanyunPeng , andKai-WeiChang.2021年Gate:用于跨语言关系和事件提取的图形注意力Transformer编码器. 第35届AAAI人工智能会议论文集。Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移。在计算语言学。Iacer Calixto Alessandro Raganato和Tommaso Pasini2021.WikipediaEntitiesasRenminbiacrossLanguages : GroundingMultilingualLanguageModels by Predicting Wikipedia Hyperlinks.在计算语言学中。史蒂文·曹尼基塔·基塔耶夫和丹·克莱因2020. 语境词汇表征的多语言对齐。在国际学习代表上。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020年a。无监督跨语言表征学习。第58届计算语言学协会年会论文集。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 神经信息处理系统进展,第32卷。Alexis Conneau , Shijie Wu , Haoran Li , LukeZettle- moyer,and Veselin Stoyanov. 2020年b.在预训练语言模型。在计算语言学。崔乐阳、吴宇、刘健、杨森、张跃。2021年使用BART的基于模板的命名实体识别。计算语言学协会的研究结果:ACL-IJCNLP 2021。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1。Sumanth Doddapaneni,Gowtham Ramesh,AnoopKunchukuttan,Pratyush Kumar,and Mitesh M.卡普拉2021.APrimeronPretrainedMultilingualLanguageModels.ArXiv,abs/2107.00676。Thibault Févry , Livio Baldini Soares , NicholasFitzGerald,EunsolChoi,andTomKwiatkowski.2020. 作为专家的实体:具有实体监督的。2020年自然语言处理经验方法会议论文集。Yoshinari Fujinuma , Jordan Boe-Graber , andMichael J. Paul. 2019. 一种基于图模块度的跨语言词嵌入无资源评价指标。 在计算语言学。Xiaoze Jiang , Yaobo Liang , Weizhu Chen , andNan Duan. 2022. XLM-K:利用多语言知识改进跨语言。第36届AAAI人工智能集。Karthikeyan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功