元学习：基于元学习的快速跨语言依存句法分析

82 浏览量更新于2023-12-01 收藏 699KB PDF 举报

依存句法分析

文件标签

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于元学习的依存句法分析快速跨语言适应Anna LangedijkF，1，Verna Dankers1，2，Phillip Lippe1，SanderBos1，Bryan Cardenas Guevara1， Helen Yannakoudakis3和 EkaterinaShutova11阿姆斯特丹大学逻辑、语言和计算研究所2爱丁堡大学语言、认知和计算研究所3伦敦国王学院信息学系摘要元学习，或学习学习，是一种技术，可以帮助克服跨语言NLP问题中的资源短缺，通过启用快速适应新的任务。我们应用模型无关元学习（MAML）的跨语言依赖分析的任务。我们在一组不同的语言上训练我们的模型，以学习可以快速适应新语言的参数初始化。我们发现，元学习与预训练可以显着提高语言迁移和标准监督学习基线的性能，用于各种看不见的，类型多样的，低资源的语言，在几次学习设置。1介绍自然语言处理（NLP）领域由于大规模语言模型预训练（Devlinet al. ，2019）。虽然为随后的特定任务微调提供了一个明智的起点，但此类模型仍然需要针对手头任务的大型注释训练集（Yogatama et al. ，2019）。这限制了它们对少数几种语言的适用性，并导致NLP技术的质量和可用性在语言社区之间的不平衡为了解决这个问题，最近的研究集中在多语言句子编码器的开发上，例如多语言 BERT（mBERT）（Devlin et al. ，2019）和XLM-R（Conneau et al. ，2019年），培训多达93种语言。这种预先训练的多语言编码器可以实现跨语言的任务特定模型的零触发传输（Wu和Dredze，2019），为资源稀缺提供了一种可能的解决方案。零射击转移，怎么-2通讯作者：annalangedijk@gmail.com。在类型相似的高资源语言中最成功，而对于远离训练语言和资源贫乏的语言则不太成功（Lauscher et al. ，2020）。这强调了开发快速跨语言模型适应技术的必要性，这种技术可以在有限的监督下跨广泛的类型多样的语言转移知识。在本文中，我们专注于通用依赖（UD）分析的任务，并提出了一种新的方法，有效的和资源节约型跨语言的分析器适应通过元学习。元学习是一种学习范式，它利用先前的一组任务的经验来有效地解决新任务。由于我们的目标是快速跨语言模型自适应，因此我们专注于基于优化的Meta学习，其中主要目标是找到一组初始参数，从而可以快速适应各种不同的任务（Hospedales et al. ，2020）。基于优化的元学习已成功应用于各种NLP任务。值得注意的例子包括神经机器翻译（Gu et al. ，2018）、语义解析（Huang et al. ，2018），预训练文本表示（Lv et al. ，2020）、词义消歧（Hollaet al. ，2020）和跨语言自然语言推理和问题回答（Nooralahzadeh et al. ，2020）。据我们所知，元学习还没有在依赖分析的上下文中被我们从最近关于单向依赖解析的研究中获得灵感（ Tran 和 Bisazza ， 2019;Kondratyuk 和Straka，2019）。我们采用了一个ex-codeUD解析框架 - UDify ，一个多任务学习模型（Kondratyuk和Straka，2019）- 并将其扩展为通过Meta学习对先前看不见的语言执行少量模型自适应。在应用模型之前，我们在高资源语言arXiv：2104.04736v1 [cs.CL] 2021年4月+v：mala2277获取更多论文不可知元学习（MAML）算法（Finnet al. ，2017年）到一系列不同语言的少量任务。我们评估我们的模型，它的能力，执行少数镜头适应未知的语言，从只有20个例子。我们的研究结果表明，我们的方法在一系列语言家族上优于语言迁移和多语言联合学习基线，以及现有的（零射击）UD解析方法，其中低资源语言的改进最为显着。我们还研究了预训练语言作为跨语言适应的起点的作用以及打字属性对学习过程的影响。2相关工作2.1元学习在元学习中，数据集被分成与训练任务相对应的片段。每一集都包含一个支持集和一个查询集，其中包括用于改编和评估的样本。元学习作为来自三个类别的算法的总称：基于度量的方法基于它们与支持集的相似性对新样本进行分类（例如，Snell et al. ，2017年）。基于模型的方法显式地将元知识存储在其架构内-例如通过外部存储器（Santoro et al. ，2016）。我们关注的基于优化的方法估计可以用几步梯度下降微调的参数初始化（例如Finn et al. ，2017;Nichol and Schulman，2018）。Finn等人（2017）提出了模型不可知元学习（MAML）来学习参数初始化，这些参数初始化可以很好地推广到类似的任务。在元训练阶段，MAML迭代地选择一批情节，在内部学习循环中对给定支持集的原始参数进行微调，并在查询集上对其进行测试查询集相对于原始参数的梯度用于更新外部学习循环中的那些，使得这些权重在迭代中成为更好的参数初始化。因此，在元测试过程中，为测试任务选择一个支持集，使用该支持集调整模型，并在来自测试任务的新样本上对其进行评估MAML为机器翻译等任务的跨语言传输提供了性能优势（Gu et al. ，2018），命名实体识别（Wu etal. ，2020）、上位性检测（Yuet al. ，2020）和映射引理到inflected形式（Kann et al. ，2020）。最接近我们的方法是Nooralahzadeh等人（2020），他们专注于自然语言推理和问题回答。他们的方法X-MAML涉及在应用MAML之前在高资源语言上预训练模型。这产生了优于标准监督学习的性能优势，用于在零射击和微调设置中进行跨语言迁移（尽管使用2500个训练样本来微调测试语言）。共享形态句法特征的语言的性能增益最大。除了关注依赖解析之外，我们的方法还可以在几个方面与Nooralahzadehet al.（2020）区分开来。我们专注于从少量的例子（仅使用20，40或80个句子）快速适应。虽然他们使用一种语言进行元训练，但我们使用七种不同类型的语言，目的是明确学习适应各种语言。2.2通用依赖分析通用语法项目是一个正在进行的社区努力，旨在构建一个跨语言一致的形态句法注释方案（Nivre，2018）。该项目使跨语言的结果具有可比性，并简化了跨语言（结构）学习的评估。依存分析的任务涉及预测输入句子的依存树，依存树是单词之间的二元非对称弧的有向这些弧被标记并表示中心词与其从属词之间的依存关系类型。解析器的任务是为所有可能的依赖图空间分配排名，并选择最佳候选。对资源不足的语言的依赖解析长期以来一直是NLP的主要兴趣。性能良好的UD解析器，例如Che等人（2018）在CoNLL 2018共享任务中的获奖模型，不一定在低资源语言上表现良好（Zeman等人）。，2018）。跨语言UD解析通常是通过在具有并行语料库的语言之间投影注释来完成的（Agic 'et al. ，2014年），通过模型转移（例如， Guo等人，2015; Ammar etal. ，2016; Ahmad et al. ，2018年），通过结合注释投影和模型转移的混合方法（Tiedemann et al. ，2014），或者通过跨语言对齐单词嵌入（Schuster et al. ，2019）。用于跨语言依赖性解析的最先进的方法利用预训练的mBERT，+v：mala2277获取更多论文e=ηB·softmax（γ）ijJ一个依赖解析分类层，在高资源语言的树库上进行微调，并转移到新的语言上： Wu 和Dredze（2019）只在英语上进行微调，而Tran和Bisazza（2019）试验了多组微调语言。包括不同的语言家庭和脚本的好处转移到低资源的语言，特别是Kondratyuk和Straka（2019）的模型UDify对来自75种语言的数据进行了联合微调，其多任务学习目标将依赖分析与预测词性标签，形态特征和词元相结合。 Uüstuün等人（2020），相反，冻结mBERT参数并训练与mBERT层交错的适配器模块，并将语言嵌入作为输入。这种嵌入是从类型学特征预测的。模型性能在很大程度上依赖于这些特性的可用性，因为使用来自不同语言的代理嵌入会严重降低低资源语言的3数据集我们使用的数据来自Universal Observenciesv2.3语料库（Nivre，2018）。我们使用26种语言的树库，这些语言是根据它们的类型学特征选择的。芬兰语、法语、日语、波斯语、德语、泰米尔语、乌尔都语、越南语、匈牙利语、瑞典语。测试语言涵盖了三个新的语系，这三个语系在培训过程中是看不到的，即南亚语系、德拉威语系和乌拉尔语系。此外，我们的三种测试语言（布里亚特语、法罗语和上索尔比安语）没有包括在mBERT的预训练关于树库大小和语言家族的详细信息，我们请读者参阅附录B4方法4.1UDify模型UDify模型同时预测词性标签，形态特征，引理和依赖树（Kondratyuk和Straka，2019）。UDify利用预训练的mBERT模型（De vlinetal. ，2019），其是具有12个Transformer编码器层的自注意网络。该模型以单个句子作为输入。每个句子使用mBERT的词块标记器标记成子词单元，之后上下文嵌入查找为自我注意层提供输入。计算所有层的输出的加权和（等式1）并将其馈送到任务特定分类器。多样性我们采用高t资源语言和低资源语言和Bisazza（2019），并使用他们的一套火车-（1）测试和测试语言的可比性。这套语言包括六个语系（印欧语、朝鲜语、亚非语、乌拉尔语、达罗毗荼语、南亚语）和16个亚科。他们的训练集（expMix）包括八种语言：英语、阿拉伯语、捷克语、印地语、意大利语、韩语、挪威语和俄语。这些语言属于印欧语系、朝鲜语和亚非语系，并有不同的语序（即VSO、SVO和SOV）。在Tran和Bisazza（2019）的实验中，对来自这个不同集合的数据进行联合学习，在低资源语言上产生了最先进的零射击每个训练语言我们使用多达20，000个示例树，从总共132个类中预测依赖弧标签。我们选择保加利亚语（印欧语）和泰卢固语（德拉威语）作为验证语言，以提高对多个语言家族的泛化能力。在16种看不见的测试语言中，有6种是低资源语言：亚美尼亚语、布雷顿语、布里亚特语、法罗语、哈萨克语和上索布语。其余的测试语言都是高资源的：这里，et表示任务t的上下文输出嵌入。在我们的例子中，t表示UD解析。与原始UDify模型的多任务目标相比，我们的实验只涉及UD解析。项Bij表示层i = 1，.， 12在令牌位置j处。术语γ和η表示可训练标量，其中前者适用于mBERT，后者缩放归一化平均值。对于被分词为多个词段的词，只有第一个词段被馈送到UD解析分类器。UD解析分类器是基于图的双仿射注意力分类器（Dozat和Manning，2017），其通过arc-head和arc-dep前馈层投射嵌入使用双仿射注意力组合产生的输出，以产生每个单词的弧头的概率分布。最后，使用Chu-Liu/Edmonds算法（Chu，1965;Edmonds，1967）解码依赖树我们建议读者参考Kondratyuk和Straka（2019）的工作，以了解有关架构及其培训程序的更多我+v：mala2277获取更多论文我| |Σ| | ∈ {}4.2元学习过程我们将一阶1MAML应用于UDify模型。模型的自注意层用mBERT的参数初始化，分类器的前馈层随机初始化。该模型使用标准的监督学习在高资源语言上进行预训练，并使用MAML在一组七种语言上进行进一步的元训练。然后使用元测试进行评估。我们将带有预训练的MAML简称为MAML。整个过程可描述如下：步骤1在高资源语言上进行预训练以产生初始参数Θ。第2步对所有其他培训语言进行元培训。对于每个语言i，我们将UD训练数据划分为两个不相交的集合，Dtrain和Dtest，5.1训练和评价预培训我们使用英语或印地语作为预培训语言。这使我们能够得出更一般的结论，关于MAML如何与类型不同的预训练语言进行通用化虽然英语和我们的许多培训语言都有SVO语序，但印地语有SOV语序。印地语树库具有较大比例的非投射依赖树（Mannem et al. ，2009），其中允许依赖性弧彼此交叉。非投影树解析起来更具挑战性（Nivre，2009）。因此，印地语的预训练使我们能够测试投射对跨语言适应的影响。我们预训练了60个epoch，在此期间我们使用UDify我我执行以下内部循环：(a) 使用从D训练采样的支持集S上的随机梯度下降暂时更新模型参数Θi，对于k个梯度下降自适应步骤，步长为α当使用单个梯度步长时，更新变为：Φi<$Θ−α<$ΘL（Θi）（2）(b)计算模型参数Φi使用从Dtest采样的查询集Q，元训练我们使用七种语言进行元训练，从而将预训练语言排除在元训练之外。每种语言训练500集，使用基于余弦的学习率调度器，预热10% 。我们在外循环中使用 Adam 优化器（Kingma和Ba，2014）支持集和查询集的大小为20。由于序列标记范例，每个类表示为Li（Φi）。i随批次变化。当S = 20时，平均类将出现16次。频繁的类，如punct第3步总结测试损失，并执行Meta-使用步长β在具有参数θ的模型上的外部学习循环中更新：Θ←Θ−β<$ΘLi（Φi）（3）我在我们的实验中，更新是一阶近似，将θLi（Φi）替换为θLi（Φi）。第4步在元训练之后，我们将元测试应用于看不见的语言。对于每种语言，我们从UD训练数据中采样支持集S然后我们在S上微调我们的模型，并在整个测试集上评估模型。因此，元测试模仿来自内部循环的适配。我们多次重复这个过程，以获得模型适应未知语言的可靠估计5实验装置我们扩展了现有的UDify代码2，以用于元学习设置。1有关一阶与二阶的更多详细信息，请参见Finn et al.（2017）; Holla et al. （2020年）。2github.com/Hyperparticle/udify可能出现多达100次，而不太频繁的类可能根本不出现。为了选择超参数，我们独立地改变mBERT和解析器的内部循环和外部循环中的更新量k和学习率，同时使用保加利亚语和泰卢固语进行元验证。为了进行元验证，我们遵循4.2节中描述的两种语言的过程，模拟支持集大小为20的元测试设置。独立估计印地语和英语预训练的超参数（见附录A）。元测试在元测试时，我们使用具有相同学习率的SGD，并且在元训练期间在内部循环中使用相同的k。我们改变支持集大小S20、40、80，以监视使用更多数据带来的性能增益。5.2基线我们定义了几个基线，使用元测试进行评估，即在评估+v：mala2277获取更多论文| || || |在这种语言上。这使我们能够直接将他们快速适应新语言的能力与元学习者的能力进行比较。单语基线（EN，HIN）这些基线测量元训练对来自其他七种语言的数据的影响。该模型使用mBERT初始化，并使用英语（EN）或印地语（HIN）的数据进行训练，而无需元训练。多语言非情景基线（NE）代替情景训练，该基线将支持和查询集视为常规小批量，并直接使用联合学习目标更新模型参数，类似于Kondratyuk 和 Straka （ 2019 ）以及 Tran 和Bisazza（2019）。该模型是在英语或印地语上进行预训练的，因此表明了MAML相对于标准监督学习的优势。训练学习率和元测试学习率是分别估计的，因为在这种设置中没有内环更新。没有预训练的MAML我们通过运行没有任何预训练的MAML设置来评估预训练的效果相反，预训练语言在元训练期间被包括为现在的八种语言之一。没有预先训练的MAML每种语言训练2000集。最简单的基线是在mBERT之上随机初始化的解码器，没有预训练和元训练。依赖解析只在元测试时引入。5.3评价超参数选择和评估使用CoNLL 2018共享任务评估脚本计算的标记依恋评分（LAS）3LAS评估依赖类和依赖头的正确性。我们使用通用知识的标准分割进行培训和评估（如果可用）。否则，我们首先从测试集中删除支持集。我们用七种不同的种子训练每个模型，并使用配对t检验将MAML与单语基线和NE进行比较，使用Bonferroni校正调整多个6结果和分析我们在表1中报告了在英语上预训练的模型的平均LAS分数。我们将这些结果与重新-3universaldependencies.org/conll18/evaluation.html使用mBERT并具有多个训练语言的延迟方法。在支持集大小为20的情况下，MAML已经超过了Tran和Bisazza（2019）对所有测试语言（波斯语和乌尔都语除外）的零次传输设置。MAML与UDify（Kondratyuk和Straka，2019）和 UDify （ U？ s tu？ netal. ， 2020 ），尽管与UDify 4（75）相比，训练语言的数量存在明显差异，并且不依赖于语言的细粒度类型特征，如UDify的情况。MAML始终优于EN和NE基线。在低资源和非日耳曼语言上，EN基线有很大的改进。当S变大时，MAML和基线之间的差增大。在泰米尔语和日语方面，NE的改善最大，但在匈牙利语和乌尔都语方面，NE的表现优于MAML。MAML在低资源语言上的表现一直优于NE，平均每种低资源语言的性能提高1.1%，|S|= 20，平均改善高达2.2%，|S|= 80。使用印地语预训练的MAML在印地语上预训练的模型的结果可以在表3中看到。虽然单语EN和 HIN 基线之间存在很大差异，但 MAML（HIN）和NE（HIN）平均达到与英语对应者相似的LAS分数。对于大多数语言，MAML仍然优于NE：对于低资源语言，每种语言的平均改进为 0.8% ， |S|= 20 ，每种语言增加到1.6%，|S|=80。预训练的效果我们通过省略预训练阶段来进一步研究预训练的有效性。MAML和没有预训练的MAML之间的比较如表2所示。没有预训练的MAML在大多数语言中表现不佳，并且其性能不会随着更大的支持集大小而增加这表明，预训练为元学习提供了比普通mBERT更好的起点在仅元测试的设置中，对于S = 20，微调模型在所有测试语言上达到6.9%的平均LAS，对于S=20，增加到15%。S=80，这表明元测试本身并不是足以学习任务。5UDify是在低资源语言上训练的，而我们只在它们上测试。为了进行公平的比较，我们只列出了训练集中含有少量句子（80个）的语言的UDify结果，以模仿少量的泛化设置。<5完整结果见附录C+v：mala2277获取更多论文| || |语言T BK S乌斯特。EN|S|= 20NEMAMLEN|S|= 40NEMAMLEN|S|= 80NEMAML低资源语言亚美尼亚58.95布列塔尼52.62 39.84布里亚特†23.11 26.28法罗群岛†61.98 59.26哈萨克斯坦44.5663.66索布族平均值48.45–28.969.260.754.2–49.863.3463.8450.5963.5464.3051.9963.7964.7860.3461.4464.1861.3261.6765.1262.7662.2066.1423.6625.5625.7723.8225.6726.3824.1725.8827.3368.5067.8368.9569.5668.1269.8870.5968.6271.1247.2555.0255.0747.8055.0855.4649.0855.2356.1549.2954.4756.4050.5554.7057.5552.1155.0758.8149.8154.6155.7050.6154.8056.4551.7855.1357.38高资源语言56.9965.0765.4057.7365.1865.82芬兰语62.29–56.6164.9464.89法语59.54–65.2166.5566.8565.3366.5966.9765.6366.6567.25德语70.93–72.4776.1576.4172.676.1776.5472.9376.2176.72Hungar.61.11–56.5062.9362.7156.2363.0962.8156.7363.2162.52日语24.10–18.8736.4939.0620.0537.1542.1722.8038.4046.81波斯语56.92–43.4352.5552.8144.5352.7653.6346.4253.1154.74瑞典语78.70–80.2680.7381.3680.4180.8181.5380.5780.7981.59泰米尔语32.78–31.5841.1244.3432.6741.7246.7334.8142.8850.73乌尔都语63.06–25.7157.2555.1626.8957.3656.1629.3057.6857.60越南29.71–43.2442.7343.3443.6542.8243.7444.2843.0244.34平均值53.91–49.3958.1458.6949.9358.3559.5751.1258.7160.81是说51.88––49.5556.8257.5750.1957.0258.451.3757.3759.52表1：未见过测试语言的每个支持集大小S的平均LAS对齐准确度。每个类别的最佳结果以粗体显示。显著结果加下划线（p<0. 005）。以前的工作包括Tran和Bisazza（2019），UDify（K ondratyuk和Straka，2019）和UDify（Uüstuünetal. ，2020）。 †：语言没有出现在mBE RT中。预训练语言的语法属性。我们进行了两种类型的分析，基于类型学特征和投射性，以量化这种效果，并将这些属性与单语基线的性能增加相6首先，我们使用来自URIEL的103个二进制句法特征（Littell et al. ，2017）来计算语言之间的语法余弦相似度（表示为σ）。有了这个指标，像意大利语这样的语言在句法上更接近英语（σ = 0。（86）比乌尔都语（σ = 0. 62.虽然他们都是印度人，欧洲人对于每种看不见的语言，我们收集与每种（预）训练语言的余弦相似性。然后，我们收集了S=20时单语基线与NE或MAML设置之间的性能差异。对于每种训练语言，我们计算表2：没有预训练的MAML（表示为MAML-）与MAML（EN）的每种不可见语言的平均LAS。†：mBERT中没有语言。进一步分析：在单语基线上，每种语言的表现差异很大对于不同于测试语言的性能提高及其与此训练语言的相似性，如图1所示。当对印地语进行预训练时，与英语和相关语言的句法相似性存在显著的正相关当对英语进行预训练时，与SIM呈正相关6Tran和Bisazza（2019）没有发现明显的相关性通过使用性能的增加而不是语言|S|= 20MAMLMAML|S|= 80MAMLMAML低资源语言64.7866.1427.3371.1256.1558.7857.3860.0360.8427.0566.7954.9952.3853.68亚美尼亚63.8464.1825.7768.9555.0756.4055.759.7059.3326.0265.3053.9251.6752.66布雷顿布里亚特†法罗群岛†哈萨克U.索布族†是说高资源语言65.8262.47芬兰64.8961.97法国66.8563.4267.2564.15德国76.4174.3876.7274.72Hungar.62.7158.4762.5257.48日本39.0639.7246.8143.87波斯52.8150.3154.7451.08瑞典81.3677.5781.5978.10泰米尔44.3446.5550.6850.54乌尔都55.1655.457.6056.28越南43.3442.6244.3343.78是说55.9559.52 56.53+v：mala2277获取更多论文语言HIN|S|= 20NEMAMLHIN|S|= 40NEMAMLHIN|S|= 80NEMAML低资源语言48.8736.0924.7152.3049.9037.0841.4963.4162.4025.1865.5753.9453.5854.0164.1762.4726.7967.3154.4555.6455.1449.7038.9525.5454.6450.4938.2242.9263.5963.0525.4066.1754.0853.9454.3764.7663.7527.3768.2555.0056.5655.95亚美尼亚48.4134.0624.2450.7249.8036.2240.5763.3062.0925.0565.3153.7753.3653.8163.7661.5626.2766.8254.2354.9754.60布雷顿布里亚特†法罗群岛†哈萨克U.索布族†是说高资源语言50.9364.2065.0551.7964.4065.61芬兰50.4964.0564.64法国31.1664.4465.7331.5964.4465.6833.3964.4265.69德国44.8374.4075.1545.4674.4175.2346.6574.4675.31匈牙利46.7260.9862.5146.9761.3362.8947.9161.6862.91日本40.2539.9741.9643.0340.5643.6146.8741.5845.90波斯28.6053.7353.6329.5153.8554.0031.1154.0654.53瑞典46.9679.2479.8947.7379.3280.1449.1579.3180.21泰米尔46.5139.4439.5747.3539.8440.8448.5540.7342.81乌尔都67.7250.6449.1667.9650.9350.1668.1751.5051.57越南26.9642.1342.1227.9242.2342.3729.6142.4642.87是说43.0256.957.4443.8557.1158.045.3257.4658.74是说42.155.7456.3742.9655.9556.9244.4256.357.69表3：对于在印地语上预训练的模型，每种看不见的语言的平均LAS对齐准确度。每个类别的最佳结果以粗体显示，显著结果以下划线显示（p <0. 05）。005）。†：mBERT中没有语言对印地语和韩语很熟悉。正相关性意味着，在看不见的语言上，当与训练语言的相似性增加时，改进会增加。负相关意味着当与训练语言的相似性增加时，平均而言，元训练语言的选择对印地语预训练模型的性能提高有显著贡献这种效应对于MAML（HIN）更强（p=0. 006）比NE（HIN）（p=0. 026），这可以指示元训练过程更好地结合来自那些不相关语言的知识。其次，我们分析了哪些句法特征对性能影响最大。我们将单个URIEL特征与MAML词序特征与否定特征之间存在显著的相关性。考虑到这些特征在MAML的两种预训练语言中的存在，出现了一种模式：当预训练语言中不存在特征时，与性能的提高呈正类似地，当特征存在于预训练语言中时，存在负相关性，并且因此在元训练之后性能的增加这表明MAML在元训练期间成功地适应了这些特定功能。我们分析了MAML7最后，我们在所有数据集中检测非投影依赖树。使用的印地语树库中有14%的非投射树，而英语树库中只有7 这同样适用于 37 个粗粒度关系： uni-versaldependencies.org/u/dep/index.html8这一数字与Mannem等人的数字一致。（2009年）。阿拉伯语捷克语意大利语挪威语俄语印地语韩语英语平均1.00.50.00.51.0版图1：使用预训练（x轴）的模型在单语基线上的性能增加与训练语言语法（y轴）的余弦相似性之间的Spearman（*：p<0. 05）0.310.62*-0.230.66*0.260.54*-0.190.62*电话：+86-0571 -8888888传真：+86-0571 -8888888电话：+86-0511 - 8888888传真：+86-0511 - 8888888电话：+86-021- 88888888传真：+86-021 - 888888880.67* -0.81* 0.63*-0.75-0.6* 0.73* -0.55* 0.78*相似性语言+v：mala2277获取更多论文‡⬦| |有5%。9我们将性能的提高与语言树库中非投射树的百分比相相关性对于NE（EN）（ρ = 0.46，p = 0。01）和MAML（EN）（ρ=0。42，p = 0。03）。图3显示了相应的MAML（EN）的定义。我们没有发现在印地语上预先训练的模型之间存在显著的相关性。这表明，在大多数投射语言上训练的模型可以从非投射语言的进一步训练中受益更多。SVO（）名词前介词（）名词后物主（）动词后否定词（）宾语前否定词（）前主语词VOX（）动词（）SOV名词（）后的介词宾语标（）任何红色。（）Comitative vs instrumental mark（）前主语词缀OXV（）动词（）MAML（EN）MAML（HIN）图2：对于预训练的MAML（x轴），单语基线和URIEL特征（y轴）的性能增量之间的Spearmanρ。我们指出了英语（）和印地语（）中存在的特征。（*：p<0. 05）0.40.30.20.10.00.05 0.10 0.15 0.20 0.25非投影树图3：非投射依赖树的百分比与MAML相对于英语基线的改进之间的斯皮尔曼ρ（ρ = 0. 42，p =0。03）。7讨论我们的实验表明，元学习，特别是MAML，确实能够适应看不见的9完整结果见附录B。语言的跨语言依赖分析的任务比非情节模型更有效这两种方法之间的差异对于与训练集中的语言差异很大的语言（例如，日本表1），其中有效的少数镜头适应是至关重要的。这表明MAML在从一些示例中学习方面是成功的，并且可以有效地整合新信息。此外，如果我们增加未见过语言的测试支持大小S，我们可以看到MAML的性能明显提高，而NE仅略有提高。这表明MAML可能是一种更普遍的跨语言适应的有前途的方法，也是在少数学习场景之外我们对预训练的消融实验表明，MAML从一组强大的参数开始，在高资源语言上进行预训练是有益的。因此，预训练不依赖于特定语言。MAML在印地语或英语作为预训练语言时表现良好，尽管看不见的语言的改进有所不同。当模型在英语上进行预训练时，在语法上与英语不相似的语言在元训练期间，不同的训练语言（如印地语）对模型的泛化能力贡献最大句法特征，特别是那些与词序相关的特征，在预训练中已经学习过了，需要的适应性更少同样的道理，反之亦然，对于印地语的预训练。当将性能增加与非投射性相关联时，也观察到这种效果，尽管仅在一个方向上。在对主要是投射的语言进行预训练之后，对投射性不同的一组语言进行元训练是有益的。然而，并不是所有的差异都可以用类型学特征的差异来解释。MAML在没有预训练的情况下优于MAML的事实表明，预训练也有助于语言不可知的句法特征，这确实是多语言UD模型的总体目标8结论在本文中，我们提出了一个元学习的跨语言依赖分析的任务的方法。我们的实验表明，元学习可以提高少数镜头的通用依赖分析每一个看不见的，不相关的测试语言，包括低资源的语言和那些不覆盖，印地语阿拉伯语乌尔都韩国日本捷克亚美尼亚人泰米尔语俄语波斯语芬兰上索布语Telugu洪。意大利也不是。德国布雷特法国布里亚特远了瑞典越南英语URIEL中的功能性能提升-0.56*0.67*-0.51*0.81*0.81*-0.65*-0.6*0.75*-0.7*0.67*-0.61*0.26-0.48-0.480.8*0.8*0.64*0.65*-0.51*-0.81*0.57*-0.160.480.45-0.7*-0.86*0.61*0.63*-0.26-0.72*0.48-0.8*+v：mala2277获取更多论文由mBERT此外，我们看到在元训练之前进行预训练是有益的，如在 X-MAML 方法中（Nooralahzadeh et al. ，2020）。特别是，预训练语言可以影响在类型上与它不同的语言上需要多少适应。因此，基于语言关系和相关句法特征的特定假设，研究更广泛的预训练/元训练语言组合是未来研究的一个重要方向。通过在元训练期间包含更大的语法相关任务集（例如POS标记）来进行采样，可以进一步提高任务性能（Kondratyuk和Straka，2019）。引用Zelj k oAg ic'，Jo？ rgTiedemann，KajaDobr ov oljc，Si- monKrek ， DanijelaMerkle r ， andSaraMo ze.2014年。具有丰富形态句法标记集的相关语言的跨语言依存分析。在EMNLP 2014年关于密切相关语言和语言变体的语言技术研讨会上。放大图片作者： Wasi Uddin Ahmad ， ZhisongZhang，Xuzhe Ma，Eduard H. Hovy，Kai-WeiChang ，and Nanyun Peng. 2018. 无论远近，宽范围零 -跨语言依赖分析。 CoRR ，abs/1811.00570。WaleedAmmar ， GeorgeMulcaire ， MiguelBallesteros，Chris Dyer和Noah A Smith。2016.多语言，一个解析器 . Transactions of theAssociation for Computational Linguistics ， 4 ：431车万象，刘怡佳，王宇轩，郑伯，刘婷。2018. 迈向更好的UD解析：深度上下文化的词嵌入、集成和树库连接。在CoNLL 2018共享任务的会议记录中：从原始文本到通用语法的，第5564.朱英珍1965. 关于有向图的最短树形图。ScientiaSinica，14：1396Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 FranciscoGuzm' n 、 EdouardGrav e 、MyleOtt、LukeZettle-moyer和VeselinStoyanov。2019. 大规模无监督跨语言表征学习。arXiv预印本arXiv：1911.02116。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Timothy Dozat和Christopher D Manning。2017. 深度双仿射注意神经依赖解析。在ICLR。杰克 · 埃德蒙兹 1967. 最佳分支。Journal ofResearch of the National Bureau of Standards B，71（4）：233-240.Chelsea Finn Pieter Abbeel和Sergey Levine 2017. 模型不可知元学习用于深度网络的快速适应。第34届国际机器学习会议论文集-第70，第1126-1135页

下载后可阅读完整内容，剩余1页未读，立即下载