多语言模型的注释获取方法及效益

172 浏览量更新于2023-12-01 收藏 1.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文{关于高效获取多语言模型的注释Joel Ruben Antony Monizx，Barun Patrax，{jramoniz，barunpatra95}@gmail.com马修河卡耐基梅隆大学mgormley@cs.cmu.edu摘要当任务是为给定的问题支持多种语言时，出现了两种方法：为每种语言训练模型，其中注释预算在它们之间平均分配，以及在高资源语言上训练，然后零镜头传输到其余语言。在这项工作中，我们表明，使用单一模型跨多种语言我们还证明，主动学习提供了额外的，互补的好处。我们表明，这种简单的方法，使模型的数据效率，允许它仲裁其注释预算查询语言，它是不太certain.We的有效性，我们说明了我们提出的方法上的一组不同的任务：一个分类任务与4种语言，一个序列标记任务与4种语言和一个依赖性分析任务与5种语言。我们提出的方法虽然简单，但在预算有限的情况下，在多语言环境中构建模型的其他可行方案中表现出色1介绍虽然神经网络已经成为处理NLP任务的事实上的方法，但它们通常需要大量带注释的数据才能完成。在构建旨在服务于多种语言的系统受此启发，在本文中，我们解决了以下问题：考虑到在多语言环境中构建NLP任务系统的需求，以及固定的注释预算，我们如何有效地获取注释以跨多语言执行任务？解决这个问题的传统方法是建立一个单独的模型来服务于每个局域网，平等贡献语言。在这个场景中，注释预算被平均分配给所有语言，分别为每一个人训练。最近，另一个流行的方向是利用多语言预训练语言模型（MPLM），它固有地将多种语言映射到一个公共嵌入空间（Devlin等人，2019; Conneauet al. ，2020）。利用这些模型的流行方法是利用它们的零次迁移能力：在仅英语的语料库上训练任务，然后将模型零次用于其他语言。另一个旨在在有限预算下构建模型的正交工作线是主动学习（AL）（Shen et al. ，2018;Ein-Dor等人。，2020）。虽然这已经显示出提高了注释效率，但主要的方法是使用AL的（语言特定的）模型来训练每种语言的一个模型（ Shen et al. ， 2018; Erdmann et al. ，2019）。在这项工作中，我们表明，一个单一的MPLM训练的所有语言，同时执行更好地比训练独立的模型，为特定的语言，为一个固定的总注释芽-得到。此外，虽然已经针对单语言设置研究了结合MPLM使用AL的益处（Ein-Dor et al. ，2020年），我们表明，AL也产生的好处，在多语言设置。具体地说，我们表明，一个AL收购一种语言有助于提高零杆perfor-曼斯对所有其他语言，无论语言的种子数据。此外，我们表明，AL也产生的好处，我们提出的单一模型的情况。我们证明，我们的结果是一致的3个不同的任务，跨多种语言：分类，序列标记和依赖分析。我们的方法消除了维护n个不同模型的要求，并且使用了比训练独立模型时的n倍我们的分析表明，该模型在不同语言之间进行仲裁，arXiv：2204.01016v1 [cs.CL] 2022年4+v：mala2277获取更多论文{“的|L|那就L以形成一个多语种的课程。我们在 https ： //github 上发布代码。com/codedecde/SMAL.2相关工作注释预算的有效利用一直是许多主动学习工作的重点领域，显示了对不同任务的改进，如POS标记（Ringger et al. ，2007）、情感分析（ Karlos et al. ， 2012; Li et al. ， 2013;Brewet al. ，2010; Ju and Li，2012）、句法分析（Duong et al. ，2018）和命名实体识别（ Settles 和 Craven ， 2008; Shen et al. ，2018）。然而，大多数这些作品的重点是学习一种语言（通常是英语）。因此，之前关于AL的工作使用多语言设置或跨语言信息共享，并且超出了为每种语言训练单独模型多语言相互影响的最接近的工作对于向多种语言的转换，最近在构建MPLM方面的进展（Devlin et al. ，2019; Conneau etal. ，2020; Liu et al. ，2020; Xue等人，2020年）已经非常有效，特别是在零发射转移（皮雷斯等人，，2019; Liu et al. ，2020）。Ein-Dor等人（2020）研究了这些模型与人工智能结合使用时的数据有效性，但与其他人工智能工作一样，只关注单一语言。最后，Lauscheret al. （2020）研究了零拍摄设置的有效性，表明在英语训练的模型中添加一些示例可以提高零拍摄传输的性能。然而，这需要一个完整的英语任务特定语料库的可用性3方法3.1任务特定模型我们使用多语言BERT用例模型（mBERT）作为所有任务的基础模型。我们使用标准的训练方法来完成这些任务：对于分类，我们在[CLS]嵌入上使用单层。对于序列标记，我们为每个单词使用一个单独的层来预测它的标签。对于依赖解析，我们遵循Kondratyuk和Straka（2019），并使用mBERT嵌入和基于图的双仿射注意力解析器（Dozat和Manning，2017）。更多详情请参见附录A3.2预算分配设置为了理解多语言环境中的数据采集，我们在3个任务中考虑多语言数据集。对于每个任务t，设为语言的集合（n）。然后，我们将st定义为种子大小，bt为总注释预算，vt为t可用的注释验证示例的总数。我们将我们提出的单模型采集（SMA）设置与两个基线设置进行比较MonoA在此设置中，种子数据以及验证数据（st，vt）都是从一种语言中获取的此外，整个注释预算（bt）被分配给相同的语言。我们评估了该语言和其他n'1种语言在零触发设置中的测试数据性能。MMA对于这个设置，我们训练n个单独的模型，每种语言一个。每个模型都以st n的种子、vt n的验证集开始，并被指定为bt n的获取预算。在测试时，我们评估模型在训练语言上的性能。SMA对于这种设置，我们考虑一个单一的模型，其中训练和获取都是同时在所有n种语言上完成的。种子数据和验证集包括从对应于所有语言的数据中抽取的随机子集。因此，st、bt和vt的整体被分配给该单个模型。我们计算每种语言的测试数据的性能3.3主动学习策略主动学习领域往往不会揭示出明确的赢家--尽管人们普遍认为主动学习确实优于被动学习（Set-tles，2009）。因此，我们采用最简单的基于置信度的策略来证明它们对每个任务的有效性：分类的最小置信度（LC），最大归一化对数概率（MNLP）（Shen et al. ，2018）和解码树的归一化对数概率（NLPDT）（Li etal. ，2016）进行依赖关系解析最大归一化对数概率（MNLP）此策略选择模型预测的对数概率（按序列长度归一化）最低的实例。这一战略已被证明是极其+v：mala2277获取更多论文“„“„不不不对于NER有效（Shen et al. 2018年），因此我们在我们的环境中采用了它。最小置信度（LC）此策略选择与预测类对应的模型置信度最小的实例这种获取策略通常应用于分类任务，虽然简单，但一直被证明经常表现得非常好（Settles，2009）;因此，我们在我们的环境中采用它。解码树的归一化对数概率（NLPDT）该策略选择具有由Chu-Liu/Edmonds算法生成的解码树的最小对数概率dx的实例（参考A以获得附加细节）。（Li et al. ，2016年），我们还通过令牌的数量N1来规范化该分数。据我们所知，这是第一个探索用于多种语言的AL增强单一模型的4实验4.1数据集详细信息分类我们考虑使用Amazon Reviews数据集进行情感分析（Prettenhoferand Stein，2010）。该数据集由4种语言的评论及其二进制情感组成：英语（en），法语（fr），日语（ja），德语（de）。我们选择命名实体识别，并使用CoNLL 02/03数据集（ Sang ， 2002;Tjong Kim Sang 和 DeMeulder，2003），4种语言：英语（en），西班牙语（es），德语（de）和荷兰语（nl），以及4个命名实体：位置，人员，组织和杂项。依赖解析我们使用来自完整的通用语法v2.3语料库（Nivre et al.）的树库的子集，其中包含5种语言（英语（en），西班牙语（es），德语（de），荷兰语（nl），日语（ja））。2018年）;共有11个树库。4.2实验设置对于每个实验，我们运行4轮训练：一轮训练初始种子数据，然后是3轮获取。我们在所有情况下设置s“b“v。F或分类，我们设置st=300个句子。对于NER和Dependency Parsing，我们使用s t10k和St17. 分别为5k令牌（参见附录B）。我们报告的准确性分类，F1分数的NER，和未标记和标记的附件分数（UAS和LAS）的依赖分析。对于每个任务，我们在多种语言中运行3个设置（§3.2）对于每种设置，我们还训练了一个具有特定任务获取函数的 AL 模型（§3.3）。此外，我们使用所有可用数据训练SMA我们使用所有的数据来为所有语言训练一个模型，并分别为每种语言训练一个我们报告每个实验平均运行5有关超参数和训练的详细信息，请参阅附录C5结果和分析模型性能图1显示了NER在西班牙语上的性能（所有其他语言和任务的图请参见附录G）。尽管每种语言独立获取数据（MMA）表现良好，但SMA优于MMA。不出所料，带有es的MonoA在该类别中表现最好，因为它将整个预算分配给获取es数据;因此它形成了模型性能的上限。然而，当SMA的种子语言和推理语言不同时，SMA的性能优于MonoA。最后，AL始终提供优于随机获取的增益。为了分析所有语言的性能，我们展示了每一轮采集的性能，并汇总了所有语言的分类（图2）（相关性解析和NER图参见附录G在这里， SMA 在每一轮收购中的表现都优于MMA，因为MMA的预算利用率很低，可能会浪费注释在任务更容易的语言上。相比之下，SMA提高了预算利用率，同时也受益于跨语言信息。最后，SMA凭借其在语言方面的良好表现，始终优于MonoA。为了进行简要概述，我们在表1中为每个任务提供了所有回合的聚合指标。我们观察到SMA与其对应物相比做得更好我们也观察到这些模型是非常数据ef-1我们还尝试通过N 2进行归一化，以及全局归一化概率d（树在所有可能的有效树上的概率，使用矩阵树定理计算分区函数（Koo et al. ，2007; Smith and Smith ，2007）），但发现两者的表现更差。效率：使用AL，访问不到5%数据的模型实现了约 88% 准确率（分类）， 95.5% F1 得分（NER）和93.5% LAS（依赖）的（相对）性能。+v：mala2277获取更多论文˘˘˘第n{方法方法85MMASMA8580MMASMAMonoA[en]MonoA[es]MonoA[nl]MonoA[de]采集随机80MonoA[en]MonoA[fr]MonoA[ja]MonoA[de]采集随机LC上界75MNLP上界MM[100%]SM[100%]MM[100%]SM[100%]7065种子轮1轮2轮3种子轮1轮2轮3图1：一个任务（NER）和一种语言（es）在不同回合的表现。请注意，SMA AL的性能优于MMA AL。它还优于除MonoA[es]之外的所有MonoA基线，MonoA[es]是语言特定的上限。这里MNLP是用于NER的AL方法。图2：在每一轮采集中，针对一项任务（分类），所有语言的性能汇总。可以看出，SMAAL优于所有其他基线。请注意，SMA和MMA均优于MonoA。这是因为MonoA在语言与获取数据的语言不同时表现不佳。这里，LC是用于分类的AL方法。dency parsing）与使用所有可用数据训练的模型相比（完整数据性能见表2）此外，随着其优越的性能，SMA还提供了大量的参数节省：只需要一个单一的模型，相比之下，许多模型的线性n（从而使用1参数与MMA相比）。数据集度量AL MMA SMANERSpan-F1（-）75.179.1（+）77.380.5分类精度（-）67.773.8（+）69.374.0依存句法分析UAS（-）84.886.0（+）84.586.3Las（-）78.077.8（+）77.879.7表1：所有轮次和所有语言的平均结果（5%、10%、15%和20%数据）。（+）和（-）分别表示有AL和无AL。粗体突出显示任务的最佳性能。MM Full vs SM Full为了分析单个模型在使用1/n参数的情况下对相关语言的有效性，我们在所有数据上训练单个模型，并将其与n个语言特定的模型，其中n个模型中的每个模型具有与单个模型相同数量的参数;这也是我们的AL实验的上限。表2显示，拥有单一模型不会对性能产生不利影响曼斯。更详细的讨论见附录D。数据集度量MM充分SM充分NERSpan-F187.487.2分类精度86.087.0依存句法分析UAS91.391.3Las87.187.1表2：SM和MM的所有数据的性能。在这里，SM是在所有语言上训练的单个模型，而MM表示每种语言一个模型的所有语言的平均性能。相似的性能表明，模型有足够的能力来表示语言的解释。AL在MonoA中的有效性我们一致地观察到AL在源语言中提高了所有语言的性能，无论是对源语言运行推理还是对不同的目标语言进行零射击，无论是NER还是分类（表3）。我们假设，该模型选择语义困难或模糊的例子，凭借mBERT的共享嵌入式表示，跨语言推广据我们所知，这项工作是第一次证明，AL可以提高数据效率的分类和NER在零杆推理设置。在依赖分析的情况下，我们观察到757065+v：mala2277获取更多论文当源语言和目标语言不同时，会产生混合结果我们假设，这是因为依赖性分析是一个句法问题，使其更语言特定的，和零杆推理本质上更难。这与分类和NER形成对比，后者更语义化，使硬示例在语言中更具普遍性。更多详细信息请参见附录E数据集度量ALMonoANER源enesnldeSpan-F1（-）71.3 64.3 68.868.8（+）72.1 64.3 70.870.3分类源enfrjadeACC（-）71.9 72.5 69.166.2（+）72.9 72.1 70.368.0相关性分析源enesnldejaUAS（-）76.4 72.9 73.9 72.9 44.3（+）76.9 73.0 74.0 73.4 44.2Las（-）67.2 62.3 62.8 61.8 31.8（+）67.5 62.4 62.7 62.3 30.8表3：MonoAL所有轮次（5%、10%、15%和20%数据）和所有语言的平均结果。Source表示数据采集的语言，对于所有其他语言，推理是零触发的。可以看出，AL通常有助于零射击设置。SMA+AL收购什么？SMA+AL设置的一个优点是，随着训练的进行，模型可以在跨不同语言分配其获取预算之间进行调整。这与每种语言训练一个模型形成对比，其中具有高性能的语言的模型通过获取超过必要的内容而浪费了整体预算为了研究这一点，对于每种语言和每一轮，我们绘制了该语言的SMA+AL模型获得的累积标记与随机获得的预期获得的标记之间的相对差异（%）（更多详细信息请参见附录F对于每种语言，我们还绘制了该轮语言与100%数据可用时的性能相比的相对性能差异图3显示了SMA+AL用于NER数据采集的额外好处（其他任务请参阅附录F该模型最初从高级资源语言（英语）获取数据。但随着训练图3：净入学率的获取课程。条形（左侧y轴）表示与随机抽样相比，每种语言获得的累积标记的相对分数。线（右 y 轴）显示了与 100% 数据性能（MM）相比，语言性能的差异。请注意，该模型倾向于从性能低于100%对应语言（这里是es和de）的语言中获取数据这反过来又有助于模型仲裁其获取，以便在所有语言中实现类似的性能（相对于100%性能）（由线图的收敛指示）。继续进行，该模型有利于从它不确定的语言（西班牙语和德语）中获取数据。因此，这种“多语言课程”使该模式能够更有效地使用注释预算。我们发现SMA+AL最终在所有语言的100%数据性能上实现了类似的相对差异。6结论在这项工作中，我们考虑的问题，有效地建立模型，解决跨多种语言的任务。我们发现，与传统的方法相反，一个单一的模型仲裁之间的多tiple语言的数据采集大大提高了性能，在一个有限的预算sce nario，与AL提供额外的好处。引用安东尼·布鲁，德里克·格林，帕德雷格·坎宁汉姆.2010.使用众包和主动学习来跟踪在线媒体中的情绪。在ECAI。朱英珍1965.关于有向图的最短树形图。《中国科学》，14.Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettle- moyer和Veselin Stoyanov。2020. 大规模无监督跨语言表征学习。在ACL。+v：mala2277获取更多论文Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在NAACL。Timothy Dozat和Christopher D.曼宁2017. 深度双仿射注意神经依赖解析。在ICLR。Long Duong ， Hadi Afshar ， Dominique Estival ，Glen Pink ， Philip Cohen ， and Mark Johnson.2018. 深度语义解析的主动学习。在ACL。杰克·埃德蒙兹1967.最佳分支。国家标准局研究杂志B，71（4）。Liat Ein-Dor ， Alon Halfon ， Ariel Gera ， EyalShnarch ， Lena Dankin ， Leshem Choshen ，Marina Danilevsky ， Ranit Aharonov ， YoavKatz ， and Noam Slonim.2020. BERT 的主动学习：一项实证研究。在EMNLP。Alexander Erdmann 、 David Joseph Wrisley 、Benjamin Allen 、 Christopher Brown 、 SophieCohen-Bodénès 、 Micha Elsner 、 Yukun Feng 、Brian Joseph 、 Béatrice Joyeux-Prunel 和 Marie-Catherine de Marneffe。2019. 实用，高效和可定制的主动学习，用于数字人文学科。在NAACL。Matt Gardner，Joel Grus，Mark Neumann，OyvindTafjord，Pradeep Dasigi，Nelson F.刘，马修·佩特斯，迈克尔·施密茨，卢克·泽特尔莫耶.2018.AllenNLP：一个深度语义自然语言处理平台。在NLP-OSS。Shengfeng Ju和Shoushan Li。2012.通过选择词和文档来主动学习情感分类。在CLSW。Stamatis Karlos，Nikos Fazakis，Sotiris Kotsiantis，and Kyriakos Sgarbas. 2012.文本分类的主动学习实证研究。ASSR，6（2）.Diederik P. Kingma和Jimmy Ba。2015. Adam：一种随机优化方法。在ICLR。丹·康德拉图克和米兰·斯特拉卡。2019. 75种语言，1种模型：解析通用依赖。在EMNLP。Terry Koo，Amir Globerson，Xavier Carreras，andMichael Collins. 2007.通过矩阵树定理构造预测模型。在EMNLP。AnneLauscher， VinitRa vishankar， Iv anVulic' ，和Goran Glavavaeti。2020. 从零到英雄：论多语言变形金刚。在2020年自然语言处理经验方法会议（EMNLP）上，第4483-4499页，在线。计算语言学协会。李寿山，薛云霞，王仲卿，周国栋。2013.跨领域情感分类的主动学习。在IJCAI。Zhenghua Li ， Min Zhang ， Yue Zhang ， ZhanyiLiu ， Wenliang Chen ， Hua Wu ， and HaifengWang. 2016. 基于部分标注的依存关系分析的主动学习。在ACL。Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020.用于神经机器翻译的多语言去噪预训练。在TAACL。JoakimNi vre，MitchellAbrams，Jeljk oAgic'，Ahren-berg，et al. 2018.通用依赖关系2.3.形式与应用语言学研究所（ Institute of Formal and AppliedLinguistics，缩写为FAL）、查尔斯大学数学与物理系的LINDAT/CANAH-CZ数字图书馆特尔莫·皮雷斯，伊娃·施林格，丹·加勒特。2019年。多语言BERT有多多语言？在ACL。彼得·普雷滕霍夫和本诺·斯坦。2010. 基于结构对应学习跨语言文本分类。在ACL。Longhua Qian，Haotian Hui，Ya'nan Hu，GuodongZhou，and Qiaoming Zhu. 2014.基于伪平行语料库的关系分类双语主动学习。在ACL。埃里克·林格、彼得·麦克拉纳汉、罗比·哈特尔、乔治·巴斯比、马克·卡门、詹姆斯·卡罗尔、凯文·塞皮和德莱尔·朗斯代尔。2007.词性标注的主动学习：加速语料库标注。在法律上。郑金生2002. Ef：conll- 2002共享任务介绍。第六届自然语言学习集。伯尔定居。2009.主动学习文献调查。技术报告，威斯康星大学麦迪逊分校计算机科学系。伯尔·塞特斯和马克·克雷文2008. 序列标记任务的主动学习策略分析。在EMNLP。沈延耀，尹孝坤， Zachary C. Lipton ， YakovKronrod，and Animashree Anandkumar. 2018. 用于命名实体识别的深度主动学习。在ICLR。大卫·史密斯和诺亚·史密斯。2007.非投射依赖树的概率模型。在EMNLP。埃里克 ·F Tjong Kim Sang 和 Fien De Meulder 。2003. CoNLL-2003共享任务简介：独立于数据库的命名实体识别。在NAACL。托马斯·沃尔夫，莱桑德尔·德布特，维克多·桑，朱利安·肖蒙德，克莱门特·德兰格，安东尼·莫伊，皮耶-里克·西奇，蒂姆·劳特，雷米·卢夫，摩根·丰托- icz，乔·戴维森，萨姆·施莱弗，帕特里克·冯·普拉滕，+v：mala2277获取更多论文u{Clara Ma，Yacine Jernite，Julien Plu，CanwenXu，et al. 2020. Transformers：最先进的自然语言处理。在EMNLP中：系统演示。Linting Xue，Noah Constant，Adam Roberts，Mi-hir Kale ， Rami Al-Rfou ， Aditya Siddhant ，Aditya Barua，and Colin Raffel. 2020. MT5：一个大规模多语言预训练的文本到文本转换器。arXiv预印本arXiv：2010.11934。A任务特定详细信息在本节中，我们将详细介绍任务特定的适应性：产品类别：按照惯例，我们使用BERT模型生成的[CLS]嵌入上的单个线性层来生成分类任务的logit，并训练模型以最小化交叉熵损失。序列标记：我们将线性层应用于BERT模型生成的单词嵌入2以生成标签logits，并训练模型以最小化观察到的标签的负对数似然。依赖解析：我们使用基于图的双仿射注意力解析器（ Dozat 和 Manning ， 2017 ）。接下来（Kondratyuk和Straka，2019），我们使用最后一个BERT层的输出来代替Bi-LSTM层生成的嵌入。然后将这些嵌入与POS嵌入连接。然后，头前馈网络和子前馈网络分别为依存关系的每个头词和依存词这与双仿射注意力模块相结合，为每个单词生成概率分布以预测其头部，以及双线性层以预测每个依赖关系的标签。设τpiq“tp h pi，j q，d pi，j q，l pi，jq|hpi，jqdpi，jq，标签为lpi，jq 是第i个黄金属地数据集中的树然后训练模型，最大化黄金树的对数概率为：最大值最大值log `Pphpi，jq|dpi，jqq对于上面提到的所有模型，mBERT的所有层都在训练过程中进行了微调。B数据集统计数据我们在表4中报告了详细的数据集统计数据。请注意，种子被选择为英语训练数据大小的大约5%，如表的最右列所示。C实验细节本文中进行的所有实验均在5次运行中取平均值。对于每个实验，我们在（1 e-5，2 e-5，3e-5，4 e-5和5e-5）上执行LR搜索，并根据在适当验证（子）集上的性能选择最佳LR，如（Devlinet al. ，2019）。在所有实验中，我们将批量大小设置为32，并使用Adam（Kingma和Ba，2015）优化器。每轮训练以25个时期的耐心运行，总共最多75个时期。数据预处理为了避免GPU上的内存不足，我们对数据进行预处理，以便过滤出训练集中长度大于175且大于256个词段的示例用于NER。对于分类，我们简单地将所有实例截断为256个单词。我们还对训练集进行了重复数据删除，以确保在所有AL采集阶段，任何时候都不会选择重复数据代码本工作中使用的所有代码都是使用Python、PyTorch和AllenNLP实现的（Gardneret al. ，2018年），使用HuggingFace发布的预训练模型（Wolf et al. ，2020）。DSM完整版与MM完整版性能考虑到SMA设置使用的参数数量是参数数量的1/n，一个有趣的问题是，较少的参数是否会导致单个模型的任何表达能力的损失，这可能会导致更差的性能（多语言的诅咒（Conneau et al. ，2020））。为了回答这个问题，I jlog p p lpi，jq|hpi，jq dpi，jqq（一）我们在所有数据上训练单个模型，并将其与n个语言特定的模型进行比较，其中n个模型中的每个模型具有相同数量的参数在推理过程中，最好的依赖关系解析是通过用Chu-Liu/Edmonds al-tax m（Chu，1965;Edmonds，1967）解码生成。2以下（Devlin et al. ，2019），对于生成多个词段的词，我们使用第一个词段的嵌入。作为单一的模型。从表2的100%（最右侧）列中，我们发现使用单一模型不会对性能产生显著影响，并且无论任务中的所有语言是否+v：mala2277获取更多论文˘˘任务预算类型中文（简体）AL详细信息小火车火车Val.测试种子Val.预算NER令牌875k193k219k10k10k10k200k分类例如19k5k24k3003003006k依存句法分析令牌1.88M196k189k17.5k17.5k17.5k350k表4：每个任务的数据集汇总统计。在词源上是接近的（如在NER中）或遥远的（ja用于分类和依存分析）。然而，当有大量语言时，情况可能并非如此;调查这种观察结果如何与语言的数量相匹配将是未来工作的一个有趣方向。EMonoA设置表3中一个有趣的观察结果是，源语言中的AL有助于提高性能9692.58985.582en en+AL ja ja+ALfr fr+AL在所有语言中，无论推理是针对有问题的源语言运行，还是在没有任何训练的情况下对不同的目标语言进行零射击我们观察到，无论源语言是什么，NER和分类任务都是如此（参见图4）。我们假设这是因为模型选择语义困难或模糊的例子，这些例子通过mBERT的共享嵌入表示在语言之间进行概括，而我们甚至在词源上遥远的语言中也观察到这一点，例如当模型用英语训练而零镜头推理用日语完成时（反之亦然）。因此，AL选择不会过度适合特定的语言，而是选择困难但可推广的例子。我们观察到依赖解析的MonoA设置的混合结果：当目标和源语言相同时，AL比Random有很大的改进;然而，当它们不同时，结果是混合的。我们假设，这种差异是一个后果的依赖分析是一个句法问题，使其更语言专用，反过来使zero-shot一个固有的困难的问题。这与分类和NER相反，后者是更多的因此，后者任务的硬示例可能在语言之间更具通用性，从而与依赖关系解析任务相比，提高了AL性能。种子轮1轮2轮3(a) 用于分类的MonoA AL的相对差异en en+AL es es+ALnlnl+AL100.0096.2592.5088.7585.00种子轮1轮2轮3(b) NER的MonoA平均值的相对差异en en+AL es es+ALja ja+AL nl nl+AL100.0090.0080.0070.0060.00种子轮1轮2轮3(c) MonoA AL在依赖性分析中的相对差异图四：在源（de）上训练的mBERT的性能，作为在零激发分类设置（es和nl）中使用所有源数据时性能的相对百分比。+v：mala2277获取更多论文“·¨¨·¨¨F采集消融详情和课程在所有的语言中聚合。方法9080706050MMASMAMonoA[en]MonoA[es]MonoA[nl]MonoA[de]MonoA[ja]采集随机NLPDT上界MM[100%]SM[100%]图5：分类种子轮1轮2轮3图7：依赖解析：每轮的UAS，所有语言方法MMASMA80MonoA[en]MonoA[es]MonoA[nl]7060MonoA[de]MonoA[ja]采集随机NLPDT上界图6：依赖解析的获取教程请注意，为了消除不同数据集的影响，我们只为每种语言选择最大的数据集。在本节中，我们更详细地描述了对SMA+AL收购的调查分析设α1αn为整个数据集中存在的语言特定数据量（即αi0。3这意味着整个数据集的30%（训练+未标记的）是语言i的），并且令β1，1β m，n 表示在每一轮针对每种语言获取的数据量（即，β i ， j 表示在轮i由语言j获取的数据量）。然后，对于任务t，对于每一轮i和语言j，我们50MM[100%]SM[100%]4030种子轮1轮2轮3图8：依赖解析：每轮的LAS，所有语言G.2 NER的每轮采集性能图9显示了NER的每一轮采集的F分数，在所有语言中汇总pzinq ′9 999方法情节k“1βk，jαjbti.αjbti图5和图6显示了获取课程。MMA80SMA[en]MonoA[es]MonoA[nl]我们观察到这两项任务与75MonoA[de]采集随机依赖分析G详细结果本节提供了本文中所有实验的附加图以及详细的表格和结果。G.1依赖性解析的每获取轮性能图7和图8示出了用于依赖性解析的每一轮获取的UAS和LAS，70MNLP上界MM[100%]SM[100%]656055种子轮1轮2轮3图9：NER：每轮的F分数，所有语言+v：mala2277获取更多论文G.3NER实验表5、6、7和8分别显示了英语、西班牙语、荷兰语和德语的不同AL设置的性能。每个表格显示了4轮收购的F分数，包括有和没有MNLP（§3.2）。采集功能没有MNLP关于MNLP数据%模型百分之五百分之十百分之十五百分之二十百分之五百分之十百分之十五百分之二十MonoAendeesnl86.0 0.661.3 1.155.6 1.164.8磅3.9磅87.6 0.261.5磅1.5磅57.2磅1.5磅64.7 1.187.8 0.265.6 2.256.7磅1.5磅67.5磅0.6磅88.4磅65.7磅1.8磅58.8磅1.7磅65.7磅1.6磅85.5磅0.4磅60.3磅1.6磅53.7 1.167.8磅1.6磅88.4磅65.3 3.256.8磅2.7磅68.2磅2.0磅89.2 0.268.1磅1.3磅57.8磅3.0磅66.4 2.289.7磅0.5磅68.2 2.359.5磅2.6磅66.0磅2.4磅MMA81.9磅1.4磅84.6磅0.5磅85.3磅1.3磅86.5磅0.7磅82.5磅0.4磅86.1磅0.6磅87.4磅0.6磅88.2磅0.5磅SMA82.5磅0.6磅84.8磅0.9磅85.8磅 86.2磅0.3磅81.9磅 86.6 0.687.7磅0.5磅88.4磅0.2磅毫米全91.2 0.2SM完整版91.2 0.2表5：NER在en上的性能（F1-评分）采集功能没有MNLP关于MNLP数据%模型百分之五百分之十百分之十五百分之二十百分之五百分之十百分之十五百分之二十MonoAendeesnl63.0磅1.3磅63.2磅0.5磅76.5磅0.6磅62.2米1.064.7磅1.2磅63.6 0.779.6 0.764.31.264.6 1.165.7 0.280.2磅0.6磅67.2 1.165.41.265.7磅0.6磅81.5磅0.5磅66.21.463.11.763.31.275.9磅0.5磅63.0磅1.6磅66.0磅1.2磅66.3 0.881.0万67.6磅1.0磅65.9磅1.3磅67.1磅0.7磅82.2磅0.5磅68.8磅1.4磅67.3磅1.0磅66.8磅0.5磅83.5磅0.3磅69.8磅1.5磅MMA67.8磅1.1磅71.4磅1.7磅74.9磅2.4磅76.12.268.1磅1.3磅73.0米1.9米77.4磅0.5磅78.4磅1.2磅SMA73.1磅1.0磅76.5磅0.7磅77.9磅0.7磅79.6磅0.3磅72.2 0.977.70.779.5磅0.3磅80.7磅0.5磅毫米全86.2磅 0.7磅SM完整版86.2磅 0.5磅表6：NER采集功能没有MNLP关于MNLP数据%模型百分之五百分之十百分之十五百分之二十百分之五百分之十百分之十五百分之二十MonoAendeesnl63.9磅1.5磅73.1磅0.556.8磅1.1磅60.4磅1.7磅62.5磅1.076.9磅0.5磅58.4磅1.7磅61.2万1.7万61.8磅1.3磅77.0磅1.2磅59.42.161.5万美元59.7 3.377.5 0.658.8磅1.6磅58.3 3.662.41.472.9磅0.6磅55.8磅2.1磅61.1- 1.761.9万美元77.1 1.156.62.164.0磅1.361.62.179.5 0.557.6磅1.3磅63.2 2.663.8 3.380.5磅0.3磅57.4磅1.9磅61.9磅1.7磅MMA62.43.667.31.268.31.668.9磅1.9磅62.60.670.6磅1.672.3 0.972.2 0.8+v：mala2277获取更多论文SMA69.9元 73.0万 74.4磅0.6磅75.5磅0.6磅70.1磅0.6磅75.1磅0.5磅76.8 0.278.2磅0.5磅毫米全82.4磅 0.5磅SM完整版82.2 0.3表7：净入学率的+v：mala2277获取更多论文采集功能没有MNLP关于MNLP数据%模型百分之五百分之十百分之十五百分之二

下载后可阅读完整内容，剩余1页未读，立即下载