多语言无监督序列分割文件：极低资源语言的转移与影响

132 浏览量更新于2023-12-01 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多语言无监督序列分割转移到极低资源的语言C.M. Downey，Shannon Drizin，Levon Haroutunian，Shivin Thukral华盛顿大学语言学系{cmdowney，sdrizin，levonh，shivin7}@uw.edu摘要我们表明，无监督的序列分割性能可以转移到极低的资源语言的预训练掩蔽分段语言模型（唐尼等人。2021年，多语言。此外，我们表明，这种转移可以实现通过在一组低资源语言上进行训练，这些语言在类型上与目标语言相似（但在遗传学上无关）。在我们的实验中，我们从10个美洲土著语言（AmericasNLP，Mager et al.2021年）到K'iche'，玛雅语言。我们将我们的多语言模型与单语言（从头开始）基线以及仅在Quechua上预训练的模型进行比较。我们表明，多语言预训练方法在目标数据集大小上产生一致的分割质量，在6/10的实验设置中超过了单语基线。我们的模型在小目标尺寸下产生特别强的结果，包括20.6 F1的零射击这些结果对涉及类人语言单元的低资源NLP管道具有很好的影响，例如Bird（2020）提出的稀疏转录框架。1介绍无监督序列分割（在单词、词素和音素级别）长期以来一直是没有空格分隔的正字法的语言（例如，中文，Uchiumiet al. ，2015年; Sun和Deng，2018年），没有基于规则的形态分析器的形态复杂语言（Creutz和Lagus ，2002年），以及自动电话转录的语音数据被ACL 2022主会议接受。来自加星作者的同等信任，按姓氏排序。衷心感谢：Gina-Anne Levow、ShaneSteinert Threlkeld和Sara Ng提供有用的评论和讨论; Francis Tyers访问（ Goldwater et al. ， 2009; Lane et al. ，2021）。这对于资源较少的语言尤其重要，在这些语言中，很少或没有黄金标准数据来训练监督模型（Joshi et al. ，2020）。在现代神经端到端系统中，通常经由信息理论算法（诸如BPE（Sennrich et al. ，2016）和SentencePiece（KudoandRichardson，2018）。然而，它们产生的分割在很大程度上对人类是无意义的（Park et al. ，2021年）。相反，上面列出的激励任务需要无监督的方法，这些方法与人类对语言单位边界的判断更密切相关。例如，在人在环框架中，如Bird（2020）提出的稀疏转录，词汇项自动向母语人士提出以供确认，重要的是这些候选项是（接近）有意义的，可识别的语言片段。在本文中，我们研究了最近开发的模型的实用性，这些模型用于将无监督表面词素分割作为语言建模对象的副产品（例如Kawakami etal. ， 2019; Downey et al. ， 2021 ，见第 2节）。关键的想法是，最近在跨语言语言建模和迁移学习方面的突破（Conneau和Lample，2019; Artetxe et al. ，2020等）可以被利用来促进使用这些类型的语言模型将无监督分割性能转移到新的目标语言。具体来说，我们研究了多语言预训练在掩蔽分段语言模型中的有效性（Downey et al. ，2021）。我们在2021年AmericasNLP共享任务数据集的十种土著语言上预训练我们的模型（Mager et al. ，2021年），并将其应用于另一种低资源，非语言和形态复杂的语言arXiv：2110.08415v2[cs.CL] 2022年3月+v：mala2277获取更多论文中美洲：K'iche'（quc），至少在遗传学上与训练前的语言无关（ Campbell et al. ，1986）。我们假设，对类似的、可能与接触相关的语言进行多语言预训练，将优于从头开始训练的单语基线和使用相同量的预训练数据对单一语言（克丘亚语）进行预训练的模型。我们还预计，目标语料库越小，预训练的模型的表现将越来越好于单语基线事实上，我们的实验表明，预先训练的多语言模型在所有数据集大小上都提供了稳定的性能，并且在低到中等的目标大小上远远超过了单语言基线。我们还表明，多语言模型实现了零拍分割性能20.6 K'iche'数据上的F1，其中单一语言基线产生零分。这些结果表明，从多语言模型转移可以极大地帮助非常低资源语言的无监督分割，即使是那些形态丰富的语言。研究结果还证明，与最近的跨语言模型（我们的模型有315万个参数）相比，多语言模型的迁移在更温和的规模上起作用在下面的部分中，我们将概述与无监督分割、跨语言预训练和迁移学习（第2节）相关的工作。然后，我们介绍了我们实验中使用的多语言数据，以及我们为准备预训练数据而执行的额外预处理（第3节）。接下来，我们将简要概述我们实验中使用的分段语言模型类型，以及我们的多语言预训练过程（第 4节）。在此之后，我们描述了我们的实验过程，将预训练和从头开始的模型应用于不同的目标数据大小（第5节）。最后，我们讨论了我们的实验结果及其对低资源管道的意义，无论是在无监督分割中，还是在更一般的其他NLP任务中（第6节和第7节）。2相关工作与本研究相关的工作主要属于（无监督）分词领域据我们所知，第一个提出用于非监督词/词素分割的多语言模型。无监督分割当前最先进的无监督分割主要是用贝叶斯模型实现的，例如分层狄利克雷过程（Teh et al. ，2006; Goldwateret al. ，2009）和Nested Pitman-Yor （ Mochihashiet al. ， 2009;Uchiumi et al. ， 2015）。适配器 Gram-mars（Johnson和Goldwater，2009）也很成功基于最小描述长度（Rissanen，1989）的模型，如Morfessor（Creutz和Lagus，2002），也广泛用于无监督形态学。正如Kawakami等人（2019）所指出的，这些模型中的大多数都具有较弱的语言建模能力，除了序列的直接局部上下文之外，无法考虑其他因素。另一种技术集中在既强语言模型又适合序列分割的模型许多是在某种程度上基于连接主义时间分类（格雷夫斯等。，2006），并且包括睡眠唤醒网络（Wang etal. ，2017）、分段RNN（Kong et al. ，2016年）和分段语言模型（Sun和Deng，2018年;Kawakami et al. ， 2019; Wang et al. ， 2021;Downey等人，2021年）。在这项工作中，我们使用Downey等人（2021）的掩蔽分段语言模型进行实验，由于其良好的性能和可扩展性，后者通常被认为是多语言模型的强制性特征（ Conneau 等人， 2021 ）。， 2020a; Xue etal. ，2021年等）。在神经机器翻译中引入语言通用编码器-解码器之后，跨语言建模和训练一直是一个特别活跃的研究领域，提供了零镜头翻译的可能性（即在训练过程中看不到的语言对的翻译; Haet al. ，2016; John-son et al. ，2017年）。跨语言语言模型预训练（XLM，Conneau和Lample，2019）的到来进一步证明了在多种语言上预训练的大型模型在大量多语言任务中产生了最先进的性能，包括零射击文本分类（例如XNLI，Conneau等人）。，2018），并且预训练的变换器编码器为MT系统和非常低资源语言的语言模型提供了很好的初始化。+v：mala2277获取更多论文自XLM以来，许多研究试图找出跨语言训练的哪些组成部分有助于从一种语言到另一种语言的可转移性（例如， Conneau等人，2020b）。其他人则质疑多语言培训的重要性，并提出即使是单语预培训也可以有效地迁移到新语言（Artetxe et al. ，2020）。虽然有些像林等人。（2019）试图系统地研究预培训语言/语料库的哪些方面能够实现有效的迁移，但在实践中，选择往往是由数据的可用性和其他特殊因素驱动的。目前，XLM的大型跨语言继任者，如XLM-R（Conneau et al. ，2020a）、MASS（Song etal. ，2019）、mBART（Liu et al. ，2020）和mT5（Xue et al. ，2021年）已经取得了重大成就，并且是大部分多语言NLP系统的起点。这些模型都依赖于大量的参数和预训练数据，其中大部分来自高资源语言。相比之下，在本文中，我们评估了在一套资源非常低的语言上进行多语言预训练，这些语言结合起来产生了适量的未标记数据，是否可以很好地转移到资源也非常低的类似3数据和预处理我们从三个主要的数据集获取数据我们使用AmericasNLP 2021开放任务数据集（Mager etal. ，2021年）来预训练我们的多语言模型。Kann et al.的多语言数据集。（2018）作为这些语言的预训练过程的分割验证数据。最后，来自Tyers和Henderson（2021）的数据被用作我们转移到K'iche'的实验AmericasNLP 2021AmericasNLP 数据由中美洲和南美洲十种低资源土著语言的训练和验证文件组成： Asháninka （ cni ）， Aymara（aym），Bribri（bzd），Guaraní（gug），Hñähñu（oto），Nahu- atl（nah），Quechua（quy），Rarámuri（tar），Shipibo Konibo（shp）和Wixarika（hch）。对于每个LAN-等人，2021年）。1我们使用来自Bustamante等人的其他可用单语言数据来增强Asháninka和Shipibo-Konibo训练集。（2020），2在官方AmericasNLP存储库中链接。我们将来自该语料库的训练和验证数据添加到我们的分裂训练为了预处理多语言的建模设置，我们首先删除包含URL、版权样板或不包含字母字符的行我们还将超过2000个字符的行拆分为句子/子句。因为我们使用了Kann等人的Nahuatl和Wixarika数据。（2018）作为验证数据，我们从Americas-NLP集中删除任何重叠的行。我们创建了一个组合训练文件，作为十种语言中每一种语言的训练数据的连接，以及一个组合验证文件。由于与所有其他语言相比，盖丘亚语训练数据的原始比率非常高（图1），因此我们将其降采样为215个示例，这是与下一个最大训练集最接近的数量级平衡（最终）组成我们的AmericasNLP训练集和验证集如图2所示。为了比较多语言和单语言预训练的效果，我们还单独在Quechua上预训练了一个模型，因为它拥有迄今为止最多的数据（图1）。然而，完整的 Quechua 训练集比我们的平衡Ameri-casNLP集少了大约50 k行（图2）。为了在多语言和单语言预训练之间建立一个公平的比较，我们还创建了一个与Quechua数据（120，145行）大小相等的AmericasNLP集的我们数据的详细组成见附录A。Kann et al（2018）来自Kann et al的数据。（2018）最初是为多合成低资源语言的分割任务而策划的，包含纳瓦特尔语和Wixarika的形态分割句子。我们在预训练过程中使用这些示例作为分割质量的验证数据。我们以与AmericasNLP集相同的方式清理这些数据。K’iche’ data 的语言，AmericasNLP还包括并行Span-我们不使用的集合。这些数据最初是为AmericasNLP 2021低资源机器翻译共享任务而策划的。（马格尔1https://github.com/AmericasNLP/美国nlp20212https://github.com/iapucp/多语言数据-秘鲁+v：mala2277获取更多论文−JJ 0：j<我≥i+kj−ij−1图1：AmericasNLP训练集图2：我们美洲的最终语言构成-下采样Quechua在我们的转移实验中用作训练集的原始（非黄金分割）数据来自Crúbadán项目（Scannell，2007）从网络上抓取的该数据的一部分。这些数据相对来说比较嘈杂，所以我们通过删除带有url的行或者超过一半的字符是非字母的行来我们还删除了重复的行。最终的数据由47，729个示例组成，并用作K'iche'的全尺寸训练集。我们站。这些分割是由手工制作的FST创建的，然后手动消除歧义。由于黄金分割的句子非常罕见，我们将原始的训练/验证/测试拆分连接起来，然后将它们分成两半，形成最终的验证集和测试集。4模型和预训练本节概述了Downey et al.（2021）中介绍的掩蔽分段语言模型（MSLM），以及我们的预训练程序的描述。MSLM MSLM 是 Segmental Language Model（ SLM ）的变体（ Sun and Deng ， 2018;Kawakami et al. ， 2019; Wang et al. ，2021），其将字符序列x作为输入，并输出分段序列y的概率分布，使得y的级联等于x：π（y）=x。 MSLM由分段Transformer编码器和基于LSTM的分段解码器组成（Downey etal. ，2021年）。参见图3。MSLM的训练目标是基于掩蔽跨度的预测。在前向传递期间，编码器为x中的每个位置生成编码，对于最多k个符号长的段;位置i1处的编码对应于从位置i开始的每个可能的段。因此，编码近似于p（xi：i+1，xi：i+2，.，xi：i+k |x< i，x≥i+k）为了确保仅基于预测跨度之外的X的部分生成编码，编码器使用分段注意力掩码（Downey et al. ，2021）以屏蔽掉段内的令牌。图3示出了k=2的这种掩模的示例。最后，SLM的分段解码器确定了使用以下公式，挖掘从索引i开始的y段的第j个字符的概率，yi实验涉及测试在不同的重新传输编码上下文：源级别，因此我们还创建较小的培训通过将原始数据降采样到较低的阶数来设置p（yi|yi，x，x）=解码器（h i ，y i）数量级。为了评估K'iche'的分割性能3https://github.com/ftyers/全球课堂解码器的输出是无条件的确定其他段的边界。y的概率被建模为x的所有可能分割上的边际概率。因为直接边缘化在计算上是难以处理的，所以使用动态编程在前向传递格上计算边缘。+v：mala2277获取更多论文∼∼最大概率分割是由维特比解码确定的。训练目标优化了语言建模性能，以每字符位数（bpc）为单位进行测量。图3：掩蔽的分段语言模型（左）和分段注意力掩码（右）。（图3，Downey et al. ，2021年）在我们的实验中，我们测试了多语言和单语言预训练的MSLM的可移植性多语言模型是在AmericasNLP 2021 数据上训练的（见第 3节）。由于SLM操作纯文本，我们可以直接在此数据的多语言连接上训练模型，并通过连接验证数据的语言建模性能对其进行评估如第3节所述，我们创建了两个版本的多语言预训练模型：一个在完整的AmericasNLP集（172k行）上训练，另一个在下采样集上训练，下采样集与Quechua训练集大小相同（120k行）。我们将这些模型分别命名为 MULTI-PTfull 和MULTI-PTdown我们的预训练单语模型是在完整的盖丘亚语集（QUECHUA-PT）上训练的。每个模型是一个MSLM与四个编码器层，ers，隐藏大小256，前馈大小512，和四个注意头。字符嵌入使用 Word2Vec 初始化（Mikolov et al. 2013年）的训练数据。最大段大小设置为10。最佳模型被选择为使验证集上的每字符位数（bpc）损失有关更多预培训详情，请参见附录B。为了评估预训练对预训练集中语言分割质量的影响，我们还记录了模型之间的Nahuatl和Wixarika中可用的输出和黄金分段二级验证集（Kann et al. ，2018，见第3节）。图4示出了Nahuatl和Wixarika的无监督分割质量在预训练期间几乎单调增加（ MULTI-PTfull）。图4：多语言预训练期间Nahuatl和Wixarika的分割质量图（通过具有黄金分割的Matthews相关系数5实验我们评估了多语言预训练是否有助于无监督分割的有效低资源迁移学习。为此，我们在一种或所有AmericasNLP 2021语言上预训练SLM（Mager et al. ，2021），并将其转移到一个新的目标语言：K'iche '是一种形态丰富的玛雅语言，有几类屈折前缀和后缀（Txchajchal Batz etal. ，1996）。在表1中可以找到一个例句，它也显示了我们模型作为基线，我们从头开始训练单语我们根据目标训练集的大小来评估性能，模拟不同程度的低资源设置。为此，我们将K 'iche'训练集下采样为8个较小的215，47.7k（满）}。对于每种尺寸，我们都训练了一个单语基线，并微调了我们在第4节中描述的预训练模型。44 运行这些实验所需的所有数据和软件可以在https://github.com/cmdowney88/XLSLM 上找到。+v：mala2277获取更多论文正字法kinch模型输入kinch目标输出k in chaw表1：Tyers和Henderson（2021）的K'iche'句子示例这个句子由多个词组成，其中一些词由多个语素组成。该模型接收的句子是一个未分割的字符流，目标输出是一个词素序列（单词和词素边界处理相同，因为前者是后者的子类型）。架构和建模所有模型都是掩蔽分段语言模型（ MaskedSegmentalLanguageModel ，MSLM），其架构在第4节中描述。唯一的区别是，基线模型是用仅覆盖特定K'iche'训练集（大小特定的）的字符词汇表初始化的K'iche'数据的字符词汇表是AmericasNLP词汇表的子集，因此我们能够在不更改嵌入和输出层的情况下克丘亚语词汇表不是K'iche'的超集基线的字符嵌入使用 Word2Vec （ Mikolov et al. ，2013）在训练集上（同样，大小特定）。评估系统SLMs可以以完全无监督或“轻度”监督的方式进行训练（ Downey et al. ， 2021年）。在前一种情况下，仅使用语言建模损失（每字符位数，bpc）来选择参数和检查点。在后者中，可以考虑黄金分割验证数据虽然我们的验证集是黄金分割的，但我们仅基于bpc选择最佳参数和检查点然而，为了监测训练过程中分割质量的变化，我们还使用了马修斯相关系数（MCC）。该测量将分割框定为按字符的二元分类任务（即，边界与无边界），并测量与黄金分割的相关性。为了使我们的结果与更广泛的分词文献相比较，我们使用SIGHAN Segmentation Bakeoff（Emerson，2005）的评分脚本作为我们最终的分词F1。对于每个模型和目标大小，我们选择最佳检查点（通过bpc），将模型应用于组合验证和测试集，并使用SIGHAN脚本对输出进行评分。为了与中文分词和语音文献进行比较，验证/测试数据中的任何空白分割在被馈送到模型之前被然而，SLM也可以被训练成像对待任何其他字符一样对待空格，从而能够利用输入中现有的分割。我们把这个留给以后的工作。对于我们的训练过程（从头开始训练基线和微调预训练模型），我们在九个数据集大小中的三个（256，2048和完整）上调整对于其他每个大小，我们直接应用从最接近大小的调优数据集中选择的参数我们调整了五个学习率和三个编码器丢弃值。与预训练一样，我们将最大片段长度设置为10。有关我们培训计划的更多详细信息，请参见附录B。6结果我们在各种目标尺寸下的K'iche'转移实验的结果一般来说，（完全）预训练的多语言模型（MULTI-PTfull）在不同数据集大小上表现出良好的性能，最低的分割性能（20.6 F1）是在零次情况下，最高的（40.7）是在214个示例中实现的。单语基线在两个最大目标尺寸下的表现优于MULTI-PTfull，以及大小为4096（实现了44.8的最佳整体F1），但在2048个示例下表现非常差，并且没有零射击能力（不足为奇，因为它是随机初始化）。有趣的是，除了在零发射的情况下，QUECHUA-PT和可比较的MULTI-PT向下执行彼此非常相似但+v：mala2277获取更多论文MULTI-PTdown的零发射可转移性几乎是仅在盖丘亚语上训练的模型的两倍。多-PT充分超过两个多-PT下降和QUECHUA-PT由一个很大的保证金，在每一个设置-丁。最后，所有模型都显示出性能不断提高，直到大小达到4096左右，此后，更多的目标示例在解释这些结果表明，MULTI-PTfull在小至512个示例的目标大小上提供了一致的性能。即使是256号，与第二大尺寸相比，质量也只有9%的（相对）下降。此外，预先训练的模型另一方面，单语言基线在更大尺寸下的性能似乎表明，如果有足够的目标数据，最好只训练一个专门用于目标语言这与之前的结果一致（ Wu 和 Dredze ， 2020; Conneau 等人，2019）。，2020a）。然而，还应该注意的是，MULTI-PTfull从不跟踪基线超过5.2 F1。一个不太直观的结果是在基线的性能下降，在大小8192和214。我们认为这种差异可能部分是由于对基线中超参数的敏感性。尽管规格为2048的最佳基线试验略微超出MULTI-PTfull，但基线显示，在此规格下，前四个超参数设置的性能差异较大，其中MULTI-PTfull实际上平均性能更好，并且更加一致（表3）。因此，我们认为基线尺寸8192和214的性能下降可能是由于无法从其他实验设置中推断超参数7分析与探讨在无监督分割的框架内，这些结果提供了强有力的证据，表明相关的语言模式可以在低资源语言的集合上学习，然后在没有太多（或任何）目标训练数据的情况下转移到一种新的语言。此外，它表明，目标语言不需要（遗传）相关的任何预训练语言，即使形态结构的细节最终是语言特定的。假设多语言预培训比从头开始的培训具有越来越大的优势，也强烈支持在较小目标尺寸处的基线该结果与相关研究一致，表明这是多语言方法的关键优势（Wu和Dredze，2020）。假设在相同的数据量下，多语言预训练也比单语言预训练产生更好的性能，这似乎得到了我们实验的混合支持。一方面，可比较的多语言模型在零发射设置中比盖丘亚语模型具有明显的优势，并且更普遍地在5/10设置然而，由于克丘亚语数据缺乏几个常见的相反，这种优势可能是由于多语言模型对这一假设的进一步分析将需要更多的调查。显著性上述结果，特别是分割规则的强零触发可转移性，表明这里使用的语言模型类型学习了一些抽象的语言模式，这些模式可以在语言之间推广，甚至可以推广到新的语言。这些概括可能采取抽象的词干/词缀或词序模式的形式，大致对应于形态句法单位的长度和顺序。由于MSLM在字符级别上操作（并且在这些语言中，正字法字符大多对应于音素），因此模型也可以识别数据中的音节结构（人类语言中辅音和元音的排序相对受限），并学习在音节边界上分段。记住我们选择的培训套件和目标语言具有一些共同的特征，这可能有助于促进迁移，这也是有帮助的。美洲的NLP语言几乎都是形态丰富的，许多被认为是多合成的（Mager et al. ，2021），一个功能，此外，所有的语言，包括最后，目标语系（玛雅语）也被证明与几个玛雅语系有着密切的历史联系+v：mala2277获取更多论文模型目标语言分割F1表2：在每个目标训练集大小下，每个模型的组合验证集和测试集的分割质量星号表示进行超参数调整的大小。对于已调优的大小，仅显示具有最佳bpc的模型的性能。* 见表3：最佳基线试验的性能略优于MULTI-PTfull，但前者对该尺寸模型目标语言分割F1256204847，729（满）MULTI-PT完全34.2±0.6（1.8%）38.1±0.4（1.0%）39.4± 1.1（2.8%）MULTI-PT下降25.7 ±0.6（2.3%）30.5 ± 2.3（7.5%）31.7± 0.6（1.9%）QUECHUA-PT30.1 ±0.2（0.7%）31.4 ± 0.6（1.9%）32.7± 0.7（2.1%）母语4.2 ±0.5（11.9%）36.5 ± 6.8（18.6%）44.7±2.0（4.5%）表3：单个尺寸的最佳四个超参数组合的分割质量变化（按bpc;平均值±标准差（标准差≤平均值）;按平均值减去标准差排序的模型AmericasNLP 集（ Nahuatl ， Rarámuri ，Wixarika ， Hñähñu ），形成语言区或Sprachbund（Campbell et al. ，1986）。在我们的多语言和单语言预训练模型中，这些共同特征中的一个或几个可能促进了这里所示的强迁移然而，我们目前的研究并没有最终证明这是事实。 Lin等人（2019）表明，语言相似性和地理接触等因素对于传输成功的重要性往往不如非语言特征，如源数据集的原始大小。事实上，我们的克丘亚语预训练模型与可比的多语言模型（至少在更大的目标大小下）表现相似，这表明使用MULTI-PTfull的好处可以解释为预训练数据大小和目标词汇覆盖率的综合优势。多语言预训练本身是否比单语言预训练更能促进迁移，这个微妙的问题需要更多的研究。然而，从更务实的角度来看，多语言培训可以被视为一种方法，1）获取比任何一种语言更多的数据，2）确保与目标语言有更广泛的我们的基于字符的模型当然不同于更常见的基于单词或子单词的方法，同样，获得覆盖新目标语言的预先训练的嵌入是跨语言迁移的重要步骤（Garcia et al. ，2021; Conneauet al. ， 2020a; Artetxe et al. ，2020年等）未来的工作我们相信一些未来的研究将阐明细分迁移学习的细微差别。首先，对语言上与目标语言不相似的语言进行多语言或单语言预训练可以帮助隔离对任何语言数据（与类似语言数据相比）进行预训练所带来的优势其次，我们注意到，在没有目标语言的几乎全部词汇覆盖的语言上在一种语言上进行预训练的模型恰好具有目标的接近完整的词汇覆盖率，可以更好地了解多语言训练是否本质上产生优势，或者单语言训练是否主要由于缺乏词汇覆盖而处于不利地位。最后，由于本文作者都没有接受过K'iche'语言的任何培训，因此我们无法对模型的输出进行语言学上的错误分析（例如，检查错误的单词和词素的类型）。0256∗51210242048∗4096819221421547，729（满）MULTI-PT完整20.634.037.437.438.240.538.640.738.938.2MULTI-PT下降15.025.125.729.332.533.233.331.533.631.9QUECHUA-PT7.629.931.030.430.731.029.933.631.833.3简体中文0.0024.03.310.339.2米44.829.439.544.143.2+v：mala2277获取更多论文≤（未）分段，而不是像我们在本研究中所做的那样计算预测的和真实的语素边界的总体精确度和召回率然而，我们在公共存储库中提供了所有的模型输出，以便未来的工作可以对无监督分割模型容易犯的错误类型进行更细致的分析。8结论这项研究表明，无监督的序列分割能力可以通过多语言预训练转移到一个新的目标语言很少或没有目标数据。目标语言也不需要与成功迁移的预培训语言来自同一语系虽然在大量目标数据上从头开始训练单语模型会产生良好的分割质量，但我们的实验表明，预先训练的模型，特别是多语言模型，在小目标尺寸下远远超过基线（1024），并且似乎对中等尺寸的超参数变化更加鲁棒（2048，8192，214）。一个可能具有更广泛意义的发现是，预训练可以在一组与目标有某种类型或地理联系的低资源语言上进行，而不是在以英语和其他欧洲语言等高资源语言为中心的跨语言套件上进行。大多数现代的跨语言模型都有大量的参数（XLM有5.7亿，mT5有130亿，Xue etal. ，2021年），并接受大量数据的训练，通常由最高资源语言的数百GB支持（Conneau etal. ，2020a）。相比之下，我们的研究结果表明，通过结合低资源语言的数据和训练中等规模的、更有针对性的预训练多语言模型（我们的模型有315万个参数），在较小的规模上有效的迁移是可能当然，这项研究只能在无监督分割任务中支持这种可能性，因此未来的工作将需要研究低资源语言之间的转换是否可以扩展到其他任务。引用我是阿吉，我是武利。2019 年。JW 300：一个面向低资源语言的宽覆盖并行语料库在第57届年会上，计算语言学协会出版，第3204-3210页，意大利佛罗伦萨。计算语言学协会。Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移。在计算语言学协会第58届年会的会议记录中，第4623-4637页，在线。计算语言学协会。史蒂文 · 伯德 2020. 稀疏转录。 Computa- tionalLinguistics，46（4）：713大卫 · 布兰比拉。 1976. Diccionario Rarámuri-castellano（Tarahumar）.国家和平奖。吉娜·布斯塔曼特，阿图罗·昂塞韦，罗伯托·扎里基伊。2020. 没有数据要抓取？秘鲁低资源语言的PDF文档的单语种语料库创建. 第12届语言资源和评估会议论文集，第2914-2923页，法国马赛。欧洲语言资源协会.Lyle Campbell，Terrence Kaufman，and Thomas C.史密斯-斯塔克1986. 中美洲是一个语言区。Language，62（3）：530-570.出版社：美国语言学会。Luis Chiruzzo，Pedro Amarilla，Adolfo Ríos，andGus- tavo Giménez Lugo. 2020. 瓜拉尼语-西班牙语平行语料库的开发。第12届语言资源和评估会议论文集，第2629-2633页，法国马赛。欧洲语言资源协会。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020年a。无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440-8451页，在线。计算语言学协会。亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练. 神经信息处理系统进展，第32卷，温哥华，加拿大。Curran Associates，Inc.Alexis Conneau，Ruty Rinott，Guillaume Lample，Adina Williams ， Samuel Bowman ， HolgerSchwenk，and Veselin Stoyanov. 2018. XNLI：评估跨语言句子表示。在2018年自然语言处理经验方法会议上，第2475- 2485页，比利时布鲁塞尔。计算语言学协会。Alexis Conneau ， Shijie Wu ， Haoran Li ， LukeZettle- moyer，and Veselin Stoyanov. 2020年b。预训练语言+v：mala2277获取更多论文模型在计算语言学协会第58届年会的会议记录中，第6022计算语言学协会阿道夫·康斯坦拉费利西亚诺·埃利桑多弗朗西斯科·佩雷拉2004. Bribri街。哥斯达黎加大学编辑。马蒂亚斯·克罗伊茨和克里斯塔·拉戈斯2002. 词素的无监督发现。在ACL-02形态学和语音学学习研讨会中，第21计算机语言学协会Rubén Cushimariano Romano和Richer C.巴斯蒂安·Q.2008. 你好，我是阿沙宁卡基，我是拉科恰基。阿沙宁卡-卡斯特拉诺词典。你好。C. M. 唐尼、夏飞、吉娜-安妮·莱沃和谢恩·施泰纳特-斯雷尔凯尔德。2021年一种用于无监督自然语言分割的掩蔽分割。arXiv：2104.07829 [cs]。ArXiv：2104.07829。AbteenEbrahimi ， ManuelMager ， ArturoOncevay，Vishrav Chaudhary，Luis Chiruzzo，Angela Fan ， John Ortega ， Ricardo Ramos ，Annette Rios ， Ivan Vladimir ， Gustavo A.Giménez-Lugo ， ElisabethMager ， GrahamNeubig，Alexis Palmer，RolandoA. Coto Solano，Ngoc Thang Vu，and KatharinaKann. 2021. AmericasNLI：在真正的低资源语言中评估预训练多语言模型的零射击自然语言理解。 arXiv ： 2104.08726[cs] 。 ArXiv ：2104.08726。托马斯·爱默生。2005年第二届国际汉语分词大赛.第四届SIGHAN中文语言处理研讨会论文集。I. Feldman和R.科托索拉诺2020.具有反向翻译的神经机器翻译模型，用于极低资源的土著语言Bribri。第28届国际计算语言学会议论文集，第3965-3976页。索菲娅 · 弗洛雷斯 · 索罗萨诺 2017. Corpus OralPandialec-tal de la Lengua Bribri.安娜-保拉·加拉雷塔，安德烈斯·梅尔加，阿图罗·昂塞韦。2017. 西班牙语和Shipibo-konibo之间的语料库创建和初始SMT实验。在国际会议论文集自然语言处理的最新进展， RANLP2017 ，第 238-244 页，瓦尔纳，保加利亚。INCOMA Ltd.Xavier Garcia，Noah Constant，Ankur Parikh，andOrhan Firat. 2021. 通过词汇替换持续学习。在计算语言学协会北美分会2021年会议论文集：人类语言guage Technologies，第1184-1192页，在线。计算语言学协会.作者声明：Thomas L.格里菲斯和马克·约翰逊2009年词分割的贝叶斯框架：探索上下文的影响。认知，112（1）：21AlexGraves ， FernándezSantiago ， FaustinoGomez，and Jürgen Schmidhuber. 2006.连接主义时间序列分类：用递归神经网络标记未分段序列数据。第23届机器学习国际会议论文集，Pittsburgh，PA。Ximena Gutierrez-Vasques ， Gerardo Sierra ， andIsaac Hernandez Pompa. 2016. 蝾螈：一个西班牙语-纳瓦特尔语的网络可译平行语料库。在第十届语言资源和评估国际会议（LREC'16）欧洲语言资源协会（ELRA）。Thanh Le Ha，Jan Niehues，and Alexander Waibel.2016.用通用编码器和解码器实现多语言神经机器翻译。第13届国际口语翻译迭戈 · 瓦尔卡亚 · 塔基里 2020 年。 T

下载后可阅读完整内容，剩余1页未读，立即下载