没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文AmericasNLI:在真正的低资源语言中评估预训练多语言模型AbteenEbrahimi Manuel Mager Arturo Oncevay Vishrav ChaudharyLuis ChiruzzoAngela FanJohn OrtegaRicardo RamosAnnetteRiosGust av oA. 我是伊丽莎白·马吉的朋友格雷厄姆·纽比,我是亚历克西斯·帕尔默的朋友罗兰多·A。 Coto SolanoV Ngoc Thang VuKatharina Kann卡耐基梅隆大学 V达特茅斯学院Facebook AIResearch乌拉圭,UnewYorkUni versityΔUni versidaddelaRepu′ blicaTlaxcala的一家全国性电信公司科罗拉多州博尔德市的联邦经济委员会爱丁堡大学University of Edinburgh爱丁堡大学 University of Stuttgart斯图加特大学 University of Zurich摘要预训练的多语言模型能够在零射击设置中执行形式的跨语言迁移,即使是预训练期间未见过的语言。然而,以前的工作评估per-tunes上看不见的语言在很大程度上被限制到低级别,句法任务,它仍然不清楚,如果零射击学习的高级别,语义任务是可能的,看不见的语言。为了探讨这个问题,我们提出了AmericasNLI,XNLI的扩展(Conneau et al. ,2018年)到美洲的10种土著语言。我们进行实验与XLM-R,测试多个零拍摄和基于预防的方法。此外,我们通过持续的预训练探索模型自适应,并通过仅考虑假设模型来提供数据集分析。我们发现XLM-R持续的预训练提供了改进,平均准确率为44.05%。令人惊讶的是,在翻译不佳的数据上进行训练的准确 率 远 远 超 过 所 有 其 他 方 法 , 达 到48.72%。1介绍预训练的多语言模型,如XLM(Lample和Conneau,2019),多语言BERT(mBERT;Devlin et al. ,2019)和XLM-R(Conneau etal. ,2020年)为许多语言和自然语言处理(NLP)任务实现了强大的跨语言转换结果。然而,在预训练数据中存在的语言和不存在的语言之间的零射击性能存在差异:表现良好的语言的性能通常最高,并且随着表现的减少而下降然而,即使是看不见的语言,性能通常也高于偶然性,并且模型自适应方法已被证明可以产生语言ISO家庭Dev测试艾马拉AYMAymaran743750阿哈宁卡CNI阿拉瓦克658750布里布里BZD奇布昌743750瓜拉尼GN图皮瓜拉尼743750纳瓦特尔nah乌托-阿兹特克376738奥托姆河OTO奥托曼盖安222748Quechuaquy确川743750拉尔阿穆里焦油乌托-阿兹特克743750希皮博-科尼博SHP帕诺安743750维克沙里卡hch乌托-阿兹特克743750表1:美国NLI中的语言,以及它们的ISO代码,语言家族和数据集大小。进一步改进(Muller et al. ,2020; Pfeifferetal. ,2020a,b; Wang et al. ,2020)。实际上,在预训练过程中看不到的语言上评估模型的零射击性能的所有工作目前都限于低级别的句法任务,例如词性标记,依赖性解析和命名实体识别(Muller et al. ,2020; Wang等人,2020)。这是因为大多数用于高级语义任务的多语言数据集只涵盖资源充足的语言,这些语言已经包含在预训练数据中。1这限制了我们对预训练的多语言模型对未知语言的零射击学习能力得出更一般性结论为了使这样的评估成为可能,我们引入了AmericasNLI,XNLI的扩展(Conneau et al. ,2018)-自然语言推理(NLI; cf.§2.3)数据集涵盖15种高资源语言-美洲的1 一 个 值 得 注 意 的 例 外 是 XCoPA ( Ponti et al. ,2020),其涵盖了mBERT的预训练数据中不存在的两种语言arXiv:2104.08726v1 [cs.CL] 2021年4月+v:mala2277获取更多论文Rar a'muri , Shipibo-K onibo , andWixarika.所有这些都是真正的低资源语言:它们的维基百科语料很少或根本没有,并且不存在于当前最先进的预训练多语言模型的训练数据中。这个 数 据 集 使 我 们 能 够 解 决 以 下 研 究 问 题(RQ):(1)与XNLI相比,现有的多语言模型在看不见的语言(2)做的方法,旨在适应模型看不见的语言-– 还能提高NLI的性能?我们的实验与XLM-R,无论是与-出模型适应通过持续的预训练单语语料库在目标语言。我们的研究结果表明,XLM-R开箱即用的性能略高于偶然性,模型自适应导致高达5.88个百分点的改进。然而,在机器翻译的训练数据上进行训练,结果比没有适应的相应XLM-R模型获得了10.1个百分点的更大的我们进一步通过仅假设模型的实验进行分析,以检查可能从XNLI继承的潜在伪影,并发现大多数模型的性能高于机会,但仍低于使用完整示例的性能。AmericasNLI可在nala-cub.github.io/resources上公开获取。我们希望它将作为衡量多语言模型对未知语言的零射击自然语言理解能力的基准。此外,我们希望我们的数据集将推动新的预训练和模型自适应技术的开发,这些技术适用于真正的低资源语言。2背景和相关工作2.1预训练多语言模型在广泛使用预训练的trans-former模型之前,跨语言迁移主要通过单词嵌入来实现(Mikolov etal., 2013;Penningtonetal., 2014;Bojanowski等人,2017),或者通过将单语嵌入对齐到相同的嵌入空间(Conneau et al. ,2017; Lample et al. , 2017; Grave et al. ,2018)或通过训练多语言嵌入(Ammar etal. ,2016; Artetxe and Schwenk,2019)。预训练的多语言模型代表了多语言嵌入到预训练的Transformer模型的扩展这些模型遵循标准的预训练-– 源语言。在通过该训练设置暴露于各种语言之后,这些模型的跨语言迁移结果与许多语言和 任 务 的 最 新 技 术 常 用 的 模 型 是 mBERT(Devlin et al. ,2019年),它是在维基百科上预先训练的104种语言,具有掩码语言建模( MLM ) 和 下 一 句 预 测 ( NSP ) , 以 及XLM,它是在15种语言上训练的XLM-R比XLM提高了性能,并且只使用MLM目标对来自100种不同语言的数据进行训练。所有模型的共同点是使用WordPiece创建的大型共享子词 词 汇 表 ( Sennrich et al. , 2016 ) 或SentencePiece(Kudo andRichardson,2018)标记化。2.2评估预训练的多语言模型就像在单语设置中一样,其中基准标记如胶水(Wang et al. ,2018)和Super- GLUE(Wanget al. ,2019年)提供了一个跨各种任务,多语言基准(胡等人。,2020; Liang et al. ,2020)覆盖了涉及句子结构、分类、检索和问题回答的各种各样的任务。评估基于英语的零迁移,为跨语言迁移提供了一个强有力的基准。已经做了额外的工作,检查什么机制允许多语言模型跨语言传输(Pires et al. ,2019;WuandDredze,2019)。Wu和Dredze(2020)研究了依赖于预训练数据中语言表示的迁移性能对于具有低表示的语言,已经提出了多种方法来提高性能,包括扩展词汇,音译目标文本,以 及 在 微 调 之 前 继 续 预 训 练 ( Lauscher etal. , 2020; Chau 等 人 , 2020; Muller 等 人 ,2020; Pfeiffer et al. ,2020a,c; Wang et al. ,2020)。在这项工作中,我们专注于持续的预训练,以分析模型适应高层次语义任务的性能+v:mala2277获取更多论文14,592瑞郎2.3自然语言推理给定两个句子,前提和假设,NLI的任务包括确定是否浪来源已发送。02The Dog(2012)Feldman and Coto-Solano(2020);Margery(2005);假设在逻辑上需要、矛盾或对前提是中性的。NLI在英语中最广泛使用的数据集是SNLI(Bowmanet al. ,2015)和MNLI(Williams etal. ,2018)。XNLI(Conneau et al. ,2018)是MNLI的多语言扩展到15种语言,提供手动翻译的评估集和机器翻译的训练集。而NLI或BZDJara Murillo(2018 a); Constenla et al.(2004年);7,508识别文本蕴涵类似任务存在于其它语言中(Bos et al. ,2009; Alab-bas,2013; Eichler etal. ,2014; Amirkhani等人2020),他们缺乏相似性,阻止了一般-焦油Galarreta等人(2017); Loriot等人 (1993年);Go'mezMont o yaetal. (2019年)Brambila(1976年);github.com/pywirrarika/tar_par14,720跨语言零射击性能的标准化研究。这与XNLI相反,XNLI中所有15种语言的示例都是并行的 。 为 了 保 留 XNLI 的 这 一 属 性 , 在 创 建AmericasNLI 时 , 我 们 选 择 翻 译 西 班 牙 语XNLI,而不是直接用目标语言创建示例。然 而 , NLI 数 据 集 并 非 没 有 问 题 :Gururangan等人(2018)表明,创建MNLI的工件允许模型仅根据假设对示例进行分类,这表明模型可能无法按预期进行推理。出于这一动机,我们在第6节中通过比较仅假设模型与在完整示例上训练的模型的性能3美国NLI3.1数据收集设置AmericasNLI是XNLI子集的翻译(Conneau etal. ,2018)。由于西班牙语和目标语言之间的翻译比英语翻译更频繁,我们从西班牙语版本翻译。此外,一些译者报告说,语码转换经常被用来描述某些主题,虽然许多在目标语言中没有确切对等词的词是通过翻译或解释来处理的为了尽量减少翻译示例中的西班牙语词汇量我们从每个开发和测试集中选择了多达750个示例,表1中列出了每种语言的精确计数。表2:用于我们的翻译模型的并行数据。3.2语言我们现在讨论美国的语言关于以前对美洲土著语言的NLP研究的其他背景,我们建议读者参考Mager等人。 (2018年)。AymaraAymara是一种多合成的美洲印第安人语言,在玻利维亚,智利和秘鲁有超过200万人使用(Homola,2012)。艾马拉语有多种方言,包括北艾马拉语和南艾马拉语,在的的喀喀湖的秘鲁南部海岸以及拉巴斯周围,分别在智利北部伊基克省的东半部,玻利维亚奥鲁罗省,波托西北部和科恰班巴西南部使用然而,在最后两个地区,南部艾马拉人正在慢慢地被盖丘亚人取代。在艾马拉语中发现的一种罕见的语言现象是元音省略,一种语言中各种声音的省略。艾马拉语有SOV语序。Amer-icasNLI的例子被翻译成中央艾马拉语变体,特别是AymaraLaPaz。亚什阿宁卡Ash a'ninka是一种来自阿拉瓦克家族的亚马逊语言,在秘鲁中部和东部使用,位于安第斯山脉东部山麓和亚马逊盆地西部边缘之间的地理区域(Mihas,2017)。2017年的全国人口普查显示,人口为73,567人。[2]虽 然 Asha' ninka 在 严 格意 义 上 指 的 是 Ene ,Tambo和Bajo Perene' rivers所说的语言变体,但这个名字2https://bdpi.cultura.gob.pe/pueblos/阿沙宁卡Jara Murillo和Garc 'ıa Segura(2013年);JaraMurillo(2018年b);FloresSol o'rzano(2017年)CNI CushimarianoRomano和Sebasti a'nQ. (二零零八年)3,883GN Chiruzzo等人 (2020年)26,032hch Mager等人 (2017年)8,966nah Gutierrez-Vasques等人 (2016年)16,145OTOhttps://tsunkua.elotl.mx4,889+v:mala2277获取更多论文语言优先假说他说,妈妈,我他告诉妈妈他已经到家了。你说妈妈在家里。她妈妈说她要去家里。aymJupaxsanwa:Mamita,utankastwa.Utar purinxtwa sasaw mamaparux sanxabzdEn aie' iche:a m ` ıx,ye' tso' u ` a。我很想知道你是谁。cni Iriori ikantiro:Ina,nosaiki pankotsiki.Ikantiro iriniro yaretajapankotsiki。gnHaha'e he'i:妈妈,爱你。他是个大猩猩。我的妈妈会给我打电话的。Youmamam+pa+p+rah+ a wekaikyukit a'henuakai. nahhuan yehhua quiihtoh:Nonantzin,niyetoc nochan quiilih inantzin niehcoquia听Xinydibie na:maMedimianngubima bioinimaMeguengu我不知道为什么,我的母亲是个好人。Wasinman chayasqanmanta mananta willarqa. shp Jaraneskata iki:tita,xobonkoriki ea.我的天啊,我的天啊,我的天啊。我的神啊,我的神啊,我的神啊。表3:一个类似的例子,在美国NLI与标签蕴涵。也 用 于 谈 论 以 下 附 近 和 密 切 相 关 的Asheninkavarieties : AltoPerene' , Pichis ,Pajonal,Ucayali-Yurua和Apurucayali。虽然它是秘鲁使用最广泛的亚马逊语言,但某些变体,如Alto Peren e',是高度濒危的。Asha'ninka是一种粘着和多合成语言,具有VSO语序。动词是形态上最复杂的词类,有着丰富的体范畴和情态范畴。这种语言除了一个方位后缀外没有格,所以主语和宾语的语法关系被索引为动词本身的词缀。该语言的其他显著语言特征包括动词上实/非实区分的强制性标记、丰富的应用后缀系统、连续动词结构和语用条件分裂的不及物性。与西班牙语或葡萄牙语的语码转换是日常对话中的常规做法。布里布里语(Bribri)是一种奇布昌语,在哥斯 达 黎 加 南 部 有 7000 人 使 用 ( INEC ,2011)。它有三种方言,现在智利人仍在讲它。然而,它是一种易受攻击的语言(Mose-le y,2010;Sa'nchezAvendano,2013),这意味着很少有语言被编写或用于官方功能的设置。这种语言不具有官方地位,也不是布里布里儿童的主要教学语言,但在小学和中学作为一个班级布里布里语是一种声调语言,具有融合的形态学,SOV句法和作格-绝对格系统。布里布里语法还包括现象如中心语内部关系从句,方向动词和数字分类器(Jara Murillo,2018a)。有 几 种 拼 写 法 对 同 一 现 象 使 用 例 如 ,Constenla et al. (2004)系统用元音下面的一条 线 标 记 鼻 元 音 , 而 Jara Murillo 和 Garc 'ıaSegura(2013)系统则用波浪线来标记,例如, e' / e'(r e)。对于使用相同正字法的研究人员而言,相似变音符号的统一代码编码在作者之间是不同鼻标记中均可见组合的低线、负号和长音符)。布里布里的方言在其确切的词汇上有所不同,例如,nala`/nolo`(road),还有phono-逻辑过程,如删除非重读元音,这也改变了文本中的标记达喀尔奥/克拉奥(chick en)。此外,布里布里语成为书面语言只有大约40年的时间,因此很少有人用这种语言制作书面材料,现有材料有很大程度的特殊变异。这些变体 在 AmericasNLI 中 被 标 准 化 , 它 被 写 成Amubri变体。瓜拉尼语在南美洲有600万到1000万人使用。大约有300万人使用它作为他们的主要语言,包括巴拉圭,巴西,阿根廷和玻利维亚的10多个土著民族,以及巴拉圭人,阿根廷人和巴西人。根据2002年的人口普查,135万单语使用者,此后增加到约150万人(多斯桑托斯,+v:mala2277获取更多论文2017年;Melia`,1992年)。3虽然瓜拉尼语作为口头语言的使用要古老得多,但第一个书面记录可以追溯到1591年(问答),随后是1639年的第一本词典瓜拉尼语在文本中的使用一直持续到1864年至1870年的三国同盟战争(英语:Triple Alliance War),此后逐渐减少然而,从20世纪20年代开始,瓜拉尼人慢慢重新出现并重新受到关注。1992年,瓜拉尼语成为第一个被宣布为国家官方语言的美国语言,随后在21世纪初得到了当地、国家和国际的认可。瓜拉尼语的官方语法于2018年获得批准。瓜拉尼语是一种黏着语,大量使用前缀和后缀.西班牙语或葡萄牙语的语码转换在讲西班牙语或葡萄牙语的人中很常见。纳 瓦 特 尔纳 瓦 特 尔 语 属 于 Uto-Aztecanlangauge语系的纳欢语族。有30个公认的变种纳瓦特尔spok en由超过1.5墨西哥17个不同州的数百万人说纳瓦特尔语 , 纳 瓦 特 尔 语 被 认 为 是 一 种 官 方 语 言(SEGOB,2021)。纳瓦特尔语是多合成的和粘着的;不同的词根有或没有词缀组合成新词。添加到单词中的后缀修改了原始单词的含义(Sull iv an和Le o'n-Portilla,1976),18个介词基于名称和形 容词iv es的后置词(Si me'on,1977)。在纳瓦特尔语中,大多数句子都有一个SV O结构,或者为了强调,有一个OVS结构(MacSwan,1998)。NLI在美国的翻译属于中部纳瓦特尔(Na'huatldelaHuasteca)方言。 由于缺乏关于正字法标准的共识,正字法被规范为类似于古典纳瓦特尔语的版本。Otom 'Otom'属于奥托-帕米安语家族,有九种语言变体,具有不同的区域自我命名,例如na'hnu 或 na'hno 、 hna'hnu 、 nuju 、 noju 、 yu'hu 、hna'hno、nu'hu'、nanhu'、no'tho'、nhato'和hnotho'(INALI,2014)。大约有307,928人分布在墨西哥的7个州。在特拉斯卡拉州,yuhmu或nuhmu变体的使用者不到100人,我们在AmericasNLI中使用这个变体作为奥托姆语是一种声调语言,许多词与跨度谐音3https://www.ine.gov.py/news/25-de-agosto-dia-del-Idioma-Guarani.php4https://es.wikipedia.org/wiki/Idioma_瓜拉尼ish(Cajero,1998,2009). 当说nuhmu时,发音被拉长,特别是在最后一个音节。在这个变体中,有13种发音,每一种都有明确的书面标记,其中字母表由19个辅音、12个元音音素和由辅音、cedillas和回旋符组合而成的字符组成(Cajero,1998)。 单词遵循SVO顺序,有肯定句、否定句、疑问句、感叹句和祈使句,它们是简单句、复合句和复杂句(Cajero,1998;Lastra anddeSu a'rez,1997)。克 丘 亚 语 ( Quechua ) , 或 称 鲁 纳 西 米 语(Runasimi),是一种土著语系,主要生活在秘鲁安第斯山脉的克丘亚人使用从一个祖先的语言发展而来,它是美洲最广泛使用的前哥伦布语系。大约有800万至1000万人使用克丘亚语,大约25%(770万)的秘鲁人使用克丘亚语。从历史上看,克丘亚语是印加帝国时期的主要语系,直到18世纪80年代秘鲁为从西班牙独立而斗争目前,克丘亚语的许多变体被广泛使用,它是秘鲁许多地区的共同官方语言。克丘亚语有多个分支,包括南部、北部和中部克丘亚语。AmericasNLI的例子被翻译成南方克丘亚语的标准版本,克丘亚语Chanka,也被称为克丘亚语Ayacucho,在秘鲁的不同地区使用,在其他国家的不同地区也可以理解,如玻利维亚或阿根廷。在AmericasNLI的翻译中,没有使用拉 拉 穆 里Rar a'muri 语 言 , 也 被 称 为Tarahumara,意思是轻脚(INALI,2017),属 于 Uto-Aztecan 语 系 的 Taracahitan 亚 群(Goddard,1996)。Ra ra'muri是墨西哥的一种官方语言,主要分布在奇瓦瓦州的西马德雷山脉 地 区 , 共 有 89 , 503 人 使 用 ( SEGOB ,2021)。Rara'muri是一种多合成语言,其特征是中心标记结构(Nichols,1986)。Rara'muri有五种变体,AmericasNLIe的例子被翻译成高地变体(INEGI,2008)。翻译正字法和单词边界类似于Caballero(2008)。+v:mala2277获取更多论文AYMBZDCNIGNhchnahOTOquySHP焦油ChrFes→XXXX→es0.190.090.080.060.100.090.220.140.130.070.180.100.060.060.330.140.140.090.050.08蓝色es→XXXX→es0.300.040.540.010.030.013.260.183.180.010.330.020.010.021.580.050.340.010.010.01表4:所有目标语言的翻译性能。es→XX表示翻译成目标语言,用于口译培训,XX→es表示翻译成西班牙语,用于口译测试。Shipibo-Konibo(英语:Shipibo-Konibo)是一种帕诺亚语系语言,在秘鲁亚马逊地区有大约35,000名母语使用者它是一种具有粘着过程的语言然而,也使用了附着词,并且是帕诺亚 文 学 中 广 泛 使 用 的 元 素 ( Valen-zuela ,2003 ) 。 Shipibo-Konibo 使 用 SOV 语 序(Faust,1973)和后置词(Vasquezet al. ,2018)。AmericasNLI的翻译使用了秘鲁教育部支持的官方字母和标准书写Wixarika或Huichol语言,意思是医生和治疗师的语言(Lumholtz,2011),是Uto-Aztecan语 系 的Cora- chol亚 群 的 语 言 ( Campbell ,2000)。Wixarika是墨西哥的一种民族语言,有 四 种 变 体 : 北 部 , 南 部 , 东 部 和 西 部(INEGI,2008)。主要在墨西哥的Jalisc、Na- yari和Durango三个州使用,总共约有47,625人使用(INEGI,2001年)。Wixarika是一种多合成语言,具有中心语标记 ( Nichols , 1986 ) , 中 心 语 结 尾 结 构(Greenberg,1963),名词性并入,论证标记,屈折形容词,所有权标记,以及工具和方向性定语(Iturrioz和Go′ mez-L o′ pez,2008)。Wixarika遵循SOV语序,从西班牙语中借用词汇和与西班牙语进行代码转换是美国的常用翻译NLI在北Wixarika,并在母语使用者中使用正字法(Mager-Hois,2017)。4实验在 本 节 中 , 我 们 将 详 细 介 绍 用 于 评 估AmericasNLI上各种方法性能的实验设置。4.1Zero-Shot学习我们使用XLM-R(Conneauet al. ,2020)作为我们实验中预训练的多语言模型。XLM-R的体系结构基于RoBERTa(Liu et al. ,2019年),并使用MLM对100种语言的网络抓取数据进行训练。它使用由25万个子词组成的共享词汇表,使用SentencePiece(Kudo和Richardson,2018)标记化创建。我们使用基本版本的XLM-R进行实验。为了使XLM-R适应各种目标语言,我们在微调之前继续在目标语言的单语文本上使用MLM目标进行训练为了与其他方法保持公平的一致性,我们只使用目标数据,这些数据也用于训练翻译模型,我们在第4.2节中描述。然而,我们注意到,持续进行适应性预训练的一个好处是,它不需要并行文本,因此可以从不能用于基于预防的方法的文本中受益。对于持续的预训练,我们使用32的批量大小和2 e-5的学习率。我们总共训练了40个纪元。每个适应模型都从相同的XLM-R版本开始,并分别适应每种目标语言,这导致每种语言的不同模型 我 们 将 经 过 持 续 预 训 练 的 模 型 表 示 为+MLM。为了微调XLM-R,我们遵循Devlin等人的方法。(2019)并使用额外的线性层。我们在英语MNLI数据或机器翻译的西班牙语数据上进行 训 练 , 并 分 别 将 最 终 模 型 称 为 XLM-R( en ) 和 XLM- R ( es )在 Hu et al.(2020),我们使用32的批量大小和2 e-5的学习率。我们最多训练5个epoch,并在对应于微调语言的XNLI开发集上每625步评估性能我们采用提前停止,耐心的15个评估步骤,并使用最好的执行检查点的最终评估。 所有的微调都 是 使 用 Huggingface Transformers 库 完成的( Wolfet al. , 2020 年 ) , 配 备 两 个 NvidiaV100 GPU。+v:mala2277获取更多论文联系我们{FTAYMBZDCNIGNhchnahOTOquySHP焦油Avg.多数基线-33.3333.3333.3333.3333.3333.4733.4233.3333.3333.33-Zero-shotXLM-R(en)85.1536.0039.2037.2040.6736.8042.2836.9035.7340.6736.2738.17XLM-R(es)81.3237.8741.6037.8739.4736.2739.5739.0440.9338.2735.3338.62Zero-shot w/adaptationTranslate-train翻译测试XLM-R-39.4740.4035.0749.2038.4041.1933.9652.4039.0736.2740.54表5:零发射、发射序列和发射测试的结果。FT表示微调语言的XNLI测试集性能,不包括在平均值中多数基线表示仅预测测试集的多数类别时的预期随机猜测的准确率为33.33%。4.2基于翻译的方法我们还试验了两种基于翻译的方法,即翻译训练和翻译测试,下面将详细介绍所使用的翻译模型。翻译模型对于我们基于翻译的方法,我们训练了两组翻译模型:一组从西班牙语翻译成目标语言,另一组从相反的方向翻译。我们使用Transformer序列到序列模型(Vaswani et al. ,2017)与Guz ma'n等人提出的超参数。 (2019年)。我们对两个翻译方向采用相同的模型架构 , 并 且 我 们 根 据 BLEU 来 衡 量 翻 译 质 量(Papineni et al. ,2002)和ChrF(Pop o vi c',2015),cf. 表4. 我们使用airseq(Ottet al. ,2019年),以实现所有的翻译模型。5翻译训练对于翻译训练方法,XNLI提供的西班牙语训练数据被翻译成每种目标语言。然后,它被用来分别微调每种语言的XLM-R除了训练数据,我们还翻译了西班牙语开发数据,用于验证和早期停止。值得注意的是,我们发现上面定义的微调超参数并不能可靠地让模型收敛到许多目标语言。为了找到合适的超参数,我们通过在5e-6,2 e-5,1 e-4的学习率和32,64,128的批量大小上进行网格搜索来调整批量大小和学习率。为了选择超参数5翻译模型的代码可以在https://github.com/AmericasNLP/americasnlp2021在所有语言中运行良好,我们使用机器翻译的Aymara和Guarani开发集的平均性能评估每次运行,因为这些语言分别具有中等和高翻译质量我们发现,将学习率降低到5e-6,并将批量大小保持在32,可以获得最佳性能。除了学习率,我们使用与零镜头微调相同的方法翻译测试对于翻译测试方法,我们将每种目标语言的测试集翻译成西班牙语。这允许我们将在西班牙语上微调的模型XLM-R(es)应用于每个测试集。此外,与并行训练和适应的XLM-R模型相比,并行测试的好处是我们只需要整体微调一次,而不是每种语言一次为了进行评估,我们使用西班牙语XNLI开发集上性能最高的检查点5结果和讨论我们在表5中给出了我们的结果。所有10种语言的零射击性能都很低,英语和西班牙语模型的平均准确率分别为38.17%和38.62%。然而,在所有情况下,业绩都高于多数基准。如附录中的表A.3因此,回答RQ 1,我们得出结论,如果目标语言是看不见的,零镜头任务对我们的模型来说要困难得多。有趣的是,XLM-R(en)+MLM-41.6036.5340.8051.4739.8746.4837.8364.5340.6740.6744.05XLM-R(es)+MLM-43.8737.6038.8052.2736.0045.1241.5860.8041.2038.8043.60XLM-R-49.3352.0042.8055.8741.0754.0736.5059.8752.0043.7348.72+v:mala2277获取更多论文尽管在许多目标语言中遇到了与西班牙语的代码切换,但是对西班牙语标记数据的微调仅稍微优于对英语训练的模型,并且没有提高跨语言的一致性-英语模型在Na'huatl上评估时达到了42.28%的最高准确度,而西班牙模型在Bribri上评估时达到最低的性能时,达到评估克丘亚语和Rara'muri,分别为英语和西班牙语的模型转到RQ 2,我们发现通过持续预训练的模型适应改善了两种模型,英语平均增益为5.88个百分点值得注意的是,在对英语进行微调时,持续的预训练使克丘亚语的每一个百分比增加了28.8个百分点,在对西班牙语进行微调时增加了19.87个百分点当使用西班牙语数据时,Bribri(在两种情况下)和Wixarika的性能只会平移测试模型的性能在两个零炮基线上都有所提高我们看到瓜拉尼语和盖丘亚语的表现增幅最大,分别为8.53和8.5311.47分,超过了没有适应的最佳零射击模型。考虑表4中的翻译度量,瓜拉尼语和盖丘亚语的模型在两个度量中均获得了两个最高分数。有趣的是,对 于 Asha'ninka和Otom' n来说,测试性能低于零射击性能虽然这两种语言不具有最低的翻译性能,但具有类似翻译质量的其他语言要么获得类似的分数,要么比它们的零次计数器获得更高的分数。平均而言,当与适应的零射击模型相比时,Mitte-test做得更差,并且在除了两种情况之外的所有情况下,两种适应的模型都比Mitte-test表现得更好。翻译训练最令人惊讶的结果是翻译训练,它大大超过了所有语言的翻译测试模型的性能,并且在除两种语言之外的所有语言中都优于零镜头与最佳非适应零激发模型相比,克丘亚语的最大平均增益为18.94点。对于性能最低的语言,Otom的测试结果显示,bitter-train的性能比 zero-shot 差 2.54 分 ; 但 是 , 它 仍 然 优 于translate。test. 当在所有语言中进行平均时,translate-train的表现优于西班牙语零镜头模型,10.10分,复测8.18分。值得注意的是,从西班牙语到每种目标语言的翻译性能并不特别高:当考虑ChrF分数时,最高为0.33,最高BLEU分数为3.26。两个基于推理的模型都与ChrF分数相关,对于翻译测试和翻译训练,Pearson相关系数分别为0.79和0.90。BLEU的相关性没有那么强,系数为0.25和0.58。翻译训练法和其他方法之间的巨大差异表明,基于翻译的方法可能是跨语言迁移的宝贵资产虽然这种方法的最大缺点是需要并行数据和多个模型,但与其他方法相比,潜在的性能增益可能是值得的。此外,我们相信,如果有一个更强大的翻译系统,这两种基于自动翻译的方法的性能都会得到改善,未来的工作将详细说明实现最佳性能所需的翻译质量水平,这将为低资源语言的NLP应用程序提供巨大的实用价值。6分析6.1仅假设模型如 Gururangan 等 人 ( 2018 ) 所 示 , SNLI 和MNLI– 包含在注释过程中创建的工件,模型利用这些 工 件 来 人 为 地 提 高 性 能 。 为 了 分 析AmericasNLI中是否存在类似的工件,以及它们是否也可以被利用,我们只使用假设来训练和评估模型,对于在标准设置中表现最高的5种语言,当在所有方法中取平均值时。最重要的是,如表6所示,除XLM-R外,所有型号的跨语言平均性能均优于随机性能。翻译训练得到最高的结果47。35%的准确率因此,与SNLI和MNLI类似,假设中的伪影可以在某种程度上用于预测正确的标签。然而,如附录中表A.1所示,除2种情况外,仅假设这表明模型正在学习+v:mala2277获取更多论文FTAYMGNnahquySHPAvg.平均值+PZero-shotXLM-R(en)62.3433.6033.4733.0633.3333.6033.4139.07XLM-R(es)62.2634.1335.3333.6033.0736.8034.5939.22Zero-shot w/adaptationTranslate-train翻译测试XLM-R-36.5343.6043.2248.1342.6742.8344.27表6:仅假设结果。 平均值 列表示仅假设结果的平均值,而平均值+从表5计算的P列表示使用前提和假设时5种语言的平均值。即使AmericasNLI是一个零射击任务,而且在预训练期间语言是不可见的,但它不仅仅是利用假设中的人工制品。6.2提前停止早期停止对于防止深度学习模型中的过度拟合至关重要然而,在零射击学习的情况下,为了真正模仿现实场景,不能使用目标语言中的手工标记的开发集(Kann et al. ,2019)。因此,在我们的主要实验中,当对高资源语言进行微调时,我们使用该语言中的开发集进行早期停止。对于翻译训练,我们将源语言在这两种情况下,开发集上的性能对于模型最终将如何执行都是一个不完美的信号。为了探索这是如何影响最终模型性能的,我们在表7中展示了当使用oracle翻译进行早期停止时,字节串模型结果的差异。 我们发现,每一个平均高出2.74点,最大的差异为6.93点的As ha′ninka。因此,创建更好地近似目标语言中的开发集的方法对于实现更高的性能可能是有用的。7结论为了更好地理解预先训练的多语言模型在看不见的语言中的语义任务的零射击能力,我们提出了AmericasNLI,这是一个包含美洲土著10种低资源语言的Parti-NLI数据集。我们用XLM-R进行了实验,发现该模型然而,它可以通过持续的预训练进行模型自适应来改进此外,我们发现,基于翻译的方法优于零镜头的方法,这是令人惊讶的,考虑到所采用的翻译系统的低质量我们希望这项工作不仅能促进进一步的研究,改善模型对未知语言的适应性,还能激励
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功