Transformer网络模型在神经形态学拐点任务中的测试表现

140 浏览量更新于2023-11-30 收藏 516KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文100.094.79998.26998.5799.5795.1599.4797.35080.6860.8349.2441.1845.266.7488.84.993.333.61--Transformer能通过Wug测试吗？神经形态学拐点模型Ling Liu和Mans Hulden科罗拉多大学first.colorado.edu摘要深度学习序列模型已被广泛应用于形态学拐点的任务。过去几年SIGMORPHON共享任务的结果表明，这些模型可以表现良好，但前提是训练数据覆盖了大量不同的词元，或者在测试时发生变化的词元也在训练中看到，事实上大多数情况下都是如此89.94 91.9488.1479.575.677.9668.570.7869.2670.3162.6254.232.4432.2316.2219.05.729.0捷克芬兰德国俄罗斯西班牙土耳其在这些任务中。令人惊讶的是，标准模型，如Transformer几乎完全失败南阿坎加林加拉尼扬贾索托斯瓦希里当被要求对以前看不见的词元进行词形变化时，即在类似“wug测试”的情况下，虽然建立的数据增强技术可以用来减轻这一缺点，通过引入一个复制的偏见，通过hallucinat- ing合成的新词形式使用的alpha-赌注在手头的语言，我们表明，为了更有效，hallucination过程需要注意的子字符串的音节一样的长度，而不是个别字符或茎。我们报告了一个显着的性能改善与我们的基于子串的hallu- cination模型比以前的数据hallu- tion方法时，训练和测试数据不重叠，在他们的lemmata。1介绍Transformer模型在与构词和分析相关的许多不同任务中提供了令人信服的结果（Vylomovaet al. ，2020）。特别是在变形任务中，其中输入引理（例如狗）和输入变形特征（例如N、PL）被期望产生输出（例如狗），该模型已经显示出特别擅长概括模式（Wu et al. ，2020;Liu和Hulden，2020）。然而，我们已经发现，只有当在训练过程中看到了要变形的输入引理的某些变体时，这才是正确的在一个图1：Transformer在常用设置（左）、在某种程度上，我们发现，尽管有大量的训练数据，Transformer几乎完全无法概括拐点模式。早些时候已经注意到，如果神经序列到序列模型暴露于很少的训练数据，则它们的表现往往很差，并且半透明化形式的自动编码可能是有用的（Kann和Schütze，2017）。我们的出发点是观察到即使有丰富的训练数据，也会保持糟糕的在我们的研究中，我们展示了三个主要结果。(1)我们证明了，即使训练了相对大量的数据，Transformer模型的那种已经非常成功，在最近的共享任务在很大程度上无法概括的拐点模式，如果它没有在训练过程中暴露在测试集中的引理即使对于所有单词都以相同的方式变化没有词素的屈折类别或变体，如在SIGMORPHON 2020共享任务中使用的低资源刚果-刚果数据集中所发现的（Vylo-mova etal. ，2020）。(2)我们还表明，简单地将模型暴露给未变形的引理，arXiv：2104.06483v1 [cs.CL] 2021年4月+v：mala2277获取更多论文测试集--不提供单一的变形形式--允许模型在实际变形这种引理时显著地提高其(3)此外，我们研究了几种策略，避免利用测试集引理。我们表明，当通过幻觉新的引理或幻觉新的屈折形式在模型中诱导复制偏差时，如果幻觉方法对音节长度的子串而不是单个字符或词干敏感，则幻觉方法更有效我们最好的模型显着改进了早期最先进的数据幻觉方法，如Silfverberg et al.（2017）和AnastasopoulosandNeubig（2019）。2数据2018- 语言我们使用来自 CoNLL-SIGMORPHON 2018共享任务1介质设置的六种语言，其中每种语言有1，000个三元组（LEMMA，TARGET TAGS，TARGET FORM）用于训练（Cotterell et al. ，2018）。六种语言，捷克语，芬兰语，德语，俄语，西班牙语和土耳其语，被选中，以提供语言类型学和形态变化的挑战的多元化代表。虽然训练集中只有1,000个三元组，但它们覆盖了相当数量的引理，因为每个引理只出现一次或两次。在最初的共享任务数据分割中，开发和测试集中2%到27%的引理也存在于训练集中。为了准备用于“wug测试”类情况的训练数据，我们选择UniMorph（Kirovet al. ，2018）维基百科文本中发现的前100个最常见词汇的范例，这些词汇不包括在2018年共享任务1开发和测试集中。共享的任务开发和测试集用于验证和评估，无需任何更改。100个完整的变音表为我们提供了1,000多个（捷克语、德语和俄语）或7,000多个（芬兰语、西班牙语和土耳其语）训练三元组。此外，我们还使用SIGMORPHON 2020中的六种刚果-刚果语言共享任务0（Vylomova etal. ，2020年）：阿坎语，Ga，林加拉语，Nyanja，南苏丹语和斯瓦希里语。这些语言是低资源的，但数据集只包含非常规则的变化。在原始共享任务数据分割中，开发和测试集中的引理与训练集中的引理之间的重叠是100%。我们可以通过结合训练、开发和测试来获得的范例数量这个数据集的测试集是大约100阿坎语，Ga和斯瓦希里语，227 Nyanja语，57林加拉语和只有26南苏丹。对于我们的我们使用与共享任务相同的比率，但是划分是通过拐点表而不是lemma-tag-form 三元组，以确保用于验证和测试的lemmata与用于训练的lemmata不相交。我们在附录A提供有关数据统计的详情，以供指涉。3实验变形模型Transformer（Vaswaniet al. ，2017）是seq2seq架构，其产生关于形态学变形任务的当前最先进的结果（Wu et al. ，2020; Vylo-mova et al. ，2020; Liu和Hulden，2020）。它将引理和目标标记作为输入，并逐个字符预测目标表单。我们的实验使用Fairseq（Ott etal. ，2019），并采用与Liu和Hulden（2020）相同的超参数设置评估指标评估指标是准确性。对于2018年语言的原始共享任务数据和实验，我们训练了五个拐点模型，每个模型具有不同的随机初始化，并报告了标准偏差的平均准确度。由于数据稀缺，对于在“wug test”类设置下的刚果-刚果常规测试和“共同做法”是由前几年的共同任务和相关工作（Cotterell et al. ，2016，2017，2018;McCarthy et al. ，2019; Vylomova et al. ，2020年）;在这里，训练数据通常覆盖相当数量的词元，并且训练集和测试集中的词元之间存在重叠。我们使用共享的任务数据来表示常见的实践设置。在“wug测试”设置中，要被屈折的词元总是以前看不见的。令我们惊讶的是，Transformer在类似“wug test”的设置下的性能非常差，尽管2018语言有大量的训练三元组，刚果语言也有非常规则和直接的性能明显低于常规设置，即使+v：mala2277获取更多论文（一）（b）第（2）款（Kann andSchütze，2017）。我们采用类似的方法，用图2（a）所示过程生成的虚拟引理来+copy-2k-char方法将通过收集语言训练集中的字符创建的字母表考虑到一个词的自然语言子单位是一个音节，我们建议使用类似音节长度的子串来进行+copy-2k-substr方法。此方法的输入图2：（a）德国示例的伪引理生成+copy-2k-char通过从字母表中均匀采样来生成随机字符串，而+copy- 2k-substr从2-、3-和4-gram的集合中采样;(b) 数据幻觉与德国的例子。 +hall- 2k-substr 与+hall-2k-char的不同之处在于如何生成伪主干。芬兰语、西班牙语和土耳其语的训练三倍数量是西班牙语的七倍我们假设模型在“wug test”类情况下性能差的四个原因为了验证这些假设，我们进行了五个实验，旨在帮助模型学习复制不同的偏见，通过向每种语言的训练集添加以五种不同方式生成的2，0001个虚拟数据点，如下所述。+copy-dev-test-lemmas为了检验第一个假设，即模型不会学习复制它在训练阶段没有看到的词干部分，我们通过在其开发和测试集中添加带有特殊标签COPY的词元来增加每种语言的训练数据。换句话说，2000个（LEMMA，COPY，LEMMA）三元组被添加到每种语言的初始+copy-2k-char和+copy-2k-substr先前的工作发现，添加随机字符串可以帮助seq 2seq模型学习复制偏差，从而在训练数据有限1选择2，000是为了匹配2018年语言的+copy-dev-test-lemmas方法的我们没有尝试调整最佳的数据扩充大小。附录B提供了数据增强大小比较的图，其中我们在所有语言中没有发现一致的差异是来自语言训练数据的二元组、三元组和四元组的集合对于这两种方法，我们通过从输入中均匀采样并将采样项连接到我们在训练数据中看到的最小和最大字长之间的随机长度来生成伪引理伪引理生成过程的输出是伪引理、特殊符号COPY和伪引理的三元组，其被添加到初始+hall-2k-char和+hall-2k-substr伪引理生成方法不利用关于可以从训练数据推断出的字结构的知识。Silfverberg等人（2017）发现，通过用随机字符串替换训练三元组的假设主干，在低资源情况下用数据幻觉增强训练数据Anasta-sopoulos和Neubig（2019）通过考虑不连续茎改进了这种数据幻觉方法，这是迄今为止最好的数据幻觉方法我们通过使用Anastasopoulos和Neubig（2019）的方法生成的虚拟数据来增强初始的“wug test”训练集，从而进行+hall-2k-char实验使用SIGMORPHON 2020共享任务0基线的实现此外，我们建议从音节长度的子串，即二元语法，三元语法和四元语法集合中均匀采样来生成虚拟词干。该实验被称为+hall-2k-substr。具体而言，两种数据超分辨率方法（如图2（b）所示）都将来自训练集的三元组作为输入，将引理和目标形式与SIGMORPHON 2016共享任务基线的对齐方法对齐（Cotterell et al. ，2016），找到词元和目标形式之间的公共子串作为词干，用伪词干替换词干，并输出用于数据扩充的伪三元组。我们提出的方法与 Anastasopoulos 和 Neubig（2019）生成哑引理对齐lemma和target-form输出查找公共子串作为词干生成假阀杆并更换阀杆部件输出弹性缎V;SBJV;PRS;2;PL爱津茨特杜米莱姆目标标签虚拟目标形式Dummy-LEMMAs t虚拟目标表单e i z i e n t s a t ie i z i e n t s a t is t目标形式引理_ ngl e i ch egl e i ch e复制我们的产品杜米莱姆<复制>杜米莱姆目标形式gl e i c h e s tg l e i c h e_ n引理新闻杜米莱姆目标标签目标形式引理格莱兴V;SBJV;PRS;2;PL格莱希斯特（ä，e，k，m，.）或（we，mer，nigt，字母表或N-BASSET+v：mala2277获取更多论文图3：“Wug测试”结果。+copy-2k-char添加由字母表生成的随机字符串。+copy-2k-substr添加使用n-gram集合生成的随机字符串。+hall-2k-char添加了Anastasopoulos和Neubig（2019）的方法产生的数据。+hall-2k-substr增加了用我们的方法处理的数据。主要方面：（1）从二元、三元和四元的集合中采样，而不是从字母表中采样。(2)我们不强制虚拟股骨柄与要替换的股骨柄具有相同的长度，而是仅根据训练数据约束股骨柄的最小和最大长度此外，对于不连续的茎，我们只替换茎的第一部分。24结果和讨论“Wug test” with data augmentation 每种语言都通过数据扩充得到了显著的改进，这表明在普通的“wug测试”环境下的Transformer模型我们提出的基于子字符串的数据幻觉，+hall-2k-substr，实现的准确性显着高于大多数语言的其他方法。对于土耳其语和Nyanja语，+hall- 2k-substr低于最佳性能，但差异不显著。对于Lingala，+hall- 2k-substr与+hall-2k-char具有相同的最佳性能。+hall-2k- substr的突出优点表明，音节长度的子串比单个字符更有帮助2仅使用第一部分是为了在当前工作中实现对于有大量不连续词干的语言，应该调整它数据幻觉它还支持我们在第3节中提出的第四个假设，即Transformer在类似香草“wug test”的设置中表现不佳常见做法与虽然数据增强可以提高模型5结论在这项工作中，我们研究了保持训练引理与形态学拐点中的评估集不相交。通过比较Transformer在类似“wug test”的情况下的表现与通常的做法，我们发现，存在词元重叠我们建议使用基于子串的数据超分辨率来增强训练数据，并且与以前的数据超分辨率方法相比取得了显着的改进+v：mala2277获取更多论文引用安东尼奥斯·阿纳斯塔索普洛斯和格雷厄姆·诺伊比格。2019. 推动低资源形态反射的极限。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第984-996页，中国香港。计算语言学协会。吉恩·贝尔科1958.这孩子Word，14（2-3）：150作者：Ryan Cotterell，Christo Kirov，John Sylak-Glassman ， G e'raldineWalthe r ， EkaterinaVylomov a ， AryaD. McCarthy ， Katharina Kann ，Sabrina J. Mielke ， Gar- rett Nicolai ， MiikkaSilfverberg，David Yarowsky，Jason Reynner，and Mans Hulden. 2018. CoNLL-SIGMORPHON在CoNLL-SIGMORPHON 2018共享任务的会议记录中计算语言学协会。RyanCotterell ， ChristoKirov ， JohnSylak-Glassman，Ge' raldineWalther，EkaterinaVylomova，Patrick Xia，ManaalFaruqui，SandraKubler，我看到了亚罗夫斯基，杰森·吉纳，还有曼斯·胡登。 2017. CoNLL-SIGMORPHON 2017 共享任务：52种语言的通用形态再反射。在CoNLLSIGMORPHON 2017共享任务的会议记录中：通用形态学再转化，第1-30页，温哥华。计算语言学协会。RyanCotterell ， ChristoKirov ， JohnSylak-Glassman ， David Yarowsky ， Jason Barner 和Mans Hulden。2016. SIGMORPHON 2016分享了任务-形态反射。第14届SIGMORPHON语音学、音系学和形态学计算研究研讨会论文集，第10-22页，德国柏林。计算语言学协会。卡塔琳娜·卡恩和辛里奇·舒策。2017年。用基于字符的序列到序列模型进行形态生成的未标记数据。在 Proceedings of the First Workshop onSubword and Character Level Models in NLP，第76计算语言学协会。ChristoKirov 、 RyanCotterell 、 JohnSylak-Glassman、Ge' raldineWalther、EkaterinaVylomova 、 PatrickXia 、 Manaal Faruqui 、 Sabrina J.Mielke、Arya Mc-Carthy、SandraKu？ bler、DavidYaro wsky、JasonEis-ner和Mans Hulden。2018.UniMorph 2.0：单细胞形态学。第十一届语言资源与评估国际会议（LREC 2018），宫崎，日本。欧洲语言资源协会（ELRA）.刘玲和曼斯·胡登。2020. 神经词变形的类比模型。在第28届会议上，计算语言学国际会议，第2861-2878页，巴塞罗那，西班牙（在线）。国际计算语言学委员会。艾莉亚·D McCarthy，Ekaterina Vylomova，ShijieWu ， Chaitanya Malaviya ， Lawrence Wolf-Sonkin，Gar- rett Nicolai，Christo Kirov，MiikkaSilfverberg，Sab- rina J. Mielke，Jeffrey Heinz，RyanCotterell，andMansHulden.2019.SIGMORPHON 2019的共同任务是：语境中的形态分析和跨语言的屈折转换。第16届语音学、音系学和形态学计算研究研讨会论文集，第229计算语言学协会。Myle Ott 、 Sergey Edmund 、 Alexei Baevski 、Angela Fan 、 Sam Gross 、 Nathan Ng 、 DavidGrangier和Michael Auli。2019. fairseq：一个快速、可扩展的序列建模工具包。在计算语言学协会北美分会2019年会议记录（演示）中，第48-53页，明尼阿波利斯，明尼苏达州。计算语言学协会。Miikka Silfverberg ， Adam Wiemerslage ， LingLiu，and Lingshuang Jack Mao.2017. 用于形态再反射的数据增强。在CoNLL SIGMORPHON 2017共享任务的会议记录中： UniversalMorphological Reinflection ，第 90-99 页， VanCouver。计算语言学协会。Ashish Vaswani ， Noam Shazeer ， Niki Parmar ，Jakob Uszkoreit，Llion Jones，Aidan N Gomez，Lukasz Kaiser，and Illia Polosukhin. 2017.注意力就是你所需要的。 arXiv 预印本 arXiv ：1706.03762。Ekaterina维洛莫娃，詹妮弗白色，伊莱莎-Beth Salesky 、 Sabrina J. Mielke 、 Shijie Wu 、Edoardo Maria Ponti、Rowan Hall Maudslay、RanZmigrod 、 Josef Valvoda 、 Svetlana Toldova 、Francis Tyers、Elena Klyachko、Ilya Yegorov、Natalia Krizhanovsky 、Paula Czarnowska、IreneNikkarinen 、 AndrewKrizhanovsky 、 TiagoPimentel 、 Lucas Torroba Hennigen 、 ChristoKirov 、 Garrett Nicolai 、 Adina Williams 、Antonios Anastasopoulos、Hilaria Cruz、EleanorChodroff、Ryan Cotterell、Miikka Silfverberg和Mans Hulden。2020. SIGMOR-PHON2020共享任务 0 ：类型多样的形态变化。第 17 届SIGMORPHON语音学、音系学和形态学集，第1-39页，在线。计算语言学协会。Shijie Wu，Ryan Cotterell，and Mans Hulden. 2020.将Transformer应用于字符级的转换。arXiv预印本arXiv：2005.10213。+v：mala2277获取更多论文A数据信息B数据扩充大小比较语言三次计数列车发展试验引理计数训练dev 测试lemma-overlap（%）dev-train 试验列车捷克10001000100084884884924.5320.38芬兰1000100010009859839872.343.04德国1000100010009619459629.429.46俄罗斯1000100010009739859773.653.79西班牙10001000100090690292215.7416.49土耳其90692891276480277926.0626.57表1：CoNLL-SIGMORPHON 2018共享任务1中型数据信息。100908070605040302018-语言捷克芬兰德国俄罗斯西班牙土耳其添加1k增加2k添加3k添加4k添加5k添加6k添加7k添加8k添加9k表2：我们创建10510095908580刚果-刚果诸语言阿坎加林加拉尼扬贾南索索斯瓦西里2018年-语言我们使用相同的开发和测试集75作为CoNLL-SIGMORPHON 2018共享任务1。添加1k增加2k添加3k添加4k添加5k添加6k添加7k添加8k添加9k图4：在“wug test”中设置的开发集上的性能添加不同数量的虚拟数据，这些数据是用我们基于子串的幻觉方法生成的。表3：SIGMORPHON 2020共享任务0中刚果-刚果语言的数据信息。语言三次计数列车引理计数训练lemma-overlap（%）dev-train 试验列车捷克158210000芬兰713610000德国129010000俄罗斯131110000西班牙713210000土耳其763210000语言三重计数火车dev测试引理计数火车dev测试lemma-overlap（%）发展列车试验列车阿寒2793380763969495100.0100.0ga60779169955980100.0100.0林加拉1592346572334100.0100.0Nyanja3031429853227199226100.0100.0南索托3455099262425100.0100.0

下载后可阅读完整内容，剩余1页未读，立即下载