自然语言组合性悖论：神经机器翻译中的案例研究

193 浏览量更新于2023-12-01 收藏 815KB PDF 举报

神经机器翻译

自然语言处理

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文自然语言的组合性悖论：一个神经机器翻译案例研究韦尔纳·丹克斯爱丁堡大学ILCCvernadankers@gmail.com埃利亚·布鲁尼奥斯纳布吕克大学elia. gmail.com迪乌克·胡普克斯Facebook AI Researchdieuwkehupkes@fb.com摘要向类人语言表现的转变通常被认为需要组合概括。神经网络是否表现出这种能力通常使用人工语言来研究，对于人工语言，可以保证输入片段的组合性，并且它们的含义可以代数组合。然而，自然语言中的组合性比这种严格的、类似算术的组合性版本复杂得多，因此，人工组合性测试不允许我们得出关于神经模型如何在更现实的场景中处理组合性的在这项工作中，我们从文献中重新实例化三个组合性测试，并重新制定它们的神经机器翻译（NMT）。结果突出了两个主要问题：NMT模型的不一致行为和它们在局部和全局处理之间（正确地）调节的能力。除了实证研究，我们的工作是呼吁行动：我们应该重新思考自然语言神经网络中组合性的评估，其中组合意义并不像做数学那样简单。1介绍尽管深度神经网络在自然语言处理（NLP）方面的成功令人震惊和不可否认，但它们仍然经常被批评缺乏强大的泛化能力，而这种能力可以提高人类的智能。在这些批评中，一个经常提到的概念是组合性：通过组合其部分的含义来建立复杂表达式的含义的能力（例如Partee，1984）。组合性被认为在人类如何理解语言方面起着至关重要的作用，但现代神经网络是否也表现出这种特性一直是一个生动的辩论话题（例如 Fodor 和 Pylyshyn ，1988;Smolensky，1990;Marcus，2003;Nefdt，2020）。关于神经网络合成能力的研究几乎只考虑模型在人工数据集上进行训练，其中可以确保和隔离组成（例如Lake和Baroni，2018; Hupkes etal. ，2020）。[1]在这样的测试中，表达式的解释是完全局部计算的：每个子部分都是独立评估的这个协议与算术中观察到的组合性类型相匹配：（3 + 5）的含义总是8，与它出现的上下文无关。然而，正如只允许这种严格协议的符号模型的次标准所示，自然域中的组合性远比这种严格的、类似算术的组合性变体复杂得多。自然语言看起来非常复杂，但同时，它充满了难以用严格的局部组合性解释来解释的情况。有时，一个表达的意义并不来自它的部分（如成语），但部分本身在其他语境中组合使用其他时候，表达的含义确实以组合的方式取决于其部分，但达到这种含义需要更全局的方法，其中使用来自句子中其他地方的信息（例如同音异义词，范围歧义）来消除部分的含义成功地建模语言需要平衡这种局部和全局形式的（非）组合性，这使得评估最先进的模型中的组合性“在这项工作中，我们直面这一挑战。我们专注于神经机器翻译（NMT）领域，它在范式上接近于1Raunak等人除外。（2019），在语言背景下的组合概括工作考虑了自然语言的高度结构化子集（例如Kim和Linzen，2020; Keysers等人，2019）。，2019）或专注于神经网络学习捷径的趋势（例如McCoy et al. ，2019）。arXiv：2108.05885v1 [cs.CL] 2021年8月+v：mala2277获取更多论文×−序列到序列任务通常被考虑用于组合性测试，其中目标序列被假定为表示输入序列的2此外，MT是NLP的一个重要领域，对于该领域，组合生成对于产生更健壮的翻译和为低资源语言训练适当的模型是重要的（参见例如Chaabouniet al. ，2021年）。作为一个额外的优势，合成性在传统上被很好地研究和激励为MT （ Janssen 和 Partee ， 1997;Janssen ，1998）。我们重新制定三个理论接地测试Hupkes等人。（2020）：系统性，替代性和过度概括。由于准确性-在我们的系统性和替代性测试中，我们考虑处理是否最大限度地局部化;在我们的过度泛化测试中，我们考虑模型如何处理假设需要全局处理的习惯用法。我们的研究结果表明，一致的行为目前没有实现，许多不一致是由于模型没有达到正确的处理水平（本地或全球）。然而，一致性或准确性措施既不能反映实际的处理通过我们的研究，我们对正在进行的关于神经网络组合能力的问题做出了贡献，并且我们在自然语言方面对这个问题的性质提供了细微差别：自然语言模型的组合性应该有多本地，以及MT所需的组合性类型如何，其中翻译被用作意义的代理，与自然语言的组合性有关？除了实证研究之外，我们的工作也是一个行动呼吁：我们应该重新思考在自然语言训练的神经网络中对组合性的评估，其中组合意义并不像做数学那样简单。2局部和全局组合神经网络中的组合泛化测试通常假设一个类似算术的组合版本，其中可以以完全自下而上的方式计算含义的2例如，在SCAN（Lake和Baroni，2018）中，输入是一条指令（walk两次），预期的输出表示其执行（walkwalk）。因此，组合物仅需要局部信息- 它们与上下文无关且明确：（2 + 1）（四）5)以类似于跳三次后走两次的方式进行评估（来自Lake和Baroni的SCAN片段，2018）。在机器翻译中，这种类型的组合性意味着一个词或短语的变化应该只影响该特定词或短语的翻译，或者最多影响它是其中一部分例如，短语the girl的翻译不应该根据它后面的动词短语而改变，而在两个句子的连接词的翻译中，在第一个连接词中做出改变不应该改变第二个的翻译。虽然以这种当地的方式翻译似乎是有力的和富有成效的，但它并不总是现实的。例如，考虑一下在“她讨厌香蕉，她喜欢日期”中多义词“日期”的翻译在语言学和语言哲学中，组合性的层次是一个广泛讨论的话题，由此产生了各种各样的组合性定义。最著名的定义之一是 Partee（1984）的定义“The meaning of a compound expres-sion is a function of the meanings of itsparts and of the way they are syntacti-cally 3这个定义对表达式和它的组成部分之间的关系几乎没有任何限制将它们关联起来的函数的类型是未指定的，并且可以考虑全局语法结构甚至外部参数，并且部件的含义也可以取决于全局信息。因此，Partee的复合性版本也被称为弱复合性、全局复合性或开放复合性（Szab o'，2012 ; Gar c' ıa-Ra m 'ırez，2019）。相反，当一个复合词的意义只取决于它的最大部分的意义或翻译，而不管它们的内部结构（复合性的算术变体），这被称为强的，局部的或封闭的复合性（Szab o'，2012;Jacobson，2002）。对组合性的这种更严格的解释是先前组合性测试中旨在推广的基础（参见第5节）。然而，它不适合对传统上被认为是合成问题的自然语言现象进行[3]这一原则可以直接扩展到翻译，用翻译一词取代意义一词（Janssen and Partee，1997;Janssen，1998）。+v：mala2277获取更多论文± ±±例如，引用，信念句子，歧义，习语，名词-名词复合词，以命名一个 fe w （ Pagin 和Westerstamohl，2010;Pavlick和Callison-Burch，2016）。在这里，我们的目标是开启关于自然语言的计算模型是复合性的意义的讨论，并为此讨论需要局部组合意义的属性，并通过习语来观察全局复合性。3设置首先，我们描述了分析的模型和构成我们测试基础的数据。3.1模型和培训我们专注于英语-荷兰语翻译，我们可以确保两种语言的良好掌握。我们训练基于transformer的模型（Vaswani et al. ，2017）使用Fairseq（Ott et al. ，2019）。4我们的训练数据由 OPUS 中捆绑的 MT 语料库集合组成（Tiedemann和Thottingal，2020），其中我们使用Tiedemann（2020）提供的包含69 M源目标对的英语-荷兰语子集5为了检查训练数据量的影响-一个根据Lakretz et al. （2019），其中包含大量具有固定句法结构和多样词汇材料的句子。Lakretz等人（2019），以及之后的其他作者（例如， Jumelet等人，2019; Lu et al. ，2020年），成功地使用这些数据来评估语言模型中的数字一致性，验证了数据作为测试神经模型的合理资源。我们扩展了数据集中的模板集和使用的词汇表。对于10个模板（见表1a）中的每一个模板，我们生成3000个句子。半自然数据在合成数据中，我们可以完全控制句子结构和词汇项，但句子较短（9 to- kens vs.OPUS中的16），并且比NMT数据中的典型句子更简单。为了获得更复杂但更合理的测试句子，我们采用数据驱动的方法来生成半自然的数据。使用树替换文法 Double DOP （ VanCranenburghet al. ，2016），我们获得的名词和动词短语（NP，VP）的结构经常出现在OPUS。然后，我们将这些NP和VP嵌入10个合成模板中，每个模板具有3000个样品（参见表1b）。有关数据生成的详细信息，请参见附录A自然数据最后，我们使用直接从OPUS提取的自然数据。浸提程序是特定于测试的，并在（中8），以及一个使用100万个源-目标个别测试的子章节（§4）。在小的设置。对于每个设置，我们用五个种子训练模型，并对结果进行平均为了确保我们训练模型的质量，我们采用了F LORES-101语料库（Goyal et al. ，2021），其中包含3001个句子从维基新闻，维基少年和维基旅行，翻译的专业翻译，并分为三个子集。我们训练模型，直到收敛到“dev”集。之后，我们使用波束搜索（波束大小 = 5 ）计算“devtest” 集上的BLEU分数，得到分数20。五、四，二十四。3. 3和25。第七章1用于分别是小型、中型和完整数据集3.2评价数据对于我们的组合性测试，我们使用三种不同类型的数据-合成数据对于我们的合成测试数据，我们从探索语言模型中的语法结构的文献中获得灵感：我们4有关Transformer基础的培训详情，请点击此处。5访问Tatoeba挑战获取OPUS训练数据。4实验和结果在我们的实验中，我们考虑了系统性（第4.1节）和替代性（第4.2节）这两个特性，这两个特性需要本地意义的组合，以及需要不同（更全局）类型的处理的习语的翻译（第4.3节）。4.1系统性组成概括最常测试的特性之一是系统性-理解由已知组分组成的新组合的能力（Lake和Baroni，2018 ; Raunak等人）。，2019; Hupkes 等人，2020）。系统性的一个经典例子来自 Szabo'（2012）：理解“棕色狗”和“黑猫”的人4.1.1实验在自然数据中，要考虑的潜在重组的数量我们选择专注于两个上下文无关规则中的重组：S→NP VP和S→S CONJ S。+v：mala2277获取更多论文精精人人精→→→→J→→→→→精→→n模板n模板1N人VN人。2The NpeopleAdv Vthe N sl.3N人PNsl VNsl。1，2，3 N人VP1，2，3.男人们得离开镜头4，5N个人读了一篇关于NP1，2的文章。4n个车辆精英.精这个人读了一篇关于peopleand theN peopleVtheNsl肝硬化大鼠的腹水。5Npl的N slP Nsl VNsl。数量6n个人pl车辆精英6，7一篇关于NP 3，4的文章被N个人阅读。人V，N人V。7这N个人说这N个人。8N人V，N人V，N人V。9N个人V V N个人。10N人V Pro V N sl。一篇关于价格稳定标准的文章，只有27%是由孩子阅读的。8，9，10N的人听说NP5，6，7了吗老师听说了星期天这里发生的就业游行吗？(a) 合成模板（b）半天然模板表一：合成和半自然的模板，与词性标记的词汇项目的变化显示在蓝色的复数作为上标和子类别作为下标。OPUS提取的NP和VP片段为红色。测试设计在我们的第一个设置中，S NPVP，我们考虑名词和动词短语的重组我们从第3.2节的模板中提取所有输入句子的翻译，以及我们调整（1）名词（NP NP '）或（2）动词短语（VP VP'）的版本在（1）中，主语位置的NP中的名词被替换为不同的名词，同时保持与VP的数量一致。在（2）中，VP中的一个名词被替换。NP NP每个模板每个条件每个数据类型。在我们的第二个设置中，S S CONJ S，我们使用“和”连接短语我们从不同的模板连接两个句子（S1和S2），我们再次考虑两个不同的条件。首先，在条件S1→SJ1中，我们通过改变其动词短语中的名词来对S1进行最小的改变，从而产生S1 在S1相反，我们用从不同于S1的模板中采样的句子S3来替换S1。我们比较的翻译S2在所有条件下。在准备数据时，从合成数据模板中采样第一合取第二个合取词是从合成数据、半自然数据中采样的，或者是从OPUS中采样的具有与半自然输入相似的长度和词频的自然句子中采样的。我们使用每个模板每个条件每个数据类型500个样本。在人工领域中，系统性通过从训练数据中删除“已知组件”的组合并使用它们来评估。通过高训练精度来确保，并且通过测量测试集精度来量化如果训练数据是一个自然语料库，并且模型是用MT中的BLEU之类的度量来评估的，那么这种策略是不可用的。我们观察到，被系统化需要在分配给一个（子）表达式的解释中保持一致，无论是在人工领域还是自然领域。因此，在这里，我们关注的是一致性而不是准确性，允许我们采用模型驱动的方法，该方法在多个上下文中呈现单词或短语时评估模型我们衡量一致性的标准是考虑到预期的变化后两种翻译的相等性。例如，在S NP VP的设置中，如果两个翻译在荷兰语中的限定词变化（ “de”vs.“het”）后，它们只有一个词不同，则它们是一致的在对S S CONJ S的评价中，我们根据荷兰语中连接词的位置去除了第一个连接词的翻译，并对第二个连接词的翻译进行了一致性度量。4.1.2结果在图1中，我们展示了S NP VP和S SCONJ S设置，分别区分训练数据集大小、评估数据类型和模板。6首先，我们观察到模板之间的一些变化，这不是简单地用句子长度来解释的，即最短的模板不一定是最好的。合成数据在多个模板中使用相同的词汇项，这表明语法结构或多或少地有助于合成。用于测试目的。必要的熟悉组件（它们是“已知”的事实6附录B通过表格列出了结果。+v：mala2277获取更多论文→→→→→1.00.80.61.00.80.61.00.80.61.00.80.60.40.40.40.40.20.20.20.20.0合成的半; 自然(a) S1→ S′10.0合成的半; 自然(b) S1→S30.0合成的半;(c) NP→ NP′0.0合成(d) VP→ VP′图1：设置S→S CONJ S（a和b）和S→NP VP（c和d）的系统性结果一致性得分按评估数据类型（x轴）、按训练数据集大小（颜色）显示数据点表示模板（template）和模板上的均值（means overtemplate）。你好S S CONJ S中天然数据的平均性能与半天然数据的性能非常相似，表明控制程度的增加不会严重影响使用该生成数据获得的结果。第二，不同的变化有不同的影响。对于SNP VP，改变NP比改变VP具有更大的影响。为S S CONJ S，用S3替换整个第一个合取词比仅仅替换S1中的一个词有更大的影响。增加训练数据集的大小会导致一致性得分增加。这可能是因为更大的训练集为模型提供了更自信的翻译。然而，增加数据集的大小是一个有点矛盾的解决方案组合概括：毕竟，在人类中，组合性被认为是根据他们的能力，从很少的例子概括使用（湖等。，2019）。最后，一致性得分总体上相当低，这表明该模型在对输入进行小的（不相关的）调整后，容易发出（子）句子的不同翻译。此外，这种变化是否发生在句子本身（S NP VP）或是否发生在另一个连接词（S S CONJ S）中似乎并不重要，这表明缺乏局部处理。4.2替代性根据组合性原则的当地解释，同义词替换应该是意义保持的：用同义词替换复杂表达中的成分不应该改变复杂表达即使有人争辩说，第4.1节中的系统重组保证了对翻译的一些修改由于存在于名词和动词之间的一致性该测试通过执行Hupkes等人（2020）的替代性测试来解决这个问题，该测试测量了同义词替换后输出是否保持一致。4.2.1实验在自然数据中，很难找到真正的同义词在这里，我们认为两个源术语同义，如果它们一致地翻译成相同的目标术语。为了找到这样的同义词，我们利用OPUS包含英国和美国英语的文本这一事实因此，它包含拼写不同的同义术语-例如我们总共使用了20个同义词对（参见图2b）。测试设计对于每个同义词对，我们从OPUS中选择出现术语的自然数据，然后执行同义词替换。因此，每个样本有两个句子，一个是英式英语术语，一个是美式英语术语。我们还使用每个模板每个同义词对500个样本将同义词插入到合成和半自然数据中，通过修饰名词的从句-在附录C表6中，我们列出了所有使用的条款。与系统性一样，我们使用一致性得分来评估替代性，表示样本的模型翻译是否相同。我们报告了全句一致性和同义词翻译的一致性模型从翻译中省略同义词的情况66 6101024441010106 562441042101010671949106310510一致性11410 210训练规模小中型全一致性一致性一致性+v：mala2277获取更多论文◦⬦a（e| i）r（o）planepostcode / zip code1.00.80.60.40.20.0合成半天然天然（一）铝茄子（ a ） do（ ugh ）nutfl（a）utiistf（o）etus足球/足球假期/假期瓢虫/瓢虫须0.00.25 0.5 0.75 1.0一致性p（y|（a）帆船购物车/购物车硫酸盐|f）吃剧院（RE）|呃）图莫河兽医搅拌酸奶0.00.250.50.75 1.0一致性（b）第（1）款图2：（a）对于在三个训练集大小上训练的模型，每个评估数据类型的替代性同义词（）的平均一致性得分。单个数据点（）表示同义词。我们用最高分和最低分来注释同义词。(b)每个同义词的一致性细节，使用完整的句子（深蓝色）或仅同义词的翻译（绿色）测量如果翻译的其余部分对于两个输入序列是相同的，则标记为一致的。4.2.2结果在图2a中，我们总结了同义词，数据类型和训练集大小的一致性得分。7我们观察到类似于系统性结果的趋势，考虑到在较大训练集上训练的模型表现更好，并且与（半）自然数据相比，合成数据产生更一致的翻译。结果的特征在于同义词之间的大变化，为此，我们在图2b中进一步详细描述了实验设置之间的聚合性能。分数极低的三个同义词--纵观全局，相当值得注意的是，对于具有相同含义的同义词（对某些同义词来说，甚至拼写几乎相同），翻译是如此不一致。我们能把这归因于同义词的翻译吗？为了研究这一点，图2b呈现了同义词的常规一致性和翻译的一致性后者高得多的事实表明，不一致的很大一部分是由于上下文的不同翻译而不是同义词，再次强调了模型对输入的非局部处理。7附录C在表格中提供了相同的结果。4.3全球组合性在我们的最后一个测试中，我们关注的是组合规则的例外在自然语言中，对局部组合性构成挑战的典型例外是习语.例如，成语“大雨倾盆”应该从全球的角度来看待，以达到其大雨的含义。一个本地的方法会产生一个过于字面，无意义的翻译（ “het regent katten enhonden”）。当一个模型的翻译过于局部化时过度概括表明语言学习者已经内化了一般规则（例如Penke，2012）。4.3.1实验为了在我们的语料库中找到习语，我们利用了MAG-PIE语料库（Haagsma et al. ，2020）。我们选择了20个英语习语，准确的荷兰语翻译不同于直译。由于习语的获取取决于它们在语料库中的出现频率，我们使用OPUS中出现次数不少于200次的习语，基于精确匹配，超过80%的目标译文不包含直译。测试设计每个习语，我们从OPUS中提取包含该习语的自然句子。对于合成和半自然的数据类型，我们在每个模板的每个习惯用法中插入500个样本，通过将从句附加到名词所用条款见附录D表7。评估根据习惯用法，我们评估模型过度概括的频率和转换的频率培训规模小中型全同义词一致性一致性+v：mala2277获取更多论文1.00.80.60.40.20.01.00.80.60.40.20.01.00.80.60.40.20.0小14080120 160时代14080120 160时代14080120 160时代介质110203040 50时代(a) 合成110203040 50时代(b) 半自然110203040 50时代(c) 自然充分1 10 20 30时代1 10 20 30时代1 10 20 30时代–3）最终，模型开始记忆习语这与Hupkes等人的结果一致。（2020），他创造了规则例外的人工对应物，以及Rumelhart和McClelland（1986）在过去时态辩论中提出的早期结果。尽管过度泛化峰值的高度在评估数据类型和训练集大小之间是相似的，但在较小数据集上训练的收敛模型中的过度泛化比在完整语料库上训练的模型中更9除了训练集的大小，使用的评估数据的类型也很重要，因为与自然数据相比，合成和半自然数据的泛化程度更高，强调了习语嵌入的上下文的影响。上下文不支持习惯用法解释的极端情况是一系列随机单词;为了评估这产生本地翻译的假设，我们在习惯用法周围加上图3：在整个训练过程中，对于五个模型种子及其均值，id- ioms的过度泛化的可视化。过度概括发生在训练的早期，在熟语翻译记忆之前全球的成语为此，我们确定了表明翻译是本地翻译（字面翻译）而不是全局翻译（惯用翻译）的关键字。如果关键词被复制到模型输出中，或者存在它们的字面翻译，则翻译被标记为过度概括的翻译。例如，对于“by heart”，直译是通过“hart”（“心脏”）的存在来识别的，而适当的有关关键词的完整列表，请访问附录D，表7。我们在整个训练过程中评估了10个检查点的过度概括。4.3.2结果在图3中，我们可视化了每种数据类型的结果，同样是针对三种训练数据集大小。8对于所有评估数据类型和所有训练集大小，可以确定三个阶段：1）最初的翻译不包含成语十个随机单词结果（见附录D，表7）表明，的确，当语境根本不支持全局解释时，该模型为几乎所有习语提供了局部翻译除了设置之间的差异，在个别习语中观察到的过度概括也有相当大的差异。这种差异部分是由于某些习语的出现频率低于其他习语，因为训练语料库中精确匹配的数量与峰值和收敛时过度概括之间的过度概括差异显著相关，10这表明频繁习语更有可能被模型记住。5相关工作在这项工作中，我们考虑了神经网络模型中的成分泛化在以前的工作中，已经提出了各种人工任务，以评估合成概括使用非i.i.d.设计用于评估组合行为的特定特征的测试集。例如系统性（Hupkes et al. ，2020年;湖和Baroni，2018），替代性（Mul和Zuidema，翻译，但由于翻译包括只使用目标语言中的高频词2）之后，过度概括达到顶峰：该模型发出了一个非常字面上8附录D进一步详细说明了每个习语的数值结果。9收敛性基于验证数据的BLEU分数。当训练模型的时间更长时，这可能会进一步改变观察到的过度泛化。10合成数据的Pearson <'s r为0.56，半自然数据的Pearson'sr为0.56，自然数据的Pearson's r为0.53。0001.过度概括过度概括过度概括+v：mala2277获取更多论文2019; Hupkes 等人， 2020 ），地方主义（ Hupkes et al. ， 2020 年 ; Saphra 和 Lopez，2020年），生产力（Lake和Baroni，2018年）或过度概括（Hupkes等人，2018年）。，2020; Korrel et al. ，2019）。一般来说，神经模型很难在这样的评估设置中推广，尽管数据增强（Andreas，2020）和建模技术（Lake，2019）已被证明可以提高性能。还有一些研究考虑对语义解析和机器翻译任务的更自然数据进行合成概括，尽管所使用的语料库仍然代表自然语言的一个小的受控子集。Finegan-Dollak等人（2018）发布了八个文本到 SQL 数据集，以及非 i.i.d. 测试集。Keysers等人（2019）应用基于规则的自动数据集生成，生成CFQ数据集，其中具有最大复合发散的测试集用于测量成分概括。Kim和Linzen（2020）提出了一个PCFG生成的语义解析任务，该任务具有针对英语片段的特定类型的词汇和结构概括的测试集。Lake和Baroni（2018）测量了英语-法语的玩具NMT任务的少数镜头生成，该任务使用根据模板生成的句子对Raunak等人（2019）使用该玩具任务进行了额外的实验，以测试NMT模型的系统性。最近，Li et al. （2021）提出了CoGnition来测试英汉机器翻译的合成概括，这是一个基准数据集，用于训练数据模型，这些数据只包括来自小词汇的短句，不包括任何导致合成概括的自然语言复杂性的有问题的结构，例如多义词或隐喻语言。据我们所知，唯一试图明确衡量在大型自然MT语料库上训练的NMT模型的成分概括的是Raunak等人提出的研究。（2019年）。他们测量生产力-6讨论神经网络是否可以概括组合性通常使用人工任务来研究，这些任务假设对组合性的严格本地解释。在本文中，我们认为，这种解释排除了语言的大部分，并朝着人类一样的生产性使用，因此，需要测试来评估在自然数据上训练的组合模型。我们为在自然语料库上训练的NMT模型重新制定了三个组合泛化测试除了提供经验贡献外，我们的工作还强调了在考虑自然语言模型是组合的意味着什么下面，我们反思这些障碍以及我们的结果。6.1意义问题组合性是表达式的形式和意义之间的映射的性质。由于翻译是从一种语言的形式到另一种语言的形式的意义保持映射，因此评估组合性是一项有吸引力的任务：其句子的翻译可以被视为其意义的代理。然而，虽然表达式被认为只有一个含义，但翻译是一个多对多的映射：同一个句子可以有多个正确的翻译。这不仅使评估复杂化-MT一方面，我们可以认为，为了最佳的概括性、鲁棒性和问责制，我们喜欢模型系统地和一致地表现换出附近句子中的同义词事实上，一致性是我们在大多数测试中使用的主要指标。然而，这确实意味着，如果模型以不改变翻译正确性的方式改变其翻译把“atleet”（“运动员”）翻译成“sporter”（“运动员”）真的重要吗？即使这个变化是在改变了一个不相关的词之后发生的--有多远？这个问题的答案可能取决于领域、可用于训练的数据量以及翻译的忠实性有多重要6.2局部性问题与代理到意义问题几乎密不可分的在几乎所有的测试中，我们都看到，+v：mala2277获取更多论文在翻译中引发全球性的变化。例如，在我们的系统性测试中，改变一个句子中的一个名词会引起与之相连的独立样本句子的翻译变化在我们的替代性测试中，即使只是拼写不同的同义词这与组合性作为一种有效重用语言的方法的想法相反：如果一个短语的翻译依赖于甚至不在其直接邻近的（不相关的）上下文，则这表明需要更多的证据来获得该短语的翻译。在我们的测试中，使用合成数据，我们明确考虑的句子中，最大限度地本地是-的可能性，并认为这是因此也是可取的。我们的实验表明，模型目前无法以这种本地方式进行翻译，并表明对于某些单词或短语，翻译不断变化，就像每次我们稍微调整输入时投掷硬币一样。一方面，这种波动性（另见Fadaee和Monz，2020）对于处理含义依赖于上下文的歧义可能是必不可少的。例如，当在“doughnutandchips” 中用 “donut” 代替“doughnut”时，“chips”可能是薯片，而不是炸薯条。另一方面，这种不稳定的行为突出了缺乏默认推理，这在几个不同的方面可能是有问题的，甚至是有害的，特别是如果忠诚（Parthasarathi et al. ，2021）或一致性是重要的（参见在不同的领域中：对像GPT-3这样的大型语言模型的提示中的微小变化可以引起响应中的在语言学中，已经提出了许多组合性定义，这些定义允许考虑“问题情况”，例如词义歧义和习惯表达，作为组合语言的一部分（P agin和W esterst a Bohl，2010）。然而，在这样的形式化中，非局部行为被用来处理非局部现象，而语言的其他部分仍然被局部地处理;在我们的模型中，全局行为出现在局部处理完全合适的情况下，并且没有明确的我们遵循Baggio（2021）的建议，我们应该向人类所采用的策略学习，人类可以将组合解释分配给表达，将其视为新语言，但对于某些输入，也可以获得非组合解释。意义我们认为，重要的是继续研究模型如何能够表示这两种类型的输入，在可能的情况下提供局部组合处理，但在必要时也偏离该处理。6.3结论总之，通过这项工作，我们有助于解决在自然数据上训练的组合模型如何的问题，我们认为MT是提出这个问题的合适且相关的测试基础。着眼于组合性的局部和全局形式之间的平衡，我们制定了三种不同的组合性测试，并讨论了在自然数据的背景下考虑组合性时出现的问题和考虑因素我们的测试表明，我们的大多数模型缺乏本地处理，强调需要新的评估措施，捕捉的组合性水平，而不仅仅是一致性。确认我们感谢 Sebastian Riedel 、 Douwe Kiela 、Thomas Wolf、Khalil Sima我们感谢范德梅尔对导致这篇论文的最初实验的贡献VD由UKRI自然语言处理博士培训中心提供支持，该中心由UKRI（赠款EP/S 022481/1）和爱丁堡大学资助。引用雅各布·安德烈亚斯2020. 足够好的成分数据增强。在计算语言学协会第58届年会的会议记录中，第7556乔舒亚·巴乔。2021. 语言处理并行体系结构中的组合性。Cognitive Sci-ence，45（5）：e12949.Rahma Chaabouni ， Roberto Dess 'south 和 EugeneKharitonov。2021. 变形金刚能用自然语言跳来跳去吗？评估 SCAN 的性能转移。 CoRR ，abs/2107.01366。Marzieh Fadaee和Christof Monz。2020. 神经机器翻译模型的不合理波动。在第四届神经生成和翻译研讨会论文集，NGT@ACL 2020，在线，2020年7月5日至10日，第88-96页。计算语言学协会。+v：mala2277获取更多论文CatherineFinegan-Dollak，JonathanKKummerfeld，Li Zhang，Karthik Ramanathan，Sesh Sadasivam ， Rui Zhang ， and DragomirRadev. 2018. 改进文本到SQL的评估方法。在计算语言学协会第56届年会的论文集（第1卷：长文），第351Jerry A Fodor和Zenon W Pylyshyn。1988. 连接主义与认知建筑：一个批判性的分析. Cognition，28（1-2）：3爱德华多·加西亚·拉姆雷兹2019年。开放组合：走向一种新的语言。划船手利特菲尔德。作者：陈鹏仁，纪良文，朱达，桑嘉娜，兰札托，古兹曼，范美2021. FLORES-101低资源和多语言机器翻译。CoRR，abs/2106.03193。Hessel Haagsma，Johan Bos，and Malaysia Nissim.2020. Magpie：一个潜在的自动化表达的大型语料库。第12届语言资源与评估会议论文集，第279Dieuwke Hupkes，Verna Dankers，Mathijs Mul ，and Elia Bruni. 2020. 组合性分解：神经网络如何泛化？Journalof Artificial Intelligence Research，67：757-795.波琳·雅各布森。2002. 语法的组织：25年。语言学与哲学，25（5/6）：601-626。西奥·MV·詹森。1998. 代数翻译、正确性与代数编译器构造 . Theoretical Computer Science ， 199（1-2）：25Theo MV Janssen和Barbara H Partee 1997. 组合性。《逻辑与语言手册》，第417-473页。爱思唯尔Jaap Jumelet ， Willem Zuidema ， and DieuwkeHupkes. 2019. 分析神经语言模型：上下文分解揭示了数字和性别分配。第23届计算自然语言学习会议集，第1DanielKeysers ， NathanaelSchaürli ， NathanScales ，HylkeBuisman ， DanielFurrer ， SerenityKashubin，NikolaMomchev，DanilaSinopalnikov，Lukasz Stafiniak，Tibor Tihon，etal. 2019.测量合成概括：一种基于真实数据的.在国际学习代表上。Najorge Kim和Tal Linzen。2020年。COGS：一个基于语义解释的合成泛化挑战。在2020年自然语言处理经验方法上，第9087Kris Korrel ， Dieuwke Hupkes ， Verna Dankers 和Elia Bruni。2019. 转码组成：我们的注意力，以找到更普遍的解决方案。在2019年ACL研讨会黑盒NLP：分析和解释NLP的神经网络，第1布兰登·莱克和马可·巴罗尼2018年没有系统性的泛化：序列到序列递归网络的合成技巧。国际机器学习会议，第2873-2882页PMLR。布兰登·M·莱克。2019. 通过Meta序列到序列学习的组合概括。神经信息处理系统的进展，第9791布兰登·M雷克，塔尔·林岑，马可·巴罗尼。2019年。人类对组成指令的少量学习。在第41届年会上，认知科学学会，CogSci 2019：创造力+认知+计算，加拿大蒙特利尔，2019年7月24日至27日，第611-617页。cogni-tivesciencesociety.org.YairLakretz ， GermanKruszewski ， TheoDesbordes，DieuwkeHupkes，StanislasDehaene，and Marco Barroni.2019. 数字和符号的出现，LSTM语言模型中的tax单位。在计算语言学协会北美分会2019年会议的论文集：人类语言技术，第1卷（长论文和短论文），第11李亚夫，尹永靖，陈玉龙，张跃。2021. 神经机器翻译的合成泛化。在计算语言学协会第59届年会和第11届自然语言处理国际联合会议的会议记录（第1卷：长文），第4767Kaiji Lu ， Piotr Mardavis ， Klas Leino ， MattFredrikson，and Anupam Datta. 2020. lstm语言模型的影响路径。计算语言学协会第58届年会论文集，第4748加里·F·马库斯2003年。代数思维：整合联结主义和认知科学。MIT Press.汤姆·麦考伊，艾莉·帕夫利克，还有塔尔·林森.2019. 正确的错误的原因：诊断自然语言推理中的句法分析。第57届计算语言学协会年会论文集，第3428Mathijs Mul和Willem Zuidema。2019. Sia

下载后可阅读完整内容，剩余1页未读，立即下载