数学问题的演绎推理方法及其在MWP求解中的应用

35 浏览量更新于2023-12-01 收藏 18.77MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Learning to Reason Deductively:Math Word Problem Solving as Complex Relation ExtractionZhanming Jie♥♦, Jierui Li♣♦ and Wei Lu♦♥ByteDance AI Lab, ♣University of Texas at Austin♦StatNLP Research Group, Singapore University of Technology and Designallan@bytedance.com, jierui@cs.utexas.edu, luwei@sutd.edu.sgAbstractSolving math word problems requires deduc-tive reasoning over the quantities in the text.Various recent research efforts mostly reliedon sequence-to-sequence or sequence-to-treemodels to generate mathematical expressionswithout explicitly performing relational rea-soning between quantities in the given con-text.While empirically effective, such ap-proaches typically do not provide explanationsfor the generated expressions.In this work,we view the task as a complex relation ex-traction problem, proposing a novel approachthat presents explainable deductive reasoningsteps to iteratively construct target expressions,where each step involves a primitive opera-tion over two quantities deﬁning their rela-tion. Through extensive experiments on fourbenchmark datasets, we show that the pro-posed model signiﬁcantly outperforms exist-ing strong baselines. We further demonstratethat the deductive procedure not only presentsmore explainable steps but also enables us tomake more accurate predictions on questionsthat require more complex reasoning.11IntroductionMath word problem (MWP) solving (Bobrow,1964) is a task of answering a mathematical ques-tion that is described in natural language. SolvingMWP requires logical reasoning over the quantitiespresented in the context (Mukherjee and Garain,2008) to compute the numerical answer. Variousrecent research efforts regarded the problem as ageneration problem – typically, such models focuson generating the complete target mathematical ex-pression, often represented in the form of a linearsequence or a tree structure (Xie and Sun, 2019).Figure 1 (top) depicts a typical approach thatattempts to generate the target expression in the1Our code and data are released at https://github.com/allanj/Deductive-MWP.Question: In a division sum , the remainder is 8and the divisor is 6 times the quotient and is obt--ained by adding 3 to the thrice of the remainder.What is the dividend?Answer: 129.5 Expr: ((8 × 3 + 3)×(8 × 3 + 3)÷6)+8Tree generation: 7 ops+×8+÷×3+683×383Our deductive procedure: 5 ops8 × 3 = 24124 + 3 = 27227 ÷ 6 = 4.5327 × 4.5 = 121.54121.5 + 8 = 129.55Figure 1: A MWP example taken from MathQA. Top:tree generation. Bottom: deductive procedure.form of a tree structure, which is adopted in re-cent research efforts (Xie and Sun, 2019; Zhanget al., 2020; Patel et al., 2021; Wu et al., 2021).Speciﬁcally, the output is an expression that can beobtained from such a generated structure. We notethat, however, there are several limitations withsuch a structure generation approach. First, such aprocess typically involves a particular order whengenerating the structure. In the example, given thecomplexity of the problem, the decision of gen-erating the addition (“+”) operation as the veryﬁrst step could be counter-intuitive and does notprovide adequate explanations that show the rea-soning process when being presented to a humanlearner. Furthermore, the resulting tree containsidentical sub-trees (“8 × 3 + 3”) as highlighted inblue dashed boxes. Unless a certain speciﬁcallydesigned mechanism is introduced for reusing thealready generated intermediate expression, the ap-proach would need to repeat the same effort in itsprocess for generating the same sub-expression.+v:mala2277获取更多论文0arXiv:2203.10316v3[cs.CL]2022年4月25日0解决数学问题通常需要演绎推理，这也被认为是儿童认知发展中的重要能力之一（Piaget，1952年）。在这项工作中，我们提出了一种明确呈现演绎推理步骤的新方法。我们做出了一个关键观察，即MWP求解基本上可以被视为一个复杂的关系抽取问题-识别给定问题文本中出现的数量之间的复杂关系的任务。每个原始算术运算（如加法、减法）本质上定义了一种不同类型的关系。借鉴文献中一些关系抽取模型的成功（Zhong和Chen，2021年），我们提出的方法涉及一个过程，该过程在两个选择的数量之间（包括新生成的数量）之间重复执行关系抽取。如图1所示，我们的方法直接提取了8和3之间的关系（“乘法”或“×”），这些关系来自于“余数为8”和“余数的三倍”的上下文。此外，它允许我们重复使用第四步中的中间表达式的结果。这个过程自然地产生了一个演绎推理过程，它从现有的知识中迭代地推导出新的知识。设计这样一个复杂的关系抽取系统面临着几个实际挑战。例如，一些数量可能与问题无关，而其他一些数量可能需要多次使用。模型还需要学习如何正确处理从中间表达式中出现的新数量。学习如何有效地搜索最佳的操作（关系）序列以及何时停止演绎过程也很重要。在这项工作中，我们解决了上述挑战，并做出了以下主要贡献：0•我们将MWP求解问题形式化为一个复杂的关系抽取任务，我们的目标是重复地识别给定问题文本中不同数量之间的基本关系。据我们所知，这是首次成功从这样一个新的视角解决MWP求解问题的努力。0•我们的模型能够自动产生导致最终答案的可解释步骤，呈现了一个演绎推理过程。0•我们在两种语言的四个标准数据集上的实验结果表明，我们的模型明显优于现有的强基准。我们进一步展示了该模型的性能-0在处理更复杂的方程时，我们的模型比以前的方法表现更好。02 相关工作0早期的研究主要使用具有手工特征的概率模型来解决MWP问题（Liguda和Pfeiffer，2012年）。Kushman等人（2014年）和Roy和Roth（2018年）设计了模板来找到陈述性语言和方程之间的对齐。最近的一些工作使用序列或树生成模型来解决这个问题。Wang等人（2017年）提出了Math23k数据集，并提出了一种序列到序列（seq2seq）方法来生成数学表达式（Chiang和Chen，2019年）。其他方法使用强化学习（Huang等人，2018年）、基于模板的方法（Wang等人，2019年）和组注意机制（Li等人，2019年）改进了seq2seq模型。Xie和Sun（2019年）提出了一种目标驱动的树结构（GTS）模型来生成表达式树。这种序列到树的方法显著改进了传统的seq2seq方法的性能。一些后续工作引入了外部知识，如句法依赖（Shen和Jin，2020年；Lin等人，2021年）或常识知识（Wu等人，2020年）。Cao等人（2021年）将方程建模为有向无环图以获得表达式。Zhang等人（2020年）和Li等人（2020年）采用了一种基于图卷积网络（GCN）（Kipf和Welling，2017年）的图到树方法来建模数量关系。应用预训练语言模型（如BERT）（Devlin等人，2019年）被证明对树表达式生成有显著的益处（Lan等人，2021年；Tan等人，2021年；Liang等人，2021年；Li等人，2021年；Shen等人，2021年）。与基于树的生成模型不同，我们的工作与演绎系统（Shieber等人，1995年；Nederhof，2003年）相关，我们的目标是逐步获得表达式。最近的一些工作也朝着这个方向努力。Ling等人（2017年）构建了一个数据集，为每个步骤的表达式提供解释。Amini等人（2019年）创建了MathQA数据集，其中包含逐步操作的注释。注释呈现了问题求解过程中每个中间步骤的表达式。我们的演绎过程（图1）试图以递增的、逐步的方式自动获取表达式。我们的方法还与关系抽取（RE）（Zelenko等人，2003年）相关，这是一项基本任务-0+v:mala2277获取更多论文Q(0)=QS ∪ CetopQ(t−1)q0输入：q在Q(0)中0公理：0 ∶ �q1，�，q∣Q(0)∣�0t ∶0t + 1 ∶�q1，�，q∣Q(t−1)∣∣q∣Q(t)∣∶=e(t)i,j,op�0qiop−→qj：0图2：我们的演绎系统。t是当前步骤。��表示数量列表。0信息提取领域专注于识别一对实体之间关系的领域。最近，Zhong和Chen（2021）设计了一种简单有效的方法，直接对跨度对表示进行关系建模。在这项工作中，我们将一对数量之间的运算视为我们演绎推理过程中的每个步骤的关系。传统方法（Liang等，2018）应用基于规则的方法来提取数学关系。MWP求解通常被视为系统2任务之一（Kahneman，2011；Bengio等，2021），我们目前对这个问题的方法与神经符号推理（Besold等，2017）有关。我们在模型（§3.2）中设计了可微分模块（Andreas等，2016；Gupta等，2020）来进行数量之间的推理。03 方法0数学问题求解任务可以定义如下。给定一个问题描述S ={w1，w2，�，wn}，其中包含一个由n个单词组成的列表，以及Qs ={q1，q2，�，qm}，一个出现在S中的m个数量的列表，我们的任务是解决问题并返回数值答案。理想情况下，答案应通过一系列原始数学运算的数学推理过程计算得出（Amini等，2019），如图1所示。这些运算可能包括“+”（加法）、“-”（减法）、“×”（乘法）、“÷”（除法）和“��”（指数运算）。0在我们看来，上述每个基本数学运算本质上都可以用于描述量之间的特定关系。从根本上讲，解决数学问题是一个复杂关系提取问题，需要我们反复识别量之间的关系（包括文本中出现的量和由关系创建的中间量）。整个解决过程需要：0尽管我们考虑了二元运算符，但扩展我们的方法以支持一元或三元运算符是可能的（§4.3）。0在实践中，有些问题在没有依赖于某些预定义常量（如π和1）的情况下无法回答，这些常量可能没有出现在给定的问题描述中。因此，我们还考虑了一组常量C ={c1，c2，...，c∣C∣}。这些常量也被视为数量（即，它们将被视为{qm+1，qm+2，...，qm+∣C∣}），在形成最终答案表达式时可能发挥有用的作用。03.1 演绎系统0如图1所示，将两个量之间的数学关系（例如，“+”）应用于中间表达式e，得到一个中间表达式e。一般来说，在第t步，经过求值后的结果表达式e（t）成为一个新创建的数量，它被添加到候选数量列表中，并准备参与从第t+1步开始的剩余演绎推理过程。这个过程可以用数学符号表示如下：0• 初始化：0• 在第t步：0Q(t) = Q(t−1)∪{e(t)i,j,op}0其中 e ( t ) i,j,op 表示应用关系 op 到有序对 ( q i ,q j )后的表达式。遵循标准的演绎系统（Shieber等，1995；Nederhof，2003），推理过程可以在图2中表示。我们从一个公理开始，其中包含了数量列表 Q ( 0 )。推理规则是 q i op − → qj，如上所述，在第 t 步获得表达式作为新的数量。03.2 模型组件0推理器图3展示了我们模型中的演绎推理过程，用于涉及3个数量的示例。我们首先将数量（例如2,088）转换为通用数量标记“ ”。然后，我们采用预训练的语言模型，如BERT（Devlin等，2019）或Roberta（Cui等，2019；Liu等，2019），为每个数量 q 获取数量表示 q。0+v:mala2277获取更多论文0如果一台机器在8小时内可以制造2,088个齿轮，09小时内它能制造多少个齿轮？0q 1 q 20q 30q 1 q 2 q 30t = 10[ q 1 , q 2 , q 1 ◦ q 2 ] FFN op 0FFN op = “ ×”0e 1 , 2 , ÷ �0e 1 , 2 , × �0q ′ 1 q ′ 2 q ′ 3 q 40t = 20[ q ′ 3 , q 4 , q ′ 3 ◦ q 4 ] FFN op = “ × ” e 3 , 4 , ×0图3：演绎推理器的模型架构。我们展示了用于获取示例问题中的表达式“ q 1 ÷ q 2 × q 3 ”的推理过程。0给定数量表示，我们考虑所有可能的数量对 ( q i ,q j)。类似于Lee等人（2017），我们可以通过连接两个数量表示和它们之间的逐元素乘积来获得每对的表示。如图3所示，我们在对表示的基础上应用非线性前馈网络（FFN）来获得新创建的表达式的表示。上述过程可以数学地表示为：0e i,j,op = FFN op ([ q i , q j , q i ◦ q j ]) , i ≤ j(1)0其中 e i,j,op 是中间表达式 e 的表示，op是应用于有序对 ( q i , q j ) 的操作（例如，“ +”，“ − ”）。FFN op是一个操作特定的网络，给出特定操作 op下的表达式表示。请注意，我们有约束条件 i ≤j。因此，我们还考虑除法和减法的“反向操作”（Roy和Roth，2015）。如图3所示，表达式 e 1 , 2, ÷ 将被视为在 t = 1 时具有表示 q 4的新数量。一般来说，我们可以为从 q i 和 q j到表达式 e ( t ) i,j,op的单个推理步骤分配一个分数。这样的分数可以通过对两个数量的表示和表达式的表示定义的分数求和来计算：0s ( e ( t ) i,j,op ) = s q ( q i ) + s q ( q j ) + s e( e i,j,op ) (2)0其中我们有：0s q ( q i ) = w q � FFN (0s e ( e i,j,op ) = w e � e i,j,op (3)0多头自注意力注意力（ Q = [ q i , e ]，K = [ q i , e ]，V = [ q i , e]）GRU单元GRU_Cell（输入 = q i，前一个隐藏 = e ）0表1：不同合理化器中的机制。0q i 合理化器 q ′ i0e 表达式0图4：合理化数量表示。0其中 s q ( � ) 和 s e ( � )是分别分配给数量和表达式的分数，w q 和 w e是相应的可学习参数。我们的目标是找到最优的表达式序列 [ e ( 1 ) , e ( 2 ) , � , e ( T )]，使我们能够计算出最终的数值答案，其中 T是完成这个推理过程所需的总步骤数。0终止器我们的模型还有一个机制，在任何给定的时间决定演绎过程是否准备终止。我们引入一个二进制标签 τ，其中 1 表示过程在此处停止，0表示否。表达式 e 在时间步 t的最终得分可以计算如下：0S ( e ( t ) i,j,op , τ ) = s ( e ( t ) i,j,op ) + w τ �FFN ( e i,j,op ) (4)0其中 w τ 是评分 τ 的参数向量。0合理化器一旦我们在第 t步获得了一个新的中间表达式，更新现有数量的表示就变得至关重要。我们将这一步骤称为合理化，因为它可能为我们提供解释结果的理由（Lei等人，2016）。如图4所示，中间表达式 e作为解释，解释了数量从 q 变为 q ′的方式。如果没有这一步骤，模型可能存在潜在的缺点。也就是说，如果数量表示在我们继续演绎推理过程时没有得到更新，那么那些最初排名较高的表达式（比如在第一步）将始终优先于那些在整个过程中排名较低的表达式。我们使用当前中间表达式 e ( t )对数量表示进行合理化，以便在更新其表示时，数量能够了解生成的表达式。这个过程可以数学地表示如下：0q ′ i = Rationalizer ( q i , e ( t ) ) � 1 ≤ i ≤ ∣ Q ∣(5)0有关此内容的更多详细信息，请参见补充材料。0+v:mala2277获取更多论文0204060MAWPS0204060Math23k0204060MathQA0204060SVAMP0数据集 # 训练集 # 验证集 # 测试集平均常数语言句子长度0MAWPS 0 1,589 0,199 0,199 30.3 17 英语 Math23k 21,162 1,000 1,00026.6 0 2 中文 MathQA† 16,191 2,411 1,605 39.6 24 英语 SVAMP 03,138 - 1,000 34.7 17 英语0表2：数据集统计信息。†：我们遵循Tan等人的方法。0（2021）进行预处理并获取子集。0我们可以采用的两种众所周知的合理化技术是多头自注意力（Vaswani等人，2017）和门控循环单元（GRU）（Cho等人，2014）单元，它们允许我们在给定中间表达式表示的情况下更新数量表示。表1展示了两种不同合理化器的机制。对于第一种方法，我们实质上构建了一个包含两个令牌表示（数量 q i 和前一个表达式e）的句子来执行自注意力。在第二种方法中，我们将 q i 作为输入状态，将 e作为GRU单元中的前一个隐藏状态。03.3 训练和推理0类似于训练序列到序列模型（Luong等人，2015），我们采用教师强制策略（Williams和Zipser，1989）在训练过程中用金标表达式指导模型。损失4可以写成：0L ( θ )=0t = 1 ( max ( i,j,op ) ∈ H ( t ) ,τ0− S θ ( e ( t ) i � ,j � ,op � , τ � )) + λ ∣∣∣∣ 2 (6)0其中 θ 包括演绎推理器中的所有参数，H ( t )包含时间步 t可用的所有数量对和关系的可能选择。λ 是 L 2正则化项的超参数。随着新的表达式被构建并在演绎推理过程中成为新的数量，集合 H ( t )会增长。总体损失通过对每个时间步的损失求和来计算（假设总共有 T步）。在推理过程中，我们设置最大时间步 Tmax，并找到在每个时间步上得分最高的最佳表达式 e �。一旦我们看到选择了 τ =1，我们停止构建新的表达式。0实际上，人们可能已经注意到这种损失在 θ = 0时有一个微不足道的解决方案。然而，在实践中，我们的模型和训练过程会通过适当的初始化防止我们达到这样的退化解（Goodfellow等人，2016）。这类似于结构感知器（Collins，2002）的训练，其中也涉及类似的情况。01 2 3 4 5 ≥ 601 2 3 4 5 ≥ 601 2 3 4 5 ≥ 601 2 3 4 5 ≥ 60图5：具有不同操作计数的问题百分比。0并终止该过程。最终的表达式（由生成的表达式序列形成）将用于计算最终的数值答案。0声明性约束我们的模型反复依赖现有数量来构建新的数量，从而显示出演绎推理过程。这种方法的一个优点是它允许方便地合并某些声明性知识。例如，如我们在方程6中所见，缺省方法在最大化步骤中考虑了所有可能的数量组合。我们可以轻松地添加约束以避免考虑某些组合。在实践中，我们发现在某些数据集（如SVAMP）中，不存在涉及对同一数量应用的操作的表达式（例如9 + 9或9 ×9，其中9来自文本中的同一数量）。此外，我们还观察到中间结果不会为负数。我们可以在最大化过程中简单地排除这种情况，从而在训练和推理过程中有效地减少搜索空间。我们展示了添加这种声明性约束可以帮助提高性能。04实验。0数据集我们在两种不同语言的四个数据集上进行实验：MAWPS（Koncel-Kedziorski等，2016年），Math23k（Wang等，2017年），MathQA（Amini等，2019年）和SVAMP（Patel等，2021年）。数据集统计信息可以在表2中找到。对于MathQA 5，我们遵循Tan等（2021年）6的05原始的MathQA（Amini等，2019年）数据集包含一定数量的实例，这些实例的注释方程不能导致正确的数值答案。6我们的数据集大小与Tan等（2021年）不完全相同，因为他们包含了一些错误注释的实例。我们只保留了具有正确注释的部分。我们0+v:mala2277获取更多论文GroupAttn (Li et al., 2019)76.1Transformer (Vaswani et al., 2017)85.6BERT-BERT (Lan et al., 2021)86.9Roberta-Roberta (Lan et al., 2021)88.4GTS (Xie and Sun, 2019)82.6Graph2Tree (Zhang et al., 2020)85.6Roberta-GTS (Patel et al., 2021)88.5Roberta-Graph2Tree (Patel et al., 2021)88.7BERT-DEDUCTREASONER91.2 (± 0.16)ROBERTA-DEDUCTREASONER92.0 (± 0.20)MBERT-DEDUCTREASONER91.6 (± 0.13)XLM-R-DEDUCTREASONER91.6 (± 0.11)0模型验证准确率。0S2S0S2T/G2T0OURS0表3：MAWPS上的5折交叉验证结果。0调整数据集以过滤掉一些无法解决的问题。我们考虑“加法”、“减法”、“乘法”和“除法”等操作用于MAWPS和SVAMP，以及MathQA和Math23k还有额外的“指数”操作。每个问题涉及的操作数量可以作为帮助我们衡量数据集难度的指标之一。图5显示了每个问题涉及的操作数量的百分比分布。MathQA数据集通常包含更多涉及更多操作的问题，而MAWPS中有97%的问题只需要一个或两个操作就可以回答。超过60%的MathQA实例涉及三个或更多操作，这可能使它们的问题更难解决。此外，MathQA（Amini等，2019年）包含了许多领域的GRE问题，包括物理、几何、概率等，而Math23k问题来自小学。与其他数据集不同，SVAMP（Patel等，2021年）7是一个手动创建的用于评估模型鲁棒性的挑战性数据集。他们对从MAWPS中抽样的实例进行了变异。这些变异可能包括：添加额外的数量，交换名词短语之间的位置等。0基线方法基线方法可以广泛分为序列到序列（S2S）、序列到树（S2T）和图到树（G2T）模型。GroupAttn（Li等人，2019）在seq2seq模型中设计了几种类型的注意机制，如问题或数量相关的注意力。Tan等人（2021）使用多语言0与Tan等人（2021）的作者确认了这些信息，并公开提供了我们版本的数据集。7这个数据集没有测试集划分。我们严格遵循了Patel等人（2021）的实验设置。0模型验证准确率。测试5折0S2S0GroupAttn (Li等人，2019) 69.5 66.9 mBERT-LSTM(Tan等人，2021) 75.1 - BERT-BERT (Lan等人，2021) -76.6 Roberta-Roberta (Lan等人，2021) - 76.90S2T/G2T0GTS (Xie和Sun，2019) 75.6 74.3 KA-S2T†(Wu等人，2020) 76.3 - MultiE&D (Shen和Jin，2020)78.4 76.9 Graph2Tree (Zhang等人，2020) 77.4 75.5NeuralSymbolic (Qin等人，2021) - 75.7 NUMS2T†(Wu等人，2021) 78.1 - HMS (Lin等人，2021) 76.1 -BERT-Tree (Li等人，2021) 82.4 -0我们的0B ERT -D EDUCT R EASONER 84.5 ( ± 0.16) 82.6 ( ± 0.17) R OBERTA -DEDUCT R EASONER 85.1 ( ± 0.24) 83.0 ( ± 0.23)0M BERT-D EDUCT R EASONER 84.3 ( ± 0.19) 82.5 ( ± 0.33) XLM-R-DEDUCT R EASONER 84.0 ( ± 0.22) 82.0 ( ± 0.12)0表4：Math23k上的结果。†：他们使用了自己的划分（因此他们的结果可能不直接可比）。0BERT与LSTM解码器（mBERT-LSTM）。Lan等人（2021）提出了两个seq2seq模型，使用BERT/Roberta作为编码器和解码器，即BERT-BERT和Roberta-Roberta。序列到树模型主要使用基于树的解码器，其中GRU（GTS）（Xie和Sun，2019）或BERT作为编码器（BERT-Tree）（Liang等人，2021；Li等人，2021）。NUMS2T（Wu等人，2020）和NeuralSymbolic（Qin等人，2021）求解器在S2T架构中引入了外部知识。Graph2Tree（Zhang等人，2020）使用GCN建模数量关系。0训练细节我们采用BERT (Devlin等人，02019）和Roberta（Liu等人，2019）用于英文数据集。中文BERT和中文Roberta（Cui等人，2019）用于Math23k。我们使用GRU单元作为合理化器。我们还使用多语言BERT和XLM-Roberta（Conneau等人，2020）进行实验。预训练模型从HuggingFace的Transformers（Wolf等人，2020）初始化。我们使用Adam优化器（Kingma和Ba，2014；Loshchilov和Hutter，2019）优化损失。我们使用学习率为2e-5和批量大小为30。正则化系数λ设置为0.01。我们使用5个随机种子运行我们的模型，并报告平均结果（带有标准差）。按照大多数先前的工作，我们主要报告实验中的值准确率（百分比）。换句话说，如果预测表达式导致与黄金表达式相同的值，则认为预测是正确的。按照以前的做法（Zhang等人，2020；Tan等人，2021；Patel等人，2021），我们报告0+v:mala2277获取更多论文0模型验证准确率。0Graph2Tree (Zhang等人，2020) 69.5BERT-Tree (Li等人，2021) 73.8mBERT+LSTM (Tan等人，2021) 77.10B ERT -D EDUCT R EASONER 78.5 ( ± 0.07) R OBERTA-D EDUCT R EASONER 78.6 ( ± 0.09)0M BERT-D EDUCT R EASONER 78.2 ( ± 0.21) XLM-R-DEDUCT R EASONER 78.2 ( ± 0.11)0表5：MathQA上的测试准确率比较。0在MAWPS 8上进行的5折交叉验证结果0并报告Math23k、MathQA和SVAMP的测试集性能。04.1 结果0MAWPS和Math23k首先讨论MAWPS和Math23k上的结果，这两个数据集在先前的研究中经常使用。表3和4显示了不同预训练语言模型的提出模型的主要结果。我们与先前在这些数据集上报告结果的工作进行了比较。在我们模型DEDUCTREASONER的所有编码器中，Roberta编码器的性能最好。此外，无论编码器的选择如何，DEDUCTREASONER的性能都明显优于所有基线。在MAWPS上，最佳S2S模型（Roberta-Roberta）的性能与最佳S2T模型（Roberta-Graph2Tree）相当。总体而言，基于Roberta的DEDUCTREASONER的准确性与基于Roberta的Graph2Tr0SONER在MAWPS上比Roberta-Graph2Tree高出3个多点（p <0.001），在Math23k上比BERT-Tree高出2个多点（p <0.005）。比较结果表明，我们的演绎推理器在不同语言和不同规模的数据集上都具有稳健性。0MathQA和SVAMP如前所述，MathQA和SVAMP更具挑战性 -前者包含更复杂的问题，后者包含专门设计的具有挑战性的问题。表5和6显示了性能比较。在MathQA上，我们能够比最佳基线mBERT-LSTM高出1.5个点的准确性。与其他三个数据集不同，不同语言模型之间在SVAMP上的性能差距更大。正如我们所看到的08所有先前的工作都将训练/开发/测试集合并并进行5折交叉验证，我们遵循这种方法。9 我们进行自助法t检验来比较结果。10我们在我们改编的MathQA数据集上运行了他们的代码。0模型验证准确率0S2S0GroupAttn（Li等，2019）21.5BERT-BERT（Lan等，2021）24.8Roberta-Roberta（Lan等，2021）30.30S2T/G2T0GTS�（Xie和Sun，2019）30.8Graph2Tree（Zhang等，2020）36.5BERT-Tree（Li等，2021）32.4Roberta-GTS（Patel等，2021）41.0Roberta-Graph2Tree（Patel等，2021）43.80我们的0BERT-DEDUCT REASONER 35.3 (± 0.04) + 约束条件 42.3 (±0.09) ROBERTA-DEDUCT REASONER 45.0 (± 0.10) + 约束条件47.3 (± 0.20)0MBERT-DEDUCT REASONER 36.1 (± 0.07) + 约束条件 41.3 (±0.08) XLM-R-DEDUCT REASONER 38.1 (± 0.08) + 约束条件 44.6(± 0.15)0表6：SVAMP上的测试准确性比较。0从基线和我们的模型来看，选择编码器对于解决SVAMP中的问题似乎很重要 -使用Roberta作为编码器的结果特别引人注目。我们最好的变体ROBERTA-DEDUCTREASONER的准确率得分为47.3，能够比最佳基线（Roberta-Graph2Tree）高出3.5个点（p <0.01）。通过结合我们的先验知识的约束条件（如第3.3节所讨论的），我们观察到所有变体都有显著改进 - 对于我们的BERT-DEDUCTREASONER来说，最高可达7.0个点。总的来说，这些结果表明我们的模型在处理这些具有挑战性的数据集时更加稳健。0细粒度分析我们进一步根据涉及不同操作数量的问题进行了细粒度的性能分析。表7显示了涉及不同操作数量的问题的准确性得分。它还显示了所有数据集上的方程式准确性11。我们将我们的ROBERTA-DEDUCTREASONER与表3（Roberta-Graph2Tree）、4（BERT-Tree）、5（mBERT+LSTM）和6（Roberta-Graph2Tree）中表现最好的基线进行了比较。在MAWPS和Math23k上，我们的ROBERTA-DEDUCTREASONER模型始终比基线获得更高的结果。在MathQA上，我们的模型在涉及2、3和4个操作的问题上也表现更好。对于其他更具挑战性的数据集SVAMP，我们的模型011等式准确率：我们认为只有当等式与参考等式匹配（由于可交换运算的子表达式重新排序，即“+”和“×”）时，才将其视为正确。0+v:mala2277获取更多论文188.292.791.393.677.377.451.952.0291.391.689.392.081.383.517.832.13--74.577.081.983.4--4--59.160

下载后可阅读完整内容，剩余1页未读，立即下载