没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文−寻找模式,而不仅仅是简化程序:解决数学应用题的对比学习李忠利1人,张文轩2人,晁岩2人,周庆宇1人,李超1人,刘宏志2人,曹云波1人1腾讯云小微2北京大学{neutrali,qingyuzhou,diegoli,yunbocao}@tencent.com{zwx980624@stu,cyan @ stu,liuhz @ ss}.pku.edu.cn摘要解决数学应用题需要发现自然语言叙述中的数量关系。最近的工作表明,现有的模型从上下文中记忆过程,并依赖于浅层的算法来解决MWPs。在本文中,我们看看这个问题,并认为,原因是缺乏全面的了解MWP模式。我们首先研究了神经网络如何仅从语义上理解模式,并观察到,如果原型方程如n1+n2是相同的,大多数问题得到更接近的表示,而那些远离它们或接近其他原型的表示往往产生错误的解决方案。 受此启发,我们提出了一种对比学习方法,其中神经网络感知潜水员-问题A:诺玛有88张牌。她输了70分。诺玛会有多少张牌Eq:88 - 70n1+ n2概率B:乔伊斯从75个苹果开始。她给了拉里52分。乔伊斯最后吃了几个苹果?等式:75 - 52B.蜜蜂有六条腿两只蜜蜂有几条腿?Eq:2 * 6D.蜜蜂有12条腿蜜蜂有几条腿?等式:12 / 2n1− n2n1 * n2模式的能力。通过对原型方程的转换,收集了对比实例n1/n2(n1+ n2)*n3(n1+ n2)/n3并寻找相似的树形结构。求解模型在收集的示例上使用辅助目标进行训练,从而使具有相似原型的问题的表示更接近。我们在 中 文 数 据 集 Math23k 和 英 文 数 据 集MathQA上进行了实验1我们的方法大大提高了性能,在单语言和多语言设置。1介绍数学应用题(MWP)被描述为带有数学问题的自然语言叙述。MWP求解器需要通过理解上下文问题描述来生成解方程,该解方程在教学中,鼓励学生认识到数学实际上是关于模式的,李仲礼和张文轩贡献相等。周庆宇为通讯作者。†在腾讯云小微实习期间的贡献。1代码可在https://github.com/zwx980624/mwp-cl上获得。图1:T-SNE对问题表示的可视化。“概率。“和“Eq”是数学应用题及其求解方程的简称问题A和B在同一个原型方程“n1n2“中。问题C和问题D在语义上是相似的。而不仅仅是数字(理事会,1989)。数学优秀的 学 生 探 索 模 式 , 而 不 仅 仅 是 记 住 程 序( Schoenfeld , 1992 ) 。 最 近 , Patel et al.(2021)提到现有的MWP模型(Xie和Sun,2019; Zhang等人,2019)。,2020)依赖于浅层几何学来生成方程。这些模型可以很好地预测解决方案,即使只留下没有问题的叙述,这表明神经网络通过记忆词汇输入来学习解决MWP,就像死记硬背一样。因此,现有的模型陷入记忆过程。 我们研究这个问题并假设这是因为它们专注于文本理解或针对一个问题的方程生成。同样的数量关系对应不同主题和情景的许多问题,但不同主题和情景的数量关系不同。arXiv:2110.08464v2 [cs.CL] 2022年3月+v:mala2277获取更多论文现有的方法忽略了MWP模式的概述和在这项工作中,我们首先研究如何神经网络理解MWP模式,只有从语义。我们采用广泛使用的编码器-解码器模型结构(Cho et al. ,2014)。BERT(De-vlinet al. ,2019)被用作语义编码器,并且采用树解码器(Xie和Sun,2019)来生成方程。我们探讨了BERT中的问题 表 示 图 1 中 T-SNE ( van der Maaten 和Hinton,2008)的可视化显示,通过语义编码器,具有相同原型方程的问题的大多数表示被拉近,即使它们的叙述在语义上不同。我们还分析了BERT不同层次的表征,结果表明词汇语义主要影响较低层次的问题解决。此外,对于每个原型方程,远离其中心表示的问题表示往往会产生不正确的解。受此启发,我们提出了一种对比学习方法,寻找相似的原型来支持模型,以更好地理解模式和感知模式的分歧。在收集对比示例时,我们遵循Xie和Sun(2019)将原型方程转换为树。给定一棵方程树,若其树或子树具有相同的结构,则提取正例,并根据算子类型和树的大小从其余方程树中收集反例。求解模型首先通过方程生成损失和对比学习损失对收集的示例进行联合优化,然后在原始数据集上进一步训练。生成损失使模型能够从语义上记忆过程,而对比学习损失使相似的模式更接近,并使不同的模式分开。我们在中国数据集Math23k(Wang et al. ,2017)和英语数据集MathQA(Amini et al. ,2019年)在单语言和多语言设置。为了支持构造多语言对比示例,我们遵循Tan等人的方法。 (2021)将MathQA改编为Math23k的对应部分。实验结果表明,该方法在单语言和多语言环境下都取得了一致的增益特别是,我们的方法允许模型使用另一种语言的数据来提高一种语言的性能,这表明MWP模式是语言独立。此外,我们验证了,通过我们的对比 学 习 , 以 前 产 生 错 误 的 解 决 方 案 的representations更接近他们的中心,并解决了一些问题。总之,本文的贡献包括:i)MWP模型的分析表明,语义编码器理解低层的词汇语义,并在高层收集ii)对比学习方法帮助模型更好地理解MWP模式并感知模式的分歧。iii)多语言环境中的应用表明,我们可以使用不同语言的数据进一步提高模型性能2相关工作2.1数学应用题解决给定一个带有数学问题的自然语言叙述,任务是生成一个解方程来回答问题。这些方法可以分为四类:基于规则的方法(Fletcher,1985;Bakman , 2007 ) , 统 计 机 器 学 习 方 法( Kushman et al. , 2014; Hos-seiniet al. ,2014 ) 、 语 义 解 析 方 法 ( Shiet al. , 2015;Koncel-Kedziorski et al. ,2015)和深度学习方 法 ( Wang et al. , 2017; Huanget al. ,2018a,b; Xie and Sun,2019; Zhang et al. ,2020)。深度学习方法在MWP求解方面取得了显著的改进。Wang等人(2017)首次尝试使用递归神经网络构建seq2seq求解模型。Xie和Sun(2019)提出了一种树结构解码器来生成方程树。通过遍历方程树可以生成语法正确的方程。Zhang等人(2020)应用图卷积网络来提取数学问题中量的关系。最近,语言模型的无监 督 预 训 练 ( Devlin et al. , 2019; Yang etal. ,2019 a)为文本理解和微调技术提供了信息性上下文表示(Cui et al. ,2019; Li et al. ,2021年)带来了进一步的业绩增长。一些作品(Kim et al. ,2020; Tan等人,2021; Cobbe等人,2021),增强了问题理解能力。+v:mala2277获取更多论文第1期第10期第20期第43第2层第6层第9层第12层n1+ n2n1− n2n1* n2n1/n2(n1 + n2)*n3(n1+ n2)/n3图2:不同时期和不同层的问题表征的T-SNE可视化。不同的颜色代表不同的原型方程。该模型在训练时期43达到最高精度2.2对比学习对比学习是表征学习的一种方法,最早由Hadsell等人提出。(2006年)。通过将语义相似的嵌入拉到一起,将语义不同的嵌入分开,对比学习可以提供更有效的表征。在NLP中,类似的方法已经在许多领域进行了探索。Bose等人(2018)开发一个采样器来找到更难的负面例子,这迫使模型学习更好的单词和图形嵌入。Yang等人(2019 b)使用对比学习来减少神经机器翻译中的单词遗漏错误。Clark等人(2020)在对比示例上训练判别模型,以获得更多信息的语言表示。Gao et al.(2021)通过在监督和无监督环境中使用对比学习来提高句子嵌入的Yu等人 (2021)开发对比自训练,以帮助弱监督下的语言模型微调和标签去噪。据我们所知,这是第一个工作,采用对比学习的MWP解决。在对比学习的监督下,我们寻找相似的MWP模式来拉近它们,并收集令人困惑的模式来将它们分开。3语义编码器收集原型在本节中,我们将探讨神经网络如何从语义中理解模式我们采用编码器-解码器模型结构来解决问题,并对问题的表征进行分析。观察到语义编码器在较低层理解词汇语义,并在较高层收集原型方程。3.1实验装置3.1.1数据集我们对两个广泛使用的数据集Math23k(Wanget al. , 2017 ) 和 MathQA ( Aminiet al. ,2019)。Math23k数据集由小学教育中的23kMWP组成,MathQA有37k MWP,带有多项选择和方程。3.1.2模型架构Semantic Encoder预先训练的语言模型BERT(Devlin et al. ,2019)被用作语义编码器。在大型语料库上的无监督预训练使模型能够学习语言知识,从而提供丰富的文本表示。+v:mala2277获取更多论文× −×10.80.60.40.20.80.60.40.200123456789 10 11 12层索引01 2 3 4 5 6 7 8 9 10间隔指数图3:不同BERT层中问题表示的相似性蓝色的“”对应语义相似的问题。红色的符号对应于具有相同原型方程的问题方程解码器采用树解码器(Xie和Sun,2019)来生成解方程。我们使用[CLS]令牌的BERT编码表示来初始化解码时的根节点递归地,解码器生成每个节点的嵌入,并预测数字和算子候选者的概率为了简洁起见,我们将我们的模型表示为BERT-TD。该模型将文本问题描述作为输入,并通过最小化用于预测地面真值方程树的节点概率的负对数似然来优化。3.2问题表征为了探索神经模型如何在训练过程中学习MWP模式,我们首先在不同时期和不同层中提取[CLS]令牌的BERT编码表示。然后,我们 执 行 图 2 所 示 的 T-SNE 可 视 化 ( van derMaaten和Hinton,2008)。从BERT的顶层中挑选不同时期的表示,并且从最佳训练模型中挑选不同层的表示可以看出,随着训练的进行,具有相同原型方程的代表正在聚集。此外,随着编码层深度的增加,聚集趋势越来越明显。直觉上,原型方程表现出MWP中量之间的本质关系这些结果也验证了由神经模型学习的模式与原型方程直接相关图4:模型在每个距离间隔内的性能。间隔索引x指示余弦距离在间隔[0. 1(x)1)、0. 1x)。虚线是通过多项式最小二乘拟合计算的。3.3语义与原型方程从视觉化的角度,我们无法看到语义学如何影响问题解决。为此,我们收集了20个问题对相似的词汇语义,但完全不同的原型,和20个问题对相同的原型,但在不同的主题或场景。与3.2节中的[CLS]表示不同,我们在一个问题中对所有单词的表示进行平均计算了不同BERT层中这些问题对的平均表示的余弦平均相似度如图3所示。语义相似的问题在较低的层次获得较高的值,但随着模型的深入,相似性逐渐降低。同时,随着模型深度的增加,即使在不同的语义下,具有相同原型方程的问题的相似性也会提高。这表明词汇语义影响较低层次的问题解决,该模型进一步从较高层的语义中提取原型。3.4聚类与求解能力通过以上观察,我们试图发现原型聚类和模型性能之间的关系。对于每一个原型方程,我们首先对相应问题的表示求平均,得到其中心点,然后计算表示与其中心点的余弦距离.余弦距离越大,表示越接近其中心。我们将余弦距离分成几个区间,并计算每个区间的正确预测比例。结果如图4所示,相似语义相同范式余弦相似度预测正确率+v:mala2277获取更多论文L+问题原型方程拉里从n张牌开始。n2被一只河马吃掉。拉里最后有几张牌?弗兰克夏天割草赚了10美元. 如果n1−n2(n1−n2)/n3他花了n2美元买新的割草机刀片,有多少n3dol-他能用剩下的钱买更大的游戏吗?表1:具有相同数量关系的数学应用题,即数字n1和n2的减法。相同的原型方程用红色表示。这表明,远离中心的表征往往会产生错误的解决方案。4对比学习在本节中,我们提出了一种对比学习方法来帮助模型感知MWP模式的现有深度学习方法的一个缺点是它们忽略了MWP模式的轮廓和区别相反,我们从各种问题中寻找相似的原型方程来支持模型理解模式,并收集容易混淆的模式供模型区分。4.1数据收集我们构造了包含基本问题p及其正例{ p +,p-}和n个正例的对比ive MWP三元组(p,p+,p-).一个直接的方法是收集问题的原型方程是完全相同的给定问题p。然而,在p中同样的数量关系也存在于其他问题中。如表1所示,对于第二个问题,在回答“他能买多少“,另一个隐藏的问题是“他有多少钱?其求解方程与第一个问题的原型相同。因此,我们遵循Xie和Sun(2019)将原型方程解析为树结构,并考虑其子方程和子树。如果问题p +的树或子树具有与 p 相 同 的 结 构 , 例 如 图 5 中 的 “tree“ 和“tree+“的子树,则将问题p+作为正例。负例Bose et al.(2018)和Kalan-Einstein et al.(2020)强调了对比学习中困难的负面例子的重要性。如果我们选择p−,其原型完全不同于三重对比问题图5:我们的模型概述。p,原始MWP模型可以很容易地将它们区分开来。因此,在这个工作中,如果问题p-的树具有相同的节点数但不同的算子节点类型,例如图5中的“tree“和“tree-“,则选择问题p-作为硬反例。通过对硬反例的训练,我们的模型可以从各种原型中区分出更多细微的差异,并进一步把握MWP的内在模式。4.2训练过程我们在对比问题三元组上训练模型。如图5所示,问题首先由BERT编码,然后树解码器预测方程树的节点。在对比学习期间,三元组z=(p,p+,p-)一起输入到模型中以预测方程树。 由于Xie and Sun(2019)的解码方式,每个节点嵌入代表了以其为根的整个子树信息。对于它的正问题p+,我们找到包含与p相同结构的树或子树的根节点,并将其嵌入拉近p的嵌入。为了简洁起见,我们将这些节点嵌入表示为(e,e+,e-),对比学习损失变为:cl=max(0,η+sim(e,e−)(1)-sim(e,e)),ℒ������ℒ������������−公司简介������������−×联系我们×+���−联系ℒ������+树解码器子树TransformerBlock Lℎ−ℎ联系我们BERT编码器TransformerBlock 2���−Transformer块1联系...+v:mala2277获取更多论文·YΣ数据集#火车#Dev测试次数数学23k21,1621,0001,000MathQA29,8374,4752,985MathQA†23,7033,5402,410表2:所用数据集的统计数据。“MathQA“是遵循Tan等人的改编MathQA数据集。 (2021年)。其中sim()是余弦相似度,并且η是边缘超参数。MWP求解模型的基础是生成求解方程来回答数学问题。我们将目标方程y转换为波兰符号[y1,y2,..., y m],其中m是等式长度。树解码器递归地生成k节点令牌yk,并且生成方程的损失被计算为:MP(y|p)= P(y k|p)(2)k=1Leq=−log P(y|(3)p最终的训练目标是最小化方程损失和对比损失,如下所示:L=Leq+α·Lcl(4)其中α是表示对比学习重要性的超参数。然而,并不是所有的问题都有正例,例如那些解是一个值而没有任何算子的问题考虑到这一点,我们制定了两阶段培训战略。MWP求解器首先在第一阶段对我们的对比三元组进行训练,然后在第二阶段对原始数据集进行进一步训练。5实验我们在两个广泛使用的数据集上评估我们的方法(Wang et al. ,2017; Amini et al. ,2019年),并证明其在单语和多语言环境中的有效性。5.1配置数据和问题我们从作为Math23k的对应物。表2显示了数据统计。我们报告方程生成的准确性,即“Acc(eq)",即如果生成的方程等于注释公式,则问题得到很好的考虑到有多个方程满足问题解,我们报告了答案值的准确性,即“Acc(ans)",以判断由生成的方程计算出的值是否等于目标值。实施我们在单语和多语言的角度进行对比学习。在单语设置中,我们在每个数据集内构建对比三元组。在多语言环境中,对于每个问题,正例和反例都来自不同的来源.具体而言 , 给 定 Math23k 中 的 中 文 MWP, 我 们 从MathQA收集正面示例,从Math23k收集负面示例 我们采用BERT基(Devlin et al. ,2019)作为问题编码器,并遵循Xie和Sun(2019)构建用于解决方案生成的树解码器。解码器的隐藏大小设置为768。多语言BERT用于多语言设置。最大输入长度设置为120,最大输出长度设置为45。损失裕度η被设置为0.2。对比学习损 失 的 权 重 α 设 置 为 5 。 我 们 使 用 AdamW(Loshchilov and Hutter,2017)作为优化器,并在每个训练阶段的学习率为{5e-5,1 e-4}和历元数为{30,50}的集合上执行网格搜索。批量大小固定为16,以减少搜索空间,我们为每个时期评估模型我们使用0.5的dropout来防止过度拟合,并执行3波束搜索以获得更好的代。5.2基线为了验证所提出的方法的有效性特别是,多语言 基 线 模 型 是 通 过 混 合 Math23k 和 自 适 应MathQA来 训练 的。 除了 与 BERT进 行比 较外,我们还研究了以下方法:GroupAttention 2(Li et al. ,2019年)开发一个注意机制,以捕捉与数量相关和与问题相关的信息。GTS3(Xie和Sun,2019)生成方程中国数据集Math23k(Wang et al. ,2017年)和英文数据集MathQA(Amini et al. ,2019)。由于两个数据集的公式格式不同,我们遵循Tan et al. (2021)适应MathQA2https://github.com/lijierui/群体注意3https://github.com/ShichaoSun/math_seq2tree+v:mala2277获取更多论文∗模型数学23kAcc(eq)Acc(ans)MathQA†Acc(eq)Acc(ans)单语设置GroupAttention(Li et al. ,2019年)-69.563.3磅70.4磅GTS(Xie和Sun,2019)-75.668.9磅71.3磅Graph2Tree(Zhang et al. ,2020年)- 七十七点四70.072.0BERT-TD不带CL71.2 82.473.5 75.1BERT-TD带CL71.8 83.274.4 76.3多语言设置mBERT-TD不带CL67.8 80.572.0 73.5带CL的mBERT-TD70.9 83.974.2 76.3表3:Math23k和适配的MathQA测试集的主要结果。“Acc(eq)”是等式准确度,“Acc(ans)”是答案准确度。““表示我们基于已发布代码的重新实现。“CL”是对比学习的简称。mBERT是多语言BERT的缩写。表4:不同策略表5:在多语言环境中使用不同损失裕度η的结果(答案准确性)。gies收集的例子。 “位置“和“阴性。“是正确的-积极和消极的例子。“相同”表示正例具有完全相同的原型方程。“随机”表示阴性样本是从其余样本中随机选择的。以目标驱动的方式通过树结构解码器对树进行解码。Graph2Tree 4(Zhang et al. ,2020)设计了一种基于图的编码器,用于表示量之间的关系和顺序信息。5.3主要结果实验结果示于表3中。用我们提出的对比学习训练MWP求解器单语言结果与以往的方法相比,BERT中预先训练的语言知识可以帮助MWP求解器大大提高性能。通过我们提出的对比学习方法,我们的模型在Math23k和适应的MathQA上实现了一致的增益这表明,寻求模式与监督有利于模型解决MWPs。4https://github.com/2003pro/Graph2TreeAcc(eq)Acc(ans)基线71.282.4CL(I期70.181.5α= 1)II期70.583.0CL(α= 5)I期70.682.5第二71.883.2表6:在单语设置中在Math23k上使用不同损失重量α的结果。报告了两个阶段的多语言结果我们通过使用多语言BERT和混合两个训练集来调整我们的模型以适应多语言环境。对比学习使Math23k答案正确率提高到83.9(绝对提高3.4),MathQA答案正确率提高到76.3(绝对提高2.8),与单语测试结果具有竞争力这表明该模型可以学习不同语言中的相似模式。5.4分析我们进行消融,以更好地了解我们的对比学习方法中不同组件的贡献。POS.Neg.Math23k MathQA†基线- -80.5 73.5相同我们82.375.5CLOurs我们的兰德我们82.383.975.876.3保证金η0.05 0.1 0.15 0.2 0.3数学23k82.6 83.7 83.4 83.9MathQA†76.1 76.2 76.1 76.3+v:mala2277获取更多论文10.80.60.40.2mBERT(不含CL)mBERT w CL0[0.5,0.6) [0.6,0.7) [0.7,0.8) [0.8,0.9) [0.9,1.0)余弦距离的区间图6:有和没有我们的对比学习的问题表示的T-SNE可视化图8:有和没有我们的对比学习的每个距离间隔的方程精度。测试集108702504189输入:一个船夫在河边卖船。如果他卖船偷水在3米/秒和流量的河流是2米/秒,多少时间,他将采取出售100米。输出(w/o CL):100 /(3 /2)输出(w CL):100 /(3 + 2)输入:管道A可以在30分钟内装满油箱,管道B可以在90分钟内清空油箱如果两条管道一起工作,加满油箱需要多长时间输出(不含CL):1 /((1 / 30)+(1 /90))mBERT不含CLmBERTw CLmBERT不含CLmBERTw CL输出(w CL):1 /((1 / 30)-(1 /90))输入:如果将20升化学品x添加到80升图7:有和没有我们的对比学习的训练/测试集上的Calinski-Harabasz指数。5.4.1数据收集对比例由具有相似模式的正例和具有完全不同模式的负例组成在这项工作中,我们探讨了不同的策略收集积极和消极的例子。除了我们的策略外,我们尝试收集包含相同原型方程的MWP作为正例,并从其余的MWP中随机选择负例表4显示,我们的策略在所有数据集上都实现了更好的性能。除了具有相同原型方程的问题之外,我们收集的示例还包括具有相同方程子树结构的更多问题可以看出,该模型可以从这些示例中受益对于反例,我们采用相同数量的算子,但不同的算子类型的问题。如果进行随机选择,模型性能下降,这表明我们收集的例子可以支持模型分散不同的模式。无论我们使用哪种策略,与没有对比学习的基线相比,我们的方法提高了MWP求解,并通过使用不同语言的数据来提高性能25%的化学物质x和75%的化学物质y的混合物,那么化学物质x在所得混合物中的百分比是多少?输出(w/o CL):1 +((25 / 100)* 5)输出(w CL):20 +((25 / 100)* 80)表7:MWP求解器的问题输入和方程输出示例。5.4.2超参数的影响我们用几个损失裕度(0.05、0.1、0.15、0.2和0.3)训练“mBERT-TD”模型如表5所示,裕度0.2可以帮助模型实现最佳性能,但较低的裕度0.1和0.15也表现良好。如4.2节所述,我们分两个阶段训练模型,损失权重α代表对比学习的重要性。表6显示了在每个阶段使用不同权重的结果可以看出,更高的权重实现了更好的性能,并且在第二阶段,对所有示例的训练进一步提高了性能。5.4.3可视化和统计我们执行图6所示的T-SNE可视化。通过对比学习,我们可以更好地收集具有相同原型方程的问题表征。为了测量这种变化,我们计算Calinski-Harabaszindex(Calin' skiand Harabasz,1974)。图7显示了我们的mBERT-TD w/oCL mBERT-TD wCL65预测正确率卡林斯基-哈拉巴斯指数+v:mala2277获取更多论文方法支持模型获得更高的聚类得分。上述结果说明,对于每个原型方程,表示被拉得更靠近其中心。我们重新计算正确预测的比例,如3.4节所述。结果如图8所示。我们观察到在大多数时间段的准确率增加,这也验证了对比学习的有效性特别是,我们的模型在较低的区间如[0.6,0.7)和[0.7,0.8)也表现良好,这表明那些离中心稍远的问题不容易与其他不同模式的问题混淆,我们的模型确实分散了不同的模式此外,我们在表7中显示了一些示例。可以看出,对比学习方法有助于模型准确地捕捉定量关系。6结论在本文中,我们发现神经网络生成不正确的解决方案,由于MWP模式的非区分。为此,我们提出了一种对比学习方法来支持模型感知模式的分歧。我们根据方程树结构寻找相似的模式,并收集容易混淆的模式供我们的模型区分。我们的方法在单语和多语言设置中优于Math23k和MathQA的引用Aida Amini,Saadia Gabriel,Shanchuan Lin,RikKoncel-Kedziorski , Yejin Choi , and HannanehHa-jishirzi.2019.MathQA:Towardsinterpretablemathwordproblemsolvingwithoperation-basedformalisms.在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第2357-2367页,明尼阿波利斯,明尼苏达州。计算语言学协会。叶菲姆·巴克曼2007.对包含无关信息的应用题有很强的理解力。arXiv预印本math/0701393。Avishek Joey Bose,Huan Ling,and Yanshuai Cao.2018. 对抗性对比估计。在计算语言学协会第56届年度会议的临时会议上(第1卷:长文),第1021-1032页,澳大利亚墨尔本。计算语言学协会。T. 卡利·恩斯基和J·哈拉巴斯。一九七四年聚类分析的枝晶方法。通信统计,3(1):1-27。Kyunghyun Cho , Bart van Merrienboer , ZagglarGülçehre,Dzmitry Bahdanau,Fethi Bougares,Holger Schwenk ,and Yoonger Bengio. 2014. 使用RNN编码器-解码器学习短语表示用于统计机器翻译。在Proceedings of the 2014 Conference onEmpiricalMethodsinNaturalLanguageProcessing , EMNLP 2014 , October 25-29 ,2014,Doha,Qatar,A meeting of SIGDAT,aSpecial Interest Group of the ACL,pages 1724访问控制列表。Kevin Clark,Minh-Thang Luong,Quoc V. Le,andChristopher D.曼宁2020. ELECTRA:预先训练文本编码器作为鉴别器而不是生成器. CoRR,abs/2003.10555。卡尔·科布,维内特·卡里阿朱,穆罕默德·巴伐利亚,贾科布·希尔顿,中野礼一郎,克里斯托弗·黑塞和约翰·舒尔曼。2021. 训练验证者解决数学应用题。CoRR,abs/2110.14168。国家研究委员会。1989. 每个人都很重要:一份关于数学教育。国家科学院出版社,华盛顿特区.Baiyun Cui , Yingming Li , Ming Chen , andZhongfei Zhang. 2019. 使用稀疏自注意机制微调BERT。 In Proceedings of 2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议 ( EMNLP-IJCNLP ) , 第 3548-3553 页 , 香港,中国计算语言学协会。Jacob Devlin,Ming-Wei Chang,Wendon Lee,andKristina Toutanova. 2019. BERT:语言理解的深度双向转换器的预训练。 在计算语言学协会北美分会2019年会议论文集:人类语言技术,NAACL-HLT 2019 , 明 尼 阿 波 利 斯 , MN , 美国,2019年6月2日至7日,第1卷(长和短纸张),第4171-4186页。计算语言学协会。查尔斯·弗莱彻1985.理解和解决算术题:计算机模拟。行为研究方法,仪器,计算机,17(5):565高天宇,姚兴城,陈丹琪。2021. Simcse:句子嵌入 的 简 单 对 比 学 习 。 arXiv 预 印 本 arXiv :2104.08821。Raia Hadsell,Sumit Chopra和Yann LeCun。2006.通过学习一个不变映射来减少抽象性。在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPR美国电气与电子工程师协会。+v:mala2277获取更多论文Mohammad Javad Hosseini,Hannaneh Hajishirzi,Oren Etzioni,and Nate Kushman. 2014. 学习用动词分类解决算术应用题。在2014年自然语言处理经验方法上,第523Danqing Huang,Jing Liu,Chin-Yew Lin,and JianYin.2018年a。神经数学与再学习的文字问题求解器。第27届国际计算语言学会议论文集,第213计算语言学协会。Danqing Huang , Jin-Ge Yao , Chin-Yew Lin ,Qingyu Zhou,and Jian Yin. 2018年b。运用中级表象解决数学应用题。在计算语言学协会第56届年会的会议上(第1卷:长文),第419-428页,澳大利亚墨尔本。计算语言学协会.Yannis Kalantidis , Mert Bulent Sariyildiz , NoePion , PhilippeWeinzaepfel , andDianeLarlus.2020 年 。用 于 对比 学 习的 硬 负 混合 。arXiv预印本arXiv:2010.01028。金富根,景瑞基,李东健,和佳金坤。2020.指向表达式:使用表达式指针Transformer模型解决代数应用题.在2020年自然语言处理经验方法会议(EMNLP)上,第3768Rik Koncel-Kedziorski , Hannaneh Hajishirzi ,Ashish Sabharwal , Oren Etzioni , and SienaDumas Ang. 2015.把代数应用题解析成等式。Transactions of the Association for Computa- tionalLinguistics,3:585Nate Kushman , Yoav Artzi , Luke Zettlemoyer ,and Regina Barzilay. 2014.学习自动解决代数应用题。第52届计算语言学集(第1卷:长文),第271-281页李捷瑞,王磊,张继鹏,王艳,戴炳天,张东祥。2019年。不同功能多头注意力数学应用题内部关系建模。计算语言学协会第57届年会论文集,第6162-6167页,意大利弗洛朗斯。计算语言学协会。李中立,周庆宇,李超,徐克,曹云波。2021. 通过语法感知的局部注意力改进BERT。 在计算语言学协会的调查结果:ACL-IJCNLP 2021,第645-653页,在线。计算语言学协会。伊利亚·洛希洛夫和弗兰克·哈特。2017. 修正adam中的权重衰减正则化。CoRR,abs/1711.05101。阿图尔·帕特尔、萨特维克·巴塔米什拉和纳文·戈亚尔。2021. NLP模型真的能够解决简单的数学问题吗? 在计算语言学协会北美分会2021年会议论文集:人类语言技术,第2080-2094页,在线。计算语言学协会。A.舍恩菲尔德1992.学习思考的能力:问题解决,元认知,并在数学意义(重印)。Journal ofEducation,196:1Shuming Shi , Yuehui Wang , Chin-Yew Lin ,Xiaojiang Liu,and Yong Rui.2015.通过语义分析和推理自动解决数词问题。2015年自然语言处理经验方法集,第1132谭明桓,王磊,姜凌霄,姜静。2021. 使用预训练的多语言模型研究数学应用题。劳伦斯·范德马滕和杰弗里·辛顿。2008. 使用t-SNE可 视 化 数 据 。 Journal of Machine LearningResearch,9:2579Yan Wang,Xiaojiang Liu,and Shuming Shi. 2017.数学应用题的深度神经求解器。在2017年自然语言处理经验方法会议上,第845- 854页,丹麦哥本哈根。计算语言学协会。Zhipeng Xie和Shichao Sun。2019. 一个目标驱动的树型神经网络数学词汇问题模型。在第28届人工 智 能国 际 联 合会 议 论 文 集, IJCAI-19, 第5299-5305页。国际人工智能组织联合会议。Zhilin Yang , Zihang Dai , Yiming Yang , JaimeCar- bonell,Ruslan Salakhutdinov,and Quoc VLe. 2019年a。XLNet:用于语言理解的广义自回归预训练。arXiv预印本arXiv:1906.08237。杨宗翰,程勇,刘扬,孙茂松。2019年b.减少神经机器翻译中的单词遗漏错误:一种对比学习方法。第57届计算语言学协会集,第6191岳宇、左思邈、姜浩明、任文迪、赵拓、张超。2021. 微调预训练语言模型与弱监督:一种对比正则化的自我训练方法。在计算语言学协会北美分会2021年会议记录:人类语言技术,第1063-1077页,在线。计算机语言学协会。+v:mala2277获取更多论文Jipeng Zhang , Lei Wang , Roy Ka-Wei Lee , YiBin , Yan Wang , Jie Shao , and Ee-PengLim.2020. 图到树学习解决数学应用题。在计算语言学协会第58届年会的会议记录中,第3928-3937页,在线。计算语言学协会。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功