弱监督神经符号模块网络：实现数值推理的高精度模型

22 浏览量更新于2023-12-01 收藏 20.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10Arxiv预印本20210弱监督的神经符号模块网络用于数值推理0Amrita Saha *，Sha�q Joty *+，和Steven C.H. Hoi *0* Salesforce AI Research + Salesforce AIResearch { amrita.saha, sjoty, shoi }@salesforce.com0摘要0神经模块网络（NMN）在各种问答任务中成功地将显式推理作为可学习模块进行了整合，包括机器阅读理解（MRC）中对文本进行数值推理的最通用形式。然而，为了实现这一点，现代NMN需要在执行查询作为专门程序的推理模块上获得强监督，并且在没有这种监督的更开放设置中无法推广。因此，我们提出了基于数值推理的MRC的弱监督神经符号模块网络（WNSMN），它以答案作为数值推理的唯一监督进行训练。它学会执行从查询的依赖解析获得的噪声启发式程序，作为神经和符号推理模块上的离散动作，并在强化学习框架中进行端到端训练，通过答案匹配的离散奖励进行训练。在DROP的数值答案子集上，WNSMN在可比较的弱监督设置下，精确匹配准确率比NMN高32％，比无推理的语言模型GenBERT高8％。这展示了模块化网络在处理噪声程序上的显式离散推理方面的有效性和通用性。01 引言0端到端神经模型通过有效地模拟输入输出行为，已经被证明是解决广泛的语言和视觉问题的强大工具。然而，许多实际问题，如问答或对话，需要更可解释的模型，可以在推理中融入显式推理。在这项工作中，我们专注于文本中最通用的数值推理形式，即基于推理的MRC框架所涵盖的范围。这个任务的一个特别具有挑战性的设置是答案的性质是数值的，就像流行的MRC数据集DROP（Dua等，2019）中一样。图1显示了任务中涉及的复杂性，（i）对段落和查询语言的理解，（ii）对段落日期和数字的上下文理解，以及（iii）对日期和数字应用定量推理（例如，最大值，否定）以得出最终的数值答案。0在DROP数值推理任务中，有三种广泛的模型类型取得了成功。首先，像GenBERT（Geva等，2020）这样的大规模预训练语言模型使用了一个整体的Transformer架构，并逐位解码数值答案。虽然它们在仅使用目标数据进行训练时表现一般，但它们的能力来自于在大规模合成数据上进行预训练，并通过对黄金数值推理的明确监督进行增强。第二种模型是无推理的混合模型，如NumNet（Ran等，2019），NAQANet（Dua等，2019），NABERT+（Kinley和Lin，2019），MTMSN（Hu等，2019），NeRd（Chen等，2020）。它们通过在标准的抽取式问答流程中显式地结合数值计算，通过学习一个多类型答案预测器来预测不同推理类型（例如，最大/最小，差异/总和，计数，否定）的相应数值表达式，而不是学习推理。这是通过详尽地预计算离散操作的所有可能结果，并通过推理类型监督和导致正确答案的数值表达式来增强训练数据来实现的。最后，对于这项工作来说，最相关的模型类别是模块化网络。0arXiv:2101.11802v1[cs.CL]28Jan20210+v:mala2255获取更多论文20Arxiv预印本版本20210图1：DROP中的示例（段落、查询、答案）和我们方法的概述：通过学习日期/数字实体特定的交叉注意力，执行从查询的依赖解析中获得的噪声程序，并对实体参数进行离散操作的采样和执行，以达到答案。0推理。神经模块网络（NMN）（Gupta等，2020）是第一个将查询解析为专门程序并逐步执行的明确推理型QA模型。但是，为了做到这一点，除了对所有离散操作进行详尽的预计算外，它还需要更细粒度的监督，即通过利用DROP中模板化查询的丰富性，启发式地获得的黄金程序和黄金程序执行的监督。0尽管模块化和混合网络在解释性方面更加实用和丰富，但它们也与额外的监督紧密耦合。例如，混合模型无法在没有监督的情况下学习，而NMN虽然是第一个仅通过QA对来学习的模型，但仍需要更细粒度的监督来训练数据的至少一部分。通过这种方式，它设法在使用监督的精心选择的DROP子集上超越了SoTA模型NABERT和MTMSN。然而，NMN在更开放的设置中的泛化能力较差，这种监督不容易手工制作。0需要符号推理。模块化方法的一个显著特点是通过仅使用可学习模块和详尽预计算的输出空间来避免离散推理。虽然它们在DROP上表现良好，但它们的建模复杂性随着更复杂的非线性数值运算（例如，exp，log，cos）而任意增长。相反，执行离散操作的符号模块化网络在这方面可能更加稳健或实用，因为它们不受操作复杂性的影响。这种离散推理确实已经被纳入到更简单、结构良好的任务中，例如数学问题（Koncel-Kedziorski等，2016）或KB/Table-QA（Zhong等，2017；Liang等，2018；Saha等，2019），并使用深度强化学习（RL）进行端到端训练。然而，MRC需要更广义的模块化神经网络框架，涉及从开放式段落中提取的更模糊推理的噪声实体。0鉴于此，我们提出了一种弱监督的神经符号模块网络（WNSMN）•第一次尝试基于数字推理的MRC，仅以答案作为监督进行训练；•基于将查询依赖解析为噪声启发式程序的广义框架；•在离散奖励的RL框架中进行神经符号推理模块的端到端训练；0为了将WNSMN与现代的NMN进行具体比较，请参考图1中的示例。与我们的广义查询解析相比，NMN将查询解析为程序形式（MAX（FILTER（FIND（'Carpenter'），'goal'）），该程序通过不同的可学习模块逐步执行，具有详尽预计算的输出集。为了训练网络，它采用各种形式的强监督，例如每个程序步骤的黄金程序操作和黄金查询跨度注意力以及黄金执行，即对执行MAX操作的段落数字（23、26、42）的监督。0虽然NMN只能处理监督定制的6个推理类别，但WNSMN专注于具有数字答案的完整DROP（称为DROP-num），其中涉及更多开放性问题的更多种类的推理。我们通过与允许使用部分或没有强监督学习的SoTANMN和GenBERT进行实证比较，展示了所提出的WNSMN在缺少至少一种或多种类型的监督的情况下比NMN的准确率提高了32％，并且在仅在DROP上进行了可比较设置的情况下，比GenBERT表现出更好的8％，而后者没有额外的具有明确监督的合成数据。02 模型：弱监督的神经符号模块网络0我们现在描述我们提出的WNSMN，它通过生成查询的程序形式并通过显式推理执行该程序来学习根据QA对的弱监督来推断答案。0+v:mala2255获取更多论文3+v:mala2255获取更多论文0Arxiv预印本版本20210将查询解析为程序为了使框架通用，我们使用了Stanford依赖解析树（Chen＆Manning，2014）的简化表示来获取广义程序（附录A.5）。首先，为根节点的每个子节点构造一个子树的节点，通过合并原始词序中的后代。然后，从最左边的节点（我们称为根子句）添加到每个其他节点的边缘。然后，通过从左到右遍历，将每个节点组织成程序的一步，具有线性流程。例如，图1中获得的程序是X1=（'which is the longest'）; X2 =（'goal by Carpenter'，X1）; Answer =Discrete-Reasoning（'which is thelongest'，X2）。每个程序步骤由两种类型的参数组成：（i）从相应节点获得的查询跨度参数，指示该程序步骤中所指的查询段，例如第2步中的'goal byCarpenter'；（ii）从该节点的传入边缘获得的参考参数，指的是当前步骤依赖于的程序的前一步，例如第2步中的X1。接下来，添加一个最终步骤的程序，其中参考参数是以上述方式获得的叶节点，查询跨度参数是根子句。该步骤专门负责处理离散操作，由根子句启用，根子句通常指示所涉及的离散推理的类型（例如max）。然而，由于这是一种嘈杂的启发式方法，QA模型需要对这种噪声具有鲁棒性，并且还需要依赖完整的查询表示以预测离散操作。为简单起见，我们将参考参数的数量限制为2。02.1 程序执行0我们提出的WNSMN通过三个步骤在段落上执行程序。在预处理步骤中，它从段落中识别数字和日期，并将它们作为单独的规范化实体列表以及它们的提及位置进行维护。接下来，它学习了一个实体特定的交叉注意力模型，以根据其与查询的相关性对实体进行排序（§2.1.1），然后从中抽样出相关实体作为离散参数（§2.1.2），并对它们执行适当的离散操作以达到答案。一个强化学习框架（§2.1.3）以答案作为唯一监督进行端到端的训练。02.1.1 实体特定的交叉注意力用于信息抽取0为了对查询相关的段落实体进行排序，我们联合建模了段落、程序和实体。0建模程序与段落之间的交互。该模块（图2，左侧）学习将程序的查询跨度参数与段落关联起来。为此，类似于NMN，我们使用BERT-base预训练编码器（Devlin等，2018）分别获取段落和每个程序步骤的查询跨度参数的上下文化标记嵌入，分别表示为P_k和Q_k。基于此，我们学习了一个程序和段落之间的相似性矩阵S∈Rl×n×m，其中l、n和m分别是程序长度、查询跨度参数和段落长度（以标记为单位）。每个S_k∈Rn×m表示第k个程序参数在段落标记上的关联性，并定义为S_k(i, j) = w^T[Q_ki; P_kj; Q_ki ⊙P_kj]，其中w是可学习参数，⊙表示逐元素乘法。基于此，计算出第k个程序参数在段落标记上的注意力图A_k，定义为A_k(i, j) = softmax_j(S_k(i, j))= exp(S_k(i,j)) / sum(exp(S_k(i,j)))。0jexp(Sk(i,j))。类似地，对于第k个程序参数的第i个令牌，相对于段落的累积注意力aki是aki =softmaxi(�0jSk(i, j))。由注意力图Ak(i, ∙)加权的线性组合a ki给出第k个步骤的预期段落注意力，¯αk = �0ia kiAk(i, ∙) ∈ Rm。0跨度级别的平滑注意力。为了便于在文本的连续跨度上进行信息定位和提取，我们对段落注意力进行正则化，使得对段落令牌的注意力较高，如果其邻居的注意力也是如此。我们通过采用一种启发式平滑技术（Huang等，2020），在段落上采用不同长度的滑动窗口ω = {1, 2, ...,10}，用窗口内的注意力平均值替换令牌级别的注意力。这导致在程序的第k个步骤上，段落上有10个不同的注意力图：{¯αωk | ω ∈ {1, 2, ..., 10}}。0软跨度预测。该网络采用¯αωk的多尺度（Gupta等，2020）版本，通过将注意力图与|s|个不同的缩放因子（s = {1, 2, 5, 10}）相乘，为每个段落令牌产生一个|s|-维表示，即¯αωk ∈Rm×|s|。然后，将其通过L层堆叠的自注意力变换块（Vaswani等，2017）编码为m×d维度，然后通过一个维度为d×1的线性层，得到跨度预测logits：αωk = Linear(Transformer(MultiScaling(¯αωk)) ∈Rm。此外，每个程序步骤（例如k）的跨度预测logits通过引用参数（ref(k)）与当前步骤中引用的先前步骤相加，即αωk = αωk + �Modeling interaction between program and number/date entitiesThis module (Figure 2, right)facilitates an entity-based information spotting capability, that is, given a passage mention of anumber/date entity relevant to the query, the model should be able to attend to the neighborhoodaround it. To do this, for each program step, we ﬁrst compute a passage tokens to number tokensattention map Anum ∈ Rl×m×N, where N is the number of unique number entities. Note that thisattention map is different for each program step as the contextual BERT encoding of the passagetokens (Pk) is coupled with the program’s span argument of that step. At the k-th step, the rowAnumk(i, ·) denotes the probability distribution over the N unique number tokens w.r.t. the i-thpassage token. The attention maps are obtained by a softmax normalization of each row of thecorresponding passage tokens to number tokens similarity matrix, Snumk∈ Rm×N for k = {1 . . . l},where the elements of Snumkare computed as Snumk(i, j) = P TkiWnPknj with Wn ∈ Rd×d beinga learnable projection matrix and nj being the passage location of the j-th number token. Thesesimilarity scores are additively aggregated over all mentions of the same number entity in the passage.̸40Arxiv预印本20210图2：模拟段落与（左）程序和（右）其数字/日期实体之间的交互。对于每个程序步骤k，它们分别产生（i）堆叠跨度预测logits和（ii）每个段落令牌的数字/日期实体的注意力。这两者的线性组合给出了实体的预期分布，即Tnumk和Tdatek，用于第k步。0模拟程序和数字/日期实体之间的交互。该模块（图2，右侧）实现了基于实体的信息定位能力，即给定与查询相关的数字/日期实体的段落提及，模型应能够关注其周围的邻域。为此，对于每个程序步骤，我们首先计算一个段落令牌到数字令牌的注意力图Anum ∈Rl×m×N，其中N是唯一数字实体的数量。注意力图对于每个程序步骤都不同，因为段落令牌（Pk）的上下文BERT编码与该步骤的程序跨中，行Anumk(i, ∙)表示相对于第i个段落令牌的N个唯一数字令牌的概率分布。注意力图通过对应的段落令牌到数字令牌相似性矩阵Snumk Rm×N进行softmax归一化获得，其中Snumk的元素计算为Snumk(i, j) = PTkiWnPknj，其中Wn ∈Rd×d是可学习的投影矩阵，nj是第j个数字令牌的段落位置。这些相似性得分在段落中的所有相同数字实体的提及中进行累加。0k' ∈ref(k)αωk'.0然后，将程序与实体之间的关系建模为τωk = softmax(�iαωkiAnumk(i, ∙)) ∈RN，其中τωk是第k个程序步骤的N个数字令牌的预期分布，使用ω作为平滑窗口大小。不同窗口获得的最终堆叠注意力图为Tnumk = {τωk | ω ∈ {1, 2, ...,10}}。类似地，对于每个程序步骤k，我们还计算一个单独的堆叠注意力图Tdatek，用于唯一的日期令牌，由不同的Wd参数化。0对于对实体的有意义的注意力，关键要素是在数字和日期注意力图A num和Adate中融入信息提取能力，通过在训练目标中最小化无监督的辅助损失L num aux和L dateaux来实现，这对数字和日期实体施加了归纳偏差，类似于Gupta等人（2020）。其目的是确保段落注意力在实体提及的位置的±Ω（超参数，例如10）邻域内密集分布，而不对邻域外的注意力分布施加任何偏差。因此，它最大化了窗口内注意力分布的对数形式和窗口外注意力分布的熵。0（1）L num 0l0l �0k = 10� m �0i = 1[log(0j = 1 1 nj ∈ [i ± Ω] anum kij) -0j = 1 1 nj �∈ [i ± Ω] a num kijlog(a num kij)] �0其中1是指示函数，a num kij = A num k（i，j）。日期实体的L date aux类似地定义。0+v:mala2255获取更多论文50Arxiv预印本版本20210图3：运算符和参数采样网络以及对采样的离散动作的RL框架02.1.2 离散推理建模0接下来，模型学习基于最终程序步骤执行单个离散推理步骤1（图3）。最终步骤包含（i）查询的根子句，通常指示离散操作的类型（例如，“最长的是什么”表示max，“有多少目标”表示count），以及（ii）参考参数，指示最终步骤依赖于先前的程序步骤。每个先前步骤（例如k）都表示为堆叠的注意力图T num k和T date k，这些图是从§2.1.1中获得的。0运算符采样网络由于程序的噪声特性，运算符网络以以下内容作为输入：（i）BERT的[CLS]表示，用于段落-查询对和LSTM（Hochreiter＆Schmidhuber，1997）编码（随机初始化）BERT上下文表示的根子句，以及（iii）完整查询（相对于段落），以进行两个预测：0• 实体类型预测网络，指数线性单元（Elu）激活的全连接层，后面是一个softmax，输出采样日期或数字类型的概率。0•运算符预测网络，类似的Elu激活的全连接层，后面是一个softmax，学习一个概率分布，覆盖了一个固定的6个数字和逻辑运算（count、max、min、sum、diff、negate）的目录，每个运算符都用可学习的嵌入表示。0除了diff运算符只作用于两个参数外，所有其他操作都可以接受任意数量的参数。此外，其中一些操作只能应用于数字（例如sum，negate），而其他操作可以应用于数字或日期（例如max，count）。0参数采样网络该网络学习为采样的离散操作的参考参数中的日期/数字实体作为参数，给定每个先前步骤（例如，k）中出现在最终程序步骤的参考参数中的实体特定堆叠注意力（T num k和T datek）。为了允许采样固定或任意数量的参数，参数采样器学习四种类型的网络，每种网络都使用L层堆叠的自注意力Transformer块（输出维度为d），后面是不同的非线性层体现其功能和softmax归一化，以获得参数采样的相应概率（图3）。0•随机抽取n∈{1,2}参数模块：softmax（Elu（线性d×n（Transformer（T）））），输出单个实体（n=1）或实体对（n=2）的分布。0•计数模块：softmax（Elu（线性d×10（CNN-编码器（Transformer（T））））），预测可能的实体参数数量（∈[1,...,10]）的分布。0•实体排序模块：softmax（PRelu（线性d×1（Transformer（T）））），学习对实体进行重新排序，并在给定堆叠的注意力图作为输入时输出所有实体的分布。0•随机抽取任意参数：多项式（实体排序分布，计数预测）。0根据离散操作所需的参数数量和最终程序步骤中的参考参数数量，模型调用Sample {1, 2, Arbitrary}Argument之一。例如，如果抽样操作符是diff，需要2个参数，并且最终步骤有1个或2个参考参数，则模型分别在对应于每个参考参数的堆叠注意力T上调用Sample 2 argument或Sample 1argument。对于需要任意数量参数的操作，模型调用Sampling Arbitrary Argument。对于ArbitraryArgument情况，模型首先使用计数网络预测要抽样的实体数量c∈{1,...,10}，然后根据实体排序模块的输出分布构造的c组合的联合上的多项式分布进行抽样。01对于DROP，这是一个合理的假设，训练集的召回率为90%。然而，它不限制WNSMN的泛化能力，因为使用标准波束搜索可以扩展到l步MDP。0+v:mala2255获取更多论文60Arxiv预印本版本20210在任意参数情况下，模型首先使用计数网络预测要抽样的实体数量c∈{1,...,10}，然后根据实体排序模块的输出分布构造的c组合的联合上进行抽样。02.1.3在深度RL框架中使用弱监督进行训练0我们使用RL框架仅使用黄金和预测数值答案的精确匹配的离散二进制反馈来训练模型。特别地，我们使用REINFORCE（Williams，1992）策略梯度方法，其中学习了由一系列动作组成的随机策略，目标是最大化预期奖励。在我们的情况下，离散操作以及参数抽样构成了动作。然而，由于我们假设在DROP中，单步离散推理足以解决大多数问题，我们进一步将RL框架简化为具有1步MDP的上下文多臂赌博机（MAB）问题，即代理只执行一步动作。0尽管1步MDP的简化假设，但问题的以下特征使其非常具有挑战性：（i）动作空间A在操作数量和段落中的参数实体的顺序上呈指数增长（平均为DROP-num的12K个动作）；（ii）由于二进制反馈导致的极端奖励稀疏性进一步加剧了虚假奖励的存在，因为同样的答案可以通过多种不同的动作生成。请注意，以前的方法如NMN可以避免这种虚假监督，因为它们启发式地获得了问题类别的附加注释，黄金程序或黄金程序执行至少对于一些训练实例来说。0在我们的上下文MAB框架中，对于输入x=（段落（p），查询（q）），上下文或环境状态sφ（x）由（i）段落（ii）查询的程序形式和（iii）提取的段落日期/数字实体之间的实体特定交叉注意力（§2.1.1，由φ参数化）来建模。给定状态sφ（x），布局策略（§2.1.2，由θ参数化）然后学习查询特定的推理布局，即离散动作抽样策略Pθ（a |sφ（x））对于动作a∈A。动作抽样概率是从适当的实体类型（Ptypeθ）抽样实体的概率，从操作符（Popθ）抽样的概率以及从实体参数（Pargθ）抽样的概率的乘积，由要抽样的参数数量进行归一化。因此，对于输入x的可学习上下文表示sφ（x），端到端的目标是共同学习{θ，φ}，以最大化基于与黄金答案的精确匹配的抽样动作（a）的预期奖励R（x，a）∈{−1，+1}。0为了减轻这种稀疏混淆奖励设置中的学习不稳定性，我们使用了一个更简单的迭代硬EM（ExpectationMaximization）学习目标，称为迭代最大似然（IML）（Liang等，2017）。在假设采样的动作足够广泛以包含正确答案的情况下，IML通过固定策略参数贪婪地搜索好的动作，然后最大化导致最高奖励的最佳动作的似然。我们将好的动作（Agood）定义为导致正确答案本身的动作，并采取保守的方法，将其中最可能的动作简单地定义为当前策略下最可能的动作。0(2) J IML ( θ, φ 0x max a ∈A good log P θ,φ ( a | x )0在IML初始化之后，我们在几个时期后切换到REINFORCE作为学习目标，目标是最大化预期奖励（JRL ( θ, φ ) = �0x E P θ,φ ( a | x ) R ( x, a ) )as0(3) � ( θ,φ ) J RL 0x0a ∈A P θ,φ ( a | x )( R ( x, a ) − B ( x )) � θ,φ (logP θ,φ ( a | x ))0其中B(x)只是策略对于该实例x获得的平均（基准）奖励。此外，为了减轻过拟合，除了L2正则化和dropout之外，我们还在每个采样网络中添加了基于熵的参数采样分布的正则化。03 实验0我们现在通过对DROP数据集的版本进行实证比较WNSMN与SoTA基线的精确匹配性能，并检查它与强监督天际线的比较。WNSMN的主要基线是基于显式推理的NMN（Gupta等，2020）0+v:mala2255获取更多论文70Arxiv预印本20210其中使用了额外的强监督和基于BERT的语言模型GenBERT（Geva等，2020），该模型不具备任何推理能力，并自动回答生成数字答案标记。作为主要数据集，我们使用DROP-num，即DROP的数字答案子集。该子集分别从标准的DROP训练集和开发集中包含了45K和5.8K个实例。最初，NMN只在DROP的一个非常特定的子集上展示，该子集限制了它能处理的6种推理类型，其中三种（count，date-difference，extract-number）具有数字答案。该子集包含20K个训练实例和1.8K个开发实例，其中只有10K个训练实例和800个开发实例具有数字答案。我们进一步在这个数字子集上进行评估，称为DROP-Pruned-num。在这两种情况下，训练数据被随机分成70％：30％的训练和内部验证集，标准的DROP开发集被视为测试集。0图4显示了预训练的Sentence-BERT（Reimers＆Gurevych，2019）对DROP-num-Test中所有问题的编码的t-SNE图，还显示了DROP-Pruned-num-Test子集，不同颜色（红色，绿色，黄色）表示不同类型。DROP-num问题不仅比精心选择的DROP-Pruned-num子集更多样化，而且后者还形成了对应于三种推理类型的互相分离的聚类。此外，DROP-Pruned-num和DROP-num问题的平均困惑度（使用nltk）分别为3.9和10.65，进一步表明了前者相对开放性质的特点。0对于NMN和GenBERT的主要基线，我们报告了在各自数据集上使用作者开源的代码训练的模型的性能。其余结果来自Geva等（2020），Kinley＆Lin（2019）和Ran等（2019）；这些模型是在完整的DROP数据集上训练的。所有模型都使用相同的预训练BERT-base。还要注意，除了GenBERT和WNSMN之外，所有模型的主要要求，即NMN，MTMSN，NABERT，NAQANET，NumNet，是对所有可能的离散操作的输出空间进行详尽枚举。这简化了QA任务为分类设置，从而减轻了推理过程中离散推理的需要。0表1：基线模型和WNSMN的DROP- num 测试性能0监督类型准确率（%） Prog.Exec. QAtt.0NMN- num 变种0� � � 11.770� � � 17.520� � � 18.270� � � 18.540表1展示了我们在DROP- num上的主要结果，将WNSMN（由RL代理采样的top-1动作的准确率）与NMN的各种消融模型（在作者的实现中提供）进行了比较，这些模型至少删除了Prog ram、Exec ution和Q uery Attention监督中的一个（附录A.4.1），以及在DROP或DROP- num上微调的预训练BERT的GenBERT模型（表示为GenBERT和GenBERT-num）。为了与我们的弱监督模型进行公平比较，我们不将NMN的所有监督形式或预训练的GenBERT模型与额外的合成数字和文本数据进行比较。请注意，这些GenBERT变种确实在这些辅助数据集中提供了强大的推理监督，即提供了黄金算术表达式。0与Gupta等人（2020）在修剪的DROP子集上报告的性能相比，NMN的性能非常差，确实出现了严重的下降，以及我们在表2中的后续实验。这可以归因于它们在处理更多种类的推理和DROP- num中的开放式查询方面的局限性，进一步加剧了缺乏一种或多种类型的强监督的问题。我们之前对子集和完整的DROP- num问题复杂性的分析进一步量化了后者的相对难度水平。另一方面，GenBERT的性能一般，而GenBERT- num的性能降低了4％，因为仅从数字答案中学习进一步限制了语言建模能力。我们的模型比这两个基准模型都表现得更好，超过GenBERT8％，超过NMN基准模型约32％。这展示了将明确的推理纳入神经模型中与GenBERT等传统大规模语言模型相比的重要性。它还证明了这种推理的普适性。0NMN的结果和限制在表1和2中也得到了NMN作者的确认。0+v:mala2255获取更多论文80Arxiv预印本版本20210与NMN等当代模块化网络相比，基于模块化网络的WNSMN能够处理更多开放式的问答形式，因为它能够以端到端的方式处理可学习和离散的模块。0接下来，在表2中，我们将提出的WNSMN与DROP- num0.0( i )实际上，WNSMN的性能与强监督的NMN变体非常接近（第一行），并且能够在去除一种或多种类型的监督的所有其他变体上至少获得4%的改进幅度。这是尽管所有NMN的变体都额外享受了对可能的数值答案输出空间的穷举预计算；( ii )WNSMN仅在涉及更复杂的抽取数字类型操作（例如，max，min）的情况下受到影响，这涉及到采样任意数量的参数；( iii )当存在全部或无强监督时，NMN的性能下降并不是很大，可能是因为推理类型和查询语言的多样性有限；( iv )在没有程序和执行监督或两者都不存在的情况下，查询注意力监督实际上会对NMN的性能产生不利影响，可能是由于不良的偏置效应。然而，当两种监督都可用时，查询注意力能够提高模型性能5%。此外，我们认为800个实例的测试集过小，无法对模型的性能进行公正的反映。0在表3中，我们还检查了WNSMN采样的前k个动作的召回率，以估计它与强监督的天际线的比较情况：( i ) 具有所有形式的强监督的NMN；( ii )预训练于合成数值和文本数据以及两者的GenBERT变体+ND，+TD和+ND+TD；( iii )无推理的混合模型，如MTMSN（Hu等，2019年）和NumNet（Ran等，2019年），NAQANet（Dua等，2019年）和NABERT，NABERT+（Kinley和Lin，2019年）。请注意，NumNet和NAQANet都不使用预训练的BERT。MTMSN通过训练专门的预测器来预测数值表达式，而不是学习推理，从而实现了SoTA性能。虽然WNSMN的top-1性能（在表1中）比NABERT差4%，但在top-2的召回率上与强监督的NMN相当，top-5和top-10与NABERT+、NumNet和GenBERT模型+ND、+TD相当，而top-20几乎达到了SoTA。这种对前k个动作的良好召回率表明，更复杂的RL算法和更好的探索策略可能能够弥合这种性能差距。04 分析与未来工作0天际线和DROP-num-Test上SMN top-k性能0模型准确率（%）0-num（所有监督）58.100ERT+ND 69.20 GenBERT+TD GenBERT+ND+TD 75.200ANet 44.97 NABERT 54.27RT+ 66.60 NumNet 69.740SN 75.000MN的前k个动作的召回率（%） k = 2 k = 4 k = 5 k = 10 k = 20 58.6 63.067.4 72.3 74.20性能分析尽管由于高方差而导致RL的臭名昭著，但如图5(a)所示的训练趋势并未受到灾难性遗忘的影响。第10-15个时期之间的突然性能跃升是由于从迭代ML初始化切换到REINFORCE目标。图5(b)显示了使用噪声伪奖励评估的各个模块的性能，该伪奖励指示该模块采样的动作是否导致了正确答案（详见附录A.6）。此外，通过将性能按照图5(c)中的段落实体总数进行分组，我们观察到WNSMN在日期/数字数量增加的情况下仍然不受影响，尽管动作空间爆炸。另一方面，GenBERT的性能在超过25个段落实体后线性下降，而NMN-num则从一开始就呈指数级下降，这是因为它直接依赖于指数级增长的穷举预计算输出空间。0+v:mala2255获取更多论文902021年Arxiv预印本版本0模块性能0样本1 参数54%（准确率）样本2参数52% — " — 计数器50% — " —实体排序器53% — " —操作符预测器78% — " —实体类型预测器83% — " —0整体操作采样器84%（Rec@All）0图5：（a）训练趋势，显示Recall@top-k和所有操作，操作符和实体类型预测器的准确性，基于嘈杂的伪奖励（附录A.6）估计；（b）基于伪奖励的模块性能在DROP-num-Test上；（c）根据段落实体总数的分桶性能，以及来自表1的最佳性能的NMN和GenBERT模型。0更稳定的强化学习框架图5（a）中的训练趋势显示早期饱和，模块性能表明过拟合，尽管在§2.1.3和附录A.6中使用了正则化技巧。尽管更稳定的强化学习算法如Actor-Critic、Trust Region Policy Optimization（Schulmanet al.，2015）或Memory Augmented Policy Optimization（Liang etal.，2018）可以缓解这些问题，但我们将它们留给未来的探索。此外，尽管这项工作的目标是在弱监督下训练模块网络，但指数动作空间中的稀疏混淆奖励确实使得强化学习训练变得非常具有挑战性。一个实际的未来方向是在至少一部分推理类别上进行强监督的预训练，或者在更受限制的合成问题形式上进行强监督的预训练，类似于GenBERT。这样的设置需要检查和评估强化学习模型对未知推理类型或更开放式问题的泛化能力。05 相关工作0在本节中，我们简要比较了我们提出的WNSMN与两个最接近的模型类型，这两个模型在DROP3上已经被证明非常成功：i）无推理混合模型NumNet、NAQANet、NABERT、NABERT+、MTMSN和NeRd；ii）用于推理的模块化网络NMN。它们与WNSMN的主要区别在于，为了解决弱监督的挑战，它们通过以下方式从QA对中获得程序注释：i）通过对DROP中的模板化查询进行各种启发式解析，以获得推理类型（最大/最小、差异/总和、计数、否定）的监督；ii）通过对所有可能的离散操作进行穷举搜索，以获得推理中的参数的监督。0这种启发式监督使得学习问题在以下方面变得更简单。0•这些模型享受到了专门程序的监督，该程序明确说明了应用于问题的推理类型，例如SUM(10,12)。0• 一个简化的（类似于上下文BERT的）阅读器模型，用于从段落中直接监督训练每个程序步骤的查询跨度参数的相关信息。0• 可以直接训练的程序员模型来解码专门的程序。0•通过以下两种方式执行数值函数（例如差异、计数、最大值、最小值）：i）在强监督设置中训练纯神经模块，使用注释的程序；ii）在模型预测的程序上执行实际的离散操作作为后处理步骤。对于这些先前的工作，可以直接将学习目标应用于解码程序空间，而无需处理离散答案或任何不可微性。0然而，这种启发式的程序注释或穷举搜索技术在问题语言或离散操作空间变得更复杂时是不实际的。因此，WNSMN在具有挑战性的弱监督设置中学习，没有任何额外的注释。0• 一种嘈杂的符号查询分解，对推理类型不加区分，仅基于通用文本解析技术。0更详细的相关工作部分请参见附录A.40+v:mala2255获取更多论文10+v:mala2255获取更多论文0Arxiv预印本版本20210• 一种实体特定的交叉注意力模型，提取与分解查询的每个步骤相关的段落信息，并学习每个类型实体上的注意力分布0• 通过使用学习采样操作和实体参数的神经模块，学习应用离散推理0•在执行离散操作时，利用神经和离散模块的组合，而不仅仅使用需要对程序进行强监督学习功能的神经模块0• 通过辅助损失和迭代最大似然结合归纳偏差的根本不同学习策略，以更保守的初始化后跟REINFORCE0这些无推理的混合模

下载后可阅读完整内容，剩余1页未读，立即下载