弱监督神经符号模块网络：提升数值推理精度

181 浏览量更新于2024-06-19 收藏 20.82MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"弱监督神经符号模块网络：实现数值推理的高精度模型" 本文介绍了一种名为弱监督神经符号模块网络（WNSMN）的新方法，该方法专注于数值推理任务，特别是在机器阅读理解（MRC）领域。传统的神经模块网络（NMN）依赖于强监督来执行特定的推理模块，但在缺乏此类监督的开放环境中难以推广。WNSMN解决了这个问题，通过以答案作为唯一的数值推理监督进行训练，能够在没有详细指导的情况下学习执行推理。 WNSMN的核心在于其能够学习从查询的依赖解析中提取的噪声启发式程序，并在神经和符号推理模块上执行离散动作。这一过程是在强化学习框架中进行的，模型通过与答案匹配的离散奖励进行端到端训练。在DROP数据集的数值答案子集上，WNSMN在弱监督设置下表现出显著优势，其精确匹配准确率比NMN提高了32%，比无推理的GenBERT模型高8%。论文强调了端到端神经模型在语言和视觉问题中的广泛应用，但指出对于需要明确推理的任务，如问答和对话，更可解释的模型是必要的。数值推理是MRC中的一个关键挑战，尤其是在DROP数据集等中，答案往往是数值形式，需要理解文本、处理日期和数字的上下文，以及执行复杂的定量推理。目前成功的模型主要分为三类：大规模预训练语言模型如GenBERT，整体Transformer架构的逐位解码模型，以及本文提出的WNSMN。尽管预训练模型在处理数值推理时表现出色，但它们依赖于大量合成数据和黄金推理的预训练。相比之下，WNSMN展示了模块化网络在处理噪声程序和进行显式离散推理方面的有效性和通用性，无需额外的强监督信号。这项工作为数值推理提供了新的视角，证明了弱监督策略在神经符号融合模型中的潜力，为未来的MRC研究和可解释性模型设计提供了有价值的参考。通过WNSMN，研究人员和开发者可以更好地构建能够理解和执行复杂数值推理任务的智能系统，进一步推动自然语言处理技术的发展。

资源详情

资源推荐

Arxiv预印本版本2021

图3：运算符和参数采样网络以及对采样的离散动作的RL框架

2.1.2离散推理建模

接下来，模型学习基于最终程序步骤执行单个离散推理步骤1（图3）。最终步骤包含（i）查询的根子

句，通常指示离散操作的类型（例如，“最长的是什么”表示max，“有多少目标”表示count），以

及（ii）参考参数，指示最终步骤依赖于先前的程序步骤。每个先前步骤（例如k）都表示为堆叠的注

意力图Tnumk和Tdatek，这些图是从§2.1.1中获得的。

运算符采样网络由于程序的噪声特性，运算符网络以以下内容作为输入：（i）BERT的[CLS]表示，用

于段落-查询对和LSTM（Hochreiter＆Schmidhuber，1997）编码（随机初始化）BERT上下文表示

的根子句，以及（iii）完整查询（相对于段落），以进行两个预测：

•实体类型预测网络，指数线性单元（Elu）激活的全连接层，后面是一个softmax，输出采样日期或数字类型的概率。

•

运算符预测网络，类似的Elu激活的全连接层，后面是一个softmax，学习一个概率分布，覆盖了一个固定的6个

数字和逻辑运算（count、max、min、sum、diff、negate）的目录，每个运算符都用可学习的嵌入表示。

除了diff运算符只作用于两个参数外，所有其他操作都可以接受任意数量的参数。此外，其中一些操

作只能应用于数字（例如sum，negate），而其他操作可以应用于数字或日期（例如max，count）

。

参数采样网络该网络学习为采样的离散操作的参考参数中的日期/数字实体作为参数，给定每个先前

步骤（例如，k）中出现在最终程序步骤的参考参数中的实体特定堆叠注意力（Tnumk和Tdate

k）。为了允许采样固定或任意数量的参数，参数采样器学习四种类型的网络，每种网络都使用L层堆

叠的自注意力Transformer块（输出维度为d），后面是不同的非线性层体现其功能和softmax归一化

，以获得参数采样的相应概率（图3）。

•随机抽取n∈{1,2}参数模块：softmax（Elu（线性d×n（Transformer（T）））），输出单个实体

（n=1）或实体对（n=2）的分布。

•计数模块：softmax（Elu（线性d×10（CNN-编码器（Transformer（T））））），预测可能的

实体参数数量（∈[1,...,10]）的分布。

•实体排序模块：softmax（PRelu（线性d×1（Transformer（T）））），学习对实体进行重新排

序，并在给定堆叠的注意力图作为输入时输出所有实体的分布。

•随机抽取任意参数：多项式（实体排序分布，计数预测）。

根据离散操作所需的参数数量和最终程序步骤中的参考参数数量，模型调用Sample{1,2,Arbitrary}

Argument之一。例如，如果抽样操作符是diff，需要2个参数，并且最终步骤有1个或2个参考参数，则模型

分别在对应于每个参考参数的堆叠注意力T上调用Sample2argument或Sample1

argument。对于需要任意数量参数的操作，模型调用SamplingArbitraryArgument。对于Arbitrary

Argument情况，模型首先使用计数网络预测要抽样的实体数量c∈{1,...,10}，然后根据实体排序模块的输出

分布构造的c组合的联合上的多项式分布进行抽样。

1对于DROP，这是一个合理的假设，训练集的召回率为90%。然而，它不限制WNSMN的泛化能力，因为使用标

准波束搜索可以扩展到l步MDP。

+v:mala2255获取更多论文

剩余21页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

弱监督神经符号模块网络：提升数值推理精度

基于java打造的深度学习框架，帮助你快速搭建神经网络，实现模型推理与训练

中文识别高精度推理模型

中文检测高精度推理模型

神经网络模块：该模块是整个软件的核心，负责训练和推理神经网络，以实现对施工图纸的审核功能。该模块中包含了各种神经网络算法和模型，以及训练和推理的相关代码。函数的具体方程式

基于神经网络的知识图谱推理模型有哪些？

深度神经网络模型推理时间怎么估计

labview 建立神经网络模型

半精度推理unet模型

贝叶斯网络在进行推理时，哪些推理模块可支持精度设置

推荐几个知识图谱推理模型

基于神经网络的知识推理

神经网络的计算主要涉及到两个方面：训练和推理详解

OpenMV如何使用神经网络模型

请描述您对神经符号人工智能的初步理解。

如何对前向推理神经网络进行训练

如果是在需要使用确定推理规则如简易逻辑或条件逻辑，目前有没有比较好的神经网络算法可以实现

LM神经网络模型的优缺点

知识图谱中基于规则推理的模型优缺点

可解释的图神经网络模型

训练神经网络模型MATLAB代码

最新资源