自动数值交叉检查：从文本中提取公式

143 浏览量更新于2023-10-16 收藏 12.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yixuan Cao1,2, Hongwei Li1,2, Ping Luo1, Jiaquan Yao31http://www.economist.com/node/18744559?story_id=187445592http://www.cf.net.cn/p20161223000079.htmlTrack: IndustryWWW 2018, April 23-27, 2018, Lyon, France17950自动数值交叉检查：从文本中提取公式01中国科学院智能信息处理重点实验室（CAS），中国科学院计算技术研究所，北京100190，中国 2 中国科学院大学，北京100049，中国 3暨南大学管理学院，广州510632，中国 {caoyixuan, lihongwei, luop}@ict.ac.cn,{jiaquanyao}@gmail.com0摘要0在Web上的已发布文件中，关于一些客观指标之间的数值关系的口头描述是普遍存在的，尤其是在金融领域。然而，由于大量的文件和有限的时间进行手动交叉检查，即使在正式发布后，这些声明可能与相关指标的原始结构化数据不一致。即使这些错误是无意识的而不是故意的，它们也会严重影响投资者对公司的评估，并导致他们低估公司的价值。这为自动化的数值交叉检查（NCC）系统提供了机会。本文介绍了这样一个系统的关键组成部分，即公式提取器，它从数值声明的口头描述中提取公式。具体而言，我们将这个任务形式化为一个DAG结构预测问题，并提出了一个迭代关系抽取模型来解决它。在我们的模型中，我们应用了一个双向LSTM，然后是一个DAG结构的LSTM，以迭代地逐层提取公式。然后，我们使用一个人工标记的数万个句子的数据集构建了模型。评估结果显示，该模型在公式提取方面是有效的。在关系层面上，模型的精确度达到了97.78%，召回率达到了98.33%。在句子层面上，对92.02%的句子的预测是完美的。总体而言，NCC项目在中国金融界得到了广泛认可。0ACM参考格式：Yixuan Cao 1 , 2 , Hongwei Li 1 , 2 , Ping Luo 1 , JiaquanYao 3 1中国科学院智能信息处理重点实验室（CAS），中国科学院计算技术研究所，北京100190，中国 2 中国科学院大学，北京100049，中国 3暨南大学管理学院，广州510632，中国 {caoyixuan, lihongwei,luop}@ict.ac.cn, {jiaquanyao}@gmail.com, . 2018.自动数值交叉检查：从文本中提取公式. 在WWW2018：2018年万维网会议，2018年4月23日至27日，法国里昂。ACM，纽约，美国，10页。https://doi.org/10.1145/3178876.31861660本文采用知识共享署名4.0国际许可证（CC BY4.0）发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318616601 引言0在Web上的已发布文件中，关于一些客观指标之间的数值关系的声明是普遍存在的。例如，各种金融文件（例如IPO招股说明书、债券招股说明书、公司年度报告等）中包含大量关于公司财务指标的文字描述。图1中的示例1就是这样一个典型的句子。它描述了某公司在两个时间点（2015年末和2016年）的预付款和其他应付款总额，以及这个总额在流动负债中所占的比例。此外，图1还包括了自然科学领域（计算机科学和气象学）中的另外两个这种文字描述的例子。所有这些句子都旨在以定量的方式用语言描述一些客观指标的“准确”数值关系。尽管这些数值关系的声明是正式发布的，但它们可能与生成文字描述的结构化数据不一致。图2中的一个真实例子展示了这种不一致，这是由我们提出的系统自动检测到的。通过给定的句子，我们可以得到与指标相关的公式。请注意，这只是与句子语义完全匹配的公式之一。包含这个句子的文件还包含这些财务指标的表格。将这些表格中的原始数据放入公式的左侧，我们发现预付款和其他应付款在2015年共占流动负债的91.13%。这与文本中给出的93.88%的数字相矛盾。由于披露文件，特别是在金融领域，对“真实性、准确性和完整性”的基本要求，这些数值错误可能带来巨大的声誉风险，甚至经济损失。2011年，高盛在数百页的文件中犯了一个关键的打字错误——当他们想要“/”时写成了“×”。这导致交易价格飙升，最终交易被暂停。这个打字错误导致高盛损失4500万美元。最近，在2016年，中国邮政储蓄银行（PSBC）发布了其年度报告，其中“总负债”被写成“￥8000亿”，而实际值应该是“￥80亿”。这一消息在网上迅速传播，严重损害了PSBC在投资者中的声誉。由于这些披露文件通常具有法律效力，这些错误和打字错误在发布之前应该被彻底纠正。��= 93.88%1.3��= 93.14%1.41880−2012= 0.85 ℃3.117960示例1输入句子：截至2015年12月31日和2016年12月31日，我们的预付款和其他应付款总额约为18.9亿美元、17.43亿美元，分别占流动负债的93.88%和93.14%。0输出公式：02015年12月31日预付款+2015年12月31日其他应付款= 18.9亿美元 1.102016年12月31日预付款+2016年12月31日其他应付款= 17.43亿美元 1.202015年12月31日预付款+2015年12月31日其他应付款� �÷2015年12月31日0流动负债02016年12月31日预付款+2016年12月31日其他应付款� �÷2016年12月31日0流动负债0示例2 输入句子：第二部分占整个算法运行时间的50%。0输出公式：0运行时间÷整个算法0运行时间= 50% 2.10示例3输入句子：在1880年至2012年期间，全球平均（陆地和海洋）地表温度上升了0.85 [0.65至1.06]℃。0输出公式：0全球平均地表温度0全球平均地表温度0图1：句子及其公式的示例。02014年 2015年 2016年（以百万计）预付款 $1,134 $1,047$9520其他应付款 $782 $843 $791 流动负债 $2,105 $2,074 $1,8720截至12月31日0x不一致0（$1,047亿 + $843亿）÷$2,074亿 = 91.13%0截至2015年12月31日和2016年12月31日，我们的预付款和其他应付款总额约为18.9亿美元、17.43亿美元，分别占流动负债的93.88%和93.14%。0文本0表0图2：数字交叉检查检测到口头描述与原始数据之间的不一致。0金融文献中有充分的证据表明，披露文件中的信息始终是投资者最关注的问题之一。Lawrence[14]表明，个人投资者更倾向于投资具有清晰简明财务披露的公司，因为这样的披露减少了个人的相对信息劣势。Choudhary等人[7]指出，即使是文件中的不重要错误也包含了关于公司财务报告可靠性的信息。因此，会计错误可能导致投资者对公司报告质量失去信任，并减少对这些公司的投资。此外，投资者对会计错误的关注可能会损害公司的声誉。为此，有一项特殊的工作被称为“授权阅读”，以手动进行数字交叉检查。由于原始数据表在编写过程中经常更新，披露的初稿通常包含许多数据不一致错误。根据对10名中国投资银行家的用户访谈，平均而言，一名有3年工作经验的员工需要一周的时间来完成对500页文件的交叉检查任务。此外，通常会有一个严格的截止日期来发布披露文件，因此进行交叉检查的时间有限。更重要的是，长时间进行交叉检查肯定会导致疲劳、疲劳和粗心。因此，即使经过手动交叉检查，这些数据不一致错误仍然是不可避免的，这是由于大量文件、原始表的频繁更新、交叉检查的时间有限以及由此产生的智力要求高、劳动密集、耗时的过程所导致的疲劳。因此，这个挑战为自动数字交叉检查（NCC）系统创造了机会。由于目前没有真正自动执行此操作的现有系统，NCC技术显然落后。已经开发了一些相关的系统。ClaimBuster[10]是一个事实核查系统，旨在自动检查重要的事实性声明，特别是政治言论中的声明。从技术上讲，它专注于检测值得检查的事实性声明，而匹配声明和检查声明的其他两个组成部分仍在进行中。目前，它无法支持对数值指标进行精确的交叉检查。StatCheck[20]使用基于规则的程序检查主要心理学期刊中的学术论文中的零假设显著性检验的不一致错误。它发现每八篇论文中就有一篇包含严重不一致的p值，可能影响统计结论。虽然相关工具和技术可以在各个步骤中协助此任务，但目前还不存在一个完整的、端到端的NCC解决方案。为了填补这个空白，我们正在构建一个端到端的计算机辅助数字交叉检查系统，该系统利用机器学习、自然语言处理和数据库查询技术来自动化此任务。它期望以财务文件作为输入，并检测所有数值关系中的潜在冲突，其中图2是该系统的典型示例输出。在对1000份正式发布的中国招股说明书进行评估时，我们的系统发现68.92%的文件包含数据不一致错误，而每个不一致的文件平均有4.26个错误（由专业人员重新检查确认）。该系统有三个主要组成部分：公式提取（从文本中提取数值关系）、表格提取（从表格中提取数据）和一致性检查。虽然完整系统的改进仍在进行中，但在本文中，我们重点关注系统的关键组成部分，即公式提取器，它从数值声明的口头描述中提取公式。0疲劳、疲劳和粗心。因此，即使经过手动交叉检查，这些数据不一致错误仍然是不可避免的，这是由于大量文件、原始表的频繁更新、交叉检查的时间有限以及由此产生的智力要求高、劳动密集、耗时的过程所导致的疲劳。因此，这个挑战为自动数字交叉检查（NCC）系统创造了机会。由于目前没有真正自动执行此操作的现有系统，NCC技术显然落后。已经开发了一些相关的系统。ClaimBuster[10]是一个事实核查系统，旨在自动检查重要的事实性声明，特别是政治言论中的声明。从技术上讲，它专注于检测值得检查的事实性声明，而匹配声明和检查声明的其他两个组成部分仍在进行中。目前，它无法支持对数值指标进行精确的交叉检查。StatCheck[20]使用基于规则的程序检查主要心理学期刊中的学术论文中的零假设显著性检验的不一致错误。它发现每八篇论文中就有一篇包含严重不一致的p值，可能影响统计结论。虽然相关工具和技术可以在各个步骤中协助此任务，但目前还不存在一个完整的、端到端的NCC解决方案。为了填补这个空白，我们正在构建一个端到端的计算机辅助数字交叉检查系统，该系统利用机器学习、自然语言处理和数据库查询技术来自动化此任务。它期望以财务文件作为输入，并检测所有数值关系中的潜在冲突，其中图2是该系统的典型示例输出。在对1000份正式发布的中国招股说明书进行评估时，我们的系统发现68.92%的文件包含数据不一致错误，而每个不一致的文件平均有4.26个错误（由专业人员重新检查确认）。该系统有三个主要组成部分：公式提取（从文本中提取数值关系）、表格提取（从表格中提取数据）和一致性检查。虽然完整系统的改进仍在进行中，但在本文中，我们重点关注系统的关键组成部分，即公式提取器，它从数值声明的口头描述中提取公式。0Track: Industry WWW 2018, April 23-27, 2018, Lyon, France@@@+=179702015年12月31日预付款其他应付款流动负债 93.88%0预付款0流动负债 @2015年12月31日0@ 2015年12月31日 + 其他应付款 @2015年12月31日0÷0÷0@ 2015年12月31日 + 其他应付款 @2015年12月31日0÷ 流动负债 @2015年12月31日0÷0@ 2015年12月31日 + 其他应付款 @2015年12月31日0÷ 流动负债 @ 2015年12月31日 = 93.88%0图3：通过示例说明迭代关系提取的过程（图1中的公式1.3）。0鉴于网络上暴露的大量言论和叙述，该组件提取了由索赔句子语义表达的公式。图1显示了该组件的输入和输出的一些典型示例。这实质上是自动化交叉检查过程的关键步骤。我们提出了一种迭代关系提取（IRE）模型来从文本中提取公式。图3说明了图1中的公式1.3如何转换为有向无环图（DAG）结构。在这个图中，每个节点都指代一个二元关系，其类型可以是任何计算关系（如+，-，×，÷等）或任何比较关系（如=，<，>等）。关系的两个操作数可以是实体（见底部的叶子节点），也可以是较低层次的关系。以红色实线矩形中的节点为例。它是一个÷关系，其左操作数是一个+关系的节点，表示预付款和其他应付款（2015年底）的总和，而右操作数是一个“@”节点3，表示2015年末的流动负债的值。在这种情况下，这两个操作数都是在较低层次生成的关系。还可以看到根节点带有“=”关系，其左操作数是“÷”，右操作数是叶子实体93。88%。这个根节点实际上代表了整个公式。因此，任何公式都可以表示为DAG，在其中每个内部节点都有两个子节点，较低层次的节点可以是较高层次节点的子节点。这就是为什么我们称之为迭代关系提取的原因。以前的关系提取研究主要集中在实体之间的关系上，因此它们只对单个层次执行关系提取。在提出的IRE模型中，它从底部到顶部迭代地提取关系，直到最终生成公式。在这个过程中，底层提取的关系可以作为上层关系的输入。03 @ 的含义将在第2节详细介绍0通过逐层迭代计算的过程，生成最终的公式。本文中，我们开发了基于神经网络的IRE方法。在这个模型中，我们考虑了两个方向上的顺序信息，即水平方向和垂直方向。在水平方向上，我们考虑了原始输入句子的词序列。在垂直方向上，我们对公式生成的DAG中从叶子到根的序列进行建模。特别地，我们使用了两个不同的LSTM模块来模拟这两个方向上的顺序信息，以便关系的建立不仅依赖于先前生成的关系，还依赖于原始句子中嵌入的语义。最后，该模型在一个包含数万个句子的标记数据集上进行训练，这些句子来自中国公开财务文件。评估结果显示，我们的模型在关系级别上达到了97.78%的精确度和98.33%的召回率。在92.02%的句子中，它预测的公式没有任何错误。此外，为了加速训练过程，我们开发了两种技术：逐层并行和逐批并行。使用这两种技术，每个时期的平均训练时间加快了5倍以上。这些技术可能为具有树形或DAG结构输入的模型加速提供一些启示。最后但并非最不重要的是，我们的研究通过引入更精确的会计错误代理，为会计错误和报告偏差的代理测量误差问题做出了贡献。这个问题目前是一个重大关注点，并且在文献中尚未解决。研究人员倾向于依赖重述数据来构建会计错误的代理，并关注于检查这些错误的可能原因和后果。然而，现有代理存在测量误差问题，这是由于重述数据的样本量有限所导致的。未被重述数据检测到或检测到但未跟踪的错误可能导致低估会计错误的发生率。通过NCC系统，我们能够在更大范围的披露文件中发现错误，从而更准确地估计会计错误。本文的剩余部分结构如下：第2节给出了公式及其结构的定义。第3节描述了我们的迭代关系提取模型。然后我们在第5节评估了我们的模型，在第6节总结了相关工作，在第7节中进行了结论。02 文本中公式的结构0在本节中，我们首先定义一个公式的结构，然后将其扩展到一个句子中所有公式的结构，并最后讨论结构的特点。本节的讨论基于图4。请注意，图3是图4的子图（带有实线边框的节点）。为了简洁起见，我们使用运算符代表每个关系，而不是长表达式。02.1 一个公式的结构0直观地说，公式是关于某个东西与另一个东西相等或大于/小于的格式化表达式。例如，2017年的收入等于一定金额的钱；2016年到2017年的收入增长率等于一个数字。公式由包括实体和关系在内的组件构成。我们将首先介绍这些组件，然后定义公式的结构。0Track: Industry WWW 2018, April 23-27, 2018, Lyon, France………93.88%93.14%…@ connects indicator and timeblack line for lef operandred line for right operand179802015年12月31日0和02016年12月31日0预付款0和0其他应付款0聚合...018.9亿美元0和017.43亿美元0构成0和0的0流动负债0@ r110@ r120@ r130@ r140@ r150@ r140+ r210+ r220÷ r310÷ r320= r330= r340= r410= r420第1层0第2层0第3层0第4层0图4：示例1中的公式结构，见图1。0实体。在图4的底部一行，灰色框是公式的基本组件：实体。实体是参与公式的单词或短语。我们在财务文本中定义了三种类型的实体：时间实体，如“2015年1月31日”；财务指标，如“收入”，“流动负债”；以及数值，如“1.66亿美元”，“93.88%”。时间和数值实体是通过手工制作的正则表达式提取的。财务指标是由财务专家维护的大型白名单中预定义的。我们通过匹配白名单来提取它们。从现在开始，我们假设这三种类型的实体已经给定。关系。从图4的第1层到第4层，我们可以看到两个较低层的节点指向较高层的一个节点的模式。这种结构被称为关系。0定义2.1.关系。关系由三个部分组成：左操作数cl，右操作数cr和运算符o：0r：（cl，o，cr）（1）0其中每个操作数c*可以是实体或另一个关系，o是从预定义的操作符集中选择的运算符，例如“+”。0请注意两件事。首先，关系的定义是递归的：关系的两个操作数可以是其他关系。其次，左操作数和右操作数不是可交换的（a-b与b-a明显不同）。尽管数学上有些运算符如“+”和“=”是可交换的，但我们制定规则强制所有运算符都是不可交换的。例如，在图4中，r41有两个操作数r31和93.88%。在r31中的第一个单词“2015年12月31日”在句子中出现在93.88%之前。我们设定规则（r31，=，93.88%）是一个有效的关系，然而（93.88%，=，r31）不是。运算符@将指标与其所指的时间连接起来。@的左操作数必须是一个指标，右操作数必须是一个时间。否则，关系是无效的。在这项研究中，使用的关系分为两类：算术和比较。算术关系。算术关系是一个带有来自集合Oa的算术运算符的关系：{@，+，-，×，÷}。一个算术0关系描述了公式的一个组成部分。例如，r11:(prepayment, @, Dec31, 2015)描述了2015年的一个指标，r21:(r11, +,r12)描述了2015年两个指标的求和。所有算术关系将被用作更高层次关系的操作数。因此，我们称它们为中间节点。比较关系。比较关系是具有比较运算符（集合Oc:{=, >,<}）的关系。比较关系进行了一种陈述，不能作为另一个关系的操作数。例如，r41说明r31等于93.88%。由于比较关系不会被用作其他关系的操作数，我们称它们为终端节点。根据上述定义，一个公式是由关系和实体构成的结构。在顶部有一个比较运算符，所有的后代，包括算术关系和实体，构成一个公式。02.2 句子中的公式0但是一个句子可能表达多个结构相互交织在一起的公式。这使得一个句子中所有公式的结构在多个方面更加复杂。首先，一个句子中的公式结构可能具有多个根，如图4所示。其次，一个实体或关系可以指向多个关系，也就是说，实体和关系的相同出现可以被其他关系多次重用。例如，“Dec 31,2015”是r11、r12和r13的右操作数；r21是r31和r33的左操作数。层次结构。结构也是分层的。虚线将关系按层分组。一层关系是具有相同层号的所有关系。关系r:(cl, o, cr)的层号定义为l(r) = max(l(cl),l(cr)) + 1。如果c�是一个实体，则我们将l(c�) =0。根据上述定义和分析，一个句子中的公式结构具有以下特点：0（1）公式从底部组件（时间、指标和值）开始以递归方式定义：通过多层嵌套关系到达比较运算符；（2）它可能具有多个根；（3）关系和实体可以被重用；（4）每个关系都有两个有序的操作数和一个运算符。0前三个特征与有向无环图（DAG）结构完全匹配。第四个特征将DAG约束为有序的二叉DAG，其中每个节点与一个运算符相关联。这里有序的二叉DAG意味着每个节点有两个非交换的子节点。因此，从句子中提取公式的问题被定义为提取有序的二叉DAG结构的公式。03 公式抽取0受公式的递归特性的启发，我们提出了一种迭代关系抽取（IRE）模型，通过从底部到顶部逐层迭代地提取公式。在本节中，我们首先概述了我们的模型。然后，我们深入介绍了所有模块，包括嵌入、Bi-LSTM和DAG-LSTM模块的细节。0Track: Industry WWW 2018, 2018年4月23日至27日，法国里昂------++++=<>++c4=------++++++<>w1frfl+ctclcrhtothrhlĉt= tanh(Wcot + Uc[hl, hr])ĉt179903.1 IRE模型框架0IRE模型的关键思想是通过迭代逐层提取关系。它通过首先生成关系候选项，然后进行二元分类来提取一层关系。当终止时，所有层的正标签节点构成了公式。过程如下。将提取的时间、指标和值实体存储在集合T、I、V中。运算符集合O = {@, +, -, ×, ÷, >, <,=}。使用集合N记录DAG结构中的节点。在开始时，N = T ∪ I ∪V。第一层。首先，生成所有可能的候选项：0C = {(n1, o, n2) | n1, n2 ∈ N, o ∈ O} - N. (2)0然后，预测C中的所有候选项。假设具有正面标签的节点为N+1，更新N = N ∪N+1。重复此过程。然后，在第一层中重复此过程，其中在第i层，使用更新的N生成候选集合，但操作数来自包括所有较低层k , <,=}。实体和算术关系Ra = T ∪ I ∪ V，比较关系Rc = �。重复C a = {(r1, o, r2) | r1,r2 ∈ N, r1 ≠ r2, o ∈ Oa} - N，C c = {(r1, o, r2) | r1, r2 ∈ N, r1 ≠ r2, o ∈ Oc} -Rc。Ra = R a ∪ R + a; Rc = Rc ∪ R + c，直到R + a = �，返回Ra ∪ Rc。0算法1详细描述了这个过程。我们通过图5的示例演示了这个过程。底部显示了输入句子。每一层，底部一行包括当前的实体和关系，上面的方框是候选项。每一列（在虚线矩形中）包含两个操作数之间的所有运算符（为了简洁起见，我们只画了“-”运算符的箭头）。黑色箭头连接关系与其左操作数，红色箭头连接右操作数。正面候选项用绿色突出显示。绿色方框的虚线箭头表示这些节点将在更高的层次中用作操作数。由于没有算术候选项是正面的，该过程在第3层之后终止，因此不能再生成更多的候选项。在我们的工作中，predict函数是一个由三个模块组成的神经网络（图6）：嵌入模块，Bi-LSTM模块和DAG模块。在水平方向上，嵌入模块将单词嵌入到高维稠密向量中，Bi-LSTM模块向每个单词提供其上下文。在垂直方向上0第3层0第2层0第1层0在2012年，应纳税款占总负债的20%。0r1 @ r2 @ 20%0÷=<>0c3 ÷0×0÷=<>0×0÷=<>0×0×0÷=<>0×0÷=<>0×02012年应纳税款总负债0c1 @ c2 @0r1 @ r2 @ 20% r3 ÷0÷=<>0×0÷=<>0×0÷=<>0×0÷=<>0×0÷=<>0×0÷0×0图5：IRE的框架，通过示例进行说明。0DAG-LSTM模块0x0x0i0x0tanh x0o0嵌入模块0Bi-LSTM模块0图6：我们的迭代关系抽取模型。左侧为概述，右侧为DAG-LSTM单元的详细信息。0方向，DAG-LSTM模块从叶子到根逐步提取关系。这三个模块一起进行训练，它们的参数同时更新。具体细节如下所述。03.2 嵌入模块和Bi-LSTM模块0嵌入模块包含一个查找表，将句子中的每个标记映射到一个分布式表示：(e_1, e_2, ..., e_n) = E(w_1, w_2, ...,w_n)。由于每个e_i都是相互独立的，我们将它们输入到一个Bi-LSTM网络中将它们连接在一起。对于每个w_i，Bi-LSTM将前向和后向单向LSTM的隐藏状态连接起来作为它的隐藏状态h_i。我们可以假设h_i包含了w_i的长期和短期上下文信息[9,22]，这使得下一步，即从每个标记的隐藏状态开始增长DAG结构，成为可能。0Track: Industry WWW 2018, April 23-27, 2018, Lyon, France(3)180003.3 DAG-LSTM模块0在本文中，我们只考虑一种类型的有向无环图结构——有序二叉有向无环图。它可以扩展到其他类型的有向无环图[25]。我们通过前馈过程引入了这个模块，用于在句子中预测公式。关键思想是逐层迭代地预测，这已经在算法1中讨论过。现在我们专注于有向无环图计算部分。运算符嵌入。运算符是关系的一个非常重要的组成部分。例如，两个收入之间的除法关系可能会与分数或百分比进行比较，但不应与某笔金额进行比较。相反，如果你只知道两个收入之间有关系，那么这个信息是模糊的。由于实体是由隐藏状态表示的，我们使用一个特殊的嵌入矩阵E_o将每个运算符o嵌入到一个分布式表示中o_t =E_o(o)。E_o将在训练过程中与其他参数同时更新。DAG-LSTM单元。在迭代生成和分类的过程中，对于每个候选项，我们希望将该候选项的所有信息嵌入到一个隐藏状态中。然后可以使用隐藏状态进行分类，或者作为该候选项的表示，用于其他候选项的操作数。因此，我们使用操作数的隐藏状态和运算符的嵌入来计算候选项的隐藏状态。而LSTM非常适合这项工作。一个关系候选项r_t = (l, o,r)的输入包括左操作数的隐藏状态h_l，右操作数的隐藏状态h_r，以及运算符的嵌入o_t。以下方程计算r_t的隐藏状态：0i_t = σ(W_i o_t + U_i [h_l, h_r] + b_i)0f_rt = σ(W_rf o_t + U_rf [h_l, h_r] +0f_lt = σ(W_lf o_t + U_lf [h_l, h_r] +0o_t = σ(W_o o_t + U_o [h_l, h_r] + b_o)0ˆc_t = tanh(W_c o_t + U_c [h_l, h_r] + b_c)0c_t = f_rt ⊙ c_r + f_lt ⊙ c_l + i_t ⊙ ˆc_t h_t= tanh(c_t) ⊙ o_t0其中σ表示逻辑函数，⊙表示逐元素乘法，W、U和b是权重矩阵和偏置向量，下标i、f、o、c表示不同的参数。通常我们将i_t、f_t和o_t称为输入门、遗忘门和输出门。0这个计算继承了顺序LSTM的精神，使用记忆单元和门来传递长期信息。不同之处在于我们为左子节点和右子节点分别使用了两个独立的遗忘门[25,29]。为了进行分类，我们对h_t应用线性变换，然后使用softmax函数进行预测，以确定节点是否为正。我们的方法将运算符的信息融合到输出隐藏向量中，并对所有运算符使用通用的二元分类。这种方法应该能够减轻后续层中的关系提取任务。还有另一种方法，只使用操作数计算隐藏状态，并将该隐藏状态馈送到由o指定的二元分类。我们的方法背后的思想是通过将子节点的信息融合起来来增强计算结果。0为了不需要显式地传递运算符信息，我们允许隐藏状态将运算符信息在DAG结构中传递。跟踪隐藏状态。为了将所有的DAG-LSTM单元放在一起，我们保留一个矩阵H来存储所有节点的隐藏状态。首先，H记录了从Bi-LSTM返回的所有标记的隐藏状态。然后，迭代地，在预测完一层中的所有候选项之后，将正例的隐藏状态附加到H中，并可用于后续的关系。仅保存上一层的隐藏状态是不够的，因为一个关系可以从任何较低的层中获取操作数。通过图5中的示例进行过程。在DAG-LSTM开始时，我们有H =[h1（In），h2（2012），h4（，），h5（taxpayables），h6（constitutes），h7（20%），h8（of），h9（total liabilities），h10（.）]。在第1层，生成了两个候选项c1：（taxpayables，@，2012），c2：（totalliabilities，@，2012）。对于第一个候选项，使用h5，h2，Eo（@）作为输入，计算隐藏状态并分类。对于第二个候选项，进行相同的过程。假设我们将它们预测为正例。然后我们将h11（对于c1），h12（对于c2）附加到H中。在第2层，生成了许多候选项，但它们的操作数是r1（第1层中的c1），r2（第1层中的c2）和20%。我们分别从H中获取它们的隐藏向量h11，h12，h7，并计算候选项的隐藏向量并分类。假设只有c3：（r1，÷，r2）是正例。我们将其隐藏向量h13附加到H中。在第3层，所需的所有隐藏向量都是h11，h7，h12，h13。只有c4：（20%，=，r3）是正例。我们将其隐藏向量h14附加到H中。由于没有算术关系是正例，过程结束。04 训练和加速 4.1 数据准备和损失函数0在训练过程中，我们有地面实况数据：公式的DAG结构。这些是DAG中的正节点。其他可能的关系候选项是负节点。如果我们训练一个能够正确预测所有候选节点的模型，我们可以确保模型能够正确提取句子中的所有公式。因此，这些正负节点足以训练一个可靠的预测模型。损失函数被定义为整体交叉熵。假设我们拥有的所有句子是S。每个句子si都有一个包含DAG中正负关系候选项的候选集Ci。Ci包含ni个候选项：ci1，...，cin。它们的标签是y i1，y i2，...，yini，以及从模型中作为正例的概率p(ci1)，p(ci2)，...，p(cini)。那么损失函数为：0L = - �0si ∈ S0cij ∈ Ci yij log(p(cij)) + (1 - yij) log(1 -p(cij))04.2 加速比0训练速度慢是我们的模型等复杂输入结构的神经网络发展的瓶颈。特别是，当前的实现一次只计算一个示例，这对于GPU计算非常不适合[5]。我们提出了在一句话中按层并行计算和在句子之间并行计算的方法，如图7所示。一句话可能有成千上万个关系候选项。一个关系或实体的计算隐藏状态可能是输入的一部分0Track: Industry WWW 2018, 2018年4月23日至27日，法国里昂13111214212231321121121311 1221223132111221141311 1221 2231 3211 12211413111221223132111221140100200a) number of words101102103104050100150b) number of relations10010110210310402040c) number of formulas100101102103104020004000d) number of candidates1001011021031040510e) number of layers100101102103104@ = ÷ < - > ր + ցf) operators10310410518010句子1句子20句子1句子20按层并行0句子10句子20无并行0按顺序计算0按层和批次并行0输入数据0句子1 句子20图7：并行化方法。0在训练过程中，我们将同一句子中的所有候选项视为一个示例，并在一次计算中计算它们。同一层中的所有候选项共享来自较低层的相同隐藏状态，如图5所示。因此，可以并行计算一层候选项。按层和批量并行计算。大多数Theano或Torch中的tree-LSTM的当前实现都必须一次计算一个示例[4]。除了一次计算同一句子中同一层的所有候选项外，我们还可以并行计算批量中所有句子中同一层的所有候选项。05 实验 5.1 数据和设置0我们收集了数以万计的带有标签的句子数据集。由于理解金融文本需要领域知识，我们训练了几个人来构建这个数据集。为了减少标注错误，每个句子由三个人标注。图8给出了我们数据集的一些统计信息。a)到e)显示了句子的单词数、关系数、公式数、候选数和层数的分布。大多数句子有20-40个单词，少于50个关系，少于10个公式，多达数百个候选和2到5个层。但是有些句子有超过200个单词，数百个关系和数千个候选。子图f)描述了每个运算符的关系数量。“@”、“=”和“÷”是最常见的运算符，“+”、“>”比它们罕见十倍。运算符非常不平衡。候选数和关系数之间的差异也表明了正负样本之间的不平衡。模型是用Theano[26]实现的。我们只保留3500个最常见的标记，其余的用特殊的UNKNOWN标记表示。我们还为每种类型的实体（时间、值和指标）分配了一个特殊的标记。词嵌入大小为128。Bi-LSTM将每个标记的隐藏状态大小加倍。关系的隐藏大小也为256。我们使用Adadelta[27]作为优化器。批量大小为16。04 https://github.com/stanfordnlp/treelstmhttps://github.com/dasguptar/treelstm.pytorch https://github.com/ofrnachum/tree_rnn0图8：句子和关系的分布。0表1：测试集上的结果（%），包括是否使用运算符嵌入。0关系公式句子0P R F 1 P R F 1 准确率0有 97.78 98.33 98.06 96.53 96.45 96.49 92.02 没有 97.28 97.1797.23 97.17 94.58 95.84 87.880从收集到的数据中，我们发现关于“增长率”的描述很受欢迎。如果我们只使用{+，-，×，÷}，它们需要两个关系。为了减少层数，我们添加了特殊的运算符“�”，a � b = (b - a) /a。类似地，我们为“下降率”添加了“�”。05.2 有效评估0我们以多种方式评估性能。在关系级别上，我们计算精确度（P）、召回率（R）和F1得分（F1）。在公式级别上，我们还报告这些指标，其中精确度定义为（我们正确预测的公式数）/（基本事实中的公式数）。在句子级别上，我们计算准确率，即所有公式都被正确提取的句子的百分比。关系和句子级别的指标与NCC的用户体验更直接相关。为了评估我们模型的效果，我们将其与不将运算符嵌入到隐藏向量中的模型进行比较。这意味着在计算方程式3中的一个关系的隐藏向量时，我们省略了（W ∙ot）项。表1中的评估结果显示，使用运算符嵌入将提高模型的性能，特别是在公式和句子级别。具有运算符嵌入的模型在92.02%的句子上正确预测，这是一个非常有希望的结果。此外，我们还分析了模型在单词数、公式数、关系数等方面的性能，结果显示出类似的模式。图9说明了关系数与句子性能的关系。句子按关系数分组。蓝色实线是不同组的句子级别准确率。红色虚线是测试数据中该组句子的百分比。有一个趋势，即模型在关系更多的句子（长句子）上容易出错。0领域：2018年4月23日至27日，法国里昂的工业WWW01020304050number of relations0.00.20.40.60.81.0accuracyaccuracy0.000.050.100.150

下载后可阅读完整内容，剩余1页未读，立即下载