金融领域低资源数据提取的挑战和解决方法

12 浏览量更新于2023-12-04 收藏 497KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DEXTER -低资源数据集尼哈尔五世放大图片创作者：J.饶Stride.AI，Bengalu{nihal.nayak，pratheek，sagar} @ stride.ai摘要提取关键信息（如命名实体、关键短语和数字）对于若干银行和金融流程至关重要银行和金融机构采用自动化工具来减少这些流程所需的人力。训练系统从文本中可靠有效地提取关键数据点需要大量的标记数据集。然而，金融领域公开可用的数据集具有有限的标记数据。在我们的论文中，我们解决的问题，在开发一个低资源数据集的数据提取系统我们使用双向长短期记忆（Bi-LSTM）模型进行实验，该模型在低资源数据集上运行良好。我们引入了一个新的特定领域的Bi-LSTM层，它允许我们将特定领域的知识添加到神经架构中。我们观察到，来自域外数据集的迁移学习提高了几个提取任务的准确性。我们创建了三个新的低资源金融数据集，并证明我们的模型在这些数据集上始终达到了高度的准确性。此外，我们的模型在金融NER数据集上的表现优于报告的最新结果，并达到F1，87.48. 我们的实验一致表明，迁移学习与特定领域的知识工程相结合，提高了实体识别在低资源设置。介绍金融机构处理大量的合同、报告、申请表等形式的文档。这些文档本质上是高度非结构化的文本。处理此类文档涉及提取关键信息（实体、合同条款、关键短语、数字等）。传统上，公司依靠业务专家来获取这些信息，这是非常耗时的.然而，最近的趋势表明，正在使用专门的工具和算法来从文档中提取关键数据点，以增加和减少人力。构建一个从非结构化文本文档中提取数据点的系统提出了几个挑战，特别是在金融领域。一是文风差异明显版权归作者所有。以.马丁，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。与新闻文章、博客等相比因为其次，任何类型的金融文本数据集的定义都需要领域专家对数据进行标记。注释的过程是昂贵和繁琐的。最后，金融机构不愿意分享他们的数据，因为这会引起一些隐私问题。因此，这些限制限制了该领域的研究以下句子摘自一份财务文件--本贷款协议（本协议）由以下各方于2014年11一家根据特拉华州法律成立的公司（美国借款人），一家在英格兰和威尔士注册的股份有限公司（英国借款人，与美国借款人统称为借款人）和Endo Pharmaceuticals Inc.，根据特拉华州法律成立的公司。1从该样本中，我们可能希望提取日期（和实际上，提取数据的简单方法很少。其中之一是将逻辑学和开箱即用的NER工具相结合。我们可以使用正则表达式来提取日期和协议名称。我们可以使用 spaCy2 或CoreNLP（Manning et al. 2014）来提取公司名称。我们观察到这种方法不可扩展，并且需要大量的工作来仔细制作启发式规则，以捕获不同类型文档中的所有关键数据点因此，我们的动机是开发一个领域特定的数据点提取和实体识别系统，即使在非常少的标记数据。我们把从非结构化文本中抽取数据点的问题看作是一个序列标记问题，并利用了命名实体识别（NER）和序列标记研究中的技术。最近在净入学率研究方面的努力，1贷款协议-https://goo.gl/8djHXe2spaCy -https://spacy.io基于神经架构（Chiu and Nichols 2016;Lampleet al. 2016;Dernoncourt，Lee，and Szolovits 2017 a）. 这些神经方法需要大量的训练数据。因此，我们的动机是为低资源数据集开发技术。研究表明，迁移学习技术可以在有限的标记训练数据下提高模型的整体性能。迁移学习是一种技术，其中使用神经架构训练大型数据集（源数据集），并使用学习的参数来初始化目标模型的权重。在我们的工作中，我们使用双向长短期记忆（Bi-LSTM）架构进行了实验，该架构在低资源数据集上运行良好。我们还开发了一种新的机制，引入特定领域的知识的神经架构。此外，我们还证明了从预训练模型进行迁移学习可以提高模型的性能我们在4个金融数据集上的实验，包括三个低资源数据集-托管人，资产管理人和杠杆率，证实了我们的架构在低资源条件下工作良好。本文的主要贡献是-将领域知识引入网络低资源场景我们的论文组织如下。首先，我们讨论了最近在序列标记、低资源深度学习和金融方面的工作。其次，我们描述了数据集和用于创建我们实验中使用的3个数据集的方法。然后，我们描述了我们的实验中使用的神经结构。接下来，我们详细介绍我们的实验和结果。我们进行了一个消融研究，以了解网络中的每一层的影响，有和没有转移学习。最后，我们总结了我们的工作和潜在的未来工作的讨论文件相关作品传统上，像NER和词性标记这样的序列标记问题使用最大熵模型和手工特征（ Mikheev ， Moens 和Grover1999;Bender，Och和Ney 2003）。神经网络在NER中的应用得到了推广（Collobert et al. 2011）。从那时起，用于识别命名实体的神经架构进行了几次改进（Yadav和Bethard 2018）。大多数有竞争力的NER系统在单词和字符嵌入上使用双向长短期记忆（Bi-LSTM），这非常类似于Lample et al. 2016年）。（Lample et al. 2016）将单词嵌入与单词字符上的Bi-LSTM连接起来。然后，他们将这些嵌入通过句子级别的Bi-LSTM和条件随机场（CRF）层来生成标签。（Dernoncourt，Lee和Szolovits 2017 b）实现这些网络可以在大型数据集上进行训练，然后针对目标数据集进行微调。最近在迁移学习方面的努力在NLP任务中取得了积极的成果（Mouet al. 2016;YoungLee，Dernoncourt，and Szolovits 2017;Newman-Griffisand Zirikly2018）。（Mou et al. 2016）对NLP中神经网络他们的研究结果表明，在源数据集上训练的词嵌入可转移到语义不同的任务中。（YoungLee、Dernoncourt和Szolovits，2017）使用trans-fer学习技术对电子健康记录（EHR）中的受保护健康信息（PHI）进行去识别。他们在两个数据集上训练序列标记模型-i2 b2 2014和i2 b2 2016。他们成功地证明了从域外模型传输参数的性能优于最先进的结果。他们分析的一个关键发现是，从预训练模型的较低层传输参数几乎与从整个网络传输参数一样有效我们在金融数据提取方面的工作与（Alvarado，Verspoor和Baldwin 2015）密切相关。在他们的实验中，他们使用条件随机场（CRF）和手动选择功能。他们在域外数据集上训练他们的模型（Tjong Kim Sang和De Meulder 2003），并在目标数据集上执行域适应。他们的结果表明，仅使用小的域内数据集进行训练比使用大的域外数据集和小的域内数据集进行训练更好。数据我们在实验中使用了五个数据集。为了训练域外模型3，我们使用CoNLL 2003英语数据集（TjongKim Sang和De Meulder 2003）。我们在实验中使用以下金融数据集-（1）金融NER数据集（Alvarado，Verspoor和Baldwin 2015）（2）Cus- todian（3）Asset Manager（4）杠杆率。金融NER数据集是一个开源的命名实体数据集。托管人、资产管理人和杠杆率是内部数据集。我们将在下一节中提供有关这些数据集的详细描述。金融NER数据集（Alvarado，Verspoor和Baldwin 2015）通过注释美国证券交易委员会（SEC）文件公开的金融协议来创建他们的他们总共记录了8份文件，包括位置、组织、人员和杂项。托管人、资产管理人和杠杆率为了在野外测试我们的模型，我们收集了互联网上公开的共同基金招股说明书文件。这些文件的大小相当大（从80页到300页不等），并且没有可供启发式系统使用的可辨别模式。这些文件是从个别基金公司在他们的软件中有一个类似的架构-NeuroNER。我们从（Lample et al. 2016）和（Dernon-court，Lee和Szolovits 2017 b）中汲取灵感，用于我们的模型架构。3该模型将被互换地称为域外模型和预训练模型。··数据集火车验证测试实体令牌句子令牌句子令牌句子2003年全国劳动力清单2036211404151362325046435345323499财务净入学率410151164--132493031164托管人16201574172657224858166资产管理公司22833672240771283573165杠杆率4414140--155147125表1：数据集描述。表格显示了每个数据集中用于训练、验证和测试集的标记和句子的数量。实体列指示列车集中存在的实体数量。（前。贝莱德 4 ）或投资研究服务（例如Morningstar5）。从这些文件中，我们确定了一些关键数据点，如托管人，资产管理人，杠杆率等，这些数据点与处理此类文件的组织有关。我们的任务是从源文档中检索的候选句子中为每个数据点提取正确的实体。为了创建托管人、资产管理者和杠杆率的数据集，我们使用专有工具来识别PDF的部分，如目录、章节标题、关键字等，并定位到数据点可能存在的近似感兴趣区域。然后，领域专家手动注释所有候选句子，以识别正确的数据点。在表1中，我们描述了本文中使用的所有数据集模型架构我们提出的模型使用两个Bi-LSTM层-字符和单词以及特定于域的Bi-LSTM层。首先，我们有一个字符嵌入层，它穿过一个字符 Bi-LSTM 层。然后，字符 Bi-LSTM层的输出与单词嵌入连接。我们还将特定领域层的输出我们使用GloVe词嵌入（Pennington，Socher和Manning 2014）。连接的单词嵌入通过单词Bi-LSTM层传递。该层的输出被传递到投影层，然后是条件随机场（CRF）层以生成输出。我们的模型如图1所示。特定领域知识工程我们观察到，正确命名的实体通常伴随着数据集特定的关键字。考虑以下来自Asset Manager数据集的示例-自2002年1月1日起，该基金由Fideu-ram GingdomS.A.管理。(the管理公司），一家卢森堡公司，由Banca FideuramS.p.A.（Intesa Sanpaolo Group）。6从上面的句子中，我们观察到正确的命名实体是“Fideuram Gandhi S.A.”。并伴随着关键字4贝莱德-https://goo.gl/bs3vU35晨星-https://www.morningstar.com/6Fideuram Fund -https://goo.gl/UDQqiA图1：我们模型资产管理器的已知同义词。数据点As- set Manager有几个其他关键字，如投资顾问，投资经理等。这些关键字对于托管人，杠杆率和财务NER是不同的。为了将这些领域知识引入到我们的神经网络中，我们将这些信息编码为嵌入并将其传递到Bi-LSTM层。Bi-LSTM网络的输出与单词嵌入连接在一起。迁移学习我们的迁移学习方法类似于（Young Lee，Dernoncourt和Szolovits 2017）遵循的方法，其中我们将不同层的参数从建筑类型托管人资产管理公司财务净入学率验证测试验证测试测试基线85.1177.5575.8666.6784.14域θ86.9680.7777.7875.0084.73词θ87.5088.8980.7058.6285.48字符θ86.9685.1180.0067.8684.36投影θ88.8977.7875.8662.9683.33词θ+字符θ86.9691.6781.9773.6887.48词θ+字θ+域θ89.3685.7171.8877.1985.35词θ+字θ+域θ+投影θ86.9689.3678.6974.0782.96表2：各种架构的托管人、资产管理人和金融NER数据集的结果。列表示所有架构的F1分数。建筑类型F1基线90.11域θ95.65表3：各种架构的杠杆率数据集的结果。将预训练的模型转换为目标模型。我们传递字符嵌入和词嵌入的参数如果我们不执行迁移学习，我们随机初始化字符嵌入和特定于域的嵌入，并对单词使用GloVe嵌入。实验装置在我们的研究中，我们通过从域外模型中传输各个层的参数进行实验。Baseline模型仅在域内数据集（仅Custo-dian或Asset Manager或Leverage Ratio或FinancialNER数据集）上进行训练。我们使用1中描述的相同架构训练模型，但没有特定于域的功能。对于预训练的模型，我们训练一个基线模型CoNLL 2003英语数据集（Tjong Kim Sang和De Meulder2003）。我们在CoNLL 2003测试集上获得了89.30的F1。我们实验中的所有结果都是通过从这个预训练模型中转移参数来获得的。在我们的实验中，我们转移了以下几层-(1)字嵌入（字θ）（2）字符嵌入（字符θ）（3）投影层（投影θ）。我们还激活了网络中的特定领域功能。（域θ）。结果我们在表2中描述了托管人，资产管理人和金融NER数据集的结果。可以观察到，性能最好的模型已经从单词和字符嵌入中转移了参数，并为Custodian和AssetManager数据集转移了特定于域的特征。从表2中可以明显看出，我们的神经架构在没有迁移学习的情况下，在金融NER数据集7上的表现优于报告的最新结果。7（Alvarado，Verspoor和Baldwin 2015）报告F1为82.7我们的最佳性能模型在金融NER数据集上实现了87.48的F1，该数据集使用了转移的单词和字符嵌入。表3中的结果表明，特定于领域的层增强了模型我们观察到，在所有数据集中，特定领域的特征都比基线F1有所改善然而，在Financial NER数据集的情况下，我们注意到，当单词和字符嵌入层被转移了这一观察结果与（ Young Lee 、 Dernoncourt 和Szolovits2017）中提到的发现一致，其中大多数较低层有助于模型的最大改进。但是，我们发现，包括最后一层或任务相关层的性能下降。结论对于我们未来的工作，我们希望将我们的单词嵌入与ELMo嵌入（Peters et al. 2018）和BERT嵌入（Devlin etal. 2018）结合起来。我们打算introduce文档级Meta数据，如PDF布局和本地元信息，如粗体，下划线和斜体在域特定层。我们的工作可以扩展到临床文本，注释数据是非常昂贵的。我们的工作与多任务学习（MTL）密切相关最近的工作在低资源场景中的序列标记问题的多任务学习中显示出了希望（Peng和Dredze 2017;Lin et al.2018年）。总之，我们展示了一个用于低资源数据集的Bi-LSTM架构。我们的实验一致表明，迁移学习与特定领域的知识工程相结合，提高了在低资源设置的实体识别确认我们要感谢我们的匿名评论者，感谢他们对改进我们工作的有益反馈。我们要感谢Arjun Rao对本文进行内部审查。最后，我们感谢Stride.AI团队在研究中提供的宝贵意见。附录示例在本节中，我们展示了数据集中的一些示例。参见表4、5和6引用[Alvarado，Verspoor，and Baldwin 2015] Alvarado，J. C.S.的; Verspoor，K.; Baldwin，T. 2015.支持信用风险评估的命名实体识别的域适应。在澳大利亚语言技术协会研讨会2015年的会议记录中，84[Bender，Och ，and Ney 2003] Bender，O.;哦，F。J.道：和Ney，H. 2003.命名实体识别的最大熵模型。在西达勒曼，Osborne，M.编辑，第七届自然语言学习会议在HLT-NAACL 2003，148[Chiu和Nichols 2016] Chiu，J.，和Nichols，E. 2016.基于双向lstm-cnn的命名实体识别。计算语言学协会学报4：357-370。[Collobert等人，2011年] Collobert，R.; Weston，J.;博图湖 ; Karlen ， M.; Kavukcuoglu ， K.; and Kuksa ， P. P.2011.自然语言处理（几乎）从零开始。Journal ofMachine Learning Research12：2493-2537.[Dernoncourt，Lee和Szolovits 2017 a] Dernoncourt，F.;Lee，J. Y.; Szolovits，P. 2017 a. NeuroNER：一个基于神经网络的命名实体识别的易用程序。自然语言处理经验方法会议（EMNLP）[Dernoncourt，Lee和Szolovits 2017 b] Dernoncourt，F.;Lee，J. Y.; Szolovits，P. 2017 b. Neuroner：一个简单易用的基于神经网络的命名实体识别程序。在2017年自然语言处理中的EM-pesticide方法会议论文集：系统演示，97-102。计算语言学协会。[Devlin et al. 2018] Devlin，J.;张，M.- W的;李，K.;和Toutanova，K.2018年Bert：深度双向转换器的预训练，arXiv预印本arXiv：1810.04805。[Lample et al. 2016] Lample ， G.; Ballesteros ， M.;Subramanian，S.; Kawakami，K.;和Dyer，C. 2016.命名实体识别的神经结构。在2016年计算语言学协会北美分会会议论文集：人类语言技术，260-270。加利福尼亚州圣地亚哥：计算语言学协会。[Lin等2018] Lin，Y.; Yang，S.; Stoyanov，V.; Ji，H.2018.一种用于低资源序列标记的多语言多任务架构。在计算语言学协会第56届年会（ACL 2018）上。[Manning et al. 2014] Manning，C. D.的; Surdeanu，M.;鲍尔，J.; Finkel，J.; Bethard，S. J.道：和McClosky，D.2014.斯坦福CoreNLP自然语言处理工具包。在计算语言学（ACL）系统演示协会，55[Mikheev ， Moens ， and Grover 1999] Mikheev ， A.;Moens，M.;和Grover，C. 1999.没有地名录的命名实体识别在EACL。[Mou等人2016] Mou，L.;孟，Z.;扬河;Li，G.;徐，Y.;张，L.;Jin，Z.2016年。神经网络在自然语言处理应用中的可移植性如何2016年自然语言处理经验方法会议集，479-489。奥斯汀，得克萨斯州：计算语言学协会。[Newman-Griffis和Zirikly 2018] Newman-Griffis，D.，和Zirikly，A. 2018.低资源医疗命名实体识别的嵌入传输：患者移动性案例研究。在BioNLP 2018研讨会的会议记录中，1-11。墨尔本，澳大利亚：计算语言学协会。[Peng和Dredze 2017] Peng，N.，Dredze，M. 2017.序列标记的多任务域适应。在第二届NLP会上，91温哥华，加拿大：计算语言学协会[Pennington ， Socher 和 Manning 2014] Pennington ， J.;Socher，R.; Manning，C. 2014. Glove：单词表示的全局向量。在 2014 年自然语言处理经验方法会议（EMNLP）的会议记录中，1532-1543。计算语言学协会[Peters et al. 2018] Peters ， M. E. 的 ; Neumann ， M.;Iyyer ， M.; Gardner ， M.; 克拉克， C.; 李， K.; 和Zettlemoyer，L. 2018.深层语境化的词表征。在NAACL的程序中。[Tjong Kim Sang和De Meulder 2003] Tjong Kim Sang，E. F.、和De Meulder，F. 2003. conll-2003共享任务介绍：独立于数据库的命名实体识别。在西达勒曼，Osborne，M.编辑，HLT-NAACL 2003年第七届自然语言学习会议的主持人，142[Yadav和Bethard 2018] Yadav，V.，和Bethard，S. 2018.深度学习模型命名实体识别的最新进展第27届国际计算语言学会议论文集，2145- 2158。圣达菲，新墨西哥州，美国：计算语言学协会。[Young Lee，Dernoncourt和Szolovits 2017] Young Lee，J.; Dernoncourt，F.;和Szolovits，P.2017年。基于神经网络的命名实体识别迁移例如实体解释ICAV已委任RBC投资者服务部Bank S.A.担任ICAV所有投资、现金和其他资产的托管人，并确保ICAV发行和回购股份以及计算资产净值和每股资产净值所有收入和投资均符合公司注册文件和UCITS法规。RBC投资者服务Bank S.A托管人是RBC Investor Services银行S. A，在句子中被称为存管人。虽然ICAV和UCITS是组织，他们不是托管人。表4：来自保管人数据集的示例。例如实体解释在加入德意志银行之前，曾在卢森堡的Dexia-BIL，DexiaFund Services担任基金税务项目经理两年，并担任DWS InvestmentS.A.的高级基金经理。（现为卢森堡管理公司）(10)年DWS Investment S.A.DWS Investment S.A.是管理公司或资产管理公司，因为短语“现在的管理公司”。的原因德意志银行不是资产管理人是因为这句话没有提到它是否是资产管理人。表5：来自Asset Manager数据集的示例。例如实体解释在正常的市场条件下，杠杆水平预期为基金资产净值的200%至800%，其中杠杆是根据委员会授权规例所载的“总额法”，使用外国直接投资头寸名义金额的绝对值总和计算百分之二百，百分之八百该示例表明，预期杠杆或杠杆比率在200%至800%之间。系统应该选择表6：杠杆率数据集的示例。

下载后可阅读完整内容，剩余1页未读，立即下载