DEXTER：低资源数据集的数据抽取实体识别

115 浏览量更新于2023-09-05 收藏 500KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

DEXTER -低资源数据集尼哈尔五世放大图片创作者：J.饶Stride.AI，班加罗尔{nihal.nayak，pratheek，sagar} @ stride.ai摘要提取关键信息（如命名实体、关键短语和数字）对于若干银行和金融流程至关重要银行和金融机构采用自动化工具来减少这些过程所需的人力。训练系统从文本中可靠有效地提取关键数据点需要大型标记数据集。然而，金融领域公开可用的数据集具有有限的标记数据。在我们的论文中，我们解决的问题，在开发一个低资源数据集的数据提取系统我们使用双向长短期记忆（Bi-LSTM）模型进行实验，该模型在低资源数据集上运行良好。我们引入了一种新的特定于领域的Bi-LSTM层，它允许我们将特定于领域的知识添加到神经架构中。我们观察到，来自域外数据集的迁移学习提高了几个提取任务的准确性。我们创建了三个新的低资源金融数据集，并证明我们的模型在这些数据集上始终达到了高度的准确性。此外，我们的模型在金融NER数据集上的表现优于报告的最新结果，并达到了F187.48. 我们的实验一致表明，迁移学习与特定领域的知识工程相结合，提高了实体识别在低资源设置。介绍金融机构处理大量的合同、报告、申请表等形式的文件。这些文档本质上是高度非结构化的和文本的。处理此类文档涉及关键信息（实体、合同条款、关键短语、数字等）的提取。传统上，公司依靠业务专家来获取这些信息，这是非常耗时的.然而，最近的趋势表明，正在使用专门的工具和算法来从文档中提取关键数据点，以增加和减少人力。构建从非结构化文本文档中提取数据点的系统提出了若干挑战，特别是在金融领域。一是文风差异明显版权归作者所有。以. Martin，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），AAAI 2019春季研讨会将机器学习与知识工程相结合斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。与新闻文章、博客等相比作为其次，开发任何类型的金融文本数据集都需要领域专家对数据进行标记。注释的过程是昂贵且麻烦的。最后，金融机构不愿分享他们的数据，因为这会引发一些隐私问题。因此，这些限制限制了该领域的研究以下句子摘自财务文件-本贷款协议（本协议）由以下各方于2014年11根据美国特拉华州法律注册成立的公司 Bor-rower）、Auxilium UK LTD（一间于英格兰及威尔士注册之股份有限私人公司）（英国借款人及（统称为美国借款人））及Auxilium UK LTD（一间于英格兰及威尔士注册之股份有限私人公司）。借款人、借款人）和Endo PharmaceuticalsInc.根据特拉华州法律成立的公司（贷方）。1从该样本中，我们可能希望提取日期（和在实践中，有几个简单的方法来提取数据。其中之一是启发式和开箱即用的NER工具的组合。我们可以使用正则表达式来提取日期和协议名称。我们可以使用spaCy 2或CoreNLP（Manning et al. 2014年，公司更名为。我们观察到，这种方法是不可扩展的，并且需要大量的工作来仔细地制定启发式规则，以捕获不同类型文档中的所有关键数据点因此，我们的动机是开发一个领域特定的数据点提取和实体识别系统，即使是在很少的标记数据。我们把从非结构化文本中提取数据点的问题看作是一个序列标记问题，并利用了命名实体识别（NER）和序列标记研究中的技术。最近的努力，在NER研究已fo-1贷款协议-https://goo.gl/8djHXe2spaCy -https://spacy.iocusedonneuralarchitectures （ ChiuandNichols2016;Lampleet al. 2016; Dernoncourt，Lee，and Szolovits2017a）. 这些神经方法需要大量的训练数据。因此，我们的动机是开发低资源数据集的技术。研究表明，迁移学习技术提高了模型的整体性能时，有标记的训练数据有限。迁移学习是一种技术，其中使用神经架构训练大型数据集（源数据集），并且使用学习的参数来初始化目标模型的权重。在我们的工作中，我们使用双向长短期记忆（Bi-LSTM）架构进行了实验，该架构在低资源数据集上运行良好。我们还开发了一种新的机制，引入特定领域的知识的神经架构。此外，我们还证明了从预训练模型中进行迁移学习可以提高模型的性能我们在4个金融数据集上的实验，包括三个低资源数据集-托管人，资产管理人和杠杆率，证实了我们的架构在低资源条件下工作得很好。本文的主要贡献是-将领域知识引入网络低资源场景我们的论文组织如下。首先，我们讨论了最近在序列标记、低资源深度学习和金融方面的工作。其次，我们描述了数据集和用于创建我们实验中使用的3个数据集的方法。然后，我们描述了在我们的实验中使用的神经架构。接下来，我们详细介绍我们的实验和结果。我们进行了一个消融研究，以了解网络中的每一层的影响，有和没有转移学习。最后，我们总结了我们的工作和潜在的未来工作的讨论文件相关工作传统上，像NER和词性标记这样的序列标记问题使用最大熵模型和手工制作的特征（Mikheev，Moens和Grover1999;Bender，Och和Ney 2003）。用于NER的神经网络的使用由（Collobert et al. 2011）。从那时起，用于识别命名实体的神经架构有了一些改进（Yadav和Bethard 2018）。大多数有竞争力的NER系统在单词和字符嵌入上使用双向长短期存储器（Bi-LSTM），其非常类似于（Lample et al. 2016）。（Lample et al. 2016）在单词的字符上用Bi-LSTM连接单词嵌入。然后，它们将这些嵌入通过句子级别的Bi-LSTM 和条件随机场（ CRF ）层来生成标签。（Dernoncourt，Lee和Szolovits 2017b）实现这些网络可以在大型数据集上进行训练，然后针对目标数据集进行微调。最近在迁移学习方面的努力在NLP 任务中取得了积极的成果（ Mouet al. 2016;YoungLee，Dernoncourt，and Szolovits 2017;Newman-Griffis and Zirikly2018）。（Mou et al. 2016）对NLP中神经网络他们的研究结果表明，在源数据集上训练的词嵌入可转移到语义不同的任务中。（YoungLee、Dernoncourt和Szolovits 2017）使用转移学习技术对电子健康记录（EHR）中的受保护健康信息（PHI）进行去识别。他们在两个数据集上训练序列标记模型-i2 b2 2014和i2 b2 2016。他们成功地证明了从域外模型传递参数优于最先进的结果。他们分析的一个关键发现是，从预训练模型的较低层传输参数几乎与从整个网络传输参数一样有效我们在金融数据提取方面的工作与（Alvarado，Verspoor和Baldwin 2015）密切相关。在他们的实验中，他们使用条件随机场（CRF）和手动选择功能。他们在域外数据集上训练他们的模型（Tjong Kim Sang和De Meulder 2003），并在目标数据集上执行域适应。他们的结果表明，仅使用小的域内数据集进行训练比使用大的域外数据集和小的域内数据集进行训练更好。数据我们在实验中使用了五个数据集。为了训练域外模型3，我们使用CoNLL 2003英语数据集（TjongKim Sang和De Meulder 2003）。我们在实验中使用以下金融数据集-（1）金融NER数据集（Alvarado，Verspoor和Baldwin 2015）（2）Cus- todian（3）Asset Manager（4）杠杆率。金融NER数据集是一个开源的命名实体数据集。托管人、资产管理人和杠杆率是内部数据集。我们将在下一节中提供有关这些数据集的详细描述。金融NER数据集（Alvarado，Verspoor和Baldwin 2015）通过注释美国证券交易委员会（SEC）文件公开的金融协议来创建他们的他们总共记录了8份文件，包括位置、组织、人员和杂项。托管人、资产管理人和杠杆率为了在野外测试我们的模型，我们收集了互联网上公开的共同基金招股说明书文件。这些文档的大小相当大（从80到300页不等），并且没有可由启发式系统使用的可辨别的模式。这些文件是从各个基金公司在他们的软件NeuroNER中有一个类似的架构我们从（Lample et al. 2016）和（Dernon-court，Lee和Szolovits 2017 b）用于我们的模型架构。3该模型将可互换地称为域外模型和预训练模型。··数据集火车验证测试实体令牌句子令牌句子令牌句子CoNLL 20032036211404151362325046435345323499财务净入学率410151164--132493031164托管人16201574172657224858166资产管理公司22833672240771283573165杠杆率4414140--155147125表1：数据集的描述。表指示了每个数据集中用于训练、验证和测试集的标记和句子的数量。实体列指示列车集中存在的实体的数量。（ Ex. BlackRock4 ）或投资研究服务（例如Morningstar5）。从这些文件中，我们确定了一些关键数据点，如托管人，资产管理人，杠杆率等。其与处理这些文档的组织相关。我们的任务是从源文档中检索到的候选句子中为每个数据点提取正确的实体。为了创建托管人、资产管理者和杠杆率的数据集，我们使用专有工具来识别PDF的部分，例如目录、章节标题、关键字等。并定位到可能存在数据点的近似感兴趣区域。然后，领域专家手动注释识别正确数据点的所有候选句子。在表1中，我们描述了本文中使用的所有数据集模型架构我们提出的模型使用两个Bi-LSTM层-字符和单词以及特定于域的Bi-LSTM层。首先，我们有一个字符嵌入层，它通过一个字符 Bi-LSTM 层。然后，字符 Bi-LSTM层的输出与单词嵌入连接。我们还将特定领域层的输出我们使用GloVe词嵌入（Pennington，Socher和Manning 2014）。级联的单词嵌入通过单词Bi-LSTM层传递。该层的输出被传递到投影层，然后是条件随机场（CRF）层以生成输出。我们的模型如图1所示。特定领域知识工程我们观察到，正确命名的实体通常伴随着数据集特定的关键字。考虑以下来自Asset Manager数据集的示例-自2002年1月1日起，基金由Fideu-ram Gestions S.A.管理。(the Management Company），一家卢森堡公司，由Banca Fideuram有限公司（Intesa Sanpaolo Group）。六从上面的句子中，我们观察到正确的命名实体是“Fideuram Gestions S.A.”并伴随着关键字4贝莱德-https://goo.gl/bs3vU35晨星-https://www.morningstar.com/6Fideuram基金-https://goo.gl/UDQqiA图1：我们模型资产管理器的已知同义词。数据点As-set Manager有几个其他的关键字，如投资顾问、投资经理等.这些关键字对于托管人、杠杆率和财务NER是不同的。为了将该领域知识引入到我们的神经网络中，我们将该信息编码为嵌入并将其传递到Bi-LSTM层。Bi-LSTM网络的输出与单词嵌入级联。迁移学习我们的迁移学习方法类似于（Young Lee，Dernoncourt和Szolovits 2017）所遵循的方法，其中我们将不同层的参数从建筑类型托管人资产管理公司财务净入学率验证测试验证测试测试基线85.1177.5575.8666.6784.14域θ86.9680.7777.7875.0084.73词θ87.5088.8980.7058.6285.48字符θ86.9685.1180.0067.8684.36投影θ88.8977.7875.8662.9683.33字θ+字θ86.9691.6781.9773.6887.48词θ+字θ+域θ89.3685.7171.8877.1985.35词θ+字θ+域θ+投影θ86.9689.3678.6974.0782.96表2：各种架构的托管人、资产管理人和金融NER数据集的结果。列指示所有架构的F1分数。建筑类型子1基线90.11域θ95.65表3：各种架构的杠杆率数据集的结果。将预训练的模型转换为目标模型。我们传递字符嵌入和词嵌入的参数在我们不执行迁移学习的情况下，我们随机初始化字符嵌入和特定于域的嵌入，并对单词使用GloVe嵌入。实验装置在我们的研究中，我们通过从域外模型传输各个层的参数进行实验。基线模型仅在域内数据集（仅Custo-dian或Asset Manager或Leverage Ratio或Financial NER数据集）上训练。我们使用1中描述的相同架构训练模型，而没有特定于域的特征。对于预训练的模型，我们训练一个基线模型CoNLL 2003英语数据集（Tjong Kim Sang和De Meulder2003）。我们在CoNLL 2003测试集上实现了89.30的F1。我们实验中的所有结果都是通过从这个预训练模型中转移参数来获得的。在我们的实验中，我们转移了以下几层-(1)字嵌入（字θ）（2）字符嵌入（字符θ）（3）投影层（投影θ）。我们还激活了网络中的特定领域功能。（域θ）。结果我们在表2中描述了托管人，资产管理人和金融NER数据集的结果。可以观察到，性能最好的模型已经从单词和字符嵌入中转移了参数，并且还转移了Custodian和Asset Manager数据集的特定于域的特征。从表2中可以明显看出，我们的没有迁移学习的神经架构优于金融NER数据集7上报告的现有技术结果。7（Alvarado，Verspoor和Baldwin 2015）报告F1为82.7我们的最佳性能模型在金融NER数据集上实现了87.48的F1，该数据集使用了转移的单词和字符嵌入。表3中的结果表明特定于域的层增强了模型我们观察到，在所有的数据集中，特定于域的特征都比基线F1有所改善然而，在Financial NER数据集的情况下，我们注意到，执行最佳的系统是当单词和字符嵌入层被转移了该观察结果与（Young Lee、Dernoncourt和Szolovits2017）中提到的发现一致，其中大多数较低层有助于模型的最大改进。但是，我们发现，包括最后一层或任务相关层的性能下降。结论对于我们未来的工作，我们希望将我们的单词嵌入与ELMo 嵌入相结合（ Peters et al. 2018 ）和 BERTEmbeddings（Devlin et al. 2018）。我们打算引入，troduce文档级Meta数据，如PDF布局和本地元信息，如粗体，下划线和斜体在域特定层。我们的工作可以扩展到临床文本，注释数据是非常昂贵的。我们的工作与多任务学习（MTL）密切相关最近的工作在低资源场景中的序列标记问题的多任务学习中显示出了希望（Peng和Dredze 2017; Lin等人2018）。总之，我们展示了一个用于低资源数据集的Bi-LSTM架构。我们的实验一致表明，迁移学习与特定领域的知识工程相结合，提高了实体识别在低资源设置。确认我们要感谢我们的匿名评论者，感谢他们对改进我们工作的有益反馈。我们要感谢Arjun Rao对本文进行内部审查。最后，我们感谢Stride.AI团队在研究中提供的宝贵意见。附录示例在本节中，我们展示了数据集中的一些示例。参见表4、5和6引用[Alvarado，Verspoor，and Baldwin 2015] Alvarado，J.梭S.; Verspoor，K.; Baldwin，T. 2015.支持信用风险评估的命名实体识别的域适应。在澳大利亚语言技术协会研讨会2015年的会议记录中，84[Bender ， Och 和 Ney 2003] Bender ， O.; 哦， F 。 J.; 和Ney，H. 2003.命名实体识别的最大熵模型。在西达勒曼和Osborne，M.，编辑，Pro-ceedings of the SeventhConference on Natural Language Learning at HLT-NAACL 2003，148[Chiu和Nichols 2016] Chiu，J.，和Nichols，E. 2016.基于双向 lstm-cnn 的命名实体识别。 Transactions of theAssociation for Computational Linguistics4：357-370.[Collobert等人2011] Collobert，R.; Weston，J.; Bottou，L. Karlen，M.; Kavukcuoglu，K.;和Kuksa，P. P. 2011.自然语言处理（几乎）从零开始。Journal of MachineLearning Research12：2493-2537.[Dernoncourt ， Lee 和 Szolovits 2017a] Dernoncourt ， F.;Lee，J. Y.;和Szolovits，P. 2017年a。NeuroNER：一个易于使用的程序，用于基于神经网络的命名实体识别。自然语言处理经验方法会议（EMNLP）[Dernoncourt ， Lee 和 Szolovits 2017b] Dernoncourt ， F.;Lee，J. Y.;和Szolovits，P. 2017年b。Neuroner：一个基于神经网络的命名实体识别的易用程序。在2017年自然语言处理中的Em-pestrian方法会议的会议记录中：系统演示，97-102。计算语言学协会。[Devlin等人2018] Devlin，J.; Chang，M.- W.; Lee，K.;和Toutanova，K.2018年。Bert：深度双向转换器的语言理解预训练arXiv预印本arXiv：1810.04805。[Lample 等人 2016] Lample ， G.; Ballesteros ， M.;Subramanian，S.; Kawakami，K.;和Dyer，C. 2016.命名实体识别的神经体系结构。在计算语言学协会北美分会2016年会议论文集中：人类语言技术，260-270。加利福尼亚州圣地亚哥：计算语言学协会。[Lin等2018] Lin，Y.; Yang，S.; Stoyanov，V.; Ji，H.2018.用于低资源序列标记的多语言多任务架构。在计算语言学协会第56届年会（ACL2018）中。[Manning 等人 2014] Manning ， C. D.; Surdeanu ， M.;Bauer，J.; Finkel，J.; Bethard，S. J.;和McClosky，D.2014.斯坦福CoreNLP自然语言处理工具包。在计算语言学（ACL）系统演示协会，55[Mikheev，Moens和Grover 1999] Mikheev，A.; Moens，M.;和Grover，C. 1999.没有地名录的命名实体识别在EACL。[Mou 等人 2016] Mou ， L.;Meng ， Z.;Yan ， R.;Li ，G.;Xu，Y.;Zhang，L.;和Jin，Z.2016年。神经网络在自然语言处理应用中的可转移性如何2016年自然语言处理经验方法会议集，479-489。德克萨斯州奥斯汀：计算机语言学协会。[Newman-Griffis and Zirikly 2018] Newman-Griffis，D.，和Zirikly，A. 2018.用于低资源医疗命名实体识别的嵌入转移：关于患者流动性的案例研究。在BioNLP 2018研讨会的会议记录中，1-11。澳大利亚墨尔本：计算语言学协会。[Peng和Dredze 2017] Peng，N.，和Dredze，M. 2017.序列标记的多任务域适应。第二届NLP会论文集，91温哥华，加拿大：计算语言学协会[Pennington ， Socher 和 Manning 2014] Pennington ， J.;Socher，R.; Manning，C. 2014. Glove：单词表示的全局向量。在 2014 年自然语言处理经验方法会议（EMNLP）的会议记录中，1532-1543。计算语言学协会[Peters等人2018] Peters，M. E.; Neumann，M.; Iyyer，M.; Gardner，M.; Clark，C.; Lee，K.;和Zettlemoyer，L.2018.深层语境化的词表征。在NAACL的程序中。[Tjong Kim Sang and De Meulder 2003] Tjong Kim Sang，大肠F.和De Meulder，F. 2003. conll-2003共享任务简介：语言无关命名实体识别。在西达勒曼和Osborne，M.，编辑，Pro-ceedings of the Seventh Conference onNatural Language Learning at HLT-NAACL 2003，142[Yadav和Bethard 2018] Yadav，V.，和Bethard，S. 2018.基于深度学习模型的命名实体识别的最新进展。第27届国际计算语言学会议论文集，2145- 2158。美国新墨西哥州圣达菲：计算语言学协会。[Young Lee，Dernoncourt和Szolovits 2017] Young Lee，J.; Dernoncourt，F.;和Szolovits，P.2017年。神经网络命名实体识别的迁移例如实体解释ICAV已委任RBC Investor ServicesA银行作为保管人，保管ICAV的所有投资、现金和其他资产，并确保ICAV发行和回购股份以及计算资产净值和每股资产净值所有收入和投资均符合公司注册文件和UCITS法规。RBC投资者服务Bank S.A.托管人为RBC Investor ServicesS.A.银行，在句子中被称为存管人。虽然ICAV和UCITS是组织，他们不是托管人。表4：来自托管人数据集的示例。例如实体解释在加入德意志银行之前，芭芭拉曾在卢森堡的Dexia-BIL，DexiaFund Services担任基金税务项目经理两（2）年，并在DWS InvestmentS.A.担任高级基金经理。（现为卢森堡管理公司）(10)年DWS投资公司DWS投资公司是管理公司或资产管理人，因为短语“现在是管理公司”。的原因德意志银行不是资产管理人是因为句子中没有提到它是否是资产管理人。表5：来自Asset Manager数据集的示例。例如实体解释在正常的市场条件下杠杆水平预期为基金资产净值的200%至800%，其中杠杆是根据委员会授权法规中规定的“总额法”使用FDI头寸名义金额的绝对值总和计算的百分之二百，百分之八百该示例指示预期杠杆或杠杆比率在200%至800%之间。系统应选择表6：来自杠杆比率数据集的示例。

下载后可阅读完整内容，剩余1页未读，立即下载