金融数据的单词表表示方法研究及分类性能评估

30 浏览量更新于2023-11-29 收藏 458KB PDF 举报

金融数据

不平衡分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

307GOAT在FinSim-2任务中：使用定制语料库学习金融数据的单词表示裴玉龙埃因霍温理工大学荷兰埃因霍温y.pei. tue.nl摘要在本文中，我们介绍了我们的方法，用于FinSim 2021共享任务学习金融领域的语义相似性FinSim共享任务的目的是自动将金融领域的给定术语列表分类为外部本体中最相关的上位词（或顶级）概念在我们的研究中比较了两种不同的词表征，即，由共享任务和 FinBERT 提供的自定义 word2vec 我们首先从Investopedia的招股说明书和相关文章中创建一个定制的语料库然后，我们使用定制的数据分别与定制的word2vec和FinBERT作为初始化的嵌入来训练特定领域的word2vec嵌入我们的实验结果表明，这些定制的词嵌入可以有效地提高分类性能，并取得更好的结果比直接利用提供的词嵌入。还探讨了给定数据的类不平衡问题。我们实证研究的分类性能，采用几种不同的策略，不平衡的分类，问题。我们的系统在平均准确度和和平均秩度量。CCS概念• 信息系统→聚类和分类;·计算方法学→自然语言处理。关键词词表示，BERT，word2vec，不平衡分类ACM参考格式：裴玉龙和张谦。2021年GOAT在FinSim-2任务中：使用定制语料库学习金融数据的单词表示。在2021年网络会议（WWW '21 Companion）的配套程序中，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。ACM，美国纽约州纽约市，4页。http：//doi.org/10.1145/3442442.34513851引言上位论，即将通用术语或类与其特定实例相关联的能力是人类认知的核心[3]，并且上位概念建模已经在自然语言两位作者都对这项工作作出了同等的本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3451385张倩加拿大多伦多罗杰斯通信zhangqiandut@gmail.comNLP（NLP）几十年来虽然最近的研究已经显示出有希望的结果，特别是基于嵌入的方法[12，13]，但一般语料库的上位概念建模在特定领域（如金融领域）可能无法很好地工作，因为有许多缩写和多义词（例如， ETF和期权），很难在没有上下文的情况下分类。FinSim 2020共享任务[6]是金融领域填补这一空白的第一个上位分类任务。FinSim 2021共享任务继续关注这一问题，在数量和质量方面提供丰富的数据集在本文中，我们介绍了FinSim 2021共享任务的方法，即金融领域语义相似性学习任务[9]。此任务的目的是自动分类到外部本体中的最相关的上位概念的金融术语。FinSim 2020中提交的大多数方法都将hyper-hypernym对视为is-a关系，并将此问题建模为分类问题。考虑到以往研究使用分类模型的有效性嵌入1在捕获文本的语义时，我们遵循前面的研究重点是学习特定领域的表示和探索好的分类器。具体来说，我们利用两种不同的词表示，即，由共享任务和FinBERT提供的自定义word2vec [1]。我们首先从Investopedia2中给定的招股说明书和相关文章创建定制语料库。然后我们训练域-使用具有不同初始化策略的定制数据的特定word2vec嵌入：（ 1 ）使用定制 word2vec 的初始化字嵌入和（ 2 ）使用FinBERT的初始化字嵌入不同的分类器也进行了探索和比较经验。实验结果表明，这些自定义的词嵌入可以有效地提高分类性能，优于直接利用提供的词嵌入。此外，我们还探讨了给定数据的类我们研究的分类性能，采用几种不同的策略，不平衡的分类问题。本文的其余部分组织如下。第2节介绍了我们提出的方法的技术细节第3节实证评估我们的方法的性能第四节简要介绍了上位概念研究的相关成果。最后，我们在第5节结束。2拟议办法我们利用定制的语料库，利用不同的词嵌入词表征学习。几个分类器是[1]我们互换使用嵌入和表示这两个术语2https://www.investopedia.com/WWW裴玉龙和张谦308定制语料库预训练嵌入训练数据测试定制嵌入预测分类器嵌入模型词汇表征学习术语分类图1：我们提出的方法的框架在我们的方法中测试术语分类总体框架如图1所示. 该框架由定制语料库收集、词表征学习和术语分类三部分组成。下面将详细讨论每个组件2.1定制语料库一般的词嵌入是在独立于领域的语料库（如维基百科）上训练的然而，不同的域包含特定的语义。因此，为了学习金融数据的特定领域表示，我们在工作中收集定制的语料库。在实践中，我们从两个来源收集语料第一个是FinSim任务组织者提供的一套英文招股说明书从招股说明书中提取的语料库包含203个文档，大小估计约为1000万个令牌。第二个数据来自Investopedia 。具体来说，我们丰富的定制语料库使用Investopedia的定义和主题。使用预定义的标签（债券，远期，基金，期货，MMI，期权，股票，掉期，股票指数，信用指数）作为关键字，我们从Investopedia搜索相关文章。在返回的文章和解释匹配的关键字，我们选择了1,403篇文章。注意，对于某些查询，例如，MMI，则返回空结果。清理原始文本后，我们获得了大约20万个令牌。这些定制的令牌用于训练特定于域的单词表示。2.2词汇表征学习在该组件中，我们利用两个广泛使用的单词表示，即，word2vec [10]和BERT [5]，用于捕获术语的语义和语法属性。由于NLP研究人员对金融数据的研究，FinSim任务组织者提供了定制的word2vec，FinBERT [1]被提议将BERT应用于金融领域。因此，我们直接使用定制的word2vec和FinBERT来表示单词。2.2.1word2vec. Word2vec [10]是词的密集低维表示，它可以捕获语义和句法字的属性由于word2vec不是一个非常深入的模型，人们可以很容易地在定制数据上对其进行微调。在这个任务中，提供了两个版本的自定义word2vec，维度分别为100和300。在这项工作中，我们微调word2vec使用300维版本的自定义语料库中介绍的第2.1节。word2 vec-100和word 2 vec-300分别用于表示给定的嵌入。word 2 vec-c表示我们在定制语料库上训练的微调嵌入，其中给定word 2 vec-300作为初始化嵌入。2.2.2伯特与word2vec类似，BERT也可以对金融数据进行微调，以学习更好的金融领域表示。然而，由于有限的计算资源，我们离开这个方向作为未来的工作。相反，我们选择使用FinBERT [1]作为本研究的特定领域单词表示FinBERT是一个预训练的语言模型，用于分析金融领域的文本发送。它通过使用包括路透社TRC2数据集3和金融短语库[8]的子集的金融语料库进一步训练金融领域的BERT模型。为了简单起见，我们使用Python Project Index 4提供的FinBERT版本。虽然BERT和FinBERT很难进行微调，但我们提出了一种组合策略，可以利用定制语料库和BERT/FinBERT。具体来说，我们使用FinBERT 来初始化词嵌入，并在自定义语料库上微调word2vec利用了两种不同维度的词嵌入：（1）与原始BERT相同的维度也就是说，768，表示为FinBERT-768，以及（2）压缩维度，即，300，表示为FinBERT-300。2.3分类方法单词表示被用作特征来训练用于术语分类的分类器一个术语由该术语中包含的每个词的词嵌入之和表示。为了找到最好的分类器，我们测试了几种广泛使用的分类方法，包括Logistic3https://trec.nist.gov/data/reuters/reuters.html4https://pypi.org/project/finbert-embedding/GOAT在FinSim-2任务中WWW309300250200150100500标签3.2结果和分析根据第2节中介绍的建议方法，我们提供了两个嵌入，即，word2vec-100和word 2 vec-300以及在定制语料库上训练的三个新嵌入，即，word2vec-c、FinBERT-300和FinBERT-768。我们在这些嵌入上测试了不同的分类器，结果如表1所示。请注意，每个结果是5次运行的平均值，训练/测试比率为50%/50%。从实验研究中，我们发现，复杂的分类器，例如，随机森林和AdaBoost的性能比线性分类器差作为我们提交的系统中的分类器这一观察结果与FinSim 2020共享任务中的发现一致，即模型学习线性边界在该任务中表现更好[6]。另一个结论是，FinBERT-300使用word 2 vec将FinBERT的维数压缩到300实现了最佳性能。图2：训练数据中不同标签的数量回归，线性SVM，决策树，随机森林和AdaBoost。实验研究将在第3节中讨论。2.4数据不平衡此任务中的另一个问题是不同标签的不平衡分布如图2所示，超过50%的术语属于股票指数和信用指数类别。然而，只有1.5%的条款，即，9个项目，属于前瞻类。不平衡数据的分类在机器学习和数据挖掘中得到了广泛的研究[11]。因此，我们提到的不平衡分类问题，并采用一些有代表性的方法来解决这个问题。考虑到小类的数量较少，更适合使用过采样策略。具体来说，我们实证研究了以下过采样方法：随机过采样。它通过替换随机选取样本来对少数类进行过采样SMOTE（合成少数过采样技术）[4]。这是一种过采样方法，通过创建“合成”示例来对少数类进行过采样。ADASYN（使用自适应合成的过采样）[7]。它根据不同的少数民族类别的例子在学习中的困难程度使用加权分布。实验研究将在第3节中介绍。3实验3.1数据描述FinSim共享任务共有613个条目，包含2列数据：术语和标签。共有10个上位词（最初为11个，合并后的Swaps和Swap为一个）。对于测试数据，有212个术语被分类到正确的上位词。股票指数和信用指数等标签是自我解释的，但也有缩写和一词多义（例如， MMI和Future），在没有上下文的情况下难以分类。为了解决这个问题，我们使用外部语料库来学习特定领域的表示。我们使用Investopedia定义和包含10个标签的主题，以及从FinSim组织者提供的招股说明书中提取的1000万个令牌来丰富训练数据。结论与测试数据的评价结果一致，将在第3.3节中讨论。我们还探讨了不同的不平衡分类方法。结果报告于表2中。直观地说，使用不平衡分类器可以减少数据不平衡分布的影响。然而，实证研究表明，这些方法并不能提高分类性能. 一个可能的原因是，尽管对于一些标签，只有有限数量的术语，但这些术语包含要与其他标签区分开的强指示符/模式例如，属于Forward类别的9个术语中有8个包含单词forward。因此，在我们提交的系统中，没有使用不平衡的分类策略3.3提交的系统在我们提交的结果中，我们从Investopedia提供的招股说明书和文章中收集定制语料库。在所有三份提交材料中使用Logistic回归作为分类器。不同之处在于如何初始化词嵌入和表示的维度。最终结果报告于表3中。3.3.1GOAT_1。在本文中，我们使用FinBERT来初始化单词嵌入并训练word2vec模型。表示的维度与FinBERT保持相同，即，768.3.3.2GOAT_2。在这个提交中，我们使用共享任务提供的自定义word2vec来初始化单词嵌入并训练word2vec模型。表示的维度保持与初始化相同，即，三百3.3.3GOAT_3。在本文中，我们使用FinBERT来初始化单词嵌入并训练word2vec模型。表示的维度设置为300。在这三个提交中，第三个GOAT_3表现最好，该提交在平均准确度和平均等级指标上均排名第二4相关工作上位论，即将通用术语或类别与其特定实例相关联的能力是人类认知的核心[3]。因此，近几十年来，自然语言处理中对上位概念建模进行了广泛的研究。这些方法可以分为基于模式的、基于分布式的、基于监督分类的和基于投影的值计数46.7%21.0%8.8%5.9%3.9%3.6%百分之三点一2.8% 2.8%百分之一点五···WWW裴玉龙和张谦310训练数据测试数据方法ACCMRGOAT_10.8951.1890.8871.198GOAT_20.8821.2250.8681.330GOAT_30.9281.1310.8961.193表1：不同单词表示和分类模型对训练数据的结果。ACC是Accuracy的缩写，MR是Mean Rank的缩写。word2vec-100word2vec-300word2vec-cFinBERT-300FinBERT-768分类器ACC先生ACC先生ACC先生ACC先生ACC先生Logistic回归0.8591.2480.8901.1930.8821.2250.9281.1310.8951.189SVM（线性）0.8841.1960.8751.2330.7751.4220.8691.2940.8171.369决策树0.6951.8120.6921.8240.6271.9970.7251.7580.7161.752随机森林0.7571.5170.7651.4860.7161.6440.8241.3560.7521.595AdaBoost0.4862.1770.5731.9800.5202.0260.6111.8920.5462.078表2：不同不平衡分类方法对训练数据的结果word2vec-cFinBERT-300FinBERT-768战略ACC先生ACC先生ACC先生标准0.8821.2250.9281.1310.8951.189随机0.8731.2250.9081.1470.8591.304击杀0.8791.2610.8891.2120.8861.232ADASYN0.8631.2680.8791.1860.8761.252表3：提交培训和测试数据的结果方法[12]。最近的研究探索了用于上位概念建模的嵌入方法[12，13]。对于上位概念建模问题，有一些共同的任务例如，SemEval为上位词建模提供了一系列任务，包括分类提取评估（TExEval）[2]，其旨在找到给定术语之间的上位词-下位词关系，以及上位词发现[3]，其旨在从给定输入术语的目标语料库中检索（或发现）其合适的上位词。在这些任务中，FinSim 2020共享任务[6]是金融领域的第一个上位分类任务5结论在本文中，我们研究了FinSim 2021共享任务学习金融领域语义相似性的问题。我们利用word2vec和FinBERT嵌入来捕获金融领域文本的语义表示。我们从Investopedia收集外部语料，以丰富定制数据，以便更好地进行表征学习。我们还探索了不同的分类器和不平衡分类方法。实验结果表明：（ 1 ）BERT/FinBERT在语义获取上更有效;（2）线性分类器在小规模数据中更适合;（3）不平衡分类方法在该任务中不是有效的。对于未来的研究，可以研究更先进的分类方法，例如基于深度学习的分类器其他数据资源可以用于数据增强，例如Google新闻中的金融文章和维基百科中的金融术语。引用[1] Dogu Araci2019年。Finbert：使用预训练语言模型进行金融情绪分析。arXiv预印本arXiv：1908.10063（2019）。[2] Georgeta Bordea Els Lefever和Paul Buitelaar2016年。Semeval-2016任务13：税收提取评估（ texeval-2）。在第 10 届语义评估国际研讨会（semeval-2016）上。1081-1091.[3] Jose Camacho-Collados ， Claudio Delli Bovi ， Luis Espinosa-Anke ， SergioOramas ， Tommaso Pasini ， Enrico Santus ， Vered Shwartz ， RobertoNavigli，and Horacio Saggion.2018年SemEval-2018任务9：Hypernym发现。在第12届语义评估国际研讨会（SemEval-2018）的会议记录中; 2018年6月5日至6日;新奥尔良，洛杉矶。Stroudsburg（PA）：ACL; 2018.p. 712-24ACL（Association for Computational Linguistics）[4] Nitesh V Chawla ， Kevin W Bowyer ， Lawrence O Hall ， and W PhilipKegelmeyer.2002. SMOTE ：合成少数过采样技术。 Journal of ArtificialIntelligence Research16（2002），321[5] Jacob Devlin，Ming-Wei Chang，Wendon Lee，and Kristina Toutanova.2019年。BERT：Deep Bidirectional Transformers for Language Understanding的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文）。4171-4186.[6] Ismail El Maarouf ， Youness Mansar ， Kristinie Mouilleron ， and DialektiValsamou-Stanislawski. 2021年 finsim 2020共享任务：学习金融领域的语义表示。第二届金融技术与自然语言处理研讨会论文集。81比86[7] Haibo He，Yang Bai，Edwardo A Garcia，and Shutao Li.2008年ADASYN：自适应不平衡学习的综合采样方法2008年IEEE神经网络国际联合会议（IEEE世界计算智能大会）。IEEE，1322[8] Pekka Malo ， Ankur Sinha ， Pekka Korhonen ， Jyrki Wallenius 和 PyryTakala 。 2014. 好债还是坏债：经济文本中的语义取向 Journal of theAssociation for Information Science and Technology65，4（2014），782[9] Youness Mansar，Juyeon Kang，and Ismail El Maarouf.2021年FinSim-2 2021共享任务：学习金融领域的语义相似性。在2021年网络会议（虚拟版）的会议记录。[10] 托马斯·米科洛夫，陈凯，格雷格·科拉多，杰弗里·迪恩。2013.向量空间中单词表示的有效估计。arXiv预印本arXiv：1301.3781（2013）。[11] Yanmin Sun，Andrew KC Wong，and Mohamed S Kamel. 2009.不平衡数据的分类：综述。International Journal of Pattern Recognition and ArtificialIntelligence23，04（2009），687[12] Chengyu Wang和Xiaofeng He。2020. Birre：学习双向残差关系嵌入用于监督式上位检测。在计算语言学协会第58届年会上。3630-3640[13] Zheng Yu，Haixun Wang，Xuemin Lin，and Min Wang. 2015.用于上位词识别的学习词嵌入。第二十四届国际人工智能联合会议。

下载后可阅读完整内容，剩余1页未读，立即下载