没有合适的资源?快使用搜索试试~ 我知道了~
260金融领域多类文本分类中预训练语言模型的比较Yusuf ArslanYusuf.uni.lu卢森堡大学卢森堡Cedric Lothritz卢森堡大学卢森堡cedric.uni.lu摘要凯文·阿里克斯卢森堡大学Luxembourgkevin.uni.lu特加文德湾卢森堡比西安德大学卢森堡tegawende.bissyande@uni.luAnneGoujonBGL法国巴黎银行卢森堡anne.goujon@bgl.luACM参考格式:丽莎·维伯卢森堡大学lisa.veiber@uni.lu雅克·克莱因卢森堡大学卢森堡jacques. uni.lu用于语言建模的神经网络已被证明对自然语言处理的几个子任务是有效的然而,训练深度语言模型是耗时且计算密集的。因此,BERT等预先训练的语言模型很有吸引力,因为(1)它们产生了最先进的性能,(2)它们减轻了从业者准备足够资源(时间,硬件和数据)来训练模型的负担。然而,由于预先训练的模型是通用的,它们可能在特定领域表现不佳。 在这项研究中,我们研究了多类文本分类的情况,这是一项在评估预训练语言模型的文献中研究相对较少的任务。我们的工作进一步置于金融领域的行业背景下。因此,我们利用文献中的通用基准数据集和我们在金融技术行业的合作伙伴的两个专有数据集。在强调了通用预训练模型(BERT,DistilBERT,RoBERTa,XLNet,XLM)对部分财务文档数据集进行分类的挑战之后,我们调查了应该利用专门的财务文档预训练模型(如FinBERT)的直觉。尽管如此,我们的实验表明,FinBERT模型,即使有一个适应的词汇表,并没有导致改进相比,通用BERT模型。CCS概念• 应用计算→文本处理。关键词BERT,FinBERT,金融文本分类本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3451375Yusuf Arslan,Kevin Allix,Lisa Veiber,Cedric Lothritz,TegawendéF.毕斯扬德,雅克·克莱因,安妮·古琼. 2021年金融领域多类文本分类的预训练语言模型比较。在2021年网络会议(WWW '21 Companion)的配套程序中,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,New York,NY,USA,9页。https://doi.org/10.1145/3442442.34513751介绍金融机构每天接收、处理、生成和发送相当数量的金融文件,包括但不限于政策说明、财务报表、展望、客户报告。利用这些大量文件的第一步是确保它们的适当分类。然而,在大多数情况下,正如在一些公司的工作流程中所观察到的那样,文件分类仍然是一个主要的手工过程。然而,人工分类是众所周知的容易出错,在工业环境中的应用中具有灾难性的影响:在JP摩根,合同解释错误源于人工处理错误,并导致公司80%的自动文本分类在文献中得到了广泛的研究[3]。 尽管到目前为止,它仍然很少被金融机构采用[25],这可能是由于必须付出大量努力来训练和保持机器学习模型的最新和准确。然而,近年来,预训练语言模型(PLM)为研究和实践社区提供了采用自动化自然语言处理(NLP)技术的突破,即使在有限的时间和计算资源下。PLM更有吸引力,因为它们在许多NLP子任务中产生了最先进的性能[43]。然而,它们在全文档分类任务中的性能还不像其他子任务那样可靠,这使得我们在金融行业的项目合作伙伴不愿意在其高度监管的环境中部署它们。1https://gluebenchmark.com/leaderboard261WWW在线存储库共享大量已发布的PLM。 例如,我们可以在社区模型2下找到5000多个模型。 这些PLM是在各种设置下生成的,尽管其对工业数据集和任务的适用性的信息有限。因此,我们认为,目前需要验证现有的模型,为不同的任务和领域,而不是不断花费资源来构建和发布模型的变种。预训练模型越来越多地成为行业最佳实践的新标准。事实上,在行业中利用预先训练的模型提供了几个好处,包括(1)易于在生产工作流程中集成,(2)快速实现高性能的可能性,即,没有太多的微调迭代,(3)有机会摆脱对用于训练的巨大标记数据集的需求,以及(4)它们在各种用例和任务中的适用性此外,在实践中,从头开始训练深度神经网络通常需要专门的计算架构(例如,张量处理单元(TPU)),并产生显著的成本。事实上,在文献中已经评估了训练基于BERT的模型,对于4个云TPU的4天使用,成本约为7000美元[40]。此外,冗余流程产生的碳足迹仍然存在问题,使用公共云资源处理关键业务也是如此,这可能会增加公司的数据机密性和隐私问题。尽管如此,最近的工作开始制定一些批评的性能PLM上的特定数据集[28,31]。这些实验的一个总结是,PLM应该非常小心地使用,因为它们的性能可能依赖于任务和数据集。因此,重要的是调查现有模型和架构在这些方面的能力,以确定改进方向。在我们与金融技术行业合作伙伴的合作项目中,我们承担了评估几个NLP任务的预训练语言模型的任务在本文中,我们讨论了我们的实验和产生的见解的情况下,文件分类。我们特别评估了利用专用模型与使用在普通文本数据上预先训练的通用模型的价值。据我们所知,这项工作是第一个研究PLM的多类文本分类的金融领域。具体而言,我们解决以下研究问题(RQ):RQ1:通用预训练语言模型在多类文本分类任务中的性能如何? 我们在金融和非金融领域的数据集上进行了实验,以绘制比较基线。RQ2:FinBERT(一种金融领域特定的语言模型)在多类文本分类任务中是否优于金融领域数据集上的通用预训练语言模型?在多类文本分类任务中,词汇在多大程度上影响预训练语言模型的性能?我们将研究词汇表之间的重叠,并探索使用自定义词汇.本文的组织结构如下。第2节概述了一些相关的工作,而第3节提供了一些背景信息2https://huggingface.co/models关于语言模型。我们在第4节介绍了我们的实验设置,在第5节讨论了结果,并列举了一些对有效性的威胁最后,第6节对本文进行了总结。2相关工作在过去的十年中,许多提出的NLP方法利用了神经网络,这些神经网络使用特定于任务的数据和单词嵌入,如word2vec [29]和GloVe [33]。Transformer模型是由Vaswani等人引入的,它消除了递归和卷积,并依赖于[42]. 它导致了NLP领域的范式转变,使得预先训练的深度语言表示模型成为一种常用的自然语言模型。2.1预训练语言模型(PLM)PLM是使用大型数据集训练的语言模型,同时对它们将被用于的特定任务保持不可知性。在实践中,为了利用PLM,最后的输出层必须适应任务:这在文献中被称为微调步骤。OpenAI GPT [34]、BERT [10]、XLNet [47]和XLM [8]都是前预训练模型的示例,可以根据各种NLP任务进行微调。在BERT在11个NLP任务上取得了最先进的成果后,PLM受到了极大的关注[10]。BERT模型和其他PLM的变体可以在在线存储库中找到目前,已有超过5000个模型供市民使用。 这些模型可以大致分类为:a)适应特定任务和/或特定领域,或b)优化,其中目标是改进模型的核心或降低其计算成本。虽然BERT在几个NLP子任务中表现出色,但一些研究人员专注于创建专门适应给定特定领域上下文的PLM,通常是通过在另一个语料库上进行微调或完全重新训练BERT(BERT术语的预训练)。因此,已经提出了生物医学语言[20],科学论文[7],临床笔记[4,14]和金融新闻[6]的方法。与此同时,其他人已经尝试将PLM适应于BERT作者最初没有评估的这样的过程通常只涉及微调BERT,比在另一个语料库上预训练BERT的计算成本要低得多。Adhikari等人[2] 建议微调BERT以产生能够对完整文档进行分类的模型,而Lee和Hsiang[19]则解决了专利分类的问题其他研究集中在优化PLM上,众所周知,这是昂贵的,而且通常很难预先训练。例如,BER-BERT [38]提出了预训练和微调之间的修改权衡,这允许获得更小的模型,更容易训练,同时保留原始BERT模型的大部分性能。另一方面,Liu et al.[24]认为BERT需要更多的训练,并提出了RoBERTa,一个比原始BERT训练时间更长的模型他们的研究表明,RoBERTA通常优于BERT。262[][]金融领域中预训练语言模型的比较WWW2.2PLM的评价和局限性PLM相对较新,一个活跃的研究领域致力于揭示和记录其局限性。尼文和花王[31] 彻底检查BERT在论证推理理解任务中的准确性。 他们表明,BERT在这项任务上的结果可以通过利用数据集中的虚假统计线索来解释。本文声称所有模型在对抗性数据集上都达到了随机精度,并建议将来使用对抗性数据集作为标准McCoy等人[28]研究为什么机器学习系统(包括BERT)在给定的测试集上表现良好。 他们发现BERT(和其他模型)的性能可能无法推广到其他语料库。 Schick和Schütze [39]表明,语言模型可能很难处理罕见的单词,尽管它们是在大量数据上训练的。此外,他们还表明,单词的频率在语言模型理解中非常重要可以得出结论,对于语言模型来说,具有大量独特单词的数据集可能非常具有挑战性。Sun等人[41]对BERT进行了详细的实验,并提出了几种技术来改善文本分类任务的结果Yu等人[50]提出了一种基于BERT的文本分类模型,以利用更多的任务特定知识,在多分类任务上取得更好的结果。 Yeung [49]将法律领域词汇插入BERT,报告没有改进,并通过词汇之间的高度重叠来解释他们的发现。Elwany等人[11]在大型法律语料库上调查BERT,并在法律领域进行微调后报告改进情况。Li等人[22]研究用于生物医学和临床领域的实体标准化任务的基于BERT的模型。 该研究未检测到生物医学和临床领域之间的统计显著性,并得出结论,如果模型的领域接近,则模型上的领域效应在统计上不显著,而领域效应在遥远的领域上变得更加明显。Peng等人[32] 对BERT及其在生物医学和临床领域的变化进行了实证研究,并表明微调模型优于最先进的Transformer模型。与此相关的工作一样,我们的论文旨在为现有PLM经验评估的不断增长的文献做出2.3文本分类文本分类是自然语言处理中的经典任务之一 已经提出了许多方法来解决这个任务,包括但不限于使用朴素贝叶斯[12,16,27,36,52],支持向量机[35],随机森林[46],分层注意力网络[48]和卷积神经网络[15,18]。基于文本大小,文本分类任务可以有四个粒度级别,分别是文档级别、段落级别、句子级别和子句子级别[17]。另一个重要方面是分类的类型,因为分类可以是二元的(即,文本是否是组的成员),多类(即,几个可能类别中的仅一个),或多标签(即, 每个输入可以与几个类相关联)。多类文本分类是本文研究的重点,已有多篇文献对多类文本分类进行了研究。这是本文使用的数据集之一Damaschk等人[9]检查包含带有噪声示例的不平衡类的数据集上的多类分类。他们的结论是,进一步的数据预处理,如去除噪声的例子和设置不平衡的类,改善了结果。Anne等人[5]将专利文档分类为多类,并通过从训练数据集中删除未分类的文件并注入合成数据以减少数据不平衡来改善结果。Lim[23]研究了用于特定领域法律文档的多类文本分类的各种机器学习方法;该研究面临的重要挑战之一是缺乏标记数据,这是特定领域研究中的问题之总的来说,虽然文本分类已经研究了各种方法,文献是有限的,在工作方面,调查使用PLM的特定任务的文本分类。3背景PLM是一个复杂的系统,它们在内部工作和使用上都与以前的方法有很大的不同在本节中,我们将介绍几个关键概念,这些概念是理解PLM 3实验的基础。我们关注最突出的PLM BERT,但所有基于BERT的方法都使用相同的概念。为了获得高性能的PLM,Devlin et al.[10]结合了各种构建块,所有这些都可能有助于BERT改进以前的方法。3.1文本表示在输入任何机器学习算法之前,文本数据必须以合适的形式呈现 BERT将其文本输入通过三个层,将输入的每个标记转换为矢量表示。首先,对输入文本进行标记化,并在每个输入的开头和结尾添加特殊的CLS和SEP标记。然后,令牌被传递到嵌入层,并使用WordPiece [45]执行令牌化以生成包含所有英语字符的词汇表,以及在训练语料库中找到的最常见的单词和子单词。 该层将每个令牌转换为768维矢量表示。BERT进一步处理文本以考虑位置信息,并使神经网络与BERT训练方法兼容(下面讨论)。3.2预训练BERT通过第一阶段的训练(称为预训练)构建其语言模型。这种预训练是在“掩蔽语言建模”(MLM)和“下一句预测”(NSP)这两个任务上执行的。 在MLM阶段,BERT方法随机掩蔽(即,替换)每个输入中的某些单词,然后尝试预测被屏蔽单词的原始值在NSP阶段,模型被输入成对的句子作为输入。其目的是正确地预测第二个句子对是下面的句子在原始文件中,或无关。BERT NSP训练阶段使用来自原始文档的50%的输入对,而剩余对的第二个句子从原始文档中随机选择。Li和Vogel[21]通过使用子类信息,并在20News数据集上展示他们的结果,3我们这里的描述过于简化。有兴趣的读者可以参考[10]。263WWWDevlin等人的见解[10]MLM训练会教BERT建模单词之间的关系,而NSP会让BERT学习句子之间的关系,这两个训练任务相互补充,以建立一个任务不可知的语言模型,该模型知道单词之间和句子之间的3.3微调在预训练之后,BERT还不能用于标准的NLP任务。相反,它必须通过微调阶段来适应手头的任务在实践中,这种微调将训练神经网络的最后几层,以利用语言模型(在神经网络的其他层中捕获)来执行任务。通常,BERT的用户只需要执行这个微调阶段,这需要比完整的预训练少几个数量级的计算能力。3.4词汇PLM对不同的领域和任务具有很强的适应性其灵活性的原因之一是 它们 通 过使 用 子词 标 记 化方 法 来解 决 词汇 问 题 BERT 以WordPiece [45]标记的形式提取子词标记 每个输入的单词被分割,直到它匹配BERT的Word-Piece词汇表中的一个标记. BERT词汇表包含30522个单词和子词,通过使用BERT语料库中字符序列的频率构建[30]。 这种方法可能会在金融、法律和科学等利基领域存在缺点,因为这个领域有大量独特的单词。针对特定领域的几项研究通过采用在特定领域数据集上构建的自定义词汇表来解决这一缺点。然而,在这些研究的结果之间,对于使用自定义词汇表所取得的改善没有达成共识[7,49]。4实验装置在本节中,我们将描述PLM、它们的参数以及我们用来调查研究问题的数据集4.1预训练语言模型的复制在我们的实验中,我们使用HuggingFace如第3节所述,所有PLM都需要微调以适应手头的任务因此,我们对所有PLM进行了微调,使其可以用于多类文本分类。在我们所有的实验中,我们使用相同的参数进行微调:训练批次大小为16,评估批次大小为16,最大值为16。mum序列长度为128,adam学习率为4 e-5。我们也执行我们的实验为1,3,和5微调时期。根据Devlin等人的说法,这些价值观是“在所有任务中都能很好地工作”的价值观之一[10]第10段。4https://github.com/huggingface/transformers4.2评价的其他方法除了原来的BERT,我们的工作比较了其他几个PLM的性能在这里,我们简要介绍这些方法。DistilBERT[38]是BERT的“更小、更快、更便宜、更轻”(蒸馏)版本。它比BERT快60%,将BERT模型的大小减少了40%,同时保持了97%的语言理解能力。RoBERTa[24]是通过重新评估和修改BERT的设计决策而设计的。 RoBERTa通过比BERT更长的预训练时间、更大的批量大小、修改MLM预训练以及跳过NSP预训练阶段来提高BERT的性能。XLNet[47]使用广义自回归预训练方法,而不是BERT的基于自动编码器的预训练XLNet在一组20个NLP任务上的表现优于BERT,包括文本分类。XLM[8]是专门针对两个任务而修改的BERT,即跨语言分类和机器翻译。XLM使用字节对编码(BPE)代替单词或字符编码,以增加语言之间的共享词汇。它用双语输入训练BERT学习跨语言上下文。 它进一步将预训练的BERT与模型嵌入的翻译结合起来,以改进反向翻译。FinBERT5 [6]是一个基于BERT的PLM,专用于金融领域。它带来了额外的预训练,通过使用汤森路透文本研究集合的子集,使BERT在金融领域专业化[37]。TRC2-financial包含46143个文档和大约40万个句子。FinBERT还通过使用金融短语库微调其金融情绪分类模型[26]。我们在多类分类实验中使用了FinBERT,因为FinBERT是专门针对我们感兴趣的领域4.3数据集在这项研究中,我们在四个数据集上进行了实验 20News和BBC数据集已经被NLP研究社区使用和使用。BBC数据来自BBC新闻[13]。它包括2225篇文章,这些文章被标记在五个类别之一,即:商业,娱乐,政治,体育或技术。训练集包含1490篇新闻文章,测试集包含735篇文章。20News数据集是18846个新闻组文档的集合,其中有20个在线类[1]。在这项研究中,我们收集了两个数据集(在此命名为专有-1和专有-2)。 这两个数据集来自两个不同的欧洲金融机构,它们管理着大量的债务和基金证券。 这些专有数据集包含与这些证券相关的公开和机密文本文件,因此不能公开。这两个专有数据集是金融机构在进行数据提取等进一步处理之前需要分类的典型文档流入的真实提取 我们注意到,从内部业务角度和监管角度来看,无论是手动还是自动,都非常强调文档处理管道的正确性。5FinBERT可以在https://github.com/ProsusAI/finBERT上找到。264金融领域中预训练语言模型的比较WWW事实上,金融机构必须依法在为安全起见发出监管文件如果不这样做,可能会导致重大的业务影响,再加上当地金融监管机构的潜在罚款;屡次违规甚至可能导致失去在金融市场上经营的许可证Proprietary-1数据集包含22323个金融文档,分为11个类别。文档类别和每个类别中的文档数量见表1。文件编号 文档类72年度财务报表1808基础招股书11 332最终条款462上市详情2750其他181登记文件599证券票据2606系列招股说明书105独立111总结2297补充表1:专有-1数据集Proprietary-2数据集有6个类和1135个文档。 文档类别和每个类别中的文档数量见表2。文件编号 文档类120其他第三方文件148登记文件259集体承诺54证券票据290基本计划说明书264股招股说明书表2:专有-2数据集我们注意到,虽然专有1和专有2的文件都是为了充分描述证券的事件和生命周期,但它们没有完全重叠的类别,也没有相同数量的类别。这是因为监管文件类型是由国家金融监管机构定义的,而我们获得数据集的两家金融机构在不同的国家运营。我们的数据集总结见表3。5结果和讨论在本节中,我们将首先回答我们在引言中提出的三个研究问题(RQ)。第1节)。然后,我们讨论了与我们的研究相关的有效性威胁。5.1研究问题的答案RQ1:通用预训练语言模型在多类文本分类任务为了绘制比较基线,我们应用了前面介绍的5个通用PLM(即,BERT、DistilBERT、RoBERTa、XLM和XLNet)在第4.3节中给出的四个数据集上进行了比较。 我们记得20 News和BBC都包含非财务文件,而Proprietary-1和Proprietary-2只包含财务文件。表4显示了使用10倍交叉验证实验性应用5种PLM时获得的精确度、召回率和F1评分测量(表中分别标记为P、R和F1)。在最初的BERT论文[10]中,作者根据经验验证了在基于BERT的实验中应该使用的时期数量。他们已经表明,结果在5个时期后没有改善之后,表4中列出了1、3和5个时期的评分。在BBC数据集上,RoBERTA在三个时期内获得了最好的精度,重新调用和F1得分性能得分非常高,每个指标均为0.99。RoBERTA在四个数据集上表现最好然而,其他方法非常接近,通常达到RoBERTa的性能水平。2019 - 02 - 2000: 00:00BERT , 其 他 方 法 的 性 能 与 RoBERTa 一 样 好 , 并 且 在Proprietary-1数据集上,所有方法的性能相同。在两个最小的数据集BBC和Proprietary-2上,通用PLM表现非常好,F1得分分别为0.99和0.97,而在两个最大的数据集20 News和Proprietary-1(比小数据集大10倍)上,性能下降。特别值得注意的是,在Proprietary-1数据集上,所有方法的性能都明显低于其他数据集。进一步的调查显示,在专有1数据集的11类文档中,三类特定的财务文档导致性能低下,这表明它们可能难以用于通用PLM。RQ1回答:虽然5种通用PLM在应用于给定数据集的性能通常非常接近,但RoBERTa的性能最好。通用PLM的性能(非常)高,除了在最大的财务文档数据集上,我们可以看到性能下降(F1分数小于0.90RQ2:FinBERT在金融领域的多类文本分类任务中是否优于通用的预训练根据我们在RQ 1中的实验,结果表明,财务文档的特定数据集可能无法用通用PLM正确分类。因此,我们继续研究使用金融领域特定语言模型来提高金融数据集分类分数的可能性为此,我们将FinBERT(一种特定于领域的语言模型,在金融数据上进行了进一步的预训练和微调)与RoBERTa(在之前的实验中获得了最佳结果)进行了比较。 表5列出了一个、三个和五个时期的结果。再次使用十重交叉验证计算精确度,召回率和F1分数。正如预期的那样,在非金融数据集(BBC和20 News)上,Fin-BERT的表现并不比RoBERTa好然而,相反,我们预计FinBERT在专有1和专有2金融数据集上的表现都优于RoBERTa。如表5 所示,情况并非如此。事实上,FinBERT 最多达到与RoBERTA相同的性能水平。265WWW#类#文档#句子#单词#独特的词avg. #单词BBC5222539 697472 48323 43521220新闻2018 846307 9533 234 347213 673171专利-11122 33312 825 637306 833 891 2 897 64213 745专利-2611351 198 37130 129 324578 23426 545TRC 2-财务-46 143400K29M--金融短语库3-484563 88310 44513FiQA[-1,1]-117412 12244599表3:数据集统计时代135数据集模型PRF1PRF1PRF1BBC伯特0.970.970.970.970.970.970.970.970.97DistilBERT0.970.970.970.970.970.970.980.980.98罗伯塔0.980.980.980.990.990.990.980.980.98XLM0.890.880.880.970.970.970.970.970.97XLNet0.970.970.970.980.980.980.980.980.9820新闻伯特0.850.850.850.920.920.920.930.930.93DistilBERT0.820.820.820.900.900.900.910.910.91罗伯塔0.840.840.840.920.910.910.930.930.93XLM0.890.890.890.920.920.920.930.930.93XLNet0.850.850.850.910.910.910.930.930.93专利-1伯特0.860.880.870.880.890.880.880.890.88DistilBERT0.860.880.870.880.890.880.880.890.88罗伯塔0.830.860.830.880.890.880.870.880.87XLM0.810.840.810.880.890.880.830.860.83XLNet0.830.860.820.880.890.880.880.890.88专利-2伯特0.700.810.740.950.950.950.960.960.95DistilBERT0.720.840.780.960.960.960.970.960.96罗伯塔0.890.890.870.950.950.950.970.970.97XLM0.710.700.700.910.910.910.940.940.93XLNet0.910.900.890.940.940.930.970.960.96表4:金融和非金融数据集的结果粗体显示的是每个数据集的最佳结果时代135数据集模型PRF1PRF1PRF1BBC罗伯塔0.980.980.980.990.990.990.980.980.98芬伯特0.960.960.960.970.960.960.960.960.9620新闻罗伯塔0.840.840.840.920.910.910.930.930.93芬伯特0.860.860.860.920.920.920.930.930.93专利-1罗伯塔0.830.860.830.880.890.880.870.880.87芬伯特0.860.880.870.880.890.880.880.890.88专利-2罗伯塔0.890.890.870.950.950.950.970.970.97芬伯特0.740.820.760.960.950.950.970.960.96表5:FinBERT与RoBERTa的比较对这些结果的一个可能的解释是,即使FinBERT已经用金融文本数据进行了预训练和微调,FinBERT中使用的特定文档仍然可能是与专有-1和专有-2中包含的文件显著不同。我们将在下一个RQ中探讨这个假设RQ2回答:在金融文档的多分类的具体任务266金融领域中预训练语言模型的比较WWW时代135数据集模型PRF1PRF1PRF1专利-1芬伯特0.860.880.870.880.890.880.880.890.88FinBERT-定制0.850.870.850.880.880.880.880.890.88专利-2芬伯特0.740.820.760.960.950.950.970.960.96FinBERT-定制0.700.790.740.940.940.940.950.950.95表6:FinBERT与具有定制词汇表的FinBERT的比较是一个专门针对金融领域的预训练模型,并不优于通用的PLM,如RoBERTA。RQ3:在多类文本分类任务中,词汇在多大程度上影响预训练语言模型的先前的工作已经确定,词汇表可以对预训练的语言模型BERT的性能产生影响。例如,SciBERT [7]包含自定义的SciVocab词汇表,在科学论文中取得了比BERT基础模型更好的结果。 尽管SciBERT是从头开始接受生物医学和计算机科学论文的训练,但我们注意到它的自定义词汇表与BERT词汇表只有42%的重叠,这表明自定义词汇表有助于性能的提高。我们建议调查FinBERT的词汇表(与BERT相同)与从我们实验的专有1和专有2数据集提取的文档的实际词汇表之间的重叠在下文中,我们将后者称为我们的自定义词汇6。 我们的自定义词汇表与BERT词汇表的重叠率为15%,甚至低于SciBERT的重叠率。这一发现表明,可能需要改变FinBERT的词汇表,以实现最初预期的BERT基础模型的改进性能。因此,我们使用了自定义词汇7与鳍-BERT模型。表6描述了使用FinBERT-custom获得的性能(即,FinBERT与我们的自定义词汇)对FinBERT的性能(即,BERTvocab)。 我们注意到,虽然词汇表之间的小重叠表明自定义词汇表可以带来一些性能改进,但结果并不符合这一预期。这些结果表明,PLM的性能不能简单地通过调整词汇来提高。相反,从头开始的完整预训练可能是必要的,以实际利用自定义词汇表以及训练数据集的特殊性RQ3回答:在预训练的FinBERT模型上使用自定义词汇表似乎不足以产生比BERT通用词汇表更高的性能,用于金融文档的分类任务5.2有效性的威胁我们的实证研究带来了一些威胁的有效性,我们试图减轻。首先,我们在PLM应用中提供的一般性见解可能无法推广到特定任务之外6自定义词汇表是由SentencePiece在Proprietary-1和专有-2。SentencePiece可在https://github.com/google/7相应地,我们调整了FinBERT模型的大小,以适应我们的词汇量。全文多分类。然而,这是这项研究的重点。其次,构成我们数据集的财务文件完全来自我们的行业合作伙伴,因此可能非常具体。然而,这个数据集的规模很大,并且与来自世界各地的客户的真实交易相关联。不幸的是,在这一点上,我们不能分享这些专有文件,由于法律的限制。最后,我们研究了FinBERT作为专门化预训练BERT模型的最新方法虽然它还没有被认为是一个国家的艺术在文献中,这是最相关的工作,我们已经发现在文献中,和直觉背后的再培训出现相关的我们的调查。6结论在这项研究中,我们研究了金融领域的多类文本分类任务。 我们评估了几种通用PLM在公共通用数据集以及真实世界财务文档的专有数据集上的性能。然后,我们评估了FinBERT的附加值,这是一个为金融领域量身定制的PLM然而,我们发现FinBERT在我们的财务文档分类任务上无法获得比通用PLM更高的性能。我们研究了自定义词汇表是否可以提高FinBERT的性能。 我们的实验表明它没有。总的来说,虽然我们在专有2数据集上获得的性能足够高,可以考虑集成到金融机构致谢这 项工 作得 到了 卢森 堡国 家研 究基 金(FNR )项目ExLiFT(13778825)的支持。引用[1] 20News. 2008. 20News. http://qwone.com/~jason/20Newsgroups/ 的 网 站 。在线; 2021年1月访问。[2] Ashutosh Adhikari , Achyudh Ram , Raphael Tang 和 Jimmy Lin 。 2019 年 。DocBERT:文档分类的BERT。CoRRabs/1904.08398(2019)。[3] Charu C Aggarwal和ChengXiang Zhai。2012年。 文本分类算法综述。在挖掘文本数据中。Springer,163[4] Emily Alsentzer,John Murphy,William Boag,Wei-Hung Weng,Di Jindi,TristanNaumann,and Matthew McDermott. 2019.公开的临床BERT嵌入。第二届临床自然语言处理工作坊会议论文集。计算语言学协会,明尼阿波利斯,明尼苏达州,美国,72-78。https://doi.org/10.18653/v1/W19-1909[5] Chaitanya Anne,Avdesh Mishra,Tamjidul Hoque,and Shengru Tu. 2018.多类专利文献分类。 第内特尔Research 7(2018),1-14.[6] Dogu Araci2019年。FinBERT:使用预训练语言模型进行金融情绪分析arXiv预印本arXiv:1908.10063(2019)。267WWW[7] 伊兹·贝尔塔吉,凯尔·罗,还有阿曼·科汉2019年。SciBERT:科学文本的预训练语言模型 在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP)的会议记录中。3606-3611[8] 亚历克西斯·康诺和纪尧姆·兰普尔。2019年。跨语言语言模型预训练。神经信息处理系统进展。7057-7067[9] Matthias Damaschk,Tillmann Dönicke,and Florian Lux.2019年。基于不平衡、稀疏和噪声数据的多类文本分类 在第一届NLPL研讨会上,深度学习用于自然语言处理。林雪平大学 电子出版 社, 图尔库, 芬兰 ,58-65。https://www.aclweb.org/anthology/W19-6207[10] Jacob Devlin,Ming-Wei Chang,Wendon Lee,and Kristina Toutanova.2019年。BERT:Deep Bidirectional Transformers for Language Understanding的预训练。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷。4171[11] Emad Elwany,Dave Moore,和Gaurav Oberoi.2019年。 BERT去法学院:量化在合同理解中获得大型法律公司的竞争优势。CoRRabs/1911.00473(2019)。arXiv:1911.00473http://arxiv.org/abs/1911.00473[12] Eibe Frank和Remco R.布卡特2006年。用于不平衡类文本分类的朴素贝叶斯数据库中的知识 发现 :PKDD 2006 , Jo-hannes Fürnkranz,Tobias Scheffer和Myra Spiliopoulou(编辑)。 Springer Berlin Heidelberg,柏林,海德堡,503-510.[13] 德里克·格林和帕德瑞格·坎宁安2006.核文档聚类中对角优势问题的实用解决方案。 第23届机器学习国际会议论文集。377-384.[14] Kexin Huang,Jaan Altosaar,and Rajesh Ranganath. 2019. Clinicalbert:临床笔记建模和再入院预测 arXiv预印本arXiv:1904.05342(2019)。[15] 阿隆·贾科维,奥伦·萨尔·沙洛姆,约阿夫·戈德堡。2018年 理解用于文本分类的卷积神经网络。2018EMNLP研讨会论文集BlackboxNLP:分析和解释NLP的神 经 网 络 。 计 算 语 言 学 协 会 , 布 鲁 塞 尔 , 比 利 时 ,56https://doi.org/10.18653/v1/W18-5408[16] Sang-Bum Kim , King-Soo Han , Hae-Chang Rim , and Sung-HyonMyaeng.2006. 一些有效的朴素贝叶斯文本分类技术 知识与数据工程,IEEETransactions on 18(12 2006),1457-1466。http://doi.org/10.1109/TKDE.2006.180[17] Kamran Kowsari , Kiana Jafari Meimandi , Mojtaba Heidarysafa , SanjanaMendu,Laura Barnes和Donald Brown。2019年。文本分类算法:一个调查。Information 10,4(2019),150.[18] 赖四维,徐立恒,刘康,赵军。2015年。用于文本分类的递归卷积神经网络。 在第二十九届AAAI人工智能会议上。[19] 李杰生和杰祥。2019. PatentBERT:专利分类与微调
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功