金融推文情感分析：基于机器学习模型的情感挖掘及市场情绪预测

99 浏览量更新于2024-01-02 收藏 911KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 3（2023）100171PyFin-sentiment：基于机器学习的模型，用于从金融推文Moritz Wilksch，Olga Abramova地址：Karl-Marx-Straße 67，Potsdam 14482，GermanyaRT i cL e i nf o保留字：情绪分析金融市场情绪意见挖掘机器学习深度学习a b sTR a cT针对通用自动情感分析解决方案在特定领域文本上的糟糕表现，我们收集了一个包含10，000条讨论金融和投资主题的推文的数据集。我们手动分配每个在Twitter上发布市场情绪，即，投资者对股票未来收益的预期。利用这些数据，我们发现由于任务的专门词汇，所有在相邻领域训练的现有情感模型都难以进行准确的市场情感分析。因此，我们设计、训练和部署自己的情感模型。在Twitter帖子上进行评估时，它优于所有以前的模型（VADER，NTUSD-Fin，FinBERT，TwitterRoBERTA）。在来自不同平台的帖子上，我们的模型与基于BERT的大型语言模型表现相当。由于模型的简单设计，我们以一小部分的训练和推理成本实现了这一结果。我们发布该工件作为Python库，以方便未来的研究人员和从业者使用1. 介绍社交网站的出现提供了一个独特的机会，可以利用用户与世界共享的巨大数据流。其中，情感分析（也称为情感人工智能或意见挖掘）意味着从文本中系统地识别和量化情感状态（情感），已被学者和从业者广泛用于跨领域获得可操作的见解，例如，政治传播（Luo& Mu，2022 ），旅游业（ Obembe ， Kolade ， Obembe ， Owoseni ， &Mafimisebi，2021）或健康记录（Chintalapudi，Battineni，Di Canio，Sagaro，&Amenta，2021）。虽然可以使用人类注释器来识别文本中的情感（Luo& Mu，2022），但这种方法的可行性仅限于小规模的研究实验。手动处理速度是无法比拟的实时数据处理应用程序，其中性能是衡量毫秒尺度。虽然有许多自动情感分析解决方案可用，但大多数设计都植根于通用文本，并且在特定领域的任务中失败。这项工作侧重于金融领域，旨在评估现有模型如何识别市场情绪，即，投资者对公司未来股价发展的积极、消极或中性预期。最初，投资者情绪主要是通过基于波动率的指标来衡量的，如芝加哥期权交易所的波动率指数（VIX）和看跌/看涨比率（PCR）（重新查看，请参阅Aggarwal，2019）。然而，随着行为金融的兴起，考虑到决策过程中的人类偏见（Hirshleifer，2015），该领域已经开始认识到零售投资者的情感、情绪和意见也携带有价值的信息。之前的研究表明，从微博平台获得的社会情绪可以帮助预测股市波动（Antweiler& Frank，2004; Audrino，Sigrist，&Ballinari，2020），交易量（ Oliveira ， Cortez ， &Areal ， 2017 ），甚至未来的回报（Ahuja，Rastogi，Choudhuri，&Garg，2015; Mittal &Goel，2012;Ren，Wu，&Liu，2018; Wilksch& Abramova，2022）。所有这些用例都可以从更准确的自动情感分析模型中受益。在这种背景下，这项工作的目标是开发一个新的模型，研究人员和从业人员可以用来挖掘散户投资者我们提出的模型是独一无二的，因为它是针对金融相关的社交媒体帖子领域量身定制的，因此可以处理此类文本中使用的词汇。这使得我们的模型在预测能力和速度方面都优于现有的工件。此外，我们将基于机器学习的模型工件作为易于使用的Python库发布，以促进其在未来研究中的应用。因此，我们填补了现有研究中的一个重要空白，其中公开可用的少数函数模型工件是基于字典或深度学习的。为了实现这一目标，我们制定了四个研究问题（RQ），我们的工作寻求答案。RQ1：我们如何设计一个函数模型工件，可以从与金融相关的社交媒体帖子中提取作者*Correspondent author.电子邮件地址：wilksch@uni-potsdam.de（M. Wilksch），oabramov@uni-potsdam.de（O. Abramova）。https://doi.org/10.1016/j.jjimei.2023.100171接收日期：2022年6月28日;接收日期：2023年2月18日;接受日期：2023年2月26日2667-0968/© 2023作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）目录可在ScienceDirect国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiM. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001712RQ2：与金融相关文本或通用社交媒体帖子领域的现有模型相比，RQ3：一个小型的、特定领域的模型能胜过更通用的LLM吗？RQ4：在Twitter帖子上训练的模型在应用于StockTwits帖子时，性能会发生什么变化？本文件其余部分的结构如下。在相关工作部分，我们调查了有关现有情感分析技术和挑战的文献，并概述了研究中经常使用的现有模型工件。材料和方法部分列出了我们收集和标记数据集的过程，以及设计实验来训练和基准测试机器学习和深度学习模型。我们在结果部分展示了结果，并在讨论中强调了它们的含义。2. 相关工作2.1. 自动情感分析技术以前关于自动情感分析的工作可以归类为使用三种方法之一：基于词典的分析，基于机器学习的模型和深度学习方法。虽然深度学习的学科是机器学习领域的一个子集（Goodfellow，Bengio，Courville，2016），但我们在这项工作中区分了两者。深度学习模型需要至少一个数量级的数据、专用计算资源和设计工作，这使得它们的训练和部署比简单的机器学习模型更昂贵。2.1.1. 基于词典的情感分析基于词典的模型使用人类研究人员赋予情感分数的单词或短语列表。简单的评分方法可能会将单个单词分为积极或消极的，例如LIWC（ Pennebaker ， Francis ， &Booth ， 2001 ）， Harvard GeneralInquirer（Stone& Hunt，1963）或Opinion Observer （Liu，Hu，&Cheng，2005）。其他人则用更复杂的数字尺度对它们进行评级，如ANEW （ Bradley &Lang ， 1999 ）， SentiWordNet （ Baccianella ，Esuli，&Bagtiani，2010）或VADER（Hutto &Gilbert，2014）。文档的情感随后被计算为所有单词得分的总和。这种方法使字典在推理时可解释且计算成本低，但并非没有缺点：字典需要由人类编译，这是耗时的，并且需要关于尺度和评分的决策此外，如果文档中包含的单词很少或根本不包含列表中的单词，那么收集单词列表的严格方法可能会失败。这使得将基于词汇的方法应用于充斥着错别字、俚语和情绪化的社交媒体内容变得不是为这类内容设计的模型通常将文本分类为中性，仅仅是因为缺乏匹配的单词。此外，文档的情感是否应该通过简单地聚合每个词的情感来确定是有问题的。最后，自动化情感分析所带来的典型挑战（见第2.2节）必须手动解决例如，Hutto Gilbert（2014）通过整合一组用于处理否定、标点和大写作为情感程度修饰符的语法来设计VADER。虽然作者不得不投入大量的工作来制作这些算法，但它们使VADER对从事社交媒体内容的研究人员特别有吸引力：Al-Shabi（2020）表明，集成算法使VADER在社交媒体内容方面优于所有竞争对手。2.1.2. 基于机器学习的情感分析与字典不同，机器学习模型可以在大型标记数据语料库上进行训练，使研究人员能够将其留给数学优化算法来评估一个词是否积极或消极地影响情感。虽然创建这样的训练集仍然需要大量的资源和体力劳动，但将情感分析框架为机器学习问题可以直接优化正确的目标。情感分析的大多数应用程序并不关心为每个单词分配单个情感得分相反，分析的单位机器学习技术可以直接优化正确分类尽可能多的文档或句子的目标。这说明了如何在句子或文档级别上聚合基于单词的分数情感分析中最常用的机器学习模型是支持向量机（SVM），朴素贝叶斯分类器，基于树的模型和逻辑回归（RaviRavi，2015）。支持向量机已被证明在为StockTwits上的金融特定职位分配“看涨”或“看跌”标签的二元分类任务中实现了约75%的准确性对于非特定领域的推文的相同两类情感极性分类任务，它们可以获得高达83% 的准确率（ Mishev ， Gjorgjevikj ， Voden-ska ， Chitkushev ，&Trajanov，2020; Tang等人，2014年）。朴素贝叶斯以及基于树的模型在通用文本上表现出类似的性能特征（Mishev等人， 2020年）。2.1.3. 基于深度学习的情感分析在自然语言处理（NLP）领域的其他领域，如问答或自然文本生成，所有流行的模型都基于深度学习。因此，研究人员开始将深度学习应用于情感分析任务，这通常被视为文本分类问题。NLP领域的几乎所有深度学习模型目前都在利用大型语言模型（LLM），这些模型针对特定任务进行了微调。LLM是一种相当大的神经网络，已经在大量数据上进行了训练。通过训练它们完成从周围句子中预测隐藏词等任务，这些模型可以学习自然语言的复杂模式。 LLM （如 “Bidirectional EncoderRepresentationsfromTransformers”（BERT））学习的文本&表示可以由神经网络中的单层使用，以便在各种任务上进行微调（Devlin，Chang，Lee，Toutanova，2018）。对于金融新闻标题的情绪分析，Araci（2019）构建了FinBERT，这是BERT的一个版本，已在多个新闻标题语料库中进行了微调。它优于所有其他基准模型，并在将标题分类为积极，消极或中性时达到86%的准确率。Barbieri，Camacho-Collados，Neves，&Espinosa-Anke（2020）开发了TwitterRoBERTa，RoBERTa的一个版本（Liu等人， 2019年），他们在通用的Twitter发送分析上进行了微调。RoBERTa基于BERT，但改进了提高性能的关键这有助于TwitterRoBERTA在分析推文中的情感方面优于基于SVM和LSTM的基准测试。最近，机器学习和基于深度学习的模型的组合已被证明可以实现对通用社交媒体帖子的情感分析的搜索性能（AlBadani，Shi，Dong，2022）。然而，这些基准测试很少考虑神经网络和LLM的更大延迟、训练和部署成本。2.2. 自动情感分析考虑到情绪和意见的模糊性，分析它们需要解决多种挑战。根据Hussein（2018），最常见的情感分析挑战是否定处理，域依赖，垃圾邮件检测以及缩写或讽刺形式的歧义。否定处理是一个问题，因为一些可能不接近句子中充满感情的部分的词可以完全颠倒它的意思。结合特定领域的词汇表，这甚至很难被人类注释者发现然而，特定领域不仅M. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001713表1按领域划分的情感分析模型概述2017年任务5（Cortis等人，2017）和Fin-SoMe（Chen，Huang，&Chen，2020）。SemEval-2017任务5包含子任务（“子任务1”），其由来自StockTwits和Twitter的2510条标记消息组成。对于每一条消息，三个注释者为提到的每个公司分配一个注释，时间分数在-1和1之间。然后通过一个第四专家虽然它是为基于方面的情感分析而设计的，但它有时用于更简单的极性分类。Chen等人发表的Fin-SoMe数据集。（2020年）包括来自StockTwits的10，000个社交媒体帖子，StockTwits是一个讨论股票投资的社交网络。作者给每一篇帖子贴上了市场情绪的标签。我们的目标是通过提出一个适用于讨论融资和投资主题的社交媒体帖子的情绪分析模型来填补这一研究空白。我们通过收集和标记数据集来实现这一点有一万条微博在讨论这些话题随后，我们设计，训练，并发布一个情绪模型，并将其与Fin进行基准测试-尚未发布模型工件基于深度学习的模型。当它与否定一起出现时就成问题了。不同的词汇、习语、俚语以及不同领域之间对常用词的不同解释Ravi Ravi（2015）概述了解决跨域情感分析挑战的工作，但得出的结论是，这仍然是一个未解决的问题。在从社交媒体平台获得的数据集上，垃圾邮件检测问题需要仔细考虑。社交媒体上的许多帖子都是广告，或者是由自动化机器人创建的，这些机器人多次发布类似的内容。这样的重复不仅会破坏收集到的数据集的质量，而且还会稀释真实人类发布的内容，因为垃圾邮件发送者会尽可能地融入其中删除垃圾邮件是可行的，通过人工检查数据集后开发的统计学，例如通过使用单词列表（Yao Wang，2020）。然而，研究人员必须仔细检查这些方法的精度，以免删除太多信息丰富的人类创建的内容，并接受它们可能无法检测到100%的垃圾邮件帖子。可以说，最大的挑战是处理模糊性和SAR- CASM.使用文本作为交换意见的媒介可能会使这些文体手段难以识别，即使是人类。有些表达需要语调或其他线索来传达它们是讽刺的音符还是严肃的观点。这使得情感分析成为一个即使是人类也可能不一致同意的问题。因此，任何标记的训练数据集中存在的不确定性都会影响到基于该数据构建的任何模型2.3. 可用的情感分析模型和数据集表1概述了文献中最常用的情感分析模型。它将其组织为适用于金融和/或社交网站（SNS）领域除非另有说明，表中列出的很明显，从历史上看，已经为通用的、与社交媒体无关的文本开发了许多模型近年来，文献已经转向应对更难分析的社交媒体帖子。然而，大多数模型不适用于使用特定领域金融词汇的文本。虽然Loughran McDonald（2011）开发了一个基于企业文件的词典，Araci（2019）提出了一个基于商业新闻标题的模型，但当应用于社交媒体上的口语时，他们的模型性能可能会更好。对于金融相关社交媒体帖子的情绪分析的交叉点，Sohangir，Wang，Pomeranets，Khoshgoftaar（2018）列车卷积神经网络在数据上表现良好，没有作为可用的模型工件发布。这使得NTUSD-Fin（Chen，Huang，Chen，2018）成为一个免费的字典。该领域可用的情感分析模型的稀缺性可以部分解释为缺乏可以训练这些模型的数据集。与此任务相关的唯一数据集是SemEval-BERT （ Araci ， 2019 ）， VADER （ Hutto& Gilbert ， 2014 ），TwitterRoBERTA（Barbieri等人，2020）和NTUSD-Fin（Chen等人，2018年）。3. 材料和方法3.1. 数据收集在这项工作中，我们收集了Twitter上投资讨论的帖子数据集为了识别这些讨论，该平台提供了我们利用这些标签来查询Twitter应用程序编程接口（API），以查找讨论公司股票投资想法的帖子为了使结果与以前的文献相比较，我们将只关注英语帖子。因此，我们使用S P500指数作为选择股票代码的起点，以包括在搜索查询中。从那时起，我们对每个股票代码施加了最低活动过滤器：只有当平均每天有超过100条推文提到某个股票代码时，该股票代码才被认为是在Twitter上被积极讨论的。我们施加这个过滤器是因为金融情绪分析只有在应用于较大的数据库时才是一个有价值的工具。当帖子数量少造成将极少数人的意见误认为“公众”情绪的风险时，不应使用这种方法。通过使用活动过滤器，我们确保正在收集的推文是从活跃的讨论中采样的，这使得训练数据更接近于情感模型将在推理时应用的数据为进行过滤，我们于2022年4月收集各标准普尔500指数股票代码每日推文数量的数据。每个股票代码的活动分布是高度倾斜的。排名前20位的股票代码占所有关于标准普尔500指数公司的推文的53.7%。根据2022年4月的数据，56个tickers满足最低活动限制，占推文量的70. 9%。在这56个代码中，我们手动排除了6个代码（AME、OGN、TEL、AMP、KEY、STX），因为虽然它们代表了标准普尔500指数中列出的公司，但它们主要用于在Twitter上引用最终的搜索查询可以在diX A中找到。使用最终搜索查询，我们使用 Twit- ter API 的端点/2/tweets/search/all收集所有tweets我们查询2021年4月1日（00：00：00 UTC）之后和2022年5月1日之前(00：00：00 UTC）。所呈现的查询产生3，757，384个原始结果，这些结果被保存并将进行进一步的过滤和预处理。通过收集一年多一点的推文，我们覆盖了一个完整的3.1.1. 数据采样我们随机抽取了10，000份文档进行标记。我们在选择要标记的子样本之前清理整个数据集这确保了在标签上投入的时间不会被浪费在处理大量本可以自动删除的垃圾邮件帖子上。我们首先从推文中删除所有超链接，因为它们不构成自然语言。这对后续过滤金融专用SNS专用是的没有是的SentiStrengthThelwall，Buckley，Paltoglou，Cai，Kappas（2010），Sohangir等人（2018年）03 The Dog（2011）NTUSD-FinChen等人（2018）03 TheDog（2014）Twitter RoberTa Barbieri et al. （2020年）†没有03 The Dog'sDog（1963）Loughran&McDonald（2011），03 The Dog of theDog（1999）FinBERTAraci（2019）†LIWC Pennebaker et al. （2001年），Opinion Observer Liu et al. （ 2005年），SentiWordNet Baccianella等. （ 2010年）M. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001714表2数据清理阶段的样本量步骤ste之后的p1. 数据收集3,757,384–2.删除重复项3,286,380− 471，0043.过滤器cashtags标签数2,797,620-488，7604.按比例2,774,245-23，3755.删除cryptocurrency职位2,755,824-18，421依赖于单词计数的操作。接下来，我们从数据集中删除所有重复项。有两种类型的重复，我们过滤。首先，我们根据tweet ID过滤重复的内容，以防API返回其次，我们删除了所有重复文本超过5个单词的推文，因为Twitter上的很多内容都是由机器人多次发布相同的推文生成的。我们之所以选择这个阈值，是因为重复的短推文可能是合法的消息（例如：然而，如果两条超过五个单词的推文重复，它们很可能是自动账户发布的样板消息。接下来，我们根据主题标签和现金标签的数量过滤推文人工检查显示，垃圾推文通常使用许多不同的标签或现金标签，以尽可能多地出现在搜索中。因此，我们排除了所有包含五个或更多现金标签或八个或更多主题标签的推文。然而，在这一点上，剩下的数据仍然包含大量的垃圾推文。它们中的大多数都是较短的推文，带有相对较多的标签或现金标签，但不足以被恶意过滤器删除。因此，我们根据现金标签与单词的比率、主题标签与单词的比率以及其他用户与单词的提及率来施加另一个过滤器。我们要求这些比率中的每一个都低于或等于0.5，这样一条推文必须包含至少与现金标签、主题标签和备注一样多的单词。最后，唯一一种仍然占据大量数据的不必要的推文形式是关于加密货币的推文。与Yao Wang（2020）类似，我们定义了Twitter上加密货币社区经常使用的关键字列表，并要求任何推文中的这些关键字少于或等于两个，以便将其包含在最终数据集中。我们允许两个关键字，因为我们希望在现阶段删除数据时保持保守，股市投资者也可能投资加密货币。然而，大多数包含三个或更多这些单词的推文都是无关紧要的。通过迭代人工检查过滤结果生成的关键词是比特币、以太币、比特币、以太网、nft、代币、钱包、web3、空投、wagmi、solana、opensea、cryptopunks 、 uniswap 、 lunar 、 hodl 、币安、 coinbase 、 cryptocom 和doge。表2显示了过滤阶段如何减少样本量。3.1.2. 数据标记和预处理Chen等人（2020）指出，市场情绪和一般文本情绪需要被视为两个不同的因变量，我们为每条推文分配了市场情绪。为了证明两者之间的差异，考虑句子这份文件的总体情绪是积极的，因为作者提到了以前的成功交易和美好的未来。不过，笔者他们在苹果公司（Apple Inc.）开设了空头头寸。（现金标签$AAPL），只有在苹果股价下跌时才会产生积极的回报。因此，作者预计苹果股票的市值将下降，我们认为这是一种负面的市场情绪。我们对市场情绪而非一般情绪进行建模，因为市场情绪信息对特定领域的分析更有价值。此外，现有的通用情感模型（如VADER（Hutto Gilbert，2014））已经在通用情感分类方面表现良好，这种分类依赖于更简单的关键词，如使用这种方法，包含看涨（积极）、看跌（消极）或中性情绪，根据表5中的码本，以BundiX B表示。在使用数据训练机器学习模型之前，我们对其进行预处理，以促进可推广模式的学习我们用“TICKER”替换所有的现金标签如果没有这些步骤，机器学习模型将容易在训练数据中过度拟合模式。预处理步骤鼓励学习更一般化的模式，例如，“TICKER moved +9.9%”指的是相对价格上涨，这比记住模式“$TSLA moved +4.2%"的模型更有价值。打击过度拟合是一个主要的问题，因为我们的目标是建立一个可推广的模型，其他研究人员可以在不同的数据集上使用。3.2. 实验设计3.2.1. 模型训练接下来，我们在清理后的数据上训练多个机器学习模型。我们将比较两种机器学习模型（逻辑回归和支持向量机）与三种深度学习模型（递归神经网络和从头开始训练的Transformer神经网络以及基于BERT的分类模型）。我们对简单和复杂的模型进行了实验，因为简单的模型速度很快，并且提供了良好的性能基线。然而，考虑到NLP中的大多数模型都是基于深度学习的，我们在实验中添加了两种最常见的文本分类架构，并从头开始训练它们。与基于BERT 的Fin-BERT和TwitterRoBERTA相比，我们对自己的基于BERT的模型进行了微调。对于机器学习模型，文本被分割成令牌，然后将其表示为TF-IDF分数的矩阵，该矩阵被馈送到模型。我们利用scikit-learn的模型和向量化器实现（Pedregosa等人，2011），并使用optuna优化最重要的超参数（Akiba，Sano，Yanase，Ohta，&Koyama，2019）。我们调整的超参数是分词器的类型（基于单词或子单词），n-gram范围，最小出现阈值，文档中的每个token的old，以及模型参数.此外，对于支持向量机，我们调整所使用的核函数和核度。使用PyTorch训练深度学习模型（Paszke et al.，2019年）。对于从头开始训练的两个神经网络，我们坚持使用子词标记化（Kudo，2018），词汇量为3000。这两个模型的一般架构是相似的：首先，嵌入层嵌入令牌，在dropout操作之后，这些令牌分别被传递到递归层或Transformer层。输出由一个隐藏层处理，然后通过另一个dropout操作传递给输出层，然后将其分类为文本。对于递归网络，我们利用一层门控递归单元（GRU）（Cho，Van Merrienboer，Bahdanau，Bengio，2014）并调整其隐藏维度，嵌入维度，输入层之后的token dropout，隐藏层维度和输出层之前的dropout。类似地，对于Transformer模型，我们调整嵌入维度、Transformer前馈维度、隐藏层维度和两个丢弃。对于第三个深度学习模型，我们使用 DistilBERT （ Sanh ， Debut ，Chaumond，Wolf，2019），它将每个文本转换为768维向量表示。这个向量然后通过一个dropout操作，一个隐藏层，另一个dropout操作，最后是3类输出层。我们微调隐藏层的维度以及丢弃百分比。我们在所有隐藏层之后使用校正线性单元（ReLU）激活，并使用AdamW优化器（Loshchilov Hutter，2017）训练模型，学习率为0.001，批量大小为64，最多50个epoch，或者直到验证损失平台至少10个epoch。M. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001715Fig. 1. 数据收集、准备和建模工作流程图。3.2.2. 模型评估图2. 我们数据集中的类分布与 Fin-SoMe（Chen等人， 2020年）。我们将基准测试的其他情绪分析模型是VADER优化超参数并获得模型性能的真实样本外估计值需要将数据分为三部分训练、验证和测试集。考虑到我们的数据集规模很小（��10000），我们应用嵌套交叉验证（CV）来实现这些目标。我们将使用外部5倍CV来估计模型对未知数据的性能。不属于该测试集分割的所有数据将用于基于内部5倍CV选择超参数我们报告的所有结果都是五个外部测试分割的平均值和标准差我们使用这些相同的测试分割来对不需要训练的前由于我们有限的计算预算，我们无法将嵌套交叉验证应用于三个基于深度学习的模型。对于它们，我们使用25%的数据作为保留测试集，并对剩余数据进行正常的5折交叉验证我们使用受试者操作特征曲线下的面积（ROC AUC）来比较所有模型，因为情绪类分布在数据集之间可能会有所不同，在这种情况下，准确性得分可能具有欺骗性。对于所有模型类型，我们随后使用超参数搜索找到了最佳配置，该搜索探索了每次分裂的100个参数配置。（Hutto &Gilbert，2014）和TwitterRoBERTA（Barbieri等人， 2020年），来自社交媒体领域的FinBERT（Araci，2019年），来自金融新闻领域的NTUSD-Fin （ Chen 等人， 2018 年），该公司已接受StockTwits的金融相关社交媒体帖子培训。所有模型将应用于两个相关数据集：我们在本研究中收集的数据集，以及Fin-SoMe（Chen等人，2020年）。对于基于BERT的FinBERT和TwitterRoBERTa模型，我们利用它们在huggingface transformers库中的实现（Wolf等人，2020年）。从数据收集到模型训练的整个工作流程如图所示。 1.4. 结果4.1. 数据集特征图2显示了我们研究的两个数据集中的类分布。类分布是不同的，其中Fin-SoMe具有很强的积极偏见，只包含很少的看跌帖子。在我们从Twitter收集的数据集中，最普遍的类是中立类。无论如何，积极的推文仍然多于消极的推文。这些差异也可能源于标签错误或不同的标签定义M. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001716图3.第三章。现有模型和建议模型在收集的数据集上的样本外性能。见图4。 Fin-SoMe数据集上模型的性能。在芬索姆例如，消息25-28这将是一场疯狂的比赛被标记为看涨，尽管文本情绪是模糊的，因为4.2. 模型性能我们在收集的数据集上评估所有模型的ROC AUC。图3显示了所有模型的这两个基于字典的模型表现最差，但胜过随机猜测.金融专用NTUSD-Fin词典（AUC= 0.59）击败VADER（AUC= 0.57），但幅度不大。这两个基于深度学习的模型表现得更好，AUC值约为0.70。FinBERT和TwitterRoBERTa的表现几乎相同，尽管FinBERT已经接受了金融特定数据的训练，而TwitterRoBERTa没有。我们提出的所有模型都优于该数据集上的现有模型，AUC得分超过0.80。在所提出的模型中，回流网络表现最差（AUC= 0.80）。微调BERT和Transformer神经网络的性能优于递归网络（AUC= 0.81）。令人惊讶的是，更简单的基于机器学习的对数回归（AUC= 0.82）和支持向量机（AUC= 0.83）都比神经网络表现得更好。他们对三类分类任务的准确率约为64%。接下来，我们在现有数据集Fin-SoMe上评估相同的模型（Chen等人，2020年），并在图4中展示其分数。现有模型的性能没有太大变化，尽管VADER在这组数据上的表现略好（AUC= 0.59）。另一方面，我们提出的模型的性能显着下降，因为它们现在的AUC得分在0.70和0.73之间。然而，它们仍然表现得和现有的最好的模型一样好，甚至更好。我们微调的BERT模型现在的性能比现有的大型语言模型略差，紧随其后的是基于transformer的模型和递归模型。神经网络的逻辑回归和支持向量机仍然优于神经网络，这表明它们过度拟合的倾向有助于它们推广到看不见的数据集。当考虑到训练和部署这些模型所需的计算成本时，逻辑回归和支持向量机的相对性能尤其相关。为了说明这个问题，我们在图5中以毫秒为单位绘制了每个样本的推理时间。请注意，由于最快和最慢模型的推断时间之间存在多个数量级，因此y轴是对数缩放的所有实验都在具有AMD Ryzen 5 3600 CPU 和 64 GB RAM 的系统上进行基于字典的VADER和逻辑回归模型在推理时间低于0.1 ms/样本时是最快的。我们从头开始训练的两个神经网络都要慢得多，但每个推理仍然需要不到1ms。NTUSD-Fin词典和支持向量机执行类似。最后，所有基于BERT的深度学习模型都比最快的模型慢1000倍他们用于编码文本的大型BERT架构需要大量的计算时间。虽然这些实验缺乏GPU会显着降低基于深度学习的模型的速度，但通过在专用硬件上运行这些模型获得的估计速度提高约为4&4.3. 模型诊断考虑到模型性能和训练/推理时间之间的权衡，我们发现逻辑回归模型可以在两者之间取得最佳平衡。虽然SVM模型的AUC略高，但它在训练和推理方面都慢了大约50倍，并且不可解释。因此，在本节中，我们将仔细研究所提出的逻辑回归模型，并将其行为与现有模型进行比较。M. Wilksch和O. AbramovaInternational Journal of Information Management Data Insights 3（2023）1001717图5. 现有和建议模型的每个样本的推断时间（ms，对数标度）。表3三个类别中每个类别的模型系数最大的前15个令牌。类与最大coe值看涨run，buy，rip，cal，call，999c，bull，ulli，bul，llis，lish，ath，，up，buy中性滴答，玩，哈特，名称，击中，|，=，real，ser，晚上9点9分，呃？或者，聊天，看跌fall，eari，dump，dum，rish，lowe，dow，shor，low，red，999p，down，los，put，表4该模型对按常见主题组织的示例推文进行预测数字是预测的概率，正确的类。x.xx表示模型预测了正确的类。EX样本鸣叫��（维德NTUSD芬伯特罗伯塔pyFin持股加入我的$AAPL头寸POS0.000.52公斤0.66磅0.210.91磅我POS0.001.00美元0.050.440.91磅摆脱我的$AAPL位置NEG0.000.56公斤0.050.160.36做空$AAPLNEG0.000.65公斤0.040.240.97公斤期权交易去所有在$TSLA 4/20 $69电话今天之前关闭POS0.000.83磅0.100.080.83磅两周前以$INTC卖出58便士POS0.000.78磅0.160.060.03去所有在$TSLA 4/20 $69把今天收盘前NEG0.000.460.030.010.93磅两周前NEG0.000.220.020.040.43商业头脑$TSLA工厂可以比预期POS0.000.75公斤0.110.81磅0.75公斤F美元超过每股收益预期，预期1.34报1.89POS0.000.93磅0.070.53公斤0.63公斤$NFLX未达到预期收益NEG0.420.340.93磅0.61毫米0.28$OXY奠定了42%的STA泄漏备忘录显示，NEG0.200.100.96公斤0.49公斤0.29中性$OXY股票交易价格为123美元NEU1.00美元0.000.80公斤0.87公斤0.77公斤$MMM Q3数据将决定这只股票的未来NEU1.00美元0.000.93磅0.86公斤0.54磅快来加入我们的聊天室，获取独家股票提示！！$现金NEU0.62公斤0.000.92公斤0.390.87公斤Kathryn Janeway接任$SBUX新CEONEU1.00美元0.000.93磅0.93磅0.38对于三个情感类中的每一个，表3列出了具有最大系数的令牌。这些标记，如果存在于文档中，则在预测时对每个类都有最大的影响。我们观察到，该模型已经学习了特定领域的词汇，其中“买入”，“看涨”，“运行”等词表示积极情绪，而“转储”，“降低”或“做空”等词表示消极情绪。此外，它还了解到，“123C”或“123P”（执行价格为123美元的看涨期权或看跌期权）等数字模式对于积极类，该模型甚至发现，火箭表情符号或“ATH”（历史最高）等缩写此外，我们看到子词标记化有助于提取同一概念的不同拼写。例如，想要强调他们的观点的用户可以将单词为了全面了解每个模型的预测能力，我们在一组示例推文上展示了它们的预测我们选-根据收集到的数据中经常出现的主题对它们进行排序。虽然这些例子并不能完美地代表原始数据，但它展示了每个模型如何处理来自在线投资讨论特定子主题的不同难度的文本。表4显示了四个类别的示例：“股票所有权”（不提及复杂金融工具的简单文本）、“期权交易”（使用隐含否定的更复杂金融工具的文本）、“商业头脑”（一般商业新闻）和不带任何情绪的“中性”推文。我们看到，VADER依赖于通用的积极或消极词汇，根本无法获得任何特定领域的情绪。大多数情况下，它预测了一个中性的情绪，因为没有任何通用的充满情感的词，如NTUSD-Fin不会表现出这种中立性偏见，尤其是当文档包含明确的特定于域的关键字（如然而，它不能正确地对通过缩写（M. Wilksch和O. AbramovaInternational Journal of Information Manageme

下载后可阅读完整内容，剩余1页未读，立即下载