基于市场情绪感知的股票组合配置研究

71 浏览量更新于2023-12-14 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊24（2021）848全文文章基于市场情绪感知的股票组合配置[10]杨文，李文.桑吉维ba印度瓦朗加尔国家理工学院b印度瓦朗加尔国家理工学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2020年2020年12月30日修订2021年1月10日接受2021年3月26日网上发售关键词：强化学习投资组合配置情绪分析深度学习股票交易A B S T R A C T股票市场目前仍然是金融领域最难建模的系统之一。因此，这是一个挑战，以解决股票投资组合分配，其中必须找到一个最佳的投资策略，有效地最大化回报，同时最小化所涉及的风险的精选股票集合。深度强化学习方法在用于自动化投资组合分配时显示出有希望的结果，通过在历史股票价格上训练智能代理然而，现代投资者正在积极参与社交媒体和在线新闻网站等数字平台，以了解和更好地分析投资组合。投资者对某一特定股票或金融市场形成的总体态度被称为市场情绪。现有的方法不包括市场情绪已被实证表明，影响投资者的决定。在我们的论文中，我们提出了一种新的深度约束学习方法来有效地训练智能自动交易员，该方法不仅使用历史股价数据，而且还感知由道琼斯公司组成的股票投资组合的市场情绪。我们证明，我们的方法是更强大的比较，现有的基准线在标准化指标，如夏普比率和年化投资回报。©2021 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍1.1. 动机投资组合配置是现代金融学中最具挑战性和最有趣的问题之一。这是因为股票市场是一个复杂的系统[1]，渗透着一个相互关联的回报效应网络，需要大量的计算工作来解开和建模回报波动。此外，股票市场不断发展-因此，预测股票价格走势不是一项微不足道的任务。为了实现投资组合配置的最佳解决方案，交易者必须能够不断地在其投资组合中的股票之间分散和重新分配资金，以最大化利润，同时最大限度地降低风险[2]。找到这样一个有利可图但低风险的交易策略肯定是确保财务增长的最佳方法之一。因此，一些投资管理公司正在不断尝试以越来越好的方式解决这个问题，使用更复杂的方法。*通讯作者。电子邮件地址：kprahlad@student.nitw.ac.in（P. Koratamaddi），sgs@nitw.ac.in（S.G.Sanjeevi）。一些关于投资组合分配的早期研究是基于数学模型[4]，这些模型利用了二次规划、随机微积分、数值分析等技术。最初，统计学习方法用于涉及数值分析的简单解决方案[9]-然而，在20世纪90年代，随着人工神经网络等监督机器学习工具的普及，针对股票市场的各种应用提出了几种深度学习方法[10与其他机器学习方法相比，神经网络在预测股票收益方面的成功归因于它们学习复杂非线性函数的能力[13]。使用监督学习来解决投资组合分配的研究所遵循的一般方法是基于通过预测进行交易。这种方法包括两个步骤-。1. 预测：通过使用资产价格的历史数据和其他相关特征来开发预测模型，用于训练和预测特定时期后资产的价格变化。2. 决策：使用资产价格的预测https://doi.org/10.1016/j.jestch.2021.01.0072215-0986/©2021 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestchP. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848849这种简单而流行的两步方法最初可能看起来很理想，但由于某些关键限制，它可能导致次优性能[3]最小化预测误差（作为第一步的一部分）不是旨在解决投资组合分配的系统的最终目标。相反，决策步骤成为整个过程中更重要的组成部分。这里遵循的通常做法是，只有从第一步获得的预测才能用于做出决策，这导致了所谓的近年来，强化学习已成为解决涉及顺序决策问题的强大工具，并已用于开发可以学习复杂策略的智能代理[14]。投资组合分配可以建模为强化学习中的马尔可夫决策过程（MDP）-这种方法不仅将监督学习方法所需的两个步骤合并为单个集成步骤，非常符合真实投资者的想法，而且还克服了传统监督学习方法的局限性然而，基本的强化学习很难与大多数现实问题所需的大范围信息处理相匹配最近，深度学习技术的采用与强化学习一起进行，以帮助它扩展到以前难以解决的问题。这主要通过两种方式完成对于我们的工作，我们遵循深度强化学习方法，基于后者。多年来，纯粹的量化模型已经发展到改善业绩，但总是只考虑一部分-实际上，投资者也被证明会受到许多定性因素的影响[31]，如市场的总体前景、公司声誉和品牌、股东满意度等。这些因素被概括为一个术语，称为随着互联网和社交媒体的出现，沟通和信息共享使投资者能够有效地详细审查和分析其金融资产，以做出更好、更明智的决策。由此产生的大量非结构化数据的可用性使模型能够有效地衡量市场情绪，提供对实际市场动态的更准确模拟在本文中，我们提出了一种方法，其中我们的交易者接收外部市场刺激，类似于现实生活中的交易者如何从传统新闻媒体和社交媒体等可用来源感知它我们考虑一个投资组合的30家公司从道琼斯工业平均指数（DJIA）的基础上，美国。S. 股票市场，其中被称为是一些最有影响力和声誉。我们提出了一种感知情绪的深度强化学习方法，该方法建立在自适应深度确定性策略梯度（DDPG）算法[48]的基础上，并学会动态利用现实世界中感知的市场情绪。我们的目标是分析将市场情绪这一定性因素纳入定量深度强化学习模型的效果。1.2. 纲要本文的其余部分组织如下-在第2节中我们进一步解释我们的亲的细节-在第3节中提出的方法，在第4节中，我们详细介绍了用于获取和处理所获得的数据的技术。我们讨论了第5节中获得的结果，并在第6节中总结了我们的主要贡献，总结了我们的工作，并为未来的研究提供了范围。2. 背景2.1. 股票组合配置股票交易是投资者努力实现财务增长的最常见方式之一。投资者选择跟踪，分析，分配和重新分配资金的股票集合被称为股票投资组合。一般来说，由于股票市场价格变动的波动性和不确定性，股票投资组合的投资预计会有一定的风险，即，除了有可能获得巨大回报外，投资价值也有可能下降或表现不如预期。因此，理想情况下，投资者的目标是找到一种投资策略，旨在通过承担最小的风险来实现回报最大化。这种考虑时间范围、风险承受能力和投资目标的策略的实施被称为投资组合分配[20]。Harry Markovitz 的开创性工作引入了现代投资组合理论（MPT）[2]，这是一种用于获得有效多元化投资组合的优化框架其他值得注意的发展包括-MarkovitzMPT为所有涉及投资组合配置定量分析的研究奠定了基础。它提供了一种构建投资组合的方法根据投资者的目标-在给定的风险水平下最大化回报，或在给定的预期回报水平下最小化风险-对资产进行评估。马科维奇的工作中有一个重要的结论，即资产的多样化可以改善配置结果。这是基于方差和相关性等统计测量得出的，这些测量揭示了一个事实，即投资对整个投资组合的影响比其单个表现更重要。换句话说，这表明我们现在继续讨论MPT的两个主要变体，这也是我们投资组合配置的两战略布局2.1.1. 均值方差分析均值方差分析为投资者提供了一个数学框架来衡量风险，表示为方差，相对于预期收益[2]。均值方差分析的目的是使投资者能够区分几个投资组合，并通过计算预期收益和方差来评估投资决策。模型提供的数学定义投资组合收益是各组成资产● 投资组合波动率是相关系数qij的函数，组件资产，对于所有资产对（i，j）。● 预期收益：●P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848850XERpXwiERi1我其中，Rp是投资组合的收益率，Ri是资产i的收益率，wi是组成资产i的权重（即资产i在投资组合中的比例这些权重的约束条件如下：Mwi2½ 0;0：2];i1/40;1;2;.. . ：m;wi¼1mm2mm1/1● 投资组合回报差异：r2¼Xw2r2XXwiwjrirjqij;32.2. 问题描述考虑的问题是找到一个有效的投资组合分配策略，给定股票市场的环境输入-在强化学习术语方面，我们的智能交易者代理的目标是开发一个最优策略，以最小的风险最大化回报我们的问题设置如下这些pi我我我j-i公司形成了一个多功能的投资组合，代表了多个行业其中，r是周期的（样本）标准差，资产收益率，qij是资产i和j收益率之间的相关系数。夏普比率是衡量投资的最常用指标之一。它表示承担一个单位风险所能获得的回报（单位）。均值方差分析的目标，考虑到这个指标，是找到最大化夏普比率的投资组合分配[24]。2.1.2. 最小方差分析最小方差分析类似于均值方差分析因此，上述传统方法强化了投资组合的风险状况是基于单个证券对整个投资组合的贡献的概念2.1.3. 现代投资组合理论MPT无疑是现代金融领域最具影响力和最受广泛研究的著作之一，为投资者带来了巨大的利益。但是，它仍然是一种纯粹的定量方法，假设市场是理想的，投资者不会做出非理性的选择[2]。现在让我们看看MPT的三个主要限制在现实世界中，投资者可能并不总是做出理性的选择-股票市场不是2008年的金融危机就是一个股市崩盘的例子。由于经济萧条和衰退，市场受到严重影响。影响股市的经济和社会因素之间存在复杂的相互作用，其中一个关键因素是投资者情绪[27]。MPT不考虑这些定性因素。另一个重要问题是投资组合中单个证券的独立性假设。许多股票都有影响市场价格的内在联系和依赖关系。从市场环境中获得的这些信息在马科维茨理论提供的解决方案因此，我们认为，纳入市场情绪是至关重要的代理人与此投资组合可以表明其稳健性在广泛的公司。我们考虑的时间轴是过去二十年的时间-我们为我们的交易代理提供10，000美元的初始投资组合余额美元，以方便代理商开始交易。交易者可以购买、出售或持有与任何公司相关的股票。交易者可以在一天内采取此行动一次。我们设置了一个安全的上限，即交易者可以同时买入或卖出5只股票，以限制代理人做出极端的决定。图1显示了所描述的股票市场动态-当前投资组合可能产生的可能投资组合。为了捕捉交易员观察真实股票市场的效果，我们提供了环境输入，为定量和定性方面提供合适的线索-在所描述的问题设置中，交易者必须动态地跟踪投资组合并每天更新Fig. 1. S t 表示投资组合在第t天的状态，St 1;St 1;St 1是为了克服上述局限性并提高0B H S投资组合配置基于交易者在第t天分别采取的买入、持有和卖出动作的可能的投资组合结果状态。●●●P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848851●ðÞ ¼ð¼ J¼¼ Þ●ðÞ ¼ ð日本语通过充分学习利用所提供的对股票市场的观察，包括市场情绪，帮助投资决策。2.3. 情感分析市场情绪在投资组合配置中的作用一直是一个日益增长的研究课题。我们讨论了相关的理论，以突出情绪对交易者在股票市场上做出投资相关决策时的影响。传统的投资组合分配研究认为投资者在决策中是然而，最近的实证研究[29]表明，股票价格并不完全遵循随机游走。现代行为金融科学家认为，投资者实际上在某种程度上是市场情绪信息来自各种来源，如传统新闻和社交媒体[21]。在当今信息时代，社交媒体平台实现了实时更新和前所未有的无缝-这使得具有共同利益的个人可以组成社区。Twitter等微博客网站为投资者社区提供了分享他们对公司看法的平台最终，其中一些观点变得有足够的影响力来推动市场的股票价格波动。这些驱动因素构成了集体市场情绪的重要组成部分，这是我们特别关注的。同样，由于许多投资者也在网上阅读金融新闻文章和专栏，谷歌新闻也提供了许多这样的驱动因素。因此，在这两个来源中，大量固执己见的投资者情绪数据以非结构化自然语言文本的形式存在[33]-从这些丰富的在线数据中提取和利用集体情绪已经产生了两个Smailovic等研究[35]和Bollen et al.[37]已经展示了如何在大型Twitter数据集上执行情绪分析可以用来有效地预测股市走势; Frank和Antweiler[36]已经表明，在Yahoo！财务公告对股价预测有统计学意义Li等人[38，39]构建了一个定量交易者，该交易者使用公开的网络新闻和社交媒体数据，以及公司特定的新闻情绪数据来预测股价走势。Picasso等人[40]结合了技术分析和新闻文章的情绪指标，建立了一个强大的预测模型。可以看出，这些研究利用市场情绪来专门解决股票价格预测的问题。股票价格预测只是投资组合配置的一部分--我们讨论了过去几年发表的一些最先进的作品： Xing 等人。 [41] 通过应用 BlackLitterman模型对5家公司进行贝叶斯资产配置。他们还使用了ECM-LSTM模型来学习预期收益，以及敏感计算小矢野和池田[42]提出了一种新型的投资组合策略，该策略使用半监督学习股票微博中的帖子，以最大化使用跟随失败者方法的累积收益。Malandri等人最近的另一项工作[43]比较了用于投资组合分配的多种机器学习算法，其中包括来自纽约证券交易所（NYSE）的15家公司和情绪数据来自StockFluence API。因此，一些实证研究工作支持我们的直觉，投资者情绪确实影响市场，可以提高投资组合配置绩效。此外，Cambria et al.[44]最近提出了一种名为SenticNet 6的最先进的极性检测方法，该方法不仅利用传统的自下而上学习方法（称为子符号AI工具）来使用深度学习预测字母和单词序列，而且还集成了自上而下的学习方法（通过符号逻辑）将模型引入逻辑推理，源于对世界和社会规范的基本理解，文化意识，常识知识，等。SenticNet 6的鲁棒性表明，基于文本的极性检测在感知市场情绪方面变得更好，表明其用于改善许多金融应用（包括投资组合分配）的巨大潜力。2.4. 深度强化学习强化学习是一种机器学习范例，其中放置在环境中的软件代理试图通过试错方法来学习最大化累积奖励的概念[45]。代理观察其在环境中的状态，并根据其策略采取动作以移动到下一个状态。然后，环境会立即给它一个奖励，使智能体更新其策略。深度强化学习是一种最近快速发展的方法，其中神经网络被用作传统强化学习算法（如Q学习）的函数逼近器，以帮助扩展涉及环境中大量状态和动作的情况[46]。经验研究表明，深度强化学习方法可以成功地应用于优化有利可图的股票交易和投资组合分配。Xiong等人[47]使用深度确定性政策梯度算法，与最小方差分析和道琼斯工业平均指数相比，显著提高了交易利润Li等人。[48]介绍了自适应深度确定性政策梯度算法，该算法通过利用预测误差来指示市场行为是看涨还是看跌来改进DDPG算法。Yu et al.[49]提出了一种新的基于模型的深度强化学习算法，该算法同时适用于on-policy和off-policy RL算法。提出的架构由注入预测模块（IPM），生成对抗数据增强模块（DAM）和行为克隆模块（BRM）组成。受上述研究的启发，我们的方法也是基于深度强化学习的方法我们继续描述与我们的深度强化学习方法相关的基本概念。2.4.1. 马尔可夫决策过程据观察，投资组合分配是一个连续的决策过程，因为交易者需要每天做出投资选择，一天接一天。因此，投资组合分配问题被建模为马尔可夫决策过程（MDP）。一个有限的MDP（如这里所考虑的）是一个四元组。[50]定义如下：● S是有限状态集，A是动作的有限集合（A s是状态s中可用的动作的有限集合）P a s;s0Pr s t1s0s t s;a t 一是状态转移概率，即在时间t处于状态s的动作a将在时间t=1处导致状态S0r a s;s0E r t1 s ts;a ta;s t1s0是在执行动作A之后接收到的期望的直接奖励，导致从状态S到状态S0的转换。●P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848852X-R¼crs;sa.我第一章12½]●ðÞð Þ一ðÞ我们继续定义更相关的术语：● ps;a是代理的策略-它是定义在A × S上的概率图！1/20;1]，ps;a：tajs t spω是导致最大累积奖励的“最优”策略的常见表示Rt是代理人在时间t获得的折扣累积奖励，称为不I t我i¼t其中c0; 1被称为贴现率，通常设置为接近0分 99秒Qp s; a是状态动作值函数，其表示如策略p所建议的在状态s处采取动作a的值（在返回方面）是什么。图2示出了有限MDP中的简单状态转换。在状态S0，动作a0立即给出回报r0，并导致状态S1，依此类推。学习率取决于预测误差是正还是负。该模型可以根据预测误差区分因此，模型最终从经验中学习，根据市场的性质行事。在该模型中，在DDPG算法中的临界点处使用Bellman方程对Q函数进行的增量更新被利用为：Qpst1;at1;Qpst;atadt并且，在本发明中，dt rst;at;st 1-Qpst;at其中dt是预测误差。这个错误被用作来自环境的输入此外，更新的Q-学习规则，包括RW由下式给出：. adt;ifdt>0：强化学习可以用来求解MDP，即通过找出最优策略pω来最大化Qps;a。下面给出的Qt1st;at¼Qtst;atart1cmaxQtst1;a-Qtst;att其中a是学习率，c是折扣因子，被称为贝尔曼方程。它是通过动态规划的方法来实现的，如值迭代以最大化Q值。但是，传统的方法，如动态规划，当扩展到涉及大量数据和复杂策略的问题时是无效的[45]。因此，我们现在继续讨论解决这个问题的深度强化学习算法2.4.2. 深度确定性策略约束（DDPG）深度确定性策略约束（DDPG）是一种深度强化学习算法，它同时学习Q函数（由评论者网络学习）和策略（由行动者网络学习）。该算法是一种无模型的、非策略的行动者-批评者算法，使用可以学习策略的深度函数逼近器在高维连续作用空间中[51]。与DQN等算法相比，DDPG尤其可取，因为它能够扩展到现实世界中的困难问题，例如作为涉及连续和实值空间的投资组合分配[51]。2.4.3. 自适应深度确定性政策修正（自适应DDPG）作为对DDPG算法的改进，允许积极学习市场的看涨和看跌方面，Li等人。[48]提出了一种基于Rescorla-Wagner模型的自适应方法[52]，可以从积极和消极的环境中进行不同的学习，并可以计算通过选择不同的行动（买入，持有和卖出）获得的奖励。该模型调整每个时期Q值的变化幅度，使用不同的其中α分别表示看涨和看跌情形的不同学习率该模型提出的网络结构如图所示。3.第三章。自适应DDPG算法包括一个演员网络和评论家网络，类似于DDPG算法。行动者网络表示由代理学习的策略，并且在预测误差dt可用之后，评论者网络然后根据预测误差dt和学习更新Qs;ajhQ。速率a=1/1（或a=1/0），其中h_l是行动者网络参数的集合eters和hQ是评论家网络参数的集合。N-和N-分别是为正和负环境添加的随机探测噪声因此，据说讨论的方法是3. 该方法我们首先提供了一个概述，我们的情感感知方法作为自适应DDPG算法的扩展，并讨论了模型架构。我们还详细介绍了我们的模型规格。然后，我们描述了计算模型中使用的市场情绪的方法，并提供了必要的定义。3.1. 自适应感知DDPG方法3.1.1. 模型架构我们的模型架构如图4所示。图二、马尔可夫决策过程中的状态转移。图3.第三章。自适应DDPG演员评论家网络架构。●Qpst1;at1;Qpst;ata-d不返回;否则：P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848853半]●ðÞ半- ]-●ðÞ图四、自适应情感感知DDPG演员评论框架。自适应DDPG算法使用内部预测误差来形成对市场性质的指示。由于该算法实现了最先进的结果，我们通过调整来自环境的额外外部刺激来进一步构建该算法我们通过包括使用上述程序计算的置信度得分来扩展交易员（代理）的状态我们微调了奖励，使我们的代理有效地了解市场情绪该架构类似于自适应DDPG演员-评论家框架[48]。如图4所示，来自股票市场环境的观察包括来自Google News和Twitter tweets的股票价格变动和市场情绪根据观测值更新行动者和批评者网络，并利用预测误差来控制或放大Q值的更新。3.1.2. 详细型号规格我们通过指定状态、动作、奖励和转移概率的内容和设计，在数学上详细描述了我们的问题作为有限MDP的公式：● 状态集合S中的每个状态s被表示为包含四个主要分量的元组：fpt;ht;bt;mtg。在给定的一天，t;pt代表30美元的收盘价列表，名的股票明细金额ht是交易者当前持有的股票数量（数量）列表，bt表示交易者可用的美元余额，mt表示计算的公司市场情绪列表动作集合A中的动作a是包含交易者打算买入、卖出或持有的股票数量的向量。买入行为由正数量表示，卖出行为由一个负的量，一个零的保持动作具体地说，对于每个股票x，动作a x将如下：– 买入行动：a½x]20;b]– 保持动作：a½x]¼0– 卖出动作：a½x]2½-b;0其中b表示一手买卖单位例如，如果交易者希望购买3只苹果股票，出售5只微软股票，并持有剩余股票，则该行动将表示为0... 0; 3; 0... ：0; 5; 0：： 0，其中3和5出现在对应于公司的指数处。对于所有状态和动作，状态转移概率Pa s;s0给定状态s，如果代理采取动作a，则下一状态将是s0，而不涉及任何不确定性。当交易代理人在状态s采取行动a时，当它导致状态s0时，获得的立即奖励Ra s;s0将被称为根据资产价值的变化以及规模化的市场情绪来计算。奖励系统的设计对于我们的交易代理形成鲁棒的学习策略至关重要我们在一天中给予代理的奖励中有两个组成部分，这两个组成部分一起被认为是整体奖励：– 根据前一天投资组合价值的变化进行奖励-如果该变化是正的，则代理已改善其投资组合价值，因此获得正奖励作为赞赏。否则，它将受到负奖励的惩罚。– 根据市场情绪进行奖励●P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848854N8282tt我我Nð Þ¼S一N我我ð Þi;c;d我我a s0s;对公司的看法是好的，因此由于更多的股票N=在日期d公司c购买股票的价值，即它因此，我们的交易员必须在当天购买该公司同样，如果ai;c;d=i在日期d发表的关于公司c的当市场情绪开始下降时，代理人必须意识到该公司的股票价格也将开始下跌，并在适当的时候相应地出售股票这种策略类似于动量交易，已被证明可以实现显着的正回报[22]。现在我们用数学方法给出计算即时奖励的步骤序列。在计算回报之前，我们声明当天是t，智能体采取行动a，t将其从当前投资组合状态s带到下一个投资组合状态PSα=制品a的极性分数，其范围为-1至1。-1表示最负，+1表示最正。3.2.2. Twitter情绪评分（TS）设C为所考虑的道氏公司的集合设D为所考虑的日期范围。推特获得 c C;d D 。进行情绪分析以获得 twitter 情绪评分TS10c;d108c2C;8d2D。Xwti;c;dPSti;c;ds0。 -TS文件编号1ð6Þ我股票i在第t天的时间报酬：其中：TSc;d=公司c在日期d的Twitter情绪得分。N=公司C在日期D的推文数量。g×mt;如果t>¼0：-g×m;如果0：<第t= i条tweet在日期d发布了关于公司c的tweet。PS_t_t=鸣叫t的极性分数，其范围从-1到1。-1个我我代表最消极的，+ 1代表最积极。其中，g1/41000是一个缩放因子，我们将其乘以mar。公司（国家的一部分）的情绪不能确保对奖励有足够强的影响力。这里值得注意的是，如果市场情绪mt>0并且代理人购买或持有股票（at> 1/40），则Rt在其他情况下也是如此，反之亦然，从而重申了我们对奖励的直觉概念第XRtw t= tweet t的权重。如果t的点赞和转发计数为0，则权重为0。否则，它3.2.3. 置信度评分（CS）设C为所考虑的道氏公司的集合设D为所考虑的日期范围。置信度得分是使用财经新闻情感得分（NS）和Twitter情感得分（TS）8c2C;8d2D计算的。NSc;dTSc;d我Xt 联系我们CSC;d2ð7ÞN其中N30是投资组合中考虑的股票数量-步骤3：计算当前状态s和下一状态s 0端口-lio值qt和qt0 如：除了目前的余额，每个公司股票的收盘价和我们的代理人对每个股票的持有量外，建议的状态还将包括信心得分CS代理商交易的8c2c;8d2dS sqt¼pt·htbtc;ds s s s4. 数据采集与处理qt¼pt·htbts0s 0s 0其中，pt是状态s和日期t的股票收盘价向量，类似地，ht是持有量向量，bt是余额我们现在继续描述我们获得所需数据的方法，涉及的不同类型的数据，以及这是如何实现的。数据被处理。我们首先解释公司的选择，S与代理人的金额。S我们的投资组合，基于此，要获取的数据是确定的-–Rts;s0qt-qtXt3.2. 市场情绪信心评分公式每个公司在每个日期，计算两个分数3.2.1. 谷歌新闻情感评分（NS）设C为所考虑的道氏公司的集合设D为所考虑的日期范围谷歌新闻文章的标题是8c2c;8d2d。进行情绪分析，获得谷歌新闻情感得分NS10c;d108c2C;8d2D。XPSai;c;d地雷。我们考虑道琼斯工业平均指数（DJIA），这是最受欢迎的股票市场指数之一DJIA指数是根据在纽约证券交易所（NYSE）上市的30家公司计算的，根据股票表现，声誉和市场价值以及其他几个关键因素进行策划对于我们模型考虑的投资组合，我们选择了30家已经或正在DJIA指数中上市的公司。为了展示我们的模型该等公司、其于纽约证券交易所上市的股票代号及其业务所属行业如附表所示。1 .一、与这些公司2001年1月1日至2018年10月2日的股票价格相关的数据是所需的数据集，可通过沃顿研究数据服务（WRDS）访问Compustat数据库。股票定价数据根据日期范围分为训练集和测试集NSc;d1/1Nð5Þ2001年1月1日至12月2013年（含3268个交易日）作为训练数据，其中：NSc;d=公司c在日期d2014年1月2日至2018年10月2日（含1190个交易日）的剩余股票定价数据作为Rt¼N我¼.P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848855表1表列出了30家道琼斯公司的考虑。极性和强度。VADER计算输入句子的复合得分，范围从-1（最负）到+1道琼斯公司NYSETickers行业（最积极）。在我们的工作中，这被称为标题或推文的极性得分3M公司MMM集团美国运通公司AXP金融服务旅行者公司北京金融服务公司公交车摩根大通银行股份有限公司高盛集团有限公司GS金融服务苹果公司AAPL信息技术微软公司MSFT信息技术英特尔公司INTC信息技术IBM公司IBM信息技术思科系统公司CSCO信息技术波音公司BA航空航天和国防4.1. 谷歌新闻Google News是由Google开发的一个功能强大且受欢迎的新闻聚合服务。它具有强大的搜索功能，可以根据关键字，日期范围，相关性等来过滤新闻。我们使用这些参数来有效地查询Google新闻，并检索与公司相关的最相关的文章。为了自动匹配所有公司的Google新闻迭代查询和日期范围的考虑，我们使用了浏览器自动化雷神技术公司RTX航空航天与国防一个叫做Selenium的工具。通过Selenium，我们能够卡特彼勒公司CAT建筑和采矿雪佛龙公司CVX石油工业埃克森美孚公司XOM石油工业麦当劳公司MCD食品工业可口可乐公司KO食品工业强生公司强生制药行业辉瑞公司PFE制药行业Merck Co.Inc.MRK制药工业杜邦公司DWDP制药工业沃尔格林靴子联盟公司。WBA制药行业沃尔玛公司WMT零售家得宝公司HD零售耐克公司NKE服装联合健康集团公司。UNH管理的医疗保健宝洁公司PG快速消费品货物Verizon Communications Inc.VZTelecommunication华特迪士尼公司DIS广播和娱乐测试数据这里讨论的训练和测试划分如图所示。五、除了股票定价数据外，我们还必须将基于文本的数据整合到一个数据集中，该数据集可以捕捉公司在给定日期的市场情绪为了收集与市场情绪相关的新闻，我们需要来自多个新闻来源的新闻文章语料库。因此，我们使用了一个名为Google News的新闻聚合器许多研究表明因此，我们将其用作社交媒体平台，以获取基于社交媒体的市场情绪。一旦从谷歌新闻和Twitter收集了文本数据，就必须使用情感分析将其转换为数值情感得分。为了进行情感分析，我们使用了VADER（ Valence Aware Dictionary and software Rea- soner ） [56] 。VADER是一个基于词典和规则的情感分析工具，在自然语言工具包中实现。它是专门为Twitter开发的，具有一般社交媒体的背景。VADER在类似的数据集上表现良好，与其他情感分析工具相比，它是最好的之一为了我们的工作目的[57]，因为它不仅计算图五. 根据时间轴将数据划分为培训和测试数据。谷歌新闻和收集所有的文章进行进一步处理。根据经验，我们观察到文章的标题给出了文章的简洁概念和语气，并且足以用作文章对公司情绪的指标。因此，我们从Selenium抓取的文章中提取标题。然后通过使用VADER对提取的标题进行情感分析来获得极性分数。极性分数用于计算（使用等式5）该特定公司在该日期的新闻发送分数。如果在特定的一天没有公司的可用文章，则该天的新闻情感分数被设置为零，反映中性或不变的情感。新闻情绪得分存储在专用于存储该特定公司的所有日期的新闻情绪得分的文件中。使用Selenium进行Google新闻抓取和使用VADER进行情感分析的过程使用图中的示例进行说明。第六章4.2. TwitterTwitter的功能，搜索推文的基础上，关键字以及额外的搜索功能，如日期范围等。从Twitter获取数据是一个三步过程：1. Twitter Scraping2. 数据提取3. 推文情绪分析我们使用基于关键字的搜索以及指定日期来检索与特定日期的公司相关的推文。我们根据经验构建关键词，以获得最相关的推文。为了自动获取一个公司在所有日子里使用预定义的关键词的tweet，我们使用Sele-tweet。这是为所有公司做的，抓取的推文存储在每个日期的HTML文件这是Twitter的Scraping阶段。一条推文由多个数据字段组成，如作者、作者的句柄、推文的文本、推当一个用户转发另一个用户的tweet时，他们向他们的追随者回应了同样的想法，这一点类似地，当用户喜欢另一个用户的推文时由于推文的文本代表了用户对公司的想法或情感，因此它因此，我们对推文的日期、文本和参与度数据特别感兴趣，并将这些字段作为推文数据提取阶段的一部分进行提取。P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848856见图6。工作示例与谷歌新闻的详细步骤。接下来，我们使用VADER对推文文本进行情感分析，并获得其极性分数。这些极性分数，以及所有推文的参与数据，被用来计算该公司在该特定日期的Twitter情绪分数（TS）。第六章如果某公司在某一天没有可用的推文，则该天的推文情绪评分将设置为零，反映中性或不变的针对特定日期计算的TS存储在专用于公司的情感文件中。这种TS是为所有日期和所有公司计算的。这是推文情感分析阶段。使用Selenium进行Twitter抓取、使用Beautiful Soup进行推文提取以及使用VADER进行情感分析的过程使用图中的示例进行说明。第七章将从Google News和Twitter创建的情感文件组合以形成最终情感文件，该文件存储使用等式（Eq. 7、每个公司每个公司的最终情绪文件以及来自Compustat数据库的股票价格数据构成了我们工作的数据集见图7。 Twitter推文的详细步骤工作示例。5. 结果和讨论在测试学习代理时，每天的投资组合值系列如图所示。 8，以及通过遵循自适应DDPG、DDPG和传统均值和最小方差分析的基线方法获得的值。该图是一个图表，绘制了投资组合价值-投资组合价值的计算方法是将所拥有的股票价值与交易代理的余额（如有）相加。据观察，我们的情绪意识的方法实现的投资组合价值始终较高，在整个考虑的时间轴，与其他基线方法时获得的投资组合价值相比我们注意到，将市场情绪纳入自适应DDPG模型显著提高了交易者代理的性能。为了评估我们模型P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848857见图8。比较我们的方法和基准的投资组合价值。标准偏差误差，代表模型所承担的风险量我们通过测量一年内我们模型的投资组合价值的改善来计算年化回报年化标准差误差是代理人在一年中所有日子经历的投资组合价值这个错误可以被看作是在提供回报方面捕获模型的这个误差越小，我们的模型对风险厌恶的交易者来说就夏普比率的计算方法是用整体回报的平均值除以年化标准差误差。(see选项卡. 2）。值得注意的是，与基线相比，我们的情绪感知方法在所有考虑的指标上都有显著的改进在初始投资为10，000美元的情况下，我们的方法的最终投资组合价值达到25，051美元，远远高于AdaptiveDDPG的21，881美元和DDPG的18，156美元。我们的方法实现了22.05% 的年化回报率，而 Adaptive 和 DDPG 分别为 18.85% 和14.7%。与其他基线相比，我们的模型所承担的风险也较小，如获得0.096的最小年化标准差误差所示夏普比率值为2.07时，我们的情绪感知方法在平衡收益和风险方面更加稳健和有效，而自适应DDPG和DDPG分别为1.49和0.93我们已经观察到有效评估股票投资组合配置而且，从现有的数据集中构建一个用于此目的的参考数据集并不简单[59]，因为有多种格式和缺乏足够的信息，导致模糊性。除此之外，对结果的评价也没有标准化-为了应对这些挑战，我们的方法遵循了简单的数据集格式，选择了一组多功能的公司，并使用标准化的指标进行严格的评估。6. 结论6.1. 贡献我们强调我们的主要贡献如下：我们设计了一种简单有效的方法来计算给定非结构化文本数据的相关语料库的市场情绪。我们的方法不是将市场情绪的表示限制在特定数量的类别中[37]，而是用数字来定义它，即，文本的极性被表示为在值的范围内定义的实数。这具有双重好处-我们一个受过这个框架训练的特工表2将所有方法的指标制成表格。方法情绪感知ADDPG自适应DDPGDDPG均值方差最小方差夏普比率2.071.490.931.250.99年化回报率（%）22.0518.8414.715.8611.48年度标准误差0.0960.1160.1470.1270.116最终投资组合价值（美元）25,05121881181561963216333●●P. Koratamaddi，K.Wadhwani，M.Gupta等人工程科学与技术，国际期刊24（2021）848858可以每天做出交易决策，以大幅改善投资组合分配结果。市场情绪在预测股票走势方面的有用性及其影响投资者决策的能力一

下载后可阅读完整内容，剩余1页未读，立即下载