基于行业环境的个股预测神经网络框架设计

71 浏览量更新于2023-12-07 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Elsevier代表KeAi提供数据科学与管理5（2022）199研究文章基于行业环境的个股预测神经网络框架设计朱青a，车建华a，李玉泽b，*，左仁贤ca陕西师范大学国际商学院，西安b波士顿大学Questrom商学院，波士顿，02215，美国c武汉大学信息管理学院，武汉，430072A R T I C L E I N F O保留字：行业环境预测模块Stacked GRUVMDA B S T R A C T从行业环境因素准确预测个股的财务状况存在研究空白。因此，为了预测目标股票的收盘价的交易策略，本研究构建了一个预测模块和一个环境模块的混合变分模式分解和堆叠门控递归单元（VMD-StackedGRU）模型，个股信息输入到预测模块和行业信息输入到环境模块。来自美国的结果银行业的泛化测试表明，该模型能显著提高预测性能，环境模块的作用不明显，不等同于预测模块。混合神经网络框架是基于行业环境的金融价格预测的新应用。有利的交易策略及准确的预测对对冲市场波动风险及确保投资者及投资机构获得可观回报而言，可能十分宝贵。1. 介绍行业指数是个股价格波动的重要参考。作为企业市场竞争的重要背景，行业环境是上市企业至关重要的市场环境（Akbulaev et al.， 2021;Cyfert等人，2020年）。考虑到这一点，并以银行业为例，驱动本研究的问题如下：银行业环境是否影响个股价格预测，如果是的话，影响是什么最常用的股票预测指数是开盘价、最高价、最低价、收盘价和交易量（Lee，2022; Lu等人，2020年），均为内部信息源;然而，行业环境为外部信息源。Liu et al.（2022）及Maharshi et al.（2021）专注于新兴市场行业资讯的重要性，但他们并未将行业环境作为财务预测的影响因素。在一般的比较问题中，主要有三种情况：更重要，同等重要，不那么重要。因此，为了测试行业环境对个股价格预测的影响我们开发了三个具体问题。对于个股价格预测，行业环境信息是否比内部个股信息更重要Q2：对于促进个股价格预测，行业环境信息是否与内部个股信息一样重要行业环境信息对个股价格预测是否独立不可用？这些问题是为了探索行业环境信息在股票预测中的作用而开发的。Q1 是基于对价值的基本理解 ; 也就是说，哪些信息更有价值（Tatpornpan等人，2022年）？基于第一个问题，Q2是从整体互动和推广的角度提出的。神经* 通讯作者。电子邮件地址：yuzeli@bu.edu（Y. Li）。https://doi.org/10.1016/j.dsm.2022.09.001接收日期：2022年7月27日;接收日期：2022年9月7日;接受日期：2022年9月9日2022年10月20日网上发售2666-7649/©2022 Xi'an Jiaotong University.出版社：Elsevier B.V.代表科爱通信有限公司公司这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表数据科学与管理杂志主页：www.keaipublishing.com/en/journals/data-science-and-managementQ. Zhu等人数据科学与管理5（2022）199200网络（NN）模型在从复杂信息中提取最有用的信息方面具有很强的优势（Young-Min，2019）。过多的信息也会引起干扰，从而导致预测性能变差，因此，神经网络预测结果可以揭示这两种信息是相互促进还是相互干扰Q3的提出是为了考虑行业环境的外部性和不确定性;然而，由于传统的NN框架无法用于验证该问题的有效性（Wang，2021），因此需要专门设计的框架模型。在现有文献中，研究人员一致认为，行业环境对企业绩效有重大影响（Liet al. ， 2019a ）和管理者决策（Calantone等人， 2010; Yang和Wang，2014）。然而，很少有人能回答上述问题。Wimble等人（2018）发现，行业变量可能与信息技术（IT）业务价值方面的公司层面变量相互作用然而，行业环境信息对个股预测的影响尚不清楚。考虑行业环境对个股价格进行预测，可以弥补目前金融价格预测研究的空白。因此，本文以银行业为样本，建立了一种混合变分模式分解和堆叠门控递归单元（VMD-StackedGRU）模型，在预测和环境模块中分别考虑个股信息和行业环境信息，对个股交易策略进行预测。基于国内银行业的实证结果和美国银行业的广义检验结果，发现该模型能够显著提高预测性能。研究结果表明，本文提出的模型填补了基于行业环境的个股价格预测的空白。该模型通过提供准确有效的交易机会预测，开发风险规避并确保有利可图的投资策略。这对投资者以及投资机构、私募股权基金和私人投资者来说意义重大本文的贡献归纳如下：一. 从行业环境的影响因素入手，填补了准确预测个股财务状况的空白;ii.研究发现，在促进金融价格预测方面，行业环境可以独立辅助个股的内部信息，而不需要两者的协同作用; iii.所提出的VMD-StackedGRU模型可以有效地进行财务预测，从而使投资者和投资机构受益。本文的其余部分组织如下。第2节第二节分类了三种类型的财务预测文献，并总结了工业环境相关文献。第3节介绍了论文中使用的数据，并总结了其算法基础，包括用于深度学习的GRU算法和VMD模式分解算法（提出的VMD-StackedGRU混合算法），以及评估标准。第四部分通过四组实验深入分析了行业环境特征，并通过模拟实际交易策略对收益进行了评估结论和建议见第5节。2. 文献综述由于股票的强波动性和非线性，股票预测无论是在金融研究还是在金融市场应用中都是一个具有挑战性的课题准确预测股票价格或趋势可以有效控制投资风险，为市场参与者提供高回报（Lei，2018; Long etal.，2019年; Zhang等人，2018年b）。作为股票预测的一个大类，时间序列预测文献根据侧重点可以分为三种类型：模型导向型、集成导向型和特征导向型。从传统的计量经济学方法到机器学习和最新的深度学习方法，面向模型的预测研究已经成熟。例如，使用纳斯达克指数中实际汇率的每日价值，Guresen et al. （2011年）评估了多层感知，动态人工神经网络（ANN）和混合神经网络的股票市场预测。自Hochreiter和Schmidhuber（1997）首次提出长短期记忆（LSTM）以来，随着近年来计算能力的飙升，这种在捕获长期序列依赖性方面具有优势的深度学习方法已被广泛应用于许多领域，包括金融时间序列处理。通过对LSTM、广义自回归条件异方差（GARCH）和支持向量机（SVM）模型的金融指数预测能力进行全面比较，Liu（2019）发现LSTM在大范围波动预测方面的表现与SVM一样好，而GARCH的表现最差首先由Cho et al. （2014），GRU模型，一种流行的LSTM变体，具有简单的双门结构（更新门和重置门）（Zhanget al.，2018a），也被用于一系列预测研究（Zhang和Kabuka，2018; Zhang等人，2018 a;Zhao等人， 2018年）。事实上，作为机器学习的一种较晚的热门技术，深度学习方法在自然语言处理、图像分类、自动语音识别等多个领域得到了快速发展，并呈现出取代和淘汰所有其他机器学习方法的趋势。虽然单个LSTM或GRU模型在时间序列预测中表现良好，但集成模型已被证明具有更好的能力。一些集成方法强调去噪或捕获原始序列中的波动性。Wang等人（2011）提出了一种基于小波去噪的反向传播神经网络，旨在处理噪声 Liu等人（2020a）提出了一种自适应小波变换模型，该模型集成了XGboost算法、小波变换和LSTM，并被证明具有更高的预测精度。Kim and Won（2018）认为，准确预测波动率对于衍生品定价、港口风险管理和对冲策略至关重要，他们提出的混合LSTM-GARCH模型具有很强的学习和预测股市波动的能力最近，在预测研究中出现了将模式分解方法（如经验模式分解（EMD）和VMD）集成到时间序列的深度学习中，其中模式分解方法可以捕获原始序列中的趋势和周期性Liu等人（2020 b）提出了一种有效的集成预测模型，该模型将VMD方法与LSTM网络相结合，其中VMD方法分解的子序列是LSTM预测子目标，最终预测结果是聚合的子目标。其他形式，例如混合EMD-GRU（Jin等人， 2020年，也有类似的原则。Zhu等人（2019 b）还提出了一种混合VMD&双向GRU模型;然而，在这里，子序列被用作数据特征的一部分，以反映原始序列中的趋势和周期性。所提出的VMD-LSTM与数据处理是一致的。虽然有一些过程可以区分它们，但模式分解与深度学习方法相结合，旨在提高预测准确性和模型优化，通过捕获固有的模态特征来显着改善预测工作。虽然目的是提高预测精度，以及功能-定向方法强调外部特征和这些特征与预测序列之间的相关性。一些文献关注特征选择建模和过滤出不太有用的变量，例如 Huang 和 Tsai（2009）、Kao等人的以下研究。（2013），Tsai和Hsiao（2010），以及Wang和Wang（2015），而其他人可能致力于外部特征。例如，Geva和Zahavi（2014）验证了在股票预测中使用非结构化高级文本新闻数据实现结构化市场数据Vanstone et al.（2019）将情感预测因子添加到自回归神经网络中，通过基于新闻文章和Twitter帖子数量的预测因子来更准确地预测股票价格，并发现这些预测因子在提高股票价格预测质量方面非常有用这些从文本数据中挖掘出来的外部特征是商业环境的一部分，这对上市公司来说是一种不可忽视的力量（Teti等人， 2019年）。然而，另一个重要的特征，行业环境，一直被忽视，在以前的Q. Zhu等人数据科学与管理5（2022）199201表1文献综述总结方法主要结论表2国内银行业代表。代号LSTM提出了长短期记忆。MAD、MSE ANN模型MLP优于DAN 2和GARCH-MLP。RNN GRU模型首先被提出作为具有双门结构的LSTM变体。HochreiterandSchmidhuber（1997）Guresen etal. （2011年）Cho等人（2014年）SH601939中国建设银行SZ000001平安银行SZ002142宁波银行上海浦东发展银行SH600015华夏银行SH600016中国民生银行SH600036招商银行混合LSTM本文提出的混合LSTM-GARCH模型具有较强的学习和预测股市波动的能力。Kim and Won（2018）SH601009南京银行SH601166兴业银行SH601169北京银行提出了一种新的LSTM方法--过拟合预防LSTM模块和LSTM、SVM、GSTLSTM的性能与SVM一样好，甘迺迪表现最差。LSTM，XGBoost自适应小波变换模型（AWTM）的设计和证明具有较高的预测精度。面向特征的股票预测文献。Baek和Kim（2018）刘（2019）Liu等人（2020年a）SH601328交通银行SH601398中国工商银行SH601988中国银行SH601998中信银行GRU模型非常适合于财务预测。因此，基于先前的研究和将模式分解方法与深度学习相结合的趋势，提出了一种混合VMD-StackedGRU模型，其中既有预测模块又有环境模块。预测目标股票收盘价交易行业环境作为企业外部环境的重要组成部分，对企业的经营和股价波动有着重要的影响。 Yang and Wang（2014）发现，行业环境调节了高管团队特征与创业战略导向之间的关系。 Li等人（2019a）认为，企业绩效是由内外部因素决定的，包括市场环境和行业环境。 Calantone等人（2010）认为，行业环境对管理者是否尽快进入高潜力市场的决策有很大影响，他们发现美国和日本管理者之间存在显著差异。从IT的商业价值的角度来看，Wimble et al. （2018）发现，行业层面因素与企业层面因素存在显著的交互影响;具体而言，行业资本密集度、行业集中度、行业外包、行业增长和服务业的存在显著影响企业层面的IT价值。但是，对于企业外部环境对股票价格的影响，如与国际市场的联系、综合指数之间的相关性等，还缺乏全面的研究。因此，识别行业环境与个股价格预测之间的相关性是面向特征的股票预测研究的一个新课题。新的问题需要新的框架设计来回答。由于可用的训练数据点通常有限，因此在预测金融股票价格时，数据往往会过度拟合。 Baek和Kim（2018）提出了一种新的过拟合方法，用于防止LSTM模块和LSTM预测模块。他们评估了两个代表性的股票市场数据集（S P 500指数和KOSPI 200），结果表明，所提出的模型具有很强的预测能力，其测试性能完全取决于LSTM预测模块。因此，虽然Baek和Kim（2018）的最初目标是解决有限的数据问题，但预测模块和预防模块的开发为处理行业环境信息提供了见解;也就是说，预测模块和环境模块可以作为深度学习模型的一部分构建，行业环境信息输入环境模块，自我信息输入预测模块。深度学习模型需要一种强大而可靠的方法来处理金融时间序列并捕获内部模式。文献综述总结见表1。相比之下，GRU模型不仅继承了LSTM的基本思想，而且解决了标准RNN中出现的梯度消失问题此外，GRU模型比LSTM更容易操作，但它们可以实现类似的结果。经过反复的数据处理，策略，个股信息输入预测模块，行业信息输入环境模块。该混合神经网络框架是基于行业环境预测金融股票价格的新应用，以确保更准确的预测，从而对冲市场波动风险并确保更有利可图的交易策略。3. 数据描述和实验设计3.1. 数据集本文采用银行业环境集合，选取了停牌天数少、数据量充足的14家中国上市银行作为银行业环境的代表表2显示了所选择的库和样本的相应代码原始数据提取自Wind数据库（Wind Database，2021），选择停牌天数最少的中国建设银行（SH601939）收盘价作为预测对象，其余13只股票的收盘价作为环境变量。2007年9月25日至2019年10月11日，共收集了2,913个中国建设银行数据点，并选择了预测对象的开盘日，而不是正常的市场开盘日，以确保时间序列的连续性，避免处理任何缺失的数据。然后，根据预测对象的开盘日期收集其他13只股票的收盘价。中国建设银行的收盘价走势如图所示。1.一、由于本文假设买卖决策是在接近最终收盘价时做出的，因此选择收盘价而不是开盘价、最高价或最低价作为预测对象，即当交易信号出现在第t天时，可以在同一个第t = 0天进行“买入”交易，在第3.2. 描述分析表3对14只股票的收盘价进行了描述性统计分析。股票代码记录企业上市代码，y为预测对象，即中国建设银行（SH601939）收盘价。标准差（sd）差异明显，最大为9.912，最小仅为0.810。14只股票的收盘价偏度大于0，Q. Zhu等人数据科学与管理5（2022）199202Fig. 1. 中国建设银行收盘价走势。表3对14家银行收盘价的描述性分析电话：+86-020 - 8888888传真：+86-020 - 8888888图二. 国内代表性银行的相关性。表示正偏度（或右偏度）。这意味着在均值右侧有更多的极值和更强的离散度，这可能是因为股票价格大幅上涨，然后在某些时间再次下跌在中国市场，“熊”是多头，此时股价围绕平均值上下波动，“牛“是空头，股价在短时间内快速上涨，然后快速下跌，导致平均值上方出现更多离散点。由于中国市场经常受到不成熟的投机行为的影响，而这些投机行为往往受到营销政策的指导（He et al.， 2022年; Zhu等人，2021年），当政策刺激时，股票价格可以迅速上涨，当政策热度消退时，股票价格也会迅速下跌，如右偏数据所示;偏度越大，偏离均值越大。偏度反映了数据的离散程度，峰度反映了概率密度曲线在平均线处的值在此，使用值3作为正态分布比较分析的参考。12只股票的收盘价呈尖峰分布，表明股价长期稳定在平均水平附近，并呈小幅向上波动的趋势。另外两只股票的收盘价数据相对平滑，尾部较细，表明离散值相对较小。上证601939平均收盘价仅为5.609 CNY，标准误差为1.379，因此，相对于高价股，收盘价被认为较小，波动性有限偏态为1.131，表明正偏倚，少数极值高于平均值。如可见于图第一，2008年下半年至2017年上半年，股票价格围绕平均值波动，2008年上半年和2017年下半年的数据点高于平均值，这可能是其正偏的原因。峰度为1.398，表明数据也具有代码是说SD偏态峰度ADFp值PPp值1ySZ0000015.60915.2771.3796.3211.1312.0151.3985.168-3.282-3.7970.0740.019-12.452-19.1050.4150.085SZ002142公司简介13.73515.4164.2298.6820.4992.819-0.5219.323-2.490-4.2450.3710.010-14.424-12.9840.3050.386SH60001510.4252.5741.8014.784-3.9050.014-25.2490.023SH6000167.6552.1851.4483.453-3.7510.021-15.3380.254SH600036SH60100918.75511.2228.1363.6961.0220.9240.006-3.0490.1340.290-7.2170.7070.299SH60116619.7329.9121.9834.334-3.9140.013-14.4110.306SH60116910.1773.5931.2131.185-3.5530.037-18.3950.096SH6013286.2062.1372.2686.559-3.9270.013-11.6270.461SH6013984.7480.9591.2552.046-3.2150.085-12.6130.406SH6019883.6140.8101.6364.066-3.4980.042-12.6430.405SH6019985.7371.4441.0461.905-3.7100.023-19.6240.078Q. Zhu等人数据科学与管理5（2022）199203-图3. 基本结构。尖峰厚尾分布。总体而言，所有收盘价数据均为非正态。平稳性检验是时间序列分析建模中必不可少的环节在单位根检验中，使用增强的Dickey-Fuller（ADF）检验和Phillips-Perron（PP）检验来检验非平稳性。p值（p值1），即置信度，与0.95和0.99置信水平，以确认零假设（单位根的存在）是否可以被推翻。例如，SH601939收盘价的ADF值为282.第282章这是一个很大的问题0.074显著性水平，表明数据稳定在0.1显著性水平，但不稳定在0.05显著性水平。一般而言，在较宽松的显著性水平0.1下，ADF检验发现3个股票收盘价序列不稳定，PP检验发现10个样本时间序列不稳定。然而，在更严格的0.01显著性水平下，仅发现SH 600000的ADF值具有显著性;因此，统计检验结果证实存在整体数据不稳定性。由于样本数据的非正态性和非平稳性对传统的计量经济建模提出了挑战，因此采用具有更大处理优势的神经网络模型进行基本建模。虽然在现实世界中，处于行业环境中的企业是密切相关的，但相关性分析对于验证行业环境变量与个股之间的关系至关重要。每个变量的Spearman相关分析见图1。2，其中相关值和显著性水平（* 表示0.001的水平）标记在右上角;值越大，相关性越大，颜色越深。相关性由左下角的正方形区域表示面积越大，相关性越大。总体而言，该行业个股的收盘价被发现是正相关的，没有不相关或负相关，这表明在这样一个密集的行业的高相关性。行业环境变量与个股收盘价之间的正相关关系初步证明了行业环境变量预测个股收盘价的有效性，这是一个研究空白。标的物与作为行业环境变量的其他收盘价均显著正相关，但相关程度不同，从图1数据的第一行或第一列可以看出。二、具体来看，上证601939收盘价与其他五只股票收盘价的相关性有五只在0. 80至0. 98之间，其中四只大于0但小于0. 50，最低的仅为0. 29。同行业的合作企业可以有很高的股价相关性;然而，区域因素往往导致相关性较低，主要是因为本地上市银行一般合作与竞争程度低如图中相关性最低的是宁波银行（SZ 002142）和北京银行（SH 601169）。 2，0.08。然而，这种局部低相关性并不影响与目标对象的全面高相关性。实际上，可以选择与其他变量具有相对高的相关性的任何目标对象作为预测目标，诸如SH600000或SH601166。3.3. 标记方法本文从模型的角度出发，提出了一个基本的分类任务，即随着股票的运动，预测每天在接近左侧收盘价时应该做出的决策（买入、持有或卖出），实际输出为预测对象所标记的三种交易策略：中国建设银行股票的日交易策略。这些策略涉及一个标记过程，在3天的滑动窗口中识别顶部和底部点，所有每日收盘价都被手动标记为持有，买入或卖出;底部标记为买入，顶部标记为卖出。用于标记过程的伪代码在算法1中示出。算法1. 简单的伪代码的标签程序。初始设置：窗口大小：3天;forcountRowinrange（0，len（price）1）：如果countRow≥windowsize：则windowEndindex（windowBeginindexint（windowMidindex）;minPricemin（price[windowBeginindex：windowEndindexmax（price[windowBeginindex：windowEndindexmaxPrice：thenreturnelse ifprice[windowMidindex]minPrice：thenreturn其他return结束如果结束如果端共收集了2，913个中国建设银行数据点当收盘价被标记（买入，持有或卖出）时，第一个和最后一个数据点被删除;因此，2，911个数据点被输入到GRU模型中，其中70%用于训练（即，2，032个数据点），其中30%用于测试（即，872个数据点）。设定了7天的序列窗口;即，使用7天的历史数据预测第8天的结果，因此删除了前7个数据点。为保证预测结果更加准确，采用滚动窗口法对模型进行重新调整和更新，滚动窗口设置为360天。3.4. 对照组实验控制实验的目的是预测个别股票价格使用内部信息，其中的输入是收盘价及其相关的子序列，已从收盘价使用 VMD 分解自从Dragomiretskiy和Zosso（2014）首次提出VMD模型来处理非线性和非平稳时间序列以来，已经发现它在减少模式混合问题方面比EMD或其变量形式（例如EEMD，即具有自适应噪声的完整集合经验模式分解）更有效（Li等人， 2018，2019 b; Tian等人， 2019年; Zhu等人，2019年a）。因此，本文采用VMD方法对基本数据进行处理，对收盘价时间序列进行分解，提高基本预测模型的模拟能力。StackedGRU的原理是通过叠加更多的GRU单元来增加参数，从而获得更好的模拟结果。基本结构为对照组实验，结合VMDQ. Zhu等人数据科学与管理5（2022）199204见图4。该模型具有环境模块。和堆叠的GRU，如图所示。 3. 只有目标个股信息（收盘价和八个子系列（M1，M2，表4四个实验的主要参考资料输入到两层堆叠GRU模型中这样的模型被贴上了标签模型EX实验应用模块输入信息为方便起见，GRUI为对照组前7天的信息（特征t-6，特征t-5，特征t）用于预测随后一天的输出（输出GRUI控制预测内部GRUE Group 1预测环境GRUIE Group2预测内部环境1）和相关的交易决策策略（买入、持有或卖出），GRUI-GRUEGroup 3预测环境内部环境其使用基于目标单个股票的收盘价。具体的标记过程将在下一节中介绍。对照组实验设计为经典的分类预测实验。为了检验行业环境信息的影响，加入了行业环境变量，并与控制组的结果进行了比较3.5. 实验组实验为了回答问题1，设计了实验组1，其主要结构如图1所示。 3，但与原来的投入被替换为行业环境的收盘价代表-。因此，该模型被标记为GRUE。与对照组仅参考内部信息不同，实验组1仅参考外部行业环境信息。因此，控制组和实验组1的结果能够揭示这些信息来源中的哪一个对准确的财务预测更重要。实验2组为Q2组在同一GRU单元中，输入变量在开始时被认为是同等重要的。然而，在权重学习和参数优化之后，原始权重被重新分配。在与控制组相同的结构下，通过输入各自的内部信息（目标收盘价，M1，M2.，M8）和外部行业环境信息（行业代表性收盘价，以及相应的M1，M2.，M8）来验证信息公平性。然后，通过与控制组的比较，揭示了同等重要性处理下外部产业环境信息的有用性为了回答Q3，设计了一个新的环境模块，如图所示。四、与预测模块中的单元1相比，环境模块中的单元2是一个独立的GRU单元，只有中间输出完全连接以预测三个分类标签。将内部个股信息输入预测模块，预测目标股票收盘价交易策略并将行业信息输入环境模块。由于本例中的国内银行业有13只银行业环境股票代表，因此将13个收盘价（收盘价1，收盘价2，...，收盘价13）输入环境模块。因此，所提出的模型结构符合第三个问题的验证要求。表4具体显示了对照组和三个实验组之间的模型差异随后，对数据进行处理并应用实验。最后，对于这四个模型，我们的训练参数包括优化器参数和超参数。优化参数是学习率，所有四个模型的学习率都设置为0.005。本文中的动态周期设定为7天。3.6. VMD工艺以前的研究发现，VMD分解可以帮助NN识别历史时间序列数据的趋势和周期性，从而提高预测或分类性能。Zhu等人（2022）将不同社区的犯罪时间序列分解为8个子序列，并利用VMD进行了较好的预测。因此，本文将中国建设银行股票价格时间序列分解为八个子序列。图5给出了目标对象（SH601939收盘价）的VMD示例，其中子图是同一结果的两个表示图5（a）可以更好地显示和比较子序列的趋势;例如，可以直观地看到M1和M2反映了原始时间序列的长期趋势。图图5（b）能够更好地示出子序列的周期性，例如M3、M4等，其反映了周期性波动，而M8等，表示随机干扰项。作为基本的数据处理程序，VMD被应用于14只股票的所有收盘价。Q. Zhu等人数据科学与管理5（2022）199205¼¼图五. VMD加工的子系列为中国建设银行收盘价。可以直观地看出，M1和M2反映了原始时间序列的长期趋势该图还能够显示双折射的周期性，例如M3，M4等，其反映周期性波动，而M8等反映随机干扰项（Gan等人，2021年; Li等人， 2021年）。因此，VMD被用作所有14只股票收盘价的基本数据处理程序。在分类问题中，最常用的评价指标是准确度、精确度、召回率和F1分数。4. 讨论4.1. 对照组实验在控制组实验中，仅将与目标对象（中国建设银行）直接相关的变量输入GRUI模型：1个收盘价和8个VMD分解的关联度（M1，M2，...，M8），与个股内部信息相关的变量作为预测变量，与行业环境相关的变量作为环境变量，与三个研究问题相然后将预测变量输入到两层堆叠的GRU模式中，输出变量为三个分类标签。对照品的结果表5中显示了组。预测结果以混淆矩阵的形式表示。可以看出，对照组的总体准确率为46.79%，以此作为主要参考指标与三个实验组进行比较，从而回答三个问题。表6给出了HOLD、BUY和SELL三个标签的详细评价指数结果虽然HOLD的准确率最低（0.46），但其综合评价召回率（0.72）和F1得分（0.56）最高。SELL标签的预测性能更好，但F1评分为0.45。购买标签的预测性能为F1得分0.25，准确率为49%。对照组对三个标签的预测性能的良好评价结果4.2. 实验组1实验实验1的设计是为了回答Q1，即环境变量是否比预测变量在目标对象的价格预测性能在这个实验中，来自13个行业环境代表企业的数据，即一个收盘价和八个VMD价格（M1，M2，…, M8), were input into the two-layered stacked GRU model (13*9117从表7中可以看出，预测性能低于对照组。在872个测试点中，环境变量预测了263个HOLD，47个BUY和18个SELL;总体预测准确率仅为37.61%，比对照组（46.79%）低19.6%，并且HOLD，BUY和SELL的平均精确度，召回率和F1-测量值均小于0.40。下表8给出了实验组和对照组之间因此，回答了Q1：环境变量在目标对象的价格预测绩效中所起的作用并不比预测变量更重要表9显示了三个标记HOLD、BUY和SELL的详细评价结果，从中可以看出，结果通常比对照实验差。由此证明了环境变量对目标对象的价格预测绩效并没有起到更重要的作用，进而证明了外部行业环境信息对股票交易策略决策并不起决定性作用。4.3. 实验组2实验实验1试图证明环境模块在目标价格策略预测中起/不起关键作用因此，实验2试图确定环境变量和预测变量是否具有相同的重要性，其中输入是目标对象和企业数据（即，14*9 126个变量），深度网络学习模型在学习其内在特征时认为这些变量同样重要表10显示实验2的总体预测准确度为41.28%，低于对照组。在872个测试点中，它只预测了236 个 HOLD 、74 个 BUY 和 50 个 SELL ，HOLD、BUY和SELL的平均精确度、召回率和F1分数分别为0.41、0.41和0.39。表11给出了三种标签的详细评价结果。与对照实验相比，实验2的预测模块增加了环境信息。当信息不受约束并作为同等重要性的特征变量时，模型有一定的改进Q. Zhu等人数据科学与管理5（2022）199206表5对照组的混淆矩阵（GRUI）。表9实验组1（GRUE）的评价指标值注：观察结果（Obs.）;预测（前）。平均数/总数表6对照组（GRUI）的评价指标值表10实验组2的混淆矩阵（GRUIE）。标签精度召回F1得分支持观察/ Pre.举行买卖举行0.460.720.56358举行2367250买0.490.160.25250买1577419卖0.480.420.45264卖1704450平均值/总0.480.470.44872注：观察结果（Obs.）;预测（前）。表7实验组1的混淆矩阵（GRUE）。表11实验组2（GRUIE）评价指标值注：观察结果（Obs.）;预测（前）。平均数/总数表8四项实验的准确度结果持有、买入和卖出的预测值高于0.70;持有的召回率高达0.87，卖出的召回率为0.70，买入的召回率为0.64。虽然结果不可避免地受到样本量不均匀的影响EX实验模型应用准确度（%）与控制组和实验组1相比，它们表现出了显著的改善，对于控制组和实验组1来说，在一个波动期内只有一个最佳买入点和一个最佳卖出点，而许多其他策略在实际金融市场中保持不变。因此，一套不对称的标签可被视为金融市场持续波动的自然结果。结果;然而，有大量的信息干扰。部分改进是因为买入的召回率从0.16增加到0.30;然而，持有和卖出的召回率分别从0.72下降到0.66和0.42下降到0.19，所有三个标签的平均准确度值由于干扰而降低因此，Q2是可以回答的，因为没有发现环境变量与预测变量相互作用;也就是说，环境变量可能独立起作用。4.4. 实验组3实验为了回答问题3，实验3设计了预测模块和环境模块。如表12所示，预测性能有显著改善。在872个测试点中，最终模型准确预测了310个HOLD（358个测试集），161个BUY（250个）和185个SELL（264个）标签;总体预测准确率为75.23%，比对照组（46.79%）高60.8%，HOLD，BUY和SELL的平均精确度，召回率和F1分数都高达75.23%，显著高于对照组的平均值，后者不到50%。实验3的优异预测性能回答了Q3，证实了环境变量的独立性和有效性，即环境模块中的行业环境变量在个股价格策略预测中起着重要的辅助、独立和不可或缺的作用，而预测模块在综合考虑四个实验结果的基础上起着关键作用。在三个维度（准确度、召回率和F1分数）中的HOLD、BUY和SELL预测的统计性能评估示于表13中，从中可以看出，当精确率和召回率相结合时，最高的HOLD F1分数值为0.82，SELL为0.71，BUY指数为0.69。因此，HOLD的统计性能最好，因为它具有最高的召回率（0.87），最高的精确度（0.78）和最高的F1分数（0.82）。从表 13 中可以看出， 358 个测试点中有 310 个（ 0.87 ）被预测为HOLD，只有19个测试点被错误地预测为BUY，29个测试点被错误地预测为SELL。在实践中，这些类型的错误预测的影响很小，因为错误预测的买入和卖出预测是接近最佳买入或卖出点的次优策略。为了确定超额收益，该模型被设计为预测收盘价时间序列波动的局部极值点，即最佳买入点和卖出点。然后，利用最优的买入卖出操作，可以获得最优的超额收益。虽然可以采用持有策略而不是极值，但在极值附近的错误买入或卖出预测为投资者提供了第二好的正回报例如，局部最小点附近的点被预测为买入，并且局部最大点附近的点被预测为卖出。在测试集中的250个买入机会中，有161个被准确预测，并且有0.64的低买入召回率错误的买入（43）预测中有一半归因于持有，这意味着模型错过了买入窗口，但没有财务损失。然而，超过一半的错误买入预测（46）被错误预测为卖出，这通常被投资者称为“反向操作”;即股票在最低点卖出。因此，需要对模型进行改进。在测试集中的264个卖出机会中，有185个被准确预测，卖出召回率为0.70，大多数错误预测是持有（79个中有42个）;因此，预测错过了最佳卖点，而没有造成财务损失。但仍有37名观察/ Pre.举行买卖标签精度召回F1得分支持举行2572972举行0.400.730.52358买1624147买0.280.190.22250卖14113110卖0.360.070.11264观察/ Pre.举行买卖标签精度召回F1得分支持举行2637520举行0.420.660.51358买1914712买0.390.300.34250卖2004618卖0.420.190.26264控制GRUI46.79组1Grue37.61组2格鲁伊41.28组3格鲁伊-格鲁伊75.23Q. Zhu等人数据科学与管理5（2022）199实验组：对照组（GRUI）、实验1组表12207实验组3的混淆矩阵（GRUI-GRUE）。观察/ Pre.举行买卖举行3101929买4316146卖4237185注：观察结果（Obs.）;预测（前）。表13实验组3（GRUI-GRUE）的评价指标值标签精度召回F1得分支持举行0.780.870.82358买0.740.640.69250卖0.710.700.71264平均/共计0.750.750.75872错误的买入看涨期权，与在当地高点买入相反，导致亏损。4.5. 财务模拟结果为了更好地评估模型的性能，在实际的金融市场中模拟了预测的交易决策。如果预测标签是买入，股票就以当时的价格买入;如果预测标签是卖出，股票就在此时卖出（股票必须在此之前买入）;如果预测标签是持有，股票或现金就被持有。金融模拟中的初始资金为10万CNY，交易成本也被添加到账户中，以更好地反映真实的股票交易。中国国内证券交易有两项主要费用：交易手续费和销售印花税。证券买卖收取0.02%-0.08%不等的手续费，单笔手续费最低5 CNY，所有买卖均需缴纳0.15%的印花税。因此，为每件商品设定了0.05%的买入交易成本和0.15%的卖出

下载后可阅读完整内容，剩余1页未读，立即下载