支持向量机在多因子选股的预测优化支持向量机在多因子选股的预测优化
使用财务数据构建一个多因子选股模型,在支持向量机分类上进行预测优化。选股上使用排序法对数据进行预
处理,再使用支持向量机对股票收益进行分类预测,最后使用数据到分离超平面的距离进行排序,优化支持向
量机的分类预测。实证中,从中证500成分股中选出股票组合,在2016年四季度到2018年一季度获得累计收益
88.96%。择时策略的均线策略和通道突破策略均能有效降低波动率和回撤。还使用高频数据来降低均线策略的
滞后性,波动率又得到进一步降低。本模型利用支持向量机性质提高预测精度,结合技术分析优化了策略的收
益,为多因子选股和交易提供了新的研究视角。
0 引言引言
哪些因子决定了股票的收益,是股票市场的重要问题。投资者希望通过分析股票的相关数据,根据内在的关系建立一个投
资策略,使得在长期能够获得超额收益。如何从众多不同行业、不同规模的股票中挑选出具有投资价值的股票,是很困难的。
多因子选股模型是投资领域研究的常用模型。资本市场十分复杂,为了更好地解释股票价格的波动,以往的研究往往引入大量
的因子来实现模型的复杂性和精确性,本文则主要优化模型的预测能力。
2008年,李云飞在使用支持向量机来构建选股模型研究中发现,尽管选出的股票组成能够超过指数回报率,但也发现组合
中存在不少缺乏潜力的股票
[1]
。为了克服这一问题,一些新的方法被引入模型中,主要是数据预处理(预测前)和股票组合调
整(预测后)两个方向。对于数据预处理,2009年,蔡健林通过小波SSNF算法对数据进行预处理
[2]
;2011年,徐国祥和杨
振建引入主成分分析和遗传算法构建模型
[3]
。对于股票组合调整,2017年,周渐结合在线学习、动态调整持仓和因子轮动来
优化模型
[4]
;2018年,田浩使用马科维茨的均值方差模型进行风险评估,来决定投资组合中的权重
[5]
。在支持向量机的预测优
化方面,2017年,武海燕和李卫平采用本征分解方法对核矩阵进行降维处理和随机抽样训练样本,提高SVM分类器的运算效
率
[6]
;2018年,朱菲和金炜东利用Platt概率模型将不同核函数SVM分类器的硬输出转化为概率输出
[7]
。
本研究主要使用股票的财务指标,使用股票各个方面的代表性指标来构建模型,有效降低因子数量的同时保证模型的精准
性。建立量化选股的多因子模型后,使用机器学习中的支持向量机算法(Support Vector Machine,SVM)进行选股。本文中
使用排序法来对数据进行预处理,使用支持向量机中数据到分离超平面的距离来对支持向量机的预测进行优化。其内在含义十
分明确,实证的结果表现良好;结合技术分析进行择时,还能进一步优化收益表现。
1 预测原理预测原理
1.1 因子选择因子选择
文献[8]指出国内股票的收益情况与盈利情况有很强的关联。这是传统股票投资考虑的主要因素,但盈利有滞后性和不确定
性,所以还要考虑公司盈利的内在机制,即公司的运行情况。股票投资中股价的涨跌受市场情况影响,股价价格回到内在价值
水平往往受市场情况的影响。文献[9]指出股票在市场上的交易表现情况也十分必要。通过盈利、运营、市场三方面的考虑,
股票价格从外在到内在,从直接到间接的影响因子都被考虑进多因子模型之中。
在以往研究中,使用回归方法必须要考察因子间的相关性,避免多重共线性。使用支持向量机模型很好地回避了这一问
题,只需要考虑因子的显著性和代表性。以往实证中还发现:单因子模型中有效解释股价的因子,在双因子模型、多因子模型
中未必有效。因而,多因子模型中,因子的组合必须要考虑彼此的组合效果,而非单纯考虑单因子模型中效果最佳的。参考文
献[10]的研究,选出各方面的代表性指标作为因子。
本次选取的因子如表1所示。
1.2 支持向量机原理支持向量机原理
对于线性可分问题,设线性可分样本集为(x
i
,y
i
), i=1,2,…,n,x∈R
d
,y∈{1,-1}是类别标签。判别函数的一般形
式为g(x)=w·x+b,w和b为待求参数。w为法向量,决定了超平面的方向;b为位移项,决定超平面到原点的距离。分类平面方
程为w·x+b=0 。将线性判别函数进行归一化,使样本集内的两类样本都能够满足条件|g(x)|=1,也就是使离分类面最近的样本