华泰证券:人工智能选股——广义线性模型详解与应用

需积分: 15 5 下载量 51 浏览量 更新于2024-07-15 2 收藏 2.56MB PDF 举报
华泰证券于2017年6月22日发布了一份名为“人工智能选股之广义线性模型”的研究报告,这是他们“华泰人工智能系列”的第二篇。报告旨在探索和改进传统的多因子选股模型,利用机器学习方法优化线性回归模型,以提高股票投资决策的准确性和效率。 报告的核心内容聚焦在广义线性模型(GLM)的应用上,这是一种用于捕捉股票收益与因子暴露之间关系的统计模型。GLM的基本思想是通过线性回归的形式来预测未来股票收益,考虑了多种可能影响股价的因素(即因子)。研究者们试图统一视角,对比并分析不同GLM变种(如线性回归、岭回归、Lasso回归和弹性网络)在选股策略中的性能。 构建和应用广义线性模型的过程包括以下关键步骤: 1. 特征和标签提取:从历史数据中提取影响股票收益的关键因素作为特征,目标变量是股票的下期收益。 2. 特征预处理:对提取的特征进行清洗和规范化,例如去除异常值和标准化,以减少极端值的影响。 3. 训练集合成与滚动训练:构建时间序列的训练集,通常通过设定滚动窗口(如12至24个月)来进行,以便模型能够适应市场的变化。 4. 回测与评价:根据模型预测的下期收益生成策略,如沪深300行业中性、中证500行业中性和不做行业中性选股策略,并通过信息系数(IC)或正确率来评估模型的性能。 在参数敏感性分析部分,报告发现滚动训练集长度对模型效果有显著影响,较短的时间窗口(如12~24个月)通常能提供较好的回测结果。主成分分析(PCA)的主成分数量也会影响性能,保留更多主成分可以提高预测精度。然而,对于所有样本的使用并未明显提升正则化的效应,这可能是因为报告中使用的因子已经被证实为有效的,因此不需要额外的正则化手段来筛选。 这份报告展示了如何将广义线性模型应用于人工智能选股,并通过实证分析优化模型参数,以期为投资者提供更精确和实用的股票投资策略建议。值得注意的是,报告还强调了模型的动态性和适应性,反映出AI在金融领域中日益重要的角色。