没有合适的资源?快使用搜索试试~ 我知道了~
首页长江证券-机器学习白皮书系列二
长江证券-机器学习白皮书系列二
需积分: 0 121 浏览量
更新于2023-05-29
评论
收藏 2.16MB PDF 举报
本篇报告将进行无监督学习方法的介绍。无监督学习方法包括分布估计、因子 分析、主成分分析、聚类分析、关联规则和Google PageRank 算法等,本文主 要就常用方法分成两类:聚类和降维进行介绍。
资源详情
资源评论
资源推荐

请阅读最后评级说明和重要声明
1 / 22
[Table_MainInfo]
┃研究报告┃
机器学习
2017-11-27
机器学习白皮书系列之二:无监督学
习的方法介绍及金融领域应用实例
金融工程┃专题报告
报告要点
无监督学习方法简介
本篇报告将进行无监督学习方法的介绍。无监督学习方法包括分布估计、因子
分析、主成分分析、聚类分析、关联规则和 Google PageRank 算法等,本文主
要就常用方法分成两类:聚类和降维进行介绍。
降维方法的应用
实践中,将降维思想运用得炉火纯青的是 Barra 风险模型。个股和个券都有几
十、上百个指标可以辅助分析其收益风险特征,通过降维的方式,Barra 提取出
若干具有代表性的风险因子,找出了资产背后共同驱动因素,使用这些风险因
子即可方便的进行绩效归因、组合风险控制等。降维的具体方法包括因子分析
和主成分分析等。本文通过因子分析和主成分分析两种方法,结合常见的股票
基本面、财务数据、技术指标等,构建选股策略。与基准相比,策略都能获取
一定的超额收益,说明了通过降维提取主要特征能够起到一定的提纯和增强作
用。
聚类方法的应用
聚类分析方法基于相似性概念将数据集再划分,形成较小的组,追求组别间差
异尽量大而组内的差异尽量小。根据样本数据特征和预期达到的效果,聚类可
选择的方式非常多。本文详细介绍了 K-Means 聚类分析的原理,并且对于几种
常见的聚类分析算法:沃德层次聚类、综合层次聚类算法、聚集聚类算法、基
于密度的聚类算法、AP 聚类算法、谱聚类算法、小批量法等也一一进行简介。
在具体应用上,聚类分析可以用做选股前的预处理,通过重要特征将个股分类
之后在每个类别中分别进行选股,效果会优于在全样本内选股。此外,聚类分
析的可视化也是重要的应用方式之一,通过热图或最小生成树的方式可以直观
的描述资产间的相关性,帮助实现投资组合的风险分散。
无监督学习方法的总结
无监督学习相较于上篇的监督学习算法更偏向于数据分析和特征提取,在机器
学习中属于算法比较简单基础的类型,因此很多时候容易被忽略,但是不得不
强调监督学习及我们系列的下篇将会介绍的深度学习算法如若想要达到较好的
效果都离不开对于原始数据分析和处理工作,提升算法的复杂度对于效果的边
际提升效应会受到使用的数据本身的局限。
[Table_Author]
分析师
覃川桃
(8621)61118766
qinct@cjsc.com.cn
执业证书编号:S0490513030001
联系人
陈洁敏
(8621)61118706
chenjm5@cjsc.com.cn
[Table_Doc]
相关研究
《FOF 系列之首批公募 FOF 产品深入剖析》
2017-11-25
《基于 HSAR 算法的阻力位和横盘突破时点识
别》2017-10-24
《事件选股方法中的因子暴露与纯化事件收益》
2017-10-15
风险提示:
1. 模型在使用中存在建模风险;
2. 本文举例均是基于历史数据不保证其未来收益。
13844733/30242/20171129 16:30

请阅读最后评级说明和重要声明
2 / 22
金融工程丨专题报告
目录
无监督学习方法的简介 ................................................................................................................. 3
无监督学习方法的原理 ............................................................................................................................................ 4
降维方法:因子分析和主成分分析法 ............................................................................................................................... 4
聚类方法:K-Means 聚类分析 ........................................................................................................................................ 8
无监督学习方法在金融上的应用 ............................................................................................................................. 8
降维方法 ....................................................................................................................................... 9
主成分分析法应用实例 ............................................................................................................................................ 9
因子分析的应用实例 ............................................................................................................................................. 11
聚类方法 ..................................................................................................................................... 13
聚类方法的比较和评价 .......................................................................................................................................... 13
聚类方法的应用实例 ............................................................................................................................................. 17
总结 ............................................................................................................................................ 21
图表目录
图 1:机器学习/人工智能方法介绍 ............................................................................................................................... 3
图 2:因子旋转与可解释性 ........................................................................................................................................... 5
图 3:Barra 多因素模型及可用到的降维方法 ............................................................................................................... 9
图 4:主成分分析组合收益 ......................................................................................................................................... 10
图 5:因子分析选股策略净值 ...................................................................................................................................... 12
图 6:因子分析选股与单因子选股 .............................................................................................................................. 12
图 7:K-Means 和 DBSCAN 在双环分布聚类上的比较 .............................................................................................. 15
图 8:沪深 300 成分股聚类(时间序列上的变化) .................................................................................................... 17
图 9:沪深 300 成分股聚类(不同聚类类别数下的变化) .......................................................................................... 18
图 10:K-Means 聚类组合收益 ................................................................................................................................... 19
图 11:Ward 分层聚类的可视化 .................................................................................................................................. 20
表 1:主成分分析组合分年表现 .................................................................................................................................. 10
表 2:因子载荷矩阵 .................................................................................................................................................... 11
表 3:因子分析组合分年表现 ...................................................................................................................................... 13
表 4:聚类效果评价指标 ............................................................................................................................................. 16
表 5:聚类分析组合年化收益 ...................................................................................................................................... 19
表 6:Ward 分层聚类部分结果展示 ............................................................................................................................ 21
13844733/30242/20171129 16:30

请阅读最后评级说明和重要声明
3 / 22
金融工程丨专题报告
在机器学习白皮书系列的第一篇报告中,我们对于机器学习算法做了梳理,将机器学习
/人工智能算法分为了监督学习、无监督学习、深度学习及其他,第一篇报告主要介绍了
监督学习的算法及应用实例,通过将样本数据截取出部分作为训练期,在训练期中明确
输入指标(X)及对应的标签(Y),在对应输出标签的“监督”下来选择合适的参数是
监督学习的主要特征。监督学习的学习目标可分为两类: 和 , 也就是回归
问题和分类问题。
图 1:机器学习/人工智能方法介绍
资料来源:JP Morgan, 长江证券研究所
回顾第一篇内容,回归中涉及到了惩罚回归模型和非参数回归模型。惩罚回归模型中金
融领域使用得较多的有 Lasso 回归、岭回归和弹性网络回归;具有代表性的非参数回归
模型则有:K 最近邻、LOESS 及卡尔曼滤波器。同时,也用到两个实例来说明了惩罚
回归模型在拟合中的优势,以及卡尔曼滤波器使用时对于趋势判断、状态分辨的灵敏性。
分类算法包括逻辑回归、支持向量机(SVM)、决策树、随机森林以及隐马尔可夫模型。
前面四种模型我们给出具体的择时和选股上的实例,使用决策树进行指数周度择时效果
较为突出。隐马尔科夫模型我们则是验证其对于国内 A 股市场的状态划分是否有效,但
是其月度市场状态划分效果不明显。
本篇报告将进行无监督学习方法的介绍,区别与监督学习,无监督学习是指在不区分输
入指标和对应标签,通过直接输入全部样本的情况下学习数据集的分布特征,无监督学
习方法包括分布估计、因子分析、主成分分析、聚类分析、关联规则和 Google PageRank
算法等。
无监督学习方法的简介
无监督学习的模型众多,本文主要就两类常用方法:聚类和降维进行介绍。图 1 中分
别列举了聚类和降维两种类别下对应的部分模型。我们将选取文中实例中使用到的模型
进行详细介绍和推导。
降维方法顾名思义就是在众多变量或指标中提取具有代表性的特征,主要包括因子分
析、主成分分析、独立成分分析等。以主成分分析为例,主成分分析方法旨在识别数据
的主要驱动因素或确定最具代表性的因子组合。例如,收益率曲线变动可以通过收益的
平行移动、曲线的陡度变化和曲线的凸度来描述。在多资产组合中,主成分分析可以识
别出如动量、价值、波动性、流动性等主要驱动因素。
13844733/30242/20171129 16:30

请阅读最后评级说明和重要声明
4 / 22
金融工程丨专题报告
聚类分析方法基于相似性概念将数据集再划分成较小的组,在金融领域,可以应用于识
别波动率、利率等的高、低的状态,而准确的状态识别对不同资产及不同风险溢价的配
置具有重要意义。
无监督学习方法的原理
降维和聚类的方法多种多样,理论模型部分我们将不做过多介绍,主要就我们给出应用
实例时使用到的模型做详细说明。
降维方法:因子分析和主成分分析法
因子分析
因子分析是一种常用的统计学变量降维和特征重建方法,模型为:
,
其中 为
m
个潜在公共因子,
()
jk
为
p
个随机变量在这些公
共因子上的载荷矩阵,
j
e
为随机误差项。一般地,该模型假设公共因子个数
m
小于原
始变量维数 p,也就是实现变量降维;其次,公共因子之间不相关,在正态分布下等价
于独立,这有助于风险的分解;同时还会假设随机误差项与公共因子不相关。
因子分析得以被广泛使用,一方面是因为它能降维整合信息,也可视为去噪;另一方面,
因子模型可通过旋转变换调整公共因子和载荷矩阵,进而通过各变量在单个因子上的载
荷大小实现对公共因子的合理解释,这在实证分析中尤为重要。举一个简单的例子,用
2 维公共因子张成 10 个变量,对应的
10 2
维因子载荷矩阵散点分布图如图 2 所示。
13844733/30242/20171129 16:30

请阅读最后评级说明和重要声明
5 / 22
金融工程丨专题报告
图 2:因子旋转与可解释性
资料来源:长江证券研究所
(如左图所示)原始因子 1 可通过
3 4 6 7
, , ,X X X X
意义综合解释,因为这些
变量在因子 1 上的载荷远大于在因子 2 上的载荷;
(如左图所示)原始因子 2 无法得到合理的解释,因为没有变量在该因子的
载荷能远大于在另一个因子的载荷;
(如右图所示)通过旋转使得变量在两个因子的载荷差异尽量大,此时得到
的因子 1 可结合
2 8 9
,,X X X
来解释,因子 2 可结合
1 4 10
,,X X X
来解释。
主成分分析(PCA)
主成分分析与因子分析类似,通过使用较低维度变量提取相关性较强变量中的信息,是
处理变量共线性和充分提取数据信息的有效手段之一。PCA 方法最著名的应用是在人
脸识别中特征提取及数据维度的降低。假设仅输入 100*100 维的人脸图像,提取它的灰
度值作为原始特征,则这个原始特征将达到 10000 维,这给后面分类器的处理将带来极
大的难度。著名的人脸识别 Eigenfaces 算法就是采用 PCA 算法,用一个低维子空间描
述人脸图像,同时保存了识别所需要的信息。关于 Eigenfaces 算法的具体过程可以参
考 Matthew Turk 和 Alex Pentland 的论文《Eigenfaces for Recognition》。
本质上来看 PCA 是 KL 变换处理离散情况的算法,是 KL 变换的一种应用形式。因此下
面先介绍 KL 变换。
离散 KL 变换是一种常用的特征提取方法,用于实现最小均方误差下的最优正交变换,
对于向量 ,假设其可以用确定的完备正交归一向量系数 展开,则有:
13844733/30242/20171129 16:30
剩余21页未读,继续阅读





安全验证
文档复制为VIP权益,开通VIP直接复制

评论0