高维数据的惩罚复合分位数回归分析与比较

24 浏览量更新于2024-07-16 1 收藏 280KB PDF 举报

"高维数据的惩罚复合分位数回归 - 首发论文 - 李玉杰，胡涛 - 首都师范大学数学科学学院" 本文主要探讨的是在处理高维数据时，如何应对厚尾分布的问题。在许多科学领域，如金融、统计学、气候研究等，常常会遇到具有厚尾特性的高维数据集。传统的最小二乘回归方法在处理这类数据时可能产生不准确的结果，因为厚尾分布的数据往往会导致异常值的影响加剧，进而使得估计的参数不稳定。文章提出了一种基于线性模型的惩罚复合分位数回归方法。分位数回归是一种统计分析技术，它关注的是数据分布的某个特定百分位数，而不是平均值，因此对于异常值的鲁棒性更强。在高维数据场景下，当模型的真实非零系数数量随着样本量的增加而缓慢增长时，采用带惩罚的复合分位数回归可以有效识别和估计这些重要的系数。复合分位数回归（Composite Quantile Regression, CQR）结合了多个分位数的信息，增强了模型的稳健性。在此基础上，文章引入了两种类型的惩罚项：一种是带有非随机权重的惩罚，另一种则是带有随机权重的惩罚。这样的设计旨在控制模型的复杂度，避免过拟合，并帮助筛选出真正影响模型的变量。作者通过理论分析证明了这种惩罚复合分位数回归方法在特定条件下的相合性（即估计量趋于真实值）和渐进正态性（即估计量的分布随着样本量增大而接近正态分布）。这为实际应用提供了坚实的理论基础。此外，为了验证所提方法的有效性，文章在不同误差分布假设下，对比了Lasso、SCAD（Smoothly Clipped Absolute Deviation）和R-Lasso等常见惩罚方法，以及本文提出的CR-Lasso（Composite Quantile Regression with Lasso Penalty）。结果表明，在误差分布具有重尾特性的情况下，CR-Lasso在识别非零系数方面表现出优于其他方法的性能。关键词涉及到的核心概念包括分位数回归、复合分位数回归、Lasso正则化、SCAD正则化以及高维数据处理。这些概念都是现代统计学习和机器学习中的重要工具，尤其在处理异常值和高维度复杂数据时具有广泛应用价值。总结来说，这篇论文为高维厚尾数据的分析提供了一种新的、有效的统计方法，通过惩罚复合分位数回归解决了传统方法的局限性，尤其是在数据存在异常值和重尾分布时，能够提高模型的稳定性和预测准确性。

˖ڍመ᝶஠ڙጲ

http://www.paper.edu.cn

Zou and Yuan (2008) 考虑的是 p 固定的情形, 且对于 ε 的每个分量独立且满足 P (ε

≤

∗

) = τ

, 0 < τ

< 1, k = 1, ··· , K 是事先取定的. 对应于 Fan and Li 2001 年定义的 LS-oracle

估计, 首先给出 CQR-oracle 估计的需要满足的性质:

1) 一致选择性:P ({j :

∗

= 0} = M

∗

) → 1;

2) 有效估计性:

√

∗

− β

∗

)

−−→ N(0, Σ

CQRoracle

其中

CQRoracle

= C

−1

∗

(



k=1

f( b

∗

))

−2



k,k

′

min (τ

, τ

′

)(1 −max (τ

, τ

′

)).

从计算量的角度考虑, Zou and Yuan(2008) 选择的是 adaptive-lasso 形式的惩罚函数. 并

证明了在一定的正则条件下及调节参数 λ 满足 λ = o(

√

n) 和 λ → ∞ 时, 得到的估计满足上面

的两条性质, 即为 CQR −oracle 估计. 类似可以比较其相对于 LS −oracle (如果存在的话) 的

渐进相对效率, 结果与(7)相同. CQR − oracle 相较于 LS − oracle 的较好的性质是不对方差

作限制, 且相对效率可以大于 70%.

Zou and Yuan(2008) 提出 CQR 准则使用的是区间 (0,1) 的等分点, 即可以看作是区间

(0,1) 离散均匀分布. 从这一角度, 可以考虑更广泛的情况, τ 在区间 (0,1) 连续取值. 即最小化





i=1

− b

− x

β)w(t)dt. (10)

在 Zou and Yuan 的文章最后也指出这一问题尚待解决.

随着现在技术的发展, 协变量的个数越来越多, 而样本量却相对很少. 例如, 生物学中的基

因组的关联研究涉及到成千上万的单核苷酸多态性, 但可用的样本量通常仅有数百个. Fan and

Fan 2014 年的文章研究了 s = o(n) 的稳健估计问题, 即真实模型中非零系数的个数关于样本量

慢慢发散, 但速度不是很快.

Fan and Fan 2014

年的文章研究的目标函数是

(β) =



i=1

− x

β) + nλ



j=1

|, (11)

其中 d = (d

, ··· , d

)

为非零权重向量. 关于 d 的取值方法有两种: 其为非随机的权重向量;

在有回归系数的一个初始估计和选定惩罚函数后

其每个分量的取值为

(

ini

|). 对于

前一种取值方法, 特殊地, 权重向量每个分量取值为 1, 此时(11)得到的估计称为稳健 Lasso(R-

Lasso) 估计, 常作为后一种取值方法的初始估计值. 当选用后一种取值方法时, (11)得到的估计

称为自适应的稳健 Lasso(AR-Lasso) 估计.

Fan and Fan 2014 年的文章的另一贡献是: 除非信号比较强, 否则对于厚尾分布, Lasso 方

法将会失效. Fan and Fan 考虑误差 ε

, ··· , ε

独立且都服从对称稳定分布. 对应的特征函数为

E[exp(iuε

)] = exp(−|u|

), α ∈ (0, 2). 对设计矩阵加一些限制, 并假定所有协变量起的作用相

- 4 -

剩余19页未读，继续阅读

weixin_38577378

粉丝: 4
资源: 894

高维数据的惩罚复合分位数回归分析与比较

基于LASSO分位数的非负两步估计及在标普500指数追踪中的应用

分位数回归 matlab

分位数回归模型中的两步变量选择 (2015年)

海量数据下非迭代复合分位数回归分析

使用admm-lasso分位数回归解决高维数据建模问题

高维数据挖掘中基于稀疏回归的嵌入式特征提取方法.pdf

高分位数数据的分位数回归森林的扩展

kaggle实战_4解决高维数据分类/回归问题–房价预测

高维数据分类方法研究

高维预测的分位数随机森林方法

最新资源