2014 年 4 月
第 30 卷 第 2 期
纯粹数学与应用数学
Pure and Applied Mathematics
Apr. 2014
Vol. 30 No. 2
基于 L
p
正则化的自适应稀疏 group lasso 研究
张吐辉 , 张海
(西北大学数学系, 陕西 西安 710069)
摘要:基于稀疏 group lasso 的思想和 adaptive lasso 的优点, 提出更具一般性的 L
p
正则化的自适应稀疏 group lasso, 并对其高维统计性质进行了研究. 通过对正则子、损
失函数的性质和正则参数的选择的分析, 最终得到基于 L
p
正则化的自适应稀疏 group
lasso 非渐近误差界估计.
关键词:稀疏 group lasso; 限制强凸; 可分解性; adaptive lasso
中图分类号:O236, O213 文献标识码:A 文章编号:1008-5513(2014)02-0178-08
DOI:10.3969/j.issn.1008-5513.2014.02.009
1 前前前言言言
一般线性回归问题
y = Xβ + Ω,
其中 y 是 n × 1 响应变量, X = (X
1
, X
2
, ··· , X
n
)
T
是 n × d 矩阵, X
i
= (x
i1
, ··· , x
id
),
i = 1, ··· , n, β = (β
1
, ··· , β
d
) 为 d×1 未知参数. Ω 是噪声向量且服从高斯分布 Ω ∼ N (0, σ
2
I).
若真实模型系数为 β
∗
= (β
∗
1
, β
∗
2
, ··· , β
∗
q
) 且 q < d 时, 对响应变量起决定作用的只有 q 个变量,
其余变量对响应变量影响不大, 称之为冗余变量. 现实应用中, 通常要对高维海量数据进行处
理, 要求不仅要辨识出真实变量, 而且还要剔除冗余变量. 因此如何构造可行的处理高维海量数
据的方法一直是数据分析的热点问题. 近年来发展起来的正则化方法为求解这类问题提供了有
效的途径
[1-2]
. 文献 [3] 提出的 lasso 方法为变量选择和特征提取提供了一种有效方法. 但 lasso
方法在解决具有组结构的问题时, 通常会导致多选或漏选因子, 并且 lasso 方法的解随着因子采
用正交比的不同对应不同的解.
一般地, 具有组结构线性模型可表示为:
y =
L
l=1
X
l
β
l
+ Ω,
收稿日期:2013-11-10.
基金项目:国家自然科学基金 (60975036,11171272).
作者简介:张吐辉 (1988-), 硕士生, 研究方向:机器学习.