收稿日期:20140915;修回日期:20141110 基金项目:天津哲学社会科学规划项目(TJTJ13002)
作者简介:袁铭(1982),男,天津人,讲师,博士,主要研究方向为数据挖掘(yuanmingtianjin@163.com).
WFEN的贝叶斯估计及在高维预测模型中的应用
袁 铭
(天津财经大学 理工学院 统计系,天津 300222)
摘 要:针对传统收缩估计中 难以进 行统计 推断以 及无法 同时确 定惩罚 因子问题,在 权 融 合 弹 性 网 回 归
(WFEN)的基础上,给出其 Gibbs层次抽样模型并构造相应的贝叶斯估计量(BayesianWFEN,BWFEN)。该算法
根据 ExpectationMaximization方法同时确定估计中的两个惩罚因子,并基于回归系数的经验后验分布计算估计
量标准误差和进行变量选择。模拟实验表明,
BWFEN的迭代过程具有良好的收敛性,在面对稀疏预测模型或者
模型中的预测变量存在群组效应时具有较低的相对预测误差和较高的变量选择精度。在博客回复数预测模型
的实际应用中,BWFEN也显著优于其他收缩估计方法。
关键词:收缩估计;权融合弹性网回归;贝叶斯估计;EM算法
中图分类号:TP183 文献标志码:A 文章编号:10013695(2016)01016104
doi:10.3969/j.issn.10013695.2016.01.037
BayesianestimationofWFENanditsapplicationin
highdimensionalpredictionmodel
YuanMing
(Dept.ofStatistics,CollegeofScience&Engineering,TianjinUniversityofFinance&Economic,Tianjin300222,China)
Abstract:Inordertoaccommodatetheproblemsofconventionalshrinkageestimationmethodsfortheirdifficultiesofstatisti
calinferenceanddeterminingpenalizedfactorssimultaneously,thispaperproposedthehierarchymodelofGibbssampleror
weightfusedelasticnetregressionandcorrespondentBayesianestimator(BWFEN).Themethodsdeterminedallpenalized
factorssimultaneouslybyusingExpectationMaximizationalgorithm andcomputesestimator’sstandarderroraccordingtoits
empiricalposteriordistribution,aswellasconductsvariableselection.SimulationexperimentsshowthatBWFENconverges
quicklyandhaslowrelativepredictionerrorandhighvariableselectionaccuracywhenbeingappliedtosparsepredictivemodel
orthemodelwhichhassignificantgroupeffects.Theexperimentstowardstherealdataset“BlogFeedBack”alsoverifiesBW
FEN’ssuperioritytoothershrinkageestimationmethods.
Keywords:shrinkageestimation;weightfussedelasticnetregression;Bayesianestimation;EM algorithm
!
引言
近年来,大 数 据 逐 渐 成 为 各 行 业 领 域 关 注 的 热 点 问
题
[1~3]
。借助于信息技术,用户在微博、门户网站、购物网站的
每一次浏览记录、每一次点击、每一条评论都被作为数据存储
起来,因此出现了许多新类型数据源以及基于这些数据源的分
析与预测
[4,5]
。例如,亚马逊推荐依赖于对用户关注的商品的
预测模型;谷歌搜索结果和新闻推送则根据对指定网页或文章
之间相关性进行预测的算法,这些算法可以描述为利用样本容
量为 n的 p个预测变量对响应变量进行预测。而在大数据背
景下,预测模型又具有如下特点
[6]
:a)p>>n,也就是预测变量
个数远大于样本数,这会带来过度拟合问题,也即在样本内能
完美的拟合数据,而样本外的预测精度很差;b)维数很高,模
型中的变量数很多,如 UCI数据集中的“AmazonAccessSam
ple”包括 20000个预测变量;c)强相关性和多重共线性,预测
变量之间非独立,这一点在经济预测中表现得尤其明显;d)存
在大量冗余信息和噪声,预测变量矩阵是稀疏的,同样在 Ama
zon数据集中虽然有 30000个观测点和 20000个预测变量,但
非零值只占 10%。上述四个特征使人们在大数据背景下建立
预测模型时必须使用数据降维方法。
典型的数据降维技术有基于惩罚最小二乘法的收缩估计
方法,如 岭 回 归、LASSO 回 归
[7]
、弹 性 网 回 归 (elasticnet,
EN)
[8]
等;以及基于主成分分析的主成分回归(PCR)
[9]
和偏最
小二乘回归(PLS)
[10]
等。后一种方法可以提取数据的主要信
息(公因子),但难以解释因子含义,因此以
LASSO回归为代表
的收缩估计和变量选择得到了越来越广泛的应用
[11,12]
。但在
实际应用中,人们发现当预测变量之间存在强相关性时,回归
系数存在群组效应(强相关变量的回归系数很接近),而传统
的 LASSO回归、弹性网回归倾向于随机选取其中一个变量,这
就为变量选择带来了很大的不确定性。
有鉴于此,文献[13~15]分别在 LASSO估计量和 elastic
net估计量基础上引入权重对群组内变量回归系数的差异进行
惩罚,提 出 了 权 融 合 LASSO估 计 (weightfusedLASSO,WF
LASSO)以及权融合 elasticnet估计(weightfusedEN,WFEN)。
但这两种方法也存在局限性:a)WFLASSO和 WFEN都需要同
时确定多个惩罚因子,而实际中为了降低计算负担,通常采用
交替确定的方法,也即首先主观确定其中一个惩罚因子,然后
根据一定准则确定另一个,这样做最终得到的参数组合未必是
第 33卷第 1期
2016年 1月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.33No.1
Jan.2016