2008
年
1
月
第
15
卷第
1
期
控制工程
Control
Engineering
of
China
Jan.
2008
Vo
l.
15
,No.1
文章编号:
1671-7
但
8(2
∞
8
)01-0103-04
一种新型的模型树算法研究及应用
张坤,穆志纯,常晓辉
(北京科技大学信息工程学院,北京
1
(008
3)
摘
要:决策树算法训练速度快、结采易于解释,但在实际应用中其分类精度难以满足
业务要求。为了提高决策树算法的精度,基于Lo
gi
出∞
st
算法的优点,对决策树臼
.5
算法进行
了改进。在决策树的叶节点上应用Lo
gi
由∞,
st
算法建立叠加回归模型,得到一种新型的模型树
算法.町
free
算法。通过
11
纽
UCI
数据集试验,经分析比较,证明
L
口
ree
算法比其他算法更有
效。将该算法应用于电信客户离网预警系统建模,结果表明,该算法可有效地分析客户特征,
精确地预测离网客户。
关键词:
Lo~民
t
胁。
st;
模型树算法;数据挖掘;客户关系管理;客户离网预警
中图分类号:
TP
311
文献标识码
A
On
A
New
Model Tree Algorithm and
It
s Application
ZHANG
Kun
,
MU
Zhi-chun
,
CHANG
X
i.a
叫
U~
(Sc
hool
of
Infonnation
Engineering
,
Sc
ience
四
d
Technology
University
of
Beijing
,
Beijing
1000
侣,由
ina)
Abs缸"3
ct:
Decision tree algorithm has
high
training speed
and
臼
sy
understandable result, but it
h
岱
the
disadvantages of limited precision re-
sulting and is unable to
satis
句
the
need of application in businesses. Basd on the advantages of
Lo
gitBoost algorithm, a new model tree algo-
rithm called
lJ口'r
ee
algorithms is proposed. LCfree algorithm is an improved algorithm building
Lo
gistic model on the leaves
of
臼
.5
tree.
哑
le
e
邓
e
垣
ments
of
由
e
LCfree algorithms show
be
忧
.er
precision
白血。由
ers
algorithms.
咀
le
application in classification modeling of telecommunica-
tions
d
且
ta
set
got more effective
r
,臼
ults
也
an
CA.5
does.
Key
words:
Lo
gitboost; model tree algorithm; data mining; CRM; customer loss
w.
臼由
ng
1
引言
分类预测问题是数据挖掘中经常遇到的问题。
常用的算法包括决策树、贝叶斯网络、对数回归、
人工神经网络、支持向量机等。决策树方法是解决
分类问题最有效的方法
[1]
它以训练模型速度快、
结果容易被管理人员理解的优点被广泛应用于各种
领域。在决策树算法中影响力最大的是C4
.5
算法,
然而,在业务领域,单纯应用C4
.5
算法得到的模
型,预测精度不太理想。
本文基于Lo
gitBoost
优点,尝试从生成模型树
的方向,而不是组合弱分类器的方向,对C4
.5
算
法进行了改进,提出一种新的模型树分类算法
LCTree
算法,并用
UCI
数据集做了实验比较;最
后,应用于电信数据。通过分析比较,证明了
LCTree
算法精度高,强健,更适于实际应用。
2
LCfr
ee
算法
为了提高模型的精度,研究者往往采用组合多
收稿日期:
2
硝明
-16;
收修定稿日期
2
仪l6-
12-<
滔
模型的方法。提升
(B
∞
sting)
就是其中常用一种。提
升方法通过搜寻另外一个互补的模型,通过不同的
方法将这些同类模型进行组合,来完善最终的学习
模型。这样在每次提升过程中,通过加强对错误分
类样本的学习,获得高精度的组合模型
[2]
。实践证
明,在大多数问题上,这种组合模型比单个模型的
预测性能要好。
Adaboost
算法是提升算法中应用较
广泛的一种,已有研究者将其对C4
.5
算法进行提
升得到组合模型分类器,获得了比C4
.5
单一模型
分类器更高的精度。
然而,在存在误类别噪声的情况下,另一种提
升算法相比较而言更具优势,即Lo
gitBoost
算法,
它与
Adaboost
算法一样都是基于对数似然估计的叠
加Lo
gistic
模型算法
[3]
。
与其他研究不同的是,本文尝试将Lo
gitBoost
提升算法应用到决策树的叶节点上,经过若干次提
升,在叶节点得到一个叠加的对数回归模型,最终
得到一棵模型树;而不是用C4
.5
作为弱分类器,
用提升的方法做模型组合。相比较来说,前者在算
基金项目:北京市教育委员会重点学科共建基金资助项目
(XKIOC
朋
0537)
作者简介:张
坤
(1982-)
,女,河北部郭人,研究生,主要研究方向为数据挖掘、数据仓库的理论与应用等;穆志纯
(1952-)
,男,天
津人,教授.博士生导师。