Semi_LDtree：急切与懒惰学习策略结合的决策树模型

需积分: 15 122 浏览量更新于2024-08-11 收藏 413KB PDF 举报

"这篇文章是2005年发表的一篇自然科学论文，主要探讨了急切式和懒惰式学习策略在决策树分类模型中的结合应用。作者为黄泽宇和卢润彩，分别来自北京交通大学和石家庄信息工程职业学院。论文提出了一种名为Semi_LDtree的新模型，该模型融合了两种学习策略的优点，既保持了决策树的可解释性，又提高了分类速度和精度，尤其是在处理大规模数据集时表现突出。关键词包括急切式学习策略、懒惰式学习策略、懒惰式决策树和朴素贝叶斯。" 在机器学习领域，学习策略通常分为急切式（Eager）和懒惰式（Lazy）两大类。急切式学习策略，如决策树、神经网络等，会在训练阶段就完全构建出模型，模型会尽可能地记住训练数据的所有细节，以期在未知数据上做出准确预测。而懒惰式学习策略，如K近邻（K-NN）、朴素贝叶斯等，不直接建立模型，而是等到预测时才利用训练数据的信息。论文中提到的普通决策树是一种急切式学习策略的代表，它通过不断地分裂特征来创建树结构，每个内部节点基于单一特征进行分裂，直到满足停止条件（如纯度或样本数量）。然而，这种策略在处理大数据集时可能会导致过拟合和计算复杂度增加。相反，懒惰式决策树，如部分应用决策树（Lazy Decision Tree），在训练时不构建完整的决策树，而是在分类时根据具体实例局部构建决策路径。这降低了训练时间，但增加了预测时的计算量。 Semi_LDtree模型正是结合了两者的优势。它的内部节点同样采用单变量分裂，保持了决策树的清晰结构和解释性。而在叶子节点上，Semi_LDtree采用了懒惰式策略，意味着每个叶子节点不是立即给出类别决策，而是作为一个局部的懒惰式决策树分类器，这样在分类新样本时可以根据具体情况动态计算。这种方式可以减少整体模型的复杂度，提高对大数据集的处理效率，同时通过局部的精细处理提升分类准确性。实验结果显示，Semi_LDtree模型在分类速度和精确度上都有所提高，特别是在处理大规模数据集时，性能优势更为显著。这表明将急切式和懒惰式学习策略结合可以有效优化决策树模型，使其在保持良好解释性的同时，增强了泛化能力和运行效率。对于大数据场景的应用，如推荐系统、风险评估等领域，Semi_LDtree模型可能是一个颇具潜力的解决方案。

文章编号 :1673-0291(2005)05-0092-06

急切式和懒惰式学习策略相结合的决策树分类模型

黄泽宇

,卢润彩

(1 .北京交通大学计算机与信息技术学院 ,北京 100044 ;2 .石家庄信息工程职业学院计算机系 ,河北 050035)

摘要 :急切式学习策略和懒惰式学习策略有着不同的学习和分类机制 .通过分析急切式学习策略

下的普通决策树模型和懒惰式学习策略下的懒惰式决策树模型 ,提出了一种新的决策树分类模型

即

Se mi_ L D tree

.它生成的决策树的结点 ,如普通决策树一样 ,包含单变量分裂 ,但是叶子结点相当

于一个懒惰式决策树分类器 .这种分类模型保留了普通决策树良好的可解释性 ,实验结果表明它提

高了分类速度和分类精确度 ,特别是在大的数据集合上效果更加明显 .

关键词 :急切式学习策略 ;懒惰式学习策略 ;懒惰式决策树 ;朴素贝叶斯

中图分类号 :

18.1 文献标识码 :

A Decision_Tree Classifier Hybrid Model

of Eager Strategy and Lazy Strategy

HUA NG Ze_ Yu

LU Run _ Cai

(1 .

School of Co mputer and Information Technology

B ei ji ng Ji aoto n g University

Beijing

100044 ,

China

;

D ep artment of C omputer

Sh i j iazhua ng I nfor mation Engin eering Vo cat ional Coll e ge

Sh ijia zh uang

050035 ,

China

)

Abstract

The eager strategy and lazy strategy have different learning and classification mechanism

the basis of analyzing regular d ecision tree classification model adopting eager strateg y and la zy d eci

si on_tre e cl assi f ica ti on m o d e l a d o ptin g l a zy strate gy

we propose a new decision_tree classification mod

Semi_LDtree

the decision _tree nodes c ontain univariate splits as regular decision _trees

but th e

leav es contain lazy decision _tree classifiers

Thi s cl assi fic atio n mo d el reta ins the g o o d interpreta bility of

decision_tree

The experimental results show this model has the higher classification accuracy and

fa ster spe e d

esp ecially on the larger databases tested

Key words

eager strategy

;

lazy strategy

;

laz y d eci sion _tree

;

v e Baye s

收稿日期 :2005-03-27

作者简介 :黄泽宇(1980—) ,女 ,湖南衡阳人 ,硕士生 .

iamakite

so hu

co m

在数据挖掘和机器学习中分类是一项非常重

要的基本任务 .一般地 ,分类任务是依据某种分类模

型,在具有类标的数据集合上学习出一个分类函数 ,

即通常所说的分类器 .该函数能够给由属性值序偶

集所描述的待分类实例指派一个最适合的类标 ,从

而可以应用于数据分类和预测

[1 ,2]

.例如 :银行部门

可以建立一个分类模型 ,对贷款的安全级别和风险

类型进行分类预测 ;销售部门可以在收集的客户资

料上建立一个分类模型 ,来判断客户是潜在客户还

是忠实客户 .机器学习、数据挖掘、专家系统、统计学

和神经生物学方面的研究者们已经提出了许多的分

类方法和技术 ,例如 ,朴素贝叶斯方法

[1 ,2]

、贝叶斯

网络

[1 ,2]

、决策树

[1 ,3 ,4]

、决策表

[4]

、神经网络、

最

邻近以及支持向量机等 .尽管众所周知 ,这些方法中

没有一种分类方法在所有领域都是有效的 ,但是这

些方法在不同的领域中各自起到了非常重要的作

用 .朴素贝叶斯方法由于具有坚实的数学理论基

础

[1 ,2]

、决策树具有良好的可解释性

[3 ,5]

,从而使得

这两种分类方法成为机器学习和数据挖掘领域的研

究热点 .

第29卷第5期

2005 年 10 月

北京交通大学学报

JOUR NAL OF BEIJI N G JIAOT ONG UN I V ER SITY

Vol

.2 9

Oct

.2005

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38677806

粉丝: 5
资源: 938

Semi_LDtree：急切与懒惰学习策略结合的决策树模型

一种新型多标记懒惰学习算法

人工智能-数据分析-决策树分类在交通数据分析系统中的应用研究.pdf

感知器、贝叶斯分类、决策树分类、K最近邻法、逻辑回归、支持向量机....zip

信息熵和信息增益的是什么，软硬间隔和软间隔的是什么，先验概率、后验概率和似然是什么，懒惰学习和急切学习是什么，最近重构性和最大可分是什么

信息熵和信息增益的概念，软硬间隔和软间隔的概念，先验概率、后验概率和似然的概念，懒惰学习和急切学习的概念，最近重构性和最大可分性的概念

正则表达式贪婪和懒惰

正则表达式中懒惰表达

在python中KNN算法用已有的样本库训练模型

我妹妹特别懒惰，不喜欢学习怎么办？

redis的懒惰刷新

最新资源