决策树分类算法优化：基于样本选择的改进方法

需积分: 14 188 浏览量更新于2024-08-12 收藏 338KB PDF 举报

"基于样本选取的决策树改进算法 (2009年)" 是一篇发表在《西南交通大学学报》的工程技术论文，作者是冯少荣和肖文俊。该研究旨在提高决策树分类算法的精度，通过对比分析经典算法如ID3和C4.5，提出了一种新的改进策略。正文: 决策树是一种广泛应用的机器学习模型，用于分类和回归任务。传统的决策树算法，如ID3（Iterative Dichotomiser 3）和C4.5，依赖于信息熵或信息增益来选择最佳划分属性。然而，这些算法往往容易受到数据集中的噪声、不平衡样本分布和过拟合等问题的影响，导致分类精度下降。论文提出的改进算法基于两个关键观察：一是决策树的准确度与样本选择有密切关系，二是决策树算法通常只能找到局部最优解，而非全局最优。为了克服这些限制，作者提出了一种基于样本选取的迭代方法。这种方法并不直接修改决策树构建的逻辑，而是通过反复迭代过程，动态调整样本集合，以寻找能够提高整体分类性能的“较优样本”。具体实施时，算法在每次迭代中会根据当前决策树的表现来评估样本的重要性，并据此调整样本集。这种策略可以视为对决策树生长过程的一种优化，它能够在不改变算法基本结构的前提下，改善决策树的构建过程，从而提高分类效果。由于这种方法不局限于特定的决策树算法，它具有较好的通用性，能够适应不同的决策树模型。实验结果显示，改进后的算法相比于ID3和C4.5算法，在平均错误率上有所降低，比例约为0.82：1.22：0.92，这表明改进算法在处理分类问题时，能够提供更精确的预测。这一成果对于提高决策树模型的泛化能力和实际应用价值具有重要意义。关键词涵盖了决策树的基本概念，如样本选取、ID3算法、C4.5算法以及分类问题，这些都是决策树算法研究的核心领域。文章的中图分类号“TP18”代表了该研究属于计算机科学技术中的智能系统和人工智能部分，而文献标识码“A”则表明这是一篇原创性的学术论文。总结来说，这篇论文贡献了一种创新的决策树优化策略，通过样本选取的迭代优化，提高了分类的准确性和模型的适用性，这对于提升机器学习模型在实际应用中的性能具有积极的指导意义。

第

卷第

期

∞

年

月

西南交通大学学报

JOURNAL

SOUTHWEST

JIAOTONG

UNIVERSITY

文章编号:

0258-2724(2009)05

-0

643

-0

DOI:

10. 3969/j. issn. 0258-2724. 2009. 05.

003

基于样本选取的决策树改进算法

冯少荣

，

肖文俊

l. 44 No.5

2009

(1.厦门大学信息科学与技术学院，福建厦门

361005;

华南理工大学计算机科学与工程学院，广东广州

510640)

摘

要:为提高决策树分类算法的精度，通过比较几种经典的决策树分类算法，提出了基于样本选取的改进的

决策树分类算法.改进算法基于决策树精度与样本的相关性较大以及决策树只能得到局部最优解的事实，通过

反复迭代寻找较优样本，从而在不改变决策树分类算法的前提下，得到较好的决策树分类算法.该算法不针对某

个决策树，只利用输入和输出的反馈信息进行迭代，因此通用性较好.实验证明，该改进算法与

ID3

，

C4.5

算法平

均错误率的比值约为

0.82:

22:

92.

关键词:决策树;样本选取

;ID3

算法;煽;分类

中圈分类号:

TP18

文献标识码

Improved Decision Tree Algorithm ßased on Samples Selection

FENG

orong

•

，

XIAO

Wenjun

(1.

College

Inforrnation

Science

and

Technology

Xiamen

University , Xiamen 361005 , China; 2.

School

Computer

Science and Engineering

South

China University

Technology

Guangzhou

510640 , China)

Abstract:

raise

the

accuracy

decision

tree

classification algorithms ,

improved

decision

tree

classification algorithm

based

samples

selection

was

proposed

comparing

several

classical

decision

tree

classification algorithms.

This

improved

algorithm

searches

better

samples

through a

constantly

iterative

process

based

the

facts

that

the

correlation

between

decision

trees'

accuracy

and

samples

large

and

decision

trees

can

only get a local

optimal

solution. As a

result

, a

better

decision

tree

classification algorithm

can

obtained

under

the

condition

not

changing

the

decision

tree

classification algorithm.

The

improved algorithm

not

aiming

decision

tree

and

carries

through

iteration

only

based

on some

feedback

information

input

and

output

, so its universality

bette

Experimental

results

show

that

the

ratio

the

average

error

rates

the

improved algorithm

and

the

ID3 ,

C4.5

algorithms

about

0.82

1.22

tö

0.92.

Key

words:

decision

tree;

samples

selection;

ID3

algorithm;

entropy;

classification

决策树算法

是数据挖掘中的一个比较活跃的研究领域，是对分类问题进行深入分析的方法，但构

造最优决策树是一个

困难问题.传统的决策树算法

[2.7

，

主要是针对小数据集的，大都要求训练集常驻

内存，这使得传统决策树算法在可伸缩性、精度和效率方面受到很大的制约.在数据挖掘应用中面临的数

据集往往是容量巨大的数据库或者数据仓库，由于数据不可能完全放入主存，在构造决策树时需要将数据

在主存和缓存中导人或者导出，运算效率大大降低.针对这些问题，许多研究人员对决策树技术在数据概

化与约简、抽样方法、数据重构以及结合其它算法和并行机制等方面做了研究"，

lO]

，但仍有很多问题亟待

解决，需要多方面进一步研究

[11]

，如:

收稿日期:

2008

-D

基金项目:福建省自然科学基金资助项目(

A03

008)

;福建省高新技术研究开放计划重点项目

(2003

H043

)

作者简介:冯少荣(

1964

斗，男，副教授，博士研究生，研究方向为并行分布数据库、数据仓库、数据挖掘，

E-mail:

shaorong@xmu.edu.cn

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38551046

粉丝: 5

决策树分类算法优化：基于样本选择的改进方法

决策树算法及其实现

基于ID3算法的决策树的实现

基于C5.0决策树分类算法的ETM 影像信息提取.pdf

决策树算法和knn算法

分析算法决策树实验pdf

KNN算法与决策树算法的对比

决策树算法 (10分) 请举例三种决策树算法，并列出他们的区别。

决策树实现随机森林算法

随机森林分类算法的决策树如何构建

利用随机森林算法对Iris数据集进行分类，了解其原理并与决策树算法的分类效果进行比较.

最新资源