基于分类贡献函数的决策树构建方法

下载需积分: 9 | PDF格式 | 532KB | 更新于2024-08-11 | 172 浏览量 | 举报

"应用分类贡献函数的决策树构造方法 (2011年) - 河南科技大学学报：自然科学版 - 河南省自然科学基金项目 - 河南省科技攻关项目 - 谌章义，伍临莉 - 决策树 - 粗糙集 - 核 - 区分矩阵 - ID3 - C4.5 - CART - CHAID - QUEST" 本文主要探讨了在决策树构建过程中如何选择有效的分类属性以优化决策树的结构和分类性能。作者基于粗糙集理论，提出了一种新的方法，即在“核”中应用分类贡献函数来选择分类属性。这个方法旨在解决传统基于信息熵的算法（如ID3和C4.5）存在的问题，这些问题包括决策树中子树的重复和属性的多次检验，这些因素可能导致分类效率和效果的降低。粗糙集理论是由波兰数学家Pawlak在1982年创立的，它提供了一种处理不确定性和不精确信息的数学框架。在决策树构造中引入粗糙集概念，可以更高效地识别和利用数据中的关键特征，而无需对属性进行详细的定量描述。传统的ID3算法及其改进版C4.5是基于信息熵的决策树构建算法，它们通过计算熵的减少来评估属性的重要性。然而，这些算法有时会导致冗余的决策路径和多次检查同一属性，增加了决策树的复杂性。相反，文章中提到的新方法通过分类贡献函数来衡量属性对分类的直接影响，从而可能构建出更简洁、效率更高的决策树。为了验证新方法的有效性，作者进行了实验，对比了基于分类贡献函数的决策树与C4.5以及基于加权平均粗糙度的决策树生成算法。实验结果表明，新方法构建的决策树具有更低的复杂性，同时能够显著提升分类的准确性。论文还指出，决策树构建的关键在于选择合适属性，以生成最小的决策树，即分支最少的树。除了信息熵和粗糙集方法，还有其他几种属性选择策略，例如CART（分类与回归树）、CHAID（分类和非参数交互检测）和QUEST（快速、无偏见、可解释的树）。这些算法各有特点，适用于不同的数据集和应用场景。该研究为决策树学习提供了一个新的视角，即通过分类贡献函数优化属性选择，以实现更高效、准确的分类模型。这种方法对于处理复杂数据集和提高机器学习模型的性能具有潜在的价值。

第 32 卷第 2 期

2011 年 4 月

河南科技大学学报：自然科学版

Journal of Henan University of Science and Technology：Natural Science

Vol. 32 No. 2

Apr. 2011

基金项目：河南省自然科学基金项目（2009 B520021）；河南省科技攻关项目（102102210470）

作者简介：谌章义（1979 - ），男，湖北黄陂人，讲师，博士生，研究方向为计算机体系结构、嵌入式系统、人工智能.

收稿日期：2010 - 11 - 09

文章编号：1672 - 6871（2011）02 - 0048 - 04

应用分类贡献函数的决策树构造方法

谌章义，伍临莉

（洛阳师范学院信息技术学院，河南洛阳 471022）

摘要：在构造决策树的过程中，分类属性选择的标准直接影响分类的效果。本文基于粗糙集的理论，提出了在

核中应用分类贡献函数来选择分类属性的新方法。利用 UCI 提供的数据集对该算法和基于信息熵的算法

C4. 5，以及基于加权平均粗糙度的决策树生成算法相比较。实验证明：用该方法构造的决策树与传统的基于

信息熵方法构造的决策树相比较，复杂性低，且能有效提高分类效果。

关键词：粗糙集；决策树；核；区分矩阵

中图分类号：TP312 文献标识码：A

0 前言

在决策树的构建中一个关键问题就是选择合适的分类属性，使最后生成的决策树最小，也就是说决

策树的分支最少。目前，已有多种选择属性构造决策树的方法，如 ID3（以及其改进算法 C4. 5 ）、CART、

CHAID、QUEST 等，其中最经典的就是 Quinlan 提出的基于信息熵的方法 ID3，C4. 5

［1 ］

。这种方法已广

泛应用于实际的分类问题。但是基于信息熵的方法存在的主要问题是一棵决策树中子树有重复，而且

有些属性会在一棵决策树中的某一路径上被多次检验，从而降低了分类的效率和效果。

为此，很多学者在决策树生成算法中引入了粗糙集的概念，以提高分类效率

［2 - 9］

。粗糙集理论是波

兰数学家 Pawlak 在 1982 年提出的一种分析数据的数学理论

［10］

，主要用来处理不确定和不精确信息。

其特点是不需要预先给定某些特征和属性的数量描述，而是直接从给定问题的描述集合出发，找出该问

题的内在规律，其基本思想更接近现实情况。该理论已广泛应用于数据挖掘、人工智能、模式识别等认

知领域。

本文就是基于粗糙集的基本理论，设计了一个分类贡献函数来选择分类贡献最大的属性作为分类

节点，使最后生成的决策树最小。通过在 UCI 数据集上做实验，与基于信息熵的 C4. 5 算法，以及基于

加权平均粗糙度的决策树生成算法

［3 ］

进行了比较。实验证明：应用了分类贡献函数后，构造的决策树

与传统的基于信息熵方法构造的决策树相比较，其复杂性低，且能有效提高分类效果。

1 相关概念与原理

定义 1 决策系统

一个决策系统是一个有序四元组：S =（ U，A，V，f），其中 U 是全域，是由对象构成的集合，U =｛ x

，

，…，x

｝；A 是属性集合，A = C

∪

D，其中 C 是条件属性集，D 是决策属性集；V =

∪

∈

Va 是属性值的集

合，Va 是属性 a 的值域；f：U × A

→

V 是一个信息函数，对每一个 a

∈

A 和 x

∈

U，定义了一个信息函数

f（ x，a）

∈

Va，即信息函数 f 指定 U 中每一个对象 x 的属性值。当属性集合 A 不划分为条件属性子集合和

决策属性子集合时，该系统又称为信息系统。

定义 2 核

设 P



C，若

P =

C，且不存在 R



P，使得

R =

C，则称 P 为 C 的一个（相对于决策属性 D 的）

属性约简。所有 C 的属性约简的交称为 C 的核，记为 Core（ C）。

属性 a

∈

Core（ C）当且仅当 a 是不可缺少的属性。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38706055

粉丝: 5

基于分类贡献函数的决策树构建方法

C++鸢尾花分类：决策树算法实验解析

Python决策树实现与应用代码详解

MATLAB中决策树与随机森林分类案例分析

基于数据挖掘的分类算法综述 (2011年)

Stanford-MachineLearning:来自 2011 年斯坦福 ML 课程的解决方案

2011-2020年杭州电子科技大学832运筹学考研真题

SVM-DP：支持向量机在软件缺陷预测中的应用

人工智能在金融数据分析中的应用

【KissSys报表功能增强】：报表设计自动化技巧与应用实例

NOIP2011经典问题深度解析：题解与算法思路剖析

最新资源