没有合适的资源?快使用搜索试试~ 我知道了~
首页数据挖掘weka使用C4.5实验报告
资源详情
资源评论
资源推荐

数据集的数据量与属性数目
对决策树分类准确度的影响
班级:
学号:
姓名:

1 问题描述
数据挖掘是一门从大量数据或者数据库中提取有用信息的科学。随着人们
认识和管理水平的提高,对客观世界的描述越来越全面,存储的数据量越来越
大。从大量数据资源中挖掘出对各类决策有指导意义的一般知识,成为人们进
行数据查询和统计等应用的迫切需要。
数据挖掘所获得的知识表示形式主要有 5 种:规则、决策树、知识基(浓
缩数据)、网络权值和公式。其中,决策树是一种类似于流程图的树结构,采
用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同
的属性值从该节点向下分支,叶节点就是要学习划分的类。从根节点到叶节点
的一条路径就对应着一条合取规则,整个决策树就对应着一组析取表达式规则,
决策树学习的过程就是对训练目标进行分类划分和获取策略的过程。
本实验研究在决策树学习的过程中数据集大小以及属性的数目对训练结果
准确度的影响。
2 决策树学习算法简介
目前对数据挖掘的研究主要集中在关联规则挖掘、聚类、分类、序列模式
发现、异常和趋势发现等方面,数据挖掘的结果可以产生上面提到的五种基本
类型的信息。由于分类技术能够对各个行业提供良好的决策支持,分类挖掘在
商业等领域中的成功应用使它成为数据挖掘中最活跃、最成熟的研究方向。决
策树学习起源于概念学习系统 CLS(Concept Learning System),是以分类示例
为基础的一种分类数据挖掘算法,能够表示多种类型的假设,对于数据噪声、
属性值缺失等问题具有较好的处理效果。
ID3 算法是决策树学习过程中最具有代表性的一种算法,由 Ross Quinlan 提

出,他引进信息论中的信息增益作为单一属性特征判别能力的度量,将建立决
策树的方法嵌在一个迭代的外壳之中。ID3 算法以信息熵作为目标评价函数,
采用自顶向下不可返回的策略,根据 Gain/Gain Ratio 来对被测属性进行选择,
搜索全部空间的一部分,力图使所做的测试数据最少,确保建立最简单的决策
树,基本公式如下:
ID3 算法提出时就是带有缺点的算法,在计算过程中偏向于选择取值较多
的属性,而在很多情况下取值较多的属性并不是最重要的属性,即按照使熵最
小的原则被 ID3 算法列为应该首先判断的属性在现实情况中却并不一定非常重
要。同时,ID3 算法不能处理具有连续值的属性,也不能处理具有缺失数据的
属性,在减少树的平均深度的过程中忽略了叶子数目的研究,其启发式函数并
不是最优的。用信息增益作为选择属性的标准存在一个假设,即训练子集中的
正、反例的比例应与实际问题中正、反例的比例一致,一般情况下很难保证这
两者的比例一致,这样计算训练集的信息增益就会存在偏差。
由于 ID3 算法在实际应用中存在一些问题,Ross Quinlan 在此基础上提出了
C4.5 算法,严格上说,C4.5 算法是 ID3 算法的一种改进。C4.5 算法继承了 ID3
算法的优点,用信息增益率来选择属性,克服用信息增益选择属性时偏向选择
取值多的属性的不足;在树构造过程中进行剪枝;加强了对于不完整数据的处
理能力;能够完成对连续属性的离散化处理。改进之后,C4.5 算法产生的分类
规则易于理解,准确率较高。然而,C4.5 算法只适合于能够驻留于内存的数据
集,当训练集大的无法在内存容纳时无法进行分类。在构造树的过程中,需要
剩余10页未读,继续阅读












安全验证
文档复制为VIP权益,开通VIP直接复制

评论15