2011年数据挖掘经典分类算法详解及特性分析

下载需积分: 9 | PDF格式 | 620KB | 更新于2024-08-13 | 111 浏览量 | 举报

"基于数据挖掘的分类算法综述(2011年)是一篇针对数据挖掘领域中关键问题的研究论文，它强调了分类算法在数据挖掘中的核心地位。作者唐亚伟和秦玉平通过对当时具有代表性的优秀分类算法进行深入分析和比较，旨在提供给使用者一个选择算法和研究人员改进算法的实用参考。论文关注的分类算法包括决策树、贝叶斯分类、人工神经网络、关联规则分类以及支持向量机等。决策树归纳算法是首先被提及的方法，它以有向无环图的形式构建，通过信息增益原理确定最有信息量的属性作为决策节点，形成树状结构。这个过程会递归地根据属性的取值进一步细化分支，直到达到一定的停止条件。决策树因其直观易懂和解释性强而受到欢迎。贝叶斯分类则是基于贝叶斯定理的概率模型，利用先验概率和后验概率来估计新数据点属于各类别的可能性。这种方法特别适用于处理缺失数据和处理高维数据时的特征选择。人工神经网络则模拟人脑神经元工作的方式，通过多层神经元的连接和权重调整，实现数据的非线性分类。它适用于复杂的模式识别任务，但训练过程可能需要大量数据和计算资源。关联规则分类则是通过分析数据集中的频繁项集来发现数据之间的关联，并据此进行分类。这种方法常用于市场篮子分析，找出商品间的购买关联。支持向量机（SVM）是一种基于间隔最大化的分类算法，它通过构建最优超平面将不同类别的数据分开，对于非线性数据可以通过核函数映射到高维空间。SVM在小样本、非线性和高维数据上表现出色。这篇综述不仅阐述了各种分类算法的基本原理，还讨论了它们的优缺点，以及在实际应用中可能遇到的问题。对于数据挖掘领域的实践者来说，这篇文章是一份宝贵的参考资料，帮助他们更好地理解和选择合适的分类算法，或者启发他们在算法设计和优化方面的思考。"

　　收稿日期：２０１１－０９－２５．

　　基金项目：国家自然科学基金项目（１１１７１０４２），辽宁省教育厅重点实验室项目（ＬＳ２０１０１８０）．

　　作者简介：唐亚伟（１９８８－），男，硕士研究生，主要研究领域为机器学习．

基于数据挖掘的分类算法综述

唐亚伟

１

，秦玉平

２

（１．渤海大学信息科学与技术学院，辽宁锦州１２１０１３；２．渤海大学工学院，辽宁锦州１２１０１３）

　　摘　要：分类算法是数据挖掘中最重要的研究领域之一。通过对当前数据挖掘中具有代表

性的优秀分类算法进行分析和比较，给出了每种算法的特性，为使用者选择算法或研究者改进算

法提供了依据。

关键词：机器学习；数据挖掘；分类算法

中图分类号：Ｏ１７１　　文献标识码：Ａ　　文章编号：１６７３－０５６９（２０１１）０４－０３７２－０４

０　引言

数据挖掘（ｄａｔａｍｉｎｉｎｇ）的命名来源于机器学习算法在商界海量数据上的应用

〔１〕

。在计算机科学领

域，数据挖掘也称为数据库知识发现（ｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙｉｎｄａｔａｂａｓｅ，ＫＤＤ）。主要采用机器学习算法或

统计方法进行知识学习。

分类（Ｃｌａｓｓｉｆｉｃａｔｉｏｎ）是数据挖掘中的一个重要概念。数据分类（ＤａｔａＣｌａｓｓｉｆｉｃａｔｉｏｎ）一般分为两个步

骤：第一步是建立分类模型，描述预定的数据类集或概念集。通过分析有属性描述的数据库元组来构造模

型。通常，这样的分类模型以分类规则集、决策树或数学公式等形式给出；第二步是使用分类对新的数据

集进行划分，主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规则集合应该是

对新的数据集而言具有很高的准确性、尽可能少的矛盾划分以及较小的规则集。本文介绍了几种典型的

分类算法，并分析了各自的特性。

１　分类算法

解决分类问题的方法很多，下面介绍一些经典的分类方法，如决策树、贝叶斯、人工神经网络、基于关

联规则的分类以及支持向量机等。

１．１　决策树归纳算法

决策树（ＤｅｃｉｓｉｏｎＴｒｅｅ）是一种有向无环图（ＤｉｒｅｃｔｅｄＡｃｙｃｌｉｃＧｒａｐｈｉｃｓ，简称ＤＡＧ）

〔２〕

。决策树方法是利

用信息论中的信息增益寻找数据库中具有最大信息量的属性字段，建立决策树的一个结点，再根据该属性

字段的不同取值建立树的分支，在每个分支子集中重复建立树的下层结点和分支的一个过程。构造决策

树的具体过程为：首先寻找初始分裂，整个训练集作为产生决策树的集合，训练集每个记录必须是已经分

好类的，以决定哪个属性域（Ｆｉｅｌｄ）作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个

属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（Ｄｉｖｅｒｓｉｔｙ）

指标。其次，重复第一步，直至每个叶节点内的记录都属于同一类且增长到一棵完整的树。

１．１．１　ＩＤ３算法

第３２卷第４期

２０１１年１２月

渤海大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＢｏｈａｉＵｎｉｖｅｒｓｉｔｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖｏｌ．３２，Ｎｏ．４

Ｄｅｃ．２０１１

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38723516

粉丝: 4

2011年数据挖掘经典分类算法详解及特性分析

最新资源