数据挖掘技术的发展现状与应用综述
摘要:由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关
注。文中介绍了数据挖掘的分类方法功能,特点,技术流程和简介了数据挖掘的
应用范围,进一步指出了它的发展方向。
关键词:数据挖掘;应用;综述
一、数据仓库的基本概念
数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据
集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。
数据仓库概念的创始人 WJ-Hnmon 在《建立数据仓库》一书中指出: “数据仓库
是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中
的决策制定过程。 ”
(二)数据挖掘的原理
数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据
中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过
程。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。
它能开采出潜在的模式,找出最有价值的信息.指导商业行为或辅助科学研究。
(三)数据挖掘的分类
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用
等几个方面进行分类。
按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数
据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的
方法和技术也将会不同。
二、数据挖掘的主要功能
主体如下五大类功能:
(一)自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,
以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(二)关联分析功能。数据关联是数据库中存在的一类重要的可被发现的知
识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简
单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。
(三)聚类功能。数据库中的记录可被化分为一系列有意义的子集,即聚类。
聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技
术主要包括传统的模式识别方法和数学分类学。
(四)概念描述功能。概念描述就是对某类对象的内涵进行描述,并概括这
类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象
的共同特征,后者描述不同类对象之间的区别。
(五)偏差检测功能。数据库中的数据常有一些异常记录,从数据库中检测
这些偏差很有意义。偏差检测的基本方法是,寻找观测结果与参照值之间有意义
的差别。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。
三、数据仓库的特点及其与传统数据库的区别:
(一)数据仓库是面向主题的,它是与传统数据库面向应用相对应的。
(二)数据仓库是随时间变化的。它表现在以下几个方面:首先,数据仓库
的数据时限要远远长于传统数据库中的数据时限。前者,一般在 5 至 10 年,而