数据挖掘的研究与应用进展
---应宇杰19151633
0
引 言
在社会与经济生活中,任何组织经过若干年的发展 ,都会积累海量的、以各种形式存储
的数据 ,但要从中发现有价值的信息或知识 ,改变“数据丰富 ,信息缺乏”尴尬境地 ,却是
非常艰巨的. 为弥合数据与信息之间的鸿沟 ,数据挖掘
(
Data Mining
)
应运而生 ,使人们
能从海量数据中发现感兴趣的知识 ,而这些知识是隐含的、事先未知的信息.
1
数据挖掘与知识发现
1. 1 知识发现与数据挖掘的兴起
知识发现与数据挖掘是人工智能、机器学习与数据库技术相结合的产物. 在传统的决策
支持系统中 , 知识库中的知识和规则是由专家和程序人员建立的 ,是由外部输入的. 对
于那些决策者明了的信息 ,可以用查询、联机分析处理直接获取 ,而另外一些隐藏在大量
数据中的关系、趋势 ,是既难以发现又至关重要的 ,这类问题就可以用数据挖掘来处理.
知 识 发 现 的 研 究 经 历 了 从 ML
(
机 器 学 习
)
到MD
(
机 器 发 现
)
到KDD
(
Knowledge Discovery
inDatabase 基于数据库的知识发现
)
几个阶段.KDD 主要研究①定性知识和定量知识的发
现;②数据汇总③知识发现方法④数据依赖关系的发现和分析⑤发现过程中知识的应用 ;
⑥集成的交互式的知识发现系统⑦知识发现的应用.
1. 2 数据挖掘的定义
数据挖掘
(
Data Mining
)
,又译作数据采集 ,一种公认的定义是WJFrawley,G.
PiatetskyShapiro 等人提出的:数据挖掘 ,就是从大型数据库的数据中提取人们感兴趣的
知识 ,这些知识是隐含的、事先未知的、潜在有用的信息 ,提取的知识可表示为概念
(
Concepts
)
、规则
(
Rules
)
、规律
(
Regularities
)
、模式
(
Patterns
)
等形式. 此定义把
数据挖掘的对象仅定义为数据库. 广义地讲:数据挖掘是在一些事实或观察的集合中寻找
模式的决策支持过程. 也就是说 ,数据挖掘的对象不仅是数据库 ,也可以是文件系统 ,或
其它任何数据集合.
从数据挖掘的定义可以看出 ,数据挖掘和数据库知识发现 KDD 具有很大的重合度 ,甚
至许多学者认为数据挖掘和数据库知识发现是等价的概念 ,人工智能
(
AI
)
领域习惯称
KDD ,而数据库领域习惯称数据挖掘.
长期以来 ,在知识发现领域这两个术语的范畴和使用界限一直不很清晰.直到 KDD96
国际会议上 ,知识发现研究领域的知名学者 Fayyad,Piatetsky- Shapiro和Smyth 就这两
个术语的关系作了如下阐述: KDD 是指从数据库中发现知识的全部过程,即识别出存在于数
据库中有效的、新颖的、具有潜在效用的乃至最