为什么?” 量数据库 他初创公司
表一、数据挖掘的进化历程。
数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器
学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数
据挖掘技术在当前的数据仓库环境中进入了实用的阶段。
1.5 数据挖掘逐渐演变的过程
数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某些方法
来实现自动决策支持,当时机器学习成为人们关心的焦点.机器学习的过程就是将一些已知
的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规
则,这些规则具有通用性,使用它们可以解决某一类的问题.随后,随着神经网络技术的形成和
发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它
生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来
解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不
足。80 年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成
果应用于处理大型商业数据库。随着在 80 年代末一个新的术语,它就是数据库中的知识
发现,简称 KDD(Knowledge discovery in database).它泛指所有从源数据中发掘模式
或联系的方法,人们接受了这个术语,并用 KDD 来描述整个数据发掘的过程,包括最开
始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算
法进行数据挖掘的子过程。但最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计
方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。
数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越
来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可
直接从操作数据源中挖掘信息
2 数据挖掘的定义
2.1 技术上的定义及含义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实
际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的
过程。
与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层
含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知
识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问
题。