数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越
来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可
直接从操作数据源中挖掘信息
2 数据挖掘的定义
2.1 技术上的定义及含义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实
际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的
过程。
与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层
含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知
识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问
题。
----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规
则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采
矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化
的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以
是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于
信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据
挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘
知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技
术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投
身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的
自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相
对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好
能用自然语言表达所发现的结果。
2.2 商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数
据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年
的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力
的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务
自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集
的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯
为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企
业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从
大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘
金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分