选取聚类块数k-数据仓库与数据挖掘原理及应用
一、数据仓库基础
* 数据仓库定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
* 数据仓库之父:William H. Inmon
* 数据仓库的特点:面向主题的、集成的、与时间相关的、不可修改的
* 数据仓库的作用:支持企业管理和决策
二、商务智能的定义
* 商务智能的定义:企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。
* 商务智能的发展:从20世纪60年代计算机用于管理信息处理开始,经过40多年的发展,信息处理技术的发展经历了电子数据处理系统(EDPS,Electronic Data Processing System)、管理信息系统(MIS,Management Information System)和决策支持系统(DSS, Decision Supporting System)等阶段。
三、聚类分析
* 选取聚类块数k的步骤:
1. 选取聚类块数k
2. 从训练集中任意取定k个向量作为聚类中心
3. 将每个样本向量按下列欧氏距离归入中心为该类中
4. 重新调整聚类中心
5. 如果步骤4中的聚类中心不再变化,则终止。否则;转至步骤3
四、数据挖掘
* 数据挖掘的定义:数据挖掘是指从大量的数据中发现隐藏的模式、关系和规律,以便于更好地理解数据和进行预测。
* 数据挖掘的过程:
1. 数据预处理
2. 数据变换
3. 模式评价
4. 知识表示
五、商务智能体系结构
* 商务智能体系架构主要有比尔•恩门的信息工厂、扎克曼的企业体系结构、美国数据仓库研究院的商务智能体系结构以及加特纳公司的商务智能体系结构等。
* 商务智能体系结构中包含的四大部分:商务分析、OLAP、数据挖掘和数据仓库
六、数据仓库设计和实现
* 数据仓库设计的步骤:
1. 需求分析
2. 数据仓库设计
3. 数据仓库实现
* 数据仓库实现的技术:OLAP、数据挖掘、ETL等
七、OLAP和OLAM
* OLAP的定义:Online Analytical Processing的缩写,指的是在线分析处理的技术。
* OLAP的特点:支持复杂的查询和分析操作,能够实时地提供数据分析结果
* OLAM的定义:Online Analytical Mining的缩写,指的是在线分析挖掘的技术。
八、Web挖掘
* Web挖掘的定义:Web挖掘是指从Web文档中提取有用的信息和知识的过程。
* Web挖掘的技术:文本挖掘、结构挖掘、link挖掘等
九、知识发现
* 知识发现的定义:知识发现是指从数据中发现有用的知识和规律的过程。
* 知识发现的步骤:
1. 数据预处理
2. 模式评价
3. 知识表示
十、语义网和本体
* 语义网的定义:语义网是指基于Web的资源描述框架,旨在使计算机能够理解Web资源的含义。
* 本体的定义:本体是指在某个领域中,概念和关系的集合。
本文对选取聚类块数k、数据仓库、商务智能、数据挖掘、OLAP、Web挖掘、知识发现、语义网和本体等概念进行了详细的介绍和分析,为读者提供了一个系统的了解数据仓库和数据挖掘的知识体系。