数据仓库模型解析:企业、数据集市与虚拟仓库

需积分: 12 2 下载量 110 浏览量 更新于2024-08-15 收藏 814KB PPT 举报
本资源主要介绍了三种数据仓库模型,包括企业仓库、数据集市和虚拟仓库,这些都是在大数据背景下对企业内部数据管理的重要组成部分。企业仓库旨在搜集并整合跨越整个组织的主题信息,提供全面的业务视角;数据集市则是针对特定主题的子集,如商场的销售数据,有助于精细化分析和决策。 数据集市有独立和非独立之分,独立数据集市是从企业数据仓库中提取信息专门服务特定需求,而非独立数据集市则直接利用原始的企业数据仓库数据。虚拟仓库则是通过在操作数据库上创建一系列视图来提供汇总分析,这些视图可能包含预计算的汇总数据,以提升查询性能。 数据挖掘作为关键知识点,由王灿教授讲解,其发展源于数据爆炸问题,即海量数据的收集和存储需求超过了人类分析能力。数据挖掘的目标是通过自动分析数据,发现隐藏的规律、模式和有价值的信息,以解决"我们拥有大量数据但缺乏有用信息"的问题。数据挖掘涉及的主要技术和工具包括数据仓库(Data Warehouse)和在线分析处理(OLAP),以及数据预处理步骤。 数据库技术的发展历程从20世纪60年代的文件系统,经过层次数据库和网状数据库,到关系数据库的兴起,再到80年代和90年代的高级数据库系统和面向应用的数据库,直到21世纪初的流数据管理和多元化数据挖掘应用,以及XML数据库和集成信息系统。数据挖掘的应用广泛,如市场分析、风险管理、欺诈检测等,是现代商业智能和决策支持系统的核心要素。 数据挖掘不仅关注从数据中提取知识,还涉及其他数据分析领域,例如查询处理、专家系统和统计计算,但其核心区别在于它侧重于发掘深层次的、有价值的信息,而不仅仅是数据本身。因此,数据挖掘是一个包含多种技术和方法的复杂领域,对大数据处理和分析具有重要意义。