数据仓库核心概念与应用

3星 · 超过75%的资源 需积分: 18 17 下载量 162 浏览量 更新于2024-09-12 收藏 27KB DOCX 举报
数据仓库期末复习 数据仓库是面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。以下是数据仓库期末复习的要点总结: **自然演化体系存在3个问题** 1. 数据可信性:数据仓库中数据的可靠性问题。 2. 生产率:数据仓库中数据的处理和分析效率问题。 3. 数据转化为信息的不可行性:数据仓库中数据转化为信息的困难性问题。 **数据可靠性问题的5个原因** 1. 数据无时基:数据仓库中数据的时效性问题。 2. 数据算法上的差异:数据仓库中数据算法的差异问题。 3. 抽取的多层次:数据仓库中数据抽取的多层次问题。 4. 外部数据问题:数据仓库中外部数据的可靠性问题。 5. 无起始公共数据源:数据仓库中公共数据源的不可靠性问题。 **体系化结构中的俩种数据及其区别** 1. 原始数据:维持企业日常运作所需的细节性数据。 * 特点:可以更新,主要是当前值数据,以重复方式运行的过程操作,支持日常工作。 2. 导出数据:经过汇总或计算来满足公司管理者需要的数据。 * 特点:可以重新计算得出,但不能直接进行更新,通常为历史数据,有启发式而非重复的运行的程序与过程操作,支持管理工作。 **体系化结构四个层次要点** 1. 操作层:细节的日常的当前值的访问频繁的面向应用的。 * 特点:名字、特点、时间跨度、data用途、应用领域(服务对象)。 2. 原子/数据仓库层:大部分是粒度化数据随时间变化的集成的面向主题一些汇总。 * 特点:名字、特点、时间跨度、data用途、应用领域(服务对象)。 3. 部门层:领域狭隘一些导出数据;一些原始数据典型的部门:财务、市场、工程、保险、制造。 * 特点:名字、特点、时间跨度、data用途、应用领域(服务对象)。 4. 个体层:暂时的为特定目的的启发式的非重复的基于PC和工作站的。 * 特点:名字、特点、时间跨度、data用途、应用领域(服务对象)。 **传统软件开发生命周期与数据仓库开发生命周期** 1. 传统的SDLC: * 收集需求 * 分析 * 设计 * 编程 * 调试 * 集成 * 实现 * 需求驱动的、瀑布式模型 2. 数据仓库SDLC: * 实现数据仓库 * 集成数据 * 检验偏差 *针对数据编程 * 设计DSS系统 * 分析结果 * 理解需求 * 数据驱动的、螺旋式模型 **数据仓库定义** 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。 **元数据定义** 元数据是指数据的所有者、数据的提供方式等有关的信息(是关于数据的数据)。 **粒度带来的优势及定义** 定义:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 优势: 1. 可以从不同角度观察数据 2. 利用数据仓库对数据进行一致性协调 3. 数据仓库低级别粒度的另一个好处是灵活性 4. 粒度化的数据带来的另一个好处是其中包含了整个企业的活动和事件的历史。而且粒度级别足够详细,使得整个企业的数据为满足不同的需要而进行重构。 **分区的定义** 数据分区是指把数据分散到可独立处理的分离物理单元中。