数据仓库与数据质量:从概念到挑战

需积分: 47 1 下载量 57 浏览量 更新于2024-08-18 收藏 7.97MB PPT 举报
"数据质量问题-数据仓库概念" 数据质量问题在数据仓库领域中至关重要,因为"garbage in, garbage out"的原理始终贯穿其中,即输入数据的品质直接影响着输出结果的有效性。数据仓库的构建过程中,经常会遇到不同系统间数据不一致的问题,这导致了对数据质量的争议。确保数据仓库中的数据质量对于系统的接受度和广泛应用有着决定性的影响。 数据仓库的出现源于需求变化和技术发展。随着业务系统的完善和分析需求的增长,信息孤岛的增多使得数据集成成为挑战。另一方面,关系数据库技术虽然成熟,但在处理复杂查询和报表时效率低下,且各系统间的数据一致性问题突出。这催生了数据仓库这一专门用于分析和决策的系统。 数据仓库与在线事务处理(OLTP)系统有显著区别。OLTP系统是面向应用的,实时性强,主要处理事务性数据,而数据仓库则是面向主题,用于分析和决策,对实时性的要求较低,但需要处理大量数据,包括历史和当前数据。分析型系统与操作型系统在数据类型、数据准确性、更新性、性能需求、操作方式等方面都有所不同。 数据仓库建设的理论和实践经历了多个阶段。Bill Inmon提出的企业级数据仓库在初期遭遇挫折,而Kimball的数据集市方法在早期取得了成功,但也引发了关于数据仓库构建的不同观点,如企业数据仓库(EDW)、操作数据存储(ODS)和数据集市(DataMart)的争论。最终,两者的思想逐渐融合,形成了企业信息工厂和数据仓库的扩展架构,将这些概念整合在一起。 数据仓库的四个关键特征定义了其本质: 1. 面向主题:数据仓库按照特定主题进行组织,如保险公司的保单、理赔等,而非单一的应用系统。 2. 集成:数据仓库整合来自多个源的异构数据,消除数据孤岛,确保数据一致性。 3. 随时间不断变化:数据仓库存储历史数据,便于追踪和分析时间序列的趋势。 4. 不可更新:一旦数据进入仓库,一般不进行修改,保证了分析结果的稳定性。 数据仓库的构建需要解决数据质量问题,包括数据清洗、数据转换、数据验证等步骤,以确保提供给决策者的数据是准确、完整和可信的。只有这样,数据仓库才能充分发挥其在商业智能和决策支持中的价值。