下一代数据仓库:CDR处理的MPP策略与挑战

需积分: 9 5 下载量 164 浏览量 更新于2024-08-15 收藏 4.77MB PPT 举报
本文主要探讨了CDR详单处理是否适合放入核心数据仓库(DWH)的问题,以及新一代数据仓库技术的发展趋势。CDR详单处理的特点通常是以批处理为主,对随机访问的需求较低,其计算需求明确且处理逻辑相对简单,常常涉及用户资料和产品资料的关联汇总,操作主要包括过滤、连接、选择、表达式和汇总。 首先,对于60%的处理程序,CDR信息是独立处理的,只有27%的情况涉及到与其他表的关联,其中13%涉及多张表的关联,这些关联通常是通过手机号作为连接条件。这表明CDR详单在很大程度上是可以独立存放在数据仓库中的,尤其是当处理逻辑相对清晰且不依赖复杂的数据关联时。 然而,文章也指出由于用户资料和产品资料处理的复杂性,有时候在DWH中进行处理仍然是必要的。随着企业对数据的需求增加,特别是实时决策和经营分析的需求,下一代数据仓库技术的演变正朝着以下几个方向发展: 1. **MPP数据仓库与Map/Reduce**: 面向大规模并行处理(MPP)的数据仓库,如GreenPlum,能处理海量数据并提供高性能查询,适应了数据分析的复杂性和数据量的膨胀。 2. **实时性要求增强**: 随着企业需要更快速的数据响应,实时数据仓库(Real-TimeDW)变得尤为重要,满足周期性分析展示和实时性较高的用户访问需求。 3. **成本与容量扩展**:为了应对成本和容量的增长,下一代数据仓库平台倾向于低成本的容量扩展和体系架构的灵活性,例如Oracle Exadata的硬件优化设计。 4. **分析型与混合负载数据仓库**:区分分析型数据仓库(与OLTP分离),根据不同的业务场景,可能存在MPP(如Teradata)和SMP(如Oracle)的选择,以及针对大数据量和混载工作负载的特殊解决方案。 5. **新兴厂商竞争**:随着市场竞争加剧,新型厂家如GreenPlum等在MPP领域崭露头角,提供了不同类型的硬件支持和优化策略。 CDR详单处理是否放入核心数据仓库取决于具体业务场景和需求,如果大部分处理逻辑简单且不需要频繁的复杂关联,将其拿出DWH可能是可行的。同时,新一代数据仓库技术的发展趋势为数据处理提供了更多的灵活性和性能优化,以适应企业对数据处理速度、容量扩展和成本控制的不断增长需求。