专家系统数据仓库构建方案：架构与关键技术

版权申诉

84 浏览量更新于2024-07-02 收藏 2.63MB PDF 举报

大数据仓库建设方案设计深入探讨了数据仓库在专家系统中的核心作用，以及如何构建高效、灵活的数据处理架构。首先，章节一详细阐述了数据仓库的总体架构，它由数据采集、数据存储、数据分析和数据服务总线四个主要部分组成。数据采集模块是关键，它通过集成Kafka、Storm和Flume等工具，确保从外部如TCMS和车载子系统获取实时或离线数据。实时数据采集针对检测指标，非实时数据如日检修数据则按需定期收集，强调了高吞吐量和高频次的处理能力，以满足系统的扩展性和灵活性。外部数据汇集是将这些外部数据整合至操作型存储层（ODS），而内部各层数据则通过数据提取与加载进行无缝衔接。数据源不仅限于列车监控与检测系统（TCMS），还包括其他车载子系统，且数据采集分为实时和定时两种类型。在数据采集架构的设计上，采用Flume作为Kafka的生产者，利用其高效的数据传输特性；而Storm则作为消费者，负责实时处理大量数据并实施预警，确保系统的实时性。这种组合架构确保了系统能够应对海量数据的挑战，同时保持高度的可配置性，以便适应业务需求的变化。数据存储方面，本方案采用了Hdfs（分布式文件系统）、Hbase（NoSQL数据库）以及RDBMS（关系型数据库管理系统）的混合模式，以支持大规模数据的分布式存储和高效查询。数据分析模块支持传统的OLAP分析（在线分析处理）以及Spark的机器学习算法，为故障诊断和决策支持提供了强大的工具。数据服务总线作为核心组件，实现了数据资源的统一管理和调度，对外部系统提供了稳定的数据服务接口，确保了数据的一致性和可靠性。综上，这个大数据仓库建设方案旨在构建一个高效、可扩展且能满足实时故障诊断需求的智能系统。

标准文案

1.4存储设计

1.4.1 数据量估算

按每列列车平均 500 毫秒通过车地通信采集监测数据 100 条，每天运营时间 18

小时，按每条记录 160 字节计算(监测数据的数据项相对简单)，初步按照 67 列列

车计算。

单列列车日监测数据=3600*2*160*100*18/1024/1024/1024≈2G

67 列列车年数据量=2*67*365/1024≈ 48T

10 年总数据量(乘上增长系数 10%)≈530T (含操作系统)

数据规划 10 年，加上系统用户信息、系统日志信息、专家信息、业务数据及

其它不可预测类数据，数据总量预估 530T。

1.4.2 数据存储

专家系统数据采用混合存储模式进行存储，RDBMS 存储专家系统业务基本数据

及最近 1 年的监测数据，10 年内历史监测数据采用 NoSQLHBase 数据库进行存储，

以方便查询，HBase 基于 Hdfs 分布式文件系统搭建，具体存储模式如下图。

大全

剩余31页未读，继续阅读

xxpr_ybgg

粉丝: 6741
资源: 3万+

专家系统数据仓库构建方案：架构与关键技术

金融大数据平台建设方案详细.pdf

智慧机场大数据平台建设运营方案.pdf

大数据技术体系建设方案.pdf

银行大数据项目解决方案10.pdf

防汛抗旱大数据平台项目建设方案.pdf

2022年政务大数据能力平台建设方案.pdf

《交通卡口大数据平台技术方案》.pdf

基于云计算技术的大数据用户行为引擎设计.pdf

大数据治理整体解决方案.pdf

集团大数据平台系统配置方案.pdf

最新资源