大数据处理:构建实时数据整合分析报表平台

1星 需积分: 50 15 下载量 174 浏览量 更新于2024-09-13 4 收藏 28KB DOC 举报
"软件服务外包大赛需求分析文档主要聚焦于大数据处理,旨在为一家公司构建一个数据整合分析报表平台,以改善企业管理模式并实现科学经营。项目基于Hadoop和云集群的实时数据处理系统,集成多个业务系统的数据,提供数据清洗、报表展示等功能,并对性能和运行环境有明确要求。" 本文档详细阐述了针对软件服务外包大赛的一个具体项目——数据整合分析报表平台,该项目属于大数据处理类别。项目的主要目标是通过计算机系统整合公司的业务数据,消除数据孤岛,建立统一的数据链条,推动企业管理从传统的“人管”模式向制度化、可度量的模式转变,以提升盈利预测、风险量化和产品盈利能力的可视化。 在项目概述中,提到了系统将采用数据仓库范式原理和维度模型理论,特别是基于Hadoop分布式平台或云集群,以处理大量实时数据。系统将集成公司的10个业务系统,实现数据清洗、转化以及管理报表的支撑。 在功能需求方面,项目要求使用Hadoop或云集群作为数据处理平台架构,数据仓库接口层需接近3NF范式,数据集市应采用维度模型,至少包含星型和雪花模型。系统还需具有数据清洗和脏数据自动识别处理的能力,能够集成扩展更多业务系统,并提供完善的报表展示,以支持业务管理和决策指导。 性能需求上,系统需能实时处理数据,秒级捕获增量数据并自动触发传导处理流程。对于1TB数据的处理应在3小时内完成,整个过程不超过5小时,并能承受GT级别的数据量。报表生成时间应小于5分钟,终端数据处理系统的响应时间要求低于5小时。 运行环境方面,指定使用Sun Solaris 10操作系统,Sun V890小型机作为服务器,Hadoop分布式协议/云集群作为支撑软件,Oracle 11.0.0.1g作为数据库环境。硬件配置包括8个1.8GHz双核CPU,320GB内存,4个146TB HDD磁盘阵列,以及特定的输入/输出设备。 这个项目的核心在于构建一个高效、灵活的大数据处理平台,它需要具备强大的数据整合、清洗、存储和分析能力,同时满足高并发、快速响应的性能需求,以及适应特定软件和硬件环境的运行条件。