机票大数据平台:Spark+Hadoop驱动的机场吞吐量与航班分析

需积分: 21 37 下载量 178 浏览量 更新于2024-07-17 1 收藏 39KB DOCX 举报
本需求规格说明书详细阐述了针对机票大数据平台的开发需求,旨在通过收集和分析携程等订票网站的机票信息,提供关键的业务洞察。项目的核心目标是统计城市间的吞吐量、航空公司业务占比及服务水平,并通过可视化展示票价变动,帮助用户做出更明智的购票决策。 Spark作为核心的计算引擎,其内存分布数据集的优势使得平台能够支持交互式查询和大规模数据处理,提升数据分析效率。Hadoop则提供了分布式文件系统HDFS,确保了数据的高容错性和大容量存储,适应超大数据集的应用。HDFS允许流式访问数据,配合MapReduce模型,实现了数据的高效存储和处理。 该软件是一个独立的机票大数据统计分析网站,采用Hadoop进行数据分布式存储,Spark进行实时处理,实现了从数据到分析的无缝连接。开发背景主要针对企业用户,他们关注航班价格、航空公司市场份额和航线选择,同时,普通用户也寻求低价机票和航班选择信息。 在功能需求方面,系统应具备实时显示热门城市航线、航空公司占比,以及不同日期和时间的票价等功能。性能需求着重于优化用户体验,要求主页热门航线加载时间不超过1秒,单个航空公司或城市航线加载时间控制在0.5秒以内。系统设计需考虑最大并发用户数,至少达到400个,确保在高峰期也能稳定运行。 数据库设计包括关键表,如"airline_sample"用于存储航班基础信息,"airline"记录航线热度,"AllPrice"则储存每趟航班的多维度票价信息。然而,开发过程中面临的时间(仅20天)、硬件(阿里云服务器续期问题)和语言(前端框架版本不一致)约束也需要开发者密切关注和解决。 综上,该机票大数据平台项目旨在打造一个数据驱动的决策支持工具,通过整合和分析海量机票信息,为用户提供个性化和精准的旅行建议,同时兼顾性能和可用性,以满足不同用户群体的需求。