INFINIDATA:基于Spark的大数据管理和探索平台

需积分: 10 3 下载量 47 浏览量 更新于2024-07-17 收藏 6.6MB PDF 举报
"基于Spark的统一数据管理与数据探索平台,由北京邮电大学网络技术研究院的熊永平在CCTC2017中国云计算技术大会上介绍。该平台名为INFINIDATA,旨在解决云计算环境下的大数据管理与分析问题,尤其适用于保险业等领域的应用。" INFINIDATA平台是基于Apache Spark构建的,它旨在提供一个统一的数据管理和探索解决方案,以适应不断演进的数据应用需求。熊永平的演讲详细阐述了设计背景、平台功能、可视化探索以及实际应用案例。 首先,设计背景反映了数据应用的发展趋势,从最初的批处理到即席查询、分析,再到主动触发的事件驱动,数据应用经历了五个发展阶段,伴随着查询复杂度、负载混合度、数据量、模型复杂度、历史深度和用户数量的增加,对系统的期望也不断提升。 INFINIDATA大数据平台的核心特性包括全量数据和表结构的自动化导入,智能同步增量数据,同时支持原始表和衍生表,以及对数据变化的追踪。此外,用户可以选择合适的存储引擎和分区策略进行优化,并且数据的变化可以自动触发计算任务,这大大简化了数据管理和处理的复杂性。 在计算流程管理方面,INFINIDATA平台借鉴了关系数据库的概念,提供了一个易于使用的界面,支持复杂的计算流程。这包括对全表扫描、数据加载、复杂查询和即席查询的支持,满足了不同类型的用户需求,如报表、简单查询、多字段检索、全文检索等。同时,平台还支持自助交互式建模,使得用户能够进行数据分析建模和预测。 针对现有的大数据解决方案,如MPP数据仓库和开源的大数据平台(如HDP、CDH、星环),INFINIDATA平台试图提供一个更统一、更易用且性能卓越的选项。用户不再需要深入理解底层组件,而是可以像操作传统数据库一样方便地管理数据,同时利用大数据计算技术的优势。此外,平台还兼容运行已有的数据库存储过程,进一步降低了迁移成本。 INFINIDATA平台是针对云计算环境下复杂数据处理需求的创新解决方案,通过集成Spark的强大计算能力,提供了一体化的数据管理、高效的计算流程和直观的可视化探索,旨在帮助企业更好地应对大数据时代的挑战。