INFINIDATA：基于Spark的大数据管理和探索平台

需积分: 10 47 浏览量更新于2024-07-17 收藏 6.6MB PDF 举报

"基于Spark的统一数据管理与数据探索平台，由北京邮电大学网络技术研究院的熊永平在CCTC2017中国云计算技术大会上介绍。该平台名为INFINIDATA，旨在解决云计算环境下的大数据管理与分析问题，尤其适用于保险业等领域的应用。" INFINIDATA平台是基于Apache Spark构建的，它旨在提供一个统一的数据管理和探索解决方案，以适应不断演进的数据应用需求。熊永平的演讲详细阐述了设计背景、平台功能、可视化探索以及实际应用案例。首先，设计背景反映了数据应用的发展趋势，从最初的批处理到即席查询、分析，再到主动触发的事件驱动，数据应用经历了五个发展阶段，伴随着查询复杂度、负载混合度、数据量、模型复杂度、历史深度和用户数量的增加，对系统的期望也不断提升。 INFINIDATA大数据平台的核心特性包括全量数据和表结构的自动化导入，智能同步增量数据，同时支持原始表和衍生表，以及对数据变化的追踪。此外，用户可以选择合适的存储引擎和分区策略进行优化，并且数据的变化可以自动触发计算任务，这大大简化了数据管理和处理的复杂性。在计算流程管理方面，INFINIDATA平台借鉴了关系数据库的概念，提供了一个易于使用的界面，支持复杂的计算流程。这包括对全表扫描、数据加载、复杂查询和即席查询的支持，满足了不同类型的用户需求，如报表、简单查询、多字段检索、全文检索等。同时，平台还支持自助交互式建模，使得用户能够进行数据分析建模和预测。针对现有的大数据解决方案，如MPP数据仓库和开源的大数据平台（如HDP、CDH、星环），INFINIDATA平台试图提供一个更统一、更易用且性能卓越的选项。用户不再需要深入理解底层组件，而是可以像操作传统数据库一样方便地管理数据，同时利用大数据计算技术的优势。此外，平台还兼容运行已有的数据库存储过程，进一步降低了迁移成本。 INFINIDATA平台是针对云计算环境下复杂数据处理需求的创新解决方案，通过集成Spark的强大计算能力，提供了一体化的数据管理、高效的计算流程和直观的可视化探索，旨在帮助企业更好地应对大数据时代的挑战。

用户视角

• 最好看起来像数据库一样，管理方便，使用简单

• 利用最新的大数据计算技术获得高性能和扩展能

力

• 不需要掌握各种底层组件

• 兼容运行已有的数据库存储过程

• 统一管理各种数据处理任务

• 稳定可靠

用户对大数据平台的期望

剩余29页未读，继续阅读

weixin_38743481

粉丝: 696
资源: 4万+

INFINIDATA：基于Spark的大数据管理和探索平台

藏经阁-基于Spark的统一数据管理与数据探索平台.pdf

藏经阁-INFINIDATA_基于Spark的统一数据管理与探索平台.pdf

基于spark的数据分析

基于spark的数据分析框架图

基于spark电影数据分析设计与实现

基于spark的大数据分析

基于spark的大数据项目

基于spark的NBA球员数据分析的实验环境

怎么基于Spark音乐数据分析的方式和代码

基于spark的二手房数据分析

最新资源