移动云大数据与数据湖发展

版权申诉
0 下载量 174 浏览量 更新于2024-08-12 收藏 1.09MB PDF 举报
"8-3+数据湖分享.pdf" 这篇文档分享了关于移动云和PaaS平台的发展历程以及数据湖和云上大数据的关键概念。移动云在2014年开始发展,经历了从内部大数据平台建设到集团集中化平台,再到云上大数据产品建设的三个阶段。在这一过程中,他们提供了100多个公有云PaaS产品,覆盖了数据库、大数据、人工智能、中间件等多个领域,并且成为了成长速度最快的云厂商。 团队在2014年至2019年间,构建了多个大数据集群,服务于多个省份的内部项目及外部客户,如三一重工、华东电网和京东方。2016年以来,团队致力于集团集中化大数据平台建设,处理的数据量达到PB级别,并计划向跨域融合架构演进。自2019年起,团队将大数据平台能力迁移到云端,开发了包括Lakehouse、消息队列Kafka、弹性MapReduce等一系列云原生大数据产品。 数据湖作为一种关键的数据存储和管理方式,其特征在于统一的存储系统、保留原始数据和多样化的计算模式。虽然Hadoop常常被视为数据湖的代表,但云上大数据带来了更深度的存储整合、无服务器计算以及更低的使用门槛。 LakeHouse是云原生大数据分析的一种新形式,结合了数据湖和数据仓库的优势,如DLA、DLF、Hudi、Iceberg、DeltaLake等。这些技术旨在提供更好的灵活性和成长性,能够解决大部分业务场景,而针对剩余的特定需求,可以使用如EMR、Snowflake、MaxCompute、Clickhouse、Doris等专门的产品。 此外,文档还提到了数据集成与治理(DIG)、数据智能分析(Moleye)、数据可视化(DataInsight)等工具,这些工具在数据湖解决方案中起到至关重要的作用,帮助用户实现数据的高效管理和价值提取。 总结来说,这份分享揭示了移动云如何通过不断的技术迭代和创新,构建出强大而全面的大数据生态体系,同时介绍了数据湖作为新一代数据管理模型的核心特点,以及在云上实现数据仓库和数据湖融合的LakeHouse模式。这些内容对于理解现代大数据环境下的云服务和数据管理具有重要价值。