大数据开发平台的架构与实践是一份详尽的59页文档,由单既喜在一点资讯撰写,重点关注于大数据开发过程中的关键要素和技术实施。该平台服务于一点资讯这样的大流量媒体公司,每日活跃用户达7000万,拥有《互联网新闻信息许可证》和《广播电视节目制作经营许可证》,强调以用户兴趣为中心,通过人机结合的方式推送“有趣更有用”内容。
文档深入探讨了大数据的生命周期,包括数据的采集(Dump)、实时计算以及数据分析阶段。血缘关系管理和调度系统设计是平台的核心组成部分,确保数据的有效管理和高效调度。其中,Kafka元数据管理用于存储和检索元数据信息,查询引擎则是数据查询和分析的关键组件。数据质量巡检平台监控数据质量,而离线计算支持批处理任务,Phoenix作为存储系统提供高效的数据存储和查询能力。
整体架构包括基础架构平台,如通用计算系统(可能指的是Hadoop集群中的MapReduce、YARN等)、容器计算(如Mesos和Kubernetes),以及专门的实时计算平台(如Storm和Flink)和机器学习平台。Lynx存储平台和多维分析平台则专注于复杂数据的存储和分析。YKafka作为实时计算平台的一部分,支持大规模消息传递。
平台上的大数据生产活动涵盖了调度系统(可能指代的是资源管理和任务调度)、元数据子系统(规范化数据管理)、血缘关系管理(追踪数据来源和变更历史)以及数据质量控制(实时和批量检查数据质量)。此外,数据应用开发和查询引擎(如Hive)对于业务价值的提取至关重要。AzkabanExecutor作为一个执行器,可能用于工作流管理和任务调度。
文档还提到,平台已经实现了高度的自动化和可扩展性,如Azkaban的扩展和改造,处理跨项目和跨集群的依赖关系,通过Mesos和Docker实现高可用性,以及数据库主从复制和作业管理功能。例如,可以进行作业提交、批量或级联Kill操作,并利用Hadoop Kill进行故障处理。
最后,文档列出了项目数量超过1200个,流水线2300个,数据表1500个,数据量达到30PB至42PB,日增量300TB以上,以及大量的YARN作业实例。平台在双机房环境中部署,包括大量Hadoop节点,Mesos+K8s集群,以及实时计算和自研KV存储设备的数量。
这份文档不仅提供了大数据开发平台的具体实现方案,还揭示了在实际运营中遇到的挑战和解决策略,对于理解企业级大数据开发和管理具有很高的参考价值。