饿了么大数据平台：建设历程、挑战与技术选型

5星 · 超过95%的资源需积分: 34 87 浏览量更新于2024-07-19 3 收藏 3.64MB PDF 举报

饿了么大数据平台分享由毕洪宇主讲，于2017年8月19日举行，该演讲主要探讨了饿了么公司在大数据平台建设中的经验和挑战。在2015年5月，饿了么成立专门的大数据团队，致力于提供30分钟送达的美好生活服务。他们的大数据平台涵盖了离线计算、实时计算以及逻辑架构和数据流向的设计。在大数据平台现状部分，平台处理的数据量庞大，离线计算集群规模达到100至1000个节点，每天处理的不考虑副本的数据达到100TB，拥有超过9万个表和400个报表，同时执行着2万个MapReduce和Spark任务，计算数据吞吐量高达3PB/day。实时计算部分，集群规模在10到100个节点之间，支持高吞吐率的数据处理，包括Kafka每秒处理1M条记录。面对的主要挑战包括人员不足、工作量大以及如何实现个性化服务（即“千人千面”），他们采取“Fire and Forget”的策略来提高效率和质量，同时致力于平台的稳定性和持续扩展。在技术选型上，饿了么团队根据不同的场景和需求进行了细致的权衡： 1. 对于海量数据的Ad-hoc查询，Presto因其良好的性能和稳定性被考虑，尽管团队对其了解稍显熟练；相比之下，Spark SQL虽然在社区支持和使用成本上具有优势，但在稳定性和学习成本上稍逊一筹。 2. 在海量存储和批处理需求上，HBase和Cassandra都被评估过，HBase在国内社区更活跃，而Cassandra在国外社区更为成熟，Cassandra的运维成本低且功能更易用，成为优选之一。 3. 对于实时计算引擎，团队选择了Storm作为首选，其次是Spark Streaming，而Flink则位列最后，Spark Streaming在社区支持上占据优势。饿了么大数据平台的构建过程中，团队注重了技术的选择和优化，以适应不断增长的数据需求和业务挑战，同时也在探索如何在有限的资源下实现高效、稳定和灵活的数据处理能力。通过这些分享，我们可以了解到一个大型互联网公司如何运用大数据技术驱动业务发展。