"藏经阁-HBase在苏宁的应用和实践.pdf"
本文档详细介绍了HBase在苏宁易购大数据中心的应用与实践,由苏宁易购大数据中心的高级技术经理张立明分享。苏宁大数据平台架构包括数据源层、存储层、计算层和服务层,其中HBase作为重要的存储组件发挥着关键作用。文档涵盖了HBase在苏宁的发展历程、应用场景、集群规模以及应用方式等多个方面。
01 使用现状
苏宁使用HBase构建了大数据管理平台,服务于多个业务领域,如推荐系统、风险控制、广告投放、监控和物流等。数据云(DataCloud)是苏宁大数据管理的核心,其中包括元数据管理、数据开发平台、机器学习、OLAP、流计算等多种技术组件,如Spark、Hive、Sqoop、MapReduce、YARN、Storm等。HBase与Cassandra、Elasticsearch、Kafka、Flume和Zookeeper等其他技术共同构建了苏宁的大数据生态系统。
02 服务化平台
苏宁大数据平台中,名为“华佗”的服务化平台整合了数据源层、存储层、计算层和服务层,实现了数据处理的高效流转。HBase在服务层中提供实时数据存储和访问,通过BulkLoad、Spark、MapReduce、Snapshot、Storm和Flink等工具进行数据导入和处理,支持离线分析和实时应用。
03 功能增强及性能优化
苏宁的HBase经历了从0.98版本升级到1.2.6版本的过程,期间实现了高可用性(HBaseClusterHA)、限流、监控和服务化。同时,引入了Phoenix查询引擎,使得SQL查询成为可能,且HBase和Phoenix的部署从公共集群转向独立集群,提升了系统的稳定性和性能。
04 运维监控
苏宁对HBase进行了智能运维,包括监控告警、性能优化等,确保了系统的稳定运行。例如,HBase集群规模达到18个,包含500多台服务器,支撑着1200+的表,平均QPS为400万,峰值可达2500万。在推荐系统中,HBase提供了快速的数据存取,以满足实时推荐的需求。
总结来说,HBase在苏宁的应用展现了其在大规模数据存储和实时处理上的优势,特别是在推荐、风控、广告和监控等业务场景中的出色表现。苏宁通过持续的技术迭代和优化,成功地将HBase融入到其大数据平台中,实现了高效的数据管理和智能决策支持。