淘宝HBase实战：二级索引优化与JOIN案例

5星 · 超过95%的资源需积分: 33 90 浏览量更新于2024-07-22 收藏 334KB PDF 举报

HBase是一个分布式NoSQL存储系统，它在淘宝等互联网公司中得到了广泛应用，特别是因为其在海量数据处理、高可用性、高性能以及一致性方面的优势。本文将详细介绍淘宝如何利用HBase解决其核心业务需求，并探讨了在大规模部署中遇到的问题及其解决方案。首先，HBase在淘宝的应用始于2011年上半年，采用的是基于HBase 0.90.3+Patch的版本。他们构建了10个集群，包含约300台RegionServer，每台配备16个核心、24GB到48GB内存，以及不同类型的硬盘存储。这些资源能够提供高达200k操作每秒（ops/sec），其中70%是写入操作，30%是读取操作。HBase被用于多个在线和离线系统，尤其在处理百亿行数据的Table中，表现出稳定的读写性能，但HDFS成为了主要的读写瓶颈，写入时TPS（每秒事务处理数）在2K到40K之间，且命中率至关重要。在实际应用中，HBase被用在淘宝实时传输平台，处理每天TB级的数据写入，通过发布和订阅模式处理大量数据。淘宝指数则利用HBase进行倒排索引查询，从Redis迁移到HBase，实现了实时和高性能的查询。在交易历史记录查询系统中，HBase与二级索引结合，针对用户ID、时间戳和特定ID设计RowKey，以解决关系型数据库的局限性。然而，随着数据量的增长，HBase在大规模部署中遇到了挑战。当Region数量增加到7万，写性能显著下降，这主要是由于RegionServer遍历online regions导致性能瓶颈，如HBASE-3694问题。此外，RegionServer还可能因行的版本过多、RowKey设计不当（如HBASE-3290）而引发内存溢出。Master也可能面临oom（out of memory）问题，需要对缓存大小、RegionSplit和Compact策略，以及RowKey设计进行优化，以确保系统的稳定性和性能。总结来说，HBase作为淘宝的核心技术之一，凭借其强大的数据处理能力、高扩展性和高效性能，解决了大规模实时数据处理的需求。但在实际运用中，需要不断优化和调整系统配置，以应对数据增长带来的挑战，确保系统的稳定和高效运行。这对于初学者理解HBase在实际业务中的应用和优化策略具有重要参考价值。

xdy2000

粉丝: 0
资源: 3

淘宝HBase实战：二级索引优化与JOIN案例

基于Hbase的大数据查询优化

藏经阁-Ali-HBase的SQL实践与改进.pdf

hbase二级索引es和phoenix

hbase二级索引的约束

hbase二级索引实现方式

hbase的二级索引，选择phoenix还是es

hbase的索引方式

基于hbase的高效索引

hbase作为维表的flinksql

通过Java代码创建hbase表的二级索引表的demo

最新资源