HBase在阿里搜索:核心存储与高吞吐实践

0 下载量 66 浏览量 更新于2024-08-27 收藏 377KB PDF 举报
"HBase在阿里搜索中的应用实践" 在阿里搜索中,HBase扮演着至关重要的角色,自2010年以来,历经十多个版本的迭代与优化,尤其是在社区版本1.1.3之后,其性能得到了显著提升,避免了1.1.2版本存在的性能问题。目前,阿里搜索的HBase集群规模宏大,节点数超过3000个,最大的单一集群超过1500个,整个阿里集团的节点数更是远超这一数字。在2019年双11期间,阿里搜索离线集群展现了强大的处理能力,每秒访问峰值高达4000万次,单台机器在一秒钟内的吞吐峰值也能达到10万次,即使在CPU使用率超过70%的高压情况下,单个CPU核心仍能支持8000+QPS,显示出HBase卓越的高并发处理能力。 作为阿里搜索的核心存储系统,HBase与计算引擎紧密结合,主要用于支持搜索和推荐业务。在索引构建阶段,HBase接收来自线上MySQL等数据库的商品和用户数据,通过流式处理导入,为搜索引擎构建索引提供数据基础。在推荐环节,Porshe机器学习平台将模型和特征数据存储在HBase,同时实时存储用户点击数据,通过在线训练更新模型,提升推荐系统的准确性和效果。 首先,我们来看HBase在索引构建中的应用。淘宝和天猫的线上数据源丰富多样,包括各个店铺和用户的实时活动。HBase不仅负责夜间全量数据的批量导出,供搜索引擎构建全量索引,还实时接收并更新线上变化的数据,确保增量索引的及时构建,实现搜索结果的秒级更新。这种机制确保了用户能够即时看到库存、新品等信息的变更。 其次,HBase在机器学习场景中也有重要应用。举例来说,在用户搜索三千元手机但未找到满意选项的情况下,机器学习模型会根据用户行为调整搜索结果排序,将符合预算的手机提前展示。这就需要HBase存储和快速响应模型训练及特征数据,确保推荐的实时性和准确性。 总结起来,HBase在阿里搜索的应用实践充分展示了其在大规模数据存储、高并发处理和实时数据更新方面的优势,是支撑阿里搜索和推荐系统高效运作的关键技术之一。通过与流式计算引擎的协同工作,HBase在索引构建和机器学习等场景中发挥着不可替代的作用,确保了阿里巴巴集团在电商领域的快速响应能力和用户体验。