HBase在阿里搜索:核心存储与高吞吐实践
126 浏览量
更新于2024-08-27
收藏 377KB PDF 举报
"HBase在阿里搜索中的应用实践"
在阿里搜索中,HBase扮演着至关重要的角色,自2010年以来,历经十多个版本的迭代与优化,尤其是在社区版本1.1.3之后,其性能得到了显著提升,避免了1.1.2版本存在的性能问题。目前,阿里搜索的HBase集群规模宏大,节点数超过3000个,最大的单一集群超过1500个,整个阿里集团的节点数更是远超这一数字。在2019年双11期间,阿里搜索离线集群展现了强大的处理能力,每秒访问峰值高达4000万次,单台机器在一秒钟内的吞吐峰值也能达到10万次,即使在CPU使用率超过70%的高压情况下,单个CPU核心仍能支持8000+QPS,显示出HBase卓越的高并发处理能力。
作为阿里搜索的核心存储系统,HBase与计算引擎紧密结合,主要用于支持搜索和推荐业务。在索引构建阶段,HBase接收来自线上MySQL等数据库的商品和用户数据,通过流式处理导入,为搜索引擎构建索引提供数据基础。在推荐环节,Porshe机器学习平台将模型和特征数据存储在HBase,同时实时存储用户点击数据,通过在线训练更新模型,提升推荐系统的准确性和效果。
首先,我们来看HBase在索引构建中的应用。淘宝和天猫的线上数据源丰富多样,包括各个店铺和用户的实时活动。HBase不仅负责夜间全量数据的批量导出,供搜索引擎构建全量索引,还实时接收并更新线上变化的数据,确保增量索引的及时构建,实现搜索结果的秒级更新。这种机制确保了用户能够即时看到库存、新品等信息的变更。
其次,HBase在机器学习场景中也有重要应用。举例来说,在用户搜索三千元手机但未找到满意选项的情况下,机器学习模型会根据用户行为调整搜索结果排序,将符合预算的手机提前展示。这就需要HBase存储和快速响应模型训练及特征数据,确保推荐的实时性和准确性。
总结起来,HBase在阿里搜索的应用实践充分展示了其在大规模数据存储、高并发处理和实时数据更新方面的优势,是支撑阿里搜索和推荐系统高效运作的关键技术之一。通过与流式计算引擎的协同工作,HBase在索引构建和机器学习等场景中发挥着不可替代的作用,确保了阿里巴巴集团在电商领域的快速响应能力和用户体验。
2018-03-18 上传
2012-07-15 上传
2019-08-28 上传
点击了解资源详情
点击了解资源详情
2013-12-23 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
weixin_38710557
- 粉丝: 2
- 资源: 937
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明