淘宝分布式数据处理实践:Hadoop与Hive的扩展与应用
需积分: 10 134 浏览量
更新于2024-07-26
收藏 524KB PDF 举报
"淘宝分布式数据处理实践"
在淘宝的分布式数据处理实践中,云梯是一个重要的组件,它是一个大规模的分布式计算平台,旨在处理海量的数据。云梯由大量的硬件资源组成,包括1100台机器,其中主节点配置为8核(超线程)CPU、48GB内存和SAS RAID存储,而从节点则采用了异构配置,包含不同CPU数量、内存大小和磁盘容量的机器。这些从节点中的6T磁盘利用率相对较高,为了平衡负载,会进行定期的Rebalance操作,并且控制单机读写速度在10M/s以内,作业运行时间主要集中在每天的9:00到23:30。
云梯1的总容量达到了9.3PB,且利用率高达77.09%,每天处理大约18000道作业,扫描数据量约为500TB。尽管面临较高的硬盘故障率(每周10~20次),云梯通过优化设计,比如Slave单磁盘容错机制,确保了系统的稳定运行。在硬件故障发生时,如TaskTracker的磁盘故障,系统能够确保作业不受影响。
在软件层面,云梯基于Hadoop 0.19.1版本并应用了大量的补丁,这些补丁主要来自Hadoop的后续版本,如0.19.2、0.20、0.21,同时也有部分自研的改进。为了简化管理,云梯将Hadoop的客户端和服务端代码开发进行了分离,仅由管理员负责服务端的升级,并确保向下兼容。
在功能扩展上,云梯引入了安全性措施,如密码认证(hadoop.job.ugi)和正在开发的扩展ACL,以支持用户访问其他组的数据。调度器方面,云梯基于FairScheduler进行了改造,允许通过网页形式动态调整slots,并且每个用户组可以独立使用自己的资源。此外,为了实现高可用性,云梯采用3个Master节点加1个Standby节点的架构,利用Virtual IP进行NameNode和JobTracker的故障切换。
淘宝的Hadoop实践还包括对Hive的使用和改造。Hive作为一个基于Hadoop的数据仓库工具,使非编程人员也能方便地进行大数据查询和分析。淘宝对Hive的改造可能涉及到性能优化、功能增强等方面,以适应其内部业务需求。
除此之外,淘宝还构建了一个分布式数据仓库的构思,可能涉及到更高级别的数据组织和处理模式,以支持各种业务,如搜索、支付宝、B2B、数据魔方、量子统计、口碑等。这些业务依赖于Exchange、爬虫数据、MapReduce Java Jobs、Streaming Jobs、Hive Jobs等多种处理方式来获取、存储、处理和分析数据,从而驱动推荐系统、搜索排行等功能。
淘宝的分布式数据处理实践展示了大型电商如何应对海量数据挑战,通过定制化的Hadoop集群、安全性增强、调度策略优化以及对Hive的改造,实现了高效、稳定和安全的数据处理环境,服务于公司的各项业务需求。
376 浏览量
2010-11-22 上传
点击了解资源详情
点击了解资源详情
2015-04-16 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
flamkuavos
- 粉丝: 48
- 资源: 2
最新资源
- UML( Unified Modeling Language)概述
- 网络工程师英语词汇表英语词汇表
- 信号与系统PPT(郑君里)
- Windows核心编程-第五版(中文版)完整
- spring框架,技术详解及使用指导
- java面试常见问题总结word版
- Flex3 in Action EN文经典推荐
- 掌握IIS排错技巧 让Web更好服务
- 全国软考网络工程师英语习题
- 路由器配置步骤与方法
- 十天学会ASP.NET教程
- Beginning-SQL-Server-2008-for-Developers-From-Novice-to-Professional
- C++ 设计新思维.pdf
- pro-wpf-in-c-2008-windows-presentation-foundation-with-net-3-5-second-edition
- SAP中文版AP操作手册.pdf
- 网络建设流程(PPT 、习题、综合布线)内容丰富!