"淘宝分布式数据处理实践:云梯规模-slave的管理与优化"

需积分: 10 0 下载量 23 浏览量 更新于2024-01-11 收藏 640KB PPT 举报
淘宝分布式数据处理实践是在云梯规模-slave上进行的。云梯1规模-slave机器具有异构性,其中6T机器的磁盘利用率较高。为了保持数据均衡,实践中使用了Rebalance技术。 在单机速度控制方面,每台机器的处理速度被限制在每秒10M的速度。这是为了避免过度的计算负载对整个系统的影响。 淘宝分布式数据处理实践每天从9:00到23:30不间断运行。在这期间,数据处理作业会在云梯1规模下的slave节点上进行。 然而,云梯1规模下的slave机器存在一定的故障率。每周大约会有10到20次硬盘故障发生,以及1到2次主板或其他故障。这些故障需要得到及时的修复和处理,以保证整个数据处理系统的正常运行。 整个淘宝的数据规模达到了7.01PB。淘宝的数据主要来源于Oracle备库和MySQL备库。此外,还有日志系统、支付宝、B2B、搜索等数据源。云梯1规模下的数据处理主要通过Hadoop的功能扩展与改造来实现。其中,Hive被广泛应用于数据处理工作,并进行了相应的改造以适应淘宝的特定需求。 淘宝的数据具有多种形态,大部分数据呈现结构化的形式,并且具有一定的数据模式。在云梯1规模下,总共有1100台机器,包括Master节点和Slave节点。Master节点配置为8核CPU,48G内存和SAS Raid。Slave节点则具有不同的配置,并且节点间存在异构性。 云梯1规模下的slave节点配置如下: - CPU配置为8核或8核(超线程) - 内存配置为16G或24G - 磁盘配置为1T x 12 / 2T x 6 / 1T x 6 SATA JBOD - 插槽数为12或20 在云梯1规模的数据处理实践中,每天约有18000个作业需要处理,扫描的数据量约为500TB/天。共有474名用户和38个用户组参与数据处理工作。 总体而言,淘宝分布式数据处理实践利用了云梯1规模-slave的异构性,通过Hadoop的功能扩展与改造以及Hive的应用来处理大规模的结构化数据。通过这些技术和系统的运行,实现了高效的数据处理和分析,并为淘宝的业务提供了有力的支持。然而,由于slave机器的故障率较高,需要进行及时的维护和修复,以确保系统的稳定性和可靠性。