"淘宝分布式数据处理实践:云梯规模-slave的管理与优化"
需积分: 10 23 浏览量
更新于2024-01-11
收藏 640KB PPT 举报
淘宝分布式数据处理实践是在云梯规模-slave上进行的。云梯1规模-slave机器具有异构性,其中6T机器的磁盘利用率较高。为了保持数据均衡,实践中使用了Rebalance技术。
在单机速度控制方面,每台机器的处理速度被限制在每秒10M的速度。这是为了避免过度的计算负载对整个系统的影响。
淘宝分布式数据处理实践每天从9:00到23:30不间断运行。在这期间,数据处理作业会在云梯1规模下的slave节点上进行。
然而,云梯1规模下的slave机器存在一定的故障率。每周大约会有10到20次硬盘故障发生,以及1到2次主板或其他故障。这些故障需要得到及时的修复和处理,以保证整个数据处理系统的正常运行。
整个淘宝的数据规模达到了7.01PB。淘宝的数据主要来源于Oracle备库和MySQL备库。此外,还有日志系统、支付宝、B2B、搜索等数据源。云梯1规模下的数据处理主要通过Hadoop的功能扩展与改造来实现。其中,Hive被广泛应用于数据处理工作,并进行了相应的改造以适应淘宝的特定需求。
淘宝的数据具有多种形态,大部分数据呈现结构化的形式,并且具有一定的数据模式。在云梯1规模下,总共有1100台机器,包括Master节点和Slave节点。Master节点配置为8核CPU,48G内存和SAS Raid。Slave节点则具有不同的配置,并且节点间存在异构性。
云梯1规模下的slave节点配置如下:
- CPU配置为8核或8核(超线程)
- 内存配置为16G或24G
- 磁盘配置为1T x 12 / 2T x 6 / 1T x 6 SATA JBOD
- 插槽数为12或20
在云梯1规模的数据处理实践中,每天约有18000个作业需要处理,扫描的数据量约为500TB/天。共有474名用户和38个用户组参与数据处理工作。
总体而言,淘宝分布式数据处理实践利用了云梯1规模-slave的异构性,通过Hadoop的功能扩展与改造以及Hive的应用来处理大规模的结构化数据。通过这些技术和系统的运行,实现了高效的数据处理和分析,并为淘宝的业务提供了有力的支持。然而,由于slave机器的故障率较高,需要进行及时的维护和修复,以确保系统的稳定性和可靠性。
点击了解资源详情
点击了解资源详情
点击了解资源详情
150 浏览量
2025-01-09 上传
2025-01-09 上传
速本
- 粉丝: 20
- 资源: 2万+
最新资源
- 四星电子 蓝牙串口设置软件.zip
- matlab代码sqrt-matlab-mastodon-importer:用于Mastodon文件的MATLAB导入器
- Kpo4317_DJR_Lab4_test
- 高漫8600数位板驱动程序 for xp/win7/mac 官方最新版
- 棋
- C-Sharp:具有作业的C#工作和代码实践
- 拉手移动式
- matlab代码sqrt-AsuMathLabG01:实施数学库软件。类似于Matlab,Octave和类似工具
- maven-archetype-quickstart-1.1.zip
- 四星电子 SX Virtual Link连接软件.zip
- 聊天应用程序:使用套接字的实时聊天应用程序
- Spring-Semester-2021-IIT-B-Notes:这些是我在IIT-B的2021年Spring学期的笔记。它们是对幻灯片的补充,仅包含教授在讲座中说过的部分,但除我自己的观察外,幻灯片中未提及
- Programing-Language-C:为大学活动开发的简单程序
- SEE Electrical V7R2 2014最新版本抢先试用.zip
- genetic-algorithm:遗传算法解决背包问题。 动态参数选择
- 文华指数数据服务API接口说明