"淘宝分布式数据处理实践：云梯规模-slave的管理与优化"

需积分: 10 23 浏览量更新于2024-01-11 收藏 640KB PPT 举报

淘宝分布式数据处理实践是在云梯规模-slave上进行的。云梯1规模-slave机器具有异构性，其中6T机器的磁盘利用率较高。为了保持数据均衡，实践中使用了Rebalance技术。在单机速度控制方面，每台机器的处理速度被限制在每秒10M的速度。这是为了避免过度的计算负载对整个系统的影响。淘宝分布式数据处理实践每天从9:00到23:30不间断运行。在这期间，数据处理作业会在云梯1规模下的slave节点上进行。然而，云梯1规模下的slave机器存在一定的故障率。每周大约会有10到20次硬盘故障发生，以及1到2次主板或其他故障。这些故障需要得到及时的修复和处理，以保证整个数据处理系统的正常运行。整个淘宝的数据规模达到了7.01PB。淘宝的数据主要来源于Oracle备库和MySQL备库。此外，还有日志系统、支付宝、B2B、搜索等数据源。云梯1规模下的数据处理主要通过Hadoop的功能扩展与改造来实现。其中，Hive被广泛应用于数据处理工作，并进行了相应的改造以适应淘宝的特定需求。淘宝的数据具有多种形态，大部分数据呈现结构化的形式，并且具有一定的数据模式。在云梯1规模下，总共有1100台机器，包括Master节点和Slave节点。Master节点配置为8核CPU，48G内存和SAS Raid。Slave节点则具有不同的配置，并且节点间存在异构性。云梯1规模下的slave节点配置如下： - CPU配置为8核或8核(超线程) - 内存配置为16G或24G - 磁盘配置为1T x 12 / 2T x 6 / 1T x 6 SATA JBOD - 插槽数为12或20 在云梯1规模的数据处理实践中，每天约有18000个作业需要处理，扫描的数据量约为500TB/天。共有474名用户和38个用户组参与数据处理工作。总体而言，淘宝分布式数据处理实践利用了云梯1规模-slave的异构性，通过Hadoop的功能扩展与改造以及Hive的应用来处理大规模的结构化数据。通过这些技术和系统的运行，实现了高效的数据处理和分析，并为淘宝的业务提供了有力的支持。然而，由于slave机器的故障率较高，需要进行及时的维护和修复，以确保系统的稳定性和可靠性。

淘宝数据的形状

• 核心数据来源于Oracle备库

• 大部分数据结构化，数据具有模式

• 稠密

剩余16页未读，继续阅读

速本

粉丝: 20
资源: 2万+

"淘宝分布式数据处理实践：云梯规模-slave的管理与优化"

淘宝分布式数据处理实践

淘宝云梯分布式计算平台整体架构

淘宝分布式服务框架

淘宝云梯：大规模分布式数据处理实践与改造

淘宝分布式数据处理实践：Hadoop与Hive的扩展与应用

淘宝Hadoop实践：2010年云梯系统与改造

S变换+Sockwell R G , Mansinha L , Lowe R P . Localization of the complex spectrum: the S transformJ

2021科大讯飞车辆贷违预测大赛冠军源码+全部资料.zip

AI图像处理工具包-一键抠图、背景切换、旧照片修复、人像漫画化、视频卡通化（Python+OpenCV+Dlib+TensorFlow）.zip

基于java+springboot+vue+mysql的远程教育网站设计与实现.docx

最新资源