Apache Tez 架构模型和构建 Hadoop 数据处理应用程序

需积分: 9 20 下载量 71 浏览量 更新于2024-07-22 收藏 2.36MB PDF 举报
Bikas Saha:Apache Tez-A 框架模型和构建 Hadoop 数据处理应用程序 本文档来自于 Apache Hadoop 和 Tez 项目 PMC 成员 Bikas Saha,在 2014 中国大数据技术大会大数据技术分论坛的演讲“Apache Tez-A Framework to Model and Build Hadoop Data Processing Applications”。 Apache Tez 是一个分布式执行框架,目标是面向数据处理应用程序。它基于将计算表达为数据流图,可以高度自定义以满足广泛的使用场景。Tez 构建在 YARN 之上,YARN 是 Hadoop 的资源管理框架。Tez 是一个开源的 Apache 项目,遵循 Apache 许可证。 Apache Tez 的设计考虑了以下几点: 1. 不要解决已经解决的问题,否则你将不得不再次解决它们! 2. 采用离散任务计算模型以实现弹性、可扩展性和故障容错性。 3. 利用多年来 Hadoop 中的工作,例如数据混洗操作、资源共享和多租户模型在 YARN 中,以及内置的安全机制。 Apache Tez 的特点包括: 1. 分布式执行框架:Tez 是一个分布式执行框架,目标是面向数据处理应用程序。 2. 数据流图模型:Tez 基于将计算表达为数据流图,可以高度自定义以满足广泛的使用场景。 3. 高度自定义:Tez 可以高度自定义以满足广泛的使用场景。 4. 基于 YARN:Tez 构建在 YARN 之上,YARN 是 Hadoop 的资源管理框架。 5. 开源 Apache 项目:Tez 是一个开源的 Apache 项目,遵循 Apache 许可证。 Apache Tez 的架构可以分为以下几层: 1. 资源管理层:YARN 负责资源管理。 2. 执行引擎层:Tez 负责执行引擎。 3. 应用层:包括 Hive、Pig、Cascading 等应用程序。 Apache Tez 的优点包括: 1. 弹性:Tez 采用离散任务计算模型,能够实现弹性和可扩展性。 2. 故障容错性:Tez 能够实现故障容错性。 3. 高度自定义:Tez 可以高度自定义以满足广泛的使用场景。 4. 开源:Tez 是一个开源的 Apache 项目,遵循 Apache 许可证。 Apache Tez 的应用场景包括: 1. 数据处理应用程序:Tez 可以用于构建数据处理应用程序。 2. 大数据处理:Tez 可以用于大数据处理。 3. 分布式计算:Tez 可以用于分布式计算。 Apache Tez 是一个分布式执行框架,目标是面向数据处理应用程序。它具有高度自定义、弹性、可扩展性和故障容错性等特点,可以广泛应用于大数据处理和分布式计算等领域。