CDH集成Tez:从安装到配置及常见问题解决方案

版权申诉
0 下载量 55 浏览量 更新于2024-07-20 收藏 1.97MB PDF 举报
本文档详细介绍了如何在CDH(Cloudera Distribution Hadoop)环境下集成Tez引擎,以及针对Hive on Tez的相关配置和常见问题解决方案。CDH版本3.0.0-cdh6.2.0默认不支持LLAP(Low Latency Access Protocol),但可以通过特定步骤将Tez版本0.9.1整合到Hadoop集群中。 首先,由于CDH版本提供的Hadoop与Tez的兼容性问题,需要从Apache官网下载Tez源代码进行编译。步骤如下: 1. 下载protobuf-2.5.0版本,这是一个必需的依赖,用于处理Tez的protobuf通信。可通过wget或手动下载,并执行编译流程,包括configure、make和makeinstall,验证安装成功的方法是运行protoc并查看版本号。 2. 从指定链接下载Tez-0.9.1源码包,然后解压并进入目录。这里建议使用sudo权限切换至root用户以确保编译过程顺利进行。 3. 配置Maven,因为Tez的构建需要Maven 3.0.0或更高版本。确认已安装Maven,如果未安装,可以从官方仓库下载并安装。 在集成过程中,需要注意以下几点: - 将Tez的jar文件直接复制到Hive的lib目录可能会导致问题,因此推荐遵循文档中的指导,可能是通过构建或安装后自动添加到Hadoop的classpath中。 - 如果在配置过程中遇到configure校验失败,可能需要安装缺失的gcc等包来满足编译要求。 - 针对Hive on Tez的使用,可能会遇到内存问题,这是因为与Spark相比,Tez在资源管理和优化上相对更省心,但具体配置和优化内存策略仍然是必要的。 此外,文档还包含了Hive on Tez常见报错的解决方法,这部分内容对于实际部署和调试非常有价值。由于篇幅限制,这里没有列出所有错误及其解决方案,但可以预期的是,文档提供了详尽的排查指南,包括但不限于配置错误、依赖冲突和版本不匹配等问题。 本文档是一份实用的指南,适用于CDH管理员和开发人员,希望在升级Hadoop框架时将Tez作为替代或增强Hive性能的选择。通过阅读和执行文中步骤,读者能够有效地集成和配置Tez引擎,解决潜在的问题,并利用Tez的优势提升大数据处理效率。