CM6.3.1+CDH6.3.2单机部署Streamsets3.22.3:快速指南

需积分: 12 5 下载量 91 浏览量 更新于2024-08-05 收藏 1021KB PDF 举报
本文档详细介绍了如何在基于Centos 7.6的操作系统上使用CM (Cloudera Manager) 6.3.1和CDH (Cloudera Distribution Hadoop) 6.3.2环境进行大数据技术中的Streamsets 3.22.3单机部署。首先,我们从以下几个关键步骤来理解这个过程: 1. **准备Parcel包**: - 从官方下载地址获取Streamsets 3.22.3版本的对应Parcel包,包括Manifest(元数据文件)、STREAMSETS_DATACOLLECTOR-3.22.3-el7.parcel(实际安装包)、STREAMSETS_DATACOLLECTOR-3.22.3-el7.parcel.sha(校验和文件)以及STREAMSETS-3.22.3.jar(定制服务描述符文件)。 - 将这些文件分别上传到Cloudera管理服务器的相应目录:Manifest和Parcel上传至/opt/cloudera/parcel-repo,而STREAMSETS-3.22.3.jar则上传至/opt/cloudera/csd。 2. **CDH集成**: - 登录CDH UI(用户界面),开始集成Parcel包: - 首先,访问主机页面并选择Parcel选项。 - 分配Parcel包,由于包体较大,可能需要较长时间等待。 - 完成分配后,激活新安装的Streamsets,并确认操作。 - 返回ClouderaManager主界面。 - 添加Streamsets服务:从CDH UI中,通过倒三角菜单找到并添加Streamsets服务。 - 选择目标主机,可以选择多个节点进行部署。 - 根据需求配置数据存储目录和资源存储目录,若磁盘资源充足,可以保持默认设置。 - 最后,点击完成,完成整个服务的安装和配置。 整个过程涉及了从下载、上传到集成和配置的完整流程,确保了在CDH环境中成功部署和运行Streamsets 3.22.3,这对于处理大数据流应用的开发、监控和管理至关重要。Streamsets是一个强大的数据集成工具,它允许用户轻松构建、管理和维护复杂的数据管道,适用于实时或批处理数据处理场景。通过与CDH集成,可以更有效地利用Hadoop生态系统的资源,提高大数据处理的效率和灵活性。