没有合适的资源?快使用搜索试试~ 我知道了~
首页IBM InfoSphere DataStage 集群配置管理与应用实践
IBM InfoSphere DataStage 集群配置管理与应用实践
4星 · 超过85%的资源 需积分: 15 36 下载量 13 浏览量
更新于2023-03-03
评论
收藏 711KB DOC 举报
IBM InfoSphere DataStage 集群配置管理与应用实践,里面详细介绍了如何对DataStage进行集群的配置,步骤详细。
资源详情
资源评论
资源推荐
IBM InfoSphere DataStage 集群配置管理
与应用实践
简介: 本文不仅仅详细讲述了 IBM InfoSphere DataStage 集群的构建与配置,同时,也以
几种典型的应用场景为例,为用户提供了详细而全面的参考价值。并且指导开发人员设计
和构建更为高效和可扩展性的 DataStage 数据处理环境。
前言
在开始之前,下面列出了准备以及配置 DataStage 集群环境(在这里以 Linux 环境为例)我
们要做的主要步骤,作者可以参考下面的步骤来阅读本文:
1 准 备 集 群 环 境 机 器 , 包 括 NAS Server 、 Domain Server 、 Engine Server 、 Client
Server
2 为所有集群节点创建 dsadm 用户、包括主导节点以及普通计算节点
3 在所有集群节点上配置无密码 SSH
4 在前面准备好的机器中安装 Information Server
5 导出、导入 Information Server Engine 的安装目录
6 节点配置及场景应用
IBM InfoSphere DataStage 集群简介
现代集群技术
众所周知,集群计算机的能力可以在 IT 组织架构中最大限度的提高和利用系统资源。现代
信息系统的集成解决方案建立在集群技术之上可以大大降低计算能力的成本。
InfoSphere DataStage 集群与 Grid 的区别
InfoSphere DataStage 提供了两种技术来实现一个作业能够并发的运行在不同的计算节点上,
第一种是 DataStage 集群,第二种是 DataStage Grid。下面我们来看一下两者的主要区别。
首先,DataStage 集群建立在包含多个计算处理节点的网络之上,在这样一个网络结构中,
作业的运行资源由配置文件来明确指定,即配置文件中的资源配置信息指明了作业会运行
在这些资源上。而在 DataStage Grid 中,采用资源管理器软件 (WLM) 的动态检查和分配资
源,使得作业的运行无须依赖手工设置,从而在信息技术中利用最少的资源来获得最大的
投资。常用的 WLM 有 Tivoli Workload Scheduler LoadLeveler 和 Platform LFS 等 . 而无论
DataStage 集群还是 DataStage Grid,都可以使用户可以在一个网络系统中并行运行作业
(Job)。如果作者想要了解更多有关 DataStage Grid 配置的信息,可以向 IBM Service 提
出咨询。
作业的并行处理及其系统的拓扑结构
为了最大限度的提高 IBM InfoSphere Information Server 引擎的数据处理效率,用户可以采
用作业的并行处理以及系统的集群技术。而在 DataStage 集群网络拓扑中,每个作业的工
作负载会在运行时被分配到不同的处理器中进行处理。这些处理器可能位于相同的计算机
上,也可能位于由计算机网络连接在一起的不同的计算机上。InfoSphere Information Server
引擎会使用这些处理器和其它的计算机资源并发的完成这些作业。而这个并行引擎和
InfoSphere Information Server 引擎共同组成了引擎拓扑层。
IBM InfoSphere DataStage 系统集群以引擎节点为主导节点(Conductor Node),同时由它
向集群中的普通节点(Compute Node)发送数据处理指令。以此为特征的 DataStage 集群
也极大的提高了数据处理速度和能力。此外,InfoSphere DataStage 还具有高可扩展性,可
以非常容易的集成更多的系统节点。
在本文中,我们将重点介绍 IBM InfoSphere DataStage 中提供的用于在分布式网格环境中对
数据进行管理和处理的技术。
下图是基于多个物理计算机实体的集群系统拓扑结构,这些处理节点通过网络连接在一起
共同组成了 DataStage 的集群环境。
图 1. 基于多个物理计算机实体的集群系统拓扑结构
初始环境准备
在详细介绍如何配置具有多个节点的 DataStage 集群环境之前,有一些必要的初始环境准
备工作需要完成。
搭建环境所需要的机器资源
假设我们的集群环境中 InfoSphere™ Information Server 的每个层都独立占用一个计算机资
源,以在 Linux OS 上搭建一个 DataStage 的集群环境为例子,那么我们至少需要下面的资
源:
NAS Server :Linux OS,Host Name 假设为 iisperfblade0,用于提供 Information
Server 的 Engine 安装目录以导出到主导节点和其它的普通节点中。
Domain 层 : Linux OS , Host Name 假 设 为 iisperfblade_domain , 用 于 安 装
Information Server 的 Services tier( 服务 ) 以及 Metadata repository tier ( 存储数据库 )
Engine 层 : Linux OS ,Host Name 假 设为 iisperfblade11 ,用于安装 Information
Server 的 DataStage Server 以及处理引擎
Client 层 : Windows OS , Host Name 假 设 为 iisperfblade_client , 用 于 安 装
Information Server 的客户端软件
普通节点:Linux OS,普通计算节点的个数要求并没有限制,但是要组成集群至少
需要一个普通计算节点。在我们下面的例子中,假设还有另外的三个计算节点, Host
Name 分别为 iisperfblade12,iisperfblade13,和 iisperfblade14。
对于每个机器以及资源的操作系统,由于 Information Server 的 Client 层用于安装 DataStage
的客户端软件,只能安装在 Windows 上面,所以 Client 层必须为 Windows 操作系统。而
DataStage 的集群需要建立在 Linux 环境中,那么 Information Server Domain 层、Engine 层
以及所有的普通计算节点都要求为 Linux 操作系统。
为 DataStage 节点资源创建管理员用户
对于每一个 InfoSphere DataStage 引擎都需要一个操作系统用户,一般情况下会使用
dsadm。用户可以选择在安装的过程中创建这个用户,也可以在安装之前手工创建好这个
用户,然后在安装过程中选择它。
这个用户会用来做一些管理性的任务,例如:创建新的项目、定义项目属性、编译运行作
业等。下面给出了在准备 DataStage 集群环境过程中创建用户的步骤。
7 以 root 用户登录每一个 DataStage 节点(包括主导节点以及其它所有的普通计算节
点)。
8 如果用户希望在安装 DataStage Engine 的时候让安装程序自动创建管理员用户,读
者可以跳过在主导节点上手工创建的步骤。
9 添加用户组:/usr/sbin/groupadd dstage
10 添加用户:/usr/sbin/useradd -g dstage -d /home/dsadm dsadm
11 为用户设置密码:/usr/sbin/passwd dsadm
注意:默认情况下,我们一般为 InfoSphere DataStage 创建的用户名是 dsadm,如果是在
AIX 系统上使用自定义用户名称,请不要超过 8 个字符。
无密码的 SSH 服务
IBM InfoSphere DataStage 系统集群中由主导节点(Conductor Node)向集群中的普通节点
(Compute Node)发送数据处理指令,这个过程需要主导节点和普通节点的通信。在
DataStage 系统集群网络中,通过 SSH(Secure Shell)进行通信。
InfoSphere DataStage 集群中主导节点和普通节点的通信是通过无密码的 SSH 服务来完成的。
普通计算节点上的用户通过它的共有密钥来进行认证。在主导节点和所有的普通计算节点
上进行无密码 SSH 服务的配置方法我们将在下一小节中详细讲述。
DataStage 集群环境构建与配置
本小节接下来的几个部分将以一种典型的网络拓扑结构:单 DataStage 服务器引擎即单集
群环境为例,详细讲述 InfoSphere DataStage 集群的构建与配置方法。
InfoSphere Information Server 服务器安装与配置
InfoSphere Information Server 提供了多种用户安装方式,它可以分为单层安装、双层安装 、
三层安装以及多引擎节点的多层安装等。下图就是一种 Information Server 三层安装方式的
总体拓扑结构图。下面我们将使用第二小节中所列出的资源以一个单服务器引擎节点的安
装方式为例来介绍 InfoSphere DataStage 集群的构建与配置方法。
图 2. Information Server 三层安装方式的总体拓扑结构
单服务器引擎
首先,我们介绍最简单的一种 DataStage 集群构建方式,具有单个服务器引擎的网络拓扑
来构建我们的集群环境。DataStage 是 InfoSphere Information Server 产品的重要组成部分 .
构建 DataStage 集群首先要安装 InfoSphere Information Server。InfoSphere Information Server
的安装方式采用三层安装,即客户端软件一个层次,Information Server 服务软件和存储数
据库 (XMETA) 一个层次 , 以及 Information Server Engine 一个层次,如下图所示。在
Information Server Engine 这一层,有一个主导节点 (Head Node) 和三个普通计算节点
(Compute Node),其中,由主导节点来与 Information Server 服务层进行通信,同时,由主
导节点来与其它的普通节点进行通信 , 及普通节点间的通讯。
剩余22页未读,继续阅读
lwg819
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论7