hadoop的JobHistoryServer怎么配?
时间: 2024-10-06 14:02:29 浏览: 64
Hadoop的JobHistoryServer是Hadoop生态系统中的一个重要组件,它负责记录作业历史信息,如任务提交、状态变化等,这对于故障恢复和性能分析非常关键。配置JobHistoryServer通常涉及以下几个步骤:
1. **启动JobHistoryServer**: 首先,在`hadoop-env.sh`或`core-site.xml`文件中设置环境变量,指定JobHistoryServer的JVM选项,例如:
```bash
export HADOOP_JOB_HISTORYSERVER_OPTS="-Xmx<size>-XX:+UseParallelGC"
```
2. **修改核心配置** (`core-site.xml`):
- 设置 ` yarn.job.history.address` 和 `yarn.job.history.webapp.address`:这两个属性指定了 JobHistoryServer 的监听地址,用于Web界面访问。
```xml
<property>
<name>yarn.job.history.address</name>
<value>jobhistory_server_host:jobhistory_port</value>
</property>
<property>
<name>yarn.job.history.webapp.address</name>
<value>jobhistory_webapp_host:jobhistory_webapp_port</value>
</property>
```
其中,`jobhistory_server_host` 和 `jobhistory_port` 以及 `jobhistory_webapp_host` 和 `jobhistory_webapp_port` 分别是服务器的实际主机名和端口号。
3. **启动YARN服务**:确保YARN已经配置好并运行,因为JobHistoryServer作为YARN的一部分运行。
4. **监控与日志**:启用适当的日志级别以便于调试和问题追踪,比如通过`hadoop.log4j.properties`文件调整。
5. **安全配置**(如果集群有安全需求):确保 JobHistoryServer 使用正确的 Kerberos 身份验证,并配置相应的权限。
完成以上配置后,你可以通过YARN WebUI访问JobHistoryServer的信息,查看作业的历史记录。
阅读全文