Chukwa入门:Hadoop监控系统在CentOS上的部署与介绍

需积分: 10 28 下载量 86 浏览量 更新于2024-09-09 收藏 1.01MB PDF 举报
在Hadoop入门进阶课程的第13周,我们深入探讨了Chukwa系统,这是一个专为大规模分布式系统监控设计的开源数据收集工具。Chukwa建立在Hadoop的HDFS和MapReduce之上,充分利用了Hadoop的可扩展性和健壮性。它通过四个核心组件来实现其功能: 1. **Agents**:作为数据采集的核心,Agents负责从各种来源收集原始数据,然后将这些数据发送给Collectors。它们是数据流的第一站,扮演着监控节点的角色。 2. **Adaptors**:作为数据采集的接口和工具,Adaptors允许Agents与不同的数据源进行交互。一个Agent可以管理多个Adaptors,确保数据的高效收集。 3. **Collectors**:这些组件接收Agents发送的数据,并按照预设的时间间隔将数据整合到Hadoop集群中。它们起着数据汇集的作用,确保数据的完整性。 4. **MapReduce Jobs**:定期启动的MapReduce作业是Chukwa的关键处理部分,它们负责对集群中的数据进行分类、排序和去重操作,以便后续的分析和可视化。 在安装部署过程中,建议使用CentOS 6.6 64位操作系统,单核配置,1GB内存,且需禁用防火墙和SELinux以优化性能。课程提供者石山园在自己的博客<http://www.cnblogs.com/shishanyuan>上分享了这些内容,并推荐通过实验楼学习,学员可以在边阅读博客边进行实践,所有相关的安装包、测试数据和代码可在百度网盘<http://pan.baidu.com/s/10PnDs>获取。 在搭建环境时,作者建议使用用户shiyanlou,并在系统根目录下创建/app目录,给予适当的权限以便Hadoop组件的安装和运行。此外,课程提供的教程与实战环境详细说明了每个步骤的操作过程,为学习者提供了清晰的指导路径。 Chukwa是Hadoop生态系统中的一个重要组成部分,对于理解和管理分布式系统性能至关重要。通过理解其架构和组件工作原理,用户能够更好地监控和优化大型分布式系统的运行状态。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传