阿里巴巴Hadoop运维实战:监控与性能调优
2星 需积分: 34 47 浏览量
更新于2024-07-25
2
收藏 278KB PPTX 举报
“阿里的hadoop运维经验分享”
阿里在Hadoop运维方面积累了丰富的经验,从集群搭建、监控到性能调优,以及如何避免系统崩溃,都有深入实践和见解。以下是对这些关键点的详细说明:
1. **Hadoop集群搭建**:
- 赵云炯曾在阿里巴巴担任云梯管理员,负责搭建和维护Hadoop集群。
- 集群的稳定性至关重要,通常采用sas+raid10配置以保证磁盘的可靠性。
- 使用active-backupbonding和IPalias来增强网络的冗余和可用性。
- 通过NameQuota和SpaceQuota设置限制,防止用户过度占用存储空间。
- 实施严格的权限控制,确保数据安全。
- 开启Rackawareness,使数据分布更均衡,提高容错能力。
2. **监控**:
- 监控Tasktracker和Datanode的数量,及时发现异常情况。
- 关注大作业的执行,特别是那些读写数据量大、运行时间长的作业,它们可能对系统造成压力。
- 实时检查HDFS的健康状态,例如10分钟进行一次fsck操作,确保文件系统的完整性。
- 重视垃圾收集(GC)行为,尤其是FullGC,它可能影响系统性能。
3. **性能调优**:
- 在Namenode上控制内存,调整相关参数如`mapred.jobtracker.maxtasks.per.job`等,优化任务调度。
- 设置合理的checkpoint策略,如`fs.checkpoint.period`和`fs.checkpoint.size`,确保NameNode的稳定。
- 对SecondaryNamenode的硬盘进行优化,例如采用2T*12的磁盘,并使用ext4文件系统,启用noatime选项。
- 定期检查和更换故障磁盘,保持硬件的健康状态。
- 对于网络,如果条件允许,可以考虑使用模式4的bonding以提升带宽和冗余。
- 优化内存分配,如使`Xms`和`Xmx`相等,以避免频繁的内存调整。
- 推荐使用CMS垃圾收集器,因其低停顿时间。
- 缩短Editlog的锁持有时间和减少锁的频率,比如通过blockReport来降低锁粒度,使用读写锁来提升调度效率。
4. **Hadoop如何被搞垮**:
- 所有更改FSNamesystem的RPC调用都需要等待Editlog同步到磁盘,这可能导致锁竞争和性能瓶颈。
- 长时间的GC暂停可能导致任务延迟,影响整体作业的执行效率。
- 不恰当的内存分配和资源调度可能导致资源争抢,影响系统性能。
阿里在Hadoop运维中强调了系统稳定性、监控效率和性能优化的重要性,通过一系列精细的操作,确保了大规模Hadoop集群的高效稳定运行。对于任何处理大数据的企业来说,这些经验都具有很高的参考价值。
2019-01-16 上传
2021-05-20 上传
2013-11-28 上传
2024-06-19 上传
2023-11-25 上传
2023-05-30 上传
2023-04-05 上传
2023-06-08 上传
2023-10-14 上传
绝代老猪
- 粉丝: 0
- 资源: 9
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器