"CDH大数据环境优化:数据块优化与集群服务安排详解"
需积分: 9 159 浏览量
更新于2024-01-15
1
收藏 72KB DOCX 举报
CDH大数据环境优化指南中提到了数据块优化的问题。在CDH环境中,文件以块为单位进行存储和处理。块的大小通常设置为比较大的值,例如默认的128M,这样可以提高寻址速度和读取效率。
块的大小越大,寻址速度越快,读取效率越高。但是,需要注意的是,MapReduce任务也是以块为最小单位进行处理的。因此,如果块的大小太大,会影响对数据的并行处理。
一个文件至少占用一个块的空间,即使文件很小,例如1KB,也会占用一个块的大小。当我们从HDFS上读取文件时,NameNode会寻找块的地址。最佳状态下,寻址时间应该是传输时间的1%。
目前磁盘的传输速度一般为100MB/S。假设寻址时间约为10ms,那么传输时间的计算公式为:传输时间 = 10ms / 0.01 = 1000ms = 1s。如果传输时间为1秒,并且传输速度为100MB/S,那么我们可以在1秒钟内向HDFS传输100MB大小的文件。因此,将块大小设置为128M比较合适。
另外,如果带宽更高,例如200MB/S,那么可以将块大小设置为256M比较合适。
除了数据块优化,CDH大数据环境优化指南还提到了其他一些优化方案。在测试环境中,集群服务的安排如下:
- CM-24G
- ZK-Kafka(3台)-12G
- DataNode(3台)-64G
- NameNode1-16G
- NameNode2-16G
- Resourcemanager1-16G
- Resourcemanager2-16G
- hive-hbase-24G
- hive-hbase-24G
- MySQL
此外,还有一些其他的子服务,包括CM Activity Monitor、Alert Publisher、Event Server、Host Monitor和Service Monitor。这些服务的资源分配情况如下:
- HDFS:NameNode、DataNode、Failover Controller、JournalNode
- Yarn:NodeManager
以上是CDH大数据环境优化指南中的一些内容和方案。通过对数据块大小和集群服务资源的优化配置,可以提高大数据环境的性能和效率。
2022-10-31 上传
2021-11-06 上传
2024-04-26 上传
2021-06-13 上传
HD0do(迪答数据)
- 粉丝: 5848
- 资源: 6
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍