"CDH大数据环境优化:数据块优化与集群服务安排详解"
CDH大数据环境优化指南中提到了数据块优化的问题。在CDH环境中,文件以块为单位进行存储和处理。块的大小通常设置为比较大的值,例如默认的128M,这样可以提高寻址速度和读取效率。 块的大小越大,寻址速度越快,读取效率越高。但是,需要注意的是,MapReduce任务也是以块为最小单位进行处理的。因此,如果块的大小太大,会影响对数据的并行处理。 一个文件至少占用一个块的空间,即使文件很小,例如1KB,也会占用一个块的大小。当我们从HDFS上读取文件时,NameNode会寻找块的地址。最佳状态下,寻址时间应该是传输时间的1%。 目前磁盘的传输速度一般为100MB/S。假设寻址时间约为10ms,那么传输时间的计算公式为:传输时间 = 10ms / 0.01 = 1000ms = 1s。如果传输时间为1秒,并且传输速度为100MB/S,那么我们可以在1秒钟内向HDFS传输100MB大小的文件。因此,将块大小设置为128M比较合适。 另外,如果带宽更高,例如200MB/S,那么可以将块大小设置为256M比较合适。 除了数据块优化,CDH大数据环境优化指南还提到了其他一些优化方案。在测试环境中,集群服务的安排如下: - CM-24G - ZK-Kafka(3台)-12G - DataNode(3台)-64G - NameNode1-16G - NameNode2-16G - Resourcemanager1-16G - Resourcemanager2-16G - hive-hbase-24G - hive-hbase-24G - MySQL 此外,还有一些其他的子服务,包括CM Activity Monitor、Alert Publisher、Event Server、Host Monitor和Service Monitor。这些服务的资源分配情况如下: - HDFS:NameNode、DataNode、Failover Controller、JournalNode - Yarn:NodeManager 以上是CDH大数据环境优化指南中的一些内容和方案。通过对数据块大小和集群服务资源的优化配置,可以提高大数据环境的性能和效率。
剩余47页未读,继续阅读
- 粉丝: 5484
- 资源: 6
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
评论0