"CDH大数据环境优化：数据块优化与集群服务安排详解"

需积分: 9 159 浏览量更新于2024-01-15 1 收藏 72KB DOCX 举报

CDH大数据环境优化指南中提到了数据块优化的问题。在CDH环境中，文件以块为单位进行存储和处理。块的大小通常设置为比较大的值，例如默认的128M，这样可以提高寻址速度和读取效率。块的大小越大，寻址速度越快，读取效率越高。但是，需要注意的是，MapReduce任务也是以块为最小单位进行处理的。因此，如果块的大小太大，会影响对数据的并行处理。一个文件至少占用一个块的空间，即使文件很小，例如1KB，也会占用一个块的大小。当我们从HDFS上读取文件时，NameNode会寻找块的地址。最佳状态下，寻址时间应该是传输时间的1%。目前磁盘的传输速度一般为100MB/S。假设寻址时间约为10ms，那么传输时间的计算公式为：传输时间 = 10ms / 0.01 = 1000ms = 1s。如果传输时间为1秒，并且传输速度为100MB/S，那么我们可以在1秒钟内向HDFS传输100MB大小的文件。因此，将块大小设置为128M比较合适。另外，如果带宽更高，例如200MB/S，那么可以将块大小设置为256M比较合适。除了数据块优化，CDH大数据环境优化指南还提到了其他一些优化方案。在测试环境中，集群服务的安排如下： - CM-24G - ZK-Kafka(3台)-12G - DataNode(3台)-64G - NameNode1-16G - NameNode2-16G - Resourcemanager1-16G - Resourcemanager2-16G - hive-hbase-24G - hive-hbase-24G - MySQL 此外，还有一些其他的子服务，包括CM Activity Monitor、Alert Publisher、Event Server、Host Monitor和Service Monitor。这些服务的资源分配情况如下： - HDFS：NameNode、DataNode、Failover Controller、JournalNode - Yarn：NodeManager 以上是CDH大数据环境优化指南中的一些内容和方案。通过对数据块大小和集群服务资源的优化配置，可以提高大数据环境的性能和效率。

服务选项配置值



'03堆栈大小4

B6+

1.3.1 数据块优化

dfs.blocksize = 128M

 文件以块为单位进行切分存储，块通常设置的比较大（最小 6M，默认 128M）,根据网络带宽计算最佳值。

 块越大，寻址越快，读取效率越高，但同时由于 MapReduce 任务也是以块为最小单位来处理，所以太大的块不利于于对数据的

并行处理。

 一个文件至少占用一个块（如果一个 1KB 文件，占用一个块，但是占用空间还是 1KB）

 我们在读取 HDFS 上文件的时候，NameNode 会去寻找 block 地址，寻址时间为传输时间的 1%时，则为最佳状态。

 目前磁盘的传输速度普遍为 100MB/S

 如果寻址时间约为 10ms，则传输时间=10ms/0.01=1000ms=1s

剩余47页未读，继续阅读

HD0do(迪答数据)

粉丝: 5848
资源: 6

"CDH大数据环境优化：数据块优化与集群服务安排详解"

CDH性能调优精髓，CDH热点问题分析

CDH5.14.0安装配置优化文档。

大数据性能调优.docx

cdh大数据平台部署文档.docx

大数据优化.pptx

大数据面试题.docx

大数据课程分类.docx

大数据开发资源.docx

CentOS-6.8安装CDH-5.11.1教程.docx

大数据技术之impala.docx

最新资源