Hadoop：block与split的关系解析

需积分: 0 17 浏览量更新于2024-08-05 收藏 9.5MB PDF 举报

"Hadoop的blockSize和splitSize是两个与Hadoop分布式文件系统（HDFS）和MapReduce处理密切相关的重要概念。blockSize是HDFS中物理数据分块的大小，而splitSize是在MapReduce任务中逻辑数据分区的大小。它们之间的关系以及如何相互作用对于理解Hadoop的工作原理至关重要。" 在Hadoop中，blockSize是HDFS的基础存储单位，它是文件被分割成的固定大小的数据块，默认情况下通常是64MB。当一个大文件被上传到HDFS时，文件会被分割成若干个block，每个block的大小等于或小于blockSize，以便于分布存储和并行处理。例如，一个1GB的文件会被分成16个64MB的block。 splitSize则是在执行MapReduce作业时的概念，它决定了每个Mapper处理的数据范围。一个split可以包含一个或多个block，但一个block不能被多个split共享。在MapReduce的上下文中，split是逻辑上的数据分区，由InputFormat类负责创建，用于确定Mapper任务的数量。用户可以根据具体需求在MapReduce程序中自定义splitSize，以优化性能和资源利用。当splitSize未在MapReduce作业中明确指定时，它通常会默认采用HDFS的blockSize。这意味着，如果一个文件的大小正好是blockSize的整数倍，那么每个split将对应一个block。然而，如果splitSize小于blockSize，那么一个block可能会被多个split划分，导致一个文件在处理时会产生更多的Mapper任务。相反，如果splitSize大于blockSize，一个split可能包含多个block，但不会超过block的数量，因为一个block不能被拆分为多个split。 splitSize的选择对性能有直接影响，因为它决定了并行处理的粒度。较小的splitSize可能导致更多的Mapper任务，增加了调度开销，但可以更好地利用集群资源；较大的splitSize则可能导致更少的Mapper，简化调度，但可能降低了并行度，影响整体处理速度。总结来说，Hadoop的blockSize和splitSize是两个不同层次的概念，blockSize关乎HDFS的数据存储，而splitSize关乎MapReduce的数据处理逻辑。它们之间的关系是splitSize可以根据需要调整，以适应不同的数据处理场景，但总是基于blockSize来确定数据的物理分割。理解这两个参数的相互作用，有助于优化Hadoop集群的性能和效率。

4/5/2016

Hadoop的block Size和split Size究竟是什么关系?

http://mp.weixin.qq.com/s?__biz=MzAwMDgwMDAyOA==&mid=2650347670&idx=1&sn=d3535fd9093fbb2e38e5f414f01dae09&3rd=MzA3MDU4NTYzM…

1/4

Hadoop

的

block Size

和

split Size

究竟

是什

么

关

系

学习

hadoop map reduce

过

程

的

时

候

，

第

一

步

就

是

split

。

我

们

知

道

，

hdfs

中

的

数

据

是

按

block

来

存储的

。

问题

来

了

，

那

么

split

和

block

之

间

是什

么

关

系

呢

？

我

google

到

了

stackoverﬂow

上

的

这

篇

文

章

，

我

觉

得

这

个

帖

子

应

该

把

关

系

说

清

楚

了

，

翻

译

出

来

，

欢

迎

大

家

批评

指正

！

以

下

：

问题

hadoop

的

split size

和

block size

是什

么

关

系

？

是

否

split size

应

该

倍

于

block

size ?

概

念

在

hdfs

架

构

中

，

存

在

blocks

的

概

念

。

通

常

来

说

，

hdfs

中

的

一

个

block

是

64MB

。

当

我

们

把

一

个

大

文

件

导

入

hdfs

中

的

时

候

，

文

件

会

按

64MB

每

个

block

来

分割

（

如

果

按

默

认

配

置

）

。

如

果

你

有

1GB

的

文

件

要

存

入

HDFS

中

，

1GB/64MB = 1024MB / 64MB = 16

个

blocks

会

被

分割

到

不

同

的

datanode

上

。

目

的

数

据

分割

(data splitting )

策

略

是

基

于

文

件

偏

移

进

行

的

。

文

件

分割

的

目

的

是

有

利

于

原

创

2016-04-04 poon BI

实

验

室

下载后可阅读完整内容，剩余3页未读，立即下载

滕扬Lance

粉丝: 25
资源: 304

Hadoop：block与split的关系解析

Hadoop的block Size和split Size究竟是什么关系-safari1

Hadoop测试题

怎么设置hadoop的minimum split size per node

max_split_size_mb怎么设置

max_split_size_mb参数在哪

hadoop期末复习试题

编写网络爬虫程序，实现支持断点续传的网络文件下载功能。 https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.4/spark-3.2.4-bin-hadoop2.7.tgz

Hadoop Distributed File System

phoenix 设置主键排序

使用Hadoop 读取大文件，代码怎么写？

最新资源