PPT模板下载:ww w.1ppt.com/moban/ 行业PPT 模板:ww w.1ppt.com/hangye/
节日PPT 模板: www.1ppt.com/jieri/ PPT素材下载: www.1ppt.com/sucai/
PPT背景图片:ww w.1ppt.com/beijing/ PPT 图表下载:www.1ppt.com/tubiao/
优秀PPT 下载: www.1ppt.com/xiazai/ PPT 教程: www.1ppt.com/powerpoint/
Word教程: www.1ppt.com/word/ Excel 教程:www.1ppt.com/excel/
资料下载:www.1ppt.com/ziliao/ PPT 课件下载:www.1ppt.com/kejian/
范文下载:www.1ppt.com/fanwen/ 试卷下载:www.1ppt.com/shi!/
教案下载:www.1ppt.com/jiaoan/
字体下载:www.1ppt.com/zi!/
HDFS( 文件存储系
统 )
The user can demonstrate on projector or computer
HDFS 是 Hadoop 体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用
于在低成本的通用硬件上运行。 HDFS 简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用
程序数据访问功能,适合带有大型数据集的应用程序。它提供了一次写入多次读取的机制,数据以块的形
式,同时分布在集群不同物理机器上。 HDFS 专门用来存储超大数据文件,为整个 Hadoop 生态圈提供了
基础的存储服务。 HDFS 不支持多用户写入及任意修改文件,随机修改文件, 一个文件只能有一个写者,
而且写操作只能在文件末尾完成,即只能执行追加操作
1 、 HDFS 数据存放策略:分块存储 + 副本存放。 HDFS 默认会将文件分割成块,每个存储块大小为
128M 。
2 、数据拓扑结构(即数据备份):默认存放 3 份。可以通过修改配置文件 hdfs-site.xml 修改备份数量,
如果本机在集群中,第一份就会存放到本节点即本机上,如果不在集群中,就通过负载均衡存放到一个相
应的随机节点上,第二份存放在同机柜的不同节点上,第三份存放在不同机柜的某个节点上。
3 、数据查找:就近原则,先在本节点上查找,再从本机柜上查找,最后再去不同机柜上查找。
4 、心跳机制: Hadoop 是主从结构,即 master/slave 结构, master 有
NameNode , ResourceManager (资源管理), SecondaryManager( 冷备份 );slave 有
DataNode , NodeManager 。 master 启动时会启动一个 ipc 服务( Inner-Process-
Communication ,通信间进程),等待 slave 连接。 slave 启动时,会主动连接 ipc 服务,并且每隔 3
秒连接一次 master 。如果 master 长时间没有收到 slave 的心跳,那么 master 就认为该 slave 宕机了,
如果 slave 宕机了, master 就会把 slave 的数据通过负载均衡机制分配给其他 slave 上,正在执行的任
务也会被作废,重新分配,重新执行。