大数据期末复习：Hadoop HDFS详解与DataNode功能

需积分: 14 103 浏览量更新于2024-08-26 收藏 22KB DOCX 举报

本文档是针对大数据专业期末考试的复习资料，主要关注Hadoop的相关知识点。首先，讲解了Vi文本编辑器的三种工作模式：命令模式、编辑模式和底行模式，这对于理解Hadoop中的交互操作有一定帮助，因为Hadoop的命令行工具经常涉及文本编辑和处理。核心部分深入剖析了Hadoop Distributed File System (HDFS)的概念，HDFS是Hadoop生态系统中的分布式文件系统，它提供了一个分布式、高可用的存储解决方案，主要使用Java语言实现。文件系统在操作系统中扮演着至关重要的角色，它为用户隐藏底层硬件细节，提供统一的访问接口。文档还详细介绍了HDFS中的DataNode组件，DataNode负责实际的数据存储，其主要功能是接收客户端的文件切片（Block），并根据预设的策略（如默认的三副本机制）将其复制到不同的节点以实现数据冗余和容错性。数据块的大小和副本数在文件上传时可以由用户自定义设置。 HDFS的写入流程包括以下步骤：首先，客户端通过DistributedFileSystem的create方法发起请求，接着NameNode进行权限检查和元数据更新，然后返回一个FSDataOutputStream供客户端写入数据。数据的写入遵循三副本策略，确保数据的安全性。写操作完成后，需要进行确认并关闭输出流，最后更新NameNode的状态。读取流程同样简洁明了：客户端通过DistributedFileSystem获取文件，然后通过FSDataInputStream读取数据，这个过程同样依赖于NameNode的元数据管理和DataNode的数据分布。整个读取过程高效且可靠，能够支持大规模数据的访问。这份复习资料为大数据专业学生提供了Hadoop HDFS的核心原理和操作流程的全面概述，有助于理解和掌握在大数据处理中不可或缺的分布式文件系统技术。

Vi 的三种模式：

命令模式（一般模式）、编辑模式（插入模式）、底行模式（命令行模式）

HDFS 概念：HDFS 是 Hadoop Distributed File System 的简称，它是

Hadoop 中实现的分布式文件系统。HDFS 是使用 Java 语言实现的分布式、可横向扩

展的文件系统。

什么是文件系统：文件系统是操作系统的一个重要组成部分，通过对操作系统所管理的存

储空间的抽象，向用户提供统一的、对象化的访问接口，屏蔽对物理设备的直接操作和资

源管理。

数据节点（DataNode）：

DataNode 在 HDFS 集群中主要是用来存储数据文件的，这些数据文件一般是存储在

DataNode 对应的硬盘中。

1.块（Block）缓存

(1).对于频繁访问的文件，其对应的块可以显示缓存到 datanode 内存中

2.Block 的大小和和副本数通过 Client 端上传文件时设置

Block 的副本放置策略：

Block 默认的大小为 128MB，通过客户端向 DataNode 上传文件的时候可以根据具

体

需求设置这个文件对应的 Block 的大小，并且可以设置副本存放的数量，默认的副本数

量

为 3，上传的时候也可以指定不同的值。

Block 副本在 DataNode 上的存放策略，通常是以默认的三副本机制进行存放。

1.第一个副本：放置在上传文件 Client 的 DataNode；如果集群外提交，则随机挑选一台

磁盘不太满，CPU 不太忙的节点。

2.第二个副本：放置在与第一个副本不同机架的节点上。

3.第三个副本：放置在与第二个副本相同机架的节点。

4.更多副本：随机节点

HDFS 的写流程：

1.Client 请求 Distributed FileSystem 的 create 方法

2.Distributed FileSystem 发起 RPC 网络请求请求 NameNode

3.NameNode 对请求进行检查是否合法则在元数据里面添加一条记录，NameNode 同时

返回 FSData OutputStream 对象给 Client

4.Client 可以借助 FSData OutputStream 调用 Write 方法建立数据管道，写入数据。

5.选取 DateNode 建立数据管道的过程遵循三副本策略

6.写完数据以后会进行确认，确认完毕关闭输出流

7.最后向 NameNode 汇报

下载后可阅读完整内容，剩余5页未读，立即下载

站在冰箱上的王子

粉丝: 6

大数据期末复习：Hadoop HDFS详解与DataNode功能

大数据导论复习资料.docx

《大数据导论》复习资料.docx

物联网工程自考12577-智能数据处理复习资料.docx

2018年遂宁市大数据时代互联网信息安全试题考试及复习资料.docx

大数据测试题参考复习资料12.docx

广东学习网继续教育大数据考试试题和复习资料汇总.docx

Hadoop平台技术 Hadoop平台技术-课程标准.docx

南开大学复习资料-大数据导论.docx

高中信息技术合格性考试复习.docx

《大数据导论》复习资料 (2).docx

最新资源