"大数据面试题及HDFS读写流程详解"

需积分: 0 62 浏览量更新于2024-03-24 收藏 142KB DOCX 举报

大数据在当今的信息时代中扮演着至关重要的角色，而HDFS作为大数据存储和处理的重要组成部分之一，其文件读写过程是整个数据处理流程中至关重要的环节。在HDFS写文件的步骤中，首先客户端向NameNode提交上传文件的申请，然后NameNode同意上传文件的申请并返回响应给Client。接着Client向NameNode申请子节点DataNode，NameNode响应给Client其子节点DataNode，然后Client向DataNode提交申请建立传输通道，DataNode依次响应连接。最后Client向DataNode上传一个Block，DataNode1向其他子节点冗余文件。而在HDFS读取文件的步骤中，客户端向NameNode请求下载某文件，NameNode向Client返回文件的元数据，然后Client向DataNode1请求访问读数据Block_1，DataNode1向Client传输数据。接着Client向DataNode2请求访问读数据Block_2，DataNode2向Client传输数据。这些步骤构成了HDFS文件读写过程的基本流程。此外，Hadoop的shuffle过程也是大数据处理中的关键环节。在Map端的shuffle过程中，Map端会处理输入数据并产生中间结果，这些中间结果会被写入本地磁盘而不是HDFS。每个Map的输出会首先被写入内存缓冲区中，当缓冲区达到一定大小后会被写入本地磁盘。这一设计有助于减少数据在网络传输过程中的压力，提高数据处理的效率和性能。总的来说，HDFS的文件读写过程和Hadoop的shuffle过程是大数据处理中不可或缺的环节。通过深入了解和掌握这些步骤，我们可以更好地理解大数据处理的原理和运行机制，提高数据处理的效率和性能，从而更好地应对日益增长的数据量和复杂度，为数据驱动的决策和创新提供有力支持。通过不断学习和实践，我们可以不断完善和提升自己在大数据领域的技能和能力，与时俱进，为实现数据驱动的智能化发展做出更大的贡献。

2.是getRecordReader,返回的是RecordReader对象,对每个Split分片进行转换为

key-value键值对格式传递给map常用的InputFormat是TextInputFormat,使用的

是LineRecordReader对每个分片进行键值对的转换,以行偏移量作为键，行内容

作为值。

3.自定义类继承InputFormat接口,重写createRecordReader和isSplitable方法

在createRecordReader中可以自定义分隔符。

hadoop和spark都是并行计算，那么他们有什么相同和区别?

两者都使用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为

map task和reduce task,每个task都是在自己的进程中运行的,当task结束时，

进程也会结束。

Spark 用户提交的任务称为 application, 一个 application 对应一个

SparkContext,app中存在多个job,没触发一个action操作就会产生一个job。

这些job可以并行或者串行执行,每个job有多个stage,stage是shuffle过程中

DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个

task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命

周期是和application一样的,即使没有job运行也是存在的,所以task可以快速启

动读取内存进行计算的。

Hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的

读写hdfs，造成大量的io操作，多个job需要自己管理关系。

1.是getSplits,返回的是InputSplit数组,对数据进行Split分片,每片交给map

操作一次。

剩余22页未读，继续阅读

苹果牛顿吃

粉丝: 23
资源: 2790

"大数据面试题及HDFS读写流程详解"

大数据 50 道面试题及答案.docx

大数据 80 道面试题及答案.docx

大数据 76 道面试题及答案.docx

Font Awesome图标字体库提供可缩放矢量图标,它可以被定制大小、颜色、阴影以及任何可以用CSS的样式

EDAfloorplanning

数学建模培训资料 数学建模实战题目真题答案解析解题过程&论文报告 最低生活保障问题的探索 共20页.pdf

变更用水性质定额申请表.xls

GitHub Desktop版快速下载

嗨玩旅游网站-JAVA-基于springboot嗨玩旅游网站设计与实现（毕业论文+PPT）

本科毕业设计 基于Python中国知网（cnki）爬虫及数据可视化详细文档+全部资料.zip

最新资源

数学建模培训资料数学建模实战题目真题答案解析解题过程&论文报告最低生活保障问题的探索共20页.pdf

本科毕业设计基于Python中国知网（cnki）爬虫及数据可视化详细文档+全部资料.zip