"大数据面试题答案及HDFS读写流程与Hadoop的shuffle过程"

需积分: 0 9 浏览量更新于2024-01-27 收藏 141KB DOCX 举报

大数据技术是当前以及未来互联网和科技领域的重要发展方向之一。为了掌握和应用大数据技术，许多企业和机构都会在面试中提出相关问题。下面是一份包含40个大数据面试题以及对应的答案的文档。其中涵盖了HDFS写文件步骤、HDFS读取文件步骤以及Hadoop的shuffle过程。首先，关于HDFS写文件的步骤，在客户端向NameNode提交上传某文件的申请之后，NameNode会返回响应给客户端，同意上传文件的申请。接着，客户端向NameNode申请子节点DataNode，并且NameNode会响应给客户端它的子节点DataNode。然后，客户端向DataNode提交建立传输通道的申请，DataNode会依次响应连接。最后，客户端向DataNode上传一个Block，同时DataNode会将冗余文件分发给其他子节点。其次，关于HDFS读取文件的步骤，在客户端向NameNode请求下载某文件之后，NameNode会返回文件的元数据给客户端。然后，客户端向DataNode1请求访问读数据Block_1，DataNode1会向客户端传输数据。接着，客户端向DataNode2请求访问读数据Block_2，DataNode2同样会向客户端传输数据。最后，关于Hadoop的shuffle过程，Map端的shuffle会处理输入数据并产生中间结果，这些中间结果会被写入本地磁盘而非HDFS。每个Map的输出会先写入内存缓冲区，当写入的数据达到一定的阈值后会溢写到磁盘上的临时文件中。然后，在Reduce任务开始之前，Map任务的这些临时文件会被分区和排序，并且会被拷贝到Reduce任务所在的节点上。Reduce任务在读取这些文件时可以按照一定的策略进行合并和处理。总之，大数据技术在当前以及未来的科技发展中扮演着至关重要的角色。掌握HDFS的读写操作以及Hadoop的shuffle过程是应用大数据技术的基础。以上就是关于HDFS写文件和读取文件的具体步骤以及Hadoop的shuffle过程的简单总结。如果想了解更多关于大数据技术的面试题及答案，可以参考文档中提供的《大数据40道面试题及答案》。

2.是getRecordReader,返回的是RecordReader对象,对每个Split分片进行转换为

key-value键值对格式传递给map常用的InputFormat是TextInputFormat,使用的

是LineRecordReader对每个分片进行键值对的转换,以行偏移量作为键，行内容

作为值。

3.自定义类继承InputFormat接口,重写createRecordReader和isSplitable方法

在createRecordReader中可以自定义分隔符。

hadoop和spark都是并行计算，那么他们有什么相同和区别?

两者都使用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为

map task和reduce task,每个task都是在自己的进程中运行的,当task结束时，

进程也会结束。

Spark 用户提交的任务称为 application, 一个 application 对应一个

SparkContext,app中存在多个job,没触发一个action操作就会产生一个job。

这些job可以并行或者串行执行,每个job有多个stage,stage是shuffle过程中

DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个

task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命

周期是和application一样的,即使没有job运行也是存在的,所以task可以快速启

动读取内存进行计算的。

Hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的

读写hdfs，造成大量的io操作，多个job需要自己管理关系。

1.是getSplits,返回的是InputSplit数组,对数据进行Split分片,每片交给map

操作一次。

剩余22页未读，继续阅读

入伍击寇

粉丝: 135
资源: 4703

"大数据面试题答案及HDFS读写流程与Hadoop的shuffle过程"

尚硅谷大数据技术之高频面试题8.0.9.docx

c 面试题集锦.docx(共152页)

学堂在线《大数据机器学习》作业单元考核答案.docx

python面试题答案.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

尚硅谷大数据技术之scala.docx

将每个子文件夹里的.docx文件都合成一个.docx文件

最新资源