大数据面试题答案及HDFS文件读写步骤详解

需积分: 0 6 浏览量更新于2024-03-14 收藏 141KB DOCX 举报

大数据技术是目前信息技术领域发展中的热点之一，涉及的面广，应用范围广泛。在大数据领域中，HDFS是一个核心组件，用于存储和管理大规模数据。HDFS的写文件过程包括以下步骤：首先，Client向NameNode提交上传某文件的申请，然后NameNode返回响应给Client，同意上传文件的申请。接着，Client向NameNode申请子节点DataNode，NameNode响应给Client它的子节点DataNode。随后，Client向DataNode提交申请建立传输通道，DataNode依次响应连接。最后，Client向DataNode上传一个Block，DataNode1向其他子节点冗余文件。而HDFS的读文件过程包括以下步骤：首先，Client向NameNode请求下载某文件，然后NameNode向Client返回文件的元数据。接着，Client向DataNode1请求访问读数据Block_1，DataNode1向Client传输数据。随后，Client向DataNode2请求访问读数据Block_2，DataNode2向Client传输数据。除了HDFS，Hadoop中的shuffle过程也是非常重要的。在Hadoop中，Map端的shuffle过程是指Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写满后会写入磁盘。在shuffle过程中，会将中间结果按照Key进行排序和分区，以便Reducer端能够方便地对数据进行处理。综上所述，大数据技术中的HDFS以及Hadoop的shuffle过程是非常重要的组成部分，对于数据的存储和处理起到至关重要的作用。通过对HDFS的写文件和读文件过程的了解，以及对Hadoop中shuffle过程的理解，可以更好地理解大数据处理的流程和原理，为在大数据领域的工作和研究提供基础和支持。希望通过不断学习和实践，可以在大数据领域取得更多的成就。

2.是getRecordReader,返回的是RecordReader对象,对每个Split分片进行转换为

key-value键值对格式传递给map常用的InputFormat是TextInputFormat,使用的

是LineRecordReader对每个分片进行键值对的转换,以行偏移量作为键，行内容

作为值。

3.自定义类继承InputFormat接口,重写createRecordReader和isSplitable方法

在createRecordReader中可以自定义分隔符。

hadoop和spark都是并行计算，那么他们有什么相同和区别?

两者都使用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为

map task和reduce task,每个task都是在自己的进程中运行的,当task结束时，

进程也会结束。

Spark 用户提交的任务称为 application, 一个 application 对应一个

SparkContext,app中存在多个job,没触发一个action操作就会产生一个job。

这些job可以并行或者串行执行,每个job有多个stage,stage是shuffle过程中

DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个

task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命

周期是和application一样的,即使没有job运行也是存在的,所以task可以快速启

动读取内存进行计算的。

Hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的

读写hdfs，造成大量的io操作，多个job需要自己管理关系。

1.是getSplits,返回的是InputSplit数组,对数据进行Split分片,每片交给map

操作一次。

剩余22页未读，继续阅读

伟大先锋

粉丝: 120
资源: 1689

大数据面试题答案及HDFS文件读写步骤详解

大数据 50 道面试题及答案.docx

大数据 80 道面试题及答案.docx

大数据 76 道面试题及答案.docx

图像去雾基于基于Matlab界面的（多方法对比，PSNR，信息熵，GUI界面）.rar

c语言打字母游戏源码.zip

c语言做的一个任务管理器.zip

JetBra-2021.1.x-重置.mp4.zip

小学班主任与家长沟通现状及改进策略研究

WSL批量压缩MP4文件对应Shell脚本文件

Java源码ssm框架的社区疫情防控管理系统-毕业设计论文-期末大作业.rar

最新资源