大数据面试题答案及HDFS文件读写操作详解

需积分: 0 144 浏览量更新于2024-04-15 收藏 141KB DOCX 举报

大数据技术在当今的信息时代发挥着越来越重要的作用，对于大数据处理的需求也日益增长。在大数据领域中，Hadoop是一个被广泛应用的分布式计算框架，其中的HDFS（Hadoop Distributed File System）是其存储系统的核心组件。对于HDFS的写文件和读文件过程，有着严格的步骤和流程。在写文件的过程中，Client首先向NameNode提交上传文件的申请，NameNode返回响应给Client并同意文件上传请求，随后Client向NameNode申请子节点DataNode，并且DataNode响应连接。最后，Client向DataNode上传Block，DataNode1向其他子节点冗余文件。而在读文件的过程中，Client向NameNode请求下载文件，NameNode返回文件的元数据，并且Client向DataNode请求访问读取数据Block，DataNode向Client传输数据。整个读取文件的过程包括了多个步骤，而且每个步骤都需要严格按照顺序执行。另外，Hadoop在shuffle过程中也有其独特的特点。在Map端的shuffle过程中，Map端会处理输入数据并生成中间结果，这些中间结果会被写入本地磁盘而不是HDFS。每个Map的输出会先写入内存缓冲区中，当达到一定条件时，会将数据写入本地磁盘。这种本地写的方式大大提高了数据的处理速度和效率，减少了数据的传输量，同时也保证了整个MapReduce任务的并行化和高效性。综上所述，对于HDFS的写文件和读文件过程，以及Hadoop在shuffle过程中的特点，我们可以清晰地了解到大数据处理中的一些关键步骤和技术细节。这不仅有助于我们深入理解大数据处理的流程和原理，也为我们在实际应用中更好地理解和运用这些技术提供了重要的参考和指导。在未来的大数据领域中，随着技术的不断发展和创新，我们也需要不断学习和掌握最新的技术和知识，以更好地适应这个不断变化的信息时代。

2.是getRecordReader,返回的是RecordReader对象,对每个Split分片进行转换为

key-value键值对格式传递给map常用的InputFormat是TextInputFormat,使用的

是LineRecordReader对每个分片进行键值对的转换,以行偏移量作为键，行内容

作为值。

3.自定义类继承InputFormat接口,重写createRecordReader和isSplitable方法

在createRecordReader中可以自定义分隔符。

hadoop和spark都是并行计算，那么他们有什么相同和区别?

两者都使用mr模型来进行并行计算，hadoop的一个作业称为job，job里面分为

map task和reduce task,每个task都是在自己的进程中运行的,当task结束时，

进程也会结束。

Spark 用户提交的任务称为 application, 一个 application 对应一个

SparkContext,app中存在多个job,没触发一个action操作就会产生一个job。

这些job可以并行或者串行执行,每个job有多个stage,stage是shuffle过程中

DAGSchaduler通过RDD之间的依赖关系划分job而来的,每个stage里面有多个

task,组成taskset有TaskSchaduler分发到各个executor中执行,executor的生命

周期是和application一样的,即使没有job运行也是存在的,所以task可以快速启

动读取内存进行计算的。

Hadoop的job只有map和reduce操作,表达能力比较欠缺而且在mr过程中会重复的

读写hdfs，造成大量的io操作，多个job需要自己管理关系。

1.是getSplits,返回的是InputSplit数组,对数据进行Split分片,每片交给map

操作一次。

剩余22页未读，继续阅读

栾还是恋

粉丝: 36
资源: 5321

大数据面试题答案及HDFS文件读写操作详解

大数据 50 道面试题及答案.docx

大数据 80 道面试题及答案.docx

大数据 76 道面试题及答案.docx

基于C语言课程设计学生成绩管理系统、详细文档+全部资料+高分项目.zip

基于springboot的简历系统源码（java毕业设计完整源码+LW）.zip

“招聘智能化”：线上招聘问答系统的功能开发

simulink实现标准IEEE33配电网系统，50HZ，将各节点数据统计起来输出到工作区，再matlab中跑出某时刻节点电压分布，适合用于观察某时刻节点电压变化情况 #特别是当用于接入双馈风机时

给袋式真空包装机UG10全套技术资料100%好用.zip

基于java+ssm+mysql+微信小程序的智慧消防小程序 源码+数据库+论文(高分毕业设计).zip

Java 入门教程.md

最新资源

基于java+ssm+mysql+微信小程序的智慧消防小程序源码+数据库+论文(高分毕业设计).zip