2021大数据开发面试宝典：全面复习指南+实战题解析

需积分: 0 163 浏览量更新于2024-07-14 1 收藏 600KB PDF 举报

【面试宝典】2021年超全超详细的最新大数据开发面试题，涵盖了Hadoop、Spark、Kafka、HBase、Flink等技术栈，由公众号“五分钟学大数据”提供。这份文档旨在帮助求职者准备大数据开发领域的面试，通过整理自各大厂的真实面试题和常考知识点，提升应聘者的专业技能。第一版面试题按照大数据技术进行划分，包括但不限于以下内容： 1. HDFS（Hadoop分布式文件系统）： - 详细解释HDFS的读写流程，涉及DataNode和NameNode的角色。 - 处理故障场景，如DataNode损坏和NameNode故障恢复机制。 - 解析小文件过多的问题及其避免方法。 - 名为“NameNode HA”的高可用性设计以及脑裂问题的解决方案。 2. MapReduce： - MapTask和ReduceTask的工作机制，以及shuffle阶段的数据处理和压缩。 - 规约（Shuffle and Reduce）的应用场景。 3. YARN（Yet Another Resource Negotiator）： - YARN集群的架构和工作原理，任务提交流程。 - 介绍YARN的资源调度模型，如公平调度、容量调度和 FIFO 调度。 4. 其他技术，如Spark的面试题涉及其核心组件如Spark Core、Spark SQL、Spark Streaming等，以及Kafka（用于实时数据流处理）、HBase（NoSQL数据库）等。文档定期更新，确保内容的时效性和完整性，建议学习者先按照技术点专项复习，然后再结合第二版的大厂面试真题进行综合理解，以实现知识的融会贯通。每篇内容都深入浅出，有助于面试者巩固和提升大数据开发的基础和实战能力，提高进入知名企业的可能性。

本文档来自公众号：五分钟学大数据

（7）拷贝 fsimage.chkpoint 到 NameNode

（8）NameNode 将 fsimage.chkpoint 重新命名成 fsimage

所以如果 NameNode 中的元数据丢失，是可以从 Secondary NameNode 恢复一部

分元数据信息的，但不是全部，因为 NameNode 正在写的 edits 日志还没有拷贝

到 Secondary NameNode，这部分恢复不了

6. Secondary NameNode 不能恢复 NameNode 的全部数据，那如何

保证 NameNode 数据存储安全

这个问题就要说 NameNode 的高可用了，即 NameNode HA

一个 NameNode 有单点故障的问题，那就配置双 NameNode，配置有两个关键点，

一是必须要保证这两个 NN 的元数据信息必须要同步的，二是一个 NN 挂掉之后

另一个要立马补上。

1. 元数据信息同步在 HA 方案中采用的是“共享存储”。每次写文件时，需要将日志同

步写入共享存储，这个步骤成功才能认定写文件成功。然后备份节点定期从共享存储同

步日志，以便进行主备切换。

2. 监控 NN 状态采用 zookeeper，两个 NN 节点的状态存放在 ZK 中，另外两个 NN 节点

分别有一个进程监控程序，实施读取 ZK 中有 NN 的状态，来判断当前的 NN 是不是已

经 down 机。如果 standby 的 NN 节点的 ZKFC 发现主节点已经挂掉，那么就会强制给原

本的 active NN 节点发送强制关闭请求，之后将备用的 NN 设置为 active。

3. 如果面试官再问 HA 中的共享存储是怎么实现的知道吗？

可以进行解释下：NameNode 共享存储方案有很多，比如 Linux HA, VMware FT, QJM 等，目

前社区已经把由 Clouderea 公司实现的基于 QJM（Quorum Journal Manager）的方案合并

到 HDFS 的 trunk 之中并且作为默认的共享存储实现

基于 QJM 的共享存储系统主要用于保存 EditLog，并不保存 FSImage 文件。FSImage 文件

还是在 NameNode 的本地磁盘上。QJM 共享存储的基本思想来自于 Paxos 算法，采用多个

称为 JournalNode 的节点组成的 JournalNode 集群来存储 EditLog。每个 JournalNode

保存同样的 EditLog 副本。每次 NameNode 写 EditLog 的时候，除了向本地磁盘写入

EditLog 之外，也会并行地向 JournalNode 集群之中的每一个 JournalNode 发送写请求，

只要大多数 (majority) 的 JournalNode 节点返回成功就认为向 JournalNode 集群写入

EditLog 成功。如果有 2N+1 台 JournalNode，那么根据大多数的原则，最多可以容忍有 N

台 JournalNode 节点挂掉

7. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂

假设 NameNode1 当前为 Active 状态，NameNode2 当前为 Standby 状态。如果某一时

刻 NameNode1 对应的 ZKFailoverController 进程发生了“假死”现象，那么 Zookeeper

服务端会认为 NameNode1 挂掉了，根据前面的主备切换逻辑，NameNode2 会替代

NameNode1 进入 Active 状态。但是此时 NameNode1 可能仍然处于 Active 状态正常运

本文档来自公众号：五分钟学大数据

行，这样 NameNode1 和 NameNode2 都处于 Active 状态，都可以对外提供服务。这种

情况称为脑裂

脑裂对于 NameNode 这类对数据一致性要求非常高的系统来说是灾难性的，数

据会发生错乱且无法恢复。Zookeeper 社区对这种问题的解决方法叫做 fencing，

中文翻译为隔离，也就是想办法把旧的 Active NameNode 隔离起来，使它不能

正常对外提供服务。

在进行 fencing 的时候，会执行以下的操作：

1) 首先尝试调用这个旧 Active NameNode 的 HAServiceProtocol RPC 接口的

transitionToStandby 方法，看能不能把它转换为 Standby 状态。

2) 如果 transitionToStandby 方法调用失败，那么就执行 Hadoop 配置文件之中

预定义的隔离措施，Hadoop 目前主要提供两种隔离措施，通常会选择 sshfence：

(1) sshfence：通过 SSH 登录到目标机器上，执行命令 fuser 将对应的进程杀死

(2) shellfence：执行一个用户自定义的 shell 脚本来将对应的进程隔离

8. 小文件过多会有什么危害,如何避免

Hadoop 上大量 HDFS 元数据信息存储在 NameNode 内存中,因此过多的小文件必

定会压垮 NameNode 的内存

每个元数据对象约占 150byte，所以如果有 1 千万个小文件，每个文件占用一个

block，则 NameNode 大约需要 2G 空间。如果存储 1 亿个文件，则 NameNode

需要 20G 空间

显而易见的解决这个问题的方法就是合并小文件,可以选择在客户端上传时执行

一定的策略先合并,或者是使用 Hadoop 的 CombineFileInputFormat<K,V\>实现小

文件的合并

9. 请说下 HDFS 的组织架构

1）Client：客户端

（1）切分文件。文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，

然后进行存储

（2）与 NameNode 交互，获取文件的位置信息

（3）与 DataNode 交互，读取或者写入数据

（4）Client 提供一些命令来管理 HDFS，比如启动关闭 HDFS、访问 HDFS 目录及

内容等

2）NameNode：名称节点，也称主节点，存储数据的元数据信息，不存储具体

的数据

剩余43页未读，继续阅读

AIMaynor

粉丝: 7w+
资源: 173

2021大数据开发面试宝典：全面复习指南+实战题解析

大数据面试题

2020大数据面试题总汇

Java面试宝典大全_java面试宝典黑马

2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套就够了.zip

2021年超全超详细的最新大数据开发面试题及答案解析.pdf

Java版水果管理系统源码-bigdata-interview:2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套

大数据最新2021年面试题附答案解析，大汇总.md

最新大数据Hadoop面试题!(附答案解析).pdf

大数据最新2021年面试题，高级面试题及附答案解析.md

大数据最新2021年面试题及答案，汇总版.md

最新资源