2021大数据面试深度解析：Hadoop、Hive、Spark关键点

版权申诉

5星 · 超过95%的资源 28 浏览量更新于2024-07-14 收藏 635KB PDF 举报

"这份PDF文件提供了2021年的大数据开发面试题及答案解析，涵盖了Hadoop、Hive和Spark等多个核心领域，旨在帮助求职者准备面试。" 1. HDFS（Hadoop分布式文件系统）读写流程：在HDFS中，读取文件时，客户端首先查找NameNode获取文件的Block位置信息，然后从最近或负载较低的DataNode节点读取数据。写入文件时，客户端将数据分割成Block，先写入一个临时副本，再通过NameNode协调将副本复制到其他DataNode。 2. HDFS故障处理：如果在读取过程中某块数据损坏，HDFS会尝试从其他副本中读取。在上传文件时，如果DataNode挂掉，NameNode会监控并重新安排复制任务。 3. NameNode启动操作：NameNode启动时会加载元数据信息，包括文件系统树和块信息，并进行一致性检查。 4. SecondaryNameNode：它是NameNode的辅助角色，负责周期性地合并NameNode的编辑日志，以减少NameNode重启时的恢复时间，但不能完全恢复NameNode数据。 5. NameNode数据存储安全：为确保数据安全，通常采用多份备份，如JournalNode集群，以及定期的检查点和元数据持久化。 6. NameNode HA中的脑裂问题：在高可用模式下，如果两个NameNode同时认为自己是主节点，就会发生脑裂。解决方法是通过ZooKeeper等仲裁机制确保只有一个NameNode作为主节点。 7. 小文件过多的危害：过多的小文件会导致HDFS性能下降，因为每个文件都会占用NameNode大量内存。避免方法包括合并文件、使用SequenceFile或MapFile等。 8. HDFS架构：HDFS由NameNode（元数据管理）、DataNode（数据存储）和客户端组成，提供高容错性和高吞吐量的数据访问。 9. MapReduce（MR）工作流程：MapTask负责将输入数据拆分成键值对，进行局部处理；ReduceTask则接收MapTask的输出，进行聚合和计算。 10. MR中shuffle阶段：在Map和Reduce之间，数据通过网络传输，根据key进行排序和分区，为ReduceTask准备输入。 11. shuffle阶段的数据压缩：为了提高数据传输效率和节省存储空间，Hadoop支持在shuffle阶段对数据进行压缩。 12. 规约（Combiner）使用条件：当数据局部性良好且输出结果不影响全局计算时，可以使用规约来减少网络传输的数据量。 13. YARN（Yet Another Resource Negotiator）架构和工作原理：YARN将资源管理和作业调度分离，ResourceManager全局管理集群资源，ApplicationMaster负责单个应用的资源请求和任务调度。 14. YARN任务提交流程：客户端提交应用程序到ResourceManager，申请ApplicationMaster资源，ApplicationMaster与ResourceManager协商启动容器，执行应用程序。 15. YARN资源调度模型：包括Capacity Scheduler、Fair Scheduler和FIFO Scheduler，分别以队列容量、公平性和先进先出策略进行资源分配。 16. Hive内部表和外部表：内部表由Hive管理生命周期，删除时数据也会被删除；外部表仅管理元数据，删除时不删除数据。 17. Hive优化：包括选择合适的文件格式（如ORC、Parquet），创建分区，使用bucketing和sorting，以及合理设置执行引擎参数等。 18. Spark与MapReduce对比：Spark通过RDD（弹性分布式数据集）和DAG（有向无环图）调度，实现内存计算，减少磁盘I/O，从而提高效率。 19. Spark容错机制：通过RDD持久化和检查点，Spark能快速恢复计算状态，即使在节点故障时也能继续执行。 20. Spark的应用场景：适合实时/流处理、迭代计算和交互式数据分析，而MapReduce更适合批处理任务。以上是PDF文件中部分面试题的关键知识点解析，完整内容可能包括更详细的解释和答案。

本文档来自公众号：五分钟学大数据

（7）拷贝 fsimage.chkpoint 到 NameNode

（8）NameNode 将 fsimage.chkpoint 重新命名成 fsimage

所以如果 NameNode 中的元数据丢失，是可以从 Secondary NameNode 恢复一部

分元数据信息的，但不是全部，因为 NameNode 正在写的 edits 日志还没有拷贝

到 Secondary NameNode，这部分恢复不了

6. Secondary NameNode 不能恢复 NameNode 的全部数据，那如何

保证 NameNode 数据存储安全

这个问题就要说 NameNode 的高可用了，即 NameNode HA

一个 NameNode 有单点故障的问题，那就配置双 NameNode，配置有两个关键点，

一是必须要保证这两个 NN 的元数据信息必须要同步的，二是一个 NN 挂掉之后

另一个要立马补上。

1. 元数据信息同步在 HA 方案中采用的是“共享存储”。每次写文件时，需要将日志同

步写入共享存储，这个步骤成功才能认定写文件成功。然后备份节点定期从共享存储同

步日志，以便进行主备切换。

2. 监控 NN 状态采用 zookeeper，两个 NN 节点的状态存放在 ZK 中，另外两个 NN 节点

分别有一个进程监控程序，实施读取 ZK 中有 NN 的状态，来判断当前的 NN 是不是已

经 down 机。如果 standby 的 NN 节点的 ZKFC 发现主节点已经挂掉，那么就会强制给原

本的 active NN 节点发送强制关闭请求，之后将备用的 NN 设置为 active。

3. 如果面试官再问 HA 中的共享存储是怎么实现的知道吗？

可以进行解释下：NameNode 共享存储方案有很多，比如 Linux HA, VMware FT, QJM 等，目

前社区已经把由 Clouderea 公司实现的基于 QJM（Quorum Journal Manager）的方案合并

到 HDFS 的 trunk 之中并且作为默认的共享存储实现

基于 QJM 的共享存储系统主要用于保存 EditLog，并不保存 FSImage 文件。FSImage 文件

还是在 NameNode 的本地磁盘上。QJM 共享存储的基本思想来自于 Paxos 算法，采用多个

称为 JournalNode 的节点组成的 JournalNode 集群来存储 EditLog。每个 JournalNode

保存同样的 EditLog 副本。每次 NameNode 写 EditLog 的时候，除了向本地磁盘写入

EditLog 之外，也会并行地向 JournalNode 集群之中的每一个 JournalNode 发送写请求，

只要大多数 (majority) 的 JournalNode 节点返回成功就认为向 JournalNode 集群写入

EditLog 成功。如果有 2N+1 台 JournalNode，那么根据大多数的原则，最多可以容忍有 N

台 JournalNode 节点挂掉

7. 在 NameNode HA 中，会出现脑裂问题吗？怎么解决脑裂

假设 NameNode1 当前为 Active 状态，NameNode2 当前为 Standby 状态。如果某一时

刻 NameNode1 对应的 ZKFailoverController 进程发生了“假死”现象，那么 Zookeeper

服务端会认为 NameNode1 挂掉了，根据前面的主备切换逻辑，NameNode2 会替代

NameNode1 进入 Active 状态。但是此时 NameNode1 可能仍然处于 Active 状态正常运

本文档来自公众号：五分钟学大数据

行，这样 NameNode1 和 NameNode2 都处于 Active 状态，都可以对外提供服务。这种

情况称为脑裂

脑裂对于 NameNode 这类对数据一致性要求非常高的系统来说是灾难性的，数

据会发生错乱且无法恢复。Zookeeper 社区对这种问题的解决方法叫做 fencing，

中文翻译为隔离，也就是想办法把旧的 Active NameNode 隔离起来，使它不能

正常对外提供服务。

在进行 fencing 的时候，会执行以下的操作：

1) 首先尝试调用这个旧 Active NameNode 的 HAServiceProtocol RPC 接口的

transitionToStandby 方法，看能不能把它转换为 Standby 状态。

2) 如果 transitionToStandby 方法调用失败，那么就执行 Hadoop 配置文件之中

预定义的隔离措施，Hadoop 目前主要提供两种隔离措施，通常会选择 sshfence：

(1) sshfence：通过 SSH 登录到目标机器上，执行命令 fuser 将对应的进程杀死

(2) shellfence：执行一个用户自定义的 shell 脚本来将对应的进程隔离

8. 小文件过多会有什么危害,如何避免

Hadoop 上大量 HDFS 元数据信息存储在 NameNode 内存中,因此过多的小文件必

定会压垮 NameNode 的内存

每个元数据对象约占 150byte，所以如果有 1 千万个小文件，每个文件占用一个

block，则 NameNode 大约需要 2G 空间。如果存储 1 亿个文件，则 NameNode

需要 20G 空间

显而易见的解决这个问题的方法就是合并小文件,可以选择在客户端上传时执行

一定的策略先合并,或者是使用 Hadoop 的 CombineFileInputFormat<K,V\>实现小

文件的合并

9. 请说下 HDFS 的组织架构

1）Client：客户端

（1）切分文件。文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，

然后进行存储

（2）与 NameNode 交互，获取文件的位置信息

（3）与 DataNode 交互，读取或者写入数据

（4）Client 提供一些命令来管理 HDFS，比如启动关闭 HDFS、访问 HDFS 目录及

内容等

2）NameNode：名称节点，也称主节点，存储数据的元数据信息，不存储具体

的数据

剩余43页未读，继续阅读

安全方案

粉丝: 2538
资源: 3960

2021大数据面试深度解析：Hadoop、Hive、Spark关键点

大数据面试题及答案.docx

2021大数据开发面试宝典：全面复习指南+实战题解析

Java大数据面试题及答案大厂真题解析

【面试宝典】2021年超全超详细的最新大数据开发面试题，附答案解析(一版).pdf

2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套就够了.zip

Java版水果管理系统源码-bigdata-interview:2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套

大数据面试题（含答案）.pdf

大数据最新面试题，2021年面试题及答案汇总.md

大数据最新面试题2021年，常见面试题及答案汇总.md

大数据最新2021年面试题，高级面试题及附答案解析.md

最新资源