大数据面试必备：Linux、Shell、Hadoop到数据湖全面解析

大数据面试

需积分: 15 153 浏览量更新于2024-07-08 收藏 2.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"大数据-面试宝典.pdf 是一本涵盖了大数据领域80%面试重点的资料，专注于数仓项目知识。本书详细介绍了多个关键的大数据技术和工具，包括Linux&Shell脚本、Hadoop、Hive、Spark、Kafka、Hbase、MySQL、Sqoop、Flume、Scala、Azkaban以及数据湖相关的项目实践。" 在大数据面试中，Linux和Shell脚本是基础技能，常常被考察。这份资料详细讲解了Linux的高级命令，如top用于查看内存，df-h用于查看磁盘存储，iotop用于监测磁盘I/O，netstat-tunlp用于检查端口占用，uptime查看系统运行状况，以及ps-aux用于查看系统进程。此外，Shell脚本的使用也至关重要，书中提到了awk、sed、cut和sort等工具的运用，以及编写过的各种脚本，如集群启动、数据导入导出等。对于Shell脚本中单引号、双引号和反引号的用法进行了区分，同时展示了如何使用sed命令进行字符串替换。 Hadoop部分可能涉及到MapReduce的原理和实践，它是分布式计算的基础。Hive则涉及数据仓库的构建和查询优化。Spark作为快速数据处理框架，其性能优化和SQL使用是面试的重点。Kafka是实时数据流处理的关键组件，考察点可能包括其消息模型和部署配置。Hbase是NoSQL数据库，关注点在于分布式存储和数据访问。MySQL在大数据场景下通常用于数据存储和ETL过程，可能会考察到事务处理和索引优化。Sqoop用于数据迁移，Flume则处理日志收集，两者都关乎数据的流入流出。Scala是Spark的基础语言，面试时可能会询问其面向对象和函数式编程特性。Azkaban是工作流管理工具，数据湖项目实践中涉及的架构设计、数仓分层、测试上线流程、技术问题及生产环境中的热点问题也是重要的面试话题。这份面试宝典覆盖了大数据领域的核心技术，从基础操作到项目实践经验，对于准备大数据相关职位面试的求职者来说，是非常全面的学习参考资料。

资源详情

资源推荐

大数据 - 高频面试宝典

（7）hdfs snapshotDiff 路径 1 路径 2 （功能描述：比较两个快照目录的不同之处）

（8）hdfs dfs -deleteSnapshot <path> <snapshotName> （功能描述：删除快照）

30、HDFS HA 高可用

1）所谓 HA（High Available），即高可用（7*24 小时不中断服务）。

2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制：

HDFS 的 HA 和 YARN 的 HA。

3）Hadoop2.0 之前，在 HDFS 集群中 NameNode 存在单点故障（SPOF）。

4）NameNode 主要在以下两个方面影响 HDFS 集群

NameNode 机器发生意外，如宕机，集群将无法使用，直到管理员重启 NameNode 机

器需要升级，包括软件、硬件升级，此时集群也将无法使用 HDFS HA 功能通过配置

Active/Standby 两个 NameNodes 实现在集群中对 NameNode 的热备来解决上述问

题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode

很快的切换到另外一台机器。

31、HDFS-HA 工作要点

1. 元数据管理方式需要改变内存中各自保存一份元数据；

Edits 日志只有 Active 状态的 NameNode 节点可以做写操作；

两个 NameNode 都可以读取 Edits；

共享的 Edits 放在一个共享存储中管理（qjournal 和 NFS 两个主流实现）；

2. 需要一个状态管理功能模块实现了一个 zkfailover，常驻在每一个 namenode 所在的

节点，每一个 zkfailover 负责监控自己所在 NameNode 节点，利用 zk 进行状态标识，

当需要进行状态切换时，由 zkfailover 来负责切换，切换时需要防止 brain split 现象的

发生。

3. 必须保证两个 NameNode 之间能够 ssh 无密码登录

4. 隔离（Fence），即同一时刻仅仅有一个 NameNode 对外提供服务

32、HDFS-HA 自动故障转移工作机制

HA 的自动故障转移依赖于 ZooKeeper

故障检测：集群中的每个 NameNode 在 ZooKeeper 中维护了一个持久会话，如果机器

崩溃，ZooKeeper 中的会话将终止，ZooKeeper 通知另一个 NameNode 需要触发故障

转移。

大数据 - 高频面试宝典

33、HDFS 存储多目录

正常的服务器，磁盘不可能只有一块，可能有 N 多快（1T，2T 等），所有需要配置多目录

存储

df -h 查看 linux 分区情况

34、HA NameNode 如何工作

在一个典型的 HA 集群中，每个 NameNode 是一台独立的服务器。在任一时刻，只有一个

NameNode 处于 active 状态，另一个处于 standby 状态。其中，active 状态的 NameNode

负责所有的客户端操作，standby 状态的 NameNode 处于从属地位，维护着数据状态，

随时准备切换。

两个 NameNode 为了数据同步，会通过一组称作 JournalNodes 的独立进程进行相互通

信。当active 状态的 NameNode 的命名空间有任何修改时，会告知大部分的 JournalNodes

进程。standby 状态的 NameNode 有能力读取 JNs 中的变更信息，并且一直监控 edit log

的变化，把变化应用于自己的命名空间。standby 可以确保在集群出错时，命名空间状态

已经完全同步。

为了确保快速切换，standby 状态的 NameNode 有必要知道集群中所有数据块的位置。

为了做到这点，所有的 datanodes 必须配置两个 NameNode 的地址，发送数据块位置信

息和心跳给他们两个。

对于 HA 集群而言，确保同一时刻只有一个 NameNode 处于 active 状态是至关重要的。

否则，两个 NameNode 的数据状态就会产生分歧，可能丢失数据，或者产生错误的结果。

为了保证这点，JNs 必须确保同一时刻只有一个 NameNode 可以向自己写数据

。

35、集群数据均衡

如果 10 台服务器，只有三台副本，会出现数据不均衡

开启数据均衡命令：start-balancer.sh -threshold 10 .sh 前边是均衡节点数据，

threshold 是阈值

比如 A 节点跑了 50%,b 节点跑了 80%就是数据不均衡，参数 10，代表的是集群中各个节

点的磁盘空间利用率相差不超过 10%，可根据实际情况进行调整。

停止数据均衡命令：stop-balancer.sh

36、HDFS 存在的问题

1）NameNode 单点故障，难以应用于在线场景。

2）NameNode 压力过大，且内存受限，影响扩展性。

37、分布式与集群之间的关系

分布式：一个业务拆分为多个子业务，部署在多个服务器上

大数据 - 高频面试宝典

集群：同一个业务，部署在多个服务器上。

区别：

将一套系统拆分成不同子系统部署在不同服务器上叫分布式，

然后部署多个相同的子系统在不同的服务器上叫集群，

部署在不同服务器上的同一个子系统应做负载均衡。

38、分布式的三大要素

强一致性：在分布式系统中的同一数据多副本情形下，对于数据的更新操作体现出的效果与

只有单份数据是一样的。

可用性：客户端在任何时刻对大规模数据系统的读/写操作都应该保证在限定延时内完成；

分区容忍性：系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就

当前操作在強一致性和可用性之间做出选择。

MapReduce 阶段

1、Mapreduce 工作流程

Map 阶段

1）首先有一个 200M 的待处理文件，在客户端提交之前，获取待处理数据的信息。

2）然后根据参数配置，进行任务规划，将文件按每块 128M 进行切片，提交到 Yarn，提

交时会将每个任务封装为一个 job 交给 Yarn 来处理，计算出 MapTask 数量（也就是切片

数量）。

3）每个 MapTask 并行执行，调用 InputFormat 方法和 RecoderReader 方法，将每个块

文件封装为 k，v 键值对，传递给 map，map 处理完成相关的逻辑操作之后，通过

outputCollector 向环形缓冲区写入数据。

4）环形缓冲区主要两部分，一部分写入文件的元数据信息，另一部分写入文件的真实内容，

环形缓冲区的默认大小是 100M，当缓冲的容量达到默认大小的 80%时，进行反向溢写，

5）在溢写之前会将缓冲区的数据按照指定的分区规则进行分区和排序，在分区和排序之后，

溢写到磁盘，可能发生多次溢写，溢写到多个文件，对所有溢写到磁盘的文件进行归并排序

注意：

Map 阶段的进程数比 Reduce 阶段要多，所以放在 Map 阶段处理效率更高

Map 阶段合并之后，传递给 Reduce 的数据就会少很多

Reduce 阶段

1）所有的 MapTask 任务完成后，启动相应数量的 ReduceTask（和分区数量相同），并

告知 ReduceTask 处理数据的范围（数据分区）

大数据 - 高频面试宝典

2）ReduceTask 会将 MapTask 处理完的数据拷贝一份到磁盘中，并合并文件和归并排序，

之后将数据传给 reduce 进行处理，一次读取一组数据

3）最后通过 OutputFormat 输出整个 ReduceTask 文件

ReduceTask 分为四个阶段

Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如

果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中

Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上

的文件进行合并，以防止内存使用过多或磁盘上文件过多

Sort 阶段：按照 MapReduce 语义，用户编写 reduce()函数输入数据是按 key 进行聚集的

一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个

MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数

据进行一次归并排序即可

Reduce 阶段

reduce 从合并的文件中取出一个一个的键值对 group，调用用户自定义的 reduce 方法（），

生成最终的输出文件

Reduce 阶段：reduce 函数将计算结果写到 HDFS 上

2、MapReduce 优点、缺点

1．MapReduce 易于编程

它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价

的 PC 机器上运行。也就是说写一个分布式程序，跟写一个简单的串行程序是一模一样的。

2．良好的扩展性

当计算资源不能得到满足的时候，可以通过简单的增加机器来扩展它的计算能力

缺点：

1. 不擅长实时计算

MapReduce 不能像 MySQL 一样，在毫秒或者秒级内返回结果。

2. 不擅长流式计算

流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。

这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。

3、MapReduce 进程

1）MrAppMaster：负责整个程序的过程调度及状态协调。

2）MapTask：负责 Map 阶段的整个数据处理流程。

大数据 - 高频面试宝典

3）ReduceTask：负责 Reduce 阶段的整个数据处理流程。

4、MapTask 的工作机制

inputFile 通过 split 被切割为多个 split 文件，通过 Record 按行读取内容给 map（自

己写的处理逻辑的方法），数据被 map 处理完之后交给 OutputCollect 收集器，对其结

果 key 进行分区（默认使用的 hashPartitioner），然后写入 buffer，每个 map task 都

有一个内存缓冲区（环形缓冲区），存放着 map 的输出结果，当缓冲区快满的时候需要

将缓冲区的数据以一个临时文件的方式溢写到磁盘，当整个 map task 结束后再对磁盘中

这个 maptask 产生的所有临时文件做合并，生成最终的正式输出文件，然后等待 reduce

task 的拉取

5、在写 MR 时，什么情况下可以使用规约

求和时

规约（combiner）是不能够影响任务的运行结果的，局部汇总，适用于求和类，不适用于求平均值，如果

reduce 的输入参数类型和输出参数的类型是一样的，则规约的类可以使用 reduce 类，只需要在驱动类

中指明规约的类即可

6、MapReduce 的调优方法

1.数据输入

合并小文件，在执行 MR 任务前将小文件进行合并，大量的小文件会产生大量的 map 任务，增大 map 任

务装载次数，而任务的装载比较耗时，从而导致 MR 运行较慢；

2.Map 阶段

1)减少溢写次数，通过调整 io.sort.mb 和 sort.spill.percent 参数值，增大出发溢写的内存上限，减少溢

写次数，从而减少磁盘 IO；

2)减少合并次数，通过调整 io.sort.factor 参数，增大 merge 的文件数目，减少 merge 的次数，从而缩减

MR 处理时间；

3.Reduce 阶段

1)合理设置 map 和 reduce 的数量，两个数量都不能太少或者太多，太少，会导致 task 等待时间太长，

延长处理时间，太多，会导致 map 和 reduce 任务之间竞争资源，造成处理超时等错误；

2)设置 map 和 reduce 共存，调整，show start completedmaps 参数，使 map 运行到一定程度后，reduce

也开始运行，从而减少 reduce 等待时间；

3)规避使用 reduce，因为 reduce 在用于连接数据集的时候会产生大量的网络消耗；

4)合理设置 reduce 端的 buffer，可以通过设置参数来配置，使得 buffer 中的一部分数据可以直接输送到

reduce，从而减少 IO 开销；MapReduce，Reduce.input.buffer.percent 的默认为 0.0，当值大于 0 时，

剩余145页未读，继续阅读

Cheney6

粉丝: 404
资源: 4

大数据面试必备：Linux、Shell、Hadoop到数据湖全面解析

超全大数据面试宝典-大数据面试有这套就够了.pdf

【推荐】大数据面试必备系列资料合集（8份）.zip

大数据面试宝典

根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

将“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。

bm大数据治理系列.pdf

尚硅谷大数据技术之scala.docx

Python根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

大数据技术导论.pdf 云资源

python去除大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsxexcel各个表格中的重复数据。

任务一：将“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。

尚硅谷大数据技术之cm安装.pdf

请从以下几个方面，举例论述京东购物平台的大数据应用案例？ 1. 大数据的收集 2. 大数据的分析 3. 大数据的可视化管理

将C盘中的“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。并去除各个表格中的重复数据

python大数据-电商产品评论情感数据分析

hbase-1.2.1-bin.tar.gz

python根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

执行tar -zxvf xx.tar.gz后报错gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error is not recoverable: exiting now

大数据面试宝典-精简版.pdf

程序员大数据面试宝典

最新资源