大数据面试精华：Linux、Shell与Hadoop技巧

需积分: 0 152 浏览量更新于2024-06-26 1 收藏 9.97MB DOCX 举报

本文档主要围绕大数据领域的高频面试题展开，覆盖了多个关键知识点，包括但不限于Linux与Shell技术、Hadoop框架及其组件的理解和应用。以下是详细的内容概览： 1. **Linux & Shell技术** - **Linux常用高级命令**：提到的命令如awk、sed、cut、sort在数据处理中极其重要，它们用于数据筛选、转换和排序，是数据分析师和系统管理员的基础技能。 - **Shell脚本编写**：面试者可能会被问到关于编写和管理shell脚本的问题，比如集群启动和分发脚本，以及数仓数据的迁移工具使用，如Flume和Kafka的脚本操作。 - **Shell进程管理**：遇到不知道进程号但需要终止的场景，通过`ps`、`grep`、`awk`和`xargs`组合，展示了查找并杀死进程的基本技巧。 - **单引号与双引号的区别**：讲解了单引号和双引号在Shell中的不同用途，如单引号不解析变量，双引号解析变量，以及反引号`用于执行命令的特性。 2. **Hadoop技术** - **Hadoop端口号**：熟悉Hadoop各个组件（如HDFS、MapReduce和YARN）的标准端口对于理解其工作原理至关重要。 - **Hadoop配置与集群搭建**：面试者可能被询问如何配置Hadoop的四个主要配置文件（针对Hadoop 2.x和3.x版本），以及简要的集群搭建步骤，包括JDK安装、SSH免密登录设置和基本配置文件的调整。 - **HDFS读写流程**：理解HDFS的数据读写机制，包括数据块的存储、客户端与NameNode的交互等，是Hadoop开发人员必备的知识。 - **HDFS小文件处理**：小文件问题是大数据场景下的常见挑战，面试者可能被问及如何优化处理HDFS中的小文件，以提高性能和效率。这份文档是准备大数据面试者的宝贵资源，涵盖了从基础的Shell操作到复杂的大数据技术实践，深入浅出地介绍了面试者可能被考察的关键知识点。掌握这些内容不仅能提升面试表现，也有助于实际工作中的问题解决和项目实施。

大数据技术之高频面试题

—————————————————————————————

MapReduce详细工作流程（一）

…

1 待处理文本

/user/input

Mr appmaster

NodeManager

客户端

2 客户端submit()前，获

取待处理数据的信息，然

后根据参数配置，形成一

个任务分配的规划。

ss.txt 0-128

ss.txt 128-200

ss.txt

200m

Job.split

wc.jar

Job.xml

Yarn

InputFormat

MapTask1

Mapper

outputCollector

K,v

map(K,v)

Context.write(k,v)

ss.txt 0-128

3 提交信息

4 计算出MapTask数量

5 默认

TextInputFormat

6 逻辑运算

RecorderReader

K,v

reader()

分区1

排序

<a,1><c,1>

<b,1><b,1>

9 溢出到文件（分区且区内有序）

<a,1><e,1>

<b,1><f,1>

<a,1><c,1> <b,2>

<a,1><a,1><c,1><e,1> <b,1><b,1><b,1><f,1>

<a,2><c,1><e,1> <b,3><f,1>

10 Merge 归并排序

分区1

分区2

MapTask2

<g,1> <h,1>

Merge 归并排序

分区1

分区2

… …

ss.txt 128-200

8 分区、排序

11 合并

7 向环形缓冲区

写入<k,v>数据

kvindex bufindex

<k,v>

kvmeta

默认100M

80%,后反向

分区2

排序

Combiner合并

索引

数据

… …

index partition keystart valstart key value unsued

Meta

Records

MrappMaster

<a,1><a,1><c,1><e,1><a,1><a,1><c,1><e,1> <b,1><b,1><b,1><f,1>

10 Merge 归并排序

partition0

partition1

<g,1> <h,1>

10 Merge 归并排序

partition0

partition1

<g,1>

<b,1><b,1><b,1><f,1>

<h,1>

<a,1><a,1><c,1><e,1><g,1>

MapTask1

MapTask2

GroupingComparator(k,knext)

13下载到ReduceTask本地磁盘

13 合并文件归并排序

Reduce(k,v)

Context.write(kv)

Reducer

OutPutFormat

RecordW riter

Write(k,v)

a 2

b 1

c 1

d 1

…

Part-r-000000

16 默认TextOutputFormat

ReduceTask1

ReduceTask2

14 一次读取一组

Reduce(k,v)

Context.write(kv)

Reducer

OutPutFormat

RecordW riter

Write(k,v)

a 2

b 1

c 1

d 1

…

Part-r-000001

默认TextOutputFormat

MapReduce详细工作流程（二）

12 所有MapTask任务完成后，启动相

应数量的ReduceTask，并告知

ReduceTask处理数据范围（数据分区）

15 分组

大数据技术之高频面试题

—————————————————————————————

Shuffle机制

Map1方法

分区1 分区2

写入<k,v>数据

第一次溢出

排序

第二次溢出

Combiner

归并排序

合并

Combiner为可选流程

压缩

写磁盘

分区1 分区2

分区1

排序

分区2

排序

分区1

排序

分区2

排序

分区1

合并

分区2

合并

分区1

合并

分区2

合并

分区1

归并

分区2

归并

分区1

压缩

分区2

压缩

分区1

输出

分区2

输出

分区1

合并

分区2

合并

combiner

Combiner为可选流程

分区

分区1

输出

分区2

输出

分区1

输出

分区2

输出

分区1

输出

分区1

输出

内存缓冲

磁盘

数据

内存不够溢出到磁盘

归并

排序

分组

Reduce方法

对每个map来的

数据归并排序

按照相同key分组

Map2方法

输出数据

Map1方法

输出数据

。。。

和Map1方法处理一样

Reduce1处理流程

Reduce2处理流程和Reduce1一样

拷贝

kvindex

bufindex

<k,v>

kvmeta

Spill.out

spill.index

Spill.out

默认100M

80%,后反向

环形缓冲区

2、优化

1）Map 阶段

（1）增大环形缓冲区大小。由 100m 扩大到 200m

（2）增大环形缓冲区溢写的比例。由 80%扩大到 90%

（3）减少对溢写文件的 merge 次数。（10 个文件，一次 20 个 merge）

（4）不影响实际业务的前提下，采用 Combiner 提前合并，减少 I/O。

2）Reduce 阶段

（1）合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长

处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误。

（2）设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定程度后，Reduce 也开

始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个 Reduce 去 Map 中拿数据的并行数

（5）集群性能可以的前提下，增大 Reduce 端存储数据内存的大小。

3）IO 传输

采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器。

压缩：

（1）map 输入端主要考虑数据量大小和切片，支持切片的有 Bzip2、LZO。注意：LZO 要想支持切片必须

创建索引；

大数据技术之高频面试题

—————————————————————————————

（2）map 输出端主要考虑速度，速度快的 snappy、LZO；

（3）reduce 输出端主要看具体需求，例如作为下一个 mr 输入需要考虑切片，永久保存考虑压缩率比较大

的 gzip。

4）整体

（1）NodeManager 默认内存 8G，需要根据服务器实际配置灵活调整，例如 128G 内存，配置为 100G 内存

左右，yarn.nodemanager.resource.memory-mb。

（2 ）单任务默认内存 8G ，需要根据该任务的数据量灵活调整，例如 128m 数据，配置 1G 内存，

yarn.scheduler.maximum-allocation-mb。

（3）mapreduce.map.memory.mb ：控制分配给 MapTask 内存上限，如果超过会 kill 掉进程（报：Container is

running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。

默认内存大小为 1G，如果数据量是 128m，正常不需要调整内存；如果数据量大于 128m，可以增加 MapTask 内

存，最大可以增加到 4-5g。

（4）mapreduce.reduce.memory.mb：控制分配给 ReduceTask 内存上限。默认内存大小为 1G，如果数据量是

128m，正常不需要调整内存；如果数据量大于 128m，可以增加 ReduceTask 内存大小为 4-5g。

（ 5 ） mapreduce.map.java.opts ：控制 MapTask 堆内存大小。（如果内存不够，报：

java.lang.OutOfMemoryError）

（ 6 ） mapreduce.reduce.java.opts ：控制 ReduceTask 堆内存大小。（如果内存不够，报：

java.lang.OutOfMemoryError）

（7）可以增加 MapTask 的 CPU 核数，增加 ReduceTask 的 CPU 核数

（8）增加每个 Container 的 CPU 核数和内存大小

（9）在 hdfs-site.xml 文件中配置多目录（多磁盘）

（10）NameNode 有一个工作线程池，用来处理不同 DataNode 的并发心跳以及客户端并发的元数据操作。

dfs.namenode.handler.count= ，，比如集群规模为 8 台时，此参数设置为 41。可通过简单的 python

代码计算该值，代码如下。

[baway@hadoop102 ~]$ python

Python 2.7.5 (default, Apr 11 2018, 07:36:10)

[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux2

Type "help", "copyright", "credits" or "license" for more information.

>>> import math

>>> print int(20*math.log(8))

>>> quit()

大数据技术之高频面试题

—————————————————————————————

1.2.6 Yarn 工作机制

YARN工作机制

0 Mr程序提交到客

户端所在的节点

/home/application/wc.

jar

main(){

job. waitForCompletion();

}

YarnRunner

1 申请一个Application

2 Application资源提交路径

hdfs://…./.staging以及

application_id

4 资源提交完毕，申请运行mrAppMaster

3 提交job运

行所需资源

ResourceManager

5 将用户的请求初始化成一个Task

FIFO调度队列

Capacity

NodeManager

Container

cpu+ram

MRAppmaster

Job.split

Job.xml

wc.jar

hdfs://…./.staging/application_id

这些文件在

job.submit()

后生成

NodeManager

Container

cpu+ram+jar

MapTask

6 领取到

Task任务

7 创建容器

Container

8 下载job资

源到本地

9 申请运行

MapTask容器

NodeManager

Container

cpu+ram+jar

MapTask

10 领取到任

务，创建容器

11 发送程

序启动脚本

YarnChild YarnChild

14 程序运行完后，

MR会向RM注销自己

12 向RM申请2个

容器，运行

ReduceTask程序

Container

YarnChild

ReduceTask0

13 Reduce向

Map获取相应

分区的数据

NodeManager

Container

YarnChild

ReduceTask1

NodeManager

1.2.7 Yarn 调度器

1）Hadoop 调度器重要分为三类：

FIFO 、Capacity Scheduler（容量调度器）和 Fair Sceduler（公平调度器）。

Apache 默认的资源调度器是容量调度器；

CDH 默认的资源调度器是公平调度器。

2）区别：

FIFO 调度器：支持单队列、先进先出生产环境不会用。

容量调度器：支持多队列，保证先进入的任务优先执行。

公平调度器：支持多队列，保证每个任务公平享有队列资源。资源不够时可以按照缺额分配。

3）在生产环境下怎么选择？

大厂：如果对并发度要求比较高，选择公平，要求服务器性能必须 OK；

中小公司，集群服务器资源不太充裕选择容量。

4）在生产环境怎么创建队列？

（1）调度器默认就 1 个 default 队列，不能满足生产要求。

（2）按照框架：hive /spark/ flink 每个框架的任务放入指定的队列（企业用的不是特别多）

（3）按照业务模块：登录注册、购物车、下单、业务部门 1、业务部门 2

5）创建多队列的好处？

大数据技术之高频面试题

—————————————————————————————

（1）因为担心员工不小心，写递归死循环代码，把所有资源全部耗尽。

（2）实现任务的降级使用，特殊时期保证重要的任务队列资源充足。

业务部门 1（重要）=》业务部门 2（比较重要）=》下单（一般）=》购物车（一般）=》登录注册（次要）

1.2.8 项目经验之基准测试

搭建完 Hadoop 集群后需要对 HDFS 读写性能和 MR 计算能力测试。测试 jar 包在 hadoop 的 share 文件夹下。

集群总吞吐量= 带宽*集群节点个数/副本数

例如：100m/s * 10 台/ 3= 333m/s

注意：如果测试数据在本地，那副本数-1。因为这个副本不占集群吞吐量。如果数据在集群外，向该集群上

传，需要占用带宽。本公式就不用减 1。

1.2.9 Hadoop 宕机

1）如果 MR 造成系统宕机。此时要控制 Yarn 同时运行的任务数，和每个任务申请的最大内存。调整参数：

yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是 8192MB）

2）如果写入文件过快造成 NameNode 宕机。那么调高 Kafka 的存储大小，控制从 Kafka 到 HDFS 的写入速度。

例如，可以调整 Flume 每批次拉取数据量的大小参数 batchsize。

1.2.10 Hadoop 解决数据倾斜方法

1）提前在 map 进行 combine，减少传输的数据量

在 Mapper 加上 combiner 相当于提前进行 reduce，即把一个 Mapper 中的相同 key 进行了聚合，减少 shuffle

过程中传输的数据量，以及 Reducer 端的计算量。

如果导致数据倾斜的 key 大量分布在不同的 mapper 的时候，这种方法就不是很有效了。

2）导致数据倾斜的 key 大量分布在不同的 mapper

（1）局部聚合加全局聚合。

第一次在 map 阶段对那些导致了数据倾斜的 key 加上 1 到 n 的随机前缀，这样本来相同的 key 也会被分到

多个 Reducer 中进行局部聚合，数量就会大大降低。

第二次 mapreduce，去掉 key 的随机前缀，进行全局聚合。

思想：二次 mr，第一次将 key 随机散列到不同 reducer 进行处理达到负载均衡目的。第二次再根据去掉 key

的随机前缀，按原 key 进行 reduce 处理。

这个方法进行两次 mapreduce，性能稍差。

（2）增加 Reducer，提升并行度

剩余196页未读，继续阅读

qq_64412267

粉丝: 16
资源: 1

大数据面试精华：Linux、Shell与Hadoop技巧

大数据技术之高频面试题

大数据技术高频面试题真题

大数据技术高频面试题

尚硅谷大数据技术之高频面试题8.0.9.docx

大数据高频面试题2023

JavaScript高频面试题

java最新高频面试题

java面试八股文高频面试题与求职攻略pdf

Java 基础高频面试题

测试工程师高频面试题

最新资源