互联网大厂大数据面试高频题：Linux与Hadoop命令详解

版权申诉

107 浏览量更新于2024-07-05 收藏 2.65MB PDF 举报

本文档是一份针对大数据领域互联网大厂面试的高频问题及其答案汇总，内容涵盖Linux与Shell编程技能，以及Hadoop相关的技术知识。以下是详细解读： 1. **Linux & Shell命令基础**： - `top`：用于实时监控系统资源使用情况，如内存和CPU使用率。 - `df -h`：查看磁盘分区的使用情况，包括总空间、已用空间和剩余空间。 - `iotop`：监控Linux系统中的I/O操作，通过`yum install iotop`安装。 - `iotop -o`：筛选出I/O密集型进程，以便优化性能。 - `netstat -tunlp | grep 端口号`：检查网络连接和端口占用状态。 - `uptime`：提供系统运行时间和负载平均值。 - `ps -aux`：显示当前所有用户的进程详细信息。 2. **Shell编程实战经验**： - 使用Shell脚本进行任务自动化，如集群启动脚本、数据仓库的MySQL导入导出，以及内部数据迁移。 - 当需要杀死一个不知道进程号但知道其特征（如脚本名和参数）的进程时，可以通过`ps -ef | grep`筛选相关行，再结合`awk`和`xargs kill`执行杀进程操作。 - 单引号和双引号的区别：单引号不解析变量，双引号会解析变量；反引号`用于执行命令并获取其输出。 3. **Hadoop技术要点**： - Hadoop常用端口号：HDFS(50070, 9870), MapReduce(8088, 8088), History Server(19888), Namenode/Jobtracker的客户端端口(9000, 8020)。 - 配置文件：Hadoop 2.x和3.x版本的`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`, `yarn-site.xml`有所不同。 - 集群搭建步骤包括安装JDK，配置核心文件，并简述了基础的Hadoop集群构建流程。这份文档对求职者来说是宝贵的面试准备资料，它不仅测试了应聘者的实际操作能力和对Linux和Hadoop技术的理解，还考察了Shell编程的灵活性和问题解决能力。理解这些知识点不仅能提升面试表现，也能在日常工作中提高效率。

（1）NodeManager默认内存8G，需要根据服务器实际配置灵活调整，例如128G内存，配置为

100G内存左右，yarn.nodemanager.resource.memory-mb。

（2）单任务默认内存8G，需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存，

yarn.scheduler.maximum-allocation-mb。

（3）mapreduce.map.memory.mb ：控制分配给MapTask内存上限，如果超过会kill掉进程

（报：Container is running beyond physical memory limits. Current usage:565MB of512MB

physical memory used；Killing Container）。默认内存大小为1G，如果数据量是128m，正常不需要

调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。

（4）mapreduce.reduce.memory.mb：控制分配给ReduceTask内存上限。默认内存大小为1G，

如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为

4-5g。

（5）mapreduce.map.java.opts：控制MapTask堆内存大小。（如果内存不够，报：

java.lang.OutOfMemoryError）

（6）mapreduce.reduce.java.opts：控制ReduceTask堆内存大小。（如果内存不够，报：

java.lang.OutOfMemoryError）

（7）可以增加MapTask的CPU核数，增加ReduceTask的CPU核数

（8）增加每个Container的CPU核数和内存大小

（9）在hdfs-site.xml文件中配置多目录

（10）NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数

据操作。dfs.namenode.handler.count=20 * log2(Cluster Size)，比如集群规模为10台时，此参数设置

为60。

1.2.6 Yarn工作机制

1.2.7 Yarn调度器

1）Hadoop调度器重要分为三类：

FIFO 、Capacity Scheduler（容量调度器）和Fair Sceduler（公平调度器）。

Apache默认的资源调度器是容量调度器；

CDH默认的资源调度器是公平调度器。

2）区别：

FIFO调度器：支持单队列、先进先出生产环境不会用。

容量调度器：支持多队列，保证先进入的任务优先执行。

公平调度器：支持多队列，保证每个任务公平享有队列资源。

3）在生产环境下怎么选择？

大厂：如果对并发度要求比较高，选择公平，要求服务器性能必须OK；

中小公司，集群服务器资源不太充裕选择容量。

4）在生产环境怎么创建队列？

（1）调度器默认就1个default队列，不能满足生产要求。

（2）按照框架：hive /spark/ flink 每个框架的任务放入指定的队列（企业用的不是特别多）

（3）按照业务模块：登录注册、购物车、下单、业务部门1、业务部门2

5）创建多队列的好处？

（1）因为担心员工不小心，写递归死循环代码，把所有资源全部耗尽。

（2）实现任务的降级使用，特殊时期保证重要的任务队列资源充足。

业务部门1（重要）=》业务部门2（比较重要）=》下单（一般）=》购物车（一般）=》登录注册

（次要）

1.2.8 项目经验之基准测试

搭建完Hadoop集群后需要对HDFS读写性能和MR计算能力测试。测试jar包在hadoop的share文件

夹下。

1.2.9 Hadoop宕机

1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整

参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是

8192MB）

2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写

入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。。

1.2.10 Hadoop解决数据倾斜方法

1**）提前在map进行combine，减少传输的数据量**

在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少

shuffle过程中传输的数据量，以及Reducer端的计算量。

如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

2**）导致数据倾斜的key** 大量分布在不同的**mapper**

（1）局部聚合加全局聚合。

第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被

分到多个Reducer中进行局部聚合，数量就会大大降低。

第二次mapreduce，去掉key的随机前缀，进行全局聚合。

剩余31页未读，继续阅读

智慧化智能化数字化方案

粉丝: 1596
资源: 1万+

互联网大厂大数据面试高频题：Linux与Hadoop命令详解

大数据技术高频面试题真题

大数据技术之高频面试题8.0.2.pdf

大数据面试指南（含答案）

互联网大厂面试真题附含答案高频面试题

大数据岗位大厂面试真题附含答案.rar

2020互联网一线大厂面试真题附含答案.zip

《JAVA面试题》--新版Java面试专题视频教程，java八股文面试全套真题+深度详解（含大厂高频面试真题）.zip

硬件知识整理_嵌入式-常用知识&面试题库_大厂面试真题.pdf

《简历模板》-高频大厂面试题+电子书+此仓库作为面试的一条龙服务，其中包含面试真题，简历模板，后端技术精髓等.zip

C语言高频基础题_嵌入式-常用知识&面试题库_大厂面试真题.docx

最新资源