Hadoop大数据面试题解析：核心技术与集群管理

25 浏览量更新于2024-06-27 1 收藏 1.89MB PDF 举报

"该资源是一份关于大数据面试题目的PDF文档，主要涵盖了HDFS(Hadoop Distributed File System)的基础知识和一些常见问题，旨在帮助求职者准备面试，挑战高薪职位。" 在这份文档中，主要涉及了以下几个重要的大数据和Hadoop相关知识点： 1. **HDFS组件**： - **NameNode**: 负责元数据管理，不存储实际数据。 - **DataNode**: 存储HDFS的数据块，是HDFS的主要数据存储节点。 - **Secondary NameNode**: 不是NameNode的热备，而是帮助NameNode定期合并编辑日志，减少NameNode重启时的恢复时间。 - **JobTracker/TaskTracker**：旧版Hadoop MapReduce的调度和任务执行组件，已经被YARN取代。 2. **HDFS配置**： - **Block Size**: HDFS的默认Block Size通常是128MB，用于决定文件如何分割存储。 - **副本数**：默认情况下，每个文件块会在HDFS中保存3份，以提供容错性和数据可靠性。 3. **HDFS性能瓶颈**： - 在廉价PC机组成的集群中，磁盘I/O通常是性能瓶颈，因为数据写入需要通过网络并复制多份。 4. **集群管理**： - **Puppet、Pdsh、Cloudera Manager**等工具可用于集群的自动化管理和监控。 - **Zookeeper**：提供分布式协调服务，在Hadoop和HBase等系统中起到关键作用。 5. **HDFS操作**： - **客户端上传文件**：客户端将文件切分成Block，直接上传到DataNode，NameNode负责协调Block的位置信息，不直接参与数据传输。 - **运行模式**：Hadoop可以运行在单机版、伪分布式和分布式模式下，其中分布式模式是实际生产环境中的常见模式。 6. **MapReduce**： - **原理**：MapReduce是一种并行计算模型，包含Map和Reduce两个主要阶段，用于处理和生成大数据集。 - **WordCount示例**：经典的MapReduce应用，用于统计文本中单词出现的次数，展示了MapReduce的基本工作流程。 7. **面试题**： - 面试题还涵盖了Hadoop的核心配置，如core-site.xml、hdfs-site.xml和mapred-site.xml等，以及如何通过"jps"命令检查Hadoop服务的状态。这些知识点对于理解和使用Hadoop生态系统，尤其是HDFS和MapReduce的运作原理至关重要，对于准备大数据相关面试的求职者来说是非常有价值的参考资料。

partition的默认实现是hashpartition，是map端将数据按照reduce个数取余，进⾏分区，不同的reduce来copy⾃⼰的数据。

partition的作⽤是将数据分到不同的reduce进⾏计算，加快计算效果。

1. hive内部表和外部表的区别

内部表：加载数据到hive所在的hdfs⽬录，删除时，元数据和数据⽂件都删除

外部表：不加载数据到hive所在的hdfs⽬录，删除时，只删除表结构。

1. hbase的rowkey怎么创建好？列族怎么创建⽐较好？

hbase存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常⼀起读取的⾏存储放到

⼀起。(位置相关性)

⼀个列族在数据底层是⼀个⽂件，所以将经常⼀起查询的列放到⼀个列族中，列族尽量少，减少⽂件的寻址时间。

1. ⽤mapreduce怎么处理数据倾斜问题？

数据倾斜：map /reduce程序执⾏时，reduce节点⼤部分执⾏完毕，但是有⼀个或者⼏个reduce节点运⾏很慢，导致整个程序的处理时间

很长，这是因为某⼀个key的条数⽐其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量⽐其他节点就

⼤很多，从⽽导致某⼏个节点迟迟运⾏不完，此称之为数据倾斜。

⽤hadoop程序进⾏数据关联时，常碰到数据倾斜的情况，这⾥提供⼀种解决⽅法。

⾃⼰实现partition类，⽤key和value相加取hash值：

⽅式1：

源代码：

public int getPartition(K key, V value,

int numReduceTasks) {

return (key.hashCode() & Integer.

MAX_VALUE

) % numReduceTasks;

}

修改后

public int getPartition(K key, V value,

int numReduceTasks) {

return ((（key).hashCode()+value.hashCode()） & Integer.

MAX_VALUE

) % numReduceTasks;

}

⽅式2：

public class HashPartitioner<K, V> extends Partitioner<K, V> {

private int aa= 0;

/** Use {@link Object#hashCode()} to partition. */

public int getPartition(K key, V value,

int numReduceTasks) {

return (key.hashCode()+(aa++) & Integer.

MAX_VALUE

) % numReduceTasks;

}

1. hadoop框架中怎么来优化

（1）从应⽤程序⾓度进⾏优化。由于mapreduce是迭代逐⾏解析数据⽂件的，怎样在迭代的情况下，编写⾼效率的应⽤程序，是⼀种优

化思路。

（2）对Hadoop参数进⾏调优。当前hadoop系统有190多个配置参数，怎样调整这些参数，使hadoop作业运⾏尽可能的快，也是⼀种

优化思路。

（3）从系统实现⾓度进⾏优化。这种优化难度是最⼤的，它是从hadoop实现机制⾓度，发现当前Hadoop设计和实现上的缺点，然后进

⾏源码级地修改。该⽅法虽难度⼤，但往往效果明显。

（4）linux内核参数调整

1. 从应⽤程序⾓度进⾏优化

（1）避免不必要的reduce任务

如果mapreduce程序中reduce是不必要的，那么我们可以在map中处理数据, Reducer设置为0。这样避免了多余的reduce任务。

（2）为job添加⼀个Combiner

为job添加⼀个combiner可以⼤⼤减少shuffle阶段从map task拷贝给远程reduce task的数据量。⼀般⽽⾔，combiner与reducer相同。

（3）根据处理数据特征使⽤最适合和简洁的Writable类型

Text对象使⽤起来很⽅便，但它在由数值转换到⽂本或是由UTF8字符串转换到⽂本时都是低效的，且会消耗⼤量的CPU时间。当处理那些

⾮⽂本的数据时，可以使⽤⼆进制的Writable类型，如IntWritable， FloatWritable等。⼆进制writable好处：避免⽂件转换的消耗；使

map task中间结果占⽤更少的空间。

（4）重⽤Writable类型

很多MapReduce⽤户常犯的⼀个错误是，在⼀个map/reduce⽅法中为每个输出都创建Writable对象。例如，你的Wordcout mapper⽅

法可能这样写：

public void map(...) {

…

for (String word : words) {

output.collect(new Text(word), new IntWritable(1));

}

这样会导致程序分配出成千上万个短周期的对象。Java垃圾收集器就要为此做很多的⼯作。更有效的写法是：

剩余40页未读，继续阅读

是空空呀

粉丝: 196
资源: 3万+

Hadoop大数据面试题解析：核心技术与集群管理

大数据技术之高频面试题.docx

大数据之数据仓库面试题.pdf

大数据面试题---.rar

大数据面试题v3.0 pdf

2020年前端大厂面试题最全汇总.pdf

大数据面试题2023

史上最全大数据面试题v3.1

尚硅谷大数据技术之高频面试题8.0.9.docx

资深大数据开发面试题

2022中高级android面试必知百题.pdf

最新资源