BAT大数据面试深度解析：Hadoop、Kafka、Spark实战

版权申诉

42 浏览量更新于2024-06-26 收藏 366KB PDF 举报

"这份PDF文件包含了2018年最新的BAT大数据面试题，涉及了Hadoop、Kafka、HDFS、Spark和MapReduce等核心技术。共计19页，包含25道具体题目，旨在帮助求职者准备大数据相关职位的面试。内容涵盖了Kafka消息结构、Hadoop的Shuffle过程、Spark集群计算模式、HDFS数据读写流程、RDD的操作以及MapReduce的排序阶段等关键知识点。此外，还包括了Spark 2.0的特点、Kafka数据存储位置、解决数据丢失的方法、HDFS元数据管理、配置文件优化策略以及处理大规模数据的算法设计问题。" 以下是这些知识点的详细说明： 1. **Kafka的Message结构**：Kafka的消息包括一个固定长度的Header，用于标识消息的属性，例如Magic Byte和Checksum，以及可变长度的Payload，通常包含用户定义的数据。 2. **查看Kafka的Offset**：通过Kafka的命令行工具或者消费者API，可以查询特定Topic和Partition的当前Offset。 3. **Hadoop的Shuffle过程**：Shuffle阶段是MapReduce中的一部分，它包括排序、分区和合并，确保相同分区键的数据被分发到同一台Reducer上。 4. **Spark集群运算的模式**：Spark支持Local模式、Standalone模式、YARN模式和Mesos模式，分别对应于本地单机、独立集群、Hadoop资源管理和Mesos资源调度。 5. **HDFS读写数据过程**：HDFS的读操作包括客户端请求、NameNode定位Block位置、DataNode数据传输，而写操作涉及客户端分割文件、NameNode分配Block、DataNode接收Block并复制。 6. **RDD中的reduceByKey与groupByKey**：reduceByKey在聚合时减少网络传输，性能更好，因为它对每个键进行局部聚合，然后才在网络上传输；groupByKey则将所有值发送到同一个键的Reducer，可能导致大量数据交换。 7. **Spark 2.0的了解**：Spark 2.0引入了DataFrame和Dataset API，提供了更强大的SQL支持和更高的性能，还有优化的内存管理和资源调度。 8. **RDD的分区宽依赖和窄依赖**：宽依赖是指父RDD的分区对子RDD的所有分区都有依赖，如groupByKey；窄依赖则是每个父RDD分区只依赖于子RDD的一个或少数分区，如map。 9. **Spark Streaming读取Kafka数据的两种方式**：DStream的directStream方式和通过Receiver的方式，directStream无需Receiver，直接从Kafka消费数据，更稳定；Receiver方式可能会丢失数据。 10. **Kafka的数据存储**：Kafka的数据默认存储在磁盘上，但可以通过配置缓存一部分在内存中以提高效率。 11. **解决Kafka的数据丢失**：可以通过设置合适的保留策略、增加副本数、启用Kafka的事务特性等方法防止数据丢失。 12. **fsimage和edit的区别**：fsimage是HDFS的元数据镜像文件，记录文件系统的当前状态；edit日志记录所有修改操作，直到下一次检查点时合并到fsimage。 13. **配置文件优化**：优化Hadoop配置文件如hdfs-site.xml、mapred-site.xml和yarn-site.xml，调整副本数、块大小、内存分配等参数，以提高性能。 14. **Datanode加入集群的文件版本问题**：如果Datanode的文件版本与Namenode不兼容，执行格式化是因为需要更新Namenode的元数据格式，保持一致性。 15. **MapReduce的排序阶段**：排序发生在Map阶段的Shuffle和Sort步骤以及Reduce阶段。排序是MapReduce的核心部分，不可避免，因为Reduce任务需要按键排序输入。以上知识点是大数据面试中常被问及的部分，理解和掌握这些内容对于面试至关重要。

排序，然后每个 partition 中的数据再按 key 来排序。partition 的目是将记录划分

到不同的 Reducer 上去，以期望能够达到负载均衡，以后的 Reducer 就会根据

partition 来读取自己对应的数据。接着运行 combiner(如果设置了的话)，combiner

的本质也是一个 Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，

这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生 spill 文件

(spill 文件保存在{mapred.local.dir}指定的目录中，Map 任务结束后就会被删除)。

最后，每个 Map 任务可能产生多个 spill 文件，在每个 Map 任务完成前，会

通过多路归并算法将这些 spill 文件归并成一个文件。至此，Map 的 shuffle 过程

就结束了。

二、Reduce 端的 shuffle

Reduce 端的 shuffle 主要包括三个阶段，copy、sort(merge)和 reduce。

首先要将 Map 端产生的输出文件拷贝到 Reduce 端，但每个 Reducer 如何知

道自己应该处理哪些数据呢？因为 Map 端进行 partition 的时候，实际上就相当

于指定了每个 Reducer 要处理的数据(partition 就对应了 Reducer)，所以 Reducer

在拷贝数据的时候只需拷贝与自己对应的 partition 中的数据即可。每个 Reducer

会处理一个或者多个 partition，但需要先将自己对应的 partition 中的数据从每个

Map 的输出结果中拷贝过来。

接下来就是 sort 阶段，也成为 merge 阶段，因为这个阶段的主要工作是执行

了归并排序。从 Map 端拷贝到 Reduce 端的数据都是有序的，所以很适合归并排

序。最终在 Reduce 端生成一个较大的文件作为 Reduce 的输入。

最后就是 Reduce 过程了，在这个过程中产生了最终的输出结果，并将其写

到 HDFS 上。

剩余18页未读，继续阅读

passionSnail

粉丝: 458
资源: 7362

BAT大数据面试深度解析：Hadoop、Kafka、Spark实战

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

大数据面试100题.pdf

大数据开发面试集锦

pyspark java.lang.ClassNotFoundException: Class org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider not found

import org.apache.hadoop.hbase.mapreduce.TableInputFormat; 需要导入的pom文件

org.apache.hadoop.hdfs.server.namenode.namenode

Hadoop中HDFS/MapReduce/Yarn应用

pyspark sql 读取 hive 报错 java.lang.ClassNotFoundException: Class org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider not found

在启动spark的时候报错ERROR spark.SparkContext: Error initializing SparkContext. org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create file/spark-logs/app-20230715173954-0000.inprogress. Name node is in safe mode

2.Hadoop和 Apache spark的异同

最新资源