大数据面试题全解析：Spark、Flink、Hadoop等技术要点

需积分: 9 92 浏览量更新于2024-12-24 收藏 6.67MB ZIP 举报

资源摘要信息:"大数据面试题汇总与答案分享" 标题:"BigData-Interview:" 描述:"发一条内推消息，社招、实习生欢迎投递。字节跳动校招内推码: 3UWFMRS。投递链接: 社招：大数据面试题汇总与答案分享 Spark Flink HBase Kafka Zookeeper 一、Hadoop HDFS架构 Yarn架构 MapReduce过程 Yarn 调度MapReduce hdfs写流程 hdfs读流程 hdfs创建一个文件的流程 hadoop1.x 和hadoop 2.x 的区别 hadoop1.x的缺点 hadoop HA介绍 hadoop的常用配置文件有哪些,自己实际改过哪些? 小文件过多会有什么危害,如何避免? 启动hadoop集群会分别启动哪些进程,各自的作用讲一下环形缓冲区的概念二、Hive hive 内部表和外部表的区别 hive中 sort by / order by / cluster by / distribute by 的区别 hive的me" 标签:"kafka spark yarn hadoop bigdata interview hbase hdfs mapreduce interview-questions flink " 文件名称列表:"BigData-Interview-master" 知识点详细说明: 一、Hadoop Hadoop是一个由Apache基金会开发的分布式存储和计算框架。Hadoop的核心组件包括HDFS，YARN和MapReduce。 1. HDFS架构：HDFS是一个高容错的系统，适合存储大量的数据。它将数据分割成块并存储在不同的节点上。NameNode是HDFS的核心组件，负责管理文件系统的命名空间。DataNode存储实际数据。 2. Yarn架构：YARN是一个资源管理平台，负责调度和监控集群资源。YARN中的ResourceManager管理整个系统的资源使用，而每个节点上的NodeManager负责监视和管理该节点的资源。 3. MapReduce过程：MapReduce是一种编程模型，用于处理大规模数据集。它包括Map和Reduce两个阶段。Map阶段读取输入数据并生成中间键值对，Reduce阶段对这些键值对进行合并。 4. Yarn 调度MapReduce：在Yarn环境中，MapReduce作业需要通过ResourceManager来请求资源，并在获取资源后在相应的NodeManager上执行。 5. hdfs写流程：数据首先被写入客户端的本地缓冲区，然后由DataNode接收并写入本地文件系统。 6. hdfs读流程：客户端首先与NameNode通信获取数据块的位置，然后直接与存储数据的DataNode通信，获取数据块并读取数据。 7. hdfs创建一个文件的流程：客户端首先向NameNode发送创建文件的请求，NameNode创建文件元数据，客户端然后将数据写入DataNode。 8. hadoop1.x 和hadoop 2.x 的区别：Hadoop2.x引入了YARN资源管理器和HDFS联邦，提高了集群的可伸缩性和资源利用率。 9. hadoop1.x的缺点：Hadoop1.x的缺点是它的扩展性较差，资源管理能力有限，且单点故障。 10. hadoop HA介绍：Hadoop的高可用性配置允许NameNode在出现故障时快速切换到备份节点。 11. hadoop的常用配置文件有哪些,自己实际改过哪些：主要配置文件包括hdfs-site.xml, core-site.xml, mapred-site.xml和yarn-site.xml。具体改动可能会涉及到集群的存储和计算资源的配置。 12. 小文件过多会有什么危害,如何避免：小文件会过多占用NameNode的内存，导致性能瓶颈。避免策略包括合并小文件和使用SequenceFile等。 13. 启动hadoop集群会分别启动哪些进程,各自的作用：启动的进程包括NameNode, DataNode, ResourceManager, NodeManager等，各自负责集群的命名空间管理、数据存储、资源管理和任务调度。 14. 讲一下环形缓冲区的概念：环形缓冲区是一种数据结构，用于高效地处理和存储数据流。在Hadoop中，它被用于处理MapReduce作业的中间数据。二、Hive Hive是建立在Hadoop上的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。 1. hive 内部表和外部表的区别：内部表的数据存储在Hive的数据仓库目录中，删除表时数据会一并删除；外部表的数据存储在Hadoop文件系统中，删除表时数据不会被删除。 2. hive中 sort by / order by / cluster by / distribute by 的区别：sort by保证全局排序，order by保证全局排序并且只有一个Reducer，cluster by是sort by的一种简写形式，distribute by用于控制Map阶段输出数据的分布。 3. hive的具体使用方法和配置等信息未在描述中提及，但涉及Hive的使用通常包括了解如何通过HiveQL进行数据查询、数据导入导出、表的创建和管理等操作。由于描述中并未提供完整的Hive相关信息，只能根据提供的描述和标签，对Hadoop和相关技术的面试知识点进行了总结。如果有更详细的信息，可以进一步补充。

收起资源包目录

大数据面试题全解析：Spark、Flink、Hadoop等技术要点（126个子文件）

Impala和hive的查询有哪些区别.md 2KB

zk是怎样保证主从节点的状态同步.md 545B

zk的分布式锁实现方式.md 863B

README.md 8KB

spark架构图.jpg 22KB

怎样去处理数据倾斜.md 5KB

小文件过多会有什么危害.md 655B

flink的state是存储在哪里的.md 589B

讲一下hbase的写数据的流程.md 1KB

讲一下flink的作业执行流程.md 1KB

kafka实现高吞吐的原理.md 505B

spark的各种HA.md 2KB

spark中的广播变量.md 13KB

kafka怎样保证不重复消费.md 1KB

大数据生态圈还有哪些选举协议.md 2KB

hadoop1.x和hadoop2.x的区别.md 810B

hive内部表和外部表的区别.md 306B

spark.jpg 7KB

04.png 709KB

RDD的缓存级别都有哪些.md 901B

Spark的partitioner都有哪些.md 976B

hadoop2.jpg 78KB

flink是如何实现反压的.md 1KB

hdfs读流程.md 459B

kafka与sparkstreaming集成.md 2KB

RDD懒加载是什么意思.md 245B

hadoop1.x的缺点.md 301B

spark中cluster模式和client模式有什么区别.md 788B

flink的window分类.md 1KB

讲一下spark的运行架构.md 523B

yarn调度mr过程.jpg 334KB

说一下zk的通知机制.md 237B

HMaster宕机.md 386B

hdfs写流程.md 1KB

hive中join都有哪些.md 1KB

Spark中的算子都有哪些.md 2KB

hdfs创建一个文件的流程.md 680B

HDFS架构.md 3KB

hadoopHA介绍.md 1KB

scala.jpg 14KB

HiveUDF简单介绍.md 747B

讲一下宽依赖和窄依赖.md 332B

spark程序执行流程.jpg 31KB

kafka怎样保证不丢失消息.md 3KB

spark的stage是如何划分的.md 239B

RDD有哪些特点.md 1KB

一个spark程序的执行流程.md 1KB

HiveToMR.md 1KB

zk有几种部署模式.md 165B

flink具体是如何实现exactlyonce语义.md 3KB

spark的内存管理机制.md 1KB

hbase的HA实现.md 361B

ack有哪几种.md 675B

讲一下zookeeper在kafka中的作用.md 384B

flink中的sessionWindow怎样使用.md 951B

讲一下flinkonyarn的部署.md 2KB

分析一下一段spark代码中哪些部分在Driver端执行.md 607B

讲一下kafk的架构.md 3KB

spark从提交一个jar到最后返回结果.md 1KB

sparkShuffleWriter.jpg 73KB

hive的metastore的三种模式.md 397B

oozie.jpg 16KB

hadoop.jpg 11KB

Yarn架构.md 3KB

stageDivide.jpg 132KB

flink中的时间概念.md 2KB

kafka有几种数据保留策略.md 137B

03.png 697KB

如何清理过期数据.md 2KB

spark的shuffle介绍.md 4KB

hive.jpg 7KB

讲一下hbase的存储结构.md 2KB

如何通过offset寻找数据.md 734B

启动hadoop集群会分别启动哪些进程.md 1KB

hadoop1.jpg 106KB

获取每个用户的前14次的数据.md 821B

Yarn调度MapReduce.md 1KB

kafka与其他消息组件对比.md 3KB

讲一下hbase读数据的流程.md 1KB

spark2.0为什么放弃了akka而用netty.md 785B

Hive中大表join小表的优化方法.md 150B

flink的部署模式都有哪些.md 203B

yarn.gif 32KB

hive四种排序方式的区别.md 1KB

kafka可以脱离zookeeper单独使用吗.md 166B

zookeeper是什么.md 280B

讲一下spark的几种部署方式.md 3KB

02.png 637KB

MapReduce过程.md 2KB

spark有哪几种join.md 1012B

讲一下leader 选举过程.md 5KB

zookeeper.jpg 21KB

hbase如何设计rowkey.md 2KB

hadoop的常用配置文件有哪些.md 895B

1条message中包含哪些信息.md 1KB

讲一下Hbase架构.md 973B

flink的window实现机制.md 4KB

kafka同时设置了7天和10G清除数据.md 228B

讲一下flink的运行架构.md 1KB

按照学生科目取每个科目的TopN.md 520B

共 126 条

sleepsoft

粉丝: 41
资源: 4634

大数据面试题全解析：Spark、Flink、Hadoop等技术要点

Big-Data-Interview:大数据面试知识点

Java版水果管理系统源码-bigdata-interview:2021年超全超详细的最新大数据开发面试题，附答案解析，大数据面试题，看这一套

big-companies-interview-questions：在Big Companies and Startups中以前问过的采访问题的精选列表

CheckChe0803#BigData-Interview#kafka与其他消息组件对比1

CheckChe0803#BigData-Interview#kafka怎样保证不丢失消息1

CheckChe0803#BigData-Interview#kafka怎样保证不重复消费1

欧拉公式求圆周率的matlab代码-dev-interview-study-guide:开发面试学习指南

CheckChe0803#BigData-Interview#spark从提交一个jar到最后返回结果1

lhvubtqn#big-data-interview#讲一下hbase的写数据的流程1

wanggangkun#Big-Data-Interview#12. Impala和hive的查询有哪些区别1

最新资源