大数据面试题全解析:Spark、Flink、Hadoop等技术要点

需积分: 9 1 下载量 92 浏览量 更新于2024-12-24 收藏 6.67MB ZIP 举报
资源摘要信息:"大数据面试题汇总与答案分享" 标题:"BigData-Interview:" 描述:"发一条内推消息,社招、实习生欢迎投递。字节跳动校招内推码: 3UWFMRS。投递链接: 社招: 大数据面试题汇总与答案分享 Spark Flink HBase Kafka Zookeeper 一、Hadoop HDFS架构 Yarn架构 MapReduce过程 Yarn 调度MapReduce hdfs写流程 hdfs读流程 hdfs创建一个文件的流程 hadoop1.x 和hadoop 2.x 的区别 hadoop1.x的缺点 hadoop HA介绍 hadoop的常用配置文件有哪些,自己实际改过哪些? 小文件过多会有什么危害,如何避免? 启动hadoop集群会分别启动哪些进程,各自的作用 讲一下环形缓冲区的概念 二、Hive hive 内部表和外部表的区别 hive中 sort by / order by / cluster by / distribute by 的区别 hive的me" 标签:"kafka spark yarn hadoop bigdata interview hbase hdfs mapreduce interview-questions flink " 文件名称列表:"BigData-Interview-master" 知识点详细说明: 一、Hadoop Hadoop是一个由Apache基金会开发的分布式存储和计算框架。Hadoop的核心组件包括HDFS,YARN和MapReduce。 1. HDFS架构:HDFS是一个高容错的系统,适合存储大量的数据。它将数据分割成块并存储在不同的节点上。NameNode是HDFS的核心组件,负责管理文件系统的命名空间。DataNode存储实际数据。 2. Yarn架构:YARN是一个资源管理平台,负责调度和监控集群资源。YARN中的ResourceManager管理整个系统的资源使用,而每个节点上的NodeManager负责监视和管理该节点的资源。 3. MapReduce过程:MapReduce是一种编程模型,用于处理大规模数据集。它包括Map和Reduce两个阶段。Map阶段读取输入数据并生成中间键值对,Reduce阶段对这些键值对进行合并。 4. Yarn 调度MapReduce:在Yarn环境中,MapReduce作业需要通过ResourceManager来请求资源,并在获取资源后在相应的NodeManager上执行。 5. hdfs写流程:数据首先被写入客户端的本地缓冲区,然后由DataNode接收并写入本地文件系统。 6. hdfs读流程:客户端首先与NameNode通信获取数据块的位置,然后直接与存储数据的DataNode通信,获取数据块并读取数据。 7. hdfs创建一个文件的流程:客户端首先向NameNode发送创建文件的请求,NameNode创建文件元数据,客户端然后将数据写入DataNode。 8. hadoop1.x 和hadoop 2.x 的区别:Hadoop2.x引入了YARN资源管理器和HDFS联邦,提高了集群的可伸缩性和资源利用率。 9. hadoop1.x的缺点:Hadoop1.x的缺点是它的扩展性较差,资源管理能力有限,且单点故障。 10. hadoop HA介绍:Hadoop的高可用性配置允许NameNode在出现故障时快速切换到备份节点。 11. hadoop的常用配置文件有哪些,自己实际改过哪些:主要配置文件包括hdfs-site.xml, core-site.xml, mapred-site.xml和yarn-site.xml。具体改动可能会涉及到集群的存储和计算资源的配置。 12. 小文件过多会有什么危害,如何避免:小文件会过多占用NameNode的内存,导致性能瓶颈。避免策略包括合并小文件和使用SequenceFile等。 13. 启动hadoop集群会分别启动哪些进程,各自的作用:启动的进程包括NameNode, DataNode, ResourceManager, NodeManager等,各自负责集群的命名空间管理、数据存储、资源管理和任务调度。 14. 讲一下环形缓冲区的概念:环形缓冲区是一种数据结构,用于高效地处理和存储数据流。在Hadoop中,它被用于处理MapReduce作业的中间数据。 二、Hive Hive是建立在Hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。 1. hive 内部表和外部表的区别:内部表的数据存储在Hive的数据仓库目录中,删除表时数据会一并删除;外部表的数据存储在Hadoop文件系统中,删除表时数据不会被删除。 2. hive中 sort by / order by / cluster by / distribute by 的区别:sort by保证全局排序,order by保证全局排序并且只有一个Reducer,cluster by是sort by的一种简写形式,distribute by用于控制Map阶段输出数据的分布。 3. hive的具体使用方法和配置等信息未在描述中提及,但涉及Hive的使用通常包括了解如何通过HiveQL进行数据查询、数据导入导出、表的创建和管理等操作。 由于描述中并未提供完整的Hive相关信息,只能根据提供的描述和标签,对Hadoop和相关技术的面试知识点进行了总结。如果有更详细的信息,可以进一步补充。