"深入理解大数据面试题与HDFS运行原理"

需积分: 0 129 浏览量更新于2024-01-28 收藏 130KB DOCX 举报

本文总结了大数据相关的面试题及答案，同时介绍了HDFS的运行原理和MapReduce的运行原理。首先是关于HDFS的运行原理。HDFS是一个分布式文件系统，它自动保存多个副本并支持移动计算。然而，HDFS也存在一些缺点，比如小文件存取会占用namenode内存，写入只支持追加而不支持随机修改。HDFS存储的逻辑空间称为block，文件的权限类似于linux。整体架构分为三种节点，即NN（NameNode）、SNN（Secondary NameNode）和DN（DataNode）。NN负责读写操作保存metadata（包括所有者、权限和block信息），SNN负责辅助NN合并fsimage和edits来减少NN的启动时间，DN负责存储数据并向NN发送心跳以保持联系。此外，NN保存的metadata在HDFS启动后加载到计算机内存，除block位置信息的metadata保存在OS文件系统中的fsimage文件中，对metadata的操作日志保存在OS文件系统中的edits文件中。block位置信息是由DN上报NN后再加载到内存中的。HDFS还有一个安全模式，即在NN完全加载metadata之前，在此期间不能写入文件，DN会检查各个block的完整性并修复。接下来是关于MapReduce的运行原理。MapReduce是一种离线计算框架，其过程分为split和map。首先，输入数据会被split成多个split，每个split会被一个map任务处理。MapReduce框架会并行执行map任务，其中map任务的输出会根据key的值进行分组，然后将每组数据送到不同的reduce任务中去。每个reduce任务会处理一个分组的数据并生成最终的输出。整个MapReduce过程涉及到map任务、reduce任务和中间数据的传输。综上所述，本文介绍了大数据相关的面试题及答案，以及HDFS的运行原理和MapReduce的运行原理。对于准备参加大数据面试的人来说，这些内容提供了重要的参考和学习资料。

出现在map阶段的map方法后,shuffle过程

请列出你在工作中使用过的开发mapreduce的语言

java,hive,(python,c++)hadoopstreaming

请简述mapreduce中的combine和partition的作用

答：combiner是发生在map的最后一个阶段，其原理也是一个小型的reducer，主要作用是减少输

出到reduce的数据量，缓解网络传输瓶颈，提高reducer的执行效率。

partition的主要作用将map阶段产生的所有kv对分配给不同的reducer task 处理，可以将

reduce阶段的处理负载进行分摊

hive内部表和外部表的区别

Hive 向内部表导入数据时，会将数据移动到数据仓库指向的路径；若是外部表，数据的具体

存放目录由用户建表时指定

在删除表的时候，内部表的元数据和数据会被一起删除，

而外部表只删除元数据，不删除数据。

这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

Hbase的rowKey怎么创建比较好?列簇怎么创建比较好?

剩余35页未读，继续阅读

栾还是恋

粉丝: 37
资源: 5321

"深入理解大数据面试题与HDFS运行原理"

大数据 40 道面试题及答案.docx

大数据 50 道面试题及答案.docx

大数据 76 道面试题及答案.docx

基于PHP+Mysql实现的酒店客房管理系统

springboot项目基于Hadoop的高校固定资产管理系统研究与实现_hot.zip

基于AlexNet深度学习的11种中草药智能识别系统【python源码+c++ qt5界面+数据集+训练代码】目标识别、深度学习实战

springboot项目基于协同过滤算法的私人诊所管理系统_to.zip

彩色铅笔形PPT柱形比例图-2.ppt

立体纸条效果时间轴PPT素材-4.ppt

Z源逆变器闭环仿真模型，并网，采用L滤波器

最新资源