"企业大数据面试题及手写快排;Zookeeper选举及脑裂问题解析"

需积分: 0 3 下载量 46 浏览量 更新于2023-12-25 收藏 352KB DOCX 举报
大数据面试题目总结: 1. 分布式算法: 有分布式排序算法,分布式搜索算法,以及分布式计算算法等。 2. HDFS源码的理解: HDFS是Hadoop分布式文件系统的简写,是一种适合大数据存储和处理的分布式文件系统,读源码能够帮助理解其设计思想和实现原理。 3. MapReduce的任务和HDFS结合: MapReduce可以利用HDFS来存储输入数据和输出数据,任务执行时会从HDFS读取数据和写入数据。 4. 2PC的协议: 2PC是指二阶段提交协议,是一种用于实现分布式事务的协议,可以确保所有参与者都能同意是否要提交事务。 5. 2PC阻塞发生的时候: 2PC会在准备提交阶段发生阻塞,如果协调者节点发生了故障或者通信出现了问题。 6. HDFS写入数据时的故障处理: 客户端down掉可以重新发送写请求,DataNode down掉会复制数据到其他节点,namenode down掉可以通过热备份的方式快速切换到备用的namenode。 7. ZAB写入避免阻塞的方法: ZooKeeper Atomic Broadcast(ZAB)可以通过提前选举leader节点来避免阻塞。 8. Paxos协议中节点的选取: 节点选取是靠多数派一致性原则来选择的,节点角色不需要完全一样的逻辑。 9. Paxos协议在HDFS中的使用: 可以用来实现HDFS元数据的一致性,需要最少3台机器运行这个协议。 10. Paxos协议的主要目的和Hadoop中的例子: Paxos协议的主要目的是确保多个节点之间的一致性,比如在Hadoop中用来同步不同节点上的元数据。 11. HDFS中的三副本一致性设计: 会在写入数据时进行数据同步,确保每个副本的数据一致性。 12. HDFS写入数据的一致性保证: 通过同步数据和复制数据的方式来保证写入数据的一致性。 13. 一致性hash的加入节点后保证相对的balance状态: 加入节点后,会通过虚拟节点的方式来均匀的分配数据,从而保证相对的balance状态。 14. 适用到一致性hash的领域: 适用于分布式系统中的负载均衡和数据分布的问题。 15. 手写树相关的算法: 包括二叉树的层次遍历和其变种算法等。 16. JVM内存布局的了解: JVM内存分为堆内存和方法区以及Java栈等。 以上面试题目涵盖了大数据领域的各类知识,包括数据存储,分布式系统,算法等方面,对于准备面试或者深入了解大数据领域的人来说,都是一个非常好的学习资源。