2021大数据面试精华:Zookeeper与HBase核心知识点

需积分: 5 0 下载量 119 浏览量 更新于2024-08-03 收藏 6KB MD 举报
本文档是一份关于2021年大数据面试题的汇总,包含了常见的面试问题及其答案。以下是主要内容概述: 1. Zookeeper理解:Zookeeper是一个分布式协调服务,主要用于解决分布式系统中的分布式一致性问题,如单点故障恢复。它不是数据存储工具,而是作为数据状态的监控器,确保数据状态的变化能够被及时跟踪,从而支持集群的管理和监控。 2. 修改/etc 文件问题:提到的/etc目录下的几个文件,如/etc/profile用于配置环境变量,允许在不同目录下执行Hadoop命令;/etc/sudoers定义了sudo命令的权限;/etc/hosts和/etc/sysconfig/network管理网络配置;/etc/inittab负责启动和停止系统服务。这些文件的修改通常是为了解决与系统配置相关的任务,例如设置环境变量或网络连接。 3. HBase宕机处理:HMaster和HRegionServer的角色分工中,HRegionServer负责具体的业务处理,而HMaster负责集群管理。HMaster宕机时,可以通过Zookeeper的Master Election机制自动选择新的领导者,确保服务的连续性。HMaster宕机不会导致数据丢失,因为数据持久化在HDFS上。 4. Offset概念:在消息队列系统中,offset是记录每个消息在分区中的位置,由8个数字表示,用于区分分区中的消息。每个分区由多个logfile(segment)组成,最小offset标识一个segment的第一个消息。 5. HBase表的特点: - 大规模数据处理:支持上亿行和上百万列。 - 无模式设计:每个行有唯一的主键和可变列,列族可以动态添加。 - 面向列存储和权限控制:列族独立,对null值不占用存储空间。 - 数据版本化:支持多版本,时间戳作为版本标识。 - 数据类型限制:仅限于字节数组(byte[])。 129.hbase表的逻辑结构强调了行和列族的概念,表由行构成,列族用于组织和存储数据,提供了灵活的列设计和权限管理。 这份文档对于准备大数据领域的面试者来说,提供了实用的问题和解答,涵盖了Zookeeper在分布式系统中的作用、基础系统配置、HBase架构细节以及表设计的关键要素。