Hadoop测试题
Hadoop 测试题 Hadoop 测试题主要涵盖了 Hadoop 的基本概念、架构、组件、应用场景等方面的知识点,本节对测试题的每个问题进行详细的解释和分析。 HDFS 1. HDFS 中,NameNode 负责管理文件系统的命名空间,DataNode 负责存储数据块。因此,正确答案是 a) NameNode。 2. HDFS 中,Block 的默认副本数量是 3 份,用于保证数据的可用性和可靠性。因此,正确答案是 a) 3 份。 Hadoop 架构 3. SecondaryNameNode 通常与 NameNode 在同一个节点上启动,负责合并编辑日志,减少 NameNode 的启动时间。因此,正确答案是 a) SecondaryNameNode。 4. Hadoop 的作者是 Doug Cutting,因此,正确答案是 c) Doug cutting。 MapReduce 5. HDFS 的默认 Block Size 是 64MB,可以根据需要进行调整。因此,正确答案是 b) 64MB。 6. 集群的最主要瓶颈通常是磁盘,因为磁盘 I/O 的速度是最慢的。因此,正确答案是 c) 磁盘。 NameNode 7. SecondaryNameNode 的作用是帮助 NameNode 合并编辑日志,减少 NameNode 的启动时间。因此,正确答案是 c) 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间。 集群管理 8. 集群的管理工具包括 Puppet、Pdsh、Cloudera Manager 等。因此,正确答案是 abc) Puppet、Pdsh、Cloudera Manager。 9. 机架感知的配置可以使得数据写入到不同机架的 DataNode 中,提高数据的可用性和可靠性。因此,正确答案是 b) 写入数据的时候会写到不同机架的 DataNode 中。 10. 客户端上传文件时,会将文件切分为 Block,然后上传到 DataNode 中。因此,正确答案是 c) Client 端将文件切分为 Block,依次上传。 Hadoop 模式 11. Hadoop 的运行模式包括单机版、伪分布式、分布式等。因此,正确答案是 abc) 单机版、伪分布式、分布式。 Cloudera 12. Cloudera 提供了多种安装 CDH 的方法,包括 Cloudera Manager、Tar ball、Yum、Rpm 等。因此,正确答案是 abcd) Cloudera manager、Tar ball、Yum、Rpm。 判断题 13. Ganglia 不仅可以进行监控,还可以进行告警。因此,正确答案是 √。 14. Block Size 是可以修改的。因此,正确答案是 ×。 15. Nagios 可以监控 Hadoop 集群。因此,正确答案是 ×。 16. 如果 NameNode 意外终止,SecondaryNameNode 不会接替它使集群继续工作。因此,正确答案是 ×。 17. Cloudera CDH 是需要付费使用的。因此,正确答案是 ×。 18. Hadoop 是用 Java 开发的,但 MapReduce 支持多种语言编写。因此,正确答案是 ×。 19. Hadoop 支持数据的顺序读写,但不支持随机读写。因此,正确答案是 ×。 20. NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。因此,正确答案是 √。 21. NameNode 本地磁盘保存了 Block 的位置信息。因此,正确答案是 √。 22. DataNode 通过长连接与 NameNode 保持通信。因此,正确答案是 √。 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。因此,正确答案是 √。 24. Slave 节点的磁盘大小越大越好。因此,正确答案是 √。 25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。因此,正确答案是 √。 26. Hadoop 默认调度器策略为 FIFO,并支持多个 Pool 提交 Job。因此,正确答案是 √。 27. 集群内每个节点都应该配 RAID,以避免单磁盘损坏,影响整个节点运行。因此,正确答案是 √。 28. HDFS 有多个副本,因此 NameNode 是不存在单点问题的。因此,正确答案是 √。 29. 每个 map 槽就是一个线程。因此,正确答案是 ×。 30. Mapreduce 的 input split 就是一个 block。因此,正确答案是 ×。 31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 服务。因此,正确答案是 √。 32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存,默认是 200MB,而不是 200 GB。因此,正确答案是 ×。 33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode 执行“Hadoop namenode -format”操作格式化磁盘。因此,正确答案是 √。