岭南师范学院大数据核心技术期末试题详解

0 下载量 41 浏览量 更新于2024-08-03 收藏 132KB DOC 举报
本资源是一份岭南师范学院2015-2016学年度第二学期期末考试试题A卷,主要涉及大数据核心技术的相关内容。试卷包含三个部分:单项选择题、判断题和简答题。 1. 大数据技术的特点: - Volume(大体量):大数据的数据量非常庞大,可以从数百TB到PB或EB级别,强调数据的海量性。 - Variety(多样性):数据来源广泛,包括多种格式和形态,如结构化、半结构化和非结构化数据。 - Velocity(时效性):对实时性和响应速度有高要求,数据需要在短时间内进行处理和分析。 - Veracity(准确性):处理大数据时,数据的准确性和完整性至关重要,需要确保结果可靠性。 - Value(大价值):大数据蕴含着巨大的商业价值,通过分析挖掘可以发现新的业务洞察和竞争优势。 2. Hadoop集群启动顺序: - 启动Hadoop时,按照`namenode` -> `datanode` -> `secondarynamenode` -> `resourcemanager` -> `nodemanager`的顺序进行。 3. HBase技术特点: - 列式存储:以列的形式存储数据,适合大量读取操作。 - 稀疏多维映射表:表结构灵活,适合非稠密数据。 - 一致性:提供严格的读写一致性,保证数据的一致性。 - 高速性能:设计用于高效的数据读写。 - 扩展性:线性扩展,随着硬件增加而性能提升。 - 海量数据支持:处理大规模数据集。 - 数据分片:自动进行数据分布,提高容错性。 - 故障恢复:具备自我检测和恢复机制。 - 集成性:与HDFS和MapReduce等其他Hadoop组件紧密集成。 4. Hive数据仓库中的查询: - 创建了一个外部表`sogou_ext`,包含多个字段,如时间戳、用户ID、关键词等。查询语句展示了如何计数独立的用户ID,即`SELECT count(DISTINCT uid) FROM sogou_ext;`。 这份试题涵盖了大数据基础概念、Hadoop生态系统以及Hive查询语言的基础应用,旨在测试学生对大数据核心技术的理解和实践能力。通过解答这些问题,考生将能够展示他们对大数据处理流程、数据存储模式、数据处理工具和数据仓库管理的掌握程度。