大数据技术与架构选择题解析

需积分: 10 4 下载量 108 浏览量 更新于2024-08-13 收藏 25KB DOCX 举报
"该文档是关于大数据治理的测试题目及答案,主要涵盖了大数据的关键技术、高级处理技术如Spark与Hadoop的比较、流式计算的理解、大数据引擎优化、高吞吐架构、服务伸缩性、排序算法以及分布式事务处理和集群调优等方面的知识。此外,还涉及了分布式系统的ID生成系统和Yarn资源调度平台的相关概念。" **大数据关键技术** 大数据处理技术包括数据技术、大数据安全技术、大数据质量技术以及海量数据的存储技术。其中,虚拟化技术和云计算平台技术并不属于大数据的关键技术。 **Spark与Hadoop的对比** Spark相比Hadoop MapReduce(MR)更高效,原因在于它支持DAG计算模式、中间结果可以缓存而不是写入磁盘、提供高度抽象的API。Spark并不是采用MPP架构,而是基于弹性分布式数据集(RDD)的并行计算模型。 **流式计算** 流式计算用于满足高效实时场景,它可以连续计算并立即处理数据,不需要等待所有数据汇集。实时计算是快速的批量处理,而流式计算则强调事件驱动和连续性,计算完成后数据通常会被丢弃。 **大数据引擎性能优化** 优化手段包括任务调度时的本地化计算、减少数据网络传输、列式存储、轻量级压缩、向量化引擎技术以及细粒度容错等。MPP架构有助于提升性能,避免落后节点影响整体查询速度。 **高吞吐架构** 高吞吐架构涉及消息中间件、配置管理和服务组件化,但不包含服务的高可用性。服务可以通过增加服务器来扩展,集群服务器之间通常对等且无状态,不同业务之间耦合度低,负载均衡设备用于发现和管理服务。 **排序算法** 处理大数据时常见的排序算法包括快速排序、堆排序、归并排序和桶排序,这些都是大数据处理中的基础工具。 **分布式事务处理** 在大数据环境下,分布式事务处理可以采用Raft和Paxos等一致性算法,但不包括JDBC,因为JDBC是Java数据库连接标准,主要用于应用程序与数据库之间的交互,而不是分布式事务。 **集群调优** 有效的集群调优包括合理设置Stage并行度、防止数据倾斜、减少shuffle操作,而不包括减少预申请资源和存储的预读功能。 **ID生成系统** 分布式系统的ID生成系统要求全局唯一性、高性能、低延迟,但不一定要求ID没有规律,以避免主机差异性考虑。 **Yarn** Yarn作为一个资源调度平台,管理应用程序的资源分配,其架构包括Master和Standby节点,但它并不负责理解用户提交程序的运行机制。