大数据技术与架构选择题解析
需积分: 10 11 浏览量
更新于2024-08-13
收藏 25KB DOCX 举报
"该文档是关于大数据治理的测试题目及答案,主要涵盖了大数据的关键技术、高级处理技术如Spark与Hadoop的比较、流式计算的理解、大数据引擎优化、高吞吐架构、服务伸缩性、排序算法以及分布式事务处理和集群调优等方面的知识。此外,还涉及了分布式系统的ID生成系统和Yarn资源调度平台的相关概念。"
**大数据关键技术**
大数据处理技术包括数据技术、大数据安全技术、大数据质量技术以及海量数据的存储技术。其中,虚拟化技术和云计算平台技术并不属于大数据的关键技术。
**Spark与Hadoop的对比**
Spark相比Hadoop MapReduce(MR)更高效,原因在于它支持DAG计算模式、中间结果可以缓存而不是写入磁盘、提供高度抽象的API。Spark并不是采用MPP架构,而是基于弹性分布式数据集(RDD)的并行计算模型。
**流式计算**
流式计算用于满足高效实时场景,它可以连续计算并立即处理数据,不需要等待所有数据汇集。实时计算是快速的批量处理,而流式计算则强调事件驱动和连续性,计算完成后数据通常会被丢弃。
**大数据引擎性能优化**
优化手段包括任务调度时的本地化计算、减少数据网络传输、列式存储、轻量级压缩、向量化引擎技术以及细粒度容错等。MPP架构有助于提升性能,避免落后节点影响整体查询速度。
**高吞吐架构**
高吞吐架构涉及消息中间件、配置管理和服务组件化,但不包含服务的高可用性。服务可以通过增加服务器来扩展,集群服务器之间通常对等且无状态,不同业务之间耦合度低,负载均衡设备用于发现和管理服务。
**排序算法**
处理大数据时常见的排序算法包括快速排序、堆排序、归并排序和桶排序,这些都是大数据处理中的基础工具。
**分布式事务处理**
在大数据环境下,分布式事务处理可以采用Raft和Paxos等一致性算法,但不包括JDBC,因为JDBC是Java数据库连接标准,主要用于应用程序与数据库之间的交互,而不是分布式事务。
**集群调优**
有效的集群调优包括合理设置Stage并行度、防止数据倾斜、减少shuffle操作,而不包括减少预申请资源和存储的预读功能。
**ID生成系统**
分布式系统的ID生成系统要求全局唯一性、高性能、低延迟,但不一定要求ID没有规律,以避免主机差异性考虑。
**Yarn**
Yarn作为一个资源调度平台,管理应用程序的资源分配,其架构包括Master和Standby节点,但它并不负责理解用户提交程序的运行机制。
371 浏览量
210 浏览量
2022-11-17 上传
2022-07-06 上传
2022-10-23 上传
106 浏览量
2883 浏览量
2021-10-08 上传
181 浏览量
test001a
- 粉丝: 2
- 资源: 14