大数据面试精华：Flink技术挑战与实战经验

需积分: 0 125 浏览量更新于2024-06-29 收藏 879KB PDF 举报

本资源是一份关于大数据技术的面试真题集，包含了米哈游和美团外包两部分，主要聚焦于Flink和Spark的相关知识。以下是详细的知识点解析： 1. Flink的非barrier对齐：Flink的非barrier对齐指的是Flink流处理引擎中的一个特性，它允许任务之间的数据交换在没有显式同步点（barrier）的情况下进行，提高数据流动的效率。通过优化任务调度和数据传输，确保无阻塞的数据传递。 2. Flink内存管理：Flink内存管理涉及TaskManager和JobManager之间的内存分配，包括工作内存（用于存储中间结果）、溢写内存（当工作内存不足时，数据会被写入磁盘），以及持久性状态的存储方式。 3. Flink序列化机制：Flink支持多种序列化技术，如Kryo、Avro等，用于将数据转换为字节流进行网络传输，提高数据处理的性能。 4. 作业提交与参数设置：Flink支持两种提交作业方式，页面提交和客户端提交。页面提交通常在Flink Web UI上完成，而客户端提交则直接通过命令行或API。设置参数如并行度、检查点间隔、容错机制等对性能和恢复有重大影响。 5. Flink集群规模：面试者被问及集群规模，反映了对分布式系统理解和运维能力的考察，可能涉及集群的节点数量、资源分布、负载均衡等方面。 6. 作业提交流程与YARN交互：Flink作业提交时，会与YARN（Yet Another Resource Negotiator）进行交互，获取资源分配，协调任务调度，并与YARN的ApplicationMaster协作管理作业生命周期。 7. Flink checkpoint机制：Flink的checkpoint功能用于定期保存运行状态，确保在出现故障时可以快速恢复到最近的可接受状态。精准一次性消费是通过结合快照和时间窗口来实现的。 8. Flink状态管理：Flink的状态可分为两种：工作内存状态（在每个任务实例中）和持久性状态（存储在外部存储中，如HDFS）。不同的状态管理策略决定了数据的持久性和可靠性。 9. SparkContext工作原理：SparkContext是Spark的核心对象，它负责创建RDD（弹性分布式数据集）并执行操作。SparkContext处理初始化、配置、任务调度、数据分发等工作。 10. ConcurrentHashMap底层实现：这是Java并发编程中的一个重要数据结构，通过分段锁（Segment-based locking）和迭代器设计，保证高并发访问性能。 11. Watermark概念：在流处理中，Watermark用来跟踪数据的延迟，帮助系统处理乱序数据和实时性问题。它定义了一个假设的最新消息到达时间，使得系统可以识别出延迟的消息。 12. Flink Kafka集成：Flink通过KafkaSource和KafkaSink与Kafka集成，自动管理offset以保证消费一致性。Flink通常使用内部状态来保存offset信息。在美团外包部分，面试问题更侧重于实时数据处理和数仓建设： - 实时数据处理方向：强调了实时性需求，包括实时计算平台的选择（Spark Streaming到Flink的迁移）、窗口操作的应用场景、数据一致性挑战及解决方案。 - 数仓建模：涵盖了数据源选择、模型设计、数据同步策略、数据表分类、跨天支付处理、用户表的设计、数据分层架构、行为轨迹追踪以及DWS和DWT宽表的细节。 - 数据质量保障：尽管未能提供具体的监控框架，但提到应考虑数据质量监控作为保证数据准确性的关键环节。这份面试题集覆盖了从Flink技术基础到实际项目中的应用深度，旨在考察应聘者的理论知识、实践经验以及对实时数据处理和大规模数据分析系统的全面理解。

精确一次，至多一次，至少一次对

checkpoint

有什么影响

7. flink

里面异步

代码具体怎么写的，每一步具体描述出来

都用实时做了哪些任务

都是根据你的简历，然后给你场景，让你分析，不然你介绍项目，他很抠细节，面试官

年龄不大，

2,30

岁的样子。

学长二

1. 讲一下 kafka 中的各个组件？

2. 讲一下 kafka 中的分区？

3. isr 的作用？

4. 数据在 kafka 中是怎么被处理的？

5. habse 的架构？

6. 怎么获取 hbase 的数据？

7. 怎么设置 redis 中的过期时间以及 hbase 中怎么设置？

8. kafka 中的 ack 级别？

9. hbase 中 wal 的作用？以及怎么写数据？

10. 怎么设计 rowkey

11. 单例模式（手敲）

12. kafka 的 leader 挂了怎么办？

学长三：

1. 离线数仓分层的意义？

2. 维度建模的过程？

3. 退化维度？什么时候选择退化？什么时候不退化？

4. 拉链表怎么设计的？

5. 数仓里面事实表有哪些类型？以及他们的区别？

6. 累积型快照事实表怎么设计的？

7. udf，udtf 有用过吗？主要的使用场景是什么？

8. 开窗之后的 row_number 会产生数据倾斜嘛？底层使用的是什么 udf？

剩余105页未读，继续阅读

wuminsure

粉丝: 1
资源: 6

大数据面试精华：Flink技术挑战与实战经验

大数据技术之高频面试题

大数据技术高频面试题

大数据技术之高频面试题.pdf

大数据-互联网大厂面试真题附含答案高频面试题.pdf

大数据岗位大厂面试真题附含答案.rar

吐血推荐大数据高频面试题.pdf

c++工程师校招面试题库.pdf

南开大学-计控专业 考研 初试 复试 真题分析以及经验总结.zip

2019年BATJ最新面试414道题（含答案解析）.zip

面试八股文：阿巴阿巴巴巴吧

最新资源

南开大学-计控专业考研初试复试真题分析以及经验总结.zip