广州-唯品会-Java大数据开发面试真题

需积分: 5 122 浏览量更新于2023-11-23 2 收藏 419KB PDF 举报

广州-唯品会-Java大数据开发面试真题是指唯品会公司面向Java大数据开发职位的面试问题。在面试中，考官可能会对候选人的技术深度、大数据处理能力和解决问题的能力进行评估。候选人需要展示对大数据生态系统的理解，如如何处理海量数据、优化查询性能以及如何构建可靠的分布式系统。准备充分且清晰表达技术思路是成功的关键。通过在面试中展现出色的大数据开发能力，候选人有机会在唯品会这个知名电商企业中获得Java大数据开发职位，为公司的数据处理和分析工作做出贡献。其中，面试问题可能涵盖以下内容： 1. Kafka的消息结构：一个Kafka的消息由一个固定长度的header和一个变长的消息体body组成。header部分由一个字节的magic和四个字节的CRC32构成，如果magic值为1，则在magic和crc32之间还有一个字节的attributes，用于保存一些相关属性。body是由N个字节构成的消息体，包含了具体的key/value消息。 2. 查看Kafka的offset：在0.9版本以上，可以使用最新的Consumer client客户端，通过consumer.seekToEnd()/consumer.position()来获得当前最新的offset。 3. Hadoop的shuffle过程：Map端的shuffle过程会处理输入数据并产生中间结果，这些结果会先写入本地磁盘，而不是HDFS。每个Map的输出会先写入内存缓冲区，当达到设定的阈值时，系统会启动一个线程将缓冲区的数据写入磁盘，这个过程叫做spill。在spill写入之前，会进行二次排序，首先根据数据所属的partition进行排序，然后在每个partition中的数据按key进行排序。partition的目的是将记录划分到不同的Reducer。

ne 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mes

os 环境，也是很方便部署的。

standalone(集群模式)：典型的 Mater/slave 模式，不过也能看出 Master 是有单点故障的；

Spark 支持 ZooKeeper 来实现 HA

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spar

k 负责任务调度和计算

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，

Spark 负责任务调度和计算

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon 的 S

3;Spark 支持多种分布式存储系统：HDFS 和 S3

5、HDFS 读写数据的过程

读：

1、跟 namenode 通信查询元数据，找到文件块所在的 datanode 服务器

2、挑选一台 datanode（就近原则，然后随机）服务器，请求建立 socket 流

3、datanode 开始发送数据（从磁盘里面读取数据放入流，以 packet 为单位来做校验）

4、客户端以 packet 为单位接收，现在本地缓存，然后写入目标文件

写：

1、根 namenode 通信请求上传文件，namenode 检查目标文件是否已存在，父目录是否

存在

2、namenode 返回是否可以上传

3、client 请求第一个 block 该传输到哪些 datanode 服务器上

剩余14页未读，继续阅读

鳄鱼儿

粉丝: 1w+
资源: 69

广州-唯品会-Java大数据开发面试真题

揭秘唯品会Java大数据开发面试真题：Kafka消息结构与Hadoop Shuffle详解

唯品会Java大数据开发工程师面试题解析

2020唯品会Java大数据面试：Kafka消息结构与Hadoop Shuffle详解

大厂面试真题广州-唯品会-Java大数据开发工程师

java面试——广州-唯品会-Java大数据开发工程师.zip

【Java面试资料】-（机构内训资料）广州-唯品会-Java大数据开发工程师

2021Java大厂面试题——大厂真题之唯品会-Java大数据开发工程师.pdf

大厂真题之唯品会-Java大数据开发工程师.pdf

2020年唯品会-Java大数据开发工程师.pdf

20210714-中泰证券-唯品会-VIPS.US-唯品会：一门被低估的“小”生意.pdf

最新资源