大数据实战：网站分析与框架调度系统构建

需积分: 0 110 浏览量更新于2024-08-04 1 收藏 1.17MB DOCX 举报

"该资源是网易大数据工程师的一份实验报告，名为'网站分析大数据框架调度-火影启源1'，由云课堂用户火影启源于2019年2月25日完成。实验主要涉及大数据调度框架，包括Flume数据同步，MapReduce任务配置，Sqoop数据同步以及Hive的调度与分析。" 在这次实验中，火影启源首先通过Flume实现了数据的自动同步。Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。实验要求使用Flume将指定文件同步到HDFS，设置事件归档时间为1小时，存储格式为lzo，且在HDFS上按天分文件夹存储，避免所有数据集中在单一文件夹。第二步，配置MapReduce任务，将日志解析到Hive表中，按照日期分区。这涉及到日志的清洗和处理，以及对Hive分区表的管理，确保每个分区只包含对应日期的数据。此外，选做任务是将解析后的文件存储为Parquet格式，这是一种高效存储和查询的列式存储格式。接着，实验转向了使用Sqoop同步MySQL数据到Hive。 Sqoop是一个用于在Hadoop和传统数据库间进行数据迁移的工具。实验要求同步product、member、order三表或全库，并设置每日全量同步新分区。实验还提出了一个挑战，即设计一个方案使得所有表可以在同一任务中同步，且每个Map任务处理的数据量相对均匀。在Hive调度部分，实验要求计算每日的PV、UV、订单量、收入以及注册用户数，这需要对Hive SQL有深入理解，包括如何从不同数据源提取信息。同时，需要计算访问特定页面的用户中，在一定时间内完成购买的转化率，以及支持不同页面类型和时间间隔的转化率分析。最后，需要计算每个商品每天的PV和UV，并将结果存储到新的Hive表中。这个实验全面涵盖了大数据处理中的多个环节，包括数据采集、处理、存储和分析，对于理解大数据框架的工作流程和实际应用具有很高的参考价值。

网易：大数据工程师实验报告

云课堂昵称：火影启源实验日期：

2019-02-25

一、实验题目

大数据调度框架（大作业）

二、实验要求

【第一步】通过 flume 教学视频中给定的文件地址，启动 flume 将文件自动同步到 HDFS

同步要求：

1、将文件归档的事件设置为 1 个小时

2、归档文件存储格式设置 lzo

3、HDFS 的文件按天分文件夹进行存储，不能全部同步到一个文件夹中

【第二步】配置 mr 任务并依赖 flume 任务

1、通过教学视频里面的代码，将日志文件解析到 hive 表中每天对应的分区中（具体的操作步骤不限制有

学员自己设计）

2、查看每天分区日志里面是否有其他天的日志

3、假设当天分区存在其他天的日志，请设计一个方案保证当天的分区只能有当天的数据，并且保证所有

的数据不会有丢失

（不能每次都扫描所有的日志）

4、选做：将日志解析的文件存储为 parquet 文件类型

【第三步】配置 sqoop 任务，mysql 同步到 hive

1、通过视频中的 mysql 配置，通过 sqoop 命令行显示 mysql 里面有多少数据表

2、通过 azkaban 配置 sqoop 任务，将 product、member、order 三表同步到 hive 的表（或者全库同步）

同步要求：

（1）每天设置全量同步相关数据

（2）每天设置一个新的分区

（3）同步思考（不强制要求作答，强烈希望同学作答，教学知识是可以覆盖的）

如果需要你写一个方案，只要指定数据源数据库，数据源表和输出源 hive 库输出源表名，通过你的方案

可以实现所有表在一个任务中就可以实现同步，并且每个 map 的数据是相对均匀的

下载后可阅读完整内容，剩余7页未读，立即下载

开眼旅行精选

粉丝: 19
资源: 327

大数据实战：网站分析与框架调度系统构建

佛山岭南天地D地块公寓酒店消防系统调试详案

蛮牛启源服务端课程资料：MySQL与Apache安装指南

MySQL海量数据存储与优化实战教程

启源装备：首次公开发行股票并在创业板上市招股说明书.PDF

启源篮球俱乐部章程.doc

蛮牛启源课程资料 (服务端)

启源病历书写系统v6.8共享版

,结构与工艺启源资料.ppt

启源横剪线安全操作规程.docx

启源SH十挡level2专业版

最新资源