Hive实战：构建YouTube视频分析系统

166 浏览量更新于2024-08-03 收藏 19.73MB DOCX 举报

在Hive实战项目中，目标是针对Youtube视频网站进行一系列的常规指标统计，包括但不限于视频观看数的TopN排行、视频类别热度、关联视频类别排名、特定类别内的热门视频和流量等。项目的核心步骤分为数据结构设计、ETL（Extract, Transform, Load）过程和数据预处理。 1. 数据结构设计项目涉及两个主要表：视频表（Table 6-13，存储视频信息，如视频ID、名称、观看次数、类别等）和用户表（Table 6-14，包含用户ID和相关信息）。数据结构的设计是为了支持后续的数据分析和查询。 2. ETL过程 ETL（Extract, Transform, Load）是数据清洗和预处理的关键环节。原始数据存在多个类别和相关视频的嵌套表示，需要进行清洗和重组。例如，使用"&"符号去除空格并合并类别，使用"\t"来分隔相关视频ID。这涉及到一个名为ETLUtil的工具，用于执行数据提取和转换操作。Mapper阶段负责具体的数据处理，Job类则负责整个作业的调度和执行。 3. 创建表与数据导入项目首先创建了两个原始数据表（youtube_ori和youtube_user_ori）以及对应的orc（列式存储格式）版本（youtube_orc和youtube_user_orc）。这些表是用于存放清洗后的数据，便于后续的高效查询和分析。原始数据被清洗后插入到orc表中，以利用orc格式的优势提高性能。 4. 准备工作完成数据结构和ETL之后，项目进入了准备阶段。这包括确保数据库环境的正确设置，如创建所需的Hive表，并将ETL处理后的数据导入到正确的表中，以便后续的分析和报表生成。总结来说，这个Hive实战项目通过MapReduce技术清洗和处理Youtube视频数据，将其导入到HDFS（Hadoop分布式文件系统），然后利用Hive进行高效的数据查询和统计分析，最终生成各类TopN排行榜和类别热度数据。同时，还涉及到与MySQL的交互，可能是通过Sqoop工具将部分数据导出或备份。这个项目不仅锻炼了数据处理能力，还展示了如何结合不同组件实现大规模数据分析。

2．ETL 之 Mapper

package video;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class VideoETLMapper extends Mapper<Object, Text, NullWritable, Text>{

Text text = new Text();

@Override

protected void map(Object key, Text value, Context context) throws IOException,

InterruptedException {

String etlString = ETLUtil.oriString2ETLString(value.toString());

if(StringUtils.isBlank(etlString)) return;

text.set(etlString);

context.write(NullWritable.get(), text);

}

3．ETL 之 Job

package video;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

public class VideoJob extends Configured implements Tool {

public static void main(String[] args) {

try {

new VideoJob().run(args);

} catch (Exception e) {

e.printStackTrace();

剩余11页未读，继续阅读

xiang_zi_gege

粉丝: 21
资源: 2

Hive实战：构建YouTube视频分析系统

含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz

apache-hive-2.1.1-bin.tar

sqoop import --connect jdbc:mysql://localhost:3306/test1 --username hive --password hive --table user --hive-import --hive-table user

配置Hadoop的Hive直连数据库模式时出现/lib/hive-exec-*.jaron Jar: /opt/apache-hive-3.1.3-bin该怎么解决

Sqoop 没有--hive-metastore-uri

Missing Hive Execution Jar: /opt/module/apache-hive-1.2.1-bin/lib/hive-exec-*.jar

hive-jdbc-uber-jar 下载

sqoop --hive-drop-import-delims 没效果

Missing Hive Execution Jar: /usr/local/hive/hive-3.1.3/lib/hive-exec-*.jar

hive -bash: /opt/apache-hive-2.3.3-bin/bin/hive: 权限不够

最新资源