Hive数据清洗与分区操作：flux与dataclear表案例

需积分: 0 134 浏览量更新于2024-08-05 收藏 363KB PDF 举报

在Hive进行数据处理的过程中，主要涉及到以下几个关键步骤和知识点： 1. 数据清洗与字段选择：首先，目标是只保留必要的字段，如`url`, `urlname`, `ref`, `uagent`, `uvid`, `ssid`, `sscoutns`, `sstime`, 和 `cip`。这一步是为了精简数据，提高后续分析的效率。Hive允许通过`CREATE EXTERNAL TABLE`语句创建外部表`flux`，指定表结构（包括列名、数据类型和分隔符），并指定了存储位置。 2. 创建外部分区表： Hive的分区功能有助于管理和组织大量数据。通过`ALTER TABLE`命令，可以为`flux`表增加分区，例如添加`reportTime`为'2018-09-17'的分区，并指定其在HDFS上的存储路径。分区能加快查询速度，特别是当数据按时间或其他维度分片时。 3. 定义新表：数据清洗表`dataclear`：接下来，需要创建一个新的表`dataclear`，用于存放清洗后的数据。这个表同样具有分区，且列选择和`flux`表保持一致。通过`INSERT INTO`语句，将清洗后的数据（如`stat_uv`, `stat_ss`字段拆分成多个单独的列）从`flux`表中选择并插入到`dataclear`表中，条件是`reportTime`为'2018-09-17'。 4. 数据清洗操作：在`dataclear`表的创建和填充过程中，进行了数据清洗。例如，`split`函数用于将`stat_ss`字段按照下划线 `_` 进行拆分，可能分别获取PV（page views，页面浏览量）的不同子指标。这个过程可能涉及对统计信息的解析和提取，以便于后续的业务分析。 5. 网站流量分析项目中的应用：数据清洗是网站流量分析项目的关键环节。Hive在此场景下的使用，不仅限于数据预处理，还能够整合不同来源的数据（如`zebra`表），并且通过SQL查询语言高效地进行数据清洗、汇总和计算，比如PV（页面浏览量）的计算，为流量分析提供准确的基础数据。总结来说，这个Hive数据处理流程主要围绕着数据清洗、字段选择、表结构设计和数据迁移展开，目的是为了高效地处理和分析大规模的网站流量数据，支持业务决策。Hive的分区机制和SQL查询能力使得这个过程更为灵活和高效。

清洗目标

只保留需要的字段

url urlname ref uagent uvid ssid sscoutn sstime cip

将会话信息拆分为会话编号会话页面数会话时间

create external table flux(url string,urlname string,title

string,chset string,scr string,col string,lg string,je string,ec

string,fv string,cn string,ref string,uagent string,stat_uv

string,stat_ss string,cip string) partitioned by (reportTime

string) row format delimited fields terminated by '|'

location '/flux';

创建外部分区表管理已经在HDFS的流量数据

alter table flux add partition(reportTime='2018-09-17')

location '/flux/reportTime=2018-09-17';

增加flux的分区信息

create table dataclear (url string,urlname string,ref

string,uagent string,uvid string,ssid string,sscoutn

string,sstime string,cip string) partitioned by (reportTime

string) row format delimited fields terminated by '|';

创建数据清洗表dataclear

insert into dataclear partition(reportTime='2018-09-17')

select url,urlname,ref,uagent,stat_uv,split(stat_ss,'_')

[0],split(stat_ss,'_')[1],split(stat_ss,'_')[2],cip from flux where

reportTime = '2018-09-17';

从zebra表中导入数据到dataclear表，在这个过程中完成数

据清洗

网站流量分析项目中的数据清洗

利用Hive实现业务指标的计算

Hive进行数据处理

2019年3月10日

17:30

分区新分区 2 的第 1 页

下载后可阅读完整内容，剩余5页未读，立即下载

阿玫小酱当当囧

粉丝: 20

Hive数据清洗与分区操作：flux与dataclear表案例

利用Shell脚本与Hive进行数据处理

Hive大数据处理工具详解

Hive大数据处理框架全面解析

基于Java语言编写的Hive大数据处理框架设计源码

Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践

海量数据处理-Hive数据仓库

掌握Hive大数据处理的核心笔记

Hive大数据处理详解及实践技巧

编程指南：深入探索Hive大数据处理

Hive大数据处理：从入门到高级进阶

最新资源