基于Hive的搜狗日志分析_hive的日志文件的位置

Hive

需积分: 31 37 浏览量更新于2023-05-28 评论 3 收藏 1.47MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

《基于 Hive 的搜狗搜索日志分析报告》
目录
一、 数据预处理...................................................................................................................................1
1.1 数据查看...................................................................................................................................1
1.2 数据扩展和过滤.......................................................................................................................3
1.3 数据加载...................................................................................................................................4
二、 基于 Hive 构建数据仓库.............................................................................................................7
2.1 创建数据仓库...........................................................................................................................7
2.2 随机抽样创建含有 200w 样本的外部数据表.........................................................................9
2.3 创建分区表.............................................................................................................................10
三、 数据分析.....................................................................................................................................12
3.1 条数统计.................................................................................................................................12
3.2 关键词分析.............................................................................................................................15
3.3UID 分析..................................................................................................................................20
3.4 用户行为分析.........................................................................................................................23
3.5 创建实时数据表.....................................................................................................................27
四、 其他数据操作.............................................................................................................................28
4.1 使用 Sqoop 将数据导入 MySQL..........................................................................................28
4.2 使用 Sqoop 将数据导入 HBase.............................................................................................31
4.3Mahout 聚类操作.....................................................................................................................33
4.5 使用 Mahout 对关键字进行聚类...........................................................................................36
五、 总结.............................................................................................................................................42