没有合适的资源?快使用搜索试试~ 我知道了~
首页实验手册:搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted
资源详情
资源评论
资源推荐

1
实验手册——
搜狗搜索日志分析系统

实验手册----搜狗搜索日志分析系统
2
目 录
一、数据预处理(Linux 环境) .............................................................................................................................................. 3
1. 查看数据 ..................................................................................................................................................... 3
2. 数据扩展 ..................................................................................................................................................... 3
3. 数据过滤 ..................................................................................................................................................... 3
二、基于 Hive 构建日志数据的数据仓库 .............................................................................................................................. 4
1. 基本操作 ..................................................................................................................................................... 4
2. 创建分区表(按照年、月、天、小时分区) ......................................................................................... 5
3. 查询结果 ..................................................................................................................................................... 6
四、实现数据分析需求一:条数统计 ................................................................................................................................... 6
五、实现数据分析需求二:关键词分析 ............................................................................................................................... 7
1. 查询关键词长度统计 ................................................................................................................................. 7
2. 查询频度排名(频度最高的前 50 词) ................................................................................................... 7
六、实现数据分析需求三:UID 分析 ................................................................................................................................... 7
1. UID 的查询次数分布(查询 1 次的 UID 个数,...查询 N 次的 UID 个数) ....................................... 7
2.UID 平均查询次数 ................................................................................................................................... 7
3. 查询次数大于 2 次的用户总数 ......................................................................................................... 7
4.查询次数大于 2 次的用户占比 .............................................................................................................. 7
4. 查询次数大于 2 次的数据展示 ......................................................................................................... 8
七、实现数据分析需求四:用户行为分析 ........................................................................................................................... 8
1. 点击次数与 Rank 之间的关系分析 ........................................................................................................... 8
2. 直接输入 URL 作为查询词的比例 ............................................................................................................. 8
3. 独立用户行为分析 ..................................................................................................................................... 9
八、实现数据分析需求五:实时数据 ................................................................................................................................. 10
九、使用 Sqoop 将数据导入 MySQL..................................................................................................................................... 10
十、HBase Shell 操作命令实验 ............................................................................................................................................. 11
十一、使用 Sqoop 将数据导入 HBase .................................................................................................................................. 12
十二、HBase Java API 访问统计数据 .................................................................................................................................... 13
1. 操作要求 ...................................................................................................................................................13
2. 数据准备 ...................................................................................................................................................13
3. 数据导入 ...................................................................................................................................................14
十三、Mahout 聚类操作实验 ............................................................................................................................................... 14
1. 数据描述 ...................................................................................................................................................14
2. 准备数据 ...................................................................................................................................................15
3. 运行聚类程序 ...........................................................................................................................................15

大数据 Hadoop 实战培训
3
一、数据预处理(Linux 环境)
搜狗数据的数据格式:
访问时间\t 用户 ID\t[查询词]\t 该 URL 在返回结果中的排名\t 用户点击的顺序号\t 用户点击的 URL
其中,用户 ID 是根据用户使用浏览器访问搜索引擎时的 Cookie 信息自动赋值,即同一次使用浏览器输入的
不同查询对应同一个用户 ID。
1. 查看数据
进入实验数据文件夹
[zkpk@master ~]$ cd /home/zkpk/resources/sogou-data/500w
less 查看
[zkpk@master 500w]$ less /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8
解决中文显示乱码问题
本步骤已经完成从 gbk 转化为 utf-8 格式,不需要再操作。见下面目录,该目录是乱码清洗的 Java 代码:
[zkpk@master ~]$ cd /home/zkpk/resources/ide-code/workspace/test
查看总行数
[zkpk@master ~]$ cd /home/zkpk/resources/sogou-data/500w
[zkpk@master 500w]$ wc -l /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8
截取部分数据数据
[zkpk@master 500w]$ head -100 ~/resources/sogou-data/500w/sogou.500w.utf8 >
~/resources/sogou-data/500w/sogou.demo
2. 数据扩展
将时间字段拆分并拼接,添加年、月、日、小时字段
[zkpk@master ~]$ cd /home/zkpk/resources/ide-code
[zkpk@master ide-code]$ bash sogou-log-extend.sh /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8
/home/zkpk/resources/sogou-data/500w/sogou.500w.utf8.ext
3. 数据过滤
过滤第 2 个字段(UID)或者第 3 个字段(搜索关键词)为空的行(需要用第 2 步数据扩展的结果)

实验手册----搜狗搜索日志分析系统
4
[zkpk@master ~]$ cd /home/zkpk/resources/ide-code
[zkpk@master ide-code]$ bash sogou-log-filter.sh /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8.ext
/home/zkpk/resources/sogou-data/500w/sogou.500w.utf8.flt
数据加载到 HDFS 上
[zkpk@master ~]$ hdfs dfs -mkdir -p /sogou/20111230
[zkpk@master ~]$ hdfs dfs -put /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8 /sogou/20111230/
[zkpk@master ~]$ hdfs dfs -mkdir -p /sogou_ext/20111230
[zkpk@master ~]$ hdfs dfs -put /home/zkpk/resources/sogou-data/500w/sogou.500w.utf8.flt /sogou_ext/20111230
二、基于 Hive 构建日志数据的数据仓库
要求:
Hadoop 集群正常启动
打开 Hive 客户端
[zkpk@master ~]$ hdfs dfs -mkdir -p /sogou/20111230
[zkpk@master ~]$ cd /home/zkpk/apache-hive-0.13.1-bin
[zkpk@master apache-hive-0.13.1-bin]$ bin/hive
下面操作都是在 Hive 客户端操作。
1. 基本操作
查看数据库
hive>show databases;
创建数据库
Hive>create database sogou;
使用数据库
hive>use sogou;
查看所有表名
hive>show tables;
创建外部表
hive>CREATE EXTERNAL TABLE sogou.sogou_20111230(
> ts STRING,
> uid STRING,
> keyword STRING,
> rank INT,
> order INT,
> url STRING)
> COMMENT 'This is the sogou search data of one day'
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t'
剩余15页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0