没有合适的资源?快使用搜索试试~ 我知道了~
首页scala 操作RDD的代码分析实例
资源详情
资源评论
资源推荐

1、IP 的 PV ,按 PV 倒序
lines.map(line => {(line.split(" ")(0),
1)}).reduceByKey(_ + _).transform(rdd =>
{
rdd.map(ip_pv => (ip_pv._2, ip_pv._1)).
sortByKey(false).
map(ip_pv => (ip_pv._2, ip_pv._1))
}).print()
日志格式:
46.202.124.63 - - [2015-11-26 09:54:27] "GET
/view.php HTTP/1.1" 200 0
"http://www.google.cn/search?q=hadoop"
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT
6.2; Trident/6.0)" "-"
map(line => {(line.split(" ")(0), 1)})
// map(func) 对源 RDD 每一个元素调用 func 函数
//对日志以空格分隔并获取第一个值就是 IP 地址,并组织
成//(ip,1)的 KV 对


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0