Spark统计广告ID：省份Top3与小时Top3分析

199 浏览量更新于2024-08-29 收藏 45KB PDF 举报

"这篇笔记主要讨论如何使用Apache Spark处理广告ID的统计问题，包括统计每个省份点击广告ID的top3以及每个省份每个小时的广告ID的top3。数据包含时间戳、省份、城市、用户ID和广告ID等字段。在实现过程中，使用了Spark的RDD（弹性分布式数据集）进行数据处理，并涉及到数据转换、分组、聚合等操作。" 在Spark中，我们通常通过创建`SparkConf`对象来配置Spark应用，然后使用该配置创建`SparkContext`，这是所有Spark操作的基础。在这个例子中，我们创建了一个名为"ad_one"的应用，并设置了本地运行模式，即`setMaster("local[2]")`，这意味着在本地运行，使用2个线程。数据文件包含广告日志，每行数据由多个字段（时间戳、省份、城市、用户ID和广告ID）组成，字段之间以制表符分隔。为了处理这些数据，我们首先使用`textFile`方法读取文件内容，并通过`map`函数将每一行分割成数组。接着，我们对数据进行预处理，组合省份和广告ID，形成键值对 `(省份_广告ID, 1)`，表示一个省份的某个广告被点击了一次。然后使用`reduceByKey`操作将相同键的值相加，得到每个省份广告ID的点击总数。为了满足需求一，即统计每个省份的广告ID top3，我们需要先按照省份分组，这里使用`groupBy`函数。分组后，我们得到每个省份的所有广告ID及其点击次数。然而，直接使用`mapValues`并调用`toList.sortBy(_._2).take(3)`无法实现降序排序，因为Scala的`sortBy`默认是升序排序。为了解决这个问题，我们可以先将列表排序，然后使用`reverse`使其变为降序，最后取前三个元素。对于需求二，统计每个省份每个小时的广告ID top3，我们需要额外处理时间戳字段。可以使用Joda-Time库将时间戳转换为小时级别的时间段，然后在分组时同时考虑省份和小时。这可以通过添加一个新的中间步骤实现，即将时间戳转换为小时，并与省份和广告ID组合形成新的键。之后，按照新键进行分组、聚合和排序，以获取每个省份每个小时的广告ID top3。这个案例展示了Spark如何处理大数据分析中的常见问题，包括数据读取、转换、分组、聚合以及排序。通过使用RDD的高级操作，我们可以有效地处理大量数据并提取出关键信息。在实际应用中，这些技术可以扩展到更复杂的场景，如实时流处理或大规模批处理任务。

spark代码笔记代码笔记02——广告广告top3、基站停留时间、基站停留时间

一、案例练习：统计广告一、案例练习：统计广告ID

需求一：统计每个省份点击广告ID的top3

需求二：统计每个省份每个小时的广告ID的top3

部分数据：

时间戳省份城市用户id 广告id

1562085629599 Hebei Shijiazhuang 564 1

1562085629621 Hunan Changsha 14 6

1562085629636 Hebei Zhangjiakou 265 9

1562085629653 Hunan Changsha 985 4

1562085629677 Jiangsu Nanjing 560 6

1562085629683 Hubei Jingzhou 274 2

附带时间转换工具类pom依赖

joda-time

2.0

需求一：需求一：统计每个省份点击广告统计每个省份点击广告ID的的top3

def main(args: Array[String]): Unit = {

val conf: SparkConf = new SparkConf().setAppName("ad_one").setMaster("local[2]")

val sc: SparkContext = new SparkContext(conf)

val rdd1: RDD[String] = sc.textFile("F://bigdata/data/advert/Advert.log")

val rdd2: RDD[Array[String]] = rdd1.map(_.split(" "))

val p_u: RDD[(String, Int)] = rdd2.map(x=>(x(1)+"_"+x(4),1))

val reducebykey: RDD[(String, Int)] = p_u.reduceByKey(_+_)

val groupbykey: RDD[(String, Iterable[(String, Int)])] =

reducebykey.groupBy(x=>x._1.split("_")(0))

val mapvalues: RDD[(String, List[(String, Int)])] =

groupbykey.mapValues(x=>x.toList.sortBy(_._2).take(3))

//上面这个不可以，toList之后，调用的是scala的sortBy(_._2)，只能升序，不可以指定降序

//spark中的sortBy(_._2)算子可以指定升序还是降序

val mapvalues2: RDD[(String, List[(String, Int)])] =

groupbykey.mapValues(x=>x.toList.sortWith(_._2>_._2).take(3))

// println(p_u.collect().toBuffer)

// println(reducebykey.collect().toBuffer)

// println(groupbykey.collect().toBuffer)

//println(mapvalues.collect().toBuffer)

println(mapvalues2.collect().toBuffer)

println(mapvalues.collectAsMap())

}

运行结果：

ArrayBuffer((Hunan,List((Hunan_5,2273), (Hunan_1,2202), (Hunan_2,2193))),(Henan,List((Henan_6,2287),

(Henan_0,2237), (Henan_4,2201))), (Hebei,List((Hebei_7,2250), (Hebei_8,2240),

(Hebei_3,2234))), (Hubei,List((Hubei_8,2289), (Hubei_6,2241), (Hubei_2,2237))),

(Jiangsu,List((Jiangsu_7,2250), (Jiangsu_3,2199), (Jiangsu_6,2192))))

Map(Henan -> List((Henan_7,2151), (Henan_3,2163), (Henan_2,2178)),

Hunan -> List((Hunan_6,2082), (Hunan_9,2122), (Hunan_7,2132)),

Hubei -> List((Hubei_0,2144), (Hubei_7,2150), (Hubei_9,2168)),

Hebei -> List((Hebei_2,2132), (Hebei_5,2145), (Hebei_6,2180)),

Jiangsu -> List((Jiangsu_2,2131), (Jiangsu_9,2145), (Jiangsu_0,2147)))

需求二：统计每个省份每个小时的广告需求二：统计每个省份每个小时的广告ID的的top3

package com.zgm.sc.day09

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38718262

粉丝: 9
资源: 950

Spark统计广告ID：省份Top3与小时Top3分析

Spark代码笔记03——自定义排序、自定义分区、累加器、广播变量

Hadoop按日期统计访问次数及测试数据

sparksql代码笔记03——连接hive

spark数据分析实战——奥运会

spark性能优化指南——高级篇 (很详细)

spark学习笔记(1)——spark概述

spark踩坑系列1——spark streaming+kafka

spark sql 笔记(16)—— spark on yarn

spark学习之路——1.初识spark

spark学习笔记（四）——sparkstreaming、dstream、receivers、编程实例、整合flume、整合kafka、整合spark...

最新资源