首页用户行为：用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。 行为类型：点击pv、购买buy、加购cart、fav收藏中用RDD统计最热门的商品Top10

用户行为：用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。 行为类型：点击pv、购买buy、加购cart、fav收藏中用RDD统计最热门的商品Top10

时间: 2023-07-10 18:39:49 浏览: 74

使用 Spark RDD 进行统计最热门的商品 Top10 的代码如下： ```python from pyspark import SparkContext, SparkConf # 创建 SparkContext conf = SparkConf().setAppName("HotProduct") sc = SparkContext(conf=conf) # 读取用户行为数据 rdd = sc.textFile("user_behavior.txt") # 过滤掉行为类型不为 "pv" 的记录，并将商品ID作为键，出现次数为值 product_count = rdd \ .map(lambda line: line.split(",")) \ .filter(lambda fields: len(fields) == 5) \ .filter(lambda fields: fields[3] == 'pv') \ .map(lambda fields: (fields[1], 1)) \ .reduceByKey(lambda x, y: x + y) # 统计前 10 个热门商品 top10 = product_count \ .map(lambda x: (x[1], x[0])) \ .sortByKey(ascending=False) \ .map(lambda x: (x[1], x[0])) \ .take(10) # 输出结果 for i, (product_id, count) in enumerate(top10): print("No.{}: Product ID: {}, Click Count: {}".format(i + 1, product_id, count)) # 关闭 SparkContext sc.stop() ``` 上述代码中，首先读取用户行为数据文件 `user_behavior.txt`，然后过滤掉行为类型不为 `pv` 的记录，接着使用 `map` 函数将商品ID作为键，出现次数为值，并使用 `reduceByKey` 函数进行统计。然后使用 `sortByKey` 函数按出现次数进行排序，取前 10 个元素，并将结果逆序输出。注意，需要将商品ID作为键进行统计，因此需要使用 `map` 函数将记录中的商品ID提取出来。

阅读全文