MapReduce实现共同好友，要求实现下列要求：以下是微信的好友列表数据．冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的)e A:B,C,D,F,E,O,E B:A,C,E,K C:F,A,D,l D:A,E.F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O l:A,O ]:B,O K:A,C,D L:D,E,F M:E.F,G O:A,H,I,J 求出哪些人两两之间有共同好友．及他俩的共同好友都有谁?具体代码实现怎么写

时间: 2023-09-11 21:12:21 浏览: 274

大数据学习（八）：mapreduce编程案例-求两人之间的共同好友

现有如下数据: A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J 求哪些人两两之间有共同好友，及共同好友有哪些人？思路: 第一步:只求哪些人两两之间有某个共同好友 A:B,C,D,F,E,O for(好友列表){ context.write(“好友”,“用户”)； } A-B C A-B E A-C F … package com.bigdata.map 在本大数据学习案例中，我们将探讨如何使用MapReduce编程模型来解决一个社交网络中的问题：找出所有用户两两之间的共同好友。这个问题对于分析社交网络的连接性和用户群体有着重要的意义。我们要处理的数据格式是用户与其好友列表的对应关系，如`A:B,C,D,F,E,O`，表示用户A的好友有B、C、D、F、E和O。我们需要遍历这些数据，找出任意两个用户之间共享的朋友。 Map阶段的主要任务是将原始数据转化为键值对形式，这里的键是用户的好友，值是用户本身。在MapReduce程序中，我们定义了一个`CommonFriendsOneMapper`类，它继承自`Mapper`。在这个类中，我们重写了`map`方法。当读取到用户及其好友列表时，我们把每个好友作为键，用户作为值，输出到中间结果中。例如，对于用户A，我们将输出键值对`(B, A)`、`(C, A)`、`(D, A)`等。 Reducer阶段的任务是聚合相同键（即好友）的所有值（即用户），然后找出这些用户之间的共同点。我们定义了`CommonFriendsOneReducer`类，它继承自`Reducer`。在`reduce`方法中，我们接收到一系列相同的键（好友）和对应的用户列表。我们创建一个ArrayList来存储这些用户，并进行排序。然后，通过两层循环，比较列表中的每对用户，如果发现没有相邻的用户相等，就表明它们是两个不同的用户，且它们有一个共同的好友（当前键）。此时，我们将这对用户用短横线连接起来作为键，共同好友作为值，输出到结果中。在实际的MapReduce作业执行中，我们还需要设置Job配置和输入输出路径。在`main`方法中，我们创建一个`Configuration`对象，初始化一个新的`Job`实例，并设置其使用的类、输入输出格式以及输入输出路径。提交Job并等待其完成。总结一下，这个MapReduce案例展示了如何利用分布式计算处理大量数据，找到社交网络中用户之间的共同好友。通过Map阶段的拆分和Reducer阶段的聚合，我们可以高效地找出所有用户对之间的共同好友关系，这对于理解社交网络的结构、推荐系统或者用户行为分析等应用都有重要价值。在实际的Hadoop集群上运行此程序，可以处理非常大规模的数据，实现高效的数据挖掘。

好的，下面是基于Hadoop MapReduce实现共同好友的代码实现，包括Mapper和Reducer函数： ```python from mrjob.job import MRJob class CommonFriends(MRJob): def mapper(self, key, line): # 解析输入数据 user, friends = line.strip().split(':') friends_list = friends.split(',') # 对于每个好友，将其和用户组合成一个键，并将好友列表作为值输出 for f in friends_list: yield (min(user, f), max(user, f)), set(friends_list) def reducer(self, pair, friend_lists): # 对于每个键，取所有好友列表的交集，得到共同好友列表 common_friends = set.intersection(*friend_lists) # 输出两两之间共同好友的列表 yield pair, list(common_friends) if __name__ == '__main__': CommonFriends.run() ``` 以上代码使用了Python的mrjob库，可以方便地在Hadoop集群上运行MapReduce作业。具体使用方法可以参考mrjob的官方文档：https://mrjob.readthedocs.io/。需要注意的是，为了方便起见，上述代码中假设输入数据中的好友关系是单向的，即如果A是B的好友，那么输入数据中只会有一条记录，即"A:B"，而不会有"B:A"的记录。如果输入数据中存在双向的好友关系，需要在Mapper中将每个好友对应的所有用户都输出一遍，即将"A:B"和"B:A"都输出。

阅读全文

相关推荐

MapReduce-recomend:二度人脉好友推荐mapreduce算法

基于 Hadoop 平台实现的使用 MapReduce 编程，统计NBA球员五项数据+源代码+文档说明

MapReduce实现二度好友推荐算法

mapreduce实现文档数据去重

mapreduce实现架构.jpg

mapreduce-db-operat:mapreduce实现数据从hdfs到mysql之间的相互传递

KNN mapreduce实现

MapReduce实现推荐系统.pptx

ElasticMapReduce:使用HadoopElastic MapReduce实现

MapReduce：Nkeys，Nfiles终极解决方案.docx

mapreduce:mapreduce

MapReduce进行大数据分析.pdf

mapreduce案例测试数据word.log

mapreduce案例测试数据emp.csv

mapreduce案例测试数据dept.csv

Plogs：使用MapReduce实现数据记录程序以进行可扩展的推理

最新推荐

基于MapReduce实现决策树算法

使用python实现mapreduce（wordcount）.doc

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

使用hadoop实现WordCount实验报告.docx

java大数据作业_5Mapreduce、数据挖掘

黑板风格计算机毕业答辩PPT模板下载

管理建模和仿真的文件

提升点阵式液晶显示屏效率技术

在SoC芯片的射频测试中，ATE设备通常如何执行系统级测试以保证芯片量产的质量和性能一致？

CodeSandbox实现ListView快速创建指南

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx