没有合适的资源?快使用搜索试试~ 我知道了~
首页爬虫代码+MapReduce代码+可视化展示代码.docx
资源详情
资源评论
资源推荐

大数据原理实验报告
1、1000+数据截图:
2.虚拟机中 hadoop 正确运行的情况:


3.爬虫代码+MapReduce 代码+可视化展示代码
3.1 爬虫代码:
!"#
!
$
%
"
&
&
'(")

*+ ,-
!
./0*+./,-
11为了避免重复读取数据,需要用一个 集合来进行重复的验证
11所有处理过的连接,都保存到这个集合中。
./#0*+./,-
11需要加入一个深度的控制,防止无限制的爬取数据
23"&$(*4
11记录每个网页的对应深度
11就是 地址, 就是深度值ֵ
.56/0"*+.56/,-
11准备一个标志,通过这个标志来控制线程的睡眠和唤醒,类似一个闹钟
#''*+#',-
',78-)
11向所有连接的集合中放入一个种子连接
0,9:;11<=19-
0",9:;11<=195>-
11建立多个线程,这里只建立 ? 个
,*@.?AA-)
(*+(",-+(,-
,-
B
B
'C'",-)
)
11先判断该连接是否已经被处理了
,D#0,--)
11该连接已经被处理,所以记录到处理后的连接集合中。
#0,-
11还需要判断深度是否满足要求,如果深度过深,则不进行处理
*0",-
,.*23"&$(-)
11建立处理页面内容的核心对象 "
"*%,-,-
11提取里面的 和
*,-
剩余18页未读,继续阅读

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0