实战流程---网络爬虫爬取用户数据和文章数据存到数据库流程_网络爬虫爬取文章 - CSDN文库

用户数据采集

3星 · 超过75%的资源需积分: 50 3 浏览量更新于2023-05-13 评论收藏 758KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

第8章-爬虫

学习目标：

说出网络爬虫的作用

能够使用webmagic爬取网络数据

完成十次方文章爬虫微服务

完成十次方用户数据的爬取

1 谈谈网络爬虫

1.1 什么是网络爬虫

 在大数据时代，信息的采集是一项重要的工作，而互联网中的数据是海量的，如果单纯

靠人力进行信息采集，不仅低效繁琐，搜集的成本也会提高。如何自动高效地获取互联网

中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这些问题

而生的。

 网络爬虫（Web crawler）也叫做网络机器人，可以代替人们自动地在互联网中进行数

据信息的采集与整理。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚

本，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方

式。

 从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。爬虫从一个或若干初始

网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新

的URL放入队列,直到满足系统的一定停止条件。

1.2 网络爬虫可以做什么

我们初步认识了网络爬虫，网络爬虫具体可以做什么呢？

可以实现搜索引擎

大数据时代，可以让我们获取更多的数据源。

快速填充测试和运营数据

北京市昌平区建材城西路金燕龙办公楼一层电话：400-618-9090

剩余36页未读，继续阅读

评论1

black_kh

2020-05-12

不是很好用

都旭宝

粉丝: 10
资源: 2

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈