没有合适的资源?快使用搜索试试~ 我知道了~
首页Python-爬虫课件.ppt
Python-爬虫课件.ppt
需积分: 48 1.8k 浏览量
更新于2023-05-23
评论 1
收藏 5.62MB PPT 举报
“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
资源详情
资源评论
资源推荐

第 1 单元 爬虫基础
讲师:王淑伟

1 学习目标
1.1 知识目标:
了解爬虫和使用场景
复习 http 和 https
字符串的操作
重
点
重
点
重
点

爬虫的定义和使用场景
学习目标:
了解 爬虫的概念
了解 数据的来源
1 为什么要学习爬虫
如今,人工智能,大数据离我们越来越近,很多公司在开展相关的业务,但是人工智能和
大数据中有一个东西非常重要,那就是数据,但是数据从哪里来呢?

首先我们来看下面这个例子:

这是微博的微指数的一个截图,他把在微博上的用户的微博和评论中的关键词语做了提取,然后进行了统计
,然后根据统计结果得出某个词语的 流行趋势,之后进行了简单的展示
类似微指数的网站还有很多,比如百度指数,阿里指数, 360 指数等等,这些网站有非常大的用户量,他们
能够获取自己用户的数据进行统计和分析
那么对于一些中小型的公司,没有如此大的用户量的时候,他们该怎么办呢?
1.1 数据的来源
去第三方的公司购买数据 ( 比如企查查 )
去免费的数据网站下载数据
国家统计局
通过爬虫爬取数据
人工收集数据 ( 比如问卷调查 )
在上面的来源中:人工的方式费时费力,免费的数据网站上的数据质量不佳,很多第三方的数据公司他们的
数据来源往往也是爬虫获取的,所以获取数据最有效的途径就是通过爬虫爬取
剩余63页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0