没有合适的资源?快使用搜索试试~ 我知道了~
首页史上最详细Python爬虫基础教学(一)
目录一、前言二、爬虫简介2.1 什么是爬虫2.2 基本的爬虫流程2.3 爬虫的分类2.4 robots协议三、网站基础3.1 HTTP和HTTPS3.2 URL3.3 请求和响应3.4 网页基础 一、前言 首先,我也是个爬虫小白,也在努力的学习中,当然,接触python也不只是为了去学爬虫,数据分析啊,机器学习和深度学习啊,都是我努力的目标。我开始写这个爬虫教程也是想和我一样想学好爬虫的小白在边自己去写教程的同时可以去温习一下旧知识,更能够在学习新知识的时候加深印象,我会在以后将自己学到的经验和笔记都在这里分享给大家。还有就是此教学只针对有python基础的,还没接触过的可以先去学一下
资源详情
资源评论
资源推荐

史上最详细史上最详细Python爬虫基础教学(一)爬虫基础教学(一)
目录目录一、前言二、爬虫简介2.1 什么是爬虫2.2 基本的爬虫流程2.3 爬虫的分类2.4 robots协议三、网站基础3.1 HTTP和HTTPS3.2 URL3.3 请求和响应3.4 网页基础
一、前言一、前言
首先,我也是个爬虫小白,也在努力的学习中,当然,接触python也不只是为了去学爬虫,数据分析啊,机器学习和深度学习啊,都是我努力的目标。我开始写这个爬虫教程也是想
和我一样想学好爬虫的小白在边自己去写教程的同时可以去温习一下旧知识,更能够在学习新知识的时候加深印象,我会在以后将自己学到的经验和笔记都在这里分享给大家。还有
就是此教学只针对有python基础的,还没接触过的可以先去学一下python,所以在这里python的安装和环境配置我就不详细讲述了哦。(本教学适用于python3版本)
二、爬虫简介二、爬虫简介
2.1 什么是爬虫什么是爬虫
网络爬虫又叫网页蜘蛛,或者是网络机器人,如果把互联网看做成很大一张网,那么爬虫就是在这张网上行走的蜘蛛。如果把网的节点看做网页,那当蜘蛛爬到某个节点的时候,就
相当于访问了该网页,获取了信息,而蜘蛛顺着节点之间连线到达另一个节点就是通过网页间的链接关系去获取另一个网页的信息,当蜘蛛将整个节点爬完,那就获取到整个网站的
数据了。通俗来讲爬虫就是获取网页信息写的程序。
2.2 基本的爬虫流程基本的爬虫流程
1.发起请求、获取响应
首先我们要利用python的请求库模拟游览器对目标网络的服务器发送HTTP请求,然后获取到响应信息,一般获取的响应体是源代码。我们常用的请求库便是urllib和requests等,我
们可以利用这些库来实现HTTP请求操作。
2.解析数据
当我们获取到源代码后,就要进行分析,这个解析过程也可以称作数据清洗。因为我们获取到源代码后,会有很多多余的HTML属性标签,我们要把这些多余的东西给清洗掉,才能
得到我们想要的数据。最普遍的方法就是利用正则表达式提取,但考虑到正则的复杂性,很容易出错,并且有些网页的特殊结构,我们需要根据节点位置以及属性标签使用其他库进
行提取,最常见的有xpath、beautifulsoup等等。总的来说,解析数据并提取信息是爬虫中最重要的部分,它有利于我们对数据的后继处理和分析。
3.保存数据
提取到信息后我们需要保存下来,当然,获取的数据不一样,保存格式也不一样,我们可以保存成文本或json格式,也可保存图片JPG,pnd。或者保存MP4等格式的文件,还以将数
据保存到数据库中。总之,根据自己的目的和数据类型保存成相应的格式。
2.3 爬虫的分类爬虫的分类
网络爬虫根据爬取数量、结构及实现技术大致分为两种:通用爬虫和聚焦爬虫。
1.通用爬虫
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 由于商业原因,它
们的技术细节很少公布出来。 这类网络爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用
并行工作方式,但需要较长时间才能刷新一次页面。 虽然存在一定缺陷,通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。通用网络爬虫的结构大致可以分为页
面爬行模块 、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。
2.聚焦爬虫
聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只
需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络
爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不
同。
2.4 robots协议协议
robots协议,也称为爬虫协议,机器人协议等,一般网站都会通过该协议告诉搜索引擎哪些页面可以爬取或不可以爬取。为了知道网站的robot协议我们一般可以在我们在要爬取网站
url后面加上robots.txt。具体意思可以参照百度百科robots协议

















安全验证
文档复制为VIP权益,开通VIP直接复制

评论1