爬虫基本知识：网络爬虫的工作原理和分类

需积分: 5 151 浏览量更新于2023-11-22 收藏 2.53MB PDF 举报

《爬虫的基本知识》是一份介绍网络爬虫的基本原理和使用方法的文件。网络爬虫，又称网页蜘蛛或网络机器人，是一种模拟浏览器发送网络请求、接收请求响应，自动抓取互联网信息的程序。它可以模拟浏览器完成几乎所有浏览器能做的事情，首先获取数据的资源地址，然后获取网页源代码并进行分析，提取所需的数据。爬虫可以通过正则表达式提取数据，也可以根据网页节点属性进行提取。学习爬虫的目标包括了解爬虫的概念、分类和流程，掌握HTTP基本原理，熟练使用浏览器开发者工具和socket发送网络请求。数据的来源可以通过人工收集、免费数据网站下载、购买数据或者通过爬虫获取。而爬取到的数据可以用于展示在网页或者App上，进行数据分析或机器学习相关的项目。总的来说，网络爬虫是一种重要的数据获取工具，在大数据时代具有广泛的应用价值。



三、HTTP基本原理

1、 URL



2、超文本



3、HTTP和HTTPS

HTTP 的全称是 Hyper Text Transfer Protocol，中文名叫做超文本传输协议

超文本传输协议

默认端口号:80

HTTPS 的全称是 Hyper Text Transfer Protocol over Secure Socket Layer，是以安全为目标的

HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议

默认端口号：443

HTTP 通道，简单讲是 HTTP 的安全版，即 HTTP 下加入 SSL 层，简称为 HTTPS



URL 的全称为 Universal Resource Locator，即统一资源定位符。

列子：

https://www.baidu.com/item/10056474?fr=aladdin http://IP:port/资源路径/?

wd=python#flg

协议：这代表网页使用的请求协议

域名部分：该URL的域名部分为“www.baidu.com”。一个URL中，也可以使用IP地址作为域名使用：

202.108.22.5

端口部分：跟在域名后面的是端口，域名和端口之间使用“:”作为分隔符。端口不是一个URL必须的部分，如果

省略端口部分。

资源部分：从域名后的最后一个“/”开始到“？”为止，是资源部分

查询参数：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分

其英文名称叫作 hypertext，我们在浏览器里看到的网页就是超文本解析而成的，其网页源代码是一系列

HTML 代码，里面包含了一系列标签，比如 img 显示图片，p 指定显示段落等。浏览器解析这些标签后，便

形成了我们平常看到的网页，而网页的源代码 HTML 就可以称作超文本

在百度的首页 https://www.baidu.com/，中，URL 的开头会有 http 或 https，这个就是访问资源需

要的协议类型，有时我们还会看到 ftp、sftp、smb 开头的 URL，那么这里的 ftp、sftp、smb 都是指

的协议类型。在爬虫中，我们抓取的页面通常就是 http 或 https 协议的，我们在这里首先来了解一下这

两个协议的含义。

剩余15页未读，继续阅读

丿BAIKAL巛

粉丝: 316
资源: 33

爬虫基本知识：网络爬虫的工作原理和分类

Python-爬虫基础案例.pdf

Parallel-Programming-with-Python.pdf.pdf

Python量化金融-Python金融实务应用与数据分析课程 量化金融基础课 -量化因子 共31页.pdf

java 爬虫.pdf

用python写网络爬虫 pdf 微盘

python网络爬虫入门实战 pdf

python爬虫开发从入门到实战pdf

python爬虫入门教程(非常详细) pdf 下载

python项目开发实战.pdf

零基础学python爬虫、数据分析与可视化从入门到精通 pdf

最新资源

Python量化金融-Python金融实务应用与数据分析课程量化金融基础课 -量化因子共31页.pdf