诸葛IO创始人详解爬虫入门：六部分基础理论与实践

153 浏览量更新于2024-09-01 收藏 261KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

一看就明白的爬虫入门讲解：基础理论篇一看就明白的爬虫入门讲解：基础理论篇

摘要：摘要：本文作者诸葛IO创始人/CEO孔淼从基础理论入手，详细讲解了爬虫内容，分为六个部分：我们的目的是什么；

内容从何而来；了解网络请求；一些常见的限制方式；尝试解决问题的思路；效率问题的取舍。

关于爬虫内容的分享，我会分成两篇，六个部分来分享，分别是：

1. 我们的目的是什么

2. 内容从何而来

3. 了解网络请求

4. 一些常见的限制方式

5. 尝试解决问题的思路

6. 效率问题的取舍

一、我们的目的是什么

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构

化的文本，或结构化的文本。

1. 关于非结构化的数据

1.1 HTML文本（包含JavaScript代码）

HTML文本基本上是传统爬虫过程中最常见的，也就是大多数时候会遇到的情况，例如抓取一个网页，得到的是

HTML，然后需要解析一些常见的元素，提取一些关键的信息。HTML其实理应属于结构化的文本组织，但是又因为一

般我们需要的关键信息并非直接可以得到，需要进行对HTML的解析查找，甚至一些字符串操作才能得到，所以还是归

类于非结构化的数据处理中。

常见解析方式如下：

CSS选择器

现在的网页样式比较多，所以一般的网页都会有一些CSS的定位，例如class，id等等，或者我们根据常见的节点路径

进行定位，例如腾讯首页的财经部分。

这里id就为finance，我们用css选择器，就是"#finance"就得到了财经这一块区域的html，同理，可以根据特定的css选

择器可以获取其他的内容。

XPATH

XPATH是一种页面元素的路径选择方法，利用Chrome可以快速得到，如：

copy XPATH 就能得到——//*[@id="finance"]

正则表达式

正则表达式，用标准正则解析，一般会把HTML当做普通文本，用指定格式匹配当相关文本，适合小片段文本，或者某

一串字符，或者HTML包含javascript的代码，无法用CSS选择器或者XPATH。

字符串分隔

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38506103

粉丝: 13
资源: 940

诸葛IO创始人详解爬虫入门：六部分基础理论与实践

Python网络爬虫与数据采集.pdf

搜索引擎之网络爬虫-让我们更了解互联网

Python爬虫入门：数据解析与提取技巧

Python爬虫入门：初步了解网络爬虫的概念与原理

软件测试基础入门：理论与实践

机器学习入门指南：从理论到实践

网络爬虫开发实战：获取互联网数据的基础技巧

python网络爬虫入门实战 pdf

爬虫python入门看什么

网络爬虫python讲解

scrapy爬虫讲解

优秀的高级爬虫工程师要学习那些知识比较详细的讲解

python的爬虫教程你有推荐嘛

python 爬虫 书籍

selenium爬虫python入门

爬虫python入门 教程 下载

python爬虫书籍推荐

uds诊断协议入门讲解

scrapy京东爬虫讲解

爬虫实战篇，抢大麦网演唱会门票

最新资源

python 爬虫书籍

爬虫python入门教程下载