Python爬虫入门：常用库与方法详解

65 浏览量更新于2024-08-03 收藏 169KB PDF 举报

本篇笔记主要介绍了Python爬虫的基础操作，重点涵盖了使用Python进行网络爬取时的一些核心库和技术。首先，我们来看几个常用的Python爬虫库： 1. **urllib** 和 **urllib3**: 这两个库是Python标准库的一部分，提供了一种简单的方式来处理HTTP请求。urllib主要负责发送HTTP请求，而urllib3则在性能和稳定性上有所提升，支持连接池等高级功能。 2. **requests**: 这是一个非常流行的第三方库，用于发送HTTP请求，提供了更简洁易用的API，并且处理重定向、cookies等功能。它广泛应用于爬虫开发中，代码示例如`requests.get(url)`。 3. **scrapy**: Scrapy是一个强大的Python爬虫框架，它包含了中间件、下载管理器、Item Pipeline等模块，适用于处理复杂的爬虫项目。它不仅支持基础的HTTP请求，还能进行更高级的数据提取和处理。 4. **lxml** 和 **BeautifulSoup4 (BS4)**: 都是用于解析HTML和XML文档的库。lxml是基于C语言实现的，速度更快，而BeautifulSoup则更易于理解和使用。`etree`是lxml的核心模块，通过XPath表达式`dom.xpath()`可以高效地提取数据，而BeautifulSoup则通过`soup.find_all()`或`.select()`方法进行选择和解析。在实际操作中，我们看到以下步骤： - 发送GET请求：使用`requests.get(url)`获取网页内容。 - 状态码检查：通过`rq.status_code`验证请求是否成功。 - 内容读取：`rq.text`获取网页的纯文本，`rq.headers`获取响应头信息。 - 文件保存：将抓取到的文本保存到本地文件，如`f.write(rq.text)`。 - 确定编码：使用`chardet`检测响应的字符编码，确保正确解析。 - 使用BeautifulSoup解析：导入`BeautifulSoup`后，可以通过`soup = BeautifulSoup(text, 'lxml')`创建一个解析对象，然后调用`soup.find()`或`.select()`方法提取所需数据。总结起来，本篇笔记详细介绍了如何使用Python的基本库（如requests）以及特定的解析库（如lxml和BeautifulSoup4）来构造爬虫程序，从发起请求到数据解析的全过程都有所涉及。通过这些技术，开发者可以方便地爬取和处理Web页面上的数据。对于初学者来说，这是一个很好的起点，对于进阶者则是构建更复杂爬虫项目的基石。

BeautifulSoup

3.实战

4.动态实战

核心：url

from bs4 import BeautifulSoup

soup = BeautifulSoup(txt,'lxml')  # 类型不是txt也不是bytes

soup.find_all('title')

soup.find_all('li',id="h")

import requests

from lxml import etree

import pandas as pd

url = 'http://tipdm.com/'

rq = requests.get(url)

rq.text

dom = etree.HTML(rq.text)

product_name = dom.xpath('//li/a[@class="tit"]/text()')

product_desc = dom.xpath('//li/p[@class="desc"]/text()')

data = {

 'product_name': product_name,

 'product_desc': product_desc

}

data_frame = pd.DataFrame(data) # 数据结构化(数据框)

data_frame.to_csv('deta_frame.csv',index=None,encoding='utf-8-sig')

 # 带文件编码形式的utf-8

剩余13页未读，继续阅读

小陈同学_666

粉丝: 143
资源: 3

Python爬虫入门：常用库与方法详解

python爬虫学习笔记-scrapy框架(1)

最牛逼的Python爬虫学习笔记

python 爬虫学习笔记

python爬虫笔记.zip

Python爬虫笔记！！！

图灵python爬虫笔记

尚硅谷python爬虫笔记

Python爬虫笔记1-爬虫背景了解

路飞学城python爬虫笔记

基于python爬虫大作业

最新资源