Python爬虫：提取网页正文与下载网页示例

4星 · 超过85%的资源需积分: 49 13 浏览量更新于2024-07-29 1 收藏 643KB DOC 举报

"Python爬虫是使用Python编程语言进行网络数据抓取的一种技术。这个资源提供了一些小例子，展示了Python在处理文本方面的强大能力。" 在Python中，爬虫的实现通常涉及以下几个关键知识点： 1. **HTTP请求**： - `urllib.request` 模块是Python标准库的一部分，用于处理URL相关的操作。在这里，`urllib.request.urlopen(url)` 用于向指定URL发送GET请求并获取响应。 - `response.read()` 读取服务器返回的数据，通常以字节形式存在。 2. **网页文本提取**： - 提取网页正文通常需要解析HTML内容。`SGMLParser` 是Python标准库中的一个解析器，用于处理SGML（标准通用标记语言）格式的数据，包括HTML。 - 自定义的`Html2txt` 类继承自`SGMLParser`，并重写了几个关键方法。`handle_data(self, text)` 方法在遇到HTML文本数据时被调用，将数据添加到结果字符串中。`start_head(self, text)` 和 `end_head(self)` 方法分别表示进入和离开头部区域，通过设置`inbody`标志来判断是否处在网页主体部分。 3. **下载网页**： - 使用`httplib` 模块（在Python 3中已更改为`http.client`），可以创建HTTP连接并发送请求。`conn.request("GET", "/index.html")` 发送GET请求到指定的URL，`conn.getresponse()` 获取响应，`r1.read()` 读取响应内容。 - 更简单的方法是使用 `urllib.urlopen()`，它可以直接打开URL并读取数据，适用于简单的下载任务。 4. **第三方库**： - `pycurl` 是一个Python绑定库，提供了更高级的HTTP和FTP下载功能。它可以用来下载网页内容，提供更灵活的控制和更高的性能。不过，这个例子中没有给出具体的`pycurl` 使用代码。 Python爬虫的实现还可以涉及其他方面，如使用`BeautifulSoup` 或 `lxml` 进行更方便的HTML解析，使用`requests` 库代替 `urllib` 进行更友好的HTTP请求，以及使用`Scrapy` 框架构建大型爬虫项目。此外，处理反爬机制（如User-Agent、Cookies、验证码）、数据存储（CSV、JSON、数据库）、多线程或异步请求也是爬虫开发中的重要环节。学习Python爬虫还需要了解HTTP协议、正则表达式以及网络编程基础知识。

3'33($0U5050$-,   *)  H 生成电影对象  * :

F:33(((:'$ 暂无 $(''(77    *

:':  *-#  **    "''J$:$(1'M$$#$$NJ?$'$

QAR/!7/!7'7'$$Q)R  *A       "''?"="'J

"'    *.           "''    #    *I             "    "''Q)R    *;

:"'"  *,       '#  A)           "?""'  A

"':A:"'"A-/"#A*''AAA.

H7AI7''J$:$(1'M$"''$#$)$NJ?$$A;77'#

A,7'7'7.)7'T*#."3.7'

7="'J7'.-7'#.*77'Q)R.A

..:7'7.I'#.;777' .,

7':    I)           :7'7 I   H#  I          I-   H/"

/"37'#I*H2#0'07'IA$'""''$

I.H抓取数据

'#

H解析出标题

3'3'7

33Q#35AR

H解析出电影介绍

#

'J$'$(1'M$"''$#$$N/

/"#

#

'J$:$(1'M$"''$#$)$N:'!7

"'Q)R+"'QR

/"#

#

"''J$:$(1'M$"''$#$)$N:'!7:'!7/

"'Q#"'5R

/"#

$暂无$



H取得图片

7'$$("$"9"$Q)RQ$$R

7

7$)))-9$+7Q7J$9$+#R

J7+7($$



"'





H解析出地区

#

''J$:$(1'M$"''$#$$NJ?$'$

'Q)R/!7'$9$

Q)R'

/"#

$$



H3'QR/!7'$$QR

H33'33($0U5050$



H生成电影对象

   :    F:33(((:'$ 暂

无$(''(77

:':

#

"''J$:$(1'M$$#$$NJ?$'$QAR/!7/!7'7'$

$Q)R

"''?"="'J"'

"''#

""''Q)R

:"'"

'#

"?""'

"':

:"'"

/"#

''



H7

7''J$:$(1'M$"''$#$)$NJ?$$

77'#

7'7'7

7'T*#

"3

7'7="'J7'

7'#

77'Q)R



:7'7

'#

777'

7':

:7'7

H#



H/"/"37'#

H2#0'07'

$'""''$



豆瓣的电影页面并不是很对称，所以有时候抓取的结果可能会有点出入

本文来自 2!@4 博客，转载请标明出处： 1#997"'9V:>79":9

))9)-9A9A-I;,A'/

爬 Google 的查询页

最近没有没有 7?G 了，因此只能自己将查询对应的 E&6 准备好，然后通过脚本将

该链接对应的网页爬下来。我们假定，我们要爬这样一个页面：

1#9977"9'"D%GBF

我们可以直接在浏览器输入上面的 E&6，可以看到，是 7 对应 GBF 这个查询的返回页。

我们现在的目的是通过  程序把这个返回页  下来，存在本地，为后面的工

作准备数据。

一下就是我的代码：

('(7<

!7G8!7G8

E!&?4$F<9*)"3WF!G.)WX'4AW!YW426&)A)IIW

2GB?WGW-.)!$

"''!&"  &" #

1-)'(%(("('7('#

' &" 1-)

'(%(("('7('

'''"

'



1-)'(%(("('7('#

' &" 1-)'(%(("('7('

'''"

'

"''@  @ #

1'(%(("('7('#

剩余63页未读，继续阅读

rsj217

粉丝: 16
资源: 1

Python爬虫：提取网页正文与下载网页示例

Python爬虫框架Scrapy教程 完整版PDF

Python爬虫JS逆向进阶课程-课程网盘链接提取码下载 .txt

电影天堂上的Python爬虫源码.zip

python 爬虫

Python爬虫

python爬虫-python爬虫资源

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

【创新未发表】斑马算法ZOA-Kmean-Transformer-LSTM负荷预测Matlab源码 9515期.zip

j link 修复问题套件

C#实现modbusRTU(实现了01 3 05 06 16等5个功能码)

最新资源

Python爬虫框架Scrapy教程完整版PDF

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用