Python实现网络爬虫与网页下载实践

需积分: 9 16 浏览量更新于2024-07-18 收藏 593KB DOC 举报

在本文档中，我们将探讨如何使用Python语言来实现网络爬虫的基本功能。首先，让我们从导入必要的库开始。`urllib.request`是Python标准库中用于处理HTTP请求和响应的模块，它提供了一种简单的方式来获取网页内容。在提供的代码片段中，第1行导入了这个模块，并设置了一个示例URL "http://google.cn/"，然后通过`urllib.request.urlopen()`函数发送一个GET请求，读取服务器返回的页面内容。接下来，`os`, `sys`, 和 `datetime` 模块用于处理操作系统交互、命令行参数和日期时间操作，这些虽然不在直接的网络爬虫逻辑中，但在实际项目中可能会用到辅助功能。`httplib` 和 `urllib` 是另一种方式，它们提供了更底层的HTTP连接功能，适合于需要更精细控制的情况。`re`（正则表达式）模块在这里可能用于解析HTML文档或处理文本数据。重点在于`SGMLParser`类，这是从`sgmllib`模块导入的，用来解析SGML（Standard Generalized Markup Language）格式的文本，这里通过子类`Html2txt`实现了HTML到纯文本的转换。`Html2txt`类包含三个方法：`reset()` 重置解析器状态，`handle_data()` 处理数据段，以及`start_head()` 和 `end_head()` 分别标记开始和结束头部元素，以控制是否收集文本内容。在`__main__`部分，实例化`Html2txt`对象并解析指定网页，最后打印出处理过的文本内容。在处理下载网页时，代码展示了两个不同的方法。第一种是使用`urllib.urlopen()`，它返回一个文件对象，可以直接读取其内容。另一种是利用`httplib.HTTPConnection`类创建HTTP连接，发送GET请求，接收响应，然后读取和关闭连接。这两种方法都是Python内置的简单方式来获取网页数据。此外，文档还提到了使用第三方模块`pycurl`，这是一个强大的HTTP客户端库，可以用来下载网页内容。相比于标准库，`pycurl`提供了更多的功能，如处理HTTP会话、支持HTTP/1.1、SSL/TLS等高级特性，尤其适用于需要高效和灵活网络请求的场景。本文介绍了如何使用Python基础库（如`urllib`）和第三方库（如`pycurl`）下载网页内容，以及如何通过`sgmllib`处理HTML文档提取所需信息。掌握这些技能对于开发简单的爬虫或者自动化抓取数据非常有帮助。

3'33($0U5050$ -,     *)  H 生成电影对象   *  :

F:33(((:'$ 暂无 $(''(77    *

:':  *-  #**     "''J$:$(1'M$$#$$NJ?$'$

QAR/!7/!7'7'$$Q)R  *A       "''?"="'J

"'    *.           "''    #    *I             "    "''Q)R    *;

:"'"  *,       '#  A)           "?""' A

"':A:"'"A-/"#A*''AAA.

H7AI7''J$:$(1'M$"''$#$)$NJ?$$A;77'#

A,7'7'7.)7'T*#."3.7'

7="'J7'.-7'#.*77'Q)R.A

..:7'7.I'#.;777'.,

7':    I)          :7'7  I   H#  I          I-  H/"

/"37'#I*H2#0'07'IA$'""''$

I.H抓取数据

'#

H解析出标题

3'3'7

33Q#35AR

H解析出电影介绍

#

'J$'$(1'M$"''$#$$N/

/"#

#

'J$:$(1'M$"''$#$)$N:'!7

"'Q)R+"'QR

/"#

#

"''J$:$(1'M$"''$#$)$N:'!7:'!7/

"'Q#"'5R

/"#

$暂无$



H取得图片

7'$$("$"9"$Q)RQ$$R

7

7$)))-9$+7Q7J$9$+#R

J7+7($$



"'





H解析出地区

#

''J$:$(1'M$"''$#$$NJ?$'$

'Q)R/!7'$9$

Q)R'

/"#

$$



H3'QR/!7'$$QR

H33'33($0U5050$



H生成电影对象

   :    F:33(((:'$ 暂

无$(''(77

:':

#

"''J$:$(1'M$$#$$NJ?$'$QAR/!7/!7'7'$

$Q)R

"''?"="'J"'

"''#

""''Q)R

:"'"

'#

"?""'

"':

:"'"

/"#

''



H7

7''J$:$(1'M$"''$#$)$NJ?$$

77'#

7'7'7

7'T*#

"3

7'7="'J7'

7'#

77'Q)R



:7'7

'#

777'

7':

:7'7

H#



H/"/"37'#

H2#0'07'

$'""''$



豆瓣的电影页面并不是很对称，所以有时候抓取的结果可能会有点出入

本文来自 2!@4 博客，转载请标明出处： 1#997"'9V:>79":9

))9)-9A9A-I;,A'/

爬 Google 的查询页

最近没有没有 7?G 了，因此只能自己将查询对应的 E&6 准备好，然后通过脚本将

该链接对应的网页爬下来。我们假定，我们要爬这样一个页面：

1#9977"9'"D%GBF

我们可以直接在浏览器输入上面的 E&6，可以看到，是 7 对应 GBF 这个查询的返回页。

我们现在的目的是通过  程序把这个返回页  下来，存在本地，为后面的工

作准备数据。

一下就是我的代码：

('(7<

!7G8!7G8

E!&?4$F<9*)"3WF!G.)WX'4AW!YW426&)A)IIW

2GB?WGW-.)!$

"''!&"  &" #

1-)'(%(("('7('#

' &" 1-)

'(%(("('7('

'''"

'



1-)'(%(("('7('#

' &" 1-)'(%(("('7('

'''"

'

"''@  @ #

1'(%(("('7('#

剩余63页未读，继续阅读

zuloshury

粉丝: 6
资源: 9

Python实现网络爬虫与网页下载实践

自己动手写网络爬虫PDF

自己动手写网络爬虫

用Python写网络爬虫

利用Python实现网络爬虫 Hands-On-Web-Scraping-with-Python-master.zip

python实现网络爬虫使用了第三方库beautifulsoup来解析网页文件，并且实现了cookie登录特定网站访问.zip

用Python写网络爬虫.rar_Python项目_python_python网络爬虫_爬虫_爬虫教程

用python写网络爬虫

用Python实现的网络爬虫示例.zip

用Python写网络爬虫PDF&源码

Python网络爬虫网页爬虫

最新资源