Python网络爬虫：提取与下载网页内容

5星 · 超过95%的资源 | 下载需积分: 10 | DOC格式 | 592KB | 更新于2024-07-25 | 70 浏览量 | 举报

2 收藏

"Python作为一门强大的编程语言，因其简洁明了的语法和丰富的库支持，常被用于网络爬虫的开发。本节将介绍如何利用Python进行网页数据的抓取和处理，包括网页正文的提取、网页的下载以及使用第三方模块pycurl进行更高效的网页内容获取。" 在Python中提取网页正文，可以使用内置的`urllib.request`模块来获取网页源码，然后通过解析器来处理HTML文档。例如，示例代码中定义了一个名为`Html2txt`的类，继承自`SGMLParser`，用于从HTML文档中提取文本内容。`reset()`方法初始化类变量，`handle_data()`方法用于处理遇到的数据，当处于`inbody=True`时，将文本内容添加到`self.text`中。`start_head()`和`end_head()`方法则用来忽略网页的头部信息。 ```python import urllib.request url = "http://google.cn/" response = urllib.request.urlopen(url) page = response.read() # 使用Html2txt类提取网页正文 class Html2txt(SGMLParser): def reset(self): self.text = '' self.inbody = True SGMLParser.reset(self) def handle_data(self, text): if self.inbody: self.text += text def start_head(self, text): self.inbody = False def end_head(self): self.inbody = True parser = Html2txt() parser.feed(page.decode('utf-8')) # 解码网页内容 parser.close() print(parser.text.strip()) ``` 此外，Python还提供了其他方式来下载网页。比如，使用`httplib`模块，通过建立HTTP连接并发送GET请求获取响应，再读取响应内容： ```python import httplib conn = httplib.HTTPConnection("www.baidu.com") conn.request("GET", "/index.html") r1 = conn.getresponse() print(r1.status, r1.reason) data = r1.read() print(data) conn.close() ``` 或者，使用`urllib`模块的`urlopen`函数，也可以轻松地下载网页内容： ```python from urllib import urlopen webdata = urlopen("http://www.example.com").read() print(webdata) ``` 对于更复杂的网络爬虫需求，Python的第三方库如`BeautifulSoup`和`lxml`提供了更方便的HTML和XML解析功能。此外，`requests`库是另一个常用的HTTP请求库，它比`urllib`更易用。另外，`pycurl`模块提供了CURL库的Python绑定，用于更高效地下载网页内容，特别是在处理大量请求时，它的性能优势更为明显。 Python的网络爬虫开发涵盖了从基础的HTTP请求到高级的HTML解析和内容提取，拥有众多工具和库可供选择，使得开发者能够灵活地构建各种复杂的网络爬虫项目。通过学习和实践这些知识，你将能够熟练地从互联网上获取并处理所需的信息。

3'33($0U5050$ -,     *)  H 生成电影对象   *  :

F:33(((:'$ 暂无 $(''(77    *

:':  *-  #**     "''J$:$(1'M$$#$$NJ?$'$

QAR/!7/!7'7'$$Q)R  *A       "''?"="'J

"'    *.           "''    #    *I             "    "''Q)R    *;

:"'"  *,       '#  A)           "?""' A

"':A:"'"A-/"#A*''AAA.

H7AI7''J$:$(1'M$"''$#$)$NJ?$$A;77'#

A,7'7'7.)7'T*#."3.7'

7="'J7'.-7'#.*77'Q)R.A

..:7'7.I'#.;777'.,

7':    I)          :7'7  I   H#  I          I-  H/"

/"37'#I*H2#0'07'IA$'""''$

I.H抓取数据

'#

H解析出标题

3'3'7

33Q#35AR

H解析出电影介绍

#

'J$'$(1'M$"''$#$$N/

/"#

#

'J$:$(1'M$"''$#$)$N:'!7

"'Q)R+"'QR

/"#

#

"''J$:$(1'M$"''$#$)$N:'!7:'!7/

"'Q#"'5R

/"#

$暂无$



H取得图片

7'$$("$"9"$Q)RQ$$R

7

7$)))-9$+7Q7J$9$+#R

J7+7($$



"'





H解析出地区

#

''J$:$(1'M$"''$#$$NJ?$'$

'Q)R/!7'$9$

Q)R'

/"#

$$



H3'QR/!7'$$QR

H33'33($0U5050$



H生成电影对象

   :    F:33(((:'$ 暂

无$(''(77

:':

#

"''J$:$(1'M$$#$$NJ?$'$QAR/!7/!7'7'$

$Q)R

"''?"="'J"'

"''#

""''Q)R

:"'"

'#

"?""'

"':

:"'"

/"#

''



H7

7''J$:$(1'M$"''$#$)$NJ?$$

77'#

7'7'7

7'T*#

"3

7'7="'J7'

7'#

77'Q)R



:7'7

'#

777'

7':

:7'7

H#



H/"/"37'#

H2#0'07'

$'""''$



豆瓣的电影页面并不是很对称，所以有时候抓取的结果可能会有点出入

本文来自 2!@4 博客，转载请标明出处： 1#997"'9V:>79":9

))9)-9A9A-I;,A'/

爬 Google 的查询页

最近没有没有 7?G 了，因此只能自己将查询对应的 E&6 准备好，然后通过脚本将

该链接对应的网页爬下来。我们假定，我们要爬这样一个页面：

1#9977"9'"D%GBF

我们可以直接在浏览器输入上面的 E&6，可以看到，是 7 对应 GBF 这个查询的返回页。

我们现在的目的是通过  程序把这个返回页  下来，存在本地，为后面的工

作准备数据。

一下就是我的代码：

('(7<

!7G8!7G8

E!&?4$F<9*)"3WF!G.)WX'4AW!YW426&)A)IIW

2GB?WGW-.)!$

"''!&"  &" #

1-)'(%(("('7('#

' &" 1-)

'(%(("('7('

'''"

'



1-)'(%(("('7('#

' &" 1-)'(%(("('7('

'''"

'

"''@  @ #

1'(%(("('7('#

剩余63页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

carr123

粉丝: 20

Python网络爬虫：提取与下载网页内容

用Python写网络爬虫.rar_python 爬虫_python爬虫_python网络爬虫_写网络爬虫_精通python

用Python写网络爬虫.rar_Python项目_python_python网络爬虫_爬虫_爬虫教程

用Python写网络爬虫_爬虫python_爬虫_python爬虫_python_meii2_源码

网络爬虫-Python和数据分析.rar_python 爬虫_爬虫 python_爬虫 python_爬虫python

python写网络爬虫

python-网络爬虫

python简单网络爬虫

用python写网络爬虫

使用python写网络爬虫

python自定义网络爬虫源码

最新资源