Python网络爬虫入门与正文提取教程

4星 · 超过85%的资源需积分: 12 4 浏览量更新于2024-07-24 收藏 664KB DOC 举报

在Python编程中，网络爬虫（网络蜘蛛）是一种用于自动抓取、解析并处理网页数据的工具，主要用于数据挖掘、信息提取和网站监控等场景。本文档详细介绍了如何利用Python的基础库如urllib和httplib来编写一个简单的网络爬虫，以及通过更高级的sgmllib和第三方模块pycurl来获取和处理网页内容。首先，让我们从基础部分开始。`import urllib.request` 是用来处理HTTP请求的基本库，`url="http://google.cn/"` 设置了要访问的网页地址。通过`urllib.request.urlopen(url)`，我们可以打开指定URL，然后调用`response.read()` 方法获取网页的HTML内容。这个阶段主要关注的是如何读取和存储网页的原始HTML数据。在更深入的层次，`import os, sys, datetime, http.client, urllib, re, sgmllib, types` 表明我们将使用到多种模块，如正则表达式(re)来解析HTML，以及SGMLParser（sgmllib的一部分）来解析HTML结构。`class Html2txt(SGMLParser)`定义了一个子类，继承自SGMLParser，用于提取网页正文。`reset()` 和 `handle_data()` 方法用于初始化状态和处理HTML数据，`start_head()` 和 `end_head()` 分别表示遇到HTML头部和结束头部时的行为。这部分代码的核心是利用SGMLParser解析HTML，只保留文本内容，从而过滤掉HTML标签。接着，我们看到一个示例，展示了如何使用`urllib.urlopen()`和`HTTPConnection`来下载网页内容。`httplib`模块提供了HTTP客户端的接口，`conn.request()`方法发送HTTP GET请求，`getresponse()`获取响应，`data=r1.read()`读取响应内容，最后关闭连接。这部分演示了如何通过Python标准库实现基本的网络下载功能。如果需要更高效和灵活的下载能力，还可以考虑使用第三方模块pycurl。虽然没有给出具体的pycurl代码，但提到它能实现更高级的下载功能，可能包括多线程下载、代理支持和错误处理等特性。总结来说，本篇文档主要讲解了使用Python的urllib、sgmllib、httplib以及pycurl模块来编写网络爬虫的基本原理和操作。学习者可以从基础的HTML内容提取开始，逐步掌握如何处理复杂的网页结构，并根据需求选择合适的模块进行扩展。通过这些技术，可以有效地抓取并分析大量网络数据，是数据分析和自动化任务中的重要工具。

'J$:$(1'M$"''$#$$NJ?$'$    -           

'Q)R/!7'$9$  --       Q)R'  -*   /"#  -A

   $$   -.        -I     H3    'QR/!7'$  $QR    -;     H3  

3'33($0U5050$ -,     *)  H 生成电影对象   *  :

F:33(((:'$ 暂无 $(''(77    *

:':  *-  #**     "''J$:$(1'M$$#$$NJ?$'$

QAR/!7/!7'7'$$Q)R  *A       "''?"="'J

"'    *.           "''    #    *I             "    "''Q)R    *;

:"'"  *,       '#  A)           "?""' A

"':A:"'"A-/"#A*''AAA.

H7AI7''J$:$(1'M$"''$#$)$NJ?$$A;77'#

A,7'7'7.)7'T*#."3.7'

7="'J7'.-7'#.*77'Q)R.A

..:7'7.I'#.;777'.,

7':    I)          :7'7  I   H#  I          I-  H/"

/"37'#I*H2#0'07'IA$'""''$

I.H抓取数据

'#

H解析出标题

3'3'7

33Q#35AR

H解析出电影介绍

#

'J$'$(1'M$"''$#$$N/

/"#

#

'J$:$(1'M$"''$#$)$N:'!7

"'Q)R+"'QR

/"#

#

"''J$:$(1'M$"''$#$)$N:'!7:'!7/

"'Q#"'5R

/"#

$暂无$



H取得图片

7'$$("$"9"$Q)RQ$$R

7

7$)))-9$+7Q7J$9$+#R

J7+7($$



"'





H解析出地区

#

''J$:$(1'M$"''$#$$NJ?$'$

'Q)R/!7'$9$

Q)R'

/"#

$$



H3'QR/!7'$$QR

H33'33($0U5050$



H生成电影对象

   :    F:33(((:'$ 暂

无$(''(77

:':

#

"''J$:$(1'M$$#$$NJ?$'$QAR/!7/!7'7'$

$Q)R

"''?"="'J"'

"''#

""''Q)R

:"'"

'#

"?""'

"':

:"'"

/"#

''



H7

7''J$:$(1'M$"''$#$)$NJ?$$

77'#

7'7'7

7'T*#

"3

7'7="'J7'

7'#

77'Q)R



:7'7

'#

777'

7':

:7'7

H#



H/"/"37'#

H2#0'07'

$'""''$



豆瓣的电影页面并不是很对称，所以有时候抓取的结果可能会有点出入

本文来自 2!@4 博客，转载请标明出处： 1#997"'9V:>79":9

))9)-9A9A-I;,A'/

爬 Google 的查询页

最近没有没有 7?G 了，因此只能自己将查询对应的 E&6 准备好，然后通过脚本将

该链接对应的网页爬下来。我们假定，我们要爬这样一个页面：

1#9977"9'"D%GBF

我们可以直接在浏览器输入上面的 E&6，可以看到，是 7 对应 GBF 这个查询的返回页。

我们现在的目的是通过  程序把这个返回页  下来，存在本地，为后面的工

作准备数据。

一下就是我的代码：

('(7<

!7G8!7G8

E!&?4$F<9*)"3WF!G.)WX'4AW!YW426&)A)IIW

2GB?WGW-.)!$

"''!&"  &" #

1-)'(%(("('7('#

' &" 1-)

'(%(("('7('

'''"

'



1-)'(%(("('7('#

' &" 1-)'(%(("('7('

'''"

'

剩余63页未读，继续阅读

yemoxia

粉丝: 1
资源: 3

Python网络爬虫入门与正文提取教程

Python编写蒸汽蜘蛛爬虫教程

"Python编写的网络爬虫入门教程及操作指南

Python网络爬虫编写教程

一个简单的网络蜘蛛框架，由Python编写

Python-pythonspiderPYTHON蜘蛛爬虫框架

Python蜘蛛

Python实现网络爬虫、蜘蛛.docx

Python实现网络爬虫、蜘蛛.pdf

在Windows系统下用python编写一个的程序画出蜘蛛侠

用Python实现网络爬虫、蜘蛛.docx

最新资源