Python爬虫实践：抓取糗事百科段子

40 浏览量更新于2024-08-29 收藏 55KB PDF 举报

"本教程是Python爬虫包BeautifulSoup的实例教程，主要讲解如何通过Python爬取糗事百科的段子。首先不依赖BeautifulSoup，而是通过基础的Python库完成网页抓取。" 在Python爬虫开发中，BeautifulSoup是一个非常流行的库，用于解析HTML和XML文档。本实例分为两部分，第一部分是使用基础的Python库访问网页并抓取源代码，第二部分是使用正则表达式提取所需信息。 **第一部分：访问网址并抓取源码** 这部分主要使用了`urllib`和`urllib2`这两个Python标准库。首先导入所需的模块： 1. `urllib`模块提供了基本的URL操作功能。 2. `urllib2`模块用于更复杂的HTTP请求，如添加自定义头部信息。代码中设置了User-Agent头部，模拟浏览器访问，避免被网站识别为爬虫。然后，创建了一个`Request`对象，并使用`urlopen`打开网页，获取网页内容。如果出现HTTPError或URLError，程序会打印错误信息并退出。最后，将获取的二进制内容解码成UTF-8字符串。 ```python url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357' user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36' headers = {'User-Agent': user_agent} try: request = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(request) content = response.read() except urllib2.HTTPError as e: print(e) exit() except urllib2.URLError as e: print(e) exit() print(content.decode('utf-8')) ``` **第二部分：利用正则表达式提取信息** 在获取了网页源码后，可以使用正则表达式对内容进行解析。正则表达式是一种强大的文本处理工具，可以用来查找、替换或者分割字符串。首先分析网页源码，找到段子内容的特征，然后编写相应的正则表达式。由于`\n`不在`.`的匹配范围内，所以在编写正则时需特别注意，可能需要使用其他方式来匹配换行符。 ```python import re # 观察源码，确定正则表达式 pattern = r'你的正则表达式模式' # 使用re模块的findall函数，找到所有匹配的段子 matches = re.findall(pattern, content) # 打印匹配到的信息 for match in matches: print(match) ``` 这个实例中，没有提供具体的正则表达式，需要根据实际的网页结构和内容来定制。例如，如果段子被包含在特定的HTML标签中，如`<p>`或`<div>`，则可以使用这些标签作为匹配的线索。 **总结** 这个实例展示了如何不使用BeautifulSoup从网页中抓取信息。虽然这种方法可以工作，但它通常不如使用专门的解析库如BeautifulSoup或lxml那样高效和灵活。BeautifulSoup库提供了更高级别的接口，能够更方便地解析和导航HTML文档，特别是对于复杂的页面结构，使用BeautifulSoup能大大简化工作流程。在后续的教程中，可能会引入BeautifulSoup来改进这个爬虫，使其更加高效和健壮。

Python爬虫包爬虫包BeautifulSoup实例（三）实例（三）

一步一步构建一个爬虫实例，抓取糗事百科的段子

先不用beautifulsoup包来进行解析

第一步第一步，访问网址并抓取源码

# -*- coding: utf-8 -*-

# @Author: HaonanWu

# @Date: 2016-12-22 16:16:08

# @Last Modified by: HaonanWu

# @Last Modified time: 2016-12-22 20:17:13

import urllib

import urllib2

import re

import os

if __name__ == '__main__':

# 访问网址并抓取源码

url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99

Safari/537.36'

headers = {'User-Agent':user_agent}

try:

request = urllib2.Request(url = url, headers = headers)

response = urllib2.urlopen(request)

content = response.read()

except urllib2.HTTPError as e:

print e

exit()

except urllib2.URLError as e:

print e

exit()

print content.decode('utf-8')

第二步第二步，利用正则表达式提取信息

首先先观察源码中，你需要的内容的位置以及如何识别

然后用正则表达式去识别读取

注意正则表达式中的 . 是不能匹配的，所以需要设置一下匹配模式。

# -*- coding: utf-8 -*-

# @Author: HaonanWu

# @Date: 2016-12-22 16:16:08

# @Last Modified by: HaonanWu

# @Last Modified time: 2016-12-22 20:17:13

import urllib

import urllib2

import re

import os

if __name__ == '__main__':

# 访问网址并抓取源码

url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99

Safari/537.36'

headers = {'User-Agent':user_agent}

try:

request = urllib2.Request(url = url, headers = headers)

response = urllib2.urlopen(request)

content = response.read()

except urllib2.HTTPError as e:

print e

exit()

except urllib2.URLError as e:

print e

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38707356

粉丝: 17
资源: 958

Python爬虫实践：抓取糗事百科段子

beautifulsoup4-4.5.1.tar.gz

区块链开发教学视频（从入门到精通）

Python模块 - Beautifulsoup中文手册

Python爬虫包BeautifulSoup学习实例（五）

Python爬虫包 BeautifulSoup 递归抓取实例详解

Python爬虫包BeautifulSoup简介与安装（一）

Python爬虫库BeautifulSoup的介绍与简单使用实例

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解

Python基础爬虫：BeautifulSoup与requests实例

Python爬虫Beautifulsoup模块详解与实例

最新资源