Python爬虫包BeautifulSoup实例（三）_pythonBeautifulSoup

python

BeautifulSoup

131 浏览量更新于2023-05-11 评论收藏 54KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Python爬虫包爬虫包BeautifulSoup实例（三）实例（三）

主要为大家详细介绍了Python爬虫包BeautifulSoup实例，具有一定的参考价值，感兴趣的朋友可以参考一下

一步一步构建一个爬虫实例，抓取糗事百科的段子

先不用beautifulsoup包来进行解析

第一步第一步，访问网址并抓取源码

# -*- coding: utf-8 -*-

# @Author: HaonanWu

# @Date: 2016-12-22 16:16:08

# @Last Modified by: HaonanWu

# @Last Modified time: 2016-12-22 20:17:13

import urllib

import urllib2

import re

import os

if __name__ == '__main__':

# 访问网址并抓取源码

url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'

headers = {'User-Agent':user_agent}

try:

request = urllib2.Request(url = url, headers = headers)

response = urllib2.urlopen(request)

content = response.read()

except urllib2.HTTPError as e:

print e

exit()

except urllib2.URLError as e:

print e

exit()

print content.decode('utf-8')

第二步第二步，利用正则表达式提取信息

首先先观察源码中，你需要的内容的位置以及如何识别

然后用正则表达式去识别读取

注意正则表达式中的 . 是不能匹配的，所以需要设置一下匹配模式。

# -*- coding: utf-8 -*-

# @Author: HaonanWu

# @Date: 2016-12-22 16:16:08

# @Last Modified by: HaonanWu

# @Last Modified time: 2016-12-22 20:17:13

import urllib

import urllib2

import re

import os

if __name__ == '__main__':

# 访问网址并抓取源码

url = 'http://www.qiushibaike.com/textnew/page/1/?s=4941357'

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'

headers = {'User-Agent':user_agent}

try:

request = urllib2.Request(url = url, headers = headers)

response = urllib2.urlopen(request)

content = response.read()

except urllib2.HTTPError as e:

print e

exit()

except urllib2.URLError as e:

print e

exit()

regex = re.compile('<div class="content">.*?<span>(.*?)</span>.*?</div>', re.S)

items = re.findall(regex, content)

# 提取数据

# 注意换行符，设置 . 能够匹配换行符

for item in items:

print item

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38679276

粉丝: 2
资源: 911

会员权益专享

Python爬虫包BeautifulSoup实例（三）

评论0

会员权益专享

最新资源

Python爬虫包BeautifulSoup实例（三）

评论0

Python爬虫库BeautifulSoup的介绍与简单使用实例

python用BeautifulSoup库简单爬虫实例分析

Python爬虫包BeautifulSoup学习实例（五）

Python爬虫实践与实例解析

Python爬虫初探：使用Requests和BeautifulSoup

使用正则表达式爬取邮件地址：Python爬虫数据收集实例

Python爬虫进阶技巧：使用Requests及BeautifulSoup

Python中的网络爬虫：Requests与BeautifulSoup

python爬虫beautifulsoup实例

python 爬虫动态爬取实例

python爬虫简单小实例

python爬虫爬取图片实例

python爬虫实例网易云-Python3爬虫实例之网易云音乐爬虫

python爬虫代码大全

python爬虫实例教程-代码

数据采集爬虫实例beautifulsoup

python爬虫实例源码

python爬虫招聘网站数据分析_Python爬虫实例——基于招聘网站发帖数据

linux下python爬虫实例

python爬虫实例大学排名

会员权益专享

最新资源