python爬虫学习笔记之Beautifulsoup模块用法详解_soup.find - CSDN文库

50 浏览量更新于2023-03-03 评论收藏 143KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

python爬虫学习笔记之爬虫学习笔记之Beautifulsoup模块用法详解模块用法详解

本文实例讲述了python爬虫学习笔记之Beautifulsoup模块用法。分享给大家供大家参考，具体如下：

相关内容：相关内容：

什么是beautifulsoup

bs4的使用

导入模块

选择使用解析器

使用标签名查找

使用findind_all查找

使用select查找

首发时间：2018-03-02 00:10

什么是什么是beautifulsoup:

是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.（官方）

beautifulsoup是一个解析器，可以特定的解析出内容，省去了我们编写正则表达式的麻烦。

Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4

beautifulsoup的版本：最新版是bs4

bs4的使用：的使用：

1.导入模块：导入模块：

from bs4 import beautifulsoup

2.选择解析器解析指定内容：选择解析器解析指定内容：

soup=beautifulsoup(解析内容,解析器)

常用解析器：html.parser,lxml,xml,html5lib

有时候需要安装安装解析器：比如pip3 install lxml

BeautifulSoup默认支持Python的标准HTML解析库，但是它也支持一些第三方的解析库：

解析器之间的区别解析器之间的区别 #此处摘自官方文档此处摘自官方文档

Beautiful Soup为不同的解析器提供了相同的接口,但解析器本身时有区别的.同一篇文档被不同的解析器解析后可能会生成不同结构的树型文档.区别

最大的是HTML解析器和XML解析器,看下面片段被解析成HTML结构:

BeautifulSoup("<a><b /></a>")

# <html><head></head><body><a><b></b></a></body></html>

因为空标签<b />不符合HTML标准,所以解析器把它解析成<b></b>

同样的文档使用XML解析如下(解析XML需要安装lxml库).注意,空标签<b />依然被保留,并且文档前添加了XML头,而不是被包含在<html>标签内:

BeautifulSoup("<a><b /></a>", "xml")

# <?xml version="1.0" encoding="utf-8"?>

# <a><b/></a>

HTML解析器之间也有区别,如果被解析的HTML文档是标准格式,那么解析器之间没有任何差别,只是解析速度不同,结果都会返回正确的文档树.

但是如果被解析文档不是标准格式,那么不同的解析器返回结果可能不同.下面例子中,使用lxml解析错误格式的文档,结果</p>标签被直接忽略掉了:

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论0

weixin_38696836

粉丝: 3
资源: 932

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈