Python网络爬虫：BeautifulSoup库详解

需积分: 0 159 浏览量更新于2024-08-05 收藏 443KB PDF 举报

"第二讲整理1 - Python网络爬虫中的BeautifulSoup库入门" 在Python的网络爬虫领域，BeautifulSoup库是一个非常重要的工具，它主要用于解析HTML和XML文档，使得我们能够方便地提取和操作网页数据。本讲主要介绍了如何使用BeautifulSoup以及其基本元素。 1. 使用BeautifulSoup的方式在Python中，导入BeautifulSoup库后，通过调用BeautifulSoup函数，传入HTML或XML字符串以及解析器来创建一个解析对象。例如： ```python from bs4 import BeautifulSoup soup = BeautifulSoup('<p>data</p>', 'html.parser') ``` 这里的`'html.parser'`是内置的解析器，也可以选择其他如'lxml'或'html5lib'等更高效的解析器，但需要先通过pip安装。 2. BeautifulSoup的基本元素 BeautifulSoup对象代表整个HTML或XML文档，它包含了一系列的元素： - Tag（标签）：HTML中的标签，如`<html>`、`<body>`等，表示文档结构。每个Tag都有自己的名字（Name）和属性（Attributes）。 - Name（标签名）：可以通过`.name`属性访问标签名，例如`<tag>.name`。 - Attributes（属性）：标签的属性以字典形式存储，如`<tag>.attrs`可以获取所有属性。 - NavigableString（可导航字符串）：标签内的文本内容，不包括属性。`<tag>.string`返回Tag内的首个字符串。 - Comment（注释）：用于表示HTML中的注释，是BeautifulSoup特有的Comment类型。 3. 基于bs4库的HTML内容遍历方法 BeautifulSoup提供了多种方法来遍历和查找HTML内容，例如： - `.find()`：查找首个匹配指定条件的元素。 - `.find_all()`：查找所有匹配指定条件的元素，返回一个列表。 - `.children`和`.descendants`：遍历元素的所有直接子元素和所有后代元素。 - `.parent`和`.parents`：获取元素的父元素及其祖先。 - `.next`和`.next_siblings`：获取元素的下一个兄弟元素及其后续兄弟。 - `.previous`和`.previous_siblings`：获取元素的上一个兄弟元素及其前续兄弟。 4. 示例与应用在实际操作中，如果一个网页有多个相同的标签，如`<a>`，`soup.a`只会返回第一个匹配的`<a>`标签。如果想获取其他`<a>`标签，可以使用`.find_all('a')`。此外，通过`.parent.name`可以获取某个元素的父标签名。 BeautifulSoup提供了一套简洁且强大的API，使得我们可以轻松地解析和操作HTML文档，是Python网络爬虫开发中不可或缺的一部分。在进行网络爬虫项目时，熟练掌握BeautifulSoup的使用方法对于高效抓取和处理网页数据至关重要。

第二周：网络爬虫之提取

2.1BeautifulSoup 库入门

1.使用 BeautifulSoup 的方式

from bs4 import BeautifulSoup

soup = BeautifulSoup(‘<p>data</p>’, ‘html.parser’)

第一个参数是一个 html 格式的信息。

2. BeautifulSoup 的基本元素

BS 库是解析、遍历、维护“标签树”的功能库。例如：

soup = BeautifulSoup(“<html>data</html>”,”html.parser”)

soup = BeautifulSoup(open(“D://demo.html”),”html.parser”)

表 1.1 Beautiful Soup 库解析器

解析器使用方法条件

bs4 的 HTML 解析器 BeautifulSoup(mk,’html.parser’) 按照 bs4 库

lxml 的 HTML 解析器 BeautifulSoup(mk,’lxml’) pip install lxml

lxml 的 XML 解析器 BeautifulSoup(mk,’xml’) pip install lxml

html5lib 的解析器 BeautifulSoup(mk,’html5lib’) pip install html5lib

表 1.2 Beautiful Soup 类的基本元素

基本元素说明

Tag 标签，最基本的信息组织单元，分别用<>和</>表明开头和结尾

Name 标签的名字。格式：<tag>.name

Attributes 标签的属性，字典形式组织。格式<tag>.attrs

NavigableString 标签内非属性字符串，<></>中字符串。格式：<tag>.string

Comment 标签内字符串的注释部分，一种特殊的 Comment 类型

当 html 网页中存在多个相同标签时，只能返回第一个。例如输入：

print(soup.a)

因为该页面有多个 a 链接，所以只返回第一个，即

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic

Python</a>

当我们输入

print(soup.a.parent.name)

我们可以获取到 a 的父亲的名字，也即

‘p’

当我们输入

print(soup.a.parent.parent.name)

得到 p 标签的父亲是

‘body’

当我们来获取 a 标签的属性的时候，我们输入

下载后可阅读完整内容，剩余8页未读，立即下载

张匡龙

粉丝: 25
资源: 279

Python网络爬虫：BeautifulSoup库详解

第三讲整理1

第一讲整理1

第四讲整理1

(整理)第二讲-如何预测增长率.pdf

第二十五讲营销活动方案计划及进度整理.pdf

第一个讲了大机以及Z/OS概述，第二个讲了GDG，以及JCL,第三个跟第四个讲了PL/I，第五个讲COBOL，第三部分PL/I.学费180,000.本人精心整理

数据分析与软件应用第二讲SPSS统计软件基本操作与数据文件整理.ppt

【全国通用】三年级下册数学试题-专题培优：第十二讲整理与复习【二】.pdf

2022高考二轮复习数学 第1讲 新高考新题型 .pdf打包整理.zip

1第一讲汽车制动系统设计与匹配[整理].pdf

最新资源

2022高考二轮复习数学第1讲新高考新题型 .pdf打包整理.zip