Python爬虫入门：BeautifulSoup解析HTML文档（第四课）

134 浏览量更新于2024-08-29 收藏 90KB PDF 举报

本篇文章是Python爬虫入门教程的第四部分，专门讲解如何使用HTML文本解析库BeautifulSoup。在前几篇文章中，已经介绍了网络请求库Requests的重要性和使用方法，现在将重点转向从HTML文档中提取所需数据。HTML是网页内容的主要格式，其结构复杂，包含各种标签和节点，理解这些基础知识对于编写高效的爬虫至关重要。首先，HTML文档可以视为一个树形结构，由多个标签组成，如`<html>`, `<head>`, `<title>`, `<body>`, `<h1>`和`<p>`等。每个标签都有特定的含义，例如`<title>`标签包含页面的标题，而`<body>`则包含了主要内容。标签之间的关系如父子、兄弟、祖先和子孙关系，这对于理解文档结构和定位目标元素至关重要。 BeautifulSoup作为Python社区成熟的HTML解析库，提供了简便易用的API来提取和操作HTML内容。安装BeautifulSoup可以通过`pip install beautifulsoup4`命令完成，因为它已取代旧版BeautifulSoup3。学习BeautifulSoup之前，了解HTML的基本结构和术语是基础。在实际使用中，你可以通过BeautifulSoup创建一个对象，然后解析HTML文档，找到特定的标签或者属性。例如，要获取`<title>`标签中的文本，可以这样做： ```python from bs4 import BeautifulSoup # 假设response_text是获取到的HTML内容 soup = BeautifulSoup(response_text, 'html.parser') title_tag = soup.find('title') print(title_tag.text) ``` BeautifulSoup的强大之处在于其能够处理不完整或有错误的HTML文档，同时提供了遍历、查找、选择等多种方法，使得提取数据变得更加容易。它支持CSS选择器语法，也允许使用XPath查询，使定位元素更加灵活。本篇教程将教你如何利用BeautifulSoup解析HTML文档，包括基本的安装、HTML标签的理解以及如何通过BeautifulSoup对象操作和提取数据。这对于进行网络爬虫项目，尤其是针对HTML内容的抓取和分析，是非常实用的技能。通过实践和不断探索，你将能够更好地掌握这个工具，并应用于实际项目中。

python爬虫入门教程爬虫入门教程–HTML文本的解析库文本的解析库

BeautifulSoup（四）（四）

前言前言

python爬虫系列文章的第3篇介绍了网络请求库神器 Requests ，请求把数据返回来之后就要提取目标数据，不同的网站返回

的内容通常有多种不同的格式，一种是 json 格式，这类数据对开发者来说最友好。另一种 XML 格式的，还有一种最常见格式

的是 HTML 文档，今天就来讲讲如何从 HTML 中提取出感兴趣的数据

自己写个 HTML 解析器来解析吗？还是用正则表达式？这些都不是最好的办法，好在，Python 社区在这方便早就有了很成熟

的方案，BeautifulSoup 就是这一类问题的克星，它专注于 HTML 文档操作，名字来源于 Lewis Carroll 的一首同名诗歌。

BeautifulSoup 是一个用于解析 HTML 文档的 Python 库，通过 BeautifulSoup，你只需要用很少的代码就可以提取出 HTML

中任何感兴趣的内容，此外，它还有一定的 HTML 容错能力，对于一个格式不完整的HTML 文档，它也可以正确处理。

安装安装 BeautifulSoup

pip install beautifulsoup4

BeautifulSoup3 被官方放弃维护，你要下载最新的版本 BeautifulSoup4。

HTML 标签标签

学习 BeautifulSoup4 前有必要先对 HTML 文档有一个基本认识，如下代码，HTML 是一个树形组织结构。

<html>

<head>

<title>hello, world</title>

</head>

<body>

<h1>BeautifulSoup</h1>

<p>如何使用BeautifulSoup</p>

<body>

</html>

它由很多标签（Tag）组成，比如 html、head、title等等都是标签

一个标签对构成一个节点，比如 … 是一个根节点

节点之间存在某种关系，比如 h1 和 p 互为邻居，他们是相邻的兄弟（sibling）节点

h1 是 body 的直接子（children）节点，还是 html 的子孙（descendants）节点

body 是 p 的父（parent）节点，html 是 p 的祖辈（parents）节点

嵌套在标签之间的字符串是该节点下的一个特殊子节点，比如 “hello, world” 也是一个节点，只不过没名字。

使用使用 BeautifulSoup

构建一个 BeautifulSoup 对象需要两个参数，第一个参数是将要解析的 HTML 文本字符串，第二个参数告诉 BeautifulSoup 使

用哪个解析器来解析 HTML。

解析器负责把 HTML 解析成相关的对象，而 BeautifulSoup 负责操作数据（增删改查）。”html.parser” 是Python内置的解析

器，”lxml” 则是一个基于c语言开发的解析器，它的执行速度更快，不过它需要额外安装

通过 BeautifulSoup 对象就可以定位到 HTML 中的任何一个标签节点。

from bs4 import BeautifulSoup

text = """

<html>

<head>

<title >hello, world</title>

</head>

<body>

<h1>BeautifulSoup</h1>

<p class="bold">如何使用BeautifulSoup</p>

<p class="big" id="key1"> 第二个p标签</p>

<a href="http://foofish.net" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow"

rel="external nofollow" >python</a>

</body>

</html>

"""

soup = BeautifulSoup(text, "html.parser")

# title 标签

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38699551

粉丝: 4
资源: 909

Python爬虫入门：BeautifulSoup解析HTML文档（第四课）

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

Python爬虫入门教程：超级简单的Python爬虫教程.zip

Python爬虫基础入门：使用BeautifulSoup解析HTML页面

利用Beautiful Soup解析HTML页面：Python爬虫入门教程

19-Python入门基础必备-爬虫入门与Requests和BeautifulSoup库

Python爬虫入门必读：解析B站视频页面结构

Python爬虫入门：数据解析与提取技巧

python爬虫入门教程

python爬虫入门案例

python爬虫入门代码

最新资源