BeautifulSoup 4.4.0中文文档：高效HTML/XML数据提取工具

需积分: 10 198 浏览量更新于2024-07-19 收藏 1.02MB PDF 举报

BeautifulSoup-4.4.0是一个针对Python编程语言的库，特别设计用于从HTML或XML文件中高效地提取、解析和操作数据。作为第4个主要版本，BeautifulSoup旨在简化网页抓取和数据挖掘任务，使得开发者能够通过熟悉的API和灵活的文档导航、查找和修改功能来节省大量的时间和精力。该文档详尽介绍了BeautifulSoup 4.4.0的所有关键特性，包括但不限于： 1. **解析支持**：BeautifulSoup支持多种解析器，如Python内置的html.parser，以及更高效的 lxml 或 html5lib，可以根据项目需求选择最合适的转换器。 2. **文档导航**：通过标签名、属性、ID、类名等搜索方式，用户可以方便地定位到HTML元素，进行遍历和筛选。 3. **查找和选择**：提供CSS选择器、XPath和其他高级查找方法，以匹配和获取特定的节点。 4. **修改文档**：允许对HTML结构进行修改，例如添加、删除或替换元素，实现动态内容的处理。 5. **异常处理**：文档涵盖了如何处理可能出现的错误和异常情况，确保程序的稳定性和健壮性。文档强调，由于BeautifulSoup 3已停止维护，建议使用BeautifulSoup 4进行新项目的开发，以获得最新的功能和性能提升。同时，为了方便不同语言使用者，文档还提供了中文、日语和韩语的翻译版本，以便非英语背景的开发者也能理解和使用。在学习过程中，读者可以参考文档中提供的示例，如Alice梦游仙境的故事HTML片段，了解如何运用BeautifulSoup解析链接、锚点和类属性，以及如何构造问题描述时附带HTML代码以方便他人理解和协助。快速入门部分，通过实际代码展示了如何使用BeautifulSoup处理HTML结构，包括获取标题、链接和其他元素，这对于初学者来说是非常实用的教程部分。BeautifulSoup-4.4.0文档是一个全面且易用的工具，对于任何需要处理网页数据的Python开发者来说，都是不可或缺的学习资料。

2017/11/24 Beautiful Soup 4.4.0 文档 — beautifulsoup 4.4.0 文档

file:///D:/beautifulsoup/docs/_build/index.html 8/45

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持遍历

文档树和搜索文档树中描述的大部分的方法.

因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有

时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特

殊属性 .name

soup.name

# u'[document]'

注释及特殊字符串

Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容

易让人担心的内容是文档的注释部分:

markup = ""

soup = BeautifulSoup(markup)

comment = soup.b.string

type(comment)

# <class 'bs4.element.Comment'>

Comment 对象是一个特殊类型的 NavigableString 对象:

comment

# u'Hey, buddy. Want to buy a used parser'

但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:

print(soup.b.prettify())

#

#

#

Beautiful Soup中定义的其它类型都可能会出现在XML的文档中: CData , ProcessingInstruction ,

Declaration , Doctype .与 Comment 对象类似,这些类都是 NavigableString 的子类,只是添加了一些额外的

方法的字符串独享.下面是用CDATA来替代注释的例子:

from

bs4

import

CData

cdata = CData("A CDATA block")

comment.replace_with(cdata)

print(soup.b.prettify())

#

# <![CDATA[A CDATA block]]>

#

遍历文档树

还拿”爱丽丝梦游仙境”的文档来做例子:

2017/11/24 Beautiful Soup 4.4.0 文档 — beautifulsoup 4.4.0 文档

file:///D:/beautifulsoup/docs/_build/index.html 9/45

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.

...

"""

from

bs4

import

BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

通过这段例子来演示怎样从文档的一段内容找到另一段内容

子节点

一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许

多操作和遍历子节点的属性.

注意: Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点

tag的名字

操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取 <head> 标签,只要用

soup.head :

soup.head

# <head><title>The Dormouse's story</title></head>

soup.title

# <title>The Dormouse's story</title>

这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取<body>

标签中的第一个标签:

soup.body.b

# The Dormouse's story

通过点取属性的方式只能获得当前名字的第一个tag:

soup.a

# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

如果想要得到所有的<a>标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到

Searching the tree

中描述的方法,比如: find_all()

soup.find_all('a')

# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

剩余44页未读，继续阅读

AI小白..

粉丝: 0
资源: 1

BeautifulSoup 4.4.0中文文档：高效HTML/XML数据提取工具

Beautiful Soup 4.4.0 文档

Beautiful Soup 4官方翻译版.pdf

beautiful soup 4.2 官方文档

用python从https://www.weather-forecast.com爬取各省实时气温并打印

怎么爬取https://price.pcauto.com.cn/top/sales/s1-t3-y2022-m12.html和https://price.pcauto.com.cn/top/sales/s1-t3-y2021-m12.html中的表格

网址是https://www.555dy1.com/vodplay/58397-4-1.html

https://manu44.magtech.com.cn/Jwk_infotech_wk3/article/2023/2096-3467/2096-3467-7-4-145.shtml 获取网页的文本内容

怎么爬取https://price.pcauto.com.cn/top/sales/s1-t3-y2022-m12.html中的表格

如何爬取https://price.pcauto.com.cn/top/sales/s1-t3-y2023-m4.html中的表格

如何用python获取http://paper.people.com.cn/rmrb/html/2023-04/21/nw.D110000renmrb_20230421_5-01.htm的文本内容

最新资源