Python BeautifulSoup 4.4.0解析教程与实战示例

需积分: 1 43 浏览量更新于2024-06-23 收藏 466KB PDF 举报

"BeautifulSoup参考文档是针对Python编程语言的XML和HTML解析库，版本为4.4.0。该文档详细介绍了如何利用BeautifulSoup高效地从HTML或XML文件中提取和操作数据。BeautifulSoup的核心功能包括文档导航、查找和修改元素，旨在大幅度减少开发者在处理网络抓取和数据清洗任务时的工作量。文档覆盖了BeautifulSoup的主要特性和用法，包括实例演示，使得用户能够快速理解和上手。特别强调，虽然BeautifulSoup3已经不再维护，建议使用最新版本4进行项目开发，以获得更好的兼容性和性能。文档中还提供了多语言支持，包括中文版，方便不同语言背景的用户查阅。对于遇到问题的读者，文档建议通过邮件至讨论组提问，并附带相关的HTML代码以便于问题分析和解答。文档以爱丽丝梦游仙境的故事片段为例，展示了如何使用BeautifulSoup创建BeautifulSoup对象，并利用`prettify()`函数将其转化为格式良好的HTML文本，以便于阅读和调试。这不仅有助于新手入门，也为高级用户提供了一个清晰的操作指南。 BeautifulSoup参考文档是Python开发者必备的工具，无论你是处理网页抓取、数据挖掘还是简单的文档处理，都能找到所需的解决方案。通过阅读和实践文档中的示例，开发者可以熟练掌握这个强大的库，提高工作效率。"

# u'Extremely bold'

type(unicode_string)

# <type 'unicode'>

tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:

tag.string.replace_with("No longer bold")

tag

# <blockquote>No longer bold</blockquote>

NavigableString 对象支持遍历文档树和搜索文档树中定义的大部分属性, 并非全部.尤其是,一个字符串不能包含其它内容

(tag能够包含字符串或是其它tag),字符串不支持 .contents 或 .string 属性或 find() 方法.

如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就

算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.

BeautifulSoup¶

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持遍历文档树和搜索文档树中描

述的大部分的方法.

因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便

的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name

soup.name

# u'[document]'

注释及特殊字符串注释及特殊字符串¶

Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档

的注释部分:

markup = ""

soup = BeautifulSoup(markup)

comment = soup.b.string

type(comment)

# <class 'bs4.element.Comment'>

Comment 对象是一个特殊类型的 NavigableString 对象:

comment

# u'Hey, buddy. Want to buy a used parser'

但是当它出现在HTML文档中时, Comment 对象会使用特殊的格式输出:

print(soup.b.prettify())

#

#

#

Beautiful Soup中定义的其它类型都可能会出现在XML的文档中: CData , ProcessingInstruction , Declaration , Doctype .与

Comment 对象类似,这些类都是 NavigableString 的子类,只是添加了一些额外的方法的字符串独享.下面是用CDATA来替代注释

的例子:

from bs4 import CData

cdata = CData("A CDATA block")

comment.replace_with(cdata)

print(soup.b.prettify())

#

# <![CDATA[A CDATA block]]>

#

遍历文档树遍历文档树¶

还拿”爱丽丝梦游仙境”的文档来做例子:

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

<a >Elsie</a>,

<a >Lacie</a> and

<a >Tillie</a>;

and they lived at the bottom of a well.

...

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

通过这段例子来演示怎样从文档的一段内容找到另一段内容

子节点子节点¶

一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.

注意: Beautiful Soup中字符串节点不支持这些属性,因为字符串没有子节点

tag的名字的名字¶

操作文档树最简单的方法就是告诉它你想获取的tag的name.如果想获取 <head> 标签,只要用 soup.head :

soup.head

# <head><title>The Dormouse's story</title></head>

soup.title

# <title>The Dormouse's story</title>

这是个获取tag的小窍门,可以在文档树的tag中多次调用这个方法.下面的代码可以获取<body>标签中的第一个标签:

soup.body.b

# The Dormouse's story

通过点取属性的方式只能获得当前名字的第一个tag:

soup.a

# <a class="sister" >Elsie</a>

如果想要得到所有的<a>标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如:

find_all()

soup.find_all('a')

# [<a class="sister" >Elsie</a>,

# <a class="sister" >Lacie</a>,

# <a class="sister" >Tillie</a>]

.contents 和和 .children¶

tag的 .contents 属性可以将tag的子节点以列表的方式输出:

head_tag = soup.head

head_tag

# <head><title>The Dormouse's story</title></head>

head_tag.contents

[<title>The Dormouse's story</title>]

title_tag = head_tag.contents[0]

title_tag

# <title>The Dormouse's story</title>

title_tag.contents

# [u'The Dormouse's story']

BeautifulSoup 对象本身一定会包含子节点,也就是说<html>标签也是 BeautifulSoup 对象的子节点:

len(soup.contents)

# 1

soup.contents[0].name

# u'html'

字符串没有 .contents 属性,因为字符串没有子节点:

text = title_tag.contents[0]

text.contents

# AttributeError: 'NavigableString' object has no attribute 'contents'

剩余31页未读，继续阅读

__XYZ

粉丝: 42

Python BeautifulSoup 4.4.0解析教程与实战示例

Beautiful Soup documentation.pdf

Beautiful_Soup中文文档.pdf

BeautifulSoup入门共3页.pdf.zip

BeautifulSoup4.2文档

BeautifulSoup

BeautifulSoup.zip

BeautifulSoup1_zip_BeautifulSoup1.zip_

BeautifulSoup 4.4.0中文文档：高效HTML/XML数据提取工具

使用Python BeautifulSoup解析命令行参考：查看Trunk组信息

beautifulsoup4

最新资源