BeautifulSoup中文文档：解析HTML/XML的Python工具

需积分: 9 10 浏览量更新于2024-07-21 1 收藏 921KB PDF 举报

BeautifulSoup是一个强大的Python库，用于解析HTML和XML文档。它特别设计用于处理不规范的标记，能够将复杂的数据结构转换成易于理解和操作的剖析树。BeautifulSoup 3.0的主要功能包括快速入门、解析HTML和XML、错误处理、Unicode支持以及高效的搜索和导航操作。 **快速开始**：文档提供了一个简洁的引导，让初学者快速上手，了解如何安装和导入BeautifulSoup到项目中。它强调了这个库能节省开发时间，尤其对于处理网页抓取或数据提取任务来说非常实用。 **解析文档**：文档详细介绍了BeautifulSoup如何解析HTML和XML文档，构建剖析树，这是整个库的核心。剖析树允许开发者以层次结构的形式查看和操作文档内容，这对于提取特定元素或数据至关重要。 **解析HTML**：BeautifulSoup擅长处理HTML中的标签和属性，用户可以通过解析器轻松访问元素及其属性，如parent、contents、string等。它还支持寻找特定标签、CSS类以及其他高级搜索方法。 **遍历和导航**：通过nextSibling、previousSibling、next和previous等方法，用户可以灵活地在剖析树中移动，逐层深入或后退，实现对文档结构的有序访问。 **使用标签名作为成员**：文档指出，用户可以直接使用标签名作为类或对象的属性，这在处理特定类型的标签时提供了便利。 **搜索剖析树**：BeautifulSoup提供了基本的find方法，允许用户按名称、属性、递归深度、文本内容等条件查找元素。此外，还有类似于findall的方法，支持CSS选择器。 **搜索剖析树内部**：findNextSiblings和findNextSibling方法用于查找指定条件下的后续兄弟节点，进一步细化了搜索功能。 **Unicode支持**：文档强调了BeautifulSoup对Unicode的支持，这对于处理多语言或非ASCII字符的网页内容非常重要。 **输出文档**：最后，用户了解到如何获取和输出剖析树的内容，以便进行展示或进一步处理。 BeautifulSoup文档为开发者提供了一套完整的工具，从基础入门到高级应用，覆盖了解析、搜索、导航和处理各种文档结构的能力。通过阅读和实践这些内容，Python开发者可以更高效地处理HTML和XML数据。

2015/10/7 BeautifulSoupdocumentation

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 7/39

处理XML不是很好。

使用BeautifulStoneSoup类剖析XML文档。它是一个概括的类，没有任何特定的XML方言已经

简单的标签内嵌规则。下面是范例：

from BeautifulSoup import BeautifulStoneSoup

xml = "<doc><tag1>Contents 1<tag2>Contents 2<tag1>Contents 3"

soup = BeautifulStoneSoup(xml)

print soup.prettify()

# <doc>

# <tag1>

# Contents 1

# <tag2>

# Contents 2

# </tag2>

# </tag1>

# <tag1>

# Contents 3

# </tag1>

# </doc>

BeautifulStoneSoup的一个主要缺点就是它不知道如何处理自结束标签。 HTML 有固定的自

结束标签集合，但是XML取决对应的DTD文件。你可以通过传递selfClosingTags 的参数的名

字到 BeautifulStoneSoup的构造器中，指定自结束标签:

from BeautifulSoup import BeautifulStoneSoup

xml = "<tag>Text 1<selfclosing>Text 2"

print BeautifulStoneSoup(xml).prettify()

# <tag>

# Text 1

# <selfclosing>

# Text 2

# </selfclosing>

# </tag>

print BeautifulStoneSoup(xml, selfClosingTags=['selfclosing']).prettify()

# <tag>

# Text 1

# <selfclosing />

# Text 2

# </tag>

如果它不工作

这里有一些其他的剖析类使用与上述两个类不同的智能感应。你也可以子类化以及定制

一个剖析器使用你自己的智能感应方法。

使用Unicode的Beautiful Soup，Dammit

当你的文档被剖析之后，它就自动被转换为unicode。 Beautiful Soup 只存储Unicode字

符串。

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup("Hello")

soup.contents[0]

2015/10/7 BeautifulSoupdocumentation

http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html 8/39

# u'Hello'

soup.originalEncoding

# 'ascii'

使用UTF-8编码的日文文档例子：

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup("\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf")

soup.contents[0]

# u'\u3053\u308c\u306f'

soup.originalEncoding

# 'utf-8'

str(soup)

# '\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf'

# Note: this bit uses EUC-JP, so it only works if you have cjkcodecs

# installed, or are running Python 2.4.

soup.__str__('euc-jp')

# '\xa4\xb3\xa4\xec\xa4\xcf'

Beautiful Soup 使用一个称为UnicodeDammit 的类去来检测文档的编码，并将其转换为

Unicode。如果你需要为其他文档（没有石油Beautiful Soup剖析过得文档）使用这转

换，你也可以直接使用UnicodeDammit。它是基于Universal Feed Parser开发的。

如果你使用Python2.4之前的版本，请下载和安装cjkcodecs 以及iconvcodec 是python支持更

多的编码，特别是CJK编码。要想更好地自动检测，你也要安装chardet

Beautiful Soup 会按顺序尝试不同的编码将你的文档转换为Unicode：

可以通过fromEncoding参数传递编码类型给soup的构造器

通过文档本身找到编码类型：例如XML的声明或者HTML文档http-equiv的META标签。

如果Beautiful Soup在文档中发现编码类型，它试着使用找到的类型转换文档。但

是，如果你明显的指定一个编码类型，并且成功使用了编码：这时它会忽略任何它

在文档中发现的编码类型。

通过嗅探文件开头的一下数据，判断编码。如果编码类型可以被检测到，它将是这

些中的一个：UTF-*编码，EBCDIC或者ASCII。

通过chardet 库,嗅探编码，如果你安装了这个库。

UTF-8

Windows-1252

Beautiful Soup总是会猜对它可以猜测的。但是对于那些没有声明以及有着奇怪编码的文

档，它会常常会失败。这时，它会选择Windows-1252编码，这个可能是错误的编码。下面

是EUC-JP的例子，Beautiful Soup猜错了编码。(重申一下：因为它使用了EUC-JP，这个

例子只会在 python 2.4或者你安装了cjkcodecs的情况下才工作。)：

from BeautifulSoup import BeautifulSoup

euc_jp = '\xa4\xb3\xa4\xec\xa4\xcf'

soup = BeautifulSoup(euc_jp)

soup.originalEncoding

# 'windows-1252'

str(soup)

# '\xc2\xa4\xc2\xb3\xc2\xa4\xc3\xac\xc2\xa4\xc3\x8f' # Wrong!

剩余38页未读，继续阅读

MiTu111

粉丝: 0

BeautifulSoup中文文档：解析HTML/XML的Python工具

Beautiful Soup 4官方翻译版.pdf

Beautiful_Soup中文文档.pdf

BeautifulSoup-4.4.0.pdf

Beautiful Soup.pdf

Python 使用Beautiful Soup 爬虫教程.pdf

beautiful-soup-4.pdf

Python爬虫中的网页解析技术对比：Beautiful Soup vs. lxml

【Beautiful Soup vs. XPath】：选择最佳的网页解析方案

Getting Started with Beautiful Soup by Vineeth G. Nair.pdf

HTML解析库Beautiful Soup.7z

最新资源