BeautifulSoup中文文档：HTML/XML解析器的实用教程

需积分: 41 138 浏览量更新于2024-07-18 收藏 522KB PDF 举报

BeautifulSoup中文文档是一份详细的指南，由Leonard Richardson撰写，由Richie Yan翻译，专为Python用户提供一个强大的HTML和XML解析器。该文档旨在帮助读者了解BeautifulSoup 3.0的主要功能及其在处理不规范标记、构建解析树以及提供高效导航、搜索和修改功能方面的优势。文档首先引导读者快速入门，介绍了BeautifulSoup的基本概念，它是一个用于解析HTML和XML文档的工具，特别强调其对复杂标记的处理能力和简化编程任务的能力。它与Ruby中的RubyfulSoup形成对比，表明BeautifulSoup的适用范围不仅限于Python。文档主体部分分为几个章节： 1. **快速开始**：为初学者提供了如何安装和开始使用BeautifulSoup的步骤，包括设置环境和基本操作示例。 2. **剖析文档**：深入解析BeautifulSoup如何解析HTML和XML文档，生成解析树，使得用户可以理解和操作这些结构。 3. **剖析HTML** 和 **剖析XML**：分别介绍解析这两种常见文档类型的方法，展示了BeautifulSoup处理不同结构的能力。 4. **如果它不工作**：讨论遇到问题时的排查和解决策略，包括处理解析错误和异常。 5. **使用Unicode的BeautifulSoup, Dammit**：强调在处理包含非ASCII字符的文档时，BeautifulSoup如何处理Unicode编码问题。 6. **输出文档**：讲解如何从解析树中提取数据并输出到其他格式，如文本或新的HTML。 7. **剖析树**：详细解释BeautifulSoup解析后的结构，包括Tags的属性和它们之间的关系。 8. **Navigating剖析树**：演示如何通过parent、contents、string等属性进行树状导航，以及nextSibling、previousSibling等方法的应用。 9. **next和previous**：介绍如何遍历解析树中的节点，以及如何使用标签名作为成员访问特定元素。 10. **Searching剖析树**：重点介绍`findAll`方法及其变体，如基于标签名、属性、递归搜索、文本匹配和限制返回结果的数量。同时提及CSS选择器的使用。 11. **findNextSiblings** 和 **findNextSibling**：进一步探讨搜索功能，支持在当前节点的后续兄弟节点中查找指定条件的元素。 12. **first哪里去了?**：澄清关于`first`方法的问题，可能涉及到`findAll`的默认行为和特殊用法。阅读这份文档，用户将掌握如何利用BeautifulSoup有效地解析、操作和提取HTML和XML内容，提升开发效率。无论你是新手还是经验丰富的开发者，这份文档都能提供实用的指导。

Page 5Beautiful Soup documentation

8/12/2010 3:58:02 PMhttp://www.crummy.com/software/BeautifulSoup/documentation.zh.html

# Text 2

# </tag>

如

如如

如果

果果

果它

它它

它不

不不

不工

工工

工作

作作

作

这里有一些其他的剖析类使用与上述两个类不同的智能感应。你也可以子类化以及定制一个剖析器使用你自己的智能感应方法。

使

使使

使用

用用

用Unicode

UnicodeUnicode

Unicode的

的的

的Beautiful

BeautifulBeautiful

Beautiful Soup

SoupSoup

Soup，

，，

，Dammit

DammitDammit

Dammit

当你的文档被剖析之后，它就自动被转换为unicode。 Beautiful Soup 只存储Unicode字符串。

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup ("Hello")

soup.contents[0]

u'Hello'

soup.originalEncoding

# 'ascii'

使用UTF-8编码的日文文档例子：

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup ("\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf")

soup.contents[0]

# u'\u3053\u308c\u306f'

soup.originalEncoding

'utf-8'

str(soup)

# '\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf'

# Note: this bit uses EUC-JP, so it only works if you have cjkcodecs

installed, or are running Python 2.4.

soup.__str__('euc-jp')

# '\xa4\xb3\xa4\xec\xa4\xcf'

Beautiful Soup 使用一个称为

UnicodeDammit

的类去来检测文档的编码，并将其转换为Unicode。如果你需要为其他文档（没有石油

Beautiful Soup剖析过得文档）使用这转换，你也可以直接使用

UnicodeDammit

。它是基于Universal Feed Parser开发的。

如果你使用Python2.4之前的版本，请下载和安装

cjkcodecs

以及

iconvcodec

是python支持更多的编码，特别是CJK编码。要想更好地自

动检测，你也要安装

chardet

Beautiful Soup 会按顺序尝试不同的编码将你的文档转换为Unicode：

可以通过

fromEncoding

参数传递编码类型给soup的构造器

通过文档本身找到编码类型：例如XML的声明或者HTML文档

http-equiv

的META标签。如果Beautiful Soup在文档中发现编码类

型，它试着使用找到的类型转换文档。但是，如果你明显的指定一个编码类型，并且成功使用了编码：这时它会忽略任何它

在文档中发现的编码类型。

通过嗅探文件开头的一下数据，判断编码。如果编码类型可以被检测到，它将是这些中的一个：UTF-*编码，EBCDIC或者

ASCII。

通过

chardet

库,嗅探编码，如果你安装了这个库。

UTF-8

Windows-1252

Beautiful Soup总是会猜对它可以猜测的。但是对于那些没有声明以及有着奇怪编码的文档，它会常常会失败。这时，它会选择

Windows-1252编码，这个可能是错误的编码。下面是EUC-JP的例子，Beautiful Soup猜错了编码。(重申一下：因为它使用了EUC-

JP，这个例子只会在 python 2.4或者你安装了

cjkcodecs

的情况下才工作。)：

from BeautifulSoup import BeautifulSoup

euc_jp = '\xa4\xb3\xa4\xec\xa4\xcf'

soup = BeautifulSoup (euc_jp)

soup.originalEncoding

'windows-1252'

str(soup)

# '\xc2\xa4\xc2\xb3\xc2\xa4\xc3\xac\xc2\xa4\xc3\x8f' # Wrong!

但如果你使用

fromEncoding

参数指定编码，它可以正确的剖析文档，并可以将文档转换为UTF-8或者转回EUC-JP。

soup = BeautifulSoup (euc_jp, fromEncoding="euc-jp")

soup.originalEncoding

# 'windows-1252'

str(soup)

'\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf' # Right!

soup.__str__(self, 'euc-jp') == euc_jp

# True

如果你指定Beautiful Soup使用 Windows-1252编码（或者类似的编码如ISO-8859-1，ISO-8859-2), Beautiful Soup会找到并破坏文

档的smart quotes以及其他的Windows-specific 字符。这些字符不会转换为相应的Unicode,而是将它们变为HTML entities

(

BeautifulSoup

) 或者XML entitis(

BeautifulStoneSoup

)。

欢迎加入非盈利Python学习交流编程QQ群783462347，群里免费提供500+本Python书籍！

剩余23页未读，继续阅读

机器学习三贱客

粉丝: 1394
资源: 11

BeautifulSoup中文文档：HTML/XML解析器的实用教程

BeautifulSoup中文解析文档

使用Beautiful Soup构建网络爬虫入门

BSProject: 使用Beautiful Soup进行网站解析实践

beautiful-soup-4.pdf

Data_Science_With_Python_Workflow.pdf

Python 使用Beautiful Soup 爬虫教程.pdf

Getting Started with Beautiful Soup by Vineeth G. Nair.pdf

Beautiful Soup documentation.pdf

Beautiful Soup.pdf

Beautiful Soup 4官方翻译版.pdf

最新资源