BeautifulSoup中文解析文档

需积分: 10 72 浏览量更新于2024-07-17 1 收藏 522KB PDF 举报

"Beautiful_Soup中文文档.pdf" BeautifulSoup是Python编程语言中的一个强大的库，用于解析HTML和XML文档。它由Leonard Richardson开发，并由Richie Yan进行了中文翻译。这个库的目的是简化网页抓取和数据提取过程，即使面对不规范的标记也能有效地处理。BeautifulSoup提供了简单易用的接口，使得开发者能够轻松地导航、搜索和修改解析树。快速开始：要开始使用BeautifulSoup，首先需要导入库，然后创建一个BeautifulSoup对象，传入HTML或XML字符串或文件对象。例如： ```python from bs4 import BeautifulSoup with open('file.html', 'r') as file: soup = BeautifulSoup(file, 'html.parser') ``` 剖析文档：BeautifulSoup会自动构建一个解析树，允许用户通过对象的方法来访问和操作HTML元素。对于HTML，它使用Python的内置`html.parser`，而对于XML，可以使用`lxml`或`xml.dom.minidom`等第三方解析器。剖析HTML和XML：BeautifulSoup可以处理这两种格式的文档，通过`Tag`对象表示HTML标签，`NavigableString`对象表示文本内容。例如，可以使用`find_all()`方法找到所有的特定标签： ```python divs = soup.find_all('div') ``` 如果它不工作：在解析过程中遇到问题时，可以通过检查错误信息或使用调试工具来诊断问题。此外，BeautifulSoup的`FeatureNotFound`和`ParseError`异常可以帮助定位解析错误。使用Unicode的BeautifulSoup, Dammit：库内建了处理编码问题的功能，即使源文档的编码未知，BeautifulSoup也能尝试自动检测。如果自动检测失败，可以手动指定编码。输出文档：解析后的树可以转换回字符串，如HTML或XML，使用`prettify()`方法可以格式化输出，使其更易于阅读。剖析树：BeautifulSoup提供了多种导航方法，如`parent`指向父元素，`contents`列出子元素，`string`获取元素的文本内容，`nextSibling`和`previousSibling`指向相邻的兄弟元素，`next`和`previous`则指向下一个或上一个元素。搜索剖析树：`find_all()`是最基础的搜索方法，可以按标签名、属性、文本内容等条件查找元素。此外，还有`find()`方法找到第一个匹配的元素，以及`find_next_siblings()`和`find_next_sibling()`等方法在树中按顺序查找。使用CSS类查找：通过`class_`参数，可以像CSS选择器一样根据类名查找元素。 `first`在哪里？：在BeautifulSoup3中，没有直接的`first`方法，但可以通过`[0]`访问第一个匹配的元素。搜索剖析树内部：`findNextSiblings()`和`findNextSibling()`等方法允许在解析树的结构内进行深度搜索，而`find_all()`和`find()`通常用于广度优先搜索。 BeautifulSoup是一个强大的工具，它简化了HTML和XML文档的解析和处理，使得开发者能够高效地抓取和分析网页数据。通过理解和熟练使用其提供的各种方法，可以极大地提高Web抓取项目的效率和准确性。

Page 5Beautiful Soup documentation

8/12/2010 3:58:02 PMhttp://www.crummy.com/software/BeautifulSoup/documentation.zh.html

# Text 2

# </tag>

如

如如

如果

果果

果它

它它

它不

不不

不工

工工

工作

作作

作

这里有一些其他的剖析类使用与上述两个类不同的智能感应。你也可以子类化以及定制一个剖析器使用你自己的智能感应方法。

使

使使

使用

用用

用Unicode

UnicodeUnicode

Unicode的

的的

的Beautiful

BeautifulBeautiful

Beautiful Soup

SoupSoup

Soup，

，，

，Dammit

DammitDammit

Dammit

当你的文档被剖析之后，它就自动被转换为unicode。 Beautiful Soup 只存储Unicode字符串。

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup ("Hello")

soup.contents[0]

u'Hello'

soup.originalEncoding

# 'ascii'

使用UTF-8编码的日文文档例子：

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup ("\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf")

soup.contents[0]

# u'\u3053\u308c\u306f'

soup.originalEncoding

'utf-8'

str(soup)

# '\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf'

# Note: this bit uses EUC-JP, so it only works if you have cjkcodecs

installed, or are running Python 2.4.

soup.__str__('euc-jp')

# '\xa4\xb3\xa4\xec\xa4\xcf'

Beautiful Soup 使用一个称为

UnicodeDammit

的类去来检测文档的编码，并将其转换为Unicode。如果你需要为其他文档（没有石油

Beautiful Soup剖析过得文档）使用这转换，你也可以直接使用

UnicodeDammit

。它是基于Universal Feed Parser开发的。

如果你使用Python2.4之前的版本，请下载和安装

cjkcodecs

以及

iconvcodec

是python支持更多的编码，特别是CJK编码。要想更好地自

动检测，你也要安装

chardet

Beautiful Soup 会按顺序尝试不同的编码将你的文档转换为Unicode：

可以通过

fromEncoding

参数传递编码类型给soup的构造器

通过文档本身找到编码类型：例如XML的声明或者HTML文档

http-equiv

的META标签。如果Beautiful Soup在文档中发现编码类

型，它试着使用找到的类型转换文档。但是，如果你明显的指定一个编码类型，并且成功使用了编码：这时它会忽略任何它

在文档中发现的编码类型。

通过嗅探文件开头的一下数据，判断编码。如果编码类型可以被检测到，它将是这些中的一个：UTF-*编码，EBCDIC或者

ASCII。

通过

chardet

库,嗅探编码，如果你安装了这个库。

UTF-8

Windows-1252

Beautiful Soup总是会猜对它可以猜测的。但是对于那些没有声明以及有着奇怪编码的文档，它会常常会失败。这时，它会选择

Windows-1252编码，这个可能是错误的编码。下面是EUC-JP的例子，Beautiful Soup猜错了编码。(重申一下：因为它使用了EUC-

JP，这个例子只会在 python 2.4或者你安装了

cjkcodecs

的情况下才工作。)：

from BeautifulSoup import BeautifulSoup

euc_jp = '\xa4\xb3\xa4\xec\xa4\xcf'

soup = BeautifulSoup (euc_jp)

soup.originalEncoding

'windows-1252'

str(soup)

# '\xc2\xa4\xc2\xb3\xc2\xa4\xc3\xac\xc2\xa4\xc3\x8f' # Wrong!

但如果你使用

fromEncoding

参数指定编码，它可以正确的剖析文档，并可以将文档转换为UTF-8或者转回EUC-JP。

soup = BeautifulSoup (euc_jp, fromEncoding="euc-jp")

soup.originalEncoding

# 'windows-1252'

str(soup)

'\xe3\x81\x93\xe3\x82\x8c\xe3\x81\xaf' # Right!

soup.__str__(self, 'euc-jp') == euc_jp

# True

如果你指定Beautiful Soup使用 Windows-1252编码（或者类似的编码如ISO-8859-1，ISO-8859-2), Beautiful Soup会找到并破坏文

档的smart quotes以及其他的Windows-specific 字符。这些字符不会转换为相应的Unicode,而是将它们变为HTML entities

(

BeautifulSoup

) 或者XML entitis(

BeautifulStoneSoup

)。

欢迎加入非盈利Python学习交流编程QQ群783462347，群里免费提供500+本Python书籍！

剩余23页未读，继续阅读

chunyangsuhao

粉丝: 103
资源: 7382

BeautifulSoup中文解析文档

Beautiful Soup 4官方翻译版.pdf

Beautiful Soup4.2.0 中文文档

beautiful soup 4.2 官方文档

beautiful-soup-4.pdf

Data_Science_With_Python_Workflow.pdf

Python 使用Beautiful Soup 爬虫教程.pdf

Getting Started with Beautiful Soup by Vineeth G. Nair.pdf

Beautiful Soup documentation.pdf

Beautiful Soup.pdf

Beautiful Soup 4.4.0 文档

最新资源