学习Python Beautiful Soup库的爬虫教程及解析器使用优缺点

需积分: 1 96 浏览量更新于2024-01-11 1 收藏 1.18MB PDF 举报

Beautiful Soup是一个Python库，用于从HTML或XML文档中提取数据。它能够通过各种转换器快速解析整个文档，并且自动将输入文档转为Unicode编码，输出文档转为UTF-8编码。因此，用户不需要过多考虑编码方式，除非文档没有指定编码方式，这时需要说明一下原始编码方式。Beautiful Soup提供了多种解析器使用方法，包括Python标准库、lxml、xml、html5lib等。每种使用方法都有其优势和劣势，用户可以根据自己的需求选择合适的解析器。 Python标准库是Beautiful Soup的内置标准库，执行速度适中，但在Python3.2.2之前的版本中容错能力较差。lxml是一个HTML解析器，速度快且文档容错能力强，但需要安装C语言库。xml解析器是用于XML文档的解析器，速度快且唯一支持XML的解析器，同样需要安装C语言库。html5lib解析器具有最好的容错性，以浏览器的方式解析文档，生成HTML5格式的文档，但是速度较慢且不依赖外部拓展。用户可以根据自己的情况选择合适的解析器，以达到最佳的解析效果。在前面的文章中已经介绍了正则表达式的使用方法，但是如果正则表达式出现问题，得到的结果可能并非用户想要的内容。在网页结构和属性的帮助下，用户可以借助Beautiful Soup来提取数据。网页通常具有特定的结构和层级关系，很多节点都使用id和class进行区分。借助这些属性，Beautiful Soup能够快速、准确地从HTML或XML文档中提取数据。因此，Beautiful Soup在网页数据提取方面具有非常大的优势。综上所述，Beautiful Soup是一个功能强大的Python库，能够帮助用户快速解析HTML或XML文档，并提取出所需的数据。它具有多种解析器使用方法，每种方法都有其优势和劣势，用户可以根据自己的需求选择合适的解析器。此外，借助网页的结构和属性，Beautiful Soup能够准确地提取数据，为用户的数据提取工作带来极大的便利。因此，值得用户学习和掌握。

可以利用name属性获取节点的名称。

具体代码如下所示：



通过运行上面的代码，你会发现成功获取到了b节点的名称。

（2）获取属性

每个节点可能有多个属性，比如id和class等，选择这个节点元素之后，可以调用attrs获取所有的属性。

具体代码示例如下所示：



运行结果



从上面的运行结果你会发现属性值返回的是字典类型。

class属性使用列表保存，这是为什么呢？

原因是:class这个属性可以有多个值，所以将其保存在列表中

（4）获取内容

可以利用string属性获取节点元素包含的文本内容，比如要获取第一个p节点的文本。



soup = BeautifulSoup('Extremely bold')

tag = soup.b

print(tag.name)

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their

names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.

...

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'lxml')

print(soup.p.attrs)

print(soup.p.attrs['name'])

{'class': ['title'], 'name': 'Dormouse'}

Dormouse

剩余16页未读，继续阅读

程序员徐师兄

粉丝: 1986
资源: 2497

学习Python Beautiful Soup库的爬虫教程及解析器使用优缺点

python利用beautifulSoup实现爬虫

使用Python的BeautifulSoup库的简单爬虫示例.txt

Python 爬虫入门的教程之Beautiful Soup解析

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

Python爬虫利器二之Beautiful Soup的用法.zip_python_爬虫_爬虫 python_爬虫 pyth

python编写知乎爬虫实践.pdf

beautiful-soup-4.pdf

基于 Python的网络爬虫程序设计.pdf

Python网络爬虫实战.pdf

Python使用Beautiful Soup包编写爬虫时的一些关键点

最新资源