北理Python爬虫：BeautifulSoup库详解及实战应用

PDF格式 | 77KB | 更新于2024-08-29 | 27 浏览量 | 举报

本资源是关于北京大学理学院开设的Python爬虫课程的一部分，专注于BeautifulSoup库的学习。BeautifulSoup是一个在Python中广泛使用的库，用于解析HTML和XML文档，帮助开发者从复杂网页结构中提取所需的数据。它使得抓取网页内容变得相对容易，对于网络数据挖掘和自动化任务非常有用。课程首先介绍了BeautifulSoup的基本用法，导入模块的方式是`from bs4 import BeautifulSoup`。通过指定解析器，如`html.parser`，用户可以处理HTML文档。这里的`parser`实际上是一个解析引擎，负责将HTML文本转换成结构化的数据，便于后续的操作。常见的解析器有： 1. **html.parser**：这是Python自带的解析器，适合简单的HTML文档，但性能可能不如其他第三方库。 2. **lxml**：一个高性能的第三方解析器，提供更快的解析速度和更多的特性，需要额外安装`lxml`库。 3. **html5lib**：基于HTML5规范的解析器，处理复杂的HTML结构，适合那些不遵循标准的HTML文档。在实际操作部分，课程示例了如何使用`requests`库获取网页内容，然后利用BeautifulSoup进行解析。首先，通过`requests.get`函数发送HTTP请求获取HTML页面，接着使用`r.text`获取响应的纯文本内容。之后，这段文本被传递给BeautifulSoup构造函数，创建一个BeautifulSoup对象，可以进一步进行标签查找、遍历和数据提取。例如，代码中的`soup.prettify()`会返回一个格式化后的、易读的HTML源代码字符串，展示了BeautifulSoup对象解析后的结果。在这个例子中，可以看到BeautifulSoup成功识别出`<p>`标签内的文本，以及后续列出的Python课程列表。本课程涵盖了BeautifulSoup库的基础使用，包括解析器的选择、文档的获取、数据提取和美化输出等核心概念。这对于希望学习和实践Python爬虫技术的人来说，是一个很好的入门教程，有助于理解如何在实际项目中有效解析和处理HTML文档。

MOOC_北理北理_python爬虫学习爬虫学习_3（（Beautiful Soup库相关）库相关）

Beautiful Soup 库库

Beautiful Soup 的使用。

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup('

data

',"html.parser")

'''parser为解析器。具体啥意思不知道。。。'''

实际操作：

>>> import requests

>>> r = requests.get("http://python123.io/ws/demo.html")

>>> demo = r.text

>>> from bs4 import BeautifulSoup

>>> soup = BeautifulSoup(demo,"html.parser")

>>> print(soup.prettify())

'''输出结果为：

The demo python introduces several python courses.

Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by

tracking the following courses:

Basic Python

and

Advanced Python

'''

bs4库是解析、遍历、维护“标签树”的功能库。

标签：

...

第一个p是这个标签的名称Name，在最开始和最后成对出现，表示范围。

中间有0个或多个属性Attributes，属性是由键值对构成的。

通过bs4库，将html文档（与标签树一一对应）的标签树（字符串）转化成BeautifulSoup类。html-标签树-bs类一一对应。

Beautiful Soup库解析器：

解析器解析器使用方法使用方法条件条件

bs4的HTML解析器 BeautifulSoup（mk,‘html.parser’) 安装bs4库

lxml的HTML解析器 BeautifulSoup(mk,‘lxml’) pip install lxml

lxml的XML解析器 BeautifulSoup(mk,‘xml’) pip install lxml

html5lib的解析器 BeautifulSoup(mk,‘html5lib’)

pip install

html5lib

Beautiful Soup类的基本元素：

基本元素基本元素说明说明

Tag 标签，最基本的信息组织单元，分别用和标明开头和结尾

Name

标签的名字，

...

的名字是’p’，格式：.name

Attributes 标签的属性，字典形式组织，格式：.attrs

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38605133

粉丝: 3

北理Python爬虫：BeautifulSoup库详解及实战应用

拍照水印文字和图片的添加

Android水印效果

第二周 Python面面观.zip_grabbedg4s_growth86z_mooc_python_softqrl

MOOC_Scrapy:中国大学MOOC Scrapy 爬虫

北邮MOOC_matlab课件&编程练习题答案.zip北邮MOOC_matlab课件_.zip

Python库 | spark_mooc_alekoe-3.0.0-py3-none-any.whl

Python Spark库文件下载：spark_mooc_alekoe-3.0.0

mooc_bj_2020_sqlite3_自动学习_数据存储_delphi源码_字符串处理_

Projet_7_Mooc_Alexia_Jerome_Cesar

mooc_jee_spring

最新资源