beautifulsoup
时间: 2023-09-28 21:03:47 浏览: 82
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库。它可以将 HTML 或 XML 文档转换为 Python 对象,以便更方便地对其进行处理和分析。
使用 BeautifulSoup,可以轻松地从 HTML 或 XML 文档中提取特定的信息,比如链接、表格、图像等。它提供了一系列方法和属性,用于搜索文档中的标签、内容和属性,并从中提取所需的信息。
以下是一个使用 BeautifulSoup 解析 HTML 文档的示例代码:
```python
from bs4 import BeautifulSoup
import requests
# 发送 HTTP 请求获取 HTML 文档
url = 'http://example.com'
response = requests.get(url)
# 解析 HTML 文档
soup = BeautifulSoup(response.text, 'html.parser')
# 查找文档中的所有链接
links = soup.find_all('a')
for link in links:
print(link.get('href'))
```
在这个示例中,我们首先使用 `requests` 库发送 HTTP 请求获取 HTML 文档,然后使用 BeautifulSoup 解析 HTML 文档。最后,我们使用 `find_all()` 方法查找文档中的所有链接,并使用 `get()` 方法提取链接的 `href` 属性。
BeautifulSoup 还有很多强大的功能,比如支持 CSS 选择器、自定义解析器等。它是 Python 中最受欢迎的解析 HTML 和 XML 的库之一。
阅读全文