python中BeautifulSoup库的用法
时间: 2023-12-09 09:05:08 浏览: 81
BeautifulSoup是一个Python库,用于从HTML和XML文件中提取数据。它提供了一种可以遍历文档树、搜索文档树、修改文档树的方式。下面是使用BeautifulSoup库的一些基本用法:
1. 导入库:
```python
from bs4 import BeautifulSoup
```
2. 创建一个BeautifulSoup对象:
```python
soup = BeautifulSoup(html_doc, 'html.parser')
```
其中,html_doc是一个包含HTML代码的字符串,'html.parser'是解析器的名称。
3. 对象的基本属性和方法:
- .prettify():将HTML代码格式化输出
```python
print(soup.prettify())
```
- .title:获取页面的标题
```python
print(soup.title)
```
- .get_text():获取页面的文本内容
```python
print(soup.get_text())
```
- .find():查找单个元素
```python
soup.find('div', {'class': 'content'})
```
- .find_all():查找所有元素
```python
soup.find_all('a')
```
- .select():使用CSS选择器查找元素
```python
soup.select('div.content')
```
以上是BeautifulSoup库的一些基本用法,还有更多高级用法可以查看官方文档。
阅读全文