首页python中BeautifulSoup库的用法

python中BeautifulSoup库的用法

时间: 2023-12-09 09:05:08 浏览: 81

BeautifulSoup是一个Python库，用于从HTML和XML文件中提取数据。它提供了一种可以遍历文档树、搜索文档树、修改文档树的方式。下面是使用BeautifulSoup库的一些基本用法： 1. 导入库： ```python from bs4 import BeautifulSoup ``` 2. 创建一个BeautifulSoup对象： ```python soup = BeautifulSoup(html_doc, 'html.parser') ``` 其中，html_doc是一个包含HTML代码的字符串，'html.parser'是解析器的名称。 3. 对象的基本属性和方法： - .prettify()：将HTML代码格式化输出 ```python print(soup.prettify()) ``` - .title：获取页面的标题 ```python print(soup.title) ``` - .get_text()：获取页面的文本内容 ```python print(soup.get_text()) ``` - .find()：查找单个元素 ```python soup.find('div', {'class': 'content'}) ``` - .find_all()：查找所有元素 ```python soup.find_all('a') ``` - .select()：使用CSS选择器查找元素 ```python soup.select('div.content') ``` 以上是BeautifulSoup库的一些基本用法，还有更多高级用法可以查看官方文档。

阅读全文