BeautifulSoup解析HTML
时间: 2023-12-15 12:05:12 浏览: 34
BeautifulSoup是Python中用于解析HTML和XML文档的第三方库。它可以将HTML和XML文档解析成一个Python对象,使我们可以通过对象的方式来访问文档中的元素和属性。
下面是一个使用BeautifulSoup解析HTML的简单示例:
```python
from bs4 import BeautifulSoup
html_doc = """
<html>
<head>
<title>BeautifulSoup示例</title>
</head>
<body>
<h1>欢迎使用BeautifulSoup</h1>
<p class="text">BeautifulSoup是Python中用于解析HTML和XML文档的第三方库。</p>
<p class="text">它可以将HTML和XML文档解析成一个Python对象,使我们可以通过对象的方式来访问文档中的元素和属性。</p>
<ul>
<li><a href="http://www.baidu.com">百度</a></li>
<li><a href="http://www.google.com">谷歌</a></li>
<li><a href="http://www.bing.com">必应</a></li>
</ul>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.title.string)
print(soup.h1.string)
print(soup.find_all('p', {'class': 'text'}))
print(soup.find('a', {'href': 'http://www.baidu.com'}).string)
```
解析结果如下:
```
BeautifulSoup示例
欢迎使用BeautifulSoup
[<p class="text">BeautifulSoup是Python中用于解析HTML和XML文档的第三方库。</p>, <p class="text">它可以将HTML和XML文档解析成一个Python对象,使我们可以通过对象的方式来访问文档中的元素和属性。</p>]
百度
```
在这个示例中,我们首先导入了`BeautifulSoup`库,然后定义了一个HTML文档。接着,我们使用`BeautifulSoup`对HTML文档进行解析,并将解析结果存储在`soup`变量中。我们可以通过`soup`对象来获取HTML文档中的元素和属性。例如,`soup.title.string`可以获取HTML文档中`<title>`标签的内容,`soup.h1.string`可以获取HTML文档中`<h1>`标签的内容,`soup.find_all('p', {'class': 'text'})`可以获取HTML文档中所有class为`text`的`<p>`标签,`soup.find('a', {'href': 'http://www.baidu.com'}).string`可以获取HTML文档中第一个`<a>`标签的内容。
BeautifulSoup支持多种解析器,例如`html.parser`、`lxml`、`html5lib`等,可以根据需要选择不同的解析器。
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)