用bs4模块解析HTML
时间: 2024-04-30 21:22:36 浏览: 100
使用Python中的BeautifulSoup库可以方便地解析HTML文档。下面是一个简单的例子:
```python
from bs4 import BeautifulSoup
# 定义HTML文档
html_doc = """
<html>
<head>
<title>网页标题</title>
</head>
<body>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
<a href="http://www.baidu.com">这是一个链接</a>
</body>
</html>
"""
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
# 获取标题
title = soup.title.string
print('标题:', title)
# 获取第一个h1标签的文本内容
h1 = soup.h1.string
print('h1标签的文本内容:', h1)
# 获取第一个p标签的文本内容
p = soup.p.string
print('p标签的文本内容:', p)
# 获取第一个a标签的href属性值
a = soup.a['href']
print('a标签的href属性值:', a)
```
输出结果:
```
标题: 网页标题
h1标签的文本内容: 这是一个标题
p标签的文本内容: 这是一个段落。
a标签的href属性值: http://www.baidu.com
```
在这个例子中,我们首先定义了一个HTML文档,并使用BeautifulSoup库创建了一个解析器对象soup。之后,我们通过soup对象的方法和属性获取了HTML文档中的不同元素的内容。对于每个元素,我们都可以使用相应的方法或属性来获取其信息。例如,我们可以使用`title.string`来获取HTML文档中`<title>`标签的文本内容,使用`soup.a['href']`来获取HTML文档中第一个`<a>`标签的`href`属性值。
阅读全文