python解析html
时间: 2023-08-25 09:14:01 浏览: 52
在Python中解析HTML可以使用许多库,其中最常用的是BeautifulSoup和lxml。这些库可以帮助您从HTML文档中提取和操作数据。
以下是使用BeautifulSoup的示例代码:
```python
from bs4 import BeautifulSoup
# HTML文档
html_doc = """
<html>
<head>
<title>示例网页</title>
</head>
<body>
<div class="content">
<h1>标题</h1>
<p>这是一个段落。</p>
<ul>
<li>列表项1</li>
<li>列表项2</li>
<li>列表项3</li>
</ul>
</div>
</body>
</html>
"""
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
# 提取标题
title = soup.title.string
print("标题:", title)
# 提取段落文本
paragraph = soup.p.get_text()
print("段落:", paragraph)
# 提取列表项
list_items = soup.find_all('li')
print("列表项:")
for item in list_items:
print(item.get_text())
```
使用lxml库也可以实现类似的功能。您可以根据自己的需求选择适合的库来解析HTML。