首页python解析html

python解析html

时间: 2023-08-25 09:14:01 浏览: 52

在Python中解析HTML可以使用许多库，其中最常用的是BeautifulSoup和lxml。这些库可以帮助您从HTML文档中提取和操作数据。以下是使用BeautifulSoup的示例代码： ```python from bs4 import BeautifulSoup # HTML文档 html_doc = """ <html> <head> <title>示例网页</title> </head> <body> <div class="content"> <h1>标题</h1> <p>这是一个段落。</p> <ul> <li>列表项1</li> <li>列表项2</li> <li>列表项3</li> </ul> </div> </body> </html> """ # 创建BeautifulSoup对象 soup = BeautifulSoup(html_doc, 'html.parser') # 提取标题 title = soup.title.string print("标题:", title) # 提取段落文本 paragraph = soup.p.get_text() print("段落:", paragraph) # 提取列表项 list_items = soup.find_all('li') print("列表项:") for item in list_items: print(item.get_text()) ``` 使用lxml库也可以实现类似的功能。您可以根据自己的需求选择适合的库来解析HTML。