(3)应用requests库和beautifulsoup4等库进行网页抓取和数据解析。 3.1 beautifulsoup4的解析 pip install bs4,test.html
时间: 2024-04-29 22:21:51 浏览: 35
首先,你需要在命令行中使用`pip install bs4`命令安装beautifulsoup4库。
然后,你可以创建一个名为`test.html`的HTML文件,用于演示如何使用beautifulsoup4进行解析。
下面是一个简单的HTML文件示例:
```html
<!DOCTYPE html>
<html>
<head>
<title>Test Page</title>
</head>
<body>
<h1>This is a test page</h1>
<p>Hello, world!</p>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
```
接下来,你可以使用以下代码读取并解析这个HTML文件:
```python
from bs4 import BeautifulSoup
# 读取HTML文件
with open('test.html', 'r') as f:
html = f.read()
# 解析HTML文件
soup = BeautifulSoup(html, 'html.parser')
# 获取页面标题
title = soup.title.string
print(title)
# 获取页面中的段落文本
paragraph = soup.p.string
print(paragraph)
# 获取页面中的列表项
items = soup.find_all('li')
for item in items:
print(item.string)
```
运行这个代码,你会得到以下输出:
```
Test Page
Hello, world!
Item 1
Item 2
Item 3
```
这个示例演示了如何使用beautifulsoup4库解析HTML文件,并从中提取出所需的数据。
阅读全文