练习:提取姓名 从下列html文件中提取姓名: baby1990.html baby1992.html baby2008.html 将提取结果放到一个文件中,其中: (baby name, gend
时间: 2024-09-24 11:28:44 浏览: 27
在Python中,我们可以使用BeautifulSoup库来解析HTML并提取其中的姓名信息。假设每个HTML文件都有一个类似`<p class="name">张三</p>`这样的结构来存储姓名,你可以按照以下步骤操作:
1. 首先安装BeautifulSoup库,如果尚未安装,可以使用pip命令:
```
pip install beautifulsoup4
```
2. 然后编写一个脚本来遍历这些HTML文件,并提取出姓名。这里是一个基本的示例:
```python
import os
from bs4 import BeautifulSoup
# 定义要搜索的文件夹路径
folder_path = "your_folder_path" # 替换为你保存HTML文件的实际路径
# 创建一个空列表来存放姓名
names = []
for filename in ["baby1990.html", "baby1992.html", "baby2008.html"]:
with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as f:
soup = BeautifulSoup(f, 'lxml')
# 假设姓名在class为"name"的p标签内
name = soup.find('p', {'class': 'name'}).text.strip()
names.append((name,)) # 包含性别信息需要额外提供,此处仅列出姓名
# 将结果写入新的文件
with open("output.txt", 'w', encoding='utf-8') as output_file:
for name in names:
output_file.write(','.join(name) + '\n')
阅读全文