首页练习:提取姓名从下列html文件中提取姓名: baby1990.html baby1992.html baby2008.html 将提取结果放到一个文件中,其中: (baby name, gend

练习:提取姓名从下列html文件中提取姓名: baby1990.html baby1992.html baby2008.html 将提取结果放到一个文件中,其中: (baby name, gend

时间: 2024-09-24 11:28:44 浏览: 27

在Python中，我们可以使用BeautifulSoup库来解析HTML并提取其中的姓名信息。假设每个HTML文件都有一个类似`<p class="name">张三</p>`这样的结构来存储姓名，你可以按照以下步骤操作： 1. 首先安装BeautifulSoup库，如果尚未安装，可以使用pip命令： ``` pip install beautifulsoup4 ``` 2. 然后编写一个脚本来遍历这些HTML文件，并提取出姓名。这里是一个基本的示例： ```python import os from bs4 import BeautifulSoup # 定义要搜索的文件夹路径 folder_path = "your_folder_path" # 替换为你保存HTML文件的实际路径 # 创建一个空列表来存放姓名 names = [] for filename in ["baby1990.html", "baby1992.html", "baby2008.html"]: with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as f: soup = BeautifulSoup(f, 'lxml') # 假设姓名在class为"name"的p标签内 name = soup.find('p', {'class': 'name'}).text.strip() names.append((name,)) # 包含性别信息需要额外提供，此处仅列出姓名 # 将结果写入新的文件 with open("output.txt", 'w', encoding='utf-8') as output_file: for name in names: output_file.write(','.join(name) + '\n')

阅读全文