从https://bj.jiazhenggang.com/xuanren/fenlei-110.html这个网页爬虫爬取护工个人信息生成Excel表格Python代码身
时间: 2024-01-03 12:02:52 浏览: 82
以下是一个简单的Python爬虫,可以从指定网页中抓取护工的信息,并生成Excel表格:
```python
import requests
from bs4 import BeautifulSoup
import openpyxl
# 创建Excel工作簿
wb = openpyxl.Workbook()
sheet = wb.active
# 添加表头
sheet['A1'] = '姓名'
sheet['B1'] = '性别'
sheet['C1'] = '年龄'
sheet['D1'] = '工作经验'
sheet['E1'] = '服务类型'
sheet['F1'] = '服务时长'
sheet['G1'] = '价格'
# 发送请求获取网页内容
url = 'https://bj.jiazhenggang.com/xuanren/fenlei-110.html'
response = requests.get(url)
html = response.text
# 解析网页内容
soup = BeautifulSoup(html, 'html.parser')
worker_list = soup.select('.workerlist li')
# 遍历护工列表,获取信息并写入Excel表格
for i, worker in enumerate(worker_list):
name = worker.select_one('.name span').text.strip()
gender = worker.select_one('.sex').text.strip()
age = worker.select_one('.age').text.strip()
experience = worker.select_one('.workyear').text.strip()
service_type = worker.select_one('.worktype').text.strip()
service_time = worker.select_one('.servetime').text.strip()
price = worker.select_one('.price').text.strip()
sheet.cell(row=i+2, column=1, value=name)
sheet.cell(row=i+2, column=2, value=gender)
sheet.cell(row=i+2, column=3, value=age)
sheet.cell(row=i+2, column=4, value=experience)
sheet.cell(row=i+2, column=5, value=service_type)
sheet.cell(row=i+2, column=6, value=service_time)
sheet.cell(row=i+2, column=7, value=price)
# 保存Excel文件
wb.save('worker_info.xlsx')
```
这个爬虫使用了requests库发送HTTP请求,并使用BeautifulSoup库解析HTML文档。它首先创建了一个新的Excel工作簿,并添加了表头。然后,它发送HTTP请求获取网页内容,并使用BeautifulSoup库解析网页。接着,它遍历护工列表,提取每个护工的信息,并将其写入Excel表格中。最后,它保存Excel文件。
请注意,这个爬虫只是一个示例,实际使用时需要考虑反爬虫措施和合法性问题。
阅读全文