用jupyter notebook爬取51job岗位信息,生成xlsx表
时间: 2024-10-14 08:10:53 浏览: 37
在Jupyter Notebook中爬取51Job的岗位信息并将其保存为Excel表格,通常需要通过几个步骤完成:
1. **安装必要的库**:
首先,你需要安装`requests`, `BeautifulSoup4` (用于HTML解析) 和 `pandas` (处理数据并导出到Excel) 等库。使用以下命令安装:
```python
!pip install requests beautifulsoup4 pandas openpyxl
```
2. **编写爬虫脚本**:
使用Python的`requests`库发送HTTP请求获取网页内容,然后使用`BeautifulSoup`解析HTML结构找到包含岗位信息的部分。例如,模拟GET请求,提取职位标题、薪资等字段:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
def get_job_info(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 这里需要根据51Job的实际页面结构定位元素
job_list = soup.find_all('div', class_='job-item') # 假设职位信息在class为'job-item'的div内
job_data = []
for job in job_list:
title = job.find('h3').text
salary = job.find('span', class_='salary') # 类似查找薪资标签
# ... 依次提取其他字段
job_data.append([title, salary])
return job_data
url = "https://www.51job.com/" # 示例URL,替换为你想要抓取的具体页面
job_info = get_job_info(url)
```
3. **存储数据到Excel**:
将爬取到的数据转换为`pandas` DataFrame,并使用`to_excel`函数保存为Excel文件:
```python
df_jobs = pd.DataFrame(job_info, columns=['职位名称', '薪资'])
df_jobs.to_excel('51job_jobs.xlsx', index=False) # 保存为'51job_jobs.xlsx'
```
请注意,实际操作中可能需要处理反爬虫策略(如cookies、session管理、验证码等),以及适应51Job网站的实时变化的HTML结构。此外,频繁大量爬取可能会对网站服务器造成压力,应遵守robots.txt规则并且尊重网站的服务条款。
阅读全文