网络爬取51job信息代码
时间: 2023-09-15 22:16:17 浏览: 44
以下是一个简单的爬取51job信息的Python代码示例,使用了requests和BeautifulSoup库:
```python
import requests
from bs4 import BeautifulSoup
# 构造请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
# 构造请求URL
url = 'https://search.51job.com/list/010000,000000,0000,00,9,99,Python,2,{}.html'
# 爬取前5页的数据
for page in range(1, 6):
# 构造请求URL
req_url = url.format(page)
# 发送请求
res = requests.get(req_url, headers=headers)
# 解析HTML
soup = BeautifulSoup(res.text, 'html.parser')
# 获取所有的职位信息
jobs = soup.select('.el')
# 遍历职位信息
for job in jobs:
# 获取职位名称、公司名称、工作地点、薪资范围、发布时间
job_name = job.select('.t1')[0].text.strip()
company_name = job.select('.t2')[0].text.strip()
location = job.select('.t3')[0].text.strip()
salary = job.select('.t4')[0].text.strip()
pub_date = job.select('.t5')[0].text.strip()
# 输出职位信息
print('职位名称:', job_name)
print('公司名称:', company_name)
print('工作地点:', location)
print('薪资范围:', salary)
print('发布时间:', pub_date)
```
该代码使用了requests库发送请求,BeautifulSoup库解析HTML,并使用CSS选择器提取职位信息。在实际使用中,需要根据实际情况修改请求头、请求URL、解析逻辑等。