python爬虫爬取求职信息
时间: 2023-11-12 11:45:39 浏览: 103
Python爬虫可以用于爬取各种求职信息,以下是一些常见的方法:
1. 使用 requests 库发送 HTTP 请求,获取网页内容。
2. 使用 beautifulsoup4 库或 lxml 库解析 HTML 页面,提取所需信息。
3. 使用 re 正则表达式进行信息提取和筛选。
4. 使用 pandas 库进行数据处理和格式化输出。
5. 使用 scrapy 框架进行高效的爬虫开发和数据爬取。
下面是一个简单的示例,爬取 Boss 直聘上的 Python 工程师职位信息:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.zhipin.com/job_detail/?query=Python&city=101020100&industry=&position='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
'Referer': 'https://www.zhipin.com/',
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'lxml')
job_list = []
for job in soup.select('.job-list ul li'):
job_dict = {}
job_dict['title'] = job.select('div.job-title')[0].text.strip()
job_dict['salary'] = job.select('span.red')[0].text.strip()
job_dict['company'] = job.select('div.company-text h3.name a')[0].text.strip()
job_dict['location'] = job.select('div.job-title small')[0].text.strip()
job_dict['experience'] = job.select('div.info-primary p')[0].text.strip()
job_dict['education'] = job.select('div.info-primary p')[1].text.strip()
job_dict['tags'] = [tag.text.strip() for tag in job.select('div.job-tags span')]
job_list.append(job_dict)
print(job_list)
```
这个示例使用 requests 库发送 HTTP 请求,获取 Boss 直聘上 Python 工程师职位的页面内容。然后使用 beautifulsoup4 库解析 HTML 页面,提取职位的标题、薪水、公司、地点、经验要求、学历要求和职位标签等信息。最后将提取到的信息存储在一个列表中,输出到控制台。
阅读全文