Python爬取boss直聘代码
时间: 2023-10-09 21:12:28 浏览: 120
由于涉及到网站数据抓取,我们需要用到 Python 的 requests 和 Beautiful Soup 库。
以下是爬取 boss 直聘的代码示例:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position='
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
job_list = soup.find_all('div', class_='job-primary')
for job in job_list:
job_name = job.find('span', class_='job-name').text.strip()
job_salary = job.find('span', class_='red').text.strip()
job_company = job.find('div', class_='company-text').a.text.strip()
job_info = job.find('div', class_='info-primary').p.text.strip()
print(job_name, job_salary, job_company, job_info)
```
解析:
1. 首先定义了 boss 直聘的 URL 地址和请求头 headers。
2. 使用 requests 库发送 GET 请求,并通过 BeautifulSoup 解析网页内容。
3. 使用 soup.find_all() 方法获取所有职位信息,返回的是一个列表。
4. 遍历职位信息列表,使用 job.find() 方法获取每个职位的具体信息,比如职位名称、薪资、公司名称和职位详情。
5. 打印每个职位的信息。
需要注意的是,boss 直聘的网页结构可能会随着时间变化而变化,所以代码可能需要根据实际情况进行调整。
阅读全文