用requests库爬取boss直聘
时间: 2023-10-23 13:17:25 浏览: 66
以下是使用Python中的requests库爬取boss直聘的简单示例:
```python
import requests
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36',
'Referer': 'https://www.zhipin.com/'
}
# 构造请求参数
params = {
'query': 'Python开发工程师',
'city': '100010000',
'page': 1
}
# 发送请求
response = requests.get('https://www.zhipin.com/job_detail/', headers=headers, params=params)
# 打印响应内容
print(response.text)
```
以上代码中,首先我们定义了请求头和请求参数,然后使用requests库中的get方法发送请求,最后打印响应内容。其中,请求参数中的query表示搜索关键词,city表示城市代码,page表示页码。在实际爬取时,需要根据网站的反爬机制进行相应的处理。
相关问题
用python爬取boss直聘的招聘信息
你可以使用Python中的Requests和BeautifulSoup库来爬取Boss直聘的招聘信息。
首先,你需要打开Boss直聘的网站并搜索你感兴趣的职位。然后,你需要观察网页源代码,找到包含招聘信息的HTML元素。
下面是一个简单的代码示例,演示如何使用Python爬取Boss直聘的招聘信息:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头部信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 搜索职位
job = 'Python爬虫'
url = "https://www.zhipin.com/job_detail/?query=" + job + "&industry=&position="
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
# 解析招聘信息
job_list = soup.find_all('div', {'class': 'job-primary'})
for job in job_list:
job_name = job.find('div', {'class': 'job-title'}).text
company_name = job.find('div', {'class': 'company-text'}).a.text
salary = job.find('span', {'class': 'red'}).text
print(job_name, company_name, salary)
```
在代码中,我们首先设置了请求头部信息,然后通过requests库向Boss直聘发送GET请求,并将响应解析为BeautifulSoup对象。接着,我们使用find_all()方法找到所有包含招聘信息的HTML元素,并从中提取出职位名称、公司名称和薪资等信息。最后,我们将爬取到的招聘信息进行输出。
注意:爬取网站时需要遵守网站的爬虫协议,防止被封IP。
爬虫爬取BOSS直聘
爬取 BOSS直聘网站的职位信息可以通过以下步骤实现:
1. 导入必要的库和模块,如 requests、BeautifulSoup 等。
2. 使用 requests 发起 GET 请求,并传入 BOSS直聘的 URL。
3. 解析响应内容,可以使用 BeautifulSoup 将 HTML 文档转换为一个能够操作的对象。
4. 使用 BeautifulSoup 的查找方法,定位到职位信息所在的节点。
5. 提取需要的职位信息,如职位名称、薪资、公司名称等。
6. 将提取的职位信息保存到一个数据结构中,如列表或字典。
7. 翻页处理,继续发起请求并解析下一页的职位信息,直到抓取完所有页面的职位信息。
以下是一个简单的示例代码,用于演示如何爬取 BOSS直聘的职位信息:
```python
import requests
from bs4 import BeautifulSoup
def crawl_boss_zhipin():
url = 'https://www.zhipin.com/'
# 发起请求
response = requests.get(url)
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 定位职位信息所在的节点
job_list = soup.find_all('div', class_='job-list')
# 提取职位信息
for job in job_list:
job_name = job.find('span', class_='job-name').text.strip()
salary = job.find('span', class_='red').text.strip()
company = job.find('div', class_='company-text').text.strip()
# 打印职位信息
print(f'职位名称:{job_name}')
print(f'薪资:{salary}')
print(f'公司名称:{company}')
print('---')
# 调用爬虫函数
crawl_boss_zhipin()
```