写一个网络爬虫爬取boss直聘网的代码
时间: 2023-12-01 17:30:50 浏览: 164
python爬虫之爬取QQSpider源代码.7z
请注意,爬取网站数据需要遵守相关法律法规,不得进行商业用途。以下是一个示例代码,仅供学习使用。
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 构造请求URL
base_url = 'https://www.zhipin.com/c100010000/?query=%s&page=%d&ka=page-%d'
# 搜索关键字
keyword = 'Python'
# 爬取数据的页数
page_num = 5
# 爬取数据
for i in range(page_num):
url = base_url % (keyword, i+1, i+1)
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 解析网页数据,这里以职位名称为例
job_titles = soup.select('.job-title')
for title in job_titles:
print(title.text.strip())
```
这个示例代码会爬取 boss直聘网 中关于 Python 的职位信息,并打印出每个职位的名称。其中,`headers` 是用来模拟浏览器请求的请求头,`base_url` 是搜索页面的 URL 模板,`keyword` 是搜索关键字,`page_num` 是要爬取的页数。请根据自己的需求进行调整。
阅读全文