用python写一个爬取boss直聘网职位的代码
时间: 2024-10-20 10:19:21 浏览: 31
Scrapy框架爬取Boss直聘网Python职位信息的
5星 · 资源好评率100%
在Python中,我们可以使用BeautifulSoup库来解析HTML网页内容,再加上requests库获取网页数据,实现基本的网页爬虫。下面是一个简单的示例,展示如何爬取Boss直聘网站上的一些职位信息。注意这只是一个基础示例,实际网站可能会有反爬机制,你需要处理可能出现的验证码、IP限制等问题。
```python
import requests
from bs4 import BeautifulSoup
# 定义要抓取的URL
url = "https://www.zhipin.com/jobs/?city=0&kw="
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
else:
print(f"请求失败,状态码:{response.status_code}")
return None
def parse_html(html):
soup = BeautifulSoup(html, 'lxml')
job_list = soup.find_all('div', class_='job-item') # 查找职位信息元素
for job in job_list:
title = job.find('h3', class_='title').text # 职位标题
company = job.find('span', class_='company').text # 公司名称
location = job.find('i', class_='location-icon').find_next_sibling().text # 工作地点
print(f"{title}\n{company}\n{location}")
if __name__ == '__main__':
html_content = get_html(url)
if html_content:
parse_html(html_content)
else:
print("无法获取到页面内容")
```
阅读全文