用python写一段爬取求职信息的爬虫代码
时间: 2024-10-27 22:10:47 浏览: 23
在Python中编写一个简单的网页抓取(网络爬虫)来获取求职信息,我们可以使用`requests`库来发送HTTP请求,并使用`BeautifulSoup`库解析HTML内容。这里提供一个基本的示例,假设我们要从LinkedIn或其他类似网站抓取公开的职位列表:
```python
import requests
from bs4 import BeautifulSoup
# 目标URL
url = 'https://www.linkedin.com/jobs/search/?keywords=python+developer'
def get_job_list(url):
# 发送GET请求
response = requests.get(url)
# 检查请求状态码
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含职位信息的部分(这通常会因网站结构变化而不同)
job_cards = soup.find_all('div', class_='job-card')
# 遍历职位卡片,提取相关信息
jobs = []
for card in job_cards:
title = card.find('h3', class_='title').text.strip()
company = card.find('span', class_='company-name').text.strip()
link = card.find('a')['href']
# 创建一个字典存储信息
job = {
'title': title,
'company': company,
'link': 'https://www.linkedin.com' + link
}
jobs.append(job)
return jobs
else:
print(f"Failed to fetch data with status code {response.status_code}")
return []
jobs = get_job_list(url)
for job in jobs:
print(f'Title: {job["title"]}, Company: {job["company"]}, Link: {job["link"]}')
阅读全文