写个简单爬虫,爬一下https://jobs.sap.com/search/?createNewAlert=false&q=&locationsearch=&optionsFacetsDD_department=&optionsFacetsDD_customfield3=&optionsFacetsDD_country=注:这一页的职位,输出结果是Excel形式,需要包含页面的全部维度(不只是直观看到的,包括网页元数据)
时间: 2023-11-25 21:38:18 浏览: 96
好的,我可以帮你编写一个简单的Python爬虫来爬取SAP官方招聘网站上的职位信息,并将结果输出为Excel文件。需要的库有requests、beautifulsoup4和pandas。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 设置请求头,模拟浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 目标网址
url = 'https://jobs.sap.com/search/?createNewAlert=false&q=&locationsearch=&optionsFacetsDD_department=&optionsFacetsDD_customfield3=&optionsFacetsDD_country='
# 发送请求
response = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 获取表格数据
table = soup.find('table', {'class': 'jobtable'})
rows = table.find_all('tr')
# 定义空列表,用于存放职位信息
job_list = []
# 遍历表格行
for row in rows:
cols = row.find_all('td')
if len(cols) == 6:
job = {}
job['Job Title'] = cols[0].text.strip()
job['Location'] = cols[1].text.strip()
job['Department'] = cols[2].text.strip()
job['Employment Type'] = cols[3].text.strip()
job['Posted Date'] = cols[4].text.strip()
job['Job ID'] = cols[5].text.strip()
job_list.append(job)
# 将结果输出为Excel文件
df = pd.DataFrame(job_list)
df.to_excel('SAP_Jobs.xlsx', index=False)
```
这段代码会抓取SAP官方招聘网站上的职位信息,并将结果输出到当前目录下的SAP_Jobs.xlsx文件中。需要注意的是,这个网站的职位列表是动态加载的,如果需要抓取更多的职位,可以通过模拟翻页来实现。
阅读全文