使用python爬取51job招聘信息并生成表格
时间: 2023-09-24 12:14:05 浏览: 97
以下是一个简单的python程序,用于爬取51job网站上的招聘信息,并将其存储为表格形式。本程序使用了BeautifulSoup和pandas库。
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义要爬取的页面链接
url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html'
# 发送HTTP请求,获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(response.content, 'html.parser')
# 查找所有class为"t1"的a标签
job_titles = soup.find_all('a', class_='t1')
# 查找所有class为"t2"的span标签
company_names = soup.find_all('span', class_='t2')
# 查找所有class为"t3"的span标签
locations = soup.find_all('span', class_='t3')
# 查找所有class为"t4"的span标签
salaries = soup.find_all('span', class_='t4')
# 创建一个空的DataFrame对象
df = pd.DataFrame(columns=['Job Title', 'Company Name', 'Location', 'Salary'])
# 将招聘信息添加到DataFrame对象中
for i in range(len(job_titles)):
job_title = job_titles[i].get_text().strip()
company_name = company_names[i].get_text().strip()
location = locations[i].get_text().strip()
salary = salaries[i].get_text().strip()
df.loc[len(df)] = [job_title, company_name, location, salary]
# 将DataFrame对象保存为CSV文件
df.to_csv('job_information.csv', index=False)
print('Job information has been saved to job_information.csv.')
```
运行完毕后,程序将在当前目录下生成一个名为job_information.csv的文件,其中包含了爬取到的招聘信息。
注意:本程序仅供学习和参考,如有商业用途请遵守相关法律法规。
阅读全文