爬取51job招聘信息,使用requests库、json库在51job主页爬取福州JAVA工程师相关招聘信息,保留爬取的信息页面信息,每一行职位信息用50个“-”符号分隔,将爬取到的数据保存为txt文档
时间: 2024-10-13 15:10:48 浏览: 26
首先,你需要安装Python的requests库用于发送HTTP请求,以及json库用于解析JSON数据。然后,可以按照以下步骤爬取51job的招聘信息:
1. 安装所需库(如果未安装):
```bash
pip install requests
```
2. 编写Python脚本,使用requests库获取HTML内容,然后提取你需要的信息。这里假设51job的福州JAVA工程师招聘信息存在某个特定URL,并且数据结构适于抓取。
```python
import requests
import json
# 示例URL,需要替换为你实际找到的福州JAVA工程师相关招聘信息的URL
url = "https://www.51job.com/search/jobAjax.php?jl=000000&kw=%E7%89%88%E6%9C%AC%E4%BB%A3%E7%A0%81&kt3=1_1_6_0_0_0_1_0_1_0_0&fromtype=0&objtype=00&workyear=0&companysize=0°reefrom=0&jobterm=0&posttime=0&companetemp=0&providesalary=0&ord_field=0_0&ord_type=desc"
def get_html(url):
response = requests.get(url)
return response.text
def parse_data(html_content):
# 这里需要根据实际的HTML结构来解析,假设招聘信息数据存储在一个名为"data"的JSON字段内
data_json = json.loads(html_content)['data']
jobs = [f"{job['title']}{job['salary']}{'-' * 50}" for job in data_json]
return jobs
def save_to_file(jobs):
with open("fuzhou_java_engineer_jobs.txt", "w", encoding="utf-8") as f:
for job in jobs:
f.write(job + "\n")
html = get_html(url)
jobs = parse_data(html)
save_to_file(jobs)
阅读全文