{ "reason": "success", "result": { "curpage": 1, "allnum": 10, "list": [ { "id": 4837, "type_id": 439, "type_name": "凉菜类", "cp_name": "金钩黄瓜条", "zuofa": "1.将黄瓜洗净去皮,切成条状(可根据个人喜好切成其他形状),加入精盐少许,腌5分钟;将海米洗净,用沸水泡透,捞出沥干水分;香葱洗净切成末;2.将黄瓜沥干,加入味精、香油拌匀,再放入海米;3.将炒锅置火上,倒入食用油烧热,下入葱末,炸出香味后捞出不用,把油淋在黄瓜条上,拌匀即可。", "texing": "色泽鲜艳,咸香爽口。", "tishi": "腌黄瓜时不能加太多的盐,否则黄瓜不脆嫩。", "tiaoliao": "食用油25克;香油1小匙(3克);精盐2小匙(6克);味精1/2小匙(1.5克)", "yuanliao": "黄瓜300克;海米10克;香葱1棵" },"error_code": 0 }
时间: 2023-08-28 14:04:24 浏览: 47
这是一个菜谱的JSON数据,包含菜品的id、类型、名称、制作步骤、特性、提示、调料、原料等信息。具体来说,这是一道金钩黄瓜条的凉菜,制作步骤包括腌黄瓜、加入调料和海米、热油淋在黄瓜条上拌匀即可。特点是色泽鲜艳,味道咸香爽口。提示是腌黄瓜时不能加太多的盐,否则黄瓜不脆嫩。调料包括食用油、香油、精盐、味精,原料包括黄瓜、海米、香葱。
相关问题
python爬取猎聘网站招聘信息1000条id包含:编号、公司名称、学历要求、工作类型、工作名称、薪资、发布时间、截止时间、城市编码、公司规模、福利、岗位职责、地区、工作经验等信息,并以表格形式写入文本
好的,这个问题需要用到 Python 爬虫和数据处理技术。我将给出一个简单的爬虫代码,可以爬取猎聘网站的招聘信息并将其保存到 CSV 文件中。
```python
import requests
from bs4 import BeautifulSoup
import csv
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 猎聘网站的 URL
url = 'https://www.liepin.com/zhaopin/?industries=&dqs=&salary=&jobKind=&pubTime=&compkind=&compscale=&industryType=&searchType=1&clean_condition=&isAnalysis=&init=-1&sortFlag=15&flushckid=1&fromSearchBtn=2&headckid=7d43a44e3a5c4a27&d_pageSize=40&siTag=I-7rQ0k3D8s9j1po7d3Q5Q~fA9rXquZc5IkJpXC-Ycixw&d_headId=8f7f5c2c44f3cc1bbf8123c0f88f8a3f&d_ckId=8f7f5c2c44f3cc1bbf8123c0f88f8a3f&d_sfrom=search_prime&d_curPage=0'
# 打开 CSV 文件
with open('job.csv', 'w', encoding='utf-8') as f:
writer = csv.writer(f)
# 写入表头
writer.writerow(['编号', '公司名称', '学历要求', '工作类型', '工作名称', '薪资', '发布时间', '截止时间', '城市编码', '公司规模', '福利', '岗位职责', '地区', '工作经验'])
# 爬取 1000 条招聘信息
for page in range(25):
params = {'curPage': page}
response = requests.get(url, headers=headers, params=params)
soup = BeautifulSoup(response.content, 'html.parser')
# 查找每个招聘信息的 HTML 元素
job_list = soup.find_all('div', class_='job-info')
# 解析 HTML 元素并写入 CSV 文件
for job in job_list:
job_id = job['data-jobid']
company_name = job['data-company']
edu_level = job.find('span', class_='edu').text.strip()
job_type = job.find('span', class_='job-type').text.strip()
job_name = job.find('a', class_='job-name').text.strip()
salary = job.find('span', class_='text-warning').text.strip()
pub_time = job.find('span', class_='time').text.strip()
end_time = job.find('p', class_='time-info').find_all('span')[1].text.strip()
city_code = job['data-district']
company_size = job.find('p', class_='company-info').find_all('span')[1].text.strip()
welfare = ','.join([tag.text.strip() for tag in job.find_all('span', class_='temptation')])
job_responsibility = job.find('div', class_='job-info').find_all('p')[1].text.strip()
area = job.find('p', class_='area').text.strip()
work_experience = job.find('p', class_='condition').find_all('span')[1].text.strip()
# 写入一条招聘信息
writer.writerow([job_id, company_name, edu_level, job_type, job_name, salary, pub_time, end_time, city_code, company_size, welfare, job_responsibility, area, work_experience])
print(f'已经爬取 {page+1} 页招聘信息')
print('所有招聘信息已经保存到 job.csv 文件中。')
```
这段代码会将 1000 条招聘信息爬取下来并保存到 `job.csv` 文件中。你可以根据你的需求修改代码中的 URL、请求头、字段名等参数。
def getMaxPage(self, url): response = requests.get(url, headers = self.headers) if response.status_code == 200: source = response.text soup = BeautifulSoup(source, "html.parser") pageData = soup.find("div", class_ = "page-box house-lst-page-box")["page-data"] # pageData = '{"totalPage":100,"curPage":1}',通过eval()函数把字符串转换为字典 maxPage = eval(pageData)["totalPage"] return maxPage else: print("Fail status: {}".format(response.status_code)) return None解释
这段代码是一个函数,用于获取指定链接的最大页数。具体来说,它的实现过程如下:
1. 使用 requests 库发送 GET 请求,获取指定链接的响应。
2. 判断响应的状态码是否为 200,如果是,则说明请求成功,否则打印错误信息并返回 None。
3. 使用 BeautifulSoup 库解析响应的 HTML 内容,找到 class 为 "page-box house-lst-page-box" 的 div 元素,并提取其中的 "page-data" 属性。
4. "page-data" 属性的值是一个字符串,形如 '{"totalPage":100,"curPage":1}',使用 eval() 函数将其转换为字典类型。
5. 从字典中获取 "totalPage" 属性的值,即为最大页数,将其作为函数的返回值。
示例代码中使用了类的方法,因此在调用该函数时需要创建一个类的实例。例如:
```
spider = Spider()
url = "https://www.example.com"
max_page = spider.getMaxPage(url)
print(max_page)
```