lagou_recruitment.csv
时间: 2023-08-12 13:01:55 浏览: 113
lagou_recruitment.csv是一种文件格式,常用于记录拉勾网上的招聘信息。CSV是逗号分隔值(Comma-Separated Values)的缩写,表示文本文件中的数据是由逗号分隔的。这种文件格式十分常见,因为它简单易读,可以用文本编辑器来打开和编辑。
lagou_recruitment.csv文件中的数据通常包含招聘信息的各个字段,每个字段用逗号分隔。例如,一个招聘信息的字段可能包括职位名称、公司名称、工作地点、薪资待遇、工作要求等。每一条招聘信息都会被记录为文件中的一行,不同字段会分别用逗号分隔。
使用CSV格式记录招聘信息的好处是,它非常适合用于数据分析和处理。可以将这种格式的文件导入到各种数据处理软件中,如Excel、Python等,方便进行数据的筛选、分析和可视化。此外,CSV格式也比较轻量级,占用空间较小,易于存储和传输。
对于使用者来说,最主要的是能够理解CSV文件中各个字段的含义,以便快速找到自己感兴趣的招聘信息。在使用CSV文件时,可以利用表格处理软件或相关编程工具进行筛选、排序、搜索等操作,以方便自己的招聘信息获取和应聘决策。
总之,lagou_recruitment.csv是一种用于记录拉勾网招聘信息的文件格式。通过了解CSV文件的特点和使用方法,可以更高效地获取和处理招聘信息。
相关问题
(二)招聘数据分析 1、数据准备(可从网站爬取数据) 读取拉勾网的数据分析职位数据 lagou_data.csv,如下表,查看数据基本信息。
很抱歉,我是一个语言模型,无法执行爬取数据等操作。但是,我可以提供一些读取文件的代码示例,您可以参考一下:
```python
import pandas as pd
# 读取csv文件
df = pd.read_csv("lagou_data.csv", encoding="utf-8")
# 查看数据基本信息
print(df.info())
# 查看前5行数据
print(df.head())
```
您需要将文件路径替换成您实际存储数据的路径。
# 读取数据 df = pd.read_csv(city+'_'+kind+'_'+'lagou.csv', encoding='utf-8') # 数据清洗,剔除实习岗位 df.drop(df[df['职位名称'].str.contains('实习')].index,inplace=True) pattern = '\d+' df['work_year'] = df['工作经验'].str.findall(pattern) print('work_year:', df['work_year']) # 数据处理后的工作年限 avg_work_year = [] # 工作年限 for i in df['work_year']: # 如果工作经验为'不限'或应届毕业生',那么匹配值为空,工作年限为0 if len(i) == 0: avg_work_year.append(0) # 如果匹配值为一个数值,那么返回该数值 elif len(i) == 1: avg_work_year.append(int(''.join(i))) # 如果匹配值为一个区间,那么取平均值 else: num_list = [int(j) for j in i] avg_year = sum(num_list)/2 avg_work_year.append(avg_year) print('avg_work_year:',avg_work_year) df['工作经验'] = avg_work_year df['salary'] = df['工资'].str.findall(pattern) # 月薪 avg_salary = [] for k in df['salary']: int_list = [int(n) for n in k] # 存在工资只有一个区间,[20],所以用[-1]. avg_wage = int_list[0] + (int_list[-1] - int_list[0]) / 4 avg_salary.append(avg_wage) df['月工资'] = avg_salary df['学历要求'] = df['学历要求'].replace('不限', '大专') df.to_csv(city+'_'+kind+'_'+'lagou_finall.csv', index=False, encoding='utf-8_sig') plt.rcParams['font.sans-serif'] = ['simhei'] plt.rcParams['font.serif'] = ['simhei']
这段代码的作用是读取一个名为 city+'_'+kind+'_'+'lagou.csv' 的 CSV 文件,并对文件进行数据清洗,剔除实习岗位。然后通过正则表达式匹配工作经验和工资,并计算平均工作年限和月薪。接着,将学历要求中的“不限”替换为“大专”,并将处理后的数据保存为一个名为 city+'_'+kind+'_'+'lagou_finall.csv' 的新的 CSV 文件。最后,使用 matplotlib 库设置字体,并可以进行数据可视化分析。
阅读全文