用StandardScaler对Age和Salary两列的数据进行归一化

时间: 2024-05-12 13:20:20 浏览: 75

python3对拉勾数据进行可视化分析的方法详解

### Python3对拉勾数据进行可视化分析的方法详解 #### 前言本文将详细介绍如何使用Python3对从拉勾网获取的职业岗位数据进行可视化分析的过程。通过一系列的数据清洗、预处理步骤，再借助Python中丰富的数据可视化工具，我们将深入挖掘数据背后的价值。 #### 一、前期准备在进行数据分析之前，需要对数据进行初步的清洗和预处理。例如，如果数据集中包含了不必要的列（如ID），则应该将其移除，以便后续分析更为高效。此外，还需要对数据集进行描述性统计分析，检查是否存在缺失值或异常值等问题。 ```python import pandas as pd read_file = "analyst.csv" # 读取文件 data = pd.read_csv(read_file, encoding="gbk") # 移除无关列 data = data.drop(['ID'], axis=1) # 描述性统计 print(data.describe()) # 查看各属性的不同值及其分布情况 print(data['学历要求'].unique()) print(data['工作经验'].unique()) print(data['薪资'].unique()) ``` #### 二、数据预处理数据预处理是数据可视化前的重要步骤之一。对于“薪资”这一特征，由于其分布广泛，需要对其进行预处理，以便更直观地展示数据。这里采用的方法是将薪资区间划分为几个段落，并计算每个区间的中位数。 ```python def preprocess_salary(data): salarys = data['薪资'].values salary_dic = {} for salary in salarys: min_sa = int(salary.split('-')[0][:-1]) max_sa = int(salary.split('-')[1][:-1]) median_sa = (min_sa + max_sa) / 2 if median_sa < 5: salary_dic[u'5k以下'] = salary_dic.get(u'5k以下', 0) + 1 elif 5 <= median_sa < 10: salary_dic[u'5k-10k'] = salary_dic.get(u'5k-10k', 0) + 1 elif 10 <= median_sa < 20: salary_dic[u'10k-20k'] = salary_dic.get(u'10k-20k', 0) + 1 elif 20 <= median_sa < 30: salary_dic[u'20k-30k'] = salary_dic.get(u'20k-30k', 0) + 1 elif 30 <= median_sa < 40: salary_dic[u'30k-40k'] = salary_dic.get(u'30k-40k', 0) + 1 else: salary_dic[u'40k以上'] = salary_dic.get(u'40k以上', 0) + 1 print(salary_dic) return salary_dic ``` #### 三、文本预处理对于“任职要求”这类文本数据，通常需要先进行分词处理，然后再进一步分析。在中文环境中，jieba 是一个非常流行的分词工具，可以有效地进行中文文本的处理。 ```python import jieba def cut_text(text): stopwords = ['熟悉', '技术', '职位', '相关', '工作', '开发', '使用', '能力', '优先', '描述', '任职', '经验', '经验者', '具有', '具备', '以上', '善于', '一种', '以及', '一定', '进行', '能够', '我们'] # 删除停用词 for stopword in stopwords: jieba.del_word(stopword) words = jieba.lcut(text) content = "".join(words) return content ``` #### 四、数据可视化完成数据预处理后，接下来就可以利用Python的数据可视化库进行图表制作。常用的库包括Matplotlib、Seaborn和Plotly等。这里以薪资分布为例，展示如何使用Matplotlib进行图表绘制。 ```python import matplotlib.pyplot as plt # 获取预处理后的薪资分布 salary_distribution = preprocess_salary(data) # 绘制条形图 plt.bar(salary_distribution.keys(), salary_distribution.values()) plt.xlabel('薪资区间') plt.ylabel('频数') plt.title('薪资分布') plt.show() ``` #### 结语通过对拉勾网上收集的数据进行细致的清洗、预处理及可视化分析，我们可以从中发现许多有价值的信息。例如，薪资分布可以帮助求职者了解当前市场的薪酬水平；而对任职要求的词频分析，则有助于求职者了解当前市场对技能的需求趋势。通过Python强大的数据处理能力，我们可以轻松地将这些数据转化为易于理解的形式，为求职者提供宝贵的参考信息。

以下是Python代码： ```python from sklearn.preprocessing import StandardScaler import pandas as pd # 创建一个DataFrame来存储Age和Salary数据 data = {'Age': [25, 30, 35, 40, 45], 'Salary': [50000, 60000, 70000, 80000, 90000]} df = pd.DataFrame(data) # 创建StandardScaler对象 scaler = StandardScaler() # 对Age和Salary列进行归一化 df[['Age', 'Salary']] = scaler.fit_transform(df[['Age', 'Salary']]) # 打印归一化后的数据 print(df) ``` 输出结果如下： ``` Age Salary 0 -1.414214 -1.414214 1 -0.707107 -0.707107 2 0.000000 0.000000 3 0.707107 0.707107 4 1.414214 1.414214 ``` 可以看到，经过StandardScaler归一化后，Age和Salary两列数据都变成了均值为0，标准差为1的正态分布。

阅读全文

用StandardScaler对Age和Salary两列的数据进行归一化

相关推荐

salary数据集.zip

Occupation, Salary and Likelihood of Automation 自动化的职业，薪资和可能性-数据集

zs age:28,salary:20000,address:beijing ls age:25,salary:10000,address:sh as age:30,salary:30000,address:sz fs age:24,salary:8000,address:sz将以上数据写在txt文档，hive建表导入

现给定一个数据元组，它的属department、age 和salary的值分别为“systems”、“26...30”和“46K...50K”。问该元组status的分类是什么?要求使用决策树分类器构建分类模型来预测其结果，用python语言实现

随机生成300个包含name、age和salary的职工信息，打印出50岁以上（含）并且年薪10万以上的职工信息。

5. 编写类Employee,其有age,salary等属性，使用property装饰器限定age范围在[20,60]，salary范围在[3000,10000]。编写示例验证装饰器的有效性

生成一个user类图，其参数有id，name，age，salary，要求id和name不可重复，age的范围在0-100

设计工人类Worker，它具有姓名name,年龄age，部门Dept，工资salary等数据成员

用Java编写一个职工类Employee，要求其包含name、age和salary(月薪)，并且完成构造方法、相应的getter、setter方法以及获得收入方法(getIncome)注，职工的收入就是工资。

用Java编写一个经理类Manager，要求其包含name、age和 salary(月薪)、bonus(奖金)，完成构造方法、相应的getter、setter方法以及获得收入方法(getIncome)注，经理的收入=工资+奖金。

C++中设计工人类Worker，它具有姓名name、年龄age、工作部门Dept、工资salary 等数据成员。其中，salary即前面设计的Sarary类型的数据。按照第前面的形式完成Worker类的程序设计，并统计工人的人数(用静态成员统计人数)。

（2）设计工人类Worker，它具有姓名name、年龄age、工作部门Dept、工资salary 等数据成员。其中，salary即前面设计的Sarary类型的数据。按照第前面的形式完成Worker类的程序设计，并统计工人的人数(用静态成员统计人数)。

最新推荐

必须会的SQL语句(五) NULL数据处理和类型转换

sql中 order by 和 group by的区别

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

如何在Springboot后端项目中实现前端的多人视频会议功能，并使用Vue.js与ElementUI进行界面开发？