通过使用Numpy 和 Pandas 相关函数 API 对 jobs.csv 中的数据进行数据处理.需要有注释
时间: 2024-09-10 22:23:53 浏览: 44
在Python中,使用NumPy和Pandas进行数据处理是一种常见且高效的做法。下面,我将展示如何通过Pandas库读取`jobs.csv`文件,并进行一些基本的数据处理操作。假设`jobs.csv`包含一些关于工作的数据,比如工作标题、公司名称、薪资范围等。
```python
import pandas as pd
# 读取CSV文件
df = pd.read_csv('jobs.csv')
# 查看数据的前几行,以了解数据结构
print(df.head())
# 假设我们需要清洗数据,去除重复的条目
df_cleaned = df.drop_duplicates()
# 对数据进行一些基本的处理,比如更改列名,以使它们更具可读性
df_cleaned.columns = ['Job Title', 'Company Name', 'Salary Range', 'Location', 'Requirements']
# 假设我们需要根据薪资范围筛选出薪资高于某个值的职位
# 假设salary_range列为"Low - High"格式,比如"50K - 100K"
# 我们可以将其拆分为最低薪资和最高薪资两列,并转换为数值类型
df_cleaned[['Low Salary', 'High Salary']] = df_cleaned['Salary Range'].str.split(' - ', expand=True)
df_cleaned[['Low Salary', 'High Salary']] = df_cleaned[['Low Salary', 'High Salary']].apply(pd.to_numeric)
# 筛选高薪职位
high_salary_jobs = df_cleaned[df_cleaned['High Salary'] > 100000]
# 假设我们需要将薪资范围标准化为统一的格式,例如"50000 - 100000"
# 我们可以创建一个新列来表示
df_cleaned['Standardized Salary Range'] = df_cleaned.apply(lambda row: f"{row['Low Salary']} - {row['High Salary']}", axis=1)
# 保存处理后的数据到新的CSV文件
df_cleaned.to_csv('jobs_cleaned.csv', index=False)
# 查看数据的详细统计信息,例如数值列的描述性统计
print(df_cleaned.describe())
```
阅读全文