首页通过使用Numpy 和 Pandas 相关函数 API 对 jobs.csv 中的数据进行数据处理．需要有注释

通过使用Numpy 和 Pandas 相关函数 API 对 jobs.csv 中的数据进行数据处理．需要有注释

时间: 2024-09-10 18:23:53 浏览: 50

在Python中，使用NumPy和Pandas进行数据处理是一种常见且高效的做法。下面，我将展示如何通过Pandas库读取`jobs.csv`文件，并进行一些基本的数据处理操作。假设`jobs.csv`包含一些关于工作的数据，比如工作标题、公司名称、薪资范围等。 ```python import pandas as pd # 读取CSV文件 df = pd.read_csv('jobs.csv') # 查看数据的前几行，以了解数据结构 print(df.head()) # 假设我们需要清洗数据，去除重复的条目 df_cleaned = df.drop_duplicates() # 对数据进行一些基本的处理，比如更改列名，以使它们更具可读性 df_cleaned.columns = ['Job Title', 'Company Name', 'Salary Range', 'Location', 'Requirements'] # 假设我们需要根据薪资范围筛选出薪资高于某个值的职位 # 假设salary_range列为"Low - High"格式，比如"50K - 100K" # 我们可以将其拆分为最低薪资和最高薪资两列，并转换为数值类型 df_cleaned[['Low Salary', 'High Salary']] = df_cleaned['Salary Range'].str.split(' - ', expand=True) df_cleaned[['Low Salary', 'High Salary']] = df_cleaned[['Low Salary', 'High Salary']].apply(pd.to_numeric) # 筛选高薪职位 high_salary_jobs = df_cleaned[df_cleaned['High Salary'] > 100000] # 假设我们需要将薪资范围标准化为统一的格式，例如"50000 - 100000" # 我们可以创建一个新列来表示 df_cleaned['Standardized Salary Range'] = df_cleaned.apply(lambda row: f"{row['Low Salary']} - {row['High Salary']}", axis=1) # 保存处理后的数据到新的CSV文件 df_cleaned.to_csv('jobs_cleaned.csv', index=False) # 查看数据的详细统计信息，例如数值列的描述性统计 print(df_cleaned.describe()) ```

阅读全文