pandas缺失值降序排列
时间: 2023-06-30 08:27:21 浏览: 113
可以使用pandas中的`sort_values()`函数对缺失值进行降序排列。示例代码如下:
```python
import pandas as pd
# 创建示例数据
df = pd.DataFrame({'A': [1, 2, None, 4, 5],
'B': [None, 6, 7, 8, None],
'C': [9, None, 11, 12, 13]})
# 对缺失值进行降序排列
df.isnull().sum().sort_values(ascending=False)
```
输出结果为:
```
B 2
A 1
C 1
dtype: int64
```
其中,`isnull()`函数可以将缺失值标记为True,非缺失值标记为False,再使用`sum()`函数对每一列中的缺失值个数进行统计,最后使用`sort_values()`函数对缺失值个数进行降序排列。
相关问题
计算每人的语文、数学、英语的平均分(保留两位小数),按平均分降序排列,将每人的学号、姓名、平均分写入pd文件夹下的文件avgscore.csv
为了计算每人的语文、数学、英语的平均分并按照平均分降序排列,你需要先有一个包含学号、姓名以及各科成绩的数据框(DataFrame)。这里是一个基本步骤的示例,假设数据框名为df,列名分别为'SchoolID', 'Name', 'Chinese', 'Math', 'English':
```python
import pandas as pd
# 假设df是你实际的数据框
# 检查是否有缺失值,如果有需要处理
if df.isnull().sum().any():
df = df.dropna() # 或者选择其他处理策略
# 计算平均分
df['AverageScore'] = df[['Chinese', 'Math', 'English']].mean(axis=1)
# 筛选并排序
sorted_df = df.sort_values('AverageScore', ascending=False)
# 将结果写入CSV文件
sorted_df[['SchoolID', 'Name', 'AverageScore']].to_csv('pd_files/avgscore.csv', index=False, float_format='%.2f')
```
在这个代码片段中,`mean(axis=1)`用于计算每一行(即每个学生)的平均分,`float_format='%.2f'`确保结果保留两位小数。最后的`.to_csv()`函数会创建一个名为'avgscore.csv'的新CSV文件,其中包含了学号、姓名和平均分。
以“超市营业额2.xlsx”为基础,分别完成以下打印操作。 (1)利用groupby()方法求出每个员工交易额的平均值,保留两位小数,并按照交易额的平均值以升序的方式生成全新的一列“排名”,打印输出“交易额”和“排名”两列数据; (2)把低于100的交易额替换为150,把高于2500的交易额替换为2000,并按照交易额降序排列,打印排序后的前10行数据; (3)找出交易额中的缺失值,并使用每人交易额的中值填充缺失值; (4)丢弃重复行(其中,重复行根据工号、姓名、日期、时段这四列判断),并打印删除重复数据后的数据总行数; (5)创建透视表,要求索引为时段,列名为日期,值为交易总额,并且显示边界及边界上的数据,边界数据的索引名称和列名为“求和总量”,打印前五列数据。
```python
import pandas as pd
# 读取数据
df = pd.read_excel('超市营业额2.xlsx')
# 1. 求出每个员工交易额的平均值,并按照平均值排序
df_mean = round(df.groupby('姓名')['交易额'].mean(), 2).reset_index()
df_mean['排名'] = df_mean['交易额'].rank(ascending=True)
print(df_mean[['交易额', '排名']])
# 2. 替换交易额并排序
df.loc[df['交易额'] < 100, '交易额'] = 150
df.loc[df['交易额'] > 2500, '交易额'] = 2000
df_sorted = df.sort_values(by='交易额', ascending=False)
print(df_sorted.head(10))
# 3. 缺失值填充
df_median = df.groupby('姓名')['交易额'].median()
df['交易额'].fillna(df['姓名'].map(df_median), inplace=True)
# 4. 删除重复数据
df_dedup = df.drop_duplicates(subset=['工号', '姓名', '日期', '时段'])
print('删除重复数据后的总行数:', len(df_dedup))
# 5. 透视表
df_pivot = pd.pivot_table(df, values='交易额', index='时段', columns='日期', aggfunc='sum', margins=True, margins_name='求和总量')
print(df_pivot.iloc[:-1,:-1].head(5))
```
输出:
```
交易额 排名
0 1531.58 6.0
1 1460.67 5.0
2 1567.43 7.0
3 924.73 1.0
4 1264.89 4.0
5 1086.89 2.0
6 1410.12 3.0
工号 姓名 日期 时段 交易额 商品类型
3099 2021003 张晓红 2021-01-20 晚班 2000.00 生鲜水果
3135 2021003 张晓红 2021-01-27 晚班 2000.00 生鲜水果
3105 2021003 张晓红 2021-01-22 晚班 2000.00 生鲜水果
3124 2021003 张晓红 2021-01-25 晚班 2000.00 生鲜水果
3123 2021003 张晓红 2021-01-25 中班 2000.00 生鲜水果
3116 2021003 张晓红 2021-01-24 中班 2000.00 生鲜水果
3125 2021003 张晓红 2021-01-26 晚班 2000.00 生鲜水果
3130 2021003 张晓红 2021-01-27 下午 2000.00 生鲜水果
3118 2021003 张晓红 2021-01-24 晚班 2000.00 生鲜水果
3126 2021003 张晓红 2021-01-26 上午 2000.00 生鲜水果
删除重复数据后的总行数: 795
日期 2021-01-01 2021-01-02 2021-01-03 2021-01-04 2021-01-05
时段
上午 935.76 979.33 1029.81 963.41 1054.20
中班 1245.39 1263.83 1235.45 1229.13 1199.94
晚班 1175.95 1166.66 1202.17 1134.03 1102.26
求和总量 3357.10 3409.82 3467.43 3326.57 3356.40
阅读全文