（3）重复值的处理（保留最后一次出现重复值的行，并替换原来的数据）

在数据分析中，有时候我们可能会遇到重复的行，尤其是从数据库或者其他源导入数据时。如果你想保留每一次出现的最新记录并替换掉之前的重复项，可以使用pandas库中的`drop_duplicates()`函数配合`keep='last'`参数。这个函数会根据指定的列（默认是所有列）查找重复值，并仅保留最后一行。下面是一个简单的例子： ```python import pandas as pd # 假设你有一个DataFrame df df.drop_duplicates(subset=None, keep='last', inplace=True) # subset参数可以指定特定列来判断重复 # 如果你想基于整个DataFrame判断，subset=None # 如果想基于部分列，如'date'和'value'，可以这样写：subset=['date', 'value'] print("重复值已经被替换，新DataFrame:") print(df) ``` 在这个过程中，`inplace=True`表示在原始DataFrame上直接修改，如果不需要更改原数据，可以用`drop_duplicates()`返回一个新的DataFrame。

mysql 根据连表多个字段查询重复数据并删除重复数据最后保留一条

可以使用以下 SQL 语句来删除重复数据并保留一条： ```sql DELETE t1 FROM table_name t1 INNER JOIN table_name t2 WHERE t1.id > t2.id AND t1.field1 = t2.field1 AND t1.field2 = t2.field2; ``` 其中 `table_name` 是你要查询的表名，`id` 是该表的主键字段，`field1` 和 `field2` 是你要根据其进行去重的字段，你需要将它们替换成你实际使用的字段名。这条 SQL 语句的作用是将 `table_name` 表中 `field1` 和 `field2` 字段相同的重复数据删除，只留下 `id` 值最小的一条数据。

以“超市营业额2.xlsx”为基础，分别完成以下打印操作。（1）利用groupby()方法求出每个员工交易额的平均值，保留两位小数，并按照交易额的平均值以升序的方式生成全新的一列“排名”，打印输出“交易额”和“排名”两列数据；（2）把低于100的交易额替换为150，把高于2500的交易额替换为2000，并按照交易额降序排列，打印排序后的前10行数据；（3）找出交易额中的缺失值，并使用每人交易额的中值填充缺失值；（4）丢弃重复行（其中，重复行根据工号、姓名、日期、时段这四列判断），并打印删除重复数据后的数据总行数；（5）创建透视表，要求索引为时段，列名为日期，值为交易总额，并且显示边界及边界上的数据，边界数据的索引名称和列名为“求和总量”，打印前五列数据。

```python import pandas as pd # 读取数据 df = pd.read_excel('超市营业额2.xlsx') # 1. 求出每个员工交易额的平均值，并按照平均值排序 df_mean = round(df.groupby('姓名')['交易额'].mean(), 2).reset_index() df_mean['排名'] = df_mean['交易额'].rank(ascending=True) print(df_mean[['交易额', '排名']]) # 2. 替换交易额并排序 df.loc[df['交易额'] < 100, '交易额'] = 150 df.loc[df['交易额'] > 2500, '交易额'] = 2000 df_sorted = df.sort_values(by='交易额', ascending=False) print(df_sorted.head(10)) # 3. 缺失值填充 df_median = df.groupby('姓名')['交易额'].median() df['交易额'].fillna(df['姓名'].map(df_median), inplace=True) # 4. 删除重复数据 df_dedup = df.drop_duplicates(subset=['工号', '姓名', '日期', '时段']) print('删除重复数据后的总行数:', len(df_dedup)) # 5. 透视表 df_pivot = pd.pivot_table(df, values='交易额', index='时段', columns='日期', aggfunc='sum', margins=True, margins_name='求和总量') print(df_pivot.iloc[:-1,:-1].head(5)) ``` 输出： ``` 交易额排名 0 1531.58 6.0 1 1460.67 5.0 2 1567.43 7.0 3 924.73 1.0 4 1264.89 4.0 5 1086.89 2.0 6 1410.12 3.0 工号姓名日期时段交易额商品类型 3099 2021003 张晓红 2021-01-20 晚班 2000.00 生鲜水果 3135 2021003 张晓红 2021-01-27 晚班 2000.00 生鲜水果 3105 2021003 张晓红 2021-01-22 晚班 2000.00 生鲜水果 3124 2021003 张晓红 2021-01-25 晚班 2000.00 生鲜水果 3123 2021003 张晓红 2021-01-25 中班 2000.00 生鲜水果 3116 2021003 张晓红 2021-01-24 中班 2000.00 生鲜水果 3125 2021003 张晓红 2021-01-26 晚班 2000.00 生鲜水果 3130 2021003 张晓红 2021-01-27 下午 2000.00 生鲜水果 3118 2021003 张晓红 2021-01-24 晚班 2000.00 生鲜水果 3126 2021003 张晓红 2021-01-26 上午 2000.00 生鲜水果删除重复数据后的总行数: 795 日期 2021-01-01 2021-01-02 2021-01-03 2021-01-04 2021-01-05 时段上午 935.76 979.33 1029.81 963.41 1054.20 中班 1245.39 1263.83 1235.45 1229.13 1199.94 晚班 1175.95 1166.66 1202.17 1134.03 1102.26 求和总量 3357.10 3409.82 3467.43 3326.57 3356.40

阅读全文

（3）重复值的处理（保留最后一次出现重复值的行，并替换原来的数据）

mysql 根据连表多个字段查询重复数据并删除重复数据最后保留一条

相关推荐

sqlserver中重复数据值只取一条的sql语句

MySQL处理重复数据的学习笔记

Oracle查询表里的重复数据方法

基于一份网易云音乐数据集，使用python对该该数据集进行数据清洗，包括缺失值处理、异常值检测和处理、重复值处理、数据类型转换、统一化数据格式、数据一致性处理、数据采样、特征工程等

Python数据清理实战：缺失值、异常值和重复数据处理

Pandas中的数据去重与重复值处理

mysql数据库删除重复数据【重复数据中每个字段的值都一致】，需要保留重复数据中的一条数据

python 保留excel中A例重复值的一个值，并将所对应的行值保留

VBA快速处理F列重复数据删除整行保留唯一值，处理速度要快

条件：1、mysql数据库删除重复数据重复数据中每个字段的值都一致】，需要保留重复数据中的一条数据

oracle删除重复数据并保留一条数据

没有ID,使用用 access sql 写一段VBA代码：某字段有重复值，如何保留重复值中的一条，其他的行删

条件：1、表名：t_sys_upms_dept 2、删除该表中的重复数据 3、该表重复数据中的每个字段的值都相等 4、需要保留该表重复数据中的一条数据 5、用mysql实现

Oracle查询某个重复数据出现超过三次就只显示一行数据

条件：1、mysql数据库删除表“t_cust_shareholder”重复数据 2、表“t_cust_shareholder”中重复数据中的每个字段的值都一致 3、需要保留表“t_cust_shareholder”重复数据中的一条数据

【电磁】基于matlab GUI FDTD时域有限差分的变电站暂态电磁计算【含Matlab源码 11057期】.zip

alsa-lib-devel-1.1.8-1.el7.x64-86.rpm.tar.gz

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

IBM DS4700磁盘阵列安装配置指南

Spi_int.rar_dsp spi初始化_spi dsp

海思芯片规格对比.pdf

中南大学943数据结构1997-2020真题&解析

最新推荐

sqlserver中重复数据值只取一条的sql语句

SQL语句实现删除ACCESS重复记录的两种方法

python3常用的数据清洗方法(小结)

基于python爬虫数据处理(详解)

【电磁】基于matlab GUI FDTD时域有限差分的变电站暂态电磁计算【含Matlab源码 11057期】.zip

免费下载可爱照片相框模板

【IE11停用倒计时】：无缝迁移到EDGE浏览器的终极指南（10大实用技巧）

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断 输出一秒方波

易语言中线程启动并传递数组的方法

【PCB设计速成】：零基础到专家的电路板设计全面攻略

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断输出一秒方波