如何有条件地使用df.drop_duplicates()?

可以使用df.drop_duplicates()的subset参数来指定需要去重的列，同时可以使用keep参数来指定保留哪些重复值，其取值可以为'first'保留第一个重复值，'last'保留最后一个重复值，或者False删除所有重复值。例如，如果我们有一个名为df的数据框，其中包含列A、B和C，我们只想基于列A和B进行去重，同时保留最后一个重复值，那么可以使用以下代码： df.drop_duplicates(subset=['A', 'B'], keep='last') 这将返回一个仅包含列A、B和C的数据框，其中已经基于列A和B进行了去重，同时保留了最后一个重复值。

请问以下代码有何问题？ try: db = pymysql.Connect(host='10.32.158.162', port=3306, user='dscuser', passwd='dscuser_123', db='COST') if y == "岗位费用": df_upload = pd.melt(df_upload, id_vars=['project', 'role'], value_vars=["2023", "2024", "2025", "2026", "2027", "2028", "2029", "上一版"], var_name='year', value_name='value') elif y == "年度项目月份工时": df_upload = pd.melt(df_upload, id_vars=['Project', 'Function'], value_vars=temp, var_name='year', value_name='value') df_upload = df_upload.dropna() df_upload = df_upload.drop_duplicates() df_upload = df_upload[(df_upload['value'] != 0) & (df_upload['value'].notna())] else: sql = "delete from COST.{} where project = '{}';".format(upload_name, project_name) cursor = db.cursor() cursor.execute(sql) # db.commit() # db.close() col_names = list(df_upload) for col in col_names: df_upload[col] = df_upload[col].astype('string', copy=False) df_upload.to_sql(upload_name, engine, if_exists="append", index=False) else: # db.commit() # db.close() error = error msg = "" except Exception as e: db.rollback() msg = str(e)[0:100] else: db.commit() finally: db.close()

这段代码存在一些问题： 1. 引入的库`pandas`和`pymysql`没有看到在哪里导入，需要在代码开头进行导入。 2. 在执行SQL语句时，没有使用参数化查询，容易出现SQL注入漏洞。应该使用参数化查询，例如使用`cursor.execute(sql, params)`方法。其中`params`是一个元组或字典类型，用于替换SQL语句中的参数。 3. 在`try`语句块中，如果`y`不等于"岗位费用"和"年度项目月份工时"，则会执行`else`语句块，但是该语句块中没有对`df_upload`进行处理，会导致后面的代码出现错误。 4. 在`else`语句块中，如果使用`cursor`对象进行数据库操作，则应该在操作完成后调用`cursor.close()`方法释放资源。 5. 在`except`语句块中，`error = error`这行代码没有实际作用，应该删除。下面是修改后的代码： ``` import pandas as pd import pymysql try: db = pymysql.Connect(host='10.32.158.162', port=3306, user='dscuser', passwd='dscuser_123', db='COST') if y == "岗位费用": df_upload = pd.melt(df_upload, id_vars=['project', 'role'], value_vars=["2023", "2024", "2025", "2026", "2027", "2028", "2029", "上一版"], var_name='year', value_name='value') elif y == "年度项目月份工时": df_upload = pd.melt(df_upload, id_vars=['Project', 'Function'], value_vars=temp, var_name='year', value_name='value') df_upload = df_upload.dropna() df_upload = df_upload.drop_duplicates() df_upload = df_upload[(df_upload['value'] != 0) & (df_upload['value'].notna())] else: sql = "delete from COST.{} where project = %s;".format(upload_name) cursor = db.cursor() cursor.execute(sql, (project_name,)) cursor.close() col_names = list(df_upload) for col in col_names: df_upload[col] = df_upload[col].astype('string', copy=False) df_upload.to_sql(upload_name, engine, if_exists="append", index=False) except Exception as e: db.rollback() msg = str(e)[0:100] else: db.commit() finally: db.close() ``` 在上面的代码中，我们首先导入了`pandas`和`pymysql`库。在`try`语句块中，我们首先创建了一个数据库连接`db`，然后根据不同的条件对`df_upload`进行处理。如果`y`等于"岗位费用"，则使用`pd.melt()`方法进行数据重构。如果`y`等于"年度项目月份工时"，则使用`pd.melt()`方法和`temp`变量进行数据重构。然后对数据进行清洗，去除空值和重复值，以及`value`列中的0值和空值。如果`y`不等于"岗位费用"和"年度项目月份工时"，则执行`else`语句块。在该语句块中，我们使用参数化查询的方式执行SQL语句，避免了SQL注入漏洞。然后将`df_upload`中的数据类型转换为字符串类型，并使用`df_upload.to_sql()`方法将数据写入数据库。在`except`语句块中，如果出现异常，则会回滚事务并输出错误信息。在`else`语句块中，如果没有出现异常，则会提交事务。最后在`finally`语句块中，关闭数据库连接。

import pandas as pd def basic_set(df): basic = {} for i in df.drop_duplicates().values.tolist(): # 去重.转列表 basic[str(i)] = [] # str转为字符串类型，每一个str(i)都制作一个索引，暂时是空的 for j, k in enumerate(df.values.tolist()): # 把数据放到对应的索引里面 if k == i: basic[str(i)].append(j) return basic def rough_set(data): data = data.dropna(axis=0, how='any') # 删去有缺失值的某些行 x_data = data.drop(['y'], axis=1) # 得到条件属性列：去掉决策属性y列，得到条件属性的数据 y_data = data.loc[:, 'y'] # 得到决策属性列 # 决策属性等价集 y_basic_set = [v for k, v in basic_set(y_data).items()] #y_basic_set [[1, 2, 5, 6], [0, 3, 4, 7]] # 条件属性等价集 x_basic_set = [v for k, v in basic_set(x_data).items()] #x_basic_set [[4], [0], [5], [1], [6], [7], [2], [3]] #######################Begin######################## #求正域POSc(D) pos = [] # 正域POSc(D) #计算决策属性D关于属性集全集C的依赖度r_x_y print('依赖度r_x_(y):', r_x_y) ########################End######################### # 探索条件属性中不可省关系 u = locals() # locals() 函数会以字典类型返回当前位置的全部局部变量 pos_va = locals() r = locals() columns_num = list(range(len(x_data.columns))) # range() 函数可创建一个整数列表，一般用在for循环中 # 收集属性重要度 imp_attr = [] for i in columns_num: c = columns_num.copy() c.remove(i) u = data.iloc[:, c] # iloc通过行号获取行数据，不能是字符 u_basic_set = [v for k, v in basic_set(u).items()] #去掉一个属性的属性子集的等价集 #######################Begin######################## #求正域POSc-a(D) pos_va = [] # 正域POSc-a(D) #计算决策属性D关于属性集子集C-a的依赖度r ########################End######################### r_diff = round(r_x_y - r, 4) # 计算属性的重要度 imp_attr.append(r_diff) # 把该属性的重要度存在imp_attr里面 print('第',imp_attr.index(imp_attr==0)+1,'个属性重要度为0，可约简') def main(): #读取文件数据 data = pd.read_csv(filepath_or_buffer='data3.csv') rough_set(data) if name == 'main': main()请补全上述从begin到end的代码

begin: #求正域POSc(D) pos = [] # 正域POSc(D) for i in y_basic_set: # 循环决策属性等价集 flag = 0 # flag=0表示i为正域元素 for j in i: if j not in pos: # 如果决策属性等价集中的元素不在正域中，则添加到正域中 pos.append(j) flag = 1 # 此时i不是正域元素 if flag == 0: pos += i # 如果i为正域元素，则添加到正域中 #计算决策属性D关于属性集全集C的依赖度r_x_y r_x_y = round(len(pos)/len(data), 4) # 四舍五入保留4位小数 ########################End######################### # 探索条件属性中不可省关系 u = locals() # locals() 函数会以字典类型返回当前位置的全部局部变量 pos_va = locals() r = locals() columns_num = list(range(len(x_data.columns))) # range() 函数可创建一个整数列表，一般用在for循环中 # 收集属性重要度 imp_attr = [] for i in columns_num: c = columns_num.copy() c.remove(i) u = data.iloc[:, c] # iloc通过行号获取行数据，不能是字符 u_basic_set = [v for k, v in basic_set(u).items()] #去掉一个属性的属性子集的等价集 #######################Begin######################### #求正域POSc-a(D) pos_va = [] # 正域POSc-a(D) for j in u_basic_set: flag = 0 for k in j: if k not in pos_va: pos_va.append(k) flag = 1 if flag == 0: pos_va += j #计算决策属性D关于属性集子集C-a的依赖度r r = round(len(pos_va)/len(u), 4) # 四舍五入保留4位小数 #######################End######################### r_diff = round(r_x_y - r, 4) # 计算属性的重要度 imp_attr.append(r_diff) # 把该属性的重要度存在imp_attr里面 print('第',imp_attr.index(imp_attr==0)+1,'个属性重要度为0，可约简') end.

如何有条件地使用df.drop_duplicates()?

相关推荐

pandas.DataFrame.drop_duplicates 用法介绍

详解pandas使用drop_duplicates去除DataFrame重复项参数

Python 重复数据处理（df.drop-duplicates方法）Python源码

pandas库如何使用

如何使用Python根据已有的表格信息实现土壤农业利用适宜类评价

27. Pandas数据处理方法，包括Series、DataFrame的使用，和数据检索等方法

pandas 使用方法

pandas如何使用

一个execl表，有字段(编号，电量)导出每个编号第一条数据和电量开始为0/电量最小的数据，Python实现

pandas用左连接时有重复自动怎么要求只返回一个结果

python pandas的知识点梳理

pandas 数据库操作有哪些

给我写一篇使用pandas处理excel数据的综述

最新推荐

BSC绩效考核指标汇总 (2).docx

管理建模和仿真的文件

【进阶】Flask中的会话与用户管理

卷积神经网络实现手势识别程序

BSC资料.pdf

"互动学习：行动中的多样性与论文攻读经历"

【进阶】Flask中的请求处理

transformer模型对话

BSC绩效考核指标汇总 (3).pdf

关系数据表示学习