data.drop_duplicates（subset = ‘columns1'）

data.drop_duplicates(subset='columns1')是一个Python Pandas库中的函数，它用于删除DataFrame对象中的重复行。参数subset指定要检查重复值的列名或列名列表。在执行此函数时，将保留第一个与重复值匹配的行，并删除其余的重复行。这个函数可以帮助我们清理数据集中的重复数据，以便更好地进行分析和建模。

在收视行为信息数据中存在跨夜的记录数据，如开始观看时间与结束观看时间为05-12 23:45与05-13 00:31。这样的数据的记录需要分为两条记录，便于后面用户画像的构建。# 空值和重复值处理 media_data = media_data.dropna(subset=['owner_code']) media_data = media_data.drop_duplicates() # 时间格式转换 media_data['origin_time'] = pd.to_datetime(media_data['origin_time']) media_data['end_time'] = pd.to_datetime(media_data['end_time']) # 将 owner_code 列转换为字符串类型 media_data['owner_code'] = media_data['owner_code'].astype(str) # 将 owner_name 不包含 EA级、EB级、EC级、ED级、EE级的数据保留 media_data = media_data[~media_data['owner_name'].isin(['EA级', 'EB级', 'EC级', 'ED级', 'EE级'])] # 删除 owner_code 为 2.0、9.0、10.0 的数据 media_data = media_data[~media_data['owner_code'].isin(['2.0', '9.0', '10.0'])] # 去掉 origin_time 和 end_time 相同的数据 media_data = media_data[media_data['origin_time'] != media_data['end_time']] # 保留用户同一时间观看的第一条数据 media_data = media_data.drop_duplicates(subset=['phone_no', 'origin_time', 'end_time'], keep='first')要怎么继续写

继续上面的数据处理代码，将跨夜的记录数据拆分为两条记录，可以按照以下步骤进行： 1. 创建一个空的DataFrame，用于存储拆分后的记录数据。 2. 遍历原始数据集media_data的每一行数据。 3. 对于每一行数据，判断开始观看时间和结束观看时间是否跨夜。 4. 如果跨夜，则将该行数据拆分为两条记录，一条记录的结束观看时间为当天的23:59:59，另一条记录的开始观看时间为次日的00:00:00。 5. 将拆分后的记录数据添加到新的DataFrame中。 6. 最后，将新的DataFrame与原始数据集media_data合并，得到包含拆分后记录的数据集。下面是代码示例： ```python import pandas as pd # 创建空的DataFrame split_data = pd.DataFrame(columns=media_data.columns) # 遍历每一行数据 for index, row in media_data.iterrows(): # 判断开始观看时间和结束观看时间是否跨夜 if row['origin_time'].date() != row['end_time'].date(): # 拆分为两条记录 row1 = row.copy() row1['end_time'] = pd.to_datetime(row['origin_time'].date()) + pd.DateOffset(hours=23, minutes=59, seconds=59) row2 = row.copy() row2['origin_time'] = pd.to_datetime(row['end_time'].date()) + pd.DateOffset(days=1) # 添加到新的DataFrame中 split_data = split_data.append([row1, row2], ignore_index=True) # 合并拆分后的记录数据和原始数据集 media_data = pd.concat([media_data, split_data]) # 重新排序索引 media_data = media_data.reset_index(drop=True) ``` 这样，你就可以将跨夜的记录数据拆分为两条记录，并且将其添加到原始数据集中。同时，保留了其他的数据处理步骤。

优化代码 def cluster_format(self, start_time, end_time, save_on=True, data_clean=False, data_name=None): """ local format function is to format data from beihang. :param start_time: :param end_time: :return: """ # 户用簇级数据清洗 if data_clean: unused_index_col = [i for i in self.df.columns if 'Unnamed' in i] self.df.drop(columns=unused_index_col, inplace=True) self.df.drop_duplicates(inplace=True, ignore_index=True) self.df.reset_index(drop=True, inplace=True) dupli_header_lines = np.where(self.df['sendtime'] == 'sendtime')[0] self.df.drop(index=dupli_header_lines, inplace=True) self.df = self.df.apply(pd.to_numeric, errors='ignore') self.df['sendtime'] = pd.to_datetime(self.df['sendtime']) self.df.sort_values(by='sendtime', inplace=True, ignore_index=True) self.df.to_csv(data_name, index=False) # 调用基本格式化处理 self.df = super().format(start_time, end_time) module_number_register = np.unique(self.df['bat_module_num']) # if registered m_num is 0 and not changed, there is no module data if not np.any(module_number_register): logger.logger.warning("No module data!") sys.exit() if 'bat_module_voltage_00' in self.df.columns: volt_ref = 'bat_module_voltage_00' elif 'bat_module_voltage_01' in self.df.columns: volt_ref = 'bat_module_voltage_01' elif 'bat_module_voltage_02' in self.df.columns: volt_ref = 'bat_module_voltage_02' else: logger.logger.warning("No module data!") sys.exit() self.df.dropna(axis=0, subset=[volt_ref], inplace=True) self.df.reset_index(drop=True, inplace=True) self.headers = list(self.df.columns) # time duration of a cluster self.length = len(self.df) if self.length == 0: logger.logger.warning("After cluster data clean, no effective data!") raise ValueError("No effective data after cluster data clean.") self.cluster_stats(save_on) for m in range(self.mod_num): print(self.clusterid, self.mod_num) self.module_list.append(np.unique(self.df[f'bat_module_sn_{str(m).zfill(2)}'].dropna())[0])

Here are some possible optimizations for the given code: 1. Instead of using a list comprehension to find columns with 'Unnamed' in their names, you can use the `filter()` function along with a lambda function to achieve the same result in a more concise way: ``` unused_index_col = list(filter(lambda x: 'Unnamed' in x, self.df.columns)) ``` 2. Instead of dropping duplicates and resetting the index separately, you can use the `drop_duplicates()` function with the `ignore_index` parameter set to `True` to achieve both in one step: ``` self.df.drop_duplicates(inplace=True, ignore_index=True) ``` 3. Instead of using `sys.exit()` to terminate the program when there is no module data, you can raise a `ValueError` with an appropriate error message: ``` raise ValueError("No module data!") ``` 4. Instead of using a series of `if` statements to find the voltage reference column, you can use the `loc` accessor with a boolean mask to select the first column that starts with 'bat_module_voltage': ``` volt_ref_col = self.df.columns[self.df.columns.str.startswith('bat_module_voltage')][0] ``` 5. Instead of using a loop to append a single item to a list, you can use the `append()` method directly: ``` self.module_list.append(np.unique(self.df[f'bat_module_sn_{str(m).zfill(2)}'].dropna())[0]) ``` By applying these optimizations, the code can become more concise and efficient.

阅读全文

data.drop_duplicates（subset = ‘columns1'）

相关推荐

pandas.DataFrame.drop_duplicates 用法介绍

详解pandas使用drop_duplicates去除DataFrame重复项参数

Python DataFrame使用drop_duplicates()函数去重(保留重复值，取重复值)

python语言补齐，删除data重复行并设置参数建造索引，data.(ignore_indrx=)

drop_duplicates删除列重复行

pandas drop_duplicates

data1 = {'name': '张海', 'no': '011', 'chinese': 91, 'math': 82, 'english': 74, 'city': '北京'} df1.append(data1,ignore_index=True)怎么修改可以运行

用python选出名称为“task2_1-6.csv”文件中“商品”列里面相同名称的商品排序

假设要比较的两个csv文件分别为1.csv和2.csv，两个文件都只有三列，要比较的两列数据分别为第1列和第2列且有重复行，找出2.csv中存在但1.csv中不存在的行

pandas 读取删除excel中有重复列行

Python 对Ecxel文件的某三列数据进行去重，将结果在原文件上添加新列，不改变原有数据。什么代码可以实现unique函数的效果

假设要比较的两个csv文件分别为1.csv和2.csv，两个文件都只有三列，要比较的两列数据分别为第1列和第2列，找出2.csv中存在但1.csv中不存在的行

fd.dataframe

Pandas删除excel表格的重复行，排除班级一列

python读取csv文件首列数据并根据首列数据剔除相同行

大家在看

SigmaStudioHelp_3.0(中文)

C#线上考试系统源码.zip

VITA 62.0.docx

公安大数据零信任体系设计要求.pdf

AUTOSAR-MCAL -CanDriver-UserMAnnual

最新推荐

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

opencv的demo程序

NeuronTransportIGA: 使用IGA进行神经元材料传输模拟

【Linux多系统管理大揭秘】：专家级技巧助你轻松驾驭

fofa和fofa viewer的区别

重新编码项目的探索：以Flur艺术作品为例