首页统计pandas数据表中“Label_new”列中的出现相同数字的个数，并把少于10次的重复的数据行删除

统计pandas数据表中“Label_new”列中的出现相同数字的个数，并把少于10次的重复的数据行删除

时间: 2024-09-24 09:09:03 浏览: 42

在Pandas中，你可以使用`value_counts()`函数来统计"Label_new"列中每个值出现的次数，然后结合条件筛选出出现次数小于10次的行。下面是一个简单的例子： ```python import pandas as pd # 假设df是你的DataFrame df = pd.DataFrame(...) # 使用value_counts计算"Label_new"列中各值的频数 count_series = df["Label_new"].value_counts() # 创建一个新的DataFrame，只包含出现次数大于等于10的"Label_new"值 filtered_df = df[df["Label_new"].isin(count_series[count_series >= 10].index)] # 删除出现次数少于10的行 df_filtered = filtered_df.drop_duplicates(subset="Label_new", keep='first') # 如果有多个相同的"Label_new"，保留第一条记录 print("After removing rows with less than 10 occurrences:") print(df_filtered) ``` 这里我们首先创建了一个Series `count_series`，展示了"Label_new"的频率。然后使用`isin()`函数选取频率大于等于10的"Label_new"值。接着，使用`drop_duplicates()`函数去除这些值对应的重复行，`subset="Label_new"`指定只考虑"Label_new"列，`keep='first'`表示保留首次出现的行（如果有多个相同的"Label_new"值）。

阅读全文