统计pandas数据表中“Label_new”列中的出现相同数字的个数,并把少于10次的重复的数据行删除
时间: 2024-09-24 08:09:03 浏览: 36
在Pandas中,你可以使用`value_counts()`函数来统计"Label_new"列中每个值出现的次数,然后结合条件筛选出出现次数小于10次的行。下面是一个简单的例子:
```python
import pandas as pd
# 假设df是你的DataFrame
df = pd.DataFrame(...)
# 使用value_counts计算"Label_new"列中各值的频数
count_series = df["Label_new"].value_counts()
# 创建一个新的DataFrame,只包含出现次数大于等于10的"Label_new"值
filtered_df = df[df["Label_new"].isin(count_series[count_series >= 10].index)]
# 删除出现次数少于10的行
df_filtered = filtered_df.drop_duplicates(subset="Label_new", keep='first') # 如果有多个相同的"Label_new",保留第一条记录
print("After removing rows with less than 10 occurrences:")
print(df_filtered)
```
这里我们首先创建了一个Series `count_series`,展示了"Label_new"的频率。然后使用`isin()`函数选取频率大于等于10的"Label_new"值。接着,使用`drop_duplicates()`函数去除这些值对应的重复行,`subset="Label_new"`指定只考虑"Label_new"列,`keep='first'`表示保留首次出现的行(如果有多个相同的"Label_new"值)。
阅读全文