cols = df.columns.tolist() print(len(cols)) df = df[[ # 'UserId', 'ActivityCount', 'ActivityKeep', 'ActivityUsed', 'IntegralCurrentPoints', 'IntegralUsed', 'IngegralTotal', 'IntegralFrequency', 'IntegralAvgPointsDay', 'IntegralScanCount', 'IntegralScanTotal', 'IntegralScanFrequency', 'IntegralCheckinCount', 'IntegralCheckinFrequency', 'OrderCount', 'OrderFrequency', 'OrderItemCount', 'OrderAvgPrice', 'OrderProvinceCity', 'OrderAvgPoint', 'BabyCount', 'User_iCreator', 'ClientCode', # 'MemberState', 'LoyaltyIsAutoLost'] ]
时间: 2023-10-23 20:06:51 浏览: 45
这段代码首先获取了数据集df中所有列的名称,并输出了列的数量。接着,使用df[[...]]的方式对数据集中的某些列进行了筛选,只保留了一部分列,包括:
- ActivityCount:用户活动总数
- ActivityKeep:用户活动留存数
- ActivityUsed:用户活动使用数
- IntegralCurrentPoints:用户当前积分
- IntegralUsed:用户已使用积分
- IngegralTotal:用户总积分
- IntegralFrequency:用户积分获取频率
- IntegralAvgPointsDay:用户平均每日积分获取量
- IntegralScanCount:用户扫码次数
- IntegralScanTotal:用户扫码总数
- IntegralScanFrequency:用户扫码频率
- IntegralCheckinCount:用户签到次数
- IntegralCheckinFrequency:用户签到频率
- OrderCount:用户订单数
- OrderFrequency:用户下单频率
- OrderItemCount:用户订单商品数
- OrderAvgPrice:用户订单平均价格
- OrderProvinceCity:用户下单省市
- OrderAvgPoint:用户订单平均积分
- BabyCount:用户宝宝数量
- User_iCreator:用户渠道
- ClientCode:用户客户端代码
- LoyaltyIsAutoLost:用户是否自动流失
这个过程可以用来过滤掉不必要的列,只保留与目标变量(LoyaltyIsAutoLost)有关的列,以便进行后续的数据分析和建模。
阅读全文