# 不同组合的时间均值 lis_i_1 = ['user_id','product','campaign_id','webpage_id','product_category_id', 'user_group_id','age_level','gender','user_depth','var_1'] for c in lis_i_1: df_tr_te[str(c) + '_user_time_hour_mean'] = df_tr_te.groupby(c)['user_time_hour'].transform('mean') df_tr_te[str(c) + '_user_time_day_mean'] = df_tr_te.groupby(c)['user_time_hour'].transform('mean') df_tr_te[str(c) + '_user_time_hour_sum'] = df_tr_te.groupby(c)['user_time_hour'].transform('sum') df_tr_te[str(c) + '_user_time_day_sum'] = df_tr_te.groupby(c)['user_time_hour'].transform('sum')
时间: 2023-07-16 22:12:25 浏览: 135
listool.rar_lis_lis las_listool
这段代码的作用是对数据集进行特征工程处理,根据不同的组合将用户在不同时间段内的行为进行统计。具体来说,对于列表 `lis_i_1` 中的每个特征,都构造了四个新特征:
- `str(c) + '_user_time_hour_mean'`:表示在当前特征值相同的情况下,用户行为在每小时的平均次数。
- `str(c) + '_user_time_day_mean'`:表示在当前特征值相同的情况下,用户行为在每天的平均次数。
- `str(c) + '_user_time_hour_sum'`:表示在当前特征值相同的情况下,用户行为在每小时的总次数。
- `str(c) + '_user_time_day_sum'`:表示在当前特征值相同的情况下,用户行为在每天的总次数。
通过对不同特征的不同组合,可以得到更加丰富的用户行为特征,对于模型的训练和预测都会有一定的帮助。
阅读全文