feature = pd.merge(feature, pivot, on=keys, how='left') # 将id列与特征列左连解释一下该段代码
时间: 2024-03-14 11:48:56 浏览: 46
这段代码使用了 Pandas 库的 merge 函数,将名为 feature 和 pivot 的两个 DataFrame 按照 id 列进行左连接(left join),即 feature DataFrame 中的每一行都会与 pivot DataFrame 中的某些行匹配,匹配条件是它们的 id 列的值相等。最终生成的新 DataFrame 叫做 feature,它包含了原 feature 和 pivot DataFrame 中的所有列,且以 id 列为键连接。如果某个 id 在 pivot DataFrame 中没有匹配到,则在 feature DataFrame 中对应的行会用 NaN 填充。
相关问题
#商家被领取的特定优惠券数目 pivot = pd.pivot_table(data, index=keys13, values='cnt', aggfunc=lambda x:len(set(x))) pivot = pd.DataFrame(pivot).rename(columns={ 'cnt': 'merchant_differ_coupon'}).reset_index() feature = pd.merge(feature, pivot, on=keys13, how='left')解释代码函数
这段代码主要是对一个数据集进行基于某些特定键值(keys13)的聚合操作,统计不同商家被领取的特定优惠券的数量。其中,pivot_table()函数用于实现数据透视表的操作,index参数指定透视表的行索引,values参数指定需要聚合的数值列,aggfunc参数指定聚合函数,这里使用lambda函数实现去重计数。接着,将聚合结果转化为DataFrame格式,并将聚合函数的名称改为'merchant_differ_coupon',最后通过merge()函数将聚合结果与原始数据集合并,以获得每个商家被领取的特定优惠券的数量信息。
# 用户在多少商家领取并消费优惠券 pivot = pd.pivot_table(data[data['Date'].notnull()&data['Date_received'].notnull()][['User_id', 'Merchant_id']], index=keys1, values='Merchant_id', aggfunc=lambda x:len(set(x))) pivot = pd.DataFrame(pivot).rename(columns={'Merchant_id':prefixs + 'received_consume_differ_merchant'}).reset_index() feature_user = pd.merge(feature_user, pivot, on=keys1, how='left') # 用户对不同商家领取优惠券的核销率(领券消费数/领券数) feature_user[prefixs+'received_consume_merchant_rate'] = feature_user[prefixs + 'received_consume_differ_merchant'].astype('float')/feature_user[prefixs + 'received_differ_merchant'].astype('float') # 用户15天内消费优惠券数量 pivot = pd.pivot_table(data[data['label']==1][['User_id', 'cnt']], index=keys1, values='cnt', aggfunc=len) pivot = pd.DataFrame(pivot).rename(columns={'cnt': prefixs+'15_consume_cnt'}).reset_index() feature_user = pd.merge(feature_user, pivot, on=keys1, how='left') # 用户15天内未消费优惠券数量 pivot = pd.pivot_table(data[data['label']==0][['User_id', 'cnt']], index=keys1, values='cnt', aggfunc=len) pivot = pd.DataFrame(pivot).rename(columns={'cnt': prefixs+'15_not_consume_cnt'}).reset_index() feature_user = pd.merge(feature_user, pivot, on=keys1, how='left')用groupby(函数改写)
# 用户在多少商家领取并消费优惠券
pivot = data[data['Date'].notnull() & data['Date_received'].notnull()][['User_id', 'Merchant_id']].groupby(keys1)['Merchant_id'].nunique().reset_index()
pivot = pivot.rename(columns={'Merchant_id': prefixs + 'received_consume_differ_merchant'})
feature_user = pd.merge(feature_user, pivot, on=keys1, how='left')
# 用户对不同商家领取优惠券的核销率(领券消费数/领券数)
feature_user[prefixs + 'received_consume_merchant_rate'] = feature_user[prefixs + 'received_consume_differ_merchant'].astype('float') / feature_user[prefixs + 'received_differ_merchant'].astype('float')
# 用户15天内消费优惠券数量
pivot = data[data['label'] == 1][['User_id', 'cnt']].groupby(keys1)['cnt'].count().reset_index()
pivot = pivot.rename(columns={'cnt': prefixs+'15_consume_cnt'})
feature_user = pd.merge(feature_user, pivot, on=keys1, how='left')
# 用户15天内未消费优惠券数量
pivot = data[data['label'] == 0][['User_id', 'cnt']].groupby(keys1)['cnt'].count().reset_index()
pivot = pivot.rename(columns={'cnt': prefixs+'15_not_consume_cnt'})
feature_user = pd.merge(feature_user, pivot, on=keys1, how='left')
阅读全文