3 merge()合并表格数据,条件:俩个表格必须有相同的列或者索引,
4 根据相同的索引列进行表格合并。一个相同的列或索引用on=index1,
5 多个列用on=[index1,index2...]
6 """
7 #去读四张表的数据
8 prior=pd.read_csv("./特征工程用到数据/order_products__prior.csv")
9 print(prior)
10 products=pd.read_csv("./特征工程用到数据/products.csv")
11 print(products)
12 orders=pd.read_csv("./特征工程用到数据/orders.csv")
13 print(orders)
14 aisles=pd.read_csv("./特征工程用到数据/aisles.csv")
15 print(aisles)
16 #将4个表格合并成1个
17 table1=pd.merge(prior,products,on="product_id")
18 table2=pd.merge(table1,orders,on='order_id')
19 table3=pd.merge(table2,aisles,on="aisle_id")
20 #pd.crosstab统计指定的两列数据之间的对应次数关系(两列数据按照x,y坐标形式交
叉成一个计数表格)
21 print(table3.shape)#显示行列数
22 cross=pd.crosstab(table3['user_id'],table3['aisle'])
23 print(cross)
1.4.4字典类型数据
获取pandas的DataFrame类型文字类型数据时(如泰坦尼克案例),我们可以将
DataFrame转换成字典列表类型,方便用机器容易识别的字典类特征工程抽取(特征工程中
介绍章),方法如下:
1 DictList=DataFrame.to_dict(orient="records")#
2 DictList=[{"age":31,"pclass":"2nd","sex":"female"},
3 {"age":31,"pclass":"2nd","sex":"male"}]