pd.merge用法举例
时间: 2023-12-05 22:51:52 浏览: 106
当我们需要将两个数据集(DataFrame)按照指定的列(或多列)进行合并时,可以使用pd.merge()函数进行操作。下面是一个pd.merge()用法的举例:
假设我们有两个数据集,一个是销售订单数据集,包含订单号、订单日期、产品编号和销售金额四个字段,另一个是产品信息数据集,包含产品编号、产品名称和产品类型三个字段。我们想要按照产品编号将两个数据集合并起来,生成一个新的数据集,包含订单号、订单日期、产品名称、产品类型和销售金额这五个字段,代码如下:
```python
import pandas as pd
# 创建订单数据集
orders = pd.DataFrame({
'order_id': [1, 2, 3, 4, 5],
'order_date': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05'],
'product_id': ['A001', 'A002', 'A003', 'A001', 'A003'],
'sales': [100, 200, 150, 120, 180]
})
# 创建产品信息数据集
products = pd.DataFrame({
'product_id': ['A001', 'A002', 'A003', 'A004'],
'product_name': ['Product A', 'Product B', 'Product C', 'Product D'],
'product_type': ['Type 1', 'Type 2', 'Type 2', 'Type 3']
})
# 按照产品编号将两个数据集进行合并
result = pd.merge(orders, products, on='product_id')
# 显示合并后的结果
print(result)
```
输出结果如下所示:
```
order_id order_date product_id sales product_name product_type
0 1 2020-01-01 A001 100 Product A Type 1
1 4 2020-01-04 A001 120 Product A Type 1
2 2 2020-01-02 A002 200 Product B Type 2
3 3 2020-01-03 A003 150 Product C Type 2
4 5 2020-01-05 A003 180 Product C Type 2
```
这里我们用pd.merge()函数将订单数据集和产品信息数据集按照product_id列进行合并,生成了一个新的数据集result,包含了订单号、订单日期、产品名称、产品类型和销售金额这五个字段。除了指定合并的列名之外,还可以通过how参数指定合并的方式(inner/outer/left/right),以及通过suffixes参数指定重名列的后缀。
阅读全文