Python DataFrame合并详解：merge, join, concat

版权申诉

128 浏览量更新于2024-09-12 收藏 49KB PDF 举报

"这篇资源主要介绍了在Python的Pandas库中如何使用DataFrame的数据合并功能，包括merge、join和concat操作。特别关注了merge函数的使用，它允许通过一个或多个键来连接数据集的行。" 在数据分析领域，Pandas库的DataFrame对象是处理结构化数据的强大工具，而数据合并则是数据分析中的常见操作。DataFrame提供了多种合并方法，包括`merge`、`join`和`concat`。这里我们重点讨论`merge`函数。 `merge`函数用于将两个或更多DataFrame对象基于共同的键（列名或索引）进行合并。这个函数的关键参数包括： 1. `how`: 指定合并类型，有'inner'（默认）、'outer'、'left'和'right'四种方式。 - 'inner'：只保留两个数据集中键都存在的行，相当于SQL中的INNER JOIN。 - 'outer'：包含所有键，无论其是否在两边数据集中都存在，相当于SQL中的FULL OUTER JOIN。 - 'left'：保留左数据集的所有键，缺失的键在右边用NaN填充，相当于SQL中的LEFT JOIN。 - 'right'：保留右数据集的所有键，缺失的键在左边用NaN填充，相当于SQL中的RIGHT JOIN。 2. `on`: 指定用于合并的公共列名。如果提供，它必须在左右两个数据集中都存在。 3. `left_on`和`right_on`: 分别指定左和右数据集用于合并的列名，它们可以是列名或者与DataFrame长度相等的数组。 4. `left_index`和`right_index`：如果为True，将使用DataFrame的索引作为合并键。 5. `suffixes`: 当键的列名重复时，分别在结果列名后添加的后缀。 6. `copy`: 默认为True，表示在合并过程中复制数据，设置为False可提高性能，但可能影响数据的独立性。 7. `indicator`: 如果为True，会添加一个新列，显示每行来自哪个数据集。举例来说，假设我们有两个DataFrame，df1和df2，它们都有一个共同的键列'key'： ```python df1 = pd.DataFrame({'key':['one','two','two'], 'data1':np.arange(3)}) df2 = pd.DataFrame({'key':['one','three','three'], 'data2':np.arange(3)}) ``` 当我们使用`merge`函数默认的'inner'连接方式时： ```python df3 = pd.merge(df1, df2) ``` 结果df3只包含键'key'的交集，即'one'，并保留了两表的列'data1'和'data2'。如果希望进行全连接，可以指定`how='outer'`，这样结果将包含所有可能的键，对于缺失的数据，相应位置会被填充为NaN。此外，还可以通过`left_on`和`right_on`指定非共享的列名进行连接，或者通过`left_index=True`和`right_index=True`直接使用索引进行连接。 `merge`函数提供了灵活的选项，能够满足不同场景下的数据合并需求，无论是基于列名还是索引，无论是内连接还是外连接。正确理解和使用`merge`可以帮助我们有效地整合和分析数据。

DataFrame 数据合并实现数据合并实现(merge，，join，，concat)

merge

merge 函数通过一个或多个键将数据集的行连接起来。

场景：针对同一个主键存在的两张包含不同特征的表，通过主键的链接，将两张表进行合并。合并之后，两张表的行数不增

加，列数是两张表的列数之和。

def merge(left, right, how='inner', on=None, left_on=None, right_on=None,

left_index=False, right_index=False, sort=False,

suffixes=('_x', '_y'), copy=True, indicator=False,

validate=None):

参数参数描述描述

how 数据融合的方法，从在不重合的键，方式（inner、outer、left、right）

on 用来对齐的列名，一定要保证左表和右表存在相同的列名。

left_on 左表对齐的列，可以是列名。也可以是DataFrame同长度的arrays

right_on 右表对齐的列，可以是列名。

left_index 将左表的index用作连接键

right_index 将右表的index用作连接键

suffixes 左右对象中存在重名列，结果区分的方式，后缀名。

copy 默认：True。将数据复制到数据结构中，设置为False提高性能。

特性示例特性示例(1)

默认：以重叠的列名当作连接键

df1 = pd.DataFrame({'key': ['one', 'two', 'two'],

'data1': np.arange(3)})

df2 = pd.DataFrame({'key': ['one', 'three', 'three'],

'data2': np.arange(3)})

df3 = pd.merge(df1, df2)

print(df1)

print(df2)

print(df3)

key data1

0 one 0

1 two 1

2 two 2

key data2

0 one 0

1 three 1

2 three 2

key data1 data2

0 one 0 0

特性示例特性示例(2)

默认：做inner连接，取key的交集

连接方式还有left right outer

df1 = pd.DataFrame({'key': ['one', 'two', 'two'],

'data1': np.arange(3)})

df2 = pd.DataFrame({'key': ['one', 'three', 'three'],

'data2': np.arange(3)})

df3 = pd.merge(df1, df2)

df4 = pd.merge(df1, df2, how='left')

print(df3)

print(df4)

key data1 data2

0 one 0 0

key data1 data2

0 one 0 0.0

1 two 1 NaN

2 two 2 NaN

特性示例特性示例(3)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38706197

粉丝: 2
资源: 978

Python DataFrame合并详解：merge, join, concat

Fusion_concat

将一个DataFrame中的一列（行），插入到另一个DataFrame中

在Pandas中DataFrame数据合并,连接(concat,merge,join)的实例

Pandas合并DataFrame：Merge, Join, Concat, Append【Pandas入门教程6】

pandas dataframe的合并实现（append, merge, concat）

在pandas中dataframe数据合并,连接(concat,merge,join)的实例

Pandas 中的 DataFrame 合并方法：append、merge 和 concat

【进阶篇】数据合并与连接：Merge与Concat技术应用

数据合并与连接：Pandas中的merge与concat

python左右合并Dataframe，以右面的Dataframe为主，怎么使用concat方法实现

最新资源