Python DataFrame合并详解：merge, join, concat

版权申诉

5星 · 超过95%的资源 61 浏览量更新于2024-09-11 收藏 55KB PDF 举报

内连接"（inner join）行为，只保留两个数据框中键都存在的行在Python的pandas库中，DataFrame的数据合并是数据分析中的重要操作，它允许我们将来自不同数据源的信息结合在一起，以便进行更深入的分析。DataFrame提供了三种主要的合并方法：`merge()`、`join()`和`concat()`，每个都有其特定的用途。 `merge()`函数是最通用的合并工具，它基于指定的键（列名或索引）来连接两个DataFrame。`how`参数定义了连接类型： - `inner`：默认值，返回两个数据框中键都存在的行，这是SQL中的内连接。 - `outer`：返回所有键，即使在其中一个数据框中不存在，这相当于SQL的外连接。 - `left`：返回左数据框的所有键，如果右数据框中不存在则用NaN填充，类似于SQL的左连接。 - `right`：返回右数据框的所有键，如果左数据框中不存在则用NaN填充，对应于SQL的右连接。在示例代码中，`merge()`函数被用于合并两个数据框`df1`和`df2`。它们都有一个共享的键列`'key'`。当没有指定`how`参数时，默认使用`inner`连接，因此结果`df3`只包含了键为'one'和'two'的行。如果`key`在任一数据框中不存在，该行就不会出现在结果中。 `on`参数用于指定合并的键，当左右两表有相同列名时可以直接使用。`left_on`和`right_on`允许指定不同的列名作为键。如果希望使用索引来合并，可以设置`left_index=True`和`right_index=True`。 `suffixes`参数用于处理重命名冲突。当合并的列名相同且未指定键时，pandas会自动添加后缀`_x`和`_y`来区分来自不同数据框的列。例如，如果`df1`和`df2`都有一个名为`data`的列，合并后的结果中，这两个列将分别被命名为`data_x`和`data_y`。 `concat()`函数则是沿着轴（axis）方向连接DataFrame，它通常用于堆叠或拼接数据。可以沿着行(axis=0)或列(axis=1)方向连接，而且允许连接的对象有不同索引。与`merge()`不同，`concat()`不依赖于键，而是简单地将数据附加到一起。 `join()`函数则是基于索引来合并数据，它主要用于连接DataFrame，特别是当数据框已经按照某种有意义的顺序排列时，如时间序列数据。可以使用`left`, `right`, `outer`, 或 `inner`连接类型，但默认是左连接。在实际应用中，选择合适的合并方法取决于你的具体需求，例如你是否关心所有记录，或者只想合并部分匹配的记录等。理解并熟练运用这些方法是高效数据分析的关键步骤。

DataFrame 数据合并实现数据合并实现(merge，，join，，concat)

主要介绍了DataFrame 数据合并实现(merge，join，concat)，文中通过示例代码介绍的非常详细，对大家的学

习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

merge

merge 函数通过一个或多个键将数据集的行连接起来。

场景：针对同一个主键存在的两张包含不同特征的表，通过主键的链接，将两张表进行合并。合并之后，两张表的行数不增

加，列数是两张表的列数之和。

def merge(left, right, how='inner', on=None, left_on=None, right_on=None,

left_index=False, right_index=False, sort=False,

suffixes=('_x', '_y'), copy=True, indicator=False,

validate=None):

参数参数描述描述

how 数据融合的方法，从在不重合的键，方式（inner、outer、left、right）

on 用来对齐的列名，一定要保证左表和右表存在相同的列名。

left_on 左表对齐的列，可以是列名。也可以是DataFrame同长度的arrays

right_on 右表对齐的列，可以是列名。

left_index 将左表的index用作连接键

right_index 将右表的index用作连接键

suffixes 左右对象中存在重名列，结果区分的方式，后缀名。

copy 默认：True。将数据复制到数据结构中，设置为False提高性能。

特性示例特性示例(1)

默认：以重叠的列名当作连接键

df1 = pd.DataFrame({'key': ['one', 'two', 'two'],

'data1': np.arange(3)})

df2 = pd.DataFrame({'key': ['one', 'three', 'three'],

'data2': np.arange(3)})

df3 = pd.merge(df1, df2)

print(df1)

print(df2)

print(df3)

key data1

0 one 0

1 two 1

2 two 2

key data2

0 one 0

1 three 1

2 three 2

key data1 data2

0 one 0 0

特性示例特性示例(2)

默认：做inner连接，取key的交集

连接方式还有left right outer

df1 = pd.DataFrame({'key': ['one', 'two', 'two'],

'data1': np.arange(3)})

df2 = pd.DataFrame({'key': ['one', 'three', 'three'],

'data2': np.arange(3)})

df3 = pd.merge(df1, df2)

df4 = pd.merge(df1, df2, how='left')

print(df3)

print(df4)

key data1 data2

0 one 0 0

key data1 data2

0 one 0 0.0

1 two 1 NaN

2 two 2 NaN

特性示例特性示例(3)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38642369

粉丝: 4
资源: 949

Python DataFrame合并详解：merge, join, concat

Pandas 中的 DataFrame 合并方法：append、merge 和 concat

Pandas关键函数：append, assign, combine & join - DataFrame操作详解

Pandas数据合并技术：掌握表格与时间序列数据融合

在Pandas中DataFrame数据合并,连接(concat,merge,join)的实例

Pandas合并DataFrame：Merge, Join, Concat, Append【Pandas入门教程6】

pandas dataframe的合并实现（append, merge, concat）

Python DataFrame合并详解：merge, join, concat

在pandas中dataframe数据合并,连接(concat,merge,join)的实例

【进阶篇】数据合并与连接：Merge与Concat技术应用

数据合并与连接：Pandas中的merge与concat

最新资源