自己准备数据集，举例实验merge方法进行两个数据集的合并操作，分别举例介绍inner、outer、left、right合并数据集的差异，同时将按照四种方法合并的数据以电子表格形式保存到当前目录下，文件名称用inner、outer、left、right为名称

好的，我可以为你解答这个问题。为了能够进行数据集合并操作，我们需要先准备两个数据集。这里我随机生成了两个数据集，分别是“学生信息表”和“成绩表”，它们的字段和内容如下：学生信息表： | 学号 | 姓名 | 年龄 | 性别 | 籍贯 | | ---- | ---- | ---- | ---- | ---- | | 001 | 张三 | 18 | 男 | 河北 | | 002 | 李四 | 19 | 女 | 湖南 | | 003 | 王五 | 20 | 男 | 山东 | | 004 | 赵六 | 21 | 男 | 河南 | 成绩表： | 学号 | 语文成绩 | 数学成绩 | 英语成绩 | | ---- | -------- | -------- | -------- | | 001 | 80 | 90 | 85 | | 002 | 85 | 88 | 90 | | 003 | 90 | 92 | 95 | | 005 | 70 | 75 | 80 | 在 Python 中，我们可以使用 pandas 库来进行数据集合并操作。下面是四种不同的合并方法及其差异： 1. Inner 合并 Inner 合并是指只保留两个数据集中都存在的行。对于上面的例子，进行 Inner 合并的结果如下： ```python import pandas as pd # 读取学生信息表和成绩表 df1 = pd.read_csv('students.csv') df2 = pd.read_csv('scores.csv') # Inner 合并 df_inner = pd.merge(df1, df2, on='学号', how='inner') print(df_inner) ``` 输出结果： | 学号 | 姓名 | 年龄 | 性别 | 籍贯 | 语文成绩 | 数学成绩 | 英语成绩 | | ---- | ---- | ---- | ---- | ---- | -------- | -------- | -------- | | 001 | 张三 | 18 | 男 | 河北 | 80 | 90 | 85 | | 002 | 李四 | 19 | 女 | 湖南 | 85 | 88 | 90 | | 003 | 王五 | 20 | 男 | 山东 | 90 | 92 | 95 | 可以看到，只有学号为 001、002、003 的学生信息和成绩被保留了下来，学号为 004 和 005 的学生信息和成绩被舍弃了。 2. Outer 合并 Outer 合并是指保留两个数据集中所有的行，如果某个数据集中的某一行在另一个数据集中不存在，则用 NaN 填充。对于上面的例子，进行 Outer 合并的结果如下： ```python import pandas as pd # 读取学生信息表和成绩表 df1 = pd.read_csv('students.csv') df2 = pd.read_csv('scores.csv') # Outer 合并 df_outer = pd.merge(df1, df2, on='学号', how='outer') print(df_outer) ``` 输出结果： | 学号 | 姓名 | 年龄 | 性别 | 籍贯 | 语文成绩 | 数学成绩 | 英语成绩 | | ---- | ---- | ---- | ---- | ---- | -------- | -------- | -------- | | 001 | 张三 | 18 | 男 | 河北 | 80 | 90 | 85 | | 002 | 李四 | 19 | 女 | 湖南 | 85 | 88 | 90 | | 003 | 王五 | 20 | 男 | 山东 | 90 | 92 | 95 | | 004 | 赵六 | 21 | 男 | 河南 | NaN | NaN | NaN | | 005 | NaN | NaN | NaN | NaN | 70 | 75 | 80 | 可以看到，学号为 001、002、003 的学生信息和成绩被保留了下来，学号为 004 的学生信息被保留了下来，但是成绩表中不存在学号为 004 的学生成绩，所以用 NaN 填充。学号为 005 的学生成绩被保留了下来，但是学生信息表中不存在学号为 005 的学生信息，所以用 NaN 填充。 3. Left 合并 Left 合并是指以左边的数据集为主，保留左边数据集中所有行，如果右边的数据集中对应的行不存在，则用 NaN 填充。对于上面的例子，进行 Left 合并的结果如下： ```python import pandas as pd # 读取学生信息表和成绩表 df1 = pd.read_csv('students.csv') df2 = pd.read_csv('scores.csv') # Left 合并 df_left = pd.merge(df1, df2, on='学号', how='left') print(df_left) ``` 输出结果： | 学号 | 姓名 | 年龄 | 性别 | 籍贯 | 语文成绩 | 数学成绩 | 英语成绩 | | ---- | ---- | ---- | ---- | ---- | -------- | -------- | -------- | | 001 | 张三 | 18 | 男 | 河北 | 80 | 90 | 85 | | 002 | 李四 | 19 | 女 | 湖南 | 85 | 88 | 90 | | 003 | 王五 | 20 | 男 | 山东 | 90 | 92 | 95 | | 004 | 赵六 | 21 | 男 | 河南 | NaN | NaN | NaN | 可以看到，学号为 001、002、003、004 的学生信息被保留了下来，因为成绩表中不存在学号为 004 的学生成绩，所以用 NaN 填充。 4. Right 合并 Right 合并是指以右边的数据集为主，保留右边数据集中所有行，如果左边的数据集中对应的行不存在，则用 NaN 填充。对于上面的例子，进行 Right 合并的结果如下： ```python import pandas as pd # 读取学生信息表和成绩表 df1 = pd.read_csv('students.csv') df2 = pd.read_csv('scores.csv') # Right 合并 df_right = pd.merge(df1, df2, on='学号', how='right') print(df_right) ``` 输出结果： | 学号 | 姓名 | 年龄 | 性别 | 籍贯 | 语文成绩 | 数学成绩 | 英语成绩 | | ---- | ---- | ---- | ---- | ---- | -------- | -------- | -------- | | 001 | 张三 | 18 | 男 | 河北 | 80 | 90 | 85 | | 002 | 李四 | 19 | 女 | 湖南 | 85 | 88 | 90 | | 003 | 王五 | 20 | 男 | 山东 | 90 | 92 | 95 | | 005 | NaN | NaN | NaN | NaN | 70 | 75 | 80 | 可以看到，学号为 001、002、003、005 的学生成绩被保留了下来，因为学生信息表中不存在学号为 005 的学生信息，所以用 NaN 填充。

阅读全文

相关推荐

data-merge:对大量数据进行合并处理，优化性能

数据集Merge-Datasets合并数据集完整源码分享给需要的同学

如何使用pd.merge()函数和DataFrame的join()方法在Pandas中合并数据集

Pandas深度解析：数据合并与重塑之join/merge实战

Python DataFrame合并详解：merge, join, concat

【pandas DataFrame秒懂秘籍】：掌握7大基础操作与数据选取技巧

QCA7005数据表高级关联分析：多表连接技术应用

举例说明merge()函数的主要参数及其用法

pd.merge用法举例

pd.merge中how参数应用举例

pd.merge 如果右表的key有重复，左表会多出来一倍的计数，举例代码

pandas合并两列数据

python如何实现vlookup，举例说明

pandas中如何横向拼接两个数据框

技术运维-机房巡检表及巡检说明

第四次算法分析与设计整理

图像处理_U2Net_优化模型大小_工程化部署方案_1741785598.zip

jaxlib-0.4.18-cp311-cp311-macosx_11_0_arm64.whl

视频点播系统完美版源码前后端分离开源版.zip

毕业答辩爆款黑板风教育文艺毕业论文答辩通用模板.pptx

大家在看

基于德温特专利共现网络的石墨烯核心技术变迁趋势分析

计算机组成原理课程设计复杂模型机设计实现冒泡排序

ARINC664协议 EDE描述

伦茨变频器8200手册

AG9300TypeC转VGA中文设计方案.pdf

最新推荐

Pandas 按索引合并数据集的方法

对python实现合并两个排序链表的方法详解

pandas dataframe的合并实现（append, merge, concat）

C#实现合并及拆分PDF文件的方法

技术运维-机房巡检表及巡检说明

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】