pandas 拼接并去重

时间: 2023-06-25 17:01:53 浏览: 107

pandas笔试题.pdf

在本篇中，我们将深入探讨一系列关于Pandas库在数据处理中的操作，这些操作涵盖了从基本的数据结构创建、数据筛选到复杂的数据分析和可视化。Pandas是Python中用于数据分析的重要库，提供了DataFrame和Series等高效的数据结构，以及丰富的数据处理功能。 1. 创建DataFrame：从字典中创建DataFrame是Pandas的基本操作，可以通过`pd.DataFrame()`函数实现。 2. 提取特定行：可以使用`df[df['column_name'].str.contains('Python')]`来筛选包含特定字符串的行。 3. 获取列名：通过`df.columns`可以获得DataFrame的所有列名。 4. 统计计数：使用`df['grammer'].value_counts()`统计grammer列中各元素出现的次数。 5. 修改列名：利用`df.rename(columns={'old_name': 'new_name'}, inplace=True)`可修改列名。 6. 填充空值：使用`df.fillna((df['column'].max() + df['column'].min()) / 2, inplace=True)`用上下限平均值填充空值。 7. 筛选条件行：`df[df['popularity'] > 3]`选取popularity列值大于3的行。 8. 去重：`df.drop_duplicates(subset='grammer', keep='first')`按照grammer列去重。 9. 计算平均值：`df['popularity'].mean()`获取popularity列的平均值。 10. 转换为list：`df['grammer'].tolist()`将grammer列转换为列表。 11. 保存为Excel：`df.to_excel('output.xlsx', index=False)`将DataFrame保存为Excel文件。 12. 查看行列数：`df.shape`返回DataFrame的行数和列数。 13. 筛选范围值：`df[(df['popularity'] > 3) & (df['popularity'] < 7)]`选取popularity列值在3到7之间的行。 14. 交换列位置：`df = df[['column1', 'column2']]`交换列顺序。 15. 获取最大值所在行：`df.loc[df['popularity'].idxmax()]`找到popularity列最大值所在的行。 16. 查看尾部数据：`df.tail(5)`显示最后5行数据。 17. 删除最后一行：`df = df.iloc[:-1]`删除最后一行。 18. 添加数据：`df.loc[len(df)] = ['Perl', 6.6]`在末尾添加一行新数据。 19. 排序：`df.sort_values(by='popularity', ascending=False)`按popularity列降序排列。 20. 统计字符串长度：`df['grammer'].apply(len)`统计grammer列中每个字符串的长度。 21. 读取Excel数据：`df = pd.read_excel('file.xlsx')`从本地Excel文件读取数据。 22. 查看前几行：`df.head(5)`查看DataFrame的前5行。 23. 转换列数据：`df['salary'] = (df['salary'].max() + df['salary'].min()) / 2`计算salary列的平均值。 24. 分组计算平均值：`df.groupby('education')['salary'].mean()`按教育程度分组计算薪资平均值。 25. 时间格式转换：`df['createTime'] = df['createTime'].dt.strftime('%m-%d')`将createTime列转换为月-日格式。 26. 查看信息：`df.info()`查看DataFrame的索引、数据类型和内存占用。 27. 数值列统计：`df.describe()`获取数值型列的汇总统计。 28. 新增分组列：`df['group'] = pd.cut(df['salary'], bins=3)`根据salary列将数据分为三组。 29. 降序排列：`df.sort_values('salary', ascending=False)`按salary列降序排列。 30. 获取指定行：`df.iloc[32]`获取第33行数据（Python中索引从0开始）。 31. 计算中位数：`df['salary'].median()`计算salary列的中位数。 32. 绘制直方图：`df['salary'].plot.hist()`绘制薪资水平的频率分布直方图。 33. 绘制密度曲线：`df['salary'].plot.density()`绘制薪资水平的密度曲线。 34. 删除列：`df = df.drop('categories', axis=1)`删除categories列。 35. 合并列：`df['new_column'] = df['column1'] + df['column2']`将两列合并为新列。 36. 合并两列：`df['merged_column'] = df['education'] + df['salary']`将education和salary列合并。 37. 计算差值：`df['salary'].max() - df['salary'].min()`计算salary列的最大值与最小值之差。 38. 拼接行：`pd.concat([df.iloc[[0]], df.iloc[-1]])`将第一行与最后一行拼接。 39. 追加行：`df.loc[len(df)] = df.iloc[7]`将第八行数据添加至末尾。 40. 查看数据类型：`df.dtypes`显示每列的数据类型。 41. 设置索引：`df.set_index('createTime', inplace=True)`将createTime列设置为索引。 42. 生成随机DataFrame：`df_random = pd.DataFrame(np.random.rand(len(df), len(df)))`生成与原DataFrame长度相同的随机数DataFrame。 43. 合并数据：`df_new = pd.concat([df, df_random], axis=1)`将两个DataFrame按列合并。 44. 新列计算：`df['new'] = df['salary'] - df_random['random_column']`生成新列，为salary列减去随机数列。 45. 检查缺失值：`df.isnull().sum()`检查数据中是否存在缺失值。 46. 类型转换：`df['salary'] = df['salary'].astype(float)`将salary列转换为浮点数类型。 47. 计数统计：`df['salary'] > 10000].sum()`计算salary大于10000的次数。 48. 学历计数：`df['education'].value_counts()`统计education列中每种学历出现的次数。 49. 学历种类：`len(df['education'].unique())`获取education列中不同学历的种类数。 50. 筛选条件行：`df[(df['salary'] + df['new']) > 60000].tail(3)`选取salary和new列和大于60000的最后3行。以上就是针对Pandas库的多项操作，包括数据读取、筛选、转换、统计、可视化等，这些都是在数据处理和分析中常见的任务。掌握这些技巧能帮助我们更有效地处理和理解数据。

要将两个 pandas DataFrame 拼接并去重，可以使用 `pandas.concat()` 函数进行拼接，然后使用 `drop_duplicates()` 函数去重。以行方向进行拼接并去重的示例代码如下： ```python import pandas as pd # 创建两个示例 DataFrame df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [3, 4, 5], 'B': ['c', 'd', 'e']}) # 拼接并去重 df = pd.concat([df1, df2]).drop_duplicates() print(df) ``` 输出结果为： ``` A B 0 1 a 1 2 b 2 3 c 1 4 d 2 5 e ``` 其中，`pd.concat()` 函数将两个 DataFrame 进行拼接，`drop_duplicates()` 函数去除重复行。注意，拼接后的新 DataFrame 的索引是连续的，需要使用 `reset_index()` 函数重新生成索引。如果需要按照某一列进行去重，可以使用 `drop_duplicates()` 函数的 `subset` 参数指定去重列。

阅读全文

pandas 拼接并去重

相关推荐

pandas使用工作技能总结

pandas处理csv文件的方法步骤

python进阶-pandas资料.rar

Pandas 数据结构详解与应用

Pandas基础函数与数据分析实战

Python Pandas数据预处理技巧及优化

pandas文件读写操作的最佳实践

Pandas数据分析库简介与基本操作

处理Python Pandas中的数据逻辑操作

2个df拼接去重相同索引

pandas 数据库操作有哪些

python中Pandas模块的功能

pandas 俩个df行交错插入

yolov3 在 Open Images 数据集上预训练了 SPP 权重以及配置文件.zip

qt 5.3.2 mingw 安装包

586befcf3e78455eb3b5359d7500cc97.JPG

yoloface-50k的可部署模型.zip

最新推荐

yolov3 在 Open Images 数据集上预训练了 SPP 权重以及配置文件.zip

qt 5.3.2 mingw 安装包

586befcf3e78455eb3b5359d7500cc97.JPG

yoloface-50k的可部署模型.zip

使用 Ultralytics API 进行 YOLOv8 推理.zip

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用