【Python数据分析】:用Pandas挖掘数据的5个深度技巧


Python数据分析库:Pandas视频教程
参考资源链接:《Python编程:给孩子玩的趣味指南》高清PDF电子书
1. Pandas基础和数据结构
Pandas简介
Pandas是一个开源的Python数据分析库,它提供了一系列数据结构和数据分析工具。其核心数据结构是DataFrame,一种二维的表格型数据结构,具有行列标签,可以看做是Excel表格或者SQL表。Pandas提供了丰富的数据操作方法,可以轻松处理和分析结构化数据。
数据结构
Pandas中有三种主要的数据结构:Series、DataFrame和Index。
- Series:一维数组,可以存储任意数据类型,具有轴标签,即索引。
- DataFrame:二维的表格型数据结构,具有异质类型的数据,可以看做是一个表格或说是Series对象的容器。
- Index:数据结构的索引,帮助快速访问数据集中的数据。
这些数据结构使得Pandas在数据处理和分析领域非常灵活和强大。接下来我们将具体介绍如何使用这些数据结构进行数据操作和分析。
2. Pandas数据清洗技巧
2.1 缺失数据处理
2.1.1 检测缺失值
在处理数据时,经常遇到数据集中的缺失值问题。缺失值会给数据分析和建模带来困难,因此在分析前识别这些缺失值是非常关键的。在Pandas中,我们可以使用 isnull()
或 notnull()
函数来检测数据中的缺失值。
- import pandas as pd
- # 示例数据集
- data = {'A': [1, None, 3, 4], 'B': [5, 6, None, None]}
- df = pd.DataFrame(data)
- # 检测缺失值
- missing = df.isnull()
- print(missing)
上面的代码创建了一个包含缺失值的DataFrame,并使用 isnull()
函数检测了这些值。输出结果将是一个布尔型DataFrame,其中True
表示缺失值,False
表示非缺失值。
检测到缺失值后,我们通常会根据数据的性质和分析需求来决定填充缺失值、删除这些值,或者保異它们不做任何处理。
2.1.2 缺失数据填充和删除
处理缺失数据通常有以下两种方法:
- 填充缺失值,可以使用
fillna()
函数,通过替换为某个固定值,或者使用插值等方法来估算缺失值。 - 删除含有缺失值的行或列,可以使用
dropna()
函数。
- # 填充缺失值,这里我们使用列的平均值来填充
- df_filled = df.fillna(df.mean())
- print(df_filled)
- # 删除含有缺失值的行
- df_dropped = df.dropna(axis=0)
- print(df_dropped)
- # 删除含有缺失值的列
- df_dropped_col = df.dropna(axis=1)
- print(df_dropped_col)
在这个例子中,我们用平均值填充了缺失值,然后删除了含有缺失值的行和列。fillna()
和 dropna()
函数都提供了丰富的参数,允许我们对填充和删除过程进行细粒度的控制。
2.2 数据合并和重组
2.2.1 数据连接与合并
数据合并是数据分析中一项重要的任务,Pandas提供了一个强大的功能:merge()
,用于执行数据库风格的数据连接操作。
- # 创建另一个DataFrame用于合并
- df2 = pd.DataFrame({'A': [1, 2, 3, 4], 'C': [5, 6, 7, 8]})
- # 按照'A'列合并两个DataFrame
- merged_df = pd.merge(df, df2, on='A')
- print(merged_df)
在上述示例中,我们通过共同的列 ‘A’ 将两个DataFrame连接起来。merge()
函数可以指定不同的合并类型(如:‘inner’,‘outer’,‘left’,‘right’),以控制如何处理两个数据集中的键。
2.2.2 数据重塑与转置
有时候,我们需要根据分析的需求改变DataFrame的形状,此时可以使用 pivot()
、melt()
或者 transpose()
函数。
- # 转置DataFrame
- transposed_df = df.T
- print(transposed_df)
- # 使用pivot()函数重塑数据
- pivot_df = df.pivot(index='A', columns='B', values='C')
- print(pivot_df)
pivot()
函数通过将某列的值设置为新的索引、列名或者数据值来重塑DataFrame。而melt()
函数则相反,它将DataFrame的宽格式转换为长格式。
2.3 数据筛选和过滤
2.3.1 基于条件的筛选
在数据处理过程中,我们经常需要基于特定条件来筛选数据。Pandas提供了 query()
和 loc[]
方法来实现这一功能。
- # 使用query()方法进行条件筛选
- filtered_by_query = df.query('A > 2')
- print(filtered_by_query)
- # 使用loc[]方法进行条件筛选
- filtered_by_loc = df.loc[df['A'] > 2]
- print(filtered_by_loc)
query()
方法允许我们使用字符串形式的表达式来指定筛选条件,这在复杂筛选中非常有用。loc[]
方法则通过指定行标签和列名来进行数据选择,它是基于标签的索引方法。
2.3.2 使用apply函数进行复杂操作
当我们需要对DataFrame的列执行复杂的操作时,可以使用 apply()
函数。
- # 使用apply函数对'A'列的数据应用一个lambda函数
- result = df['A'].apply(lambda x: x**2)
- print(result)
在这个例子中,我们对列 ‘A’ 中的每个元素应用了平方函数。apply()
函数可以应用于行或列,也可以用于对整个DataFrame应用函数。
这些数据清洗技巧是Pandas强大数据处理能力的重要组成部分。通过熟练地运用这些技巧,我们能够有效地准备数据集以进行更深入的分析。在接下来的章节中,我们会探讨Pandas在数据可视化方面的应用,以及如何运用Pandas解决实际问题中的高级应用。
3. Pandas数据可视化技巧
3.1 基础图表绘制
Pandas库不仅仅提供了强大的数据结构和数据处理功能,它还内置了绘图工具,基于matplotlib库,使得数据可视化变得简单而高效。在本节中,我们将深入了解如何使用Pandas绘制基础图表。
3.1.1 折线图、柱状图和饼图
在数据分析的过程中,我们经常需要使用不同的图表来展示数据的特征和趋势。Pandas提供了一种简便的方式,直接通过 .plot()
方法绘制这些常见的图表。
- import pandas as pd
- import matplotlib.pyplot as plt
- # 示例数据
- data = {'Year': [2018, 2019, 2020, 2021],
- 'Sales': [100, 120, 130, 150],
- 'Profit': [20, 25, 30, 35]}
- df = pd.DataFrame(data)
- # 绘制折线图
- df.plot(x='Year', y=['Sales', 'Profit'], kind='line')
- # 绘制柱状图
- df.plot(x='Year', y='Sales', kind='bar')
- # 绘制饼图
- df.plot(y='Profit', kind='pie', autopct='%1.1f%%')
- plt.show()
在上面的代码中,我们首先创建了一个包含销售和
相关推荐







