Python Pandas DataFrame详解与使用示例

139 浏览量更新于2024-08-29 收藏 235KB PDF 举报

"Pandas库之DataFrame使用的学习笔记" Pandas是Python中用于数据分析的重要库，而DataFrame是其核心数据结构之一，它提供了类似于电子表格或SQL表的功能。DataFrame可以处理二维数据，并允许存储多种类型的数据，如数值、字符串等。这种灵活性使得DataFrame在数据预处理、清洗、分析和可视化等任务中非常有用。 1. DataFrame的特性 - **二维数据结构**：DataFrame是二维表格形式的数据结构，包含行和列，每个单元格可以存储任意类型的数据。 - **列名和行名**：DataFrame具有可定制的列名(columns)和行名(index)，这些标识符使得数据的访问和操作更为方便。 - **多类型数据**：与MATLAB矩阵不同，DataFrame的单元格可以存储数值、字符串、布尔值等多种类型的数据。 - **灵活的数据定位**：数据的访问可以通过列名、行名或位置进行。 2. 创建DataFrame - **直接创建**：使用`pd.DataFrame()`函数创建DataFrame，参数包括数据（如numpy数组）、行索引(index)和列名(columns)。例如： ```python import pandas as pd import numpy as np df1 = pd.DataFrame(np.random.randn(4,4), index=list('ABCD'), columns=list('ABCD')) ``` - **自定义数据**：如果数据量较小，可以直接输入列表创建DataFrame，指定行索引和列名。 ```python df2 = pd.DataFrame([[1,2,3,4], [2,3,4,5], [3,4,5,6], [4,5,6,7]], index=['A', 'B', 'C', 'D'], columns=['A', 'B', 'C', 'D']) ``` 3. DataFrame的基本操作 - **数据访问**：可以通过索引或列名访问数据，如`df['列名']`或`df.loc['行名']`，也可以通过位置，如`df.iloc[行号, 列号]`。 - **添加/删除列**：可以使用`df['新列名'] = 数据`添加新列，`del df['列名']`或`df.drop('列名', axis=1)`删除列。 - **数据筛选**：利用布尔索引，如`df[df['列名'] > 值]`，可以筛选满足条件的行。 - **数据聚合**：使用`df.groupby('列名').agg(函数)`进行分组聚合，如求平均值、总和等。 - **数据合并**：`pd.concat([df1, df2])`可以将多个DataFrame水平合并，`df1.merge(df2, on='共享列名')`进行基于特定列的垂直合并。 4. 数据清洗与预处理 - **缺失值处理**：`df.fillna(value)`用于填充缺失值，`df.dropna()`删除含有缺失值的行或列。 - **数据类型转换**：`df['列名'].astype(data_type)`可以转换列的数据类型，如`int`、`float`或`str`。 - **数据排序**：`df.sort_values('列名', ascending=False)`按列值降序排序。 5. 数据分析与统计 - **描述性统计**：`df.describe()`提供列的统计摘要，包括计数、均值、标准差等。 - **相关性分析**：`df.corr()`计算列之间的相关系数。 - **频率分布**：`pd.cut(df['列名'], bins, labels)`可以对连续数据进行分箱，形成频率分布。掌握DataFrame的使用是进行Python数据分析的基础，熟练运用这些功能可以大大提高数据处理的效率。在实际应用中，结合Numpy、Scipy等库，可以实现更复杂的数据分析任务。

Pandas库之库之DataFrame使用的学习笔记使用的学习笔记

1 简介简介

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。

或许说它可能有点像matlab的矩阵，但是matlab的矩阵只能放数值型值（当然matlab也可以用cell存放多类型数

据），DataFrame的单元格可以存放数值、字符串等，这和excel表很像。

同时DataFrame可以设置列名columns与行名index，可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位，

具体方法在后面细说。

2 创建创建DataFrame

首先声明一下，以下都是使用的Python 3.6.5版本为例，Python2应该也差不多吧（大概

在所有操作之前当然要先import必要的pandas库，因为pandas常与numpy一起配合使用，所以也一起import吧。

import pandas as pd

import numpy as np

如果还没安装直接在cmd里pip安装吧，如果有版本选择问题，参看之前的帖子。

pip install pandas

pip install numpy

2.1 直接创建直接创建

可以直接使用pandas的DataFrame函数创建，比如接下来我们随机创建一个4*4的DataFrame。

df1=pd.DataFrame(np.random.randn(4,4),index=list('ABCD'),columns=list('ABCD'))

其中第一个参数是存放在DataFrame里的数据，第二个参数index就是之前说的行名（或者应该叫索引？），第三个参数

columns是之前说的列名。

后两个参数可以使用list输入，但是注意，这个list的长度要和DataFrame的大小匹配，不然会报错。当然，这两个参数是可选

的，你可以选择不设置。

而且发现，这两个list是可以一样的，但是每行每列的名字在index或columns里要是唯一的。

使用python自己的shell展示创建的结果是这样的：

或者在jupyter里面更酷点的样子，接下来都使用jupyter输出展示吧。

当然，如果你的数据量贼小，也可以自己输入创建，类似这样。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38516270

粉丝: 3

Python Pandas DataFrame详解与使用示例

numpy+pandas+matplotlib+gis学习笔记.zip

Pandas笔记【建议使用Onenote版本】.pdf

Pandas中DataFrame ffill向下填充，学习笔记

Python学习：深入理解Pandas Series和DataFrame

Pandas学习笔记：Series与DataFrame详解

Python Pandas DataFrame详解与实例学习

Python学习笔记1：掌握Pandas库的使用

Pandas学习笔记

pandas学习笔记

【pandas学习笔记(一)】pandas基本使用

最新资源