Python3.5 Pandas DataFrame详解:创建、读取、过滤操作

4 下载量 72 浏览量 更新于2024-09-02 收藏 1001KB PDF 举报
"Python3.5中的Pandas模块是一个强大的数据处理库,DataFrame是其核心数据结构之一。本文将深入探讨如何在Python3.5环境下使用Pandas的DataFrame,包括创建、读取、过滤和获取数据等关键操作,并提供实例进行详细解释。" 在Python3.5中,Pandas的DataFrame是一种二维表格型数据结构,它具有列标签(column labels)和行索引(row indices)。DataFrame能够存储各种类型的数据,如整数、浮点数、字符串,甚至是其他复杂的数据类型。 1、DataFrame的创建 创建DataFrame有多种方式,其中最常见的是通过二维数组或列表来构建。下面展示了两种创建DataFrame的方法: (1)直接通过二维列表创建: ```python d1 = DataFrame([["a","b","c","d"], [1,2,3,4]]) ``` 这将创建一个DataFrame,其中第一行包含字符串"abcd",第二行包含数字1到4。 (2)利用numpy数组创建: ```python import numpy as np arr = np.array([["jack",78], ["lili",86], ["amy",97], ["tom",100]]) d2 = DataFrame(arr, index=["01","02","03","04"], columns=["姓名","成绩"]) ``` 在这个例子中,我们定义了numpy数组,并指定了行索引和列名,创建了一个包含姓名和成绩的DataFrame。 2、行和列的索引 创建DataFrame后,我们可以访问行和列的索引来获取特定数据。例如,`d2.index`返回行索引,`d2.columns`返回列索引,而`d2.values`则返回DataFrame的所有值,以二维numpy数组的形式: ```python print(d2.index) # 打印行索引 print(d2.columns) # 打印列索引 print(d2.values) # 打印值 ``` 3、DataFrame的读取 Pandas提供了许多函数来读取不同格式的数据,例如CSV、Excel、SQL数据库等。以CSV文件为例,可以使用`pd.read_csv()`函数: ```python df_csv = pd.read_csv('file.csv') ``` 4、过滤和获取数据 过滤DataFrame可以通过布尔索引来实现,例如: ```python filtered_df = df[df['成绩'] > 90] # 获取成绩大于90的记录 ``` 获取特定列的数据,可以使用列名: ```python column_data = df['姓名'] # 获取'姓名'列的所有数据 ``` 5、其他操作 DataFrame还支持各种其他操作,如数据合并(`concat`、`merge`)、数据重塑(`pivot`、`stack`、`unstack`)、数据分组(`groupby`)、数据聚合(`agg`、`mean`、`sum`等)以及数据清洗等。 Pandas的DataFrame是处理结构化数据的强大工具,它提供的丰富功能使得数据预处理和分析变得简单高效。通过理解并熟练掌握DataFrame的各种操作,可以极大地提升数据分析的效率和质量。