pandas入门教程:文件操作与Series DataFrame详解

0 下载量 121 浏览量 更新于2024-09-01 收藏 85KB PDF 举报
“pandas学习-第1章 pandas基础”讨论了如何使用pandas库进行数据读取与写入,以及Series和DataFrame的基本属性和方法。 在Python的数据分析领域,pandas库是不可或缺的一部分,它提供了高效的数据结构,如Series和DataFrame,便于数据处理和分析。本章首先介绍了文件读取与写入的操作。`pd.read_csv()`函数用于读取CSV文件,`pd.read_table()`读取制表符分隔的文本文件,而`pd.read_excel()`则用于读取Excel文件。`index_col`参数特别指出,如果设置为某一列的名称,该列将被用作DataFrame的行索引,如示例中的`pd.read_csv('data/Kobe_data.csv', index_col='shot_id')`。 接着,我们看到如何将DataFrame写入文件,`df.to_csv()`用于将DataFrame保存为CSV文件,`df.to_excel()`则将其保存为Excel文件,可以指定工作表的名称,如`sheet_name='Sheet1'`。 在pandas中,Series和DataFrame是两个核心数据结构。Series是一种一维的数据结构,它可以看作是一组有序的键值对,类似于带索引的数组。Series有以下常见属性: 1. `values`:返回Series的数值数据,作为一个NumPy数组。 2. `index`:返回Series的索引对象。 3. `name`:返回或设置Series的名称。 4. `dtype`:返回Series中数据的类型。 Series的方法包括: 1. 创建Series,例如:`pd.Series(data, index, name, dtype)`。 2. 访问属性,如`s.values`、`s.name`、`s.index`和`s.dtype`。 3. 获取特定元素,如`s['a']`。 4. 调用方法,如计算平均值`mean()`。 5. 查看所有可用方法,可以使用`[attr for attr in dir(s) if not attr.startswith('_')]`。 DataFrame是一个二维表格型数据结构,包含列名(columns)和行名(index)。其常见属性有: 1. `index`:返回DataFrame的行索引。 2. `columns`:返回DataFrame的列名。 3. `values`:返回DataFrame的二维NumPy数组。 4. `shape`:返回DataFrame的形状,一个元组表示行数和列数。 DataFrame的方法包括: 1. 创建DataFrame,例如:`pd.DataFrame(data, columns, index)`。 2. 访问属性,如`df.index`、`df.columns`、`df.values`和`df.shape`。 3. 取出一列作为Series,如`df['col1']`。 4. 修改行名或列名,使用`rename()`函数。 通过这些基本操作,用户可以轻松地在pandas中加载、处理和保存数据,为后续的数据分析工作奠定基础。学习和熟练掌握这些基础知识对于任何想要进行数据分析的人都至关重要。