Pandas入门教程：文件操作与Series DataFrame详解

86 浏览量更新于2024-08-31 收藏 1.09MB PDF 举报

"这篇学习笔记主要涵盖了Pandas的基础知识，包括文件的读取与写入、查看Pandas版本以及Series和DataFrame这两种基本数据结构的创建、特点和操作。此外，还涉及了数据的排序和一些基本函数的使用。" 在Python的数据分析领域，Pandas是一个不可或缺的库，它提供了高效的数据处理能力。首先，了解Pandas的版本是很有必要的，通过`pd.__version__`可以查看当前安装的Pandas版本，例如文中显示的是1.0.3。文件的读取与写入是数据分析中的常见操作。Pandas提供了多种方式来处理不同格式的数据文件。例如，使用`pd.read_csv()`读取CSV格式的数据，`pd.read_table()`用于读取TXT文件，而`pd.read_excel()`则用于读取Excel文件（需额外安装xlrd包）。数据写入的操作类似，如`to_csv()`和`to_excel()`分别用于将DataFrame对象保存为CSV和Excel文件，通过设置`index=False`可以不保存行索引。 Pandas的核心数据结构包括Series和DataFrame。Series是一维数据结构，类似于带标签的一维数组。你可以通过列表、数组或字典来创建Series。例如，从列表`mylist`、数组`myarr`或字典`mydict`构建Series，并访问其属性如`values`（值）、`index`（索引）、`name`（名称）和`dtype`（数据类型）。 DataFrame是二维表格型数据结构，它有行和列，类似于电子表格或数据库表。DataFrame可以看作由Series组成的字典，每个Series对应于DataFrame的一个列。DataFrame有许多内置的方法和属性，比如`head()`用于查看数据的前几行，`tail()`查看后几行，`info()`获取数据框的基本信息，以及`describe()`用于计算统计摘要。在DataFrame中，数据操作包括获取和修改数据，可以使用列名或者行索引来访问。例如，`df['column_name']`获取指定列，`df.loc[row_index]`或`df.iloc[row_index]`获取指定行。Pandas的索引对齐特性允许在操作时自动对齐数据，这是它的一大优势。排序是数据分析中的常见任务，Pandas提供了`sort_values()`和`sort_index()`方法进行数据排序。此外，还有许多内置的基本函数，如`mean()`计算平均值，`sum()`求和，`count()`计算非缺失值的数量等。练习部分可能涉及根据上述概念编写代码，如读取文件、创建DataFrame、排序数据并使用基本函数进行计算。这些练习有助于巩固理论知识并提高实际操作技能。总结起来，Pandas学习笔记1主要介绍了Pandas的基础知识，包括文件操作、数据结构的理解和基本操作，这些都是进行数据分析的基础。掌握这些内容，将为后续更复杂的数据处理和分析打下坚实的基础。

d2 = pd.DataFrame(data)

重新构造索引

# 重新构造索引

d3 = pd.DataFrame(data,

columns=['name', 'age', 'addr'],

index=['a', 'b', 'c', 'd'])

获取数据获取数据

修改数据修改数据

我们可以像操作数据库表一样操作DataFrame，删除数据，插入数据、修改字段名、索引名、修改数据等，以下通过一些实例来说明。

d3.drop('d', axis=0) ###删除行，如果欲删除列，使axis=1即可

剩余12页未读，继续阅读

weixin_38502510

粉丝: 9
资源: 920

Pandas入门教程：文件操作与Series DataFrame详解

pandas 使用笔记study-pandas-master.zip

pandas学习笔记（一）

Pandas学习笔记4-变形

Pandas学习笔记

pandas学习笔记

Pandas学习笔记（1）

算法学习笔记—-Day31（pandas中时间序列、数据可视化）

numpy与pandas学习笔记

-saylani-pandas-class-4:saylani-pandas-class-4

pandas_foundation:Pandas基础学习笔记

最新资源