Python pandas 数据分析基础教程

0 下载量 61 浏览量 更新于2024-07-15 收藏 1.13MB PDF 举报
"Python数据分析库pandas基本操作方法" 在Python编程语言中,pandas是一个开源且易用的数据分析工具库,提供了高效的数据结构和分析工具。这篇摘要主要介绍了pandas中的两个核心数据结构:Series(序列)和DataFrame,并展示了如何进行一些基本的操作。 1. pandas序列(Series) Series是pandas的基础数据结构之一,类似于一维数组或列表,但拥有更多的功能。创建Series可以通过`pd.Series()`函数,如下所示: ```python import numpy as np import pandas as pd s_data = pd.Series([1, 3, 5, 7, np.NaN, 9, 11]) ``` 这将创建一个包含整数和缺失值(NaN)的序列。 2. pandas数据结构DataFrame DataFrame是pandas的核心数据结构,可以视为由行和列组成的表格数据,其中每一列可以是不同的数据类型。创建DataFrame可使用`pd.DataFrame()`函数,如下: ```python dates = pd.date_range('20170220', periods=6) data = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD')) ``` 这里的DataFrame有6行4列,索引为日期,数据是随机生成的浮点数。 3. DataFrame的一些操作 - 获取DataFrame的大小(行数和列数):`data.shape` - 查看DataFrame的内部数值数组:`data.values` - 通过字典创建DataFrame:`pd.DataFrame(d_data)` - 查看每列的数据类型:`df_data.dtypes` - 打印特定列:如`df_data['A']`和`df_data['B']` - 获取列的类型:例如`df_data.B.dtype` 这些基本操作只是pandas库的冰山一角。pandas还提供了丰富的功能,包括数据清洗(处理缺失值)、数据筛选、排序、合并、分组、时间序列分析等。通过熟练掌握pandas,你可以更高效地进行数据处理和分析工作。