Pandas数据分析基础教程:一文掌握Series和DataFrame

0 下载量 46 浏览量 更新于2024-09-01 收藏 78KB PDF 举报
Series(data=[1, 2, 3, 4], index=['a', 'b', 'c', 'd']) DataFrame DataFrame的介绍 DataFrame是Pandas的核心数据结构,它是一个二维表格型数据结构,拥有行和列的标签。DataFrame既可以存储结构化或半结构化的数据,也可以存储不同类型的数据(数值、字符串、布尔值等)。 DataFrame对象的创建 DataFrame可以通过字典、列表、数组等数据源创建,如下所示: ```python # 通过字典创建DataFrame df_dict = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['row1', 'row2', 'row3']) # 通过二维列表创建DataFrame df_list = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['col1', 'col2']) # 通过NumPy数组创建DataFrame df_array = pd.DataFrame(np.random.randn(3, 2), columns=['Random', 'Values']) ``` Pandas的索引对象 Pandas中的索引对象非常重要,它们允许我们对数据进行高效的操作。索引对象可以是唯一的,也可以是重复的,并且可以用于设置数据的排序。 索引对象的创建 索引可以通过`pd.Index()`函数创建,例如: ```python index_obj = pd.Index(['apple', 'banana', 'cherry']) ``` 索引对象的分类 索引可以分为不同的类型,如: 1. 静态索引:默认的索引,通常是非唯一的整数或字符串。 2. 类别索引(CategoricalIndex):用于处理有限的离散值,节省内存。 3. 时间戳索引(DatetimeIndex):用于处理日期和时间数据。 4. 带周期的时间戳索引(PeriodIndex):处理定期数据,如每小时、每天等。 索引对象的获取 你可以通过`DataFrame.index`属性获取DataFrame的索引,通过`Series.index`获取Series的索引。 索引对象的特点 1. 可选的唯一性:索引可以是重复的,也可以是唯一的。 2. 不变性:索引一旦创建,就不能改变。 3. 能够进行操作:如重命名、排序、切片等。 索引对象的方法和属性 索引对象有许多有用的方法和属性,例如: - `rename()`:重命名索引。 - `unique()`:返回索引中的唯一值。 - `get_loc()`:获取特定索引值的位置。 - `drop()`:删除指定的索引值。 整数索引 在Pandas中,整数索引可以基于位置访问数据。但需要注意的是,整数索引不一定是数据的标签,而是对应于数据的下标。如果删除或插入列,整数索引可能会改变。 整数标签基于位置的使用方法 当你使用整数作为索引时,Pandas会理解这是基于位置的索引,例如: ```python df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) df.iloc[1] # 访问第二行 ``` 总结 Pandas是一个强大的数据分析工具,其核心在于Series和DataFrame数据结构。Series类似于一维数组,而DataFrame则是二维表格。Pandas提供了丰富的索引对象,支持灵活的数据操作。通过理解和熟练使用这些概念,可以极大地提升数据处理的效率和精度。