Pandas基础操作详解:从Series到DataFrame

需积分: 20 21 下载量 31 浏览量 更新于2024-09-12 收藏 432KB PDF 举报
"这篇文档是关于Pandas学习的笔记,主要涵盖了Pandas中的Series和DataFrame对象的创建、操作以及选择元素等基础知识。" 在Python的数据分析领域,Pandas库是不可或缺的一部分,它提供了高效的数据结构,如Series和DataFrame,便于处理和分析数据。以下是对这些内容的详细解释: 1. Series对象 Series是Pandas的基本数据结构之一,它类似于一维数组,可以存储各种数据类型。创建Series可以通过列表、NumPy数组或字典: - 使用列表创建: ```python s = pd.Series([12, -4, 7, 9]) ``` - 查看元素的值: ```python print(s.values) ``` - 查看索引标签: ```python print(s.index) ``` - 使用NumPy数组定义Series: ```python arr = np.array([1, 2, 3, 4]) s3 = pd.Series(arr) ``` - 将Series视为字典,通过键(索引)获取值: ```python dict = {'red': 200, 'blue': 20, 'orange': 10} s = pd.Series(dict) ``` 2. DataFrame对象 DataFrame是二维表格型数据结构,包含列标签和行索引。 - 通过字典创建DataFrame: ```python data = {'color': ['blue', 'green', 'yellow', 'red', 'white'], 'object': ['ball', 'pen', 'pencil', 'paper', 'mug'], 'price': [1.2, 1.0, 0.6, 0.9, 1.7]} frame = pd.DataFrame(data) ``` - 只创建部分列: ```python frame2 = pd.DataFrame(data, columns=['object', 'price']) ``` - 使用NumPy数组快速创建: ```python frame4 = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['red', 'blue', 'yellow', 'white'], columns=['ball', 'pen', 'pencil', 'paper']) ``` - 通过嵌套字典创建: ```python dict = {'red': {1000: 1, 2000: 2}, 'blue': {3000: 3, 4000: 4}, 'orange': {1000: 10, 3000: 30}} ``` 3. 选取元素 DataFrame提供了多种方式来选择和访问元素: - 通过标签选择(loc): ```python frame.loc['row_label', 'column_label'] ``` - 通过位置选择(iloc): ```python frame.iloc[row_index, column_index] ``` 4. 赋值和删除 - 设置index和columns的标签: ```python frame4.index.name = '茵蒂克丝' frame4.columns.name = '考拉能丝' ``` - 添加新列: ```python frame4['new'] = [101, 102, 103, 104] ``` - 删除列: ```python del frame4['new'] ``` 5. 转置 DataFrame的转置操作(T)可以交换行和列: ```python frame4.T ``` Pandas的这些基础操作对于数据分析工作至关重要,熟练掌握它们能够帮助我们更高效地处理数据,进行统计分析和数据清洗。通过不断练习和探索,你可以更深入地了解Pandas的强大功能。