pandas入门教程:序列与DataFrame操作解析

0 下载量 109 浏览量 更新于2024-08-30 收藏 73KB PDF 举报
"pandas学习笔记,介绍了pandas的基本使用,包括如何引入库、创建序列(一维数组、字典方式)以及初步涉及DataFrame的创建。" 在Python的数据科学领域,pandas是一个不可或缺的库,它为数据处理提供了强大的功能。pandas是建立在numpy基础之上,专为数据分析设计的库,尤其适合处理序列和表格数据。 首先,要使用pandas,我们需要导入这个库,通常会同时导入numpy库,因为它们经常协同工作。在Python中,可以使用以下代码引入这两个库: ```python import numpy as np import pandas as pd ``` 创建序列是pandas中最基础的操作之一。序列在pandas中被称为Series,它类似于一维数组或字典。有三种创建Series的方法: 1. **通过一维数组创建**: ```python arr1 = np.array([1, 3, 2, 5, 6, 10, 7]) s1 = pd.Series(arr1) ``` 这将创建一个Series,其索引默认为0到6,值为数组中的元素。 2. **通过字典创建**: ```python dic1 = {'高數成績': 90, '綫代成績': 85, '外語成績': 80, '工圖成績': 86} s2 = pd.Series(dic1) ``` 在这种情况下,字典的键成为Series的索引,值成为对应的元素。 3. **从DataFrame中提取列**: 创建DataFrame后,可以通过列名来获取对应的Series。 接下来,我们讨论DataFrame的创建。DataFrame是pandas的核心数据结构,它类似于二维表格,包含行和列。创建DataFrame主要有两种方式:二维数组和字典。这里我们将重点介绍字典方法: ```python data = { '国家': ['美国', '加拿大', '英国', '法国', '德国', '意大利', '日本'], '面积': [9.37, 9.98, 242.4, 643.8, 357.3, 301.3, 377.9], '人口': [331.5, 37.7, 67.1, 65.3, 83.1, 60.4, 126.3], # 其他列... } df = pd.DataFrame(data) ``` 在这个例子中,字典的键成为DataFrame的列名,而值是一个列表,对应每一列的数据。 DataFrame不仅允许我们存储各种类型的数据(如整数、浮点数、字符串),还提供了丰富的操作和分析功能,如筛选、排序、合并、分组、聚合等。此外,DataFrame还可以方便地与其他数据源(如CSV文件、数据库)交互,进行数据清洗、预处理和可视化。 总结,pandas库提供了高效的数据结构和数据分析工具,是数据科学家和分析师的重要武器。无论是处理简单的序列还是复杂的DataFrame,pandas都能提供强大而灵活的支持。通过学习和熟练掌握pandas,可以极大地提升数据处理的效率和质量。