Pandas数据分析速查表

需积分: 10 21 下载量 14 浏览量 更新于2024-09-10 收藏 407KB PDF 举报
“pandas_cheat_sheet” Pandas是Python中一个强大的数据分析库,它提供了两种主要的数据结构:Series(一维数据结构)和DataFrame(二维数据结构)。本资源是一个Pandas速查表,由Arianne Colton和Sean Chen创建,用于帮助用户快速理解和操作这两个数据结构。 1. Series(一维数据结构) Series是一种类似于数组的对象,包含一组数据(可以是任何NumPy数据类型)以及与之关联的数据标签,也称为索引。如果未指定索引,则会创建一个默认的整数索引,从0开始直到数据长度减1。 - 创建Series: ```python series1 = pd.Series([1, 2], index=['a', 'b']) series1 = pd.Series(dict1) # 如果dict1是{'a': 1, 'b': 2}这样的字典 ``` - 获取Series值: ```python series1.values # 获取所有数值 series1['a'] # 通过索引获取单个值 series1[['b', 'a']] # 通过索引列表获取多个值 ``` - 获取Series索引: ```python series1.index # 获取索引数组 ``` - 设置或获取名称属性: ```python series1.name # 获取Series名称 series1.index.name # 获取索引名称 ``` - 常见操作: - 加法操作:Series之间的加法会自动对齐不同索引的数据。 ```python series1 + series2 ``` - 唯一值:使用`unique()`方法获取Series中的唯一值。 ```python series2 = series1.unique() ``` - 视作有序字典:Series可以被用作很多期望字典参数的函数的替代品。 2. DataFrame(二维数据结构) DataFrame是一个表格型的数据结构,包含有序的列集合,每列可以是不同的值类型。DataFrame可以被理解为一系列Series的字典。 - 创建DataFrame: ```python df = pd.DataFrame.from_dict(data, orient='columns') # 从字典创建 ``` 或者 ```python df = pd.DataFrame({'column1': [1, 2], 'column2': [3, 4]}) ``` - DataFrame操作: - 数据选择:通过列名、行索引或切片访问数据。 ```python df['column1'] # 选择一列 df.loc[0] # 通过行索引选择一行 df.iloc[0, 1] # 通过位置选择单元格 ``` - 数据过滤和条件查询:使用布尔索引。 ```python df[df['column1'] > 1] ``` - 数据操作:包括合并、连接、计算等。 ```python df.add(df2, fill_value=0) # 合并,用0填充缺失值 df.groupby('category').mean() # 按类别求平均值 ``` Pandas的这些基本操作构成了数据分析的基础,其高效性和易用性使得它成为处理和分析大量数据的首选工具。通过理解和掌握这个速查表中的内容,用户可以更有效地进行数据清洗、转换、合并、聚合等任务,从而实现更复杂的数据分析。