Python Pandas模块入门教程：Series与DataFrame解析

134 浏览量更新于2024-09-01 收藏 88KB PDF 举报

"这篇教程详细介绍了Python的pandas模块，主要涵盖了pandas的基础知识，包括Series和DataFrame这两种核心数据结构的创建与使用。" 在Python的pandas库中，我们有两个核心的数据结构：Series和DataFrame，它们对于数据分析和处理至关重要。Pandas的设计灵感来源于R语言中的数据框（DataFrame），并且在Numpy的基础上进行了扩展，使得处理二维表格数据更加方便。 1. **Series**：Series是一种类似于一维数组的对象，它可以存储各种类型的数据，如整数、浮点数、字符串甚至复杂对象。Series内部使用NumPy数组进行数据存储，并且每个Series都有一个索引。在创建Series时，如果没有指定索引，它会自动创建0到n-1的整数索引。例如： ```python import numpy as np import pandas as pd s = pd.Series([1, 2, 3, np.nan, 44, 1]) # 使用np.nan创建缺失值 ``` 2. **DataFrame**：DataFrame是pandas的核心数据结构，它是一个二维表格型数据结构，可以存储不同类型的列。DataFrame有行索引和列索引，每一列可以是不同的数据类型。创建DataFrame通常需要一个二维数据数组，同时可以指定行索引（index）和列名（columns）。例如： ```python dates = pd.date_range('20170101', periods=6) df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=['a', 'b', 'c', 'd']) ``` 在这个例子中，我们创建了一个6行4列的DataFrame，索引为日期，列名为'a', 'b', 'c', 'd'，并且每个单元格的值是从正态分布中随机生成的。在实际应用中，我们可以利用pandas提供的各种方法对这些数据进行操作，如筛选、排序、合并、分组、缺失值处理等。例如，我们可以使用`loc`或`iloc`来访问和修改DataFrame的特定行或列，使用`dropna()`来删除含有缺失值的行，使用`fillna(value)`来填充缺失值，以及使用`groupby()`进行分组统计。学习pandas模块对于Python数据科学工作者来说是基础且关键的，它提供了高效的数据操作接口，极大地提高了数据分析的效率。通过深入理解和熟练运用Series和DataFrame，可以轻松地处理和分析各种类型和规模的数据集。

展开

python pandas模块基础学习详解模块基础学习详解

主要介绍了python pandas模块基础学习详解的相关资料,文中通过示例代码介绍的非常详细，对大家的学习或者

工作具有一定的参考学习价值,需要的朋友可以参考下

Pandas类似R语言中的数据框(DataFrame),Pandas基于Numpy,但是对于数据框结构的处理比Numpy要来的容易。

1. Pandas的基本数据结构和使用的基本数据结构和使用

Pandas有两个主要的数据结构：Series和DataFrame。Series类似Numpy中的一维数组，DataFrame则是使用较多的多维表

格数据结构。

Series的创建的创建

>>>import numpy as np

>>>import pandas as pd

>>>s=pd.Series([1,2,3,np.nan,44,1]) # np.nan创建一个缺失数值

>>>s　# 若未指定，Series会自动建立index，此处自动建立索引0-5

0 1.0

1 2.0

2 3.0

3 NaN

4 44.0

5 1.0

dtype: float64

DataFrame的创建的创建

>>>dates=pd.date_range('20170101',periods=6)

>>>dates

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',

'2017-01-05', '2017-01-06'],

dtype='datetime64[ns]', freq='D')

>>>df=pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])

>>>df

a b c d

2017-01-01 -1.993447 1.272175 -1.578337 -1.972526

2017-01-02 0.092701 -0.503654 -0.540655 -0.126386

2017-01-03 0.191769 -0.578872 -1.693449 0.457891

2017-01-04 2.121120 0.521884 -0.419368 -1.916585

2017-01-05 1.642063 0.222134 0.108531 -1.858906

2017-01-06 0.636639 0.487491 0.617841 -1.597920

DataFrame可以跟Numpy一样根据索引取出其中的数据，只是DataFrame索引方式更加多样化。DataFrame不仅可以根据默

认的行列编号来索引，还可以根据标签序列来索引。

还可以采用字典的方式创建还可以采用字典的方式创建DataFrame：：

>>>df2=pd.DataFrame({'a':1,'b':'hello kitty','c':np.arange(2),'d':['o','k']})

>>>df2

a b c d

0 1 hello kitty 0 o

1 1 hello kitty 1 k

对于对于DataFrame的一些属性也可以采用相应的方法查看的一些属性也可以采用相应的方法查看

dtype # 查看数据类型

index # 查看行序列或者索引

columns # 查看各列的标签

values　# 查看数据框内的数据，也即不含表头索引的数据

describe # 查看数据的一些信息，如每一列的极值，均值，中位数之类的，只能对数值型数据统计信息

transpose # 转置，也可用Ｔ来操作

sort_index # 排序，可按行或列index排序输出

sort_values # 按数据值来排序

一些例子一些例子

>>>df2.dtypes

a int64

b object

c int64

d object

dtype: object

>>>df2.index

RangeIndex(start=0, stop=2, step=1)

>>>df2.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38645373

粉丝: 4

Python Pandas模块入门教程：Series与DataFrame解析

Python数据分析pandas模块用法实例详解

Python技术模块用法详解.docx

python pandas模块_Python3.5 Pandas模块中Series用法详解

python Pandas库基础分析之时间序列的处理详解

Python数据分析模块pandas用法详解

Python3 pandas 操作列表实例详解

Python Pandas时间序列处理详解

Python Pandas中日期时间处理详解

Python pandas与openpyxl基础操作与转义字符详解

Python pandas库与CSV处理详解及对比

最新资源