Pandas Series与DataFrame基础：高效数据处理关键

需积分: 0 148 浏览量更新于2024-08-04 收藏 625KB PDF 举报

在Python的Pandas库中，数据处理是其核心功能之一。Pandas建立在NumPy之上，提供了高效的数据结构和数据操作工具，特别适用于数据分析。本文将重点介绍Pandas中两种常用的数据结构：Series和DataFrame。 **1. Series（一维数组）** Series是Pandas的基础数据结构，类似于Python的列表(List)，但具有更严格的类型约束。在Series中，所有元素必须是同一种数据类型，这有助于优化内存使用和提升计算效率。Series的主要特点包括： - 创建Series：通过传递一个列表和一个索引（可选）来初始化。例如，`ser = pd.Series(['张三', '李四', '王五'], index=list(range(1, 4)))`展示了如何创建一个带有自定义索引的Series。 - values属性：返回Series的底层NumPy数组，如`ser.values`类型为`numpy.ndarray`。 - 运算能力：Series可以与其他Series或数值进行基本的数学运算，如`ser2 = pd.Series([18, 19, 17], index=range(1, 4))`，然后执行简单的加法操作，如`ser2 + 1`。 **2. DataFrame（二维表格）** DataFrame是Pandas的核心数据结构，它是一个表格型数据结构，可以看作Series的容器，每列可以有不同的数据类型。DataFrame的特点如下： - 安装与导入：使用pip安装Pandas库，如`!pip install pandas`。检查版本时，`pd.__version__`将返回当前安装的Pandas版本。 - 创建DataFrame：可以通过多种方式构造，如从列表、字典或者其他数据结构转换而来。如`data = {'beijing': 9240, 'shanghai': 8960, 'guangzhou': 7400}`，然后创建`ser3 = pd.Series(data)`，这是一种从字典生成Series的方法。 - 索引和访问：DataFrame的行可以用整数索引或字符串索引访问，如`ser3['beijing']`访问北京的值。 Pandas的Series和DataFrame为数据操作提供了灵活且高效的工具。熟练掌握这两种数据结构，能够极大地简化数据清洗、预处理和分析的过程，使得数据科学家和分析师能够更高效地处理各种复杂的数据集。通过深入理解它们的特性和用法，用户可以进一步探索Pandas的众多函数和方法，如数据合并、分组、过滤等高级特性。



DataFrame



⼆

、

Pandas

中

对

数

据

的

选

取

操

作



ser4.to_frame() # DataFrame

⽅

式

展

⽰

import numpy as np

data = np.arange(100, 109).reshape(3, -1)

"""

array([[100, 101, 102],

[103, 104, 105],

[106, 107, 108]])

"""

df = pd.DataFrame(data)

data = {

'name':['jack', 'mary', 'lily'],

'age':[19, 19, 17],

'height': [1.68, 1.72, 1.62]

}

df = pd.DataFrame(data)

df.columns #

查

看

key

，

Index(['age', 'height', 'name'], dtype='object')

df.columns = ['age', 'height', 'username'] #

可

以

这

样

修

改

key

df = pd.DataFrame(data, columns = ['age', 'height', 'name', 'email'])

df.index #

查

看

索

引

，

RangeIndex(start=0, stop=3, step=1)

df = pd.DataFrame(data, columns = ['age', 'height', 'name', 'email'], index=range(1, 4))

data = {

'name': ['

张

三

', '

李

四

', '

王

五

', '

赵

六

'],

'age': [18, 19, 17, 20],

'height': [1.68, 1.73, 1.62, 1.55]

}

剩余10页未读，继续阅读

Asama浅间

粉丝: 888
资源: 299

Pandas Series与DataFrame基础：高效数据处理关键

03_NumPy_and_Pandas_pandas_

pandas官方文档中文版_pandas_pandas文档_pandas中文_python_

pandas.zip_pandas_pandas 速查手册_pandas开发手册

pandas官方文档中文版_pandas_pandas文档_python_

pandas官方文档中文版_python教程_pandas中文API_pandas中文_

Ocean_CD---poblemas_reai_Pandas_Python_19_03_2021

Pandas数据分析入门教程DIANA_Pandas回顾

df_pandas[numerical_cols] = df_pandas[numerical_cols].fillna(df_pandas[numerical_cols].mean())报错

tx_pandas:使用熊猫进行各种数据处理

Numpy及Pandas_numpy_pandas_dataframe_python_

最新资源