Python Pandas全攻略：数据表操作与清洗

5星 · 超过95%的资源 | PDF格式 | 63KB | 更新于2024-08-29 | 43 浏览量 | 举报

本文档详细介绍了Python编程语言中Pandas库的广泛应用，特别是针对数据表操作。首先，我们从导入必要的库开始，如numpy和pandas，这是数据处理的基础。在Python中，通过`import numpy as np`和`import pandas as pd`来确保这些功能的可用性。数据表的生成是关键部分，示例代码展示了如何创建一个包含多种数据类型（如整数id、日期、字符串城市名、年龄、类别以及数值价格）的数据框。`pd.DataFrame()`函数被用于构建数据表，其中定义了列名和对应的数据列表。查看数据表信息是数据分析的第一步。通过`.shape`属性获取表的维度（行数和列数），`df.info()`提供基本信息如维度、列类型和非空值数量。`df.dtypes`显示各列的数据类型，而`df['B'].dtype`则查看特定列的类型。`isnull()`函数用于检测空值，包括全表或单列的空值检查，`unique()`方法用来查看某一列的唯一值。`df.values`提供所有元素的数组形式，`.columns`展示列名，`head()`和`tail()`方法分别查看数据表的前10行和后10行。数据清洗是数据分析的重要环节。文档提到用数字0填充空值，这可以使用`fillna()`函数实现，如`df.fillna(value=0)`。如果需要根据特定列的均值填充NA值，例如使用'prince'列的均值，可以写为`df['prince'].fillna(df['prince'].mean())`。此外，清理数据时可能需要处理字符串，如去除city列的多余空格，`df['city'] = df['city'].str.strip()`是常用的处理方法。这篇文章涵盖了Pandas在Python中的基础应用，包括数据读取、数据表构造、数据探索和预处理，这些都是数据分析师日常工作中不可或缺的部分。通过熟练掌握这些操作，用户可以更有效地管理和分析数据，从而做出更准确的决策。

python之之pandas用法大全用法大全

一、生成数据表

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：

import numpy as np

import pandas as pd

2、导入CSV或者xlsx文件：

df = pd.DataFrame(pd.read_csv('name.csv',header=1))

df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas创建数据表：

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],

"date":pd.date_range('20130102', periods=6),

"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],

"age":[23,44,54,32,34,32],

"category":['100-A','100-B','110-A','110-C','210-A','130-F'],

"price":[1200,np.nan,2133,5433,np.nan,4432]},

columns =['id','date','city','category','age','price'])

二、数据表信息查看

1、维度查看：

df.shape

2、数据表基本信息（维度、列名称、数据格式、所占空间等）：

df.info()

3、每一列数据的格式：

df.dtypes

4、某一列格式：

df['B'].dtype

5、空值：

df.isnull()

6、查看某一列空值：

df.isnull()

7、查看某一列的唯一值：

df['B'].unique()

8、查看数据表的值：

df.values

9、查看列名称：

df.columns

10、查看前10行数据、后10行数据：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38660051

粉丝: 5

Python Pandas全攻略：数据表操作与清洗

python中使用pandas

Python之pandas读写文件乱码的解决方法

python的pandas用法

Python中pandas用法

python pandas用法

python中pandas的用法

python 中pandas的用法

python使用pandas

python pandas模块_Python3.5 Pandas模块中Series用法详解

python pandas 使用方法

最新资源