掌握pandas：文件操作、数据结构与核心函数详解

PDF格式 | 283KB | 更新于2024-08-31 | 172 浏览量 | 举报

在深入理解pandas基础知识的过程中，本资源主要涵盖了以下几个关键点： 1. **文件读取与写入**： - pandas支持多种文件格式的处理，包括CSV（如`pd.read_csv()`和`pd.to_csv()`）、TXT（可能需要先转换为CSV），以及Excel文件（xls或xlsx，使用`pd.read_excel()`和`pd.to_excel()`）。这些函数用于数据的导入和导出，使得在不同格式间转换变得便捷。 2. **基本数据结构**： - **Series**：是pandas的核心数据结构之一，类似于一维数组，可以存储单个变量或标量值。创建Series时，可以指定数据和索引。常用操作包括访问属性（如`index`和`values`），调用方法（如`mean()`）。 - **DataFrame**：二维表格型数据结构，包含多列数据，每列可以是不同类型。DataFrame的操作更复杂，包括设置列名、修改索引、删除或添加列、按类型选择列，以及转置数据（`T`或`.transpose()`）。 3. **常用基本函数**： - `head()`和`tail()`：显示数据的前几行或后几行，用于快速预览数据。 - `unique()`和`nunique()`：分别返回唯一值列表和每个值出现的次数。 - `count()`：计算非空值的数量。 - `value_counts()`：对类别变量计数，常用于频率分析。 - `info()`和`describe()`：提供数据的摘要统计信息，包括计数、平均值、标准差等。 - `idxmax()`、`idxmin()`、`nlargest()`和`nsmallest()`：找出最大值、最小值以及最大和最小值的索引。 - `apply()`, `clip()`, 和 `replace()`：分别用于应用自定义函数、设置值的范围限制和替换特定值。 4. **排序**： - 索引排序：对数据的行或列按照索引进行排序。 - 值排序：对数据的值进行排序，包括列排序和行排序。 5. **问题与练习及解答**： - 提供了针对上述知识点的问题和实践练习，帮助读者巩固所学。同时，资源中包含了作者根据Pandas官方文档和Datawhale平台的教学资料，以及个人经验编写的解答，旨在提供全面的学习支持。 6. **安装与使用**： - 指导如何从清华大学镜像安装最新版的pandas（1.0.3），以及导入并检查版本。通过学习这个资源，读者可以系统地掌握pandas的基本操作，从而有效地处理和分析数据。无论是数据清洗、整理还是初步探索性分析，pandas都是Python数据分析的强大工具。

pandas基础基础——文件读取与写入、基本数据结构、常用基本函数、排序、总结练习文件读取与写入、基本数据结构、常用基本函数、排序、总结练习

快速浏览快速浏览pandas简单介绍和本系列说明一、csv、txt、xls或xlsx文件读取与写入1. 读取与写入csv格式2. 读取与写入txt格式3. 读取与写入xls或xlsx格式二、基本数据结构1.

SeriesSeries创建访问Series属性Series调用方法2. DataFrameDataFrame创建DataFrame修改行/列名DataFrame调用属性和方法“索引对齐特性”DataFrame列的删除/增加DataFrame

根据类型选择列DataFrame转置Series转换为DataFrame三、常用基本函数head和tailunique和nuniquecount和value_countsinfo和describeidxmax、idxmin和nlargest、

nsmallestapply函数clip和replace四、排序索引排序值排序五、问题与练习（附解答）Reference

pandas简单介绍和本系列说明简单介绍和本系列说明

pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提

供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,built on top of the Python programming language.

进入官网可以看到现在最新的版本是1.0.3，之后代码也就使用1.0.3的pd咯。此系列主要参考Pandas官方文档和由Datawhale主办的一期Joyful-Pandas，结合自己使用pandas的一些

体会进行扩展，最后还有个人对问题和练习的解答。使用到的数据集可以在此下载。

#从清华镜像拉装1.0.3版本的Pandas

!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas==1.0.3

import pandas as pd

#查看Pandas版本

pd.__version__

'1.0.3'

一般使用python安装库，会用到pip install libName。这会在Python的官方源pypi.python.org/pypi 下载，有时会因为超时会抛异常无法下载成功。所以可以选择一些比较稳定速度比较

快的国内镜像来下载python库。

这里选择用清华的镜像是因为大多数时候直接pip install 一个库会比较慢，国内常用阿里、豆瓣、中科大的镜像网址如下，可以自行选择替换。

https://mirrors.aliyun.com/pypi/simple/

https://pypi.douban.com/simple

https://mirrors.ustc.edu.cn/pypi/web/simple

一、一、csv、、txt、、xls或或xlsx文件读取与写入文件读取与写入

1. 读取与写入读取与写入csv格式格式

#读取

df = pd.read_csv('work/table.csv')

df.head()#默认查看前五行，想看n行的话就在括号内加数字，如前20行 df.head(20)

#写入

df.to_csv('data/new_table.csv')

#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

#df.to_csv('data/new_table.csv', header=False) #保存时除去列索引

2. 读取与写入读取与写入txt格式格式

#读取

df_txt = pd.read_table('work/table.txt') #可设置sep分隔符参数

#df_txt = pd.read_table('work/table.txt',sep=' ') #其实上行代码就是默认分隔符为 ,即空四个字符

df_txt

#写入

df_txt.to_csv('data/new_table.txt', index=False)

打开写入的‘new_table.txt’，就会发现格式和之前不太一样，使用‘，’分隔。因此读取时可以使用df_txt = pd.read_table('data/new_table.txt',sep=',') 。如果要保持一致，也就是分隔符为，那么

可以使df_txt.to_csv('data/new_table.txt', index=False,sep=' ')。

3. 读取与写入读取与写入xls或或xlsx格式格式

#读取

!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlrd

import xlrd

#需要安装xlrd包

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38621630

粉丝: 3

掌握pandas：文件操作、数据结构与核心函数详解

Pandas入门：文件读取与写入操作

Pandas基础入门：文件读写与基本数据结构详解

掌握Pandas基础：文件操作、数据结构与数据读写

使用pandas进行excel文件的读取写入

数据处理pandas读取csv文件

Pandas中的数据文件读取与写入技术

Pandas基础函数与数据分析实战

pandas打开excel文件，并写入数据

pandas读取txt文件写入excel

如何在Python中使用pandas库高效地读取和写入Excel文件，包括处理无表头和多表头情况？

最新资源