Pandas基础入门：文件读写与基本数据结构详解

130 浏览量更新于2024-08-31 收藏 211KB PDF 举报

在这个Pandas学习系列中，我们将深入探讨如何利用Pandas这个强大的数据分析工具进行基础操作。首先，我们会了解文件读取与写入的重要性，这是数据处理的第一步。Pandas提供了多种格式的数据读取函数，如`pd.read_csv()`用于CSV文件，`pd.read_txt()`适用于纯文本文件，而`pd.read_excel()`则针对Excel文件（包括xls和xlsx格式）。为了确保使用的Pandas版本是最新的，我们建议检查模块版本并适时进行升级，例如通过`python -m pip install --upgrade pandas`来更新到1.0.3以上。文件读取部分，我们学习了如何设置分隔符（如逗号`sep=','`）来正确解析不同格式的数据。例如，使用`df_csv = pd.read_csv('C:/Users/wen97/Desktop/joyful-pandas-master/data/table.csv', sep=',')`。写入文件同样关键，通过`.to_csv()`和`.to_excel()`函数可以将DataFrame保存为CSV或Excel格式，比如`df_csv.to_csv('C:/Users/wen97/Desktop/new/table1.csv')`，可以选择是否保留行索引。接下来，我们转向Pandas的基本数据结构——Series。Series是Pandas中最基础的对象，它是一维、同质化的数组，由一个数组和一组与之相关的索引构成。Series的重要属性包括值（values）、索引（index）、名称（name）和数据类型（dtype）。例如，创建一个Series的方式是`s = pd.Series("data", index=[0, 1, 2])`，这将创建一个带有指定值和整数索引的Series。在继续深入学习时，还会介绍DataFrame，它是Pandas的核心数据结构，类似于电子表格或SQL表，具有行和列的二维结构。DataFrame包含多个Series，每个列可以有不同的数据类型。此外，Pandas还提供了丰富的功能，如数据清洗、数据转换、统计分析等，这些都是在数据科学项目中必不可少的技能。这个系列将围绕Pandas的基础知识展开，包括但不限于文件I/O操作、数据结构的理解和应用，以及一系列实用的数据处理和分析技巧。通过跟随教程和实践，读者将能够熟练掌握Pandas，从而在数据处理任务中更加高效地工作。

Pandas学习学习 – 基础基础

写在前面写在前面

这个系列是跟着 Datawhale 的第二次学习，算是系统的学习一下 pandas 基础，然后会跟着教材梳理一下知识点。

# 导入所需模块

import pandas as pd

import numpy as np

这里说明一下查看模块版本的语句，一般来说大部分模块有这个方法

pandas.__version__

因为群里有同学遇到了 0.xx 版本的遗留问题，所以这里将 pandas 模块进行升级，在 prompt 里的语句如下，然后就顺利升级到了 1.0.3 ！

python -m pip install --upgrade pandas

一、文件读取与写入一、文件读取与写入

1. 读取读取

# 读取文件

# 可以设置分隔符如，sep = ','

## csv格式

df_csv = pd.read_csv('C:/Users/wen97/Desktop/joyful-pandas-master/data/table.csv')

## txt格式

df_txt = pd.read_txt('C:/Users/wen97/Desktop/joyful-pandas-master/data/table.txt')

## xls或xlsx格式

df_excel = pd.read_excel('C:/Users/wen97/Desktop/joyful-pandas-master/data/table.txt')

2. 写入写入

# 写入文件

# 设置路径为你想要放置文件的位置即可，并且命名文件

## csv格式

df_csv.to_csv('C:/Users/wen97/Desktop/new/table1.csv')

# df.to_csv('C:/Users/wen97/Desktop/new/table1.csv', index=False) #保存时除去行索引

## xls或xlsx格式

df_excel.to_excel = pd.to_excel('C:/Users/wen97/Desktop/new/table2.xlsx', sheet_name='Sheet1')

trick one: 还有看到过还有看到过pickle格式的文件，可以依葫芦画瓢。格式的文件，可以依葫芦画瓢。

二、基本数据结构二、基本数据结构

1. Series序列序列

对于一个Series，其中最常用的属性为值（values），索引（index），名字（name），类型（dtype）

# 创建一个 Series

s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'], name='这是一个Series', dtype='float64')

输出如下，可见包含了上述Series的四个要素

trick two: pandas模块中序列模块中序列Series和列表和列表List的区别的区别

列表：输出结果在中括号中，且各元素之间以逗号分隔

序列：竖着的形式展示数据

print("列表的输出形式：")

a=[1,2,3,4] print(a)

print(type(a))

print("")

print("序列的输出形式：")

b=pd.Series(a)

print(b)

print(type(b))

创建完毕之后我们进入后面的学习，可知序列含有四个属性，首先要知道如何访问序列属性，方法非常简单。

# 访问 Series 属性

## 访问值

s.values

## 访问名字

s.name

## 访问索引

s.index

## 访问类型

s.dtype

trick three: 这里我个人感觉可以把索引看作是这里我个人感觉可以把索引看作是DataFrame里的变量名，只不过转置一下，不知道可不可以这样理解里的变量名，只不过转置一下，不知道可不可以这样理解

# 取出某一个值

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38569109

粉丝: 7
资源: 955

Pandas基础入门：文件读写与基本数据结构详解

python机器学习算法实训 – （一） 线性回归

Tensorflow学习笔记（三）上–Tensorflow基础API使用

从RAM学习突破–第2部分

基于jupyter notebook的python编程—–机器学习中的线性分类器及相应判定方法(鸢尾花数据集的分类可视化)

第八章 变量选择与正则化 – 岭回归分析

Python系列–最全numpy的线性代数函数功能及用法

OliverTheDog：我朋友的不和谐团体的不和谐机器人–狗的Oliver！

数据挖掘实战–二手车交易价格预测（二）数据探索性分析（EDA）

二手车交易价格预测学习笔记 — Task3

Learn-Python-by-Building-Data-Science-Applications:Packt发行的《通过构建数据科学应用程序学习Python》

最新资源

python机器学习算法实训 – （一）线性回归

第八章变量选择与正则化 – 岭回归分析