Python pandas处理CSV文件技巧：筛选与转置

23 浏览量更新于2023-03-03 4 收藏 660KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"这篇文章主要介绍了如何使用Python的pandas库处理CSV数据，特别是在处理大量CSV文件的场景下。作者在毕业设计中应用了这一方法，希望能对其他有类似需求的人提供帮助。文中通过实例展示了如何导入相关库，筛选CSV文件中的特定行和列，并使用numpy进行数据转置。" 在Python中，pandas库是一个非常强大的数据处理工具，它提供了DataFrame数据结构，可以方便地进行数据清洗、分析和转换。在处理CSV数据时，pandas的`read_csv()`函数是至关重要的。 1. 导入库：首先，我们需要导入`os`库来处理文件路径，`pandas`库来操作数据，以及`numpy`库来进行数值计算和数组操作。 ```python import os import pandas as pd import numpy as np ``` 2. 读取CSV文件中的特定内容：使用`read_csv()`函数，我们可以定制化地读取CSV文件。例如，跳过指定行，只读取特定行数和列数。 ```python time = pd.read_csv(info, skiprows=[0], nrows=1, usecols=[6], header=None) rss = pd.read_csv(info, skiprows=[0], usecols=[4], header=None) ``` - `skiprows`参数允许我们忽略某些行，比如头部行。 - `nrows`参数限制读取的行数。 - `usecols`参数让我们可以选择只读取特定列。 - `header=None`表示不读取文件的列名。 3. 数据转置：使用numpy的`values`属性将pandas DataFrame转换为numpy数组，然后用`reshape()`函数进行转置，改变数据的行列布局。 ```python arr_time = time.values arr_t_T = arr_time.reshape(np.size(arr_time, 1), np.size(arr_time, 0)) arr_rss = rss.values arr_rss_T = arr_rss.reshape(np.size(arr_rss, 1), np.size(arr_rss, 0)) ``` - `values`方法将DataFrame转换为二维numpy数组。 - `reshape()`函数根据给定的行数和列数重塑数组，实现数据转置。在实际应用中，可能还需要进行更多的数据预处理步骤，如数据清洗（去除缺失值、异常值）、数据转换（标准化、编码）、统计分析等。pandas库提供了丰富的功能，可以轻松处理这些任务。例如，可以使用`dropna()`去除缺失值，`apply()`函数对每一列应用自定义函数，或者`groupby()`对数据进行分组分析。对于遍历多个CSV文件的情况，可以使用`os`库的`glob`模块来获取所有文件路径，然后在一个循环中处理每个文件。这样，上述步骤可以应用于任何满足条件的CSV文件，大大提高了数据处理的效率和灵活性。

资源详情

资源推荐

使用使用Python(pandas库库)处理处理csv数据数据

(注：本文写于做毕设期间，有处理大量csv文件的需要，故使用python强大的库资源来处理数据，希望对有需要的你提供帮助和启发）

使用使用Python(pandas)处理数据处理数据

原始数据和处理之后的样式原始数据和处理之后的样式

图中为一个csv文件，待处理的csv文件总共有2410个

原始数据原始数据

处理样式处理样式

1.导入导入os、、pandas和和numpy库库

import os

import pandas as pd

import numpy as np

2.筛选出筛选出csv文件中的指定行（列）文件中的指定行（列）

time = pd.read_csv(info, skiprows=[0], nrows=1, usecols=[6], header=None) # 遍历时间但一个csv只读一次

rss = pd.read_csv(info, skiprows=[0], usecols=[4], header=None) # 空掉第一行遍历所有csv文件的rss列

pd.read_csv（）的参数（）的参数

1.filepath_or_buffer ：各种文件的路径（a str，pathlib.Path或py._path.local.LocalPath），URL（包括http，ftp和S3位置）或带有read()方法的任何对象（例如打开的文件或

StringIO）

2.skiprows=[ ] : 指定读取csv文件时忽略的行号

3.nrows = 1: 指定读取的行数为1，即只读取第一行

4.usecols= [] : 指定读取的列数的列号

5.header = None : 指定不读取原始数据的表头即列名1

3.利用数组和利用数组和numpy进行转置进行转置

arr_time = time.values

arr_t_T = arr_time.reshape(np.size(arr_time, 1), np.size(arr_time, 0)) # 利用numpy返回的行数和列数，再将其给数组的reshape方法

arr_rss = rss.values

arr_rss_T = arr_rss.reshape(np.size(arr_rss, 1), np.size(arr_rss, 0)) # 利用numpy返回的行数和列数，再将其给数组的reshape方法

1.数组的reshape函数：reshape()是数组array中的方法，作用是将数据按行列重新组织

2.np.size：如果传入的参数只有一个，则返回矩阵的元素个数

如果传入的第二个参数是0，则返回矩阵的行数

如果传入的第二个参数是1，则返回矩阵的列数

data_t = pd.DataFrame(arr_t_T)

data_r = pd.DataFrame(arr_rss_T) # 赋值给相应的DataFrame

再将其传给相应的DataFrame.

pandas也可以用转置的方法输出，不过在本文中因为有后续操作，所以用数组和numpy完成转置，不易出错。

4.遍历整个文件夹中的遍历整个文件夹中的csv文件文件

for info in os.listdir('H:/Ex 1.12'):

domain = os.path.abspath('H:/Ex 1.12')

info = os.path.join(domain, info) # 遍历整个文件夹

利用利用os模块的方法和模块的方法和for循环实现遍历文件夹的功能循环实现遍历文件夹的功能

1.os.listdir（path）： path为目标文件夹路径返回：指定路径下的文件和文件夹列表

2.os.path.abspath（file）：获取当前文件的绝对路径

3.os.path.join()函数：连接两个或更多的路径名组件；如果各组件名首字母不包含’/’，则函数会自动加上；如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃；如

果最后一个组件为空，则生成的路径以一个’/’分隔符结尾

这个循环中先是获取目标路径文件夹中的所有文件，再将其转为绝对路径，这样在下一步这个循环中先是获取目标路径文件夹中的所有文件，再将其转为绝对路径，这样在下一步

os.path.join

功能中跳过已经读取过的文件，从而完成遍历操作。功能中跳过已经读取过的文件，从而完成遍历操作。

5.利用利用pd.concat在在csv文件中添加一列（行）文件中添加一列（行）

lb1 = pd.DataFrame({'label': ['Ex 1.12']})

data_l = pd.DataFrame(lb1) # 增加label列

首先利用之前的循环结构得到一个列名为label，内容全为Ex1.12的1*2410的列表

database_1 = pd.concat([data_t, data_r], axis=1, sort=False)

database_2 = pd.concat([database_1, data_l], axis=1, sort=False) # 整合三个DataFrame

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

weixin_38640443

粉丝: 10
资源: 887

会员权益专享

Python pandas处理CSV文件技巧：筛选与转置

使用pandas库对csv文件进行筛选保存

使用Python Pandas库批量导入CSV文件至DataFrame的技巧

Python使用pandas读取csv文件支持utf-8和gbk编码自动识别

python pandas处理csv数据

python pandas处理csv

python使用pandas库读取csv

python pandas 更改csv数据

python pandas处理csv文件

Python使用pandas库读取CSV文件的方法

python pandas读取csv指定数据画图

Python pandas处理csv文件

python pandas read_csv

python pandas to_csv

Python中如何利用pandas库读取csv文件

python利用pandas读取csv

python pandas导入csv 数据代码

python pandas导入处理数据

python处理csv数据排序-python – 使用pandas对csv进行排序和分组

Python的pandas库导入csv文件

使用python的pandas库读取csv文件保存至mysql数据库

会员权益专享

最新资源