Python pandas库与CSV处理详解及对比

版权申诉

5星 · 超过95%的资源 157 浏览量更新于2024-09-10 1 收藏 55KB PDF 举报

"Python的pandas库在处理CSV文件时提供了高效且便捷的方法，相比传统的Python基础操作，pandas提供了更强大的功能和性能优化。本资源主要探讨了如何使用pandas读写CSV文件，并与一般Python处理方式进行对比。" 在Python中，处理CSV文件是一项常见的任务，特别是在数据分析领域。通常，我们可以使用内置的`csv`模块进行基本操作，但当数据量较大或需要进行复杂的数据操作时，pandas库成为了首选。 1. **一般处理CSV文件：** 在没有使用pandas的情况下，我们通常需要使用`open()`函数打开文件，然后通过`readline()`读取头行，`strip()`去除两侧空白，`split(',')`分割获取列名。接着，我们需要遍历文件中的每一行，处理并写入新的文件。这种方法需要手动处理每一行数据，效率较低且易出错。 ```python with open(input_file, 'r', newline='') as file_reader: header = file_reader.readline() # ... for row in file_reader: # ... ``` 2. **使用pandas处理CSV文件：** pandas库的`pd.read_csv()`函数可以快速读取CSV文件，并将数据转换为DataFrame对象，这使得数据操作变得简单。DataFrame提供了丰富的数据处理方法，如筛选、聚合、排序等。而`to_csv()`方法则能方便地将DataFrame写回CSV文件。 ```python import pandas as pd data_frame = pd.read_csv(input_file) # ... data_frame.to_csv(output_file, index=False) ``` 使用pandas，我们无需手动处理每一行数据，而是直接操作DataFrame，这提高了代码的可读性和效率。 3. **pandas的优势：** - **高效性**：pandas内部优化了数据结构，处理大量数据时速度更快。 - **易用性**：DataFrame提供了丰富的API，使得数据操作直观且便捷。 - **数据清洗**：pandas支持缺失值处理、类型转换等数据预处理操作。 - **统计分析**：内置统计函数，方便进行数据探索和分析。 - **数据融合**：轻松合并、连接不同的DataFrame。 4. **对比分析：** 一般Python处理方式需要更多代码来实现相同的功能，且代码往往更复杂。而pandas提供了统一的接口，减少了代码量，提高了开发效率。对于大规模数据处理，pandas在内存管理和计算速度上的优势更为明显。 5. **进一步学习：** - `pd.read_csv()`的参数详解，如`usecols`用于选择读取特定列，`skiprows`跳过指定行，`na_values`定义缺失值标志等。 - `to_csv()`的参数，如`index`决定是否写入索引列，`header`控制头行写入，`float_format`格式化浮点数等。 - DataFrame的常用操作，如`head()`, `tail()`, `describe()`, `groupby()`, `merge()`, `pivot_table()`等。通过学习和掌握pandas库，可以极大地提升数据处理能力，使数据分析工作更加高效。

展开

Python的的pandas库库+CSV文件处理详细使用，以及与一般文件处理详细使用，以及与一般

Python处理操作对比处理操作对比

Python的的pandas库库+CSV文件处理详细使用，以及与一般文件处理详细使用，以及与一般Python处理操作对比处理操作对比

下文来自与我阅读书籍《科学数据处理》的笔记，可能对于书上有些代码并不熟悉，所以留一些坑在这里，日后学会了就补

上。如果大家原意留言解答，小白感激不尽。

以下都只是代码部分，相关注解会在我后续学习中进行补全，所以这个坑一定要来补！

1.读写读写CSV文件（文件（1））

一般处理一般处理

#!/usr/bin/env python3

import sys

#这个路径的设置是基于.py文件与需要处理的文件在同一个文件夹下

#如果不是这样，或者简单一点，直接赋为绝对路径也可以

input_file = sys.argv[1] output_file = sys.argv[2]

with open(input_file, 'r', newline='') as filereader:

with open(output_file, 'w', newline='') as filewriter:

header = filereader.readline()

header = header.strip()

header_list = header.split(',')

print(header_list)

filewriter.write(','.join(map(str,header_list))+'')

for row in filereader:

row = row.strip()

row_list = row.split(',')

print(row_list)

#下面一行的操作我也不太理解，但是是吧值输出到输出文件中

filewriter.write(','.join(map(str,row_list))+'')

pandas处理处理

#!/usr/bin/env python3

import sys

import pandas as pd

input_file = sys.argv[1] output_file = sys.argv[2] data_frame = pd.read_csv(input_file)

print(data_frame)

data_frame.to_csv(output_file, index=False)

读写读写CVS文件（文件（2））

一般处理一般处理

#!/usr/bin/env python3

import csv

import sys

input_file = sys.argv[1] output_file = sys.argv[2] with open(input_file, 'r', newline='') as csv_in_file:

with open(output_file, 'w', newline='') as csv_out_file:

#使用CVS模块来读写

#delimiter=','是默认分隔符，所以如果你的输入文件和输出文件都是用逗号分隔的，就不需要指定这个参数

filereader = csv.reader(csv_in_file, delimiter=',')

filewriter = csv.writer(csv_out_file, delimiter=',')

for row_list in filereader:

print(row_list)

filewriter.writerow(row_list)

2.筛选特定的行筛选特定的行

一般操作一般操作

#!/usr/bin/env python3

import csv

import sys

input_file = sys.argv[1] output_file = sys.argv[2] with open(input_file, 'r', newline='') as csv_in_file:

with open(output_file, 'w', newline='') as csv_out_file:

filereader = csv.reader(csv_in_file)

filewriter = csv.writer(csv_out_file)

#读出文本第一行赋给header

header = next(filereader)

filewriter.writerow(header)

for row_list in filereader:

#取每一行第一列数据

supplier = str(row_list[0]).strip()

下载后可阅读完整内容，剩余3页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38723691

粉丝: 3

Python pandas库与CSV处理详解及对比

使用pandas库对csv文件进行筛选保存

Python使用pandas处理CSV文件的实例讲解

使用python的pandas库读取csv文件保存至mysql数据库

Python Pandas批量读取csv文件到dataframe的方法

Python：csv模块与pandas库读取CSV文件对比

加速Python Pandas读取大量CSV文件的并行处理方法

Python的pandas库导入csv文件

Python使用pandas库读取CSV文件的方法

python pandas处理csv文件

Python pandas处理csv文件

最新资源