(1) 用 pandas >取 pollution_us_Scity_2006_2010_NO2.csv 文件，奆着前5行、后2仃。 (2）选择 2007 年数据集，将缺失值丢弃处理，并将预处理后结果导出到文本文件 polution_ us Sciry_ 2007 No2.txt，要求数据之问用空格分隔，每行未尾包含换行符。（3）读取文本文件pollution_us_5cily_2007_ NO2.txt，统计总行数、总列数，并按照 County Code 降序排序，并将排序后结果导出为 CSV 文件 pollution_ us_ 5city_2007- NO2- descending.csvo (4）读取新的数据集 pollution_ us_ Scity_2007_ NO2_ descending.csv，利用 category=[0， 25, 50, 75, 100, 125, 150]# labels ['Good', 'Moderate', 'SubUnhealthy', 'Unhealthy', "Very Unhealthy, 'Hazardousl将 County--"Queens"的 NO2 AQI 迸行离散化，并根据离散化结果进行统计，分别画出统计结果的柱状图和饼状图，并分别保存为 NO2_ AQI bar-png、 NO2_AQI pie.png，要求分率不低于 300 dpi。

时间: 2024-03-02 11:49:25 浏览: 69

Pandas之read_csv()读取文件跳过报错行的解决

### Pandas之read_csv()读取文件跳过报错行的解决方案 #### 一、问题背景及场景在日常的数据处理工作中，我们经常会遇到需要从CSV文件中读取数据的情况。Pandas作为Python中非常强大的数据分析库之一，提供了`read_csv()`函数用于方便地加载CSV文件到DataFrame中。然而，在实际应用过程中，可能会遇到一些问题，比如CSV文件中的某些行格式不正确或存在额外的分隔符等，这些都可能导致解析错误。本文将详细介绍如何在使用Pandas的`read_csv()`函数时跳过那些引发错误的行。 #### 二、基本概念介绍 - **CSV文件**：Comma-Separated Values文件，一种常用的存储表格数据的文件格式，其中每行代表一条记录，各字段之间用逗号分隔。 - **DataFrame**：Pandas中的一种二维表格型数据结构，可以容纳多种数据类型，并且支持丰富的数据操作功能。 - **`read_csv()`函数**：Pandas提供的用于读取CSV文件的函数，返回一个DataFrame对象。 #### 三、问题分析当使用`read_csv()`函数读取CSV文件时，如果文件中的某一行格式与预期不符（例如字段数量不一致），则会抛出错误。常见的错误提示如：“ParserError: Error tokenizing data. C error: Expected 2 fields in line 407, saw 3.” 这意味着在第407行期望有两个字段，但实际上有三个。 #### 四、解决方案 ##### 1. 跳过错误行为了跳过这些错误行并继续读取其他数据，可以在调用`read_csv()`函数时传入`error_bad_lines=False`参数。 ```python import pandas as pd df = pd.read_csv('filePath', error_bad_lines=False) ``` 这样，即使遇到格式错误的行，也会被自动忽略，不会中断整个文件的读取过程。 ##### 2. 错误调试与处理 - **检查字段数量**：首先确保CSV文件的每一行字段数量一致，可以通过手动检查或编程方式验证。 - **打印DataFrame字段**：使用`df.columns.values`查看DataFrame中的所有字段名称，确保它们与CSV文件中的header匹配。 ```python print(df.columns.values) ``` - **处理异常字段**：如果CSV文件中的某一行数据格式确实存在问题（如多了一个逗号），可以手动修改该行或通过编程方式处理。 ##### 3. 其他常见错误及其解决方法 - **`KeyError`错误**：当尝试访问DataFrame中不存在的字段时，会抛出`KeyError`。这通常是由于CSV文件中的字段名称与预期不一致或在数据处理过程中某些字段被意外删除造成的。 - 解决方法：使用`df.columns.values`检查DataFrame中的字段名称是否与预期一致。 - **类型不匹配错误**：当尝试比较不同类型的值时，会抛出`TypeError`。例如，尝试比较数字和字符串。 - 解决方法：确保所有参与比较的字段类型一致。 #### 五、取列与取列的值的区别 - **取单列的值**：`df['column_name']`返回的是一个Series，只包含所选列的数据。 - **取单列或多个列为新的DataFrame**：`df[['column_name']]`或`df[['column_name1', 'column_name2']]`返回的是一个新的DataFrame，包含所选的列。 #### 六、过滤行 - **过滤条件**：`df[df['column_name'] != 'some_value']`可以用来过滤掉满足特定条件的行。 - **注意类型匹配**：确保参与比较的值类型一致，避免`TypeError`。 #### 七、读取文件时的其他注意事项 - **EOF inside string错误**：如果遇到“EOF inside string starting at line”这类错误，可能是因为文件中的字符串未正确关闭。可以通过设置`quoting=csv.QUOTE_NONE`参数来解决。 ```python df = pd.read_csv('filePath', quoting=csv.QUOTE_NONE) ``` #### 八、总结本文详细介绍了在使用Pandas的`read_csv()`函数读取CSV文件时如何处理格式错误的行以及解决其他常见问题的方法。通过合理设置参数和采取适当的处理措施，可以有效避免读取过程中可能出现的各种问题，提高数据处理效率。希望本文能为大家提供一定的帮助。

好的，以下是代码实现： ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt # 1.读取文件，输出前5行和后2行 df = pd.read_csv('pollution_us_Scity_2006_2010_NO2.csv') print('前5行：') print(df.head(5)) print('后2行：') print(df.tail(2)) # 2.选择2007年数据集，将缺失值丢弃处理，并导出到文本文件 df_2007 = df[df['Date Local'].str.contains('2007')] df_2007.dropna(inplace=True) df_2007.to_csv('pollution_us_Scity_2007_NO2.txt', sep=' ', index=False, header=None, line_terminator='\n') # 3.读取文本文件，统计总行数、总列数，并按照County Code降序排序，并导出为CSV文件 df_2007 = pd.read_csv('pollution_us_Scity_2007_NO2.txt', sep=' ', header=None) print('总行数：', len(df_2007)) print('总列数：', len(df_2007.columns)) df_2007.sort_values(by=3, ascending=False, inplace=True) df_2007.to_csv('pollution_us_5city_2007_NO2_descending.csv', index=False, header=None) # 4.读取新的数据集，将County--"Queens"的NO2 AQI进行离散化，并绘制柱状图和饼状图 df_new = pd.read_csv('pollution_us_Scity_2007_NO2_descending.csv', header=None) df_queens = df_new[df_new[2] == 'Queens'] bins = [0, 25, 50, 75, 100, 125, 150] labels = ['Good', 'Moderate', 'SubUnhealthy', 'Unhealthy', 'Very Unhealthy', 'Hazardous'] df_queens['AQI'] = pd.cut(df_queens[4], bins=bins, labels=labels) counts = df_queens['AQI'].value_counts() plt.figure(figsize=(8, 6), dpi=300) plt.bar(counts.index, counts.values) plt.xlabel('AQI Category') plt.ylabel('Counts') plt.title('NO2 AQI in Queens, 2007') plt.savefig('NO2_AQI_bar.png', dpi=300) plt.figure(figsize=(8, 6), dpi=300) plt.pie(counts.values, labels=counts.index, autopct='%1.1f%%', startangle=90) plt.title('NO2 AQI in Queens, 2007') plt.axis('equal') plt.legend(title='AQI Category', loc='best') plt.savefig('NO2_AQI_pie.png', dpi=300) ``` 注意：以上代码需要先下载数据集`pollution_us_Scity_2006_2010_NO2.csv`，并放在当前工作目录下才能正常运行。

阅读全文

相关推荐

解决pandas使用read_csv()读取文件遇到的问题

用pandas库读取4.pollution_us_5city_2006_2010_NO2.csv文件选择2007年数据集，将缺失值丢弃处理，并将预处理后结果导出到文本文件pollution_ us_5city_2007_NO2.txt，要求数据之间用空格分隔，每行末尾包含换行符。

利用pandas 库读取新的数据集pollution US_ Scity 2010 SO2 _O3 NO2 Co_new.csv,并选择字段County-="Queens"的所有 数据集，导出为文本文件pollution us_Queens 2010_ SO2_ _O3_ NO2_ CO new.txt, 要求数据之间用逗号分隔，每行末尾包含换行符。

删除列State Code、Site Num、Address,并将剩余列用pandas数据预处理模块将缺失值丢弃处理，导出到新的csv文件pollution_us_5city_2010_SO2_O3_NO2_CO_new.csv。

pandas官方文档中文版_pandas_pandas文档_pandas中文_python_

pandas官方文档中文版_pandas_pandas文档_python_

读取文本文件pollution_ us_ Queens 2010_ SO2_ O3_ NO2_ CO new.txt, 并转存到Excel文件pollution us_ Queens 2010 SO2. 03 NO2_ CO_ new.xlsx 中。

选择2007年数据集，将缺失值丢弃处理，并将预处理后结果导出到文本文件pollution_ us_5city_2007_NO2.txt，要求数据之间用空格分隔，每行末尾包含换行符。

pandas_csv_dog_movie.txt

深圳混泥土搅拌站生产过程中环境管理制度.docx

应用商城1.4+软件库安卓源码2.4+配置教程集.zip

最新推荐

pandas中read_csv的缺失值处理方式

Pandas的read_csv函数参数分析详解

python中时间转换datetime和pd.to_datetime详析

pandas读取csv文件提示不存在的解决方法及原因分析

python基础教程：Python 中pandas.read_excel详细介绍

PureMVC AS3在Flash中的实践与演示：HelloFlash案例分析

管理建模和仿真的文件

YRC1000 EtherNet_IP通信协议：掌握连接与数据交换的6个关键策略

如何设置 OpenFileDialog 用户只能在固定文件夹及其子文件夹里选择文件

掌握Makefile多目标编译与清理操作

利用pandas 库读取新的数据集pollution US_ Scity 2010 SO2 _O3 NO2 Co_new.csv,并选择字段County-="Queens"的所有数据集，导出为文本文件pollution us_Queens 2010_ SO2_ _O3_ NO2_ CO new.txt, 要求数据之间用逗号分隔，每行末尾包含换行符。