import pandas as pd import numpy as np import os from pprint import pprint from pandas import DataFrame from scipy import interpolate data_1_hour_predict_raw = pd.read_excel('./data/附件1 监测点A空气质量预报基础数据.xlsx' ) data_1_hour_actual_raw = pd.read_excel('./data/附件1 监测点A空气质量预报基础数据.xlsx' ) data_1_day_actual_raw = pd.rea df_1_predict = data_1_hour_actual_raw df_1_actual = data_1_day_actual_raw df_1_predict.set_axis( ['time', 'place', 'so2', 'no2', 'pm10', 'pm2.5', 'o3', 'co', 'temperature', 'humidity', 'pressure', 'wind', 'direction'], axis='columns', inplace=True) df_1_actual.set_axis(['time', 'place', 'so2', 'no2', 'pm10', 'pm2.5', 'o3', 'co'], axis='columns', inplace=True) modeltime_df_actual = df_1_actual['time'] modeltime_df_pre = df_1_predict['time'] df_1_actual = df_1_actual.drop(columns=['place', 'time']) df_1_predict = df_1_predict.drop(columns=['place', 'time']) df_1_predict = df_1_predict.replace('—', np.nan) df_1_predict = df_1_predict.astype('float') df_1_predict[df_1_predict < 0] = np.nan # 重新插入time列 df_1_actual.insert(0, 'time', modeltime_df_actual) df_1_predict.insert(0, 'time', modeltime_df_pre) # 线性插值的方法需要单独处理最后一行的数据 data_1_actual = df_1_actual[0:-3] data_1_predict = df_1_predict data_1_predict.iloc[-1:]['pm10'] = 22.0 data_1_actual_knn = df_1_actual[0:-3] data_1_predict_knn: DataFrame = df_1_predict for indexs in data_1_actual.columns: if indexs == 'time': continue data_1_actual['rownum'] = np.arange(data_1_actual.shape[0]) df_nona = data_1_actual.dropna(subset=[indexs]) f = interpolate.interp1d(df_nona['rownum'], df_nona[indexs]) data_1_actual[indexs] = f(data_1_actual['rownum']) data_1_actual = data_1_actual.drop(columns=['rownum']) for indexs in data_1_predict.columns: if indexs == 'time': continue data_1_predict['rownum'] = np.arange(data_1_predict.shape[0]) df_nona = data_1_predict.dropna(subset=[indexs]) f = interpolate.interp1d(df_nona['rownum'], df_nona[indexs]) data_1_predict[indexs] = f(data_1_predict['rownum']) data_1_predict = data_1_predict.drop(columns=['rownum']) writer = pd.E

时间: 2024-02-23 22:01:05 浏览: 93

pandas read_excel()和to_excel()函数解析

在数据分析工作中，pandas库是不可或缺的工具，它提供了丰富的数据处理功能，其中包括与Excel文件的交互。本文将深入解析pandas中的`read_excel()`和`to_excel()`这两个关键函数，帮助你更好地理解和运用它们。我们来看`read_excel()`函数，它是用来从Excel文件中读取数据并转换为DataFrame对象的。`io`参数是Excel文件的路径，可以是字符串或文件对象。`sheetname`参数用于指定要读取的工作表，可以是单个工作表的名称（字符串）、索引（整数）、列表（读取多个工作表）或None（读取所有工作表）。例如，`sheetname=[0,1]`将读取第一个和第二个工作表。 `header`参数指定了列名所在的行，如果数据的第一行就是列名，那么默认值为0。如果没有列名，可以设置`header=None`。`skiprows`允许跳过文件开头的若干行，`skip_footer`则可以忽略文件末尾的行。`index_col`可以设置某一列作为DataFrame的索引，而`names`则用于指定自定义的列名。 `parse_cols`和`parse_dates`是两个处理数据类型的参数。`parse_cols`可以用来指定要解析的列，`parse_dates`则用于尝试将指定列转化为日期类型。`date_parser`可以自定义日期解析函数，`na_values`用于定义哪些值被视为缺失值，`thousands`用于分隔千位数的字符，`convert_float`控制是否将浮点数转换为整数，`has_index_names`判断索引列是否有名称，`converters`可以自定义列的转换函数，`dtype`用于指定列的数据类型，`true_values`和`false_values`用于定义布尔值的映射，`engine`指定解析Excel文件的引擎，如'xlrd'或'seaqulab'，`squeeze`参数用于将单列DataFrame压缩为Series。举个例子，假设我们有如下Excel文件： ``` sheet1: ID NUM-1 NUM-2 NUM-3 36901 142 168 661 36902 78 521 602 36903 144 600 521 36904 95 457 468 36905 69 596 695 sheet2: ID NUM-1 NUM-2 NUM-3 36906 190 527 691 36907 101 403 470 ``` 使用`pd.read_excel()`读取上述数据： ```python basestation = "F://pythonBook_PyPDAM/data/test.xls" data = pd.read_excel(basestation) # 输出：DataFrame对象 ``` 如果要读取多个工作表，可以这样操作： ```python data_all = pd.read_excel(basestation, sheet_name=None) # 输出：一个包含所有工作表的字典，键为工作表名，值为DataFrame ``` 接下来，我们转向`to_excel()`函数，它是将DataFrame对象保存为Excel文件的方法。基本用法是`df.to_excel(filename, sheet_name='Sheet1', index=True, header=True, ...)`。`filename`是输出文件的路径，`sheet_name`是工作表名，`index`和`header`分别控制是否写入索引和列名。其他参数如`startrow`、`startcol`可以指定写入数据的起始位置，`float_format`用于格式化浮点数，`na_rep`用于表示缺失值的字符串，`engine`则用于选择Excel写入引擎。例如，如果我们有一个DataFrame `df`，想要保存为Excel文件： ```python df.to_excel("output.xlsx", sheet_name="Sheet1", index=False) ``` 这将在`output.xlsx`文件中创建一个名为"Sheet1"的工作表，包含`df`的所有数据，不包含索引。总结起来，`pandas`的`read_excel()`和`to_excel()`函数提供了方便的数据导入导出功能，能够灵活地处理Excel文件中的数据，无论是读取单个工作表还是多个，或是处理复杂的数据结构，都游刃有余。掌握这两个函数的使用，将极大地提高你在数据分析过程中的效率。

这段代码主要是对一份空气质量预报基础数据进行处理和插值，具体的解释如下： 1. 导入需要的库和模块： ``` import pandas as pd import numpy as np import os from pprint import pprint from pandas import DataFrame from scipy import interpolate ``` 2. 读取 excel 文件中的数据： ``` data_1_hour_predict_raw = pd.read_excel('./data/附件1 监测点A空气质量预报基础数据.xlsx' ) data_1_hour_actual_raw = pd.read_excel('./data/附件1 监测点A空气质量预报基础数据.xlsx' ) data_1_day_actual_raw = pd.read_excel('./data/附件1 监测点A空气质量预报基础数据.xlsx' ) ``` 3. 对读取的数据进行处理： ``` df_1_predict = data_1_hour_actual_raw df_1_actual = data_1_day_actual_raw df_1_predict.set_axis( ['time', 'place', 'so2', 'no2', 'pm10', 'pm2.5', 'o3', 'co', 'temperature', 'humidity', 'pressure', 'wind', 'direction'], axis='columns', inplace=True) df_1_actual.set_axis(['time', 'place', 'so2', 'no2', 'pm10', 'pm2.5', 'o3', 'co'], axis='columns', inplace=True) ``` 4. 提取时间列并进行插值： ``` modeltime_df_actual = df_1_actual['time'] modeltime_df_pre = df_1_predict['time'] df_1_actual = df_1_actual.drop(columns=['place', 'time']) df_1_predict = df_1_predict.drop(columns=['place', 'time']) df_1_predict = df_1_predict.replace('—', np.nan) df_1_predict = df_1_predict.astype('float') df_1_predict[df_1_predict < 0] = np.nan df_1_actual.insert(0, 'time', modeltime_df_actual) df_1_predict.insert(0, 'time', modeltime_df_pre) data_1_actual = df_1_actual[0:-3] data_1_predict = df_1_predict data_1_predict.iloc[-1:]['pm10'] = 22.0 data_1_actual_knn = df_1_actual[0:-3] data_1_predict_knn: DataFrame = df_1_predict for indexs in data_1_actual.columns: if indexs == 'time': continue data_1_actual['rownum'] = np.arange(data_1_actual.shape[0]) df_nona = data_1_actual.dropna(subset=[indexs]) f = interpolate.interp1d(df_nona['rownum'], df_nona[indexs]) data_1_actual[indexs] = f(data_1_actual['rownum']) data_1_actual = data_1_actual.drop(columns=['rownum']) for indexs in data_1_predict.columns: if indexs == 'time': continue data_1_predict['rownum'] = np.arange(data_1_predict.shape[0]) df_nona = data_1_predict.dropna(subset=[indexs]) f = interpolate.interp1d(df_nona['rownum'], df_nona[indexs]) data_1_predict[indexs] = f(data_1_predict['rownum']) data_1_predict = data_1_predict.drop(columns=['rownum']) ``` 5. 最后将处理好的数据写入 excel 文件： ``` writer = pd.ExcelWriter('./data/附件1 监测点A空气质量预报基础数据_preprocessed.xlsx') data_1_predict.to_excel(writer, sheet_name='1小时预测数据', index=False) data_1_predict_knn.to_excel(writer, sheet_name='1小时预测数据_knn', index=False) data_1_actual.to_excel(writer, sheet_name='1天实际数据', index=False) data_1_actual_knn.to_excel(writer, sheet_name='1天实际数据_knn', index=False) writer.save() ``` 总体来说，这段代码主要是对空气质量预报基础数据进行了一些预处理和插值，最终将处理好的数据写入了 excel 文件中。

阅读全文

相关推荐

掌握Pandas to_dict全解析：高效数据转换指南

pandas.read_csv参数全面解读与实用示例

Numpy及Pandas_numpy_pandas_dataframe_python_

python数据分析与可视化 import pandas as pd import numpy as np import m

import pandas as pd import numpy as np import os from sklearn.datasets import load_breast_cancer cancer_data = load_breast_cancer() cancer_data.head()

import numpy as np import pandas as pd from scipy.stats import kstest #from sklearn import preprocessing # get a column from dataframe def select_data(data, ny): yName = data.columns[ny] Y = data[yName] return Y # see which feature is normally dis请一行一行的解释代码

解释代码：import numpy as np import pandas as pd from pandas import DataFreme

import pandas as pd.docx

pd_split_train_test.rar_pandas_pandas对数据分类_pd.split_split_数据分类

import numpy as np_SPI干旱识别_spi_SPI6_matlabimportnumpy_测试_源码.zip

pandas_dataframe入门教程

matlab最简单的代码-matlab_formatted_data_into_pandas:matlab_formatted_data_in

data_gener_import.py.tar.gz_data-import_数据模拟

pandas_djmodel:从Pandas DataFrame生成Django模型定义

pandas_dataset:Pandas DataFrame扩展可分析数据集以进行分类

1_Mars_numpy与pandas的并行和分布式加速器_秦续业1

最新推荐

毕设和企业适用springboot企业数据管理平台类及跨境电商管理平台源码+论文+视频.zip

基于net的超市管理系统源代码（完整前后端+sqlserver+说明文档+LW）.zip

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案

python编写一个程序，使得根据输入的起点和终点坐标值计算出坐标方位角