df.resample('D', on='timestamp').sum()返回值

`df.resample('D', on='timestamp').sum()`会返回一个新的DataFrame对象，其中每一行对应于一个日期，列是原始DataFrame中被聚合的列的汇总值。具体而言，对于每个聚合列，`sum()`函数对于每个日期计算它们的总和。例如，如果原始DataFrame中有一个名为"sales"的列，那么聚合后的DataFrame中的"sales"列将包含每个日期的总销售额。下面是一个示例，假设我们有一个名为 `df` 的DataFrame对象，其中包含一个名为"timestamp"的时间列和一个名为"sales"的销售额列，我们可以使用 `resample()` 函数按日重采样，并对"sales"列进行求和，代码如下： ``` import pandas as pd df['timestamp'] = pd.to_datetime(df['timestamp']) daily_sales = df.resample('D', on='timestamp').sum() ``` 此时，`daily_sales` 将是按日进行重采样后的DataFrame对象，其中每一行对应于每个日期，"sales"列包含该日期的总销售额。

data2 = xr.open_dataset(file_path)[target_var].loc['1962-01-01':'2014-12-12', :, :] data = data2.loc[data2.time.dt.month.isin([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])].resample(time='Y').mean(dim='time').values#.mean(dim=['time']).values data1 = data.flatten() # print(data1.shape) model[i] = data1 # print(model[i].shape) data_spring = data2.loc[data2.time.dt.month.isin([3, 4, 5])].resample(time='Y').mean(dim='time').values#.mean(dim=['time']).values data1_spring = data_spring.flatten() print(model_spring[i].shape) print(data1_spring.shape) model_spring[i] = data1_spring data_summer = data2.loc[data2.time.dt.month.isin([6, 7, 8])].resample(time='Y').mean(dim='time').values#.mean(dim=['time']).values data1_summer = data_summer.flatten() model_summer[i] = data1_summer data_autumn = data2.loc[data2.time.dt.month.isin([9, 10, 11])].resample(time='Y').mean(dim='time').values#.mean(dim=['time']).values data1_autumn = data_autumn.flatten() model_autumn[i] = data1_autumn data_winter = data2.loc[data2.time.dt.month.isin([12, 1, 2])].resample(time='Y').mean(dim='time').values#.mean(dim=['time']).values data1_winter = data_winter.flatten() model_winter[i] = data1_winter i = i + 1这样读取速度太慢了，可不可以帮我优化一下

可以考虑以下优化： 1. 读取数据时可以使用延迟加载的方式，即设置 `chunks` 参数，将数据分块读取，可以减少一次性加载数据占用的内存和读取时间。 2. 通过向量化操作，直接将 `data1_spring`, `data1_summer`, `data1_autumn`, `data1_winter` 合并成一个二维数组，然后使用切片操作将其赋值给 `model_spring`, `model_summer`, `model_autumn`, `model_winter`，这样可以减少循环赋值的时间。下面是优化后的代码： ``` data2 = xr.open_dataset(file_path)[target_var].loc['1962-01-01':'2014-12-12', :, :] data = data2.loc[data2.time.dt.month.isin([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])].resample(time='Y').mean(dim='time').chunk({'latitude': 50, 'longitude': 50, 'time': -1}) data_spring = data2.loc[data2.time.dt.month.isin([3, 4, 5])].resample(time='Y').mean(dim='time').chunk({'latitude': 50, 'longitude': 50, 'time': -1}) data_summer = data2.loc[data2.time.dt.month.isin([6, 7, 8])].resample(time='Y').mean(dim='time').chunk({'latitude': 50, 'longitude': 50, 'time': -1}) data_autumn = data2.loc[data2.time.dt.month.isin([9, 10, 11])].resample(time='Y').mean(dim='time').chunk({'latitude': 50, 'longitude': 50, 'time': -1}) data_winter = data2.loc[data2.time.dt.month.isin([12, 1, 2])].resample(time='Y').mean(dim='time').chunk({'latitude': 50, 'longitude': 50, 'time': -1}) model = np.zeros((len(files), data.size), dtype='float32') model_spring = np.zeros((len(files), data_spring.size), dtype='float32') model_summer = np.zeros((len(files), data_summer.size), dtype='float32') model_autumn = np.zeros((len(files), data_autumn.size), dtype='float32') model_winter = np.zeros((len(files), data_winter.size), dtype='float32') i = 0 for d, s, su, a, w in zip(data, data_spring, data_summer, data_autumn, data_winter): data1 = d.values.flatten() data1_spring = s.values.flatten() data1_summer = su.values.flatten() data1_autumn = a.values.flatten() data1_winter = w.values.flatten() model[i] = data1 model_spring[i:i+len(data1_spring)] = data1_spring.reshape(-1, data_spring.shape[1]) model_summer[i:i+len(data1_summer)] = data1_summer.reshape(-1, data_summer.shape[1]) model_autumn[i:i+len(data1_autumn)] = data1_autumn.reshape(-1, data_autumn.shape[1]) model_winter[i:i+len(data1_winter)] = data1_winter.reshape(-1, data_winter.shape[1]) i += 1 ```

df.resample

`df.resample()` 是 Pandas 中用于重采样时间序列数据的方法。它可以根据指定的频率对时间序列数据进行重新采样，例如将高频率数据转换为低频率数据（降采样）或将低频率数据转换为高频率数据（升采样）。 `df.resample()` 的基本语法如下： ```python df.resample(rule, [options]) ``` 其中，`df` 是一个 Pandas DataFrame 对象，`rule` 是重采样的规则，用于指定重采样的频率。可以使用一些字符串别名（如 'D' 表示每日，'M' 表示每月）或 Pandas 的 Offset 对象来表示频率。可选的 `[options]` 参数用于指定其他的重采样选项，例如如何处理缺失值或边界值。重采样后，可以使用一些聚合函数（如 `mean()`、 `sum()`、 `first()`、 `last()` 等）对每个重采样时间窗口中的数据进行汇总计算。以下是一个示例，展示如何使用 `df.resample()` 对每日股票收盘价数据进行降采样到每月，并计算每月的平均收盘价： ```python import pandas as pd # 创建示例 DataFrame df = pd.DataFrame({ '日期': pd.date_range(start='2021-01-01', end='2021-12-31', freq='D'), '收盘价': range(365) }) # 将 '日期' 列设置为索引 df.set_index('日期', inplace=True) # 降采样到每月，并计算每月的平均收盘价 monthly_avg_close = df['收盘价'].resample('M').mean() print(monthly_avg_close) ``` 希望以上内容能够帮助到你！如有其他问题，请随时提问。

df.resample('D', on='timestamp').sum()返回值

df.resample

相关推荐

librosa.core.resample — librosa 0.7.2 documentation.pdf

resample.zip_resample

Guitar.rar_matlab resample_resample

df.resample( period ) 不需要求和

month_df1 = data.resample(rule='M', label='right').count()是什么意思

python 用df.resample后，会添加时间数据

python 用df.resample后，有的列会丢掉

df_daily=df.resample('D').apply(list)

df.resample报错 说index不能用float64

df.resample()里的参数有哪些

python 用df.resample后，字符串的列丢掉了

python 用df.resample会补充时间数据，禁止补充

python 用df.resample 没有fill_method这个参数

python 用df.resample( period).ffill()显示的结果，jupyter中并没有填充

T.RandomRotation(degrees=10, resample=Image.BICUBIC, expand=False, center=(0.5*self.imside, 0.0)),

最新推荐

基于嵌入式ARMLinux的播放器的设计与实现 word格式.doc

管理建模和仿真的文件

Python字符串为空判断的动手实践：通过示例掌握技巧

box-sizing: border-box;作用是？

经典：大学答辩通过_基于ARM微处理器的嵌入式指纹识别系统设计.pdf

"互动学习：行动中的多样性与论文攻读经历"

Python字符串为空判断的常见问题解答：解决常见疑惑

c++ 中 static的作用

嵌入式系统课程设计.doc

关系数据表示学习

df.resample报错说index不能用float64