sales = list(np.diff(data["#Passengers"])) data2 = { "Month":data1.index[1:], #1月1日是空值,从1月2号开始取 "#Passengers":sales } df = pd.DataFrame(data2) df['Month'] = pd.to_datetime(df['Month']) #df[''date]数据类型为“object”,通过pd.to_datetime将该列数据转换为时间类型,即datetime。 data_diff = df.set_index(['Month'], drop=True) #将日期设置为索引 data_diff.head() print(data_diff) fig = plt.figure(figsize=(12,8)) ax1=fig.add_subplot(211) fig = sm.graphics.tsa.plot_acf(data_diff,lags=20,ax=ax1) ax2 = fig.add_subplot(212) fig = sm.graphics.tsa.plot_pacf(data_diff,lags=20,ax=ax2) plt.show() # 为了控制计算量,我们限制AR最大阶不超过6,MA最大阶不超过4。 sm.tsa.arma_order_select_ic(data_diff,max_ar=100,max_ma=4,ic='aic')['aic_min_order'] # AIC ''' #对模型进行定阶 pmax = int(len(df) / 10) #一般阶数不超过 length /10 qmax = int(len(df) / 10) bic_matrix = [] for p in range(pmax +1): temp= [] for q in range(qmax+1): try: temp.append(ARIMA(data, (p, 1, q)).fit().bic) except: temp.append(None) bic_matrix.append(temp) bic_matrix = pd.DataFrame(bic_matrix) #将其转换成Dataframe 数据结构 p,q = bic_matrix.stack().idxmin() #先使用stack 展平, 然后使用 idxmin 找出最小值的位置 print(u'BIC 最小的p值 和 q 值:%s,%s' %(p,q)) # BIC 最小的p值 和 q 值:0,1 #所以可以建立ARIMA 模型,ARIMA(0,1,1) ''' model = ARIMA(data, (0,1,1)).fit() #model.summary2() predictions_ARIMA_diff = pd.Series(model.fittedvalues, copy=True) print("========") print(predictions_ARIMA_diff.head()) exit() plt.figure(figsize=(10, 6)) plt.plot(predictions_ARIMA_diff,label="forecast_diff") plt.plot(data_diff,label="diff") plt.xlabel('日期',fontsize=12,verticalalignment='top') plt.ylabel('销量差分',fontsize=14,horizontalalignment='center') plt.legend() plt.show()
时间: 2024-04-14 22:30:45 浏览: 16
这段代码首先计算了原始数据的一阶差分,并将差分后的销量数据存储在一个名为"sales"的列表中。然后,根据差分后的销量数据创建了一个新的DataFrame,并将日期列转换为Datetime格式。接下来,将日期列设置为索引,并打印出数据的前几行。
然后,代码绘制了差分后销量数据的自相关性(ACF)和偏自相关性(PACF)图。图形显示了滞后项与自相关系数/偏自相关系数之间的关系。
接下来,代码使用ARMA模型的AIC准则进行了模型定阶。限制了AR最大阶不超过6,MA最大阶不超过4。
然后,代码建立了ARIMA(0,1,1)模型,并使用该模型对差分后的数据进行了拟合。拟合后得到的值存储在predictions_ARIMA_diff中,并打印出前几行。
最后,代码绘制了拟合值和差分后数据的图形,并使用exit()函数退出程序。
相关问题
dataframe = pd.read_csv('./international-airline-passengers.csv', usecols=[1], engine='python', skipfooter=3) dataset = dataframe.values # 将整型变为float dataset = dataset.astype('float32') #归一化 在下一步会讲解 scaler = MinMaxScaler(feature_range=(0, 1)) dataset = scaler.fit_transform(dataset) train_size = int(len(dataset) * 0.65) trainlist = dataset[:train_size] testlist = dataset[train_size:]
根据您的代码,您正在处理一个名为 'international-airline-passengers.csv' 的数据集。首先,您使用 pandas 库中的 `read_csv` 函数读取了该文件,并指定了 `usecols` 参数来选择要使用的列(在这里,选取了第二列)。您还使用了 `engine='python'` 参数来指定使用 Python 解析引擎。最后,您使用了 `skipfooter` 参数来跳过文件末尾的三行。
接下来,您将读取的数据集赋值给了一个名为 `dataset` 的变量,并将其转换为 `float32` 类型。这是因为在机器学习中,通常需要将数据转换为浮点数类型进行处理。
接下来,您使用了 `MinMaxScaler` 类从 `sklearn.preprocessing` 模块中实例化了一个归一化器对象 `scaler`,并调用了它的 `fit_transform` 方法对数据集进行归一化处理。归一化是一种常见的数据预处理技术,用于将数据缩放到特定的范围内(在这里是 0 到 1)。
然后,您定义了一个变量 `train_size`,用于指定训练集的大小。在这里,您将训练集的大小设置为整个数据集的 65%。
最后,您将数据集划分为训练集和测试集,并将它们分别赋值给了 `trainlist` 和 `testlist` 变量。
希望这能帮助您理解代码的功能。如果您有任何其他问题,请随时提问。
import deap import random from deap import base, creator, tools, algorithms import numpy as np import pandas as pd # 参数 stations = 30 start_end_stations = [1, 2, 5, 8, 10, 14, 17, 18, 21, 22, 25, 26, 27, 30] min_interval = 108 min_stopping_time = 20 max_stopping_time = 120 passengers_per_train = 1860 min_small_loop_stations = 3 max_small_loop_stations = 24 average_boarding_time = 0.04 # 使用 ExcelFile ,通过将 xls 或者 xlsx 路径传入,生成一个实例 stations_kilo1 = pd.read_excel(r'D:\桌面\附件2:区间运行时间(1).xlsx', sheet_name="Sheet1") stations_kilo2 = pd.read_excel(r'D:\桌面\附件3:OD客流数据(1).xlsx', sheet_name="Sheet1") stations_kilo3 = pd.read_excel(r'D:\桌面\附件4:断面客流数据.xlsx', sheet_name="Sheet1") print(stations_kilo1) print(stations_kilo2) print(stations_kilo3) # 适应度函数 def fitness_function(individual): big_loop_trains, small_loop_trains, small_loop_start, small_loop_end = individual small_loop_length = small_loop_end - small_loop_start if small_loop_length < min_small_loop_stations or small_loop_length > max_small_loop_stations: return 1e9, cost = (big_loop_trains + small_loop_trains) * (stations - 1) * min_interval + average_boarding_time * passengers_per_train * (big_loop_trains + small_loop_trains) return cost, # 创建适应度和个体类 creator.create("FitnessMin", base.Fitness, weights=(-1.0,)) creator.create("Individual", list, fitness=creator.FitnessMin) # 注册初始化函数 toolbox = base.Toolbox() toolbox.register("big_loop_trains", random.randint, 1, 10) toolbox.register("small_loop_trains", random.randint, 1, 10) toolbox.register("small_loop_start", random.choice, start_end_stations) toolbox.register("small_loop_end", random.choice, start_end_stations) toolbox.register("individual", tools.initCycle, creator.Individual, (toolbox.big_loop_trains, toolbox.small_loop_trains, toolbox.small_loop_start, toolbox.small_loop_end), n=1) toolbox.register("population", tools.initRepeat, list, toolbox.individual) # 注册遗传算法操作 toolbox.register("mate", tools.cxTwoPoint) toolbox.register("mutate", tools.mutUniformInt, low=[1, 1, min(start_end_stations), min(start_end_stations)], up=[10, 10, max(start_end_stations), max(start_end_stations)], indpb=0.5) toolbox.register("select", tools.selBest) toolbox.register("evaluate", fitness_function) # 设置遗传算法参数 population_size = 100 crossover_probability = 0.8 mutation_probability = 0.2 num_generations = 100 # 初始化种群 population = toolbox.population(n=population_size) # 进化 for gen in range(num_generations): offspring = algorithms.varAnd(population, toolbox, cxpb=crossover_probability, mutpb=mutation_probability) fits = toolbox.map(toolbox.evaluate, offspring) for fit, ind in zip(fits, offspring): ind.fitness.values = fit population = toolbox.select(offspring, k=len(population)) # 找到最佳个体 best_individual = tools.selBest(population, k=1)[0] # 解码最佳个体 big_loop_trains, small_loop_trains, small_loop_start, small_loop_end = best_individual # 输出结果 print("Big Loop Trains:", big_loop_trains) print("Small Loop Trains:", small_loop_trains) print("Small Loop Start Station:", small_loop_start) print("Small Loop End Station:", small_loop_end)分析代码
这段代码是Python中导入了多个第三方库,包括deap、random、numpy和pandas,并使用了它们中的一些函数和类。其中,deap库用于遗传算法和进化计算方面的应用,numpy库用于科学计算和数学运算,pandas库用于数据处理和分析。在这段代码中,creator、tools和algorithms是deap库中的子模块,用于创建遗传算法的初始种群、定义适应度函数和执行遗传算法的演化过程。