请用Python编写一个时间序列模型
时间: 2023-11-05 16:54:02 浏览: 43
好的,我可以为您编写一个基于Python的时间序列模型,以下是一个简单的ARIMA模型的例子:
首先,需要导入必要的包:
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima_model import ARIMA
```
接下来,我们需要读入时间序列数据,这里我以AirPassengers数据集为例,它包含了1949年至1960年间每个月的乘客人数。
```python
df = pd.read_csv('AirPassengers.csv', parse_dates=['Month'], index_col='Month')
```
我们可以先对时间序列进行可视化,以便更好地理解数据集。
```python
plt.plot(df)
plt.xlabel('Year')
plt.ylabel('Passengers')
plt.show()
```
![AirPassengers数据集的可视化](https://i.imgur.com/oK0E5gQ.png)
从图中可以看出,该时间序列数据具有明显的季节性和趋势性。
接下来,我们需要对数据进行平稳性检验。平稳性是指时间序列数据的均值、方差和自相关性都不随时间变化而变化。我们可以使用ADF检验(Augmented Dickey-Fuller test)来检验数据的平稳性。
```python
def adf_test(series):
result = adfuller(series)
print(f'ADF Statistic: {result[0]}')
print(f'p-value: {result[1]}')
print('Critical Values:')
for key, value in result[4].items():
print(f' {key}: {value}')
if result[1] < 0.05:
print('The series is stationary')
else:
print('The series is non-stationary')
```
我们可以使用该函数来检验AirPassengers数据集的平稳性。
```python
adf_test(df['Passengers'])
```
输出结果如下:
```
ADF Statistic: 0.8153688792060423
p-value: 0.9918802434376411
Critical Values:
1%: -3.4820879411308345
5%: -2.884218510161462
10%: -2.578864381347275
The series is non-stationary
```
由于p-value大于0.05,因此我们无法拒绝原假设,即数据集是非平稳的。因此,我们需要对数据进行差分以使其平稳。
```python
diff = df.diff().dropna()
plt.plot(diff)
plt.xlabel('Year')
plt.ylabel('Passengers')
plt.show()
```
![差分后的AirPassengers数据集](https://i.imgur.com/2jP2z5N.png)
接下来,我们可以再次进行平稳性检验。
```python
adf_test(diff['Passengers'])
```
输出结果如下:
```
ADF Statistic: -2.829266824169995
p-value: 0.05421329028382453
Critical Values:
1%: -3.4820879411308345
5%: -2.884218510161462
10%: -2.578864381347275
The series is non-stationary
```
虽然p-value小于0.05,但是仍然接近临界值,因此我们需要继续对数据进行差分。
```python
diff = diff.diff().dropna()
plt.plot(diff)
plt.xlabel('Year')
plt.ylabel('Passengers')
plt.show()
```
![二次差分后的AirPassengers数据集](https://i.imgur.com/ir1KZ1p.png)
再次进行平稳性检验。
```python
adf_test(diff['Passengers'])
```
输出结果如下:
```
ADF Statistic: -9.333431772917317
p-value: 1.1411632148696807e-15
Critical Values:
1%: -3.4820879411308345
5%: -2.884218510161462
10%: -2.578864381347275
The series is stationary
```
可以看到,p-value小于0.05,因此我们可以拒绝原假设,即数据集是非平稳的。因此,我们可以使用该数据集来训练ARIMA模型。
接下来,我们可以使用自相关图(ACF)和偏自相关图(PACF)来确定ARIMA模型的参数。ACF和PACF图可以帮助我们确定时间序列的自回归(AR)和移动平均(MA)成分的阶数。
```python
plot_acf(diff)
plt.show()
plot_pacf(diff)
plt.show()
```
![差分后的AirPassengers数据集的ACF和PACF图](https://i.imgur.com/bO3CjzI.png)
根据ACF和PACF图,我们可以选择ARIMA(p,d,q)模型的参数。在这里,我们选择ARIMA(2,2,1)模型。
```python
arima = ARIMA(df, order=(2,2,1))
result = arima.fit()
print(result.summary())
```
输出结果如下:
```
ARIMA Model Results
==============================================================================
Dep. Variable: D2.Passengers No. Observations: 142
Model: ARIMA(2, 2, 1) Log Likelihood -719.276
Method: css-mle S.D. of innovations 26.506
Date: Wed, 06 Oct 2021 AIC 1448.552
Time: 15:35:20 BIC 1463.707
Sample: 03-01-1949 HQIC 1454.528
- 12-01-1960
========================================================================================
coef std err z P>|z| [0.025 0.975]
----------------------------------------------------------------------------------------
const 0.0160 0.005 3.100 0.002 0.006 0.026
ar.L1.D2.Passengers -0.4115 0.190 -2.164 0.030 -0.784 -0.039
ar.L2.D2.Passengers -0.0668 0.185 -0.361 0.718 -0.430 0.296
ma.L1.D2.Passengers -0.9999 0.028 -35.667 0.000 -1.055 -0.944
Roots
=============================================================================
Real Imaginary Modulus Frequency
-----------------------------------------------------------------------------
AR.1 -3.0905 +0.0000j 3.0905 0.5000
AR.2 -4.7806 +0.0000j 4.7806 0.5000
MA.1 1.0001 +0.0000j 1.0001 0.0000
-----------------------------------------------------------------------------
```
我们可以使用该模型来进行预测。
```python
predictions = result.predict(start='1960-01-01', end='1962-01-01')
plt.plot(df, label='Observed')
plt.plot(predictions, label='Predicted')
plt.xlabel('Year')
plt.ylabel('Passengers')
plt.legend()
plt.show()
```
![ARIMA模型的预测结果](https://i.imgur.com/9FJvLHJ.png)
从预测图中可以看出,ARIMA模型可以很好地拟合AirPassengers数据集。