Python时间序列分析实战与pandas应用

37 浏览量更新于2023-05-10 2 收藏 515KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Python作为一种强大的编程语言，被广泛应用于各种数据分析领域，其中时间序列分析是其中一个重要分支。本篇文章详细介绍了如何利用Python进行时间序列分析，对于学习者和专业人士来说具有很高的实用价值。首先，时间序列是指在特定时间间隔内收集的一系列有序数据点，每个数据点都与其对应的时刻紧密相连。时间序列分析的核心目标是通过对历史数据的理解和模式识别，预测未来的趋势或行为。值得注意的是，尽管时间序列可能包含时间因素，但这里的重点在于序列内部的变化规律，而非外在影响因素。 Python在时间序列分析中的优势主要体现在其丰富的库支持上。statsmodels库中的tsa模块提供了基础的ARMA（自回归移动平均模型）模型，这是一种常见的时间序列模型，由自回归部分（AR，描述过去值对未来的影响）和移动平均部分（MA，描述随机误差的均值移动）组成。ARIMA模型（自回归整合滑动平均模型）是对ARMA模型的一种扩展，通常涉及差分操作，用于处理非平稳序列。文章中特别提到了pandas库，这是一个Python的数据分析工具，以其易用性和灵活性而闻名。pandas在时间序列分析中的表现尤其出色，它提供了方便的数据结构如DataFrame，可以轻松处理和操作时间序列数据。例如，用户可以使用pandas读取航空乘客数据（如AirPassengers数据集），并进行数据清洗、预处理和可视化。为了进行时间序列分析，作者推荐使用Anaconda这个集成开发环境，它包含了众多科学计算所需的包，如statsmodels，安装过程相对简便。同时，建议选择statsmodels的0.6稳定版，因为它提供了一些预先编译好的功能，避免了对底层代码的修改。利用Python进行时间序列分析不仅是因为个人偏好，更是因为Python库的强大功能和灵活性。无论是初学者还是经验丰富的分析师，都可以借助这些工具进行深入研究，发现数据背后的规律，并据此做出预测。通过本文提供的实例和代码，读者能够掌握如何在Python环境中有效地进行时间序列分析，提升数据分析能力。

资源详情

资源推荐

rol_sum = ts_log.rolling(window=11).sum()

rol_recover = diff_recover*12 - rol_sum.shift(1)

# 对数还原

log_recover = np.exp(rol_recover)

log_recover.dropna(inplace=True)

我们使用均方根误差（RMSE）来评估模型样本内拟合的好坏。利用该准则进行判别时，需要剔除“非预测”数据的影响。

ts = ts[log_recover.index] # 过滤没有预测的记录plt.figure(facecolor='white')

log_recover.plot(color='blue', label='Predict')

ts.plot(color='red', label='Original')

plt.legend(loc='best')

plt.title('RMSE: %.4f'% np.sqrt(sum((log_recover-ts)**2)/ts.size))

plt.show()

观察上图的拟合效果，均方根误差为11.8828，感觉还过得去。

6.完善完善ARIMA模型模型

前面提到statsmodels里面的ARIMA模块不支持高阶差分，我们的做法是将差分分离出来，但是这样会多了一步人工还原的操作。基于上述问题，我将差分过程进行了封装，使序列能按照指定的差分列表

依次进行差分，并相应的构造了一个还原的方法，实现差分序列的自动还原。

# 差分操作

def diff_ts(ts, d):

global shift_ts_list

# 动态预测第二日的值时所需要的差分序列

global last_data_shift_list

shift_ts_list = []

last_data_shift_list = []

tmp_ts = ts

for i in d:

last_data_shift_list.append(tmp_ts[-i])

print last_data_shift_list

shift_ts = tmp_ts.shift(i)

shift_ts_list.append(shift_ts)

tmp_ts = tmp_ts - shift_ts

tmp_ts.dropna(inplace=True)

return tmp_ts

# 还原操作

def predict_diff_recover(predict_value, d):

if isinstance(predict_value, float):

tmp_data = predict_value

for i in range(len(d)):

tmp_data = tmp_data + last_data_shift_list[-i-1]

elif isinstance(predict_value, np.ndarray):

tmp_data = predict_value[0]

for i in range(len(d)):

tmp_data = tmp_data + last_data_shift_list[-i-1]

else:

tmp_data = predict_value

for i in range(len(d)):

try:

tmp_data = tmp_data.add(shift_ts_list[-i-1])

except:

raise ValueError('What you input is not pd.Series type!')

tmp_data.dropna(inplace=True)

return tmp_data

现在我们直接使用差分的方法进行数据处理，并以同样的过程进行数据预测与还原。

diffed_ts = diff_ts(ts_log, d=[12, 1])

model = arima_model(diffed_ts)

model.certain_model(1, 1)

predict_ts = model.properModel.predict()

diff_recover_ts = predict_diff_recover(predict_ts, d=[12, 1])

log_recover = np.exp(diff_recover_ts)

是不是发现这里的预测结果和上一篇的使用12阶移动平均的预测结果一模一样。这是因为12阶移动平均加上一阶差分与直接12阶差分是等价的关系，后者是前者数值的12倍，这个应该不难推导。

对于个数不多的时序数据，我们可以通过观察自相关图和偏相关图来进行模型识别，倘若我们要分析的时序数据量较多，例如要预测每只股票的走势，我们就不可能逐个去调参了。这时我们可以依据

BIC准则识别模型的p, q值，通常认为BIC值越小的模型相对更优。这里我简单介绍一下BIC准则，它综合考虑了残差大小和自变量的个数，残差越小BIC值越小，自变量个数越多BIC值越大。个人觉得

BIC准则就是对模型过拟合设定了一个标准（过拟合这东西应该以辩证的眼光看待）。

剩余21页未读，继续阅读

weixin_38734008

粉丝: 12
资源: 916

会员权益专享

Python时间序列分析实战与pandas应用

时间序列预测讲义（ARIMA&LSTM;）及python代码

运用python实现2019-nCoV疫情确诊数据拟合与预测

时间序列小波分析详细步骤

利用Python进行时间序列数据的可视化分析

利用Python进行时间序列的事件检测

利用Python进行时间序列的傅里叶变换

使用Python进行时间序列数据分析

使用Python进行时间序列分析的实际案例

基于python的时间序列分析 pdf

基于Python的时间序列分析选题意义

基于python的时间序列分析

python3时间序列分析

python金融时间序列分析

python做时间序列分析

python股票时间序列分析

python平稳时间序列分析

python 时间序列分析

python时间序列分析案例

python时间序列分析股票分析

Python 金融时间序列分析 ARIMA 模型

会员权益专享

最新资源