连续时间MDP模型优化：提升生产系统维护效率与效益

96 浏览量更新于2024-08-31 1 收藏 398KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

基于连续时间基于连续时间MDP模型和随机决策的维护周期模型和随机决策的维护周期

生产系统的维护策略直接关系到设备的使用寿命，对生产线的连续性和可靠性，以及产品质量、生产效率、满

足率等方面都有影响。利用连续时间的MDP模型研究单台设备的维护策略，综合考虑转移概率的动态性和方案

选择的随机性，利用MATLAB软件实现优化，获得最佳维护周期。将其应用于混联结构，与基于离散空间的

MDP维护策略进行比较。结果显示，基于连续时间MDP模型的维护策略能够有效提高生产系统性能，降低成

本，提高生产效益。

0 引言引言

近年来，随着科学技术的迅速发展，各生产系统的结构日益复杂化，各种高精度、集成化设备广泛应用于生产线。企业间

的竞争越来越激烈，生产系统的复杂性、随机性使得生产线的维护难度不断提升，维护成本和强度随之加大，合理的

目前国内外关于生产线维护策略的研究成果很多，主要分为基于状态的维护和基于时间的维护两种形式

[1]

。基于状态的维护

是在设备检测技术迅速发展的基础上实现的，通过检测设备的状态来判断其出现故障的概率，确定实施方案，使损失降到最

低。传统的基于时间的维护多采用固定维修周期，这样的方式操作简单，维护人员和备件都可以做事先安排。随着神经网络与

模糊系统理论与技术的发展，基于神经网络与模糊逻辑的自适应控制系统得到了广泛应用

[2-5]

。徐昕等人

[6]

对基于MDP动态系

统学习控制理论、算法与应用的发展前景进行综述。起初研究人员用离散的Markov链描述设备维护调度模型，之后，Gharbi

等人提出用连续Markov链描述设备寿命的维护结构，通过控制设备生产率和预维修率使目标函数达到最优化

[7]

。Jin 等人

[8]

利

用马尔可夫决策过程描述设备维修或替换等维护活动的概率转移函数，得到一个生产系统的预防性维护优化模型。陈静静提出

利用MDP模型同时考虑劣化故障和随机故障两种故障类型，制定针对单台设备工作排序、清洗和维修的长期维护优化策

略

[9]

。以上关于MDP模型的应用多采用固定式转移概率，在一定程度上反映了状态的变化过程。根据生产实际可以考虑采用

动态的转移概率反映不同状态下的状态转移情况。

本文将利用

1 连续时间的连续时间的MDP模型模型

作为描述动态随机系统优化决策问题的一类基本数学模型，MDP模型通常用四元组{S，A，P，R}表示，其中S为状态空

间，A为行为空间，P为转移概率（满足无后效性），R为回报函数，在一定意义上可以理解为目标函数。

定义行为策略π表示从状态集合S到行为选择概率的映射，即π：S→P(a)。

1.1 离散空间的离散空间的MDP

1.2 连续时间的连续时间的MDP

其中，r为回报函数，对于其积分即为目标函数。需要寻找最佳π使V

(x)达到最优解。

实际生产系统中设备工作环境复杂，设备的自身工作状态、运转环境、已维护次数等信息直接关系生产线的效益，合理的

维护策略和预先安排能够有效降低因突发事件带来的巨大损失。MDP模型能够形象地模拟不同维护策略对设备状态的影响。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38735544

粉丝: 1
资源: 944

连续时间MDP模型优化：提升生产系统维护效率与效益

基于模型加固的离网微网终身控制学习

MDP和强化学习有什么区别

如何在matlab的Reinforcement Learning Toolbox中创建MDP模型并训练

如何使用MDP模型对车辆驾驶意图进行识别

用Qlearning的方式求解MDP模型是什么意思

详细解释一下MDP模型中的状态转移概率

用Qlearning的方式求解MDP模型是基于模型的强化学习吗

如何建立一个MDP模型

MDP模型在matlab中如何实现

序贯决策和动态决策的区别

用Qlearning的方式求解MDP模型

我需要使用MDP模型对车辆驾驶意图进行识别的代码

MDP和POMDP关系

马尔可夫决策过程模型五元组计算过程和原理

软件缺陷预测数据集如何使用mdp

动态规划与马尔科夫决策过程

随机过程 题型 csdn

马尔可夫决策过程（Markov Decision Process，MDP）

ACAX 中为什么用MDP算法

MDP Tile config

最新资源

随机过程题型 csdn