基于连续时间基于连续时间MDP模型和随机决策的维护周期模型和随机决策的维护周期
生产系统的维护策略直接关系到设备的使用寿命,对生产线的连续性和可靠性,以及产品质量、生产效率、满
足率等方面都有影响。利用连续时间的MDP模型研究单台设备的维护策略,综合考虑转移概率的动态性和方案
选择的随机性,利用MATLAB软件实现优化,获得最佳维护周期。将其应用于混联结构,与基于离散空间的
MDP维护策略进行比较。结果显示,基于连续时间MDP模型的维护策略能够有效提高生产系统性能,降低成
本,提高生产效益。
0 引言引言
近年来,随着科学技术的迅速发展,各生产系统的结构日益复杂化,各种高精度、集成化设备广泛应用于生产线。企业间
的竞争越来越激烈,生产系统的复杂性、随机性使得生产线的维护难度不断提升,维护成本和强度随之加大,合理的
目前国内外关于生产线维护策略的研究成果很多,主要分为基于状态的维护和基于时间的维护两种形式
[1]
。基于状态的维护
是在设备检测技术迅速发展的基础上实现的,通过检测设备的状态来判断其出现故障的概率,确定实施方案,使损失降到最
低。传统的基于时间的维护多采用固定维修周期,这样的方式操作简单,维护人员和备件都可以做事先安排。随着神经网络与
模糊系统理论与技术的发展,基于神经网络与模糊逻辑的自适应控制系统得到了广泛应用
[2-5]
。徐昕等人
[6]
对基于MDP动态系
统学习控制理论、算法与应用的发展前景进行综述。起初研究人员用离散的Markov链描述设备维护调度模型,之后,Gharbi
等人提出用连续Markov链描述设备寿命的维护结构,通过控制设备生产率和预维修率使目标函数达到最优化
[7]
。Jin 等人
[8]
利
用马尔可夫决策过程描述设备维修或替换等维护活动的概率转移函数,得到一个生产系统的预防性维护优化模型。陈静静提出
利用MDP模型同时考虑劣化故障和随机故障两种故障类型,制定针对单台设备工作排序、清洗和维修的长期维护优化策
略
[9]
。以上关于MDP模型的应用多采用固定式转移概率,在一定程度上反映了状态的变化过程。根据生产实际可以考虑采用
动态的转移概率反映不同状态下的状态转移情况。
本文将利用
1 连续时间的连续时间的MDP模型模型
作为描述动态随机系统优化决策问题的一类基本数学模型,MDP模型通常用四元组{S,A,P,R}表示,其中S为状态空
间,A为行为空间,P为转移概率(满足无后效性),R为回报函数,在一定意义上可以理解为目标函数。
定义行为策略π表示从状态集合S到行为选择概率的映射,即π:S→P(a)。
1.1 离散空间的离散空间的MDP
1.2 连续时间的连续时间的MDP
其中,r为回报函数,对于其积分即为目标函数。需要寻找最佳π使V
π
(x)达到最优解。
实际生产系统中设备工作环境复杂,设备的自身工作状态、运转环境、已维护次数等信息直接关系生产线的效益,合理的
维护策略和预先安排能够有效降低因突发事件带来的巨大损失。MDP模型能够形象地模拟不同维护策略对设备状态的影响。