基于mdp的诊断策略构建方法-梁雅俊.pdf-得力文库

资源描述

《基于mdp的诊断策略构建方法-梁雅俊.pdf》由会员分享，可在线阅读，更多相关《基于mdp的诊断策略构建方法-梁雅俊.pdf（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2016年 4月第42卷第4期北京航空航天大学学报Journal of Beijing University of Aeronautics and AstronauticsApril 2016V0142 NO4http：bhxbbuaaeducn jbuaabuaaeducnDOI：1013700jbh1001596520150277基于MDP的诊断策略构建方法梁雅俊1，肖明清1+，宋海方1，杨召1，梁鹏2(1空军工程大学航空航天工程学院，西安710038；295503部队，重庆402360)摘要：针对传统方法忽略测试通过的不确定性因素，缺乏长周期寻优机制，难以在复杂测试系统中生成全局最优诊

2、断策略的问题，提出了一种基于马尔可夫决策过程(MDP)的诊断策略构建方法。该方法将故障检测、隔离的过程表述为系统故障状态的马尔可夫过程，通过引入折扣因子与目标权重，构造了综合效用准则函数的无限折扣模型，并利用策略迭代算法求解出全局平稳最优诊断策略。实例表明，该方法充分考虑了测试通过的不确定性，可实现全局平稳策略寻优，能够有效地指导测试系统实现快速故障检测和隔离。关键词：诊断策略；马尔可夫决策过程(MDP)；故障检测；策略迭代算法；策略优化中图分类号：TP206文献标识码：A 文章编号：10015965(2016)040844-07随着高新科技在现代战争中的不断应用，武器装备的结构越来越复杂

3、化、精细化，战时环境及条件的恶劣程度也日益提升，对装备故障检测、诊断工作的效率、灵活性及可靠性也就提出了更高的要求。诊断策略是指结合约束、目标及其他相关要素优化实现系统故障诊断的一种方法o，GJB 2547A中将其定义为“综合考虑规定约定、目标和有关影响因素而确定的用于隔离产品故障的测试步骤或顺序”。诊断策略作为故障检测与诊断嵋。的重要组成部分，对提高测试系统故障检测率、隔离率和诊断效率，减少测试费用，进而提高装备可用度、降低装备全寿命周期费用具有十分重要的意义。作为系统测试与诊断技术中的关键问题，诊断策略优化问题已被证明是一个典型的NPComplete问题1。Pattipati1和Simps

4、on”1等指出诊断策略优化问题是时间与费用的优化问题。诊断策略实际要解决的是序列决策问题：如何确定一组测试序列，以尽可能少的期望时间与费用完成故障隔离，并满足精度要求。国内外学者研究诊断策略优化问题主要采用以下算法：基于信息启发的贪婪搜索算法。71和基于Rollout策略的一步向前回朔算法1，这2种方法简单、快速且计算量小，但只比较了一二步内的费效比，最优性较差p。；基于最少测试费用启发式的与或图搜索(AndOr graph search，AO 4)算法旧1能得到最优性较好的诊断策略，但其计算量大和存储量大，难以用于现场指导复杂系统的故障隔离过程。1；邱静等1提出采用双启发函数的准深度搜索方法

5、，计算量远少于AO+算法，最优性相近，具有很高的实用价值。但上述方法都未考虑实际检测中存在的测试不确定性因素的影响，且在军事装备战时保障等复杂、多干扰的情形下，要求在极限情况下快速可靠地检测出故障，所需诊断策略也应是全局最优、长周期内平稳的。本文在分析测试系统故障检测、隔离过程的基础上，提出了一种基于马尔可夫决策过程收稿日期：2015-05-05；录用日期：2015-09-02；网络出版时间：201512-23 16：33网络出版地址：WWWcnkinetkcmsdetail112625V201512231633001html十通讯作者：Tel：13909285251 Email：xmqing

6、sohucomBl用格式：粱雅俊，肖明清，柬海方，等基于MDP的诊断策略掏建方法eJ北京航空航天大学学报，201642(4)：844850LIANG Y J，XIAO M Q，SONG H F，et a1Diagnostic strategy building method based on MDP(JJournal ofBeijing University ofAeronautics and Astronautics，2016，42一)：844-850(in Chinese)万方数据第4期梁雅俊，等：基于MDP的诊断策略构建方法(Markov Decision Processes，MDP)

7、的诊断策略构建方法：首先，基于MDP理论模型，结合故障诊断原理构建了MDP故障诊断策略模型；兼顾测试费用及信息量效用准则，线性加权求得综合效用准则函数。然后，采用无限折扣效用准则模型，确保长周期内平稳寻优。最后，利用策略迭代算法快速求得最优策略。MDP当前时刻的决策只依赖于当前的状态与行动，与过去的历史无关“；这一特点使得该方法构建的诊断策略为长周期内平稳最优的，是独立于时间顺序的1。工程实例也表明，该方法科学简单，最优性满足工程实际，能够指导测试系统构建出长周期最优诊断策略，尤其适用于测试资源缺失或需要人为选择测试内容等战地复杂情形。1 MDP理论模型MDP的核心要素包括：状态、行动、转移概

8、率及报酬。考虑到实际工程应用中，故障诊断的决策时刻总是离散的，故本文所讨论的MDP都是离散时间的，即离散时间MDP(Discrete Time MarkovDecision Processes，DTMDP)。MDP模型可由以下五元组确定：S，A(i)，P。(a)，r(i，a)，V(i，仃)，i，歹S，aA(i)，7r式中：i，为状态；S为状态空间；A(i)为状态i处的可用行动集合；p。(a)为行动a后的状态转移概率；r(i，a)为状态i时采取行动a的报酬；V(i，7r)为效用准则函数；7r为马尔可夫策略(以下简称马氏策略)，仃=(tO。，加：，训：)(埘。W，tN)，是一组马氏决策埘。构成的序

9、列，有马氏策略空间7；马氏决策埘：SA(i)，决策空间W=SA(i)，W为状态集s到行动集A(i)的映射，表示对每个iS，都有叫(i)形；V(i，仃)为策略丌下的系统期望总报酬：Ny(i，7r)=E。r(i。，。)i。，i。s，N1n=l(1)式中：i。为n时刻的状态；a。为n时刻采取的行动。定义最优函数2|：y(i，仃+)=sup y(i，丌) iS (2)F盯MDP的最终目标是在策略空间口中找出期望的最优策略7r+满足式(2)。马氏策略的最优策略及最优函数的存在性已被证明“。这里不再说明。2 MDP故障诊断原理和策略模型21故障诊断原理故障检测、隔离的基本原理可描述为故障隔离“推理机”1“

10、：f。=，I bu=0，V，Ftj通过，。【F。=，j b。i=1，V，Ftj不通过由式(3)可知，测试ti可将系统故障状态模糊集F成0分为2个故障状态子集F，。(测试项目通过后，系统表征出的故障状态)和Fit(测试项目未通过，系统表征出的故障状态)；且F沁和Fd只与当前的系统故障状态模糊集Fj相关，而与之前、之后的系统故障状态无关，具有典型的马尔可夫性。因此可将故障诊断隔离过程看作一个马尔可夫过程，应用MDP理论解决故障诊断策略寻优问题。式(3)中的6ii可根据系统故障、测试的相关性矩阵Fr=B。=(b。i)(t，m0)来确定，故障树、仿真分析、信息流模型及多信号模型等方法1都获得系统FF

11、矩阵。22基于MDP的故障诊断策略模型设F=，厶，厶(m1)为系统的初始故障状态模糊集，由故障“推理机”可得图1所示的系统故障诊断策略树，所有可能的系统故障状态模糊集依次记为F。，R，则有系统故障状态空间S=F。，F：，F。(k1)；所有检测项目t。，t：，t。(d1)构成测试集r或行动集A(i)，即A(i)=T=t。，t：，t。(n1)。图1 系统故障诊断策略树Fig1 System fault diagnosis strategy tree对任意时刻的系统故障状态模糊集i。=F。Js，都有测试决策叫。：F。一o=t。T来进一步推测系统可能的故障状态，最终将其隔离到子故障或现场可更换单元(L

12、ine Replaceable Unit，LRU)、车间可更换单元(Shop Replaceable Unit，SRU)。在实际测试过程中，由于存在诸多不可控因素的干扰，测试t。只能以一定的统计概率p。检测出故障厶，即为系统故障状态F。一F。的转移概率；则状态F。一F。，的转移概率为P甜=1一P。万方数据846 北京航空航天大学学报 2016年在测试诊断系统组建过程中，测试t。执行后的测试费用及对系统后续故障诊断的影响都是极重要的考虑因素引。因此定义2个即时报酬：测试费用r。(i。，a。)和系统故障状态信息量r。(i。，a。)；测试系统的故障诊断策略7r=w。，w：，w。(n1)，W。为危时刻

13、的测试决策；所有可能的诊断策略构成策略空间刀；根据式(1)，进而有测试系统诊断策略构建效用准则函数V。(F1，7r)、Vi(Fl，仃)综上，可确定基于MDP的测试系统诊断策略模型：S，T,p。(a)，r。(i，a)，r。(i，a)，Vc(i，7r)，y。(i，7r)，iS，aT，仃通过求解该模型，从策略空间口中找到最优策略7r+，使其能对效用准则函数K(F。，7r)、Vi(F，仃)同时满足式(2)，则是生成测试系统最优策略的过程。这是个典型的多目标MDP(MultiObjective Markov Decision Processes，MOMDP)，可运用线性加权方法将其化归为综合效用准则函数

14、，求解出满足综合效用准则的最优策略仃+。23模型求解测试系统诊断策略寻优，期望获得测试周期内的最优决策，即考虑长周期的收敛解，因此选用无限折扣模型。考虑2个准则的期望时间周期相同，只需引入一个折扣因子p(卢越接近于1，则期望周期越长)，结合式(1)可得Vo(F。，仃)一。(i。，o。)+n-,Er。(i。，n。) =【Vi(F。，7r)一。(i。，。)+矿1Ei，。)i。S，a。A (4)式中：测试费用r。(i。，a。)可由历史统计数据获得，并对其取负；ri(i。，a。)可由信息熵求得ri(i。，a。)=j(F。，a。)=一(鬻b崭+焉m P即(Fk川f)(5)其中：P(F。)、P(F。)和P

15、(F。，)为各故障状态模糊集中子故障发生的概率之和。设测试费用与系统信息量的权重值分别为Ol、1一Ot，结合式(4)对2个效用准则函数线性加权，可得综合效用准则函数：(Fl，7r)=理K(FI，仃)+(1一Ot)Vi(F】，7r)=r(F。，。)+矿1E(r(i。，口川)a。a，7r (6)式中：r(i。，a。)=olr。(i。，a。)+(1一d)r，(i。，a。)。由于测试费用已取负值，能获得的系统信息量越大越好，则有综合效用准则函数期望越大越好。则有最优值方程y(F。，仃)=(F1)-arg ma。xV，o(F1，仃) (7)通过求解式(6)，求得使最优函数最小的各测试决策，进而得到最优策

16、略。策略迭代算法是一种求解无限折扣模型MDP的高效、快速算法，可求解有限状态空间与行动空间集合的MDP，符合工程实际。策略迭代算法求解出最优策略仃+的具体计算步骤1如下：1)任取7r。2)求解效用函数y(s，7r)=r(s，7r(s)+卢p(7r(s)(s，7r)3)改进每个状态对应的行动，使其满足丌+(s)+_arg霉xr(s，o)+卢p(口)V(sA ，丌)n E L 晨 J4)如果7r+=7r，则停止，V(s，7r)=V(s，7+)为最优值函数，并返回7r；否则，策略更新为7r=仃+，返回步骤2)。步骤3)求得的7r+(s)为长周期内的最优平稳决策，据此可对策略丌进行更新，进而可得出最优

17、策略仃+。3诊断策略构建实例现以某型战机悬挂及发射装置二线自动测试系统为例，对某型导弹发射架离位测试内容构建最优诊断策略。导弹发射装置是实现飞机与导弹之间的机械、电气、射频及气路连接的接口装置，对其测试主要是对电气参数的检测。分析发射架与导弹发动机点火电缆之间的信号，得出测试需求并确定其测试项目，依据多信号模型或信息流模型，由可达性分析得出其相关性矩阵，如表1所示。为便于求解该测试系统的诊断策略，作如下补充：1)Pp为测试t。能确定检测、反映出导弹发射架故障厶的概率，也就是系统故障状态发生转移的概率。因为在实际战地转场、内外场等恶劣的测试环境中存在多种外界因素，都会对测试效果造成一定的影响。2

18、)考虑到测试设备的硬件架构已经搭建完成，不再讨论经济花费，所以表1中的测试费用为测试时间成本的统计估计值，并作为费用报酬准则。万方数据第4期梁雅俊，等：基于MDP的诊断策略构建方法 847表1发射架点火电缆模块相关性矩阵、转移概率及测试费用Table 1 Dependency matrix，transition probability andtest expenses of launcher ignition cable module上述转移概率及测试费用均已在表1中列出。1)确定折扣因子口。根据测试系统的可能检测周期，以及对诊断策略最优性的选取，折扣因子越接近1则策略长周期内的最优性越好，

19、本例中确定080、095，并对比不同之处。2)确定准则权重。分析策略构建关键因素对测试效率、可靠性的影响，结合测试专家意见，给出测试费用和故障状态信息量的权重系数均为a=05；当检测偏向发生变化时，只需增加或减小权重值。3)根据表1所示内容，按图1所示构建出诊断策略树，可推出系统所有可能的故障状态模糊集，如表2所示，进而得到故障状态空间S=F，F：，F：，且系统的可用行动集A(i)=t，t2，t5。4)根据表2内容，结合表1中所示的系统故障状态转移概率，可确定在采取测试t，后系统的状态转移概率矩阵：表2系统故障状态表Table 2 Fault states table of system故障状

20、态子故障故障状态子故障F。 l。|0000s F15 厶F：。文，16 厶F、、jd6 F17 Af6F k lL砧 Fl 8 从F， 0氏 F19 ，6F。 l、qos F20 以F1 对b F21矗F L，，zz ，l厶F， f0忒 F23 F La L10lb Fu lF L 04 Fn 秘sF12 厶 F lLl，F13 以 F口 qbF14 厶FlFt1_El=F27Fl F2O P1f0 1：： 0 0P1f=019矩阵中元素E。表示在测试t。下系统可观测故障状态由F。转移到Fi的概率，且只有数值：0，PP，。，1，依次对应：没有转移关系、转移到测试不通过、测试通过

21、的系统故障状态及状态不发生转移。同理，可求得测试t：，t，t。，t，行动下的状态转移概率矩阵P：，只，P。，P，。有必要说明的是，当执行测试t。后系统故障状态不发生转移时，便视为以概率1回到原状态。5)根据表1内容及式(3)，可获得该测试系统3个报酬函数：由表l可知，测试费用报酬函数r。(i。，a。)=r。(a。)，a。T，与系统所处状态无关，只取决于采取的测试行动。由式(5)和状态转移概率矩阵，求得信息量报酬函数：ri(F。，a。)=一(鬻-b崭+器zb等)(8)已知准则权重d=05，综合a、b，进而得到综合报酬函数：r(s。，a。)=05r。(a。)+05ri(s。，a。)s。S，a。A

22、(9)6)式(9)代人式(6)，得到该测试系统故障诊断策略构建的效用准则函数方程组：K(F。，7r)=r(s。，a。)+。08“。1 zr(r(s。一l，口。一1)s。Js，口。A最佳策略即是寻找使效用准则取最大值的诊断策略仃+，满足(F，仃+)=arg m蟹(F，7r)。7)由于系统状态空间较大，本实例模型求解使用策略迭代算法，利用MATLAB中的MDP决策工具包编程可得结果，如图2和图3所示。图3为2个折扣因子下各故障状态的效用准则值，可以看出由于本例的检测周期较短，2个折扣因子下的策略趋势是一致的。从图2中不难看出，系统故障状态对应的最佳决策在不同口下是不尽相同的。即当最优性的目标周期不

23、同时，对应的最优策略可能不一致。本例以口=095的长周期最佳决策作为理想目7R00万方数据848 北京航空航天大学学报薹m_，川JIu川， hI，f f15 10 1 5 20 25 3(状态(b)z(卢=0 80)图2最佳决策Fig2 The best decisions图3最佳策略效用准则值Fig3 Utility vallleS of criteria of the best strateg)ls k lh |图4系统故障诊断树Fig4 Fault diagnosis tree of system督啦罨妊奄贮5匝匾砥缸厂Ff凼盐篮，出心，l图5 不同权重“下的最佳决策图6不同权重a对应的

24、策略效用准则值(口=095)Fig6 Utility values of criteria underdifferent a(口=095)得的系统故障状态信息量，以便快速检测出故障，即测试的快速性；权重n=05则是二者兼顾；从图6中也不难看出，不同权重值下策略的效用准则值并不相同，但是利用该方法都可以找到长期最优平稳策略，而权重值的设置需要根据具体的设计需求进行确定。综上可以看出，当检测环境复杂、测试资源有损毁时或检测人员可以确定故障的大致位置等情况下。可选择对应的故障状态的最佳决策生成一系列的不同初始状态的最优诊断策略。该方法应用到某型战斗机悬挂及发射装置二线自动测试系统，能够对某型导弹发射

25、架进行快速有效的故障诊断，在导弹发射架全寿命周期的测试保障中节省大量的时间，并作为约简测试资源的依据，切实提高某型导弹发射架的保障效能，降低测试系统的设计成本。4 结论本文基于MDP理论，通过建立MDP折扣模万方数据第4期梁雅俊，等：基于MDP的诊断策略构建方法849型并求解该模型，得到理想诊断策略： 9黄以锋，景博，喻彪，等基于概率阈的冗余多故障诊断策1)该方法能够充分考虑测试通过中的不确定性因素的影响，提高诊断结果的准确性与可靠性。2)可实现长周期动态寻优，生成全局最优诊断策略。实践表明，该方法能够有效指导战地转场等 10突发性复杂环境中的诊断策略构建，实现故障的快速检测与隔离。参考文

26、献(References)1IEEE SCC20IEEE trialuse standard for testability and diagnos ability characteristics and metrics：IEEE Std 15222004SPiscataway，NJ：IEEE Standards Press，2004：1-72杨海马，于小强杨晖等漏泄电缆自动检测系统研究J电子测量与仪器学报，2014，28(7)：795-797YANG H M，Yu x Q，YANG Het a1Research on automaticdetection system of leaky ca

27、bleJJournal of Electronic Measurement and Instrumentation，2014，28(7)：795-797(in Chinese)3PATTIPATI K R，ALEXANDRlDIS MApplication of heuristicsearch and information theory to sequential fault diagnosisJ，IEEE Transactions on System，Man，and Cybernetics，1990，20(4)：8728874SIMPSON W R，SHEPPARD J WThe muhi

28、criterion nature ofdiagnosisCProceedings of the IEEE Systems ReadinessTechnology ConferencePiscataway，NJ：IEEE Press，1993：3893955JOHNSON R AAn information theory approach to diagnosisJIRE Transactions on Reliability and Quality Control，1960，RQC-9(1)：356黎琼炜系统级BIT测试性设计技术及其在组合导航系统中的应用研究D长沙：国防科技大学，200l：3

29、4-57LI Q WResearch on system level BIT design for testabilitytechnique and its application in integrated navigation systemDChangsha：National University of Defense Technology，2001：34-57(in Chinese)7景小宁，李全通，陈云翔，等基于信息熵的最少测试费用故障诊断策略J计算机应用，2005，25(2)：417419JING X N，LI Q T，CHEN Y X，et a1Fault diagnosis st

30、rategywith least test cost based on information entropyJJournal ofComputer Applications，2005，25(2)：417-419(in Chinese)8Tu F，PATTlPATI K RRollout strategy for sequential fault di-agnosisJIEEE Transactions on Systems，Man and Cybernetics，2003，33(1)：86-9912131415略J空军工程大学学报(自然科学版)，2014，15(5)：l-5HUANG Y F

31、，jING B，YU B，et a1Multiple fault diagnosisstrategy for redundant system based on probability thresholdJJournal of Air Force Engineering University(Natural Sci-enee Edition)，2014，15(5)：lj(in Chinese)王红霞，叶晓慧，田树新基于广义AO+算法的测试序列问题研究J兵工学报，2010，31(2)：204-209WANG H X，YE X H，TIAN S XResearch on test sequenci

32、ngproblem based Off generalized AOalgorithmJActa Armamentarii，2010，31(2)：204-209(in Chinese)邱静，刘冠军，杨鹏，等装备测试性建模与设计技术M北京：科学出版社，2012：316-319QIu J，LIU G J，YANG Pet a1Equipment testability modelingand design technologyMBeijing：Science Press，2012：316319(in Chinese)黎洁，刘羽西，李奇越基于隐马尔可夫模型的认知无钱频谱切换方法J电子测量与仪器学报，

33、2014，28(1)：69，74LI J，LIU Y X，LI Q YSpectrum handoff and method based onhidden Markov model in cognitive radio networkJJournal ofElectronic Measurement and Instrumentation，2014，28(1)：6974(in Chinese)RUSSELlS，NORVING PArtificial intelligence：A modern approaehMBeijing：Tsinghua University Press，201 1：64

34、5-658刘克实用马尔可夫决策过程M北京：清华大学出版社，2004：34-45LIU KThe utility of Markov decision processesMBeijing：Tsinghua University Press，2004：34_45(in Chinese)李行善。左毅，孙杰自动测试系统集成技术M北京：电子工业出版社2004：6670LI X S，ZUO YSUN J Automatic test system integration technologyMBeijing：Publishing House of Electronics Industry，2004：66-

35、70(in Chinese)作者简介：梁雅俊女，博士研究生。主要研究方向：机载武器装备测试、诊断自动化与智能化。Tel：15691805351Email：121410289lqqcom肖明清男，博士，教授，博士生导师。主要研究方向：航空武器综合保障。Tel：1390928525lEmail：xmqingsohutom万方数据850 北京航空航天大学学报 2016年Diagnostic strategy building method based on M DPLIANG Yajunl，XIAO Mingqin91一，SONG Haifan91，YANG Zha01，LIANG Pen92(1

36、Aeronautics and Astronautics Engineering College，Air Force Engineering University，Xian 710038，China2Unit 95503，Chongqing 402360，China)Abstract：Aiming at the problem that by the traditional method，it is difficult to get the global optimaldiagnostic strategy of the complicated test system in fault det

37、ection for ignoring the uncertainty factors in thetest execution and lacking of the long cycle optimization mechanism，a new diagnostic strategy building methodbased on Markov decision processes(MDP)is proposedThe process of fault detection and isolation isexpressed as a Markov process；the unlimited

38、discount model of the utility integrated criterion function is structured through the discount factor and objective weights；the global optimal diagnostic strategy is obtained withthe policy iteration algorithmThe example shows that the test uncertainty factors are well considered，stableoptimal strat

39、egy of overall situation can be achieved by this method，and the fast fault detection and isolation inthe engineering practice can be guided effectively as wellKey words：diagnostic strategy；Markov decision processes(MDP)；fault detection；policy iterationalgorithm；strategy optimizationReceived：2015-05-05：Accepted：2015-09-02；Published online：2015-1223 16：33URL：WWWenkinetkcmsdetail112625V201512231633001htmlCorresponding authorTel：1 390928525 1 E-mail：xmqingsohucorn万方数据

展开阅读全文