文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.035
中文引用格式: 敖銀輝,王翠芬. 基于連續(xù)時間MDP模型和隨機決策的維護周期[J].電子技術(shù)應用,2016,42(3):123-126.
英文引用格式: Ao Yinhui,Wang Cuifen. Maintenance cycle based on continuous time MDP model and stochastic decision[J].Application of Electronic Technique,2016,42(3):123-126.
0 引言
近年來,隨著科學技術(shù)的迅速發(fā)展,各生產(chǎn)系統(tǒng)的結(jié)構(gòu)日益復雜化,各種高精度、集成化設備廣泛應用于生產(chǎn)線。企業(yè)間的競爭越來越激烈,生產(chǎn)系統(tǒng)的復雜性、隨機性使得生產(chǎn)線的維護難度不斷提升,維護成本和強度隨之加大,合理的維護策略對獲得良好生產(chǎn)效益起著至關(guān)重要的作用。
目前國內(nèi)外關(guān)于生產(chǎn)線維護策略的研究成果很多,主要分為基于狀態(tài)的維護和基于時間的維護兩種形式[1]?;跔顟B(tài)的維護是在設備檢測技術(shù)迅速發(fā)展的基礎上實現(xiàn)的,通過檢測設備的狀態(tài)來判斷其出現(xiàn)故障的概率,確定實施方案,使損失降到最低。傳統(tǒng)的基于時間的維護多采用固定維修周期,這樣的方式操作簡單,維護人員和備件都可以做事先安排。隨著神經(jīng)網(wǎng)絡與模糊系統(tǒng)理論與技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡與模糊邏輯的自適應控制系統(tǒng)得到了廣泛應用[2-5]。徐昕等人[6]對基于MDP動態(tài)系統(tǒng)學習控制理論、算法與應用的發(fā)展前景進行綜述。起初研究人員用離散的Markov鏈描述設備維護調(diào)度模型,之后,Gharbi等人提出用連續(xù)Markov鏈描述設備壽命的維護結(jié)構(gòu),通過控制設備生產(chǎn)率和預維修率使目標函數(shù)達到最優(yōu)化[7]。Jin 等人[8]利用馬爾可夫決策過程描述設備維修或替換等維護活動的概率轉(zhuǎn)移函數(shù),得到一個生產(chǎn)系統(tǒng)的預防性維護優(yōu)化模型。陳靜靜提出利用MDP模型同時考慮劣化故障和隨機故障兩種故障類型,制定針對單臺設備工作排序、清洗和維修的長期維護優(yōu)化策略[9]。以上關(guān)于MDP模型的應用多采用固定式轉(zhuǎn)移概率,在一定程度上反映了狀態(tài)的變化過程。根據(jù)生產(chǎn)實際可以考慮采用動態(tài)的轉(zhuǎn)移概率反映不同狀態(tài)下的狀態(tài)轉(zhuǎn)移情況。
本文將利用連續(xù)時間的MDP模型描述單臺設備工作狀態(tài),充分體現(xiàn)生產(chǎn)實際中設備工作、維護的連續(xù)性,綜合考慮轉(zhuǎn)移概率和實施方案選擇的動態(tài)性和隨機性,利用MATLAB實現(xiàn)優(yōu)化獲取最佳維護周期。在系統(tǒng)層維護中以混聯(lián)結(jié)構(gòu)為框架應用該模型,對其實現(xiàn)優(yōu)化仿真,驗證其可行性。
1 連續(xù)時間的MDP模型
作為描述動態(tài)隨機系統(tǒng)優(yōu)化決策問題的一類基本數(shù)學模型,MDP模型通常用四元組{S,A,P,R}表示,其中S為狀態(tài)空間,A為行為空間,P為轉(zhuǎn)移概率(滿足無后效性),R為回報函數(shù),在一定意義上可以理解為目標函數(shù)。
定義行為策略π表示從狀態(tài)集合S到行為選擇概率的映射,即π:S→P(a)。
1.1 離散空間的MDP
1.2 連續(xù)時間的MDP
其中,r為回報函數(shù),對于其積分即為目標函數(shù)。需要尋找最佳π使Vπ(x)達到最優(yōu)解。
實際生產(chǎn)系統(tǒng)中設備工作環(huán)境復雜,設備的自身工作狀態(tài)、運轉(zhuǎn)環(huán)境、已維護次數(shù)等信息直接關(guān)系生產(chǎn)線的效益,合理的維護策略和預先安排能夠有效降低因突發(fā)事件帶來的巨大損失。MDP模型能夠形象地模擬不同維護策略對設備狀態(tài)的影響。對于整個生產(chǎn)系統(tǒng),要獲得最優(yōu)維護策略,首先需要研究每臺設備的維護策略。本文利用連續(xù)時間的MDP模型研究單臺設備維護策略,然后研究在交貨期、在制品數(shù)和成品率等因素的綜合影響下,系統(tǒng)層的維護策略。
2 單臺設備維護策略
在生產(chǎn)實際中設備的工作狀態(tài)具有連續(xù)性的特點,因此,利用連續(xù)時間的MDP模型能夠更加合理地模擬設備退化過程。在連續(xù)時間的MDP模型中,狀態(tài)空間、行為空間均為連續(xù)空間,狀態(tài)轉(zhuǎn)移時間也是連續(xù)的。本文將在此基礎上進一步考慮轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機性。本文將設備的狀態(tài)空間設定為連續(xù)空間,綜合考慮設備自身運轉(zhuǎn)狀態(tài)、成品率、維修記錄等因素,利用連續(xù)函數(shù)擬合設備自然狀態(tài)下的退化過程,實現(xiàn)設備整個生命周期中狀態(tài)的連續(xù)性。
首先,根據(jù)生產(chǎn)實際數(shù)據(jù)擬合狀態(tài)空間x(τ),0<τ≤m。x(τ)是關(guān)于自然退化時間τ的連續(xù)函數(shù),表示設備的自然退化過程。根據(jù)實際情況,狀態(tài)空間x(τ)為遞減函數(shù)。隨著時間的延續(xù),當?shù)竭_時刻m時設備將退化至某一劣化極限x(m),狀態(tài)x(m)表示設備出現(xiàn)故障,必須進行故障性維修。
行為空間u(t)表示t時刻系統(tǒng)處于狀態(tài)x(τ)可采用的行為的集合。
且當 x(τ)=x(m)時u(t)=1,當x(τ)<x(m)時設備處于無法修復狀態(tài),停止工作。
狀態(tài)轉(zhuǎn)移矩陣P(i,j,a)表示設備處于狀態(tài)x(i),采用方案a后,設備狀態(tài)轉(zhuǎn)移到x(j)的概率,其中i,j∈τ。轉(zhuǎn)移概率P(i,j,a)的隨機性表現(xiàn)為:
r(x(τ),u(t))表示設備處于狀態(tài)x(τ)時采用方案u(t)獲得的收益。π(u(t))表示所采用的一系列維護策略,即在每個維護時刻所采用的方案,目標即為尋找一個最優(yōu)維護策略π*(u(t))使效益最大化。本文中維護策略π的選擇由轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機性體現(xiàn)。在此基礎上確定最優(yōu)維護周期T,使目標函數(shù)達到最優(yōu)解。
平穩(wěn)策略的值函數(shù):
若u(t)≡0則設備狀態(tài)變化過程為服從函數(shù)x(τ),即設備自然退化過程。且有,若采用最優(yōu)維護策略π*(u(t)),則所對應的狀態(tài)空間為x*(τ)。目標即為尋找最優(yōu)維護策略π*(u(t))和最優(yōu)維護周期T*使系統(tǒng)效益最大化。
假設維護周期為l,采用一定維護策略后,單位時間產(chǎn)生的效益為h(t),其與狀態(tài)空間具有線性關(guān)系。則一個維護周期內(nèi)獲得效益:
其中g(shù)(a)表示選擇方案a的概率,x(i)表示設備所處狀態(tài)。最佳維護策略π*即使效益最大化的維護周期T和實施方案a,π*π(T,a1,a2,a3,…,an),an∈a。
目標函數(shù):
其中,u1、u2分別表示設備進行一次預防性維修和故障性維修的費用,v1、v2分別表示設備進行預防性維修和故障性維修的次數(shù)。
3 系統(tǒng)層維護策略
對于生產(chǎn)系統(tǒng),根據(jù)連接形式的不同各單臺設備所得效益在系統(tǒng)層效益中反映的程度不同。本文研究假設,對于串聯(lián)結(jié)構(gòu)的效益,以串聯(lián)結(jié)構(gòu)中效益最大的單臺設備的效益作為評價標準。并聯(lián)結(jié)構(gòu)的效益,以各單臺設備效益之和為評價標準。
串聯(lián)系統(tǒng)效益:
在系統(tǒng)混聯(lián)結(jié)構(gòu)中,將并聯(lián)設備作為一個單元與串聯(lián)設備一起作為串聯(lián)結(jié)構(gòu)考慮。
混聯(lián)系統(tǒng)效益:
本文以混聯(lián)結(jié)構(gòu)為模型框架研究最優(yōu)維護策略,系統(tǒng)層維護策略模型滿足maxQπ(l),即獲得能夠使系統(tǒng)效益最大化的維護周期l和相應的各個周期的實施方案。
4 案例仿真
為驗證模型的可行性和有效性,本文采用以下算例進行分析。如圖1所示,系統(tǒng)由5臺退化模型相同的設備組成,按統(tǒng)一周期進行仿真。設備自然退化過程x(τ)通過擬合為8次多項式,極限工作時間8 000。一次故障性維修的費用u2=5 000元,一次預防性維修的費用u1=1 000元。轉(zhuǎn)移概率P(i,j,a)的分布如下:
實施方案選擇原則如下:
利用MATLAB建模仿真獲得如圖2結(jié)果。由圖2可知,在此模型假設基礎上,當維護周期為1 700 h時效益最大化。維護周期較低時,頻繁的維護會增加維護費用導致效益降低。維護周期太大時,設備維護不及時,故障停機的概率增加,設備利用率下降,導致效益下降。
由圖3可知,在設備運轉(zhuǎn)初期(0<t<2 500),當?shù)竭_維護周期時選擇正常運轉(zhuǎn)(a=0)而不實施維護措施的概率為40%;在運轉(zhuǎn)中期(2 500<t<5 600),選擇預防性維護(a=1)的概率為61%;在運轉(zhuǎn)后期(t>5 600),選擇故障性維護(a=2)的概率為54%。由此可知,在設備運行后期隨著設備可靠性的降低,故障維修的次數(shù)增加,符合生產(chǎn)實際,證明方案選擇假設可行。
本文以混聯(lián)結(jié)構(gòu)為框架應用此模型,分析系統(tǒng)的設備利用率,與基于離散空間的MDP維護策略進行比較。如圖4所示,采用連續(xù)時間MDP模型下的平均利用率為0.992 48,采用離散MDP模型的平均利用率為0.987 22。由此可知,連續(xù)時間MDP模型下的維護策略能夠有效提高設備利用率,從而在一定程度上提高效益,進一步證明基于連續(xù)時間MDP模型的維護決策的有效性和可行性。
5 結(jié)論
在生產(chǎn)實際中設備狀態(tài)屬于連續(xù)變化量,本文采用連續(xù)時間的MDP模型模擬設備狀態(tài)連續(xù)變化過程下系統(tǒng)效益的連續(xù)變化過程。綜合考慮生產(chǎn)實際因素,利用生產(chǎn)實際數(shù)據(jù)模擬設備自然退化過程,將連續(xù)變化的設備狀態(tài)轉(zhuǎn)化為效益的變化過程,以效益最大化為目標獲得最優(yōu)維護策略。系統(tǒng)層框架結(jié)構(gòu)在基于連續(xù)時間的MDP模型下,將生產(chǎn)系統(tǒng)的現(xiàn)實因素融于控制條件,進一步控制維護策略,獲得較為合理的維護策略。仿真結(jié)果顯示,基于連續(xù)時間MDP模型應用于生產(chǎn)系統(tǒng),可有效提高設備利用率和產(chǎn)量,改善系統(tǒng)性能,從而提高生產(chǎn)線效益。
參考文獻
[1] 吳洪飛.基于非齊次馬爾可夫過程的多動作動態(tài)維護策略研究[D].上海:上海交通大學,2008.
[2] 王振雷.模糊神經(jīng)網(wǎng)絡理論及其在復雜系統(tǒng)中的應用研究[D].沈陽:東北大學,2002.
[3] 徐瑜,危韌勇.神經(jīng)網(wǎng)絡在控制系統(tǒng)中的應用現(xiàn)狀及展望[J].電腦知識與技術(shù),2006(5):178-179,187.
[4] 徐英智.一種新型模糊神經(jīng)網(wǎng)絡及其在控制中的應用[D].西安:西安電子科技大學,2008.
[5] 馬俊偉.動態(tài)模糊神經(jīng)網(wǎng)絡在非線性系統(tǒng)中的應用研究[D].沈陽:東北大學,2010.
[6] 徐昕,沈棟,高巖青,等.基于馬氏決策過程模型的動態(tài)系統(tǒng)學習控制:研究前沿與展望[J].自動化學報,2012(5):673-687.
[7] GHARBI A,KENNE′ J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers & Industrial Engineering,2005(48):693-707.
[8] JIN Y L,JIANG Z H,HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University,2006,40(12):2051-2056.
[9] 陳靜靜.基于MDP的半導體制造設備維護調(diào)度研究[J].電子測量技術(shù),2012(3):24-27.