《電子技術(shù)應用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設計應用 > 基于連續(xù)時間MDP模型和隨機決策的維護周期
基于連續(xù)時間MDP模型和隨機決策的維護周期
2016年電子技術(shù)應用第3期
敖銀輝,王翠芬
廣東工業(yè)大學 機電工程學院,廣東 廣州510006
摘要: 生產(chǎn)系統(tǒng)的維護策略直接關(guān)系到設備的使用壽命,對生產(chǎn)線的連續(xù)性和可靠性,以及產(chǎn)品質(zhì)量、生產(chǎn)效率、滿足率等方面都有影響。利用連續(xù)時間的MDP模型研究單臺設備的維護策略,綜合考慮轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機性,利用MATLAB軟件實現(xiàn)優(yōu)化,獲得最佳維護周期。將其應用于混聯(lián)結(jié)構(gòu),與基于離散空間的MDP維護策略進行比較。結(jié)果顯示,基于連續(xù)時間MDP模型的維護策略能夠有效提高生產(chǎn)系統(tǒng)性能,降低成本,提高生產(chǎn)效益。
中圖分類號: TP23
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.035
中文引用格式: 敖銀輝,王翠芬. 基于連續(xù)時間MDP模型和隨機決策的維護周期[J].電子技術(shù)應用,2016,42(3):123-126.
英文引用格式: Ao Yinhui,Wang Cuifen. Maintenance cycle based on continuous time MDP model and stochastic decision[J].Application of Electronic Technique,2016,42(3):123-126.
Maintenance cycle based on continuous time MDP model and stochastic decision
Ao Yinhui,Wang Cuifen
College of Electromechanical Engineering,Guangdong University Technology,Guangzhou 510006,China
Abstract: The maintenance strategy of production system is directly related to life of equipment. And it effects the continuous and reliability of production line, product quality, production efficiency and satisfaction rate etc. This paper uses the continuous-time MDP model to study the maintenance strategy of single device. And it considers the dynamic of transition probability and the random of scheme selection, by simulation and optimization to obtain the optimal maintenance strategy in Matlab software. It is applied to the series and parallel structure, compared with discrete space MDP maintenance. The results show that maintenance strategy based on continuous-time MDP model can effectively improve performance of production system, reduce costs and improve production efficiency.
Key words : continuous-time MDP model;maintenance strategy;the dynamic of transition probability;the random of scheme selection;MATLAB optimization;series and parallel structure

0 引言

    近年來,隨著科學技術(shù)的迅速發(fā)展,各生產(chǎn)系統(tǒng)的結(jié)構(gòu)日益復雜化,各種高精度、集成化設備廣泛應用于生產(chǎn)線。企業(yè)間的競爭越來越激烈,生產(chǎn)系統(tǒng)的復雜性、隨機性使得生產(chǎn)線的維護難度不斷提升,維護成本和強度隨之加大,合理的維護策略對獲得良好生產(chǎn)效益起著至關(guān)重要的作用。

    目前國內(nèi)外關(guān)于生產(chǎn)線維護策略的研究成果很多,主要分為基于狀態(tài)的維護和基于時間的維護兩種形式[1]?;跔顟B(tài)的維護是在設備檢測技術(shù)迅速發(fā)展的基礎上實現(xiàn)的,通過檢測設備的狀態(tài)來判斷其出現(xiàn)故障的概率,確定實施方案,使損失降到最低。傳統(tǒng)的基于時間的維護多采用固定維修周期,這樣的方式操作簡單,維護人員和備件都可以做事先安排。隨著神經(jīng)網(wǎng)絡與模糊系統(tǒng)理論與技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡與模糊邏輯的自適應控制系統(tǒng)得到了廣泛應用[2-5]。徐昕等人[6]對基于MDP動態(tài)系統(tǒng)學習控制理論、算法與應用的發(fā)展前景進行綜述。起初研究人員用離散的Markov鏈描述設備維護調(diào)度模型,之后,Gharbi等人提出用連續(xù)Markov鏈描述設備壽命的維護結(jié)構(gòu),通過控制設備生產(chǎn)率和預維修率使目標函數(shù)達到最優(yōu)化[7]。Jin 等人[8]利用馬爾可夫決策過程描述設備維修或替換等維護活動的概率轉(zhuǎn)移函數(shù),得到一個生產(chǎn)系統(tǒng)的預防性維護優(yōu)化模型。陳靜靜提出利用MDP模型同時考慮劣化故障和隨機故障兩種故障類型,制定針對單臺設備工作排序、清洗和維修的長期維護優(yōu)化策略[9]。以上關(guān)于MDP模型的應用多采用固定式轉(zhuǎn)移概率,在一定程度上反映了狀態(tài)的變化過程。根據(jù)生產(chǎn)實際可以考慮采用動態(tài)的轉(zhuǎn)移概率反映不同狀態(tài)下的狀態(tài)轉(zhuǎn)移情況。

    本文將利用連續(xù)時間的MDP模型描述單臺設備工作狀態(tài),充分體現(xiàn)生產(chǎn)實際中設備工作、維護的連續(xù)性,綜合考慮轉(zhuǎn)移概率和實施方案選擇的動態(tài)性和隨機性,利用MATLAB實現(xiàn)優(yōu)化獲取最佳維護周期。在系統(tǒng)層維護中以混聯(lián)結(jié)構(gòu)為框架應用該模型,對其實現(xiàn)優(yōu)化仿真,驗證其可行性。

1 連續(xù)時間的MDP模型

    作為描述動態(tài)隨機系統(tǒng)優(yōu)化決策問題的一類基本數(shù)學模型,MDP模型通常用四元組{S,A,P,R}表示,其中S為狀態(tài)空間,A為行為空間,P為轉(zhuǎn)移概率(滿足無后效性),R為回報函數(shù),在一定意義上可以理解為目標函數(shù)。

    定義行為策略π表示從狀態(tài)集合S到行為選擇概率的映射,即π:S→P(a)。

1.1 離散空間的MDP

jsj4-1.1-x1.gif

1.2 連續(xù)時間的MDP

jsj4-gs1-2.gif

其中,r為回報函數(shù),對于其積分即為目標函數(shù)。需要尋找最佳π使Vπ(x)達到最優(yōu)解。

    實際生產(chǎn)系統(tǒng)中設備工作環(huán)境復雜,設備的自身工作狀態(tài)、運轉(zhuǎn)環(huán)境、已維護次數(shù)等信息直接關(guān)系生產(chǎn)線的效益,合理的維護策略和預先安排能夠有效降低因突發(fā)事件帶來的巨大損失。MDP模型能夠形象地模擬不同維護策略對設備狀態(tài)的影響。對于整個生產(chǎn)系統(tǒng),要獲得最優(yōu)維護策略,首先需要研究每臺設備的維護策略。本文利用連續(xù)時間的MDP模型研究單臺設備維護策略,然后研究在交貨期、在制品數(shù)和成品率等因素的綜合影響下,系統(tǒng)層的維護策略。

2 單臺設備維護策略

    在生產(chǎn)實際中設備的工作狀態(tài)具有連續(xù)性的特點,因此,利用連續(xù)時間的MDP模型能夠更加合理地模擬設備退化過程。在連續(xù)時間的MDP模型中,狀態(tài)空間、行為空間均為連續(xù)空間,狀態(tài)轉(zhuǎn)移時間也是連續(xù)的。本文將在此基礎上進一步考慮轉(zhuǎn)移概率的動態(tài)性方案選擇的隨機性。本文將設備的狀態(tài)空間設定為連續(xù)空間,綜合考慮設備自身運轉(zhuǎn)狀態(tài)、成品率、維修記錄等因素,利用連續(xù)函數(shù)擬合設備自然狀態(tài)下的退化過程,實現(xiàn)設備整個生命周期中狀態(tài)的連續(xù)性。

    首先,根據(jù)生產(chǎn)實際數(shù)據(jù)擬合狀態(tài)空間x(τ),0<τ≤m。x(τ)是關(guān)于自然退化時間τ的連續(xù)函數(shù),表示設備的自然退化過程。根據(jù)實際情況,狀態(tài)空間x(τ)為遞減函數(shù)。隨著時間的延續(xù),當?shù)竭_時刻m時設備將退化至某一劣化極限x(m),狀態(tài)x(m)表示設備出現(xiàn)故障,必須進行故障性維修。

    行為空間u(t)表示t時刻系統(tǒng)處于狀態(tài)x(τ)可采用的行為的集合。

    jsj4-gs3.gif

且當 x(τ)=x(m)時u(t)=1,當x(τ)<x(m)時設備處于無法修復狀態(tài),停止工作。

    狀態(tài)轉(zhuǎn)移矩陣P(i,j,a)表示設備處于狀態(tài)x(i),采用方案a后,設備狀態(tài)轉(zhuǎn)移到x(j)的概率,其中i,j∈τ。轉(zhuǎn)移概率P(i,j,a)的隨機性表現(xiàn)為:

jsj4-gs4-6.gif

    r(x(τ),u(t))表示設備處于狀態(tài)x(τ)時采用方案u(t)獲得的收益。π(u(t))表示所采用的一系列維護策略,即在每個維護時刻所采用的方案,目標即為尋找一個最優(yōu)維護策略π*(u(t))使效益最大化。本文中維護策略π的選擇由轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機性體現(xiàn)。在此基礎上確定最優(yōu)維護周期T,使目標函數(shù)達到最優(yōu)解。

    平穩(wěn)策略的值函數(shù):

    jsj4-gs7-8.gif

    若u(t)≡0則設備狀態(tài)變化過程為服從函數(shù)x(τ),即設備自然退化過程。且有,若采用最優(yōu)維護策略π*(u(t)),則所對應的狀態(tài)空間為x*(τ)。目標即為尋找最優(yōu)維護策略π*(u(t))和最優(yōu)維護周期T*使系統(tǒng)效益最大化。

    假設維護周期為l,采用一定維護策略后,單位時間產(chǎn)生的效益為h(t),其與狀態(tài)空間具有線性關(guān)系。則一個維護周期內(nèi)獲得效益:

    jsj4-gs9.gif

其中g(shù)(a)表示選擇方案a的概率,x(i)表示設備所處狀態(tài)。最佳維護策略π*即使效益最大化的維護周期T和實施方案a,π*π(T,a1,a2,a3,…,an),an∈a。

    目標函數(shù):

    jsj4-gs10.gif

其中,u1、u2分別表示設備進行一次預防性維修和故障性維修的費用,v1、v2分別表示設備進行預防性維修和故障性維修的次數(shù)。

3 系統(tǒng)層維護策略

    對于生產(chǎn)系統(tǒng),根據(jù)連接形式的不同各單臺設備所得效益在系統(tǒng)層效益中反映的程度不同。本文研究假設,對于串聯(lián)結(jié)構(gòu)的效益,以串聯(lián)結(jié)構(gòu)中效益最大的單臺設備的效益作為評價標準。并聯(lián)結(jié)構(gòu)的效益,以各單臺設備效益之和為評價標準。

    串聯(lián)系統(tǒng)效益:

jsj4-gs11-12.gif

    在系統(tǒng)混聯(lián)結(jié)構(gòu)中,將并聯(lián)設備作為一個單元與串聯(lián)設備一起作為串聯(lián)結(jié)構(gòu)考慮。

    混聯(lián)系統(tǒng)效益:

jsj4-gs13.gif

    本文以混聯(lián)結(jié)構(gòu)為模型框架研究最優(yōu)維護策略,系統(tǒng)層維護策略模型滿足maxQπ(l),即獲得能夠使系統(tǒng)效益最大化的維護周期l和相應的各個周期的實施方案。

4 案例仿真

    為驗證模型的可行性和有效性,本文采用以下算例進行分析。如圖1所示,系統(tǒng)由5臺退化模型相同的設備組成,按統(tǒng)一周期進行仿真。設備自然退化過程x(τ)通過擬合為8次多項式,極限工作時間8 000。一次故障性維修的費用u2=5 000元,一次預防性維修的費用u1=1 000元。轉(zhuǎn)移概率P(i,j,a)的分布如下:

    jsj4-gs14.gif

jsj4-t1.gif

    實施方案選擇原則如下:

    jsj4-t1-x1.gif

    利用MATLAB建模仿真獲得如圖2結(jié)果。由圖2可知,在此模型假設基礎上,當維護周期為1 700 h時效益最大化。維護周期較低時,頻繁的維護會增加維護費用導致效益降低。維護周期太大時,設備維護不及時,故障停機的概率增加,設備利用率下降,導致效益下降。

jsj4-t2.gif

    由圖3可知,在設備運轉(zhuǎn)初期(0<t<2 500),當?shù)竭_維護周期時選擇正常運轉(zhuǎn)(a=0)而不實施維護措施的概率為40%;在運轉(zhuǎn)中期(2 500<t<5 600),選擇預防性維護(a=1)的概率為61%;在運轉(zhuǎn)后期(t>5 600),選擇故障性維護(a=2)的概率為54%。由此可知,在設備運行后期隨著設備可靠性的降低,故障維修的次數(shù)增加,符合生產(chǎn)實際,證明方案選擇假設可行。

jsj4-t3.gif

    本文以混聯(lián)結(jié)構(gòu)為框架應用此模型,分析系統(tǒng)的設備利用率,與基于離散空間的MDP維護策略進行比較。如圖4所示,采用連續(xù)時間MDP模型下的平均利用率為0.992 48,采用離散MDP模型的平均利用率為0.987 22。由此可知,連續(xù)時間MDP模型下的維護策略能夠有效提高設備利用率,從而在一定程度上提高效益,進一步證明基于連續(xù)時間MDP模型的維護決策的有效性和可行性。

jsj4-t4.gif

5 結(jié)論

    在生產(chǎn)實際中設備狀態(tài)屬于連續(xù)變化量,本文采用連續(xù)時間的MDP模型模擬設備狀態(tài)連續(xù)變化過程下系統(tǒng)效益的連續(xù)變化過程。綜合考慮生產(chǎn)實際因素,利用生產(chǎn)實際數(shù)據(jù)模擬設備自然退化過程,將連續(xù)變化的設備狀態(tài)轉(zhuǎn)化為效益的變化過程,以效益最大化為目標獲得最優(yōu)維護策略。系統(tǒng)層框架結(jié)構(gòu)在基于連續(xù)時間的MDP模型下,將生產(chǎn)系統(tǒng)的現(xiàn)實因素融于控制條件,進一步控制維護策略,獲得較為合理的維護策略。仿真結(jié)果顯示,基于連續(xù)時間MDP模型應用于生產(chǎn)系統(tǒng),可有效提高設備利用率和產(chǎn)量,改善系統(tǒng)性能,從而提高生產(chǎn)線效益。

參考文獻

[1] 吳洪飛.基于非齊次馬爾可夫過程的多動作動態(tài)維護策略研究[D].上海:上海交通大學,2008.

[2] 王振雷.模糊神經(jīng)網(wǎng)絡理論及其在復雜系統(tǒng)中的應用研究[D].沈陽:東北大學,2002.

[3] 徐瑜,危韌勇.神經(jīng)網(wǎng)絡在控制系統(tǒng)中的應用現(xiàn)狀及展望[J].電腦知識與技術(shù),2006(5):178-179,187.

[4] 徐英智.一種新型模糊神經(jīng)網(wǎng)絡及其在控制中的應用[D].西安:西安電子科技大學,2008.

[5] 馬俊偉.動態(tài)模糊神經(jīng)網(wǎng)絡在非線性系統(tǒng)中的應用研究[D].沈陽:東北大學,2010.

[6] 徐昕,沈棟,高巖青,等.基于馬氏決策過程模型的動態(tài)系統(tǒng)學習控制:研究前沿與展望[J].自動化學報,2012(5):673-687.

[7] GHARBI A,KENNE′ J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers & Industrial Engineering,2005(48):693-707.

[8] JIN Y L,JIANG Z H,HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University,2006,40(12):2051-2056.

[9] 陳靜靜.基于MDP的半導體制造設備維護調(diào)度研究[J].電子測量技術(shù),2012(3):24-27.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。