《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于連續(xù)時(shí)間MDP模型和隨機(jī)決策的維護(hù)周期
基于連續(xù)時(shí)間MDP模型和隨機(jī)決策的維護(hù)周期
2016年電子技術(shù)應(yīng)用第3期
敖銀輝,王翠芬
廣東工業(yè)大學(xué) 機(jī)電工程學(xué)院,廣東 廣州510006
摘要: 生產(chǎn)系統(tǒng)的維護(hù)策略直接關(guān)系到設(shè)備的使用壽命,對(duì)生產(chǎn)線(xiàn)的連續(xù)性和可靠性,以及產(chǎn)品質(zhì)量、生產(chǎn)效率、滿(mǎn)足率等方面都有影響。利用連續(xù)時(shí)間的MDP模型研究單臺(tái)設(shè)備的維護(hù)策略,綜合考慮轉(zhuǎn)移概率的動(dòng)態(tài)性和方案選擇的隨機(jī)性,利用MATLAB軟件實(shí)現(xiàn)優(yōu)化,獲得最佳維護(hù)周期。將其應(yīng)用于混聯(lián)結(jié)構(gòu),與基于離散空間的MDP維護(hù)策略進(jìn)行比較。結(jié)果顯示,基于連續(xù)時(shí)間MDP模型的維護(hù)策略能夠有效提高生產(chǎn)系統(tǒng)性能,降低成本,提高生產(chǎn)效益。
中圖分類(lèi)號(hào): TP23
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.035
中文引用格式: 敖銀輝,王翠芬. 基于連續(xù)時(shí)間MDP模型和隨機(jī)決策的維護(hù)周期[J].電子技術(shù)應(yīng)用,2016,42(3):123-126.
英文引用格式: Ao Yinhui,Wang Cuifen. Maintenance cycle based on continuous time MDP model and stochastic decision[J].Application of Electronic Technique,2016,42(3):123-126.
Maintenance cycle based on continuous time MDP model and stochastic decision
Ao Yinhui,Wang Cuifen
College of Electromechanical Engineering,Guangdong University Technology,Guangzhou 510006,China
Abstract: The maintenance strategy of production system is directly related to life of equipment. And it effects the continuous and reliability of production line, product quality, production efficiency and satisfaction rate etc. This paper uses the continuous-time MDP model to study the maintenance strategy of single device. And it considers the dynamic of transition probability and the random of scheme selection, by simulation and optimization to obtain the optimal maintenance strategy in Matlab software. It is applied to the series and parallel structure, compared with discrete space MDP maintenance. The results show that maintenance strategy based on continuous-time MDP model can effectively improve performance of production system, reduce costs and improve production efficiency.
Key words : continuous-time MDP model;maintenance strategy;the dynamic of transition probability;the random of scheme selection;MATLAB optimization;series and parallel structure

0 引言

    近年來(lái),隨著科學(xué)技術(shù)的迅速發(fā)展,各生產(chǎn)系統(tǒng)的結(jié)構(gòu)日益復(fù)雜化,各種高精度、集成化設(shè)備廣泛應(yīng)用于生產(chǎn)線(xiàn)。企業(yè)間的競(jìng)爭(zhēng)越來(lái)越激烈,生產(chǎn)系統(tǒng)的復(fù)雜性、隨機(jī)性使得生產(chǎn)線(xiàn)的維護(hù)難度不斷提升,維護(hù)成本和強(qiáng)度隨之加大,合理的維護(hù)策略對(duì)獲得良好生產(chǎn)效益起著至關(guān)重要的作用。

    目前國(guó)內(nèi)外關(guān)于生產(chǎn)線(xiàn)維護(hù)策略的研究成果很多,主要分為基于狀態(tài)的維護(hù)和基于時(shí)間的維護(hù)兩種形式[1]?;跔顟B(tài)的維護(hù)是在設(shè)備檢測(cè)技術(shù)迅速發(fā)展的基礎(chǔ)上實(shí)現(xiàn)的,通過(guò)檢測(cè)設(shè)備的狀態(tài)來(lái)判斷其出現(xiàn)故障的概率,確定實(shí)施方案,使損失降到最低。傳統(tǒng)的基于時(shí)間的維護(hù)多采用固定維修周期,這樣的方式操作簡(jiǎn)單,維護(hù)人員和備件都可以做事先安排。隨著神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)理論與技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)與模糊邏輯的自適應(yīng)控制系統(tǒng)得到了廣泛應(yīng)用[2-5]。徐昕等人[6]對(duì)基于MDP動(dòng)態(tài)系統(tǒng)學(xué)習(xí)控制理論、算法與應(yīng)用的發(fā)展前景進(jìn)行綜述。起初研究人員用離散的Markov鏈描述設(shè)備維護(hù)調(diào)度模型,之后,Gharbi等人提出用連續(xù)Markov鏈描述設(shè)備壽命的維護(hù)結(jié)構(gòu),通過(guò)控制設(shè)備生產(chǎn)率和預(yù)維修率使目標(biāo)函數(shù)達(dá)到最優(yōu)化[7]。Jin 等人[8]利用馬爾可夫決策過(guò)程描述設(shè)備維修或替換等維護(hù)活動(dòng)的概率轉(zhuǎn)移函數(shù),得到一個(gè)生產(chǎn)系統(tǒng)的預(yù)防性維護(hù)優(yōu)化模型。陳靜靜提出利用MDP模型同時(shí)考慮劣化故障和隨機(jī)故障兩種故障類(lèi)型,制定針對(duì)單臺(tái)設(shè)備工作排序、清洗和維修的長(zhǎng)期維護(hù)優(yōu)化策略[9]。以上關(guān)于MDP模型的應(yīng)用多采用固定式轉(zhuǎn)移概率,在一定程度上反映了狀態(tài)的變化過(guò)程。根據(jù)生產(chǎn)實(shí)際可以考慮采用動(dòng)態(tài)的轉(zhuǎn)移概率反映不同狀態(tài)下的狀態(tài)轉(zhuǎn)移情況。

    本文將利用連續(xù)時(shí)間的MDP模型描述單臺(tái)設(shè)備工作狀態(tài),充分體現(xiàn)生產(chǎn)實(shí)際中設(shè)備工作、維護(hù)的連續(xù)性,綜合考慮轉(zhuǎn)移概率和實(shí)施方案選擇的動(dòng)態(tài)性和隨機(jī)性,利用MATLAB實(shí)現(xiàn)優(yōu)化獲取最佳維護(hù)周期。在系統(tǒng)層維護(hù)中以混聯(lián)結(jié)構(gòu)為框架應(yīng)用該模型,對(duì)其實(shí)現(xiàn)優(yōu)化仿真,驗(yàn)證其可行性。

1 連續(xù)時(shí)間的MDP模型

    作為描述動(dòng)態(tài)隨機(jī)系統(tǒng)優(yōu)化決策問(wèn)題的一類(lèi)基本數(shù)學(xué)模型,MDP模型通常用四元組{S,A,P,R}表示,其中S為狀態(tài)空間,A為行為空間,P為轉(zhuǎn)移概率(滿(mǎn)足無(wú)后效性),R為回報(bào)函數(shù),在一定意義上可以理解為目標(biāo)函數(shù)。

    定義行為策略π表示從狀態(tài)集合S到行為選擇概率的映射,即π:S→P(a)。

1.1 離散空間的MDP

jsj4-1.1-x1.gif

1.2 連續(xù)時(shí)間的MDP

jsj4-gs1-2.gif

其中,r為回報(bào)函數(shù),對(duì)于其積分即為目標(biāo)函數(shù)。需要尋找最佳π使Vπ(x)達(dá)到最優(yōu)解。

    實(shí)際生產(chǎn)系統(tǒng)中設(shè)備工作環(huán)境復(fù)雜,設(shè)備的自身工作狀態(tài)、運(yùn)轉(zhuǎn)環(huán)境、已維護(hù)次數(shù)等信息直接關(guān)系生產(chǎn)線(xiàn)的效益,合理的維護(hù)策略和預(yù)先安排能夠有效降低因突發(fā)事件帶來(lái)的巨大損失。MDP模型能夠形象地模擬不同維護(hù)策略對(duì)設(shè)備狀態(tài)的影響。對(duì)于整個(gè)生產(chǎn)系統(tǒng),要獲得最優(yōu)維護(hù)策略,首先需要研究每臺(tái)設(shè)備的維護(hù)策略。本文利用連續(xù)時(shí)間的MDP模型研究單臺(tái)設(shè)備維護(hù)策略,然后研究在交貨期、在制品數(shù)和成品率等因素的綜合影響下,系統(tǒng)層的維護(hù)策略。

2 單臺(tái)設(shè)備維護(hù)策略

    在生產(chǎn)實(shí)際中設(shè)備的工作狀態(tài)具有連續(xù)性的特點(diǎn),因此,利用連續(xù)時(shí)間的MDP模型能夠更加合理地模擬設(shè)備退化過(guò)程。在連續(xù)時(shí)間的MDP模型中,狀態(tài)空間、行為空間均為連續(xù)空間,狀態(tài)轉(zhuǎn)移時(shí)間也是連續(xù)的。本文將在此基礎(chǔ)上進(jìn)一步考慮轉(zhuǎn)移概率的動(dòng)態(tài)性方案選擇的隨機(jī)性。本文將設(shè)備的狀態(tài)空間設(shè)定為連續(xù)空間,綜合考慮設(shè)備自身運(yùn)轉(zhuǎn)狀態(tài)、成品率、維修記錄等因素,利用連續(xù)函數(shù)擬合設(shè)備自然狀態(tài)下的退化過(guò)程,實(shí)現(xiàn)設(shè)備整個(gè)生命周期中狀態(tài)的連續(xù)性。

    首先,根據(jù)生產(chǎn)實(shí)際數(shù)據(jù)擬合狀態(tài)空間x(τ),0<τ≤m。x(τ)是關(guān)于自然退化時(shí)間τ的連續(xù)函數(shù),表示設(shè)備的自然退化過(guò)程。根據(jù)實(shí)際情況,狀態(tài)空間x(τ)為遞減函數(shù)。隨著時(shí)間的延續(xù),當(dāng)?shù)竭_(dá)時(shí)刻m時(shí)設(shè)備將退化至某一劣化極限x(m),狀態(tài)x(m)表示設(shè)備出現(xiàn)故障,必須進(jìn)行故障性維修。

    行為空間u(t)表示t時(shí)刻系統(tǒng)處于狀態(tài)x(τ)可采用的行為的集合。

    jsj4-gs3.gif

且當(dāng) x(τ)=x(m)時(shí)u(t)=1,當(dāng)x(τ)<x(m)時(shí)設(shè)備處于無(wú)法修復(fù)狀態(tài),停止工作。

    狀態(tài)轉(zhuǎn)移矩陣P(i,j,a)表示設(shè)備處于狀態(tài)x(i),采用方案a后,設(shè)備狀態(tài)轉(zhuǎn)移到x(j)的概率,其中i,j∈τ。轉(zhuǎn)移概率P(i,j,a)的隨機(jī)性表現(xiàn)為:

jsj4-gs4-6.gif

    r(x(τ),u(t))表示設(shè)備處于狀態(tài)x(τ)時(shí)采用方案u(t)獲得的收益。π(u(t))表示所采用的一系列維護(hù)策略,即在每個(gè)維護(hù)時(shí)刻所采用的方案,目標(biāo)即為尋找一個(gè)最優(yōu)維護(hù)策略π*(u(t))使效益最大化。本文中維護(hù)策略π的選擇由轉(zhuǎn)移概率的動(dòng)態(tài)性和方案選擇的隨機(jī)性體現(xiàn)。在此基礎(chǔ)上確定最優(yōu)維護(hù)周期T,使目標(biāo)函數(shù)達(dá)到最優(yōu)解。

    平穩(wěn)策略的值函數(shù):

    jsj4-gs7-8.gif

    若u(t)≡0則設(shè)備狀態(tài)變化過(guò)程為服從函數(shù)x(τ),即設(shè)備自然退化過(guò)程。且有,若采用最優(yōu)維護(hù)策略π*(u(t)),則所對(duì)應(yīng)的狀態(tài)空間為x*(τ)。目標(biāo)即為尋找最優(yōu)維護(hù)策略π*(u(t))和最優(yōu)維護(hù)周期T*使系統(tǒng)效益最大化。

    假設(shè)維護(hù)周期為l,采用一定維護(hù)策略后,單位時(shí)間產(chǎn)生的效益為h(t),其與狀態(tài)空間具有線(xiàn)性關(guān)系。則一個(gè)維護(hù)周期內(nèi)獲得效益:

    jsj4-gs9.gif

其中g(shù)(a)表示選擇方案a的概率,x(i)表示設(shè)備所處狀態(tài)。最佳維護(hù)策略π*即使效益最大化的維護(hù)周期T和實(shí)施方案a,π*π(T,a1,a2,a3,…,an),an∈a。

    目標(biāo)函數(shù):

    jsj4-gs10.gif

其中,u1、u2分別表示設(shè)備進(jìn)行一次預(yù)防性維修和故障性維修的費(fèi)用,v1、v2分別表示設(shè)備進(jìn)行預(yù)防性維修和故障性維修的次數(shù)。

3 系統(tǒng)層維護(hù)策略

    對(duì)于生產(chǎn)系統(tǒng),根據(jù)連接形式的不同各單臺(tái)設(shè)備所得效益在系統(tǒng)層效益中反映的程度不同。本文研究假設(shè),對(duì)于串聯(lián)結(jié)構(gòu)的效益,以串聯(lián)結(jié)構(gòu)中效益最大的單臺(tái)設(shè)備的效益作為評(píng)價(jià)標(biāo)準(zhǔn)。并聯(lián)結(jié)構(gòu)的效益,以各單臺(tái)設(shè)備效益之和為評(píng)價(jià)標(biāo)準(zhǔn)。

    串聯(lián)系統(tǒng)效益:

jsj4-gs11-12.gif

    在系統(tǒng)混聯(lián)結(jié)構(gòu)中,將并聯(lián)設(shè)備作為一個(gè)單元與串聯(lián)設(shè)備一起作為串聯(lián)結(jié)構(gòu)考慮。

    混聯(lián)系統(tǒng)效益:

jsj4-gs13.gif

    本文以混聯(lián)結(jié)構(gòu)為模型框架研究最優(yōu)維護(hù)策略,系統(tǒng)層維護(hù)策略模型滿(mǎn)足maxQπ(l),即獲得能夠使系統(tǒng)效益最大化的維護(hù)周期l和相應(yīng)的各個(gè)周期的實(shí)施方案。

4 案例仿真

    為驗(yàn)證模型的可行性和有效性,本文采用以下算例進(jìn)行分析。如圖1所示,系統(tǒng)由5臺(tái)退化模型相同的設(shè)備組成,按統(tǒng)一周期進(jìn)行仿真。設(shè)備自然退化過(guò)程x(τ)通過(guò)擬合為8次多項(xiàng)式,極限工作時(shí)間8 000。一次故障性維修的費(fèi)用u2=5 000元,一次預(yù)防性維修的費(fèi)用u1=1 000元。轉(zhuǎn)移概率P(i,j,a)的分布如下:

    jsj4-gs14.gif

jsj4-t1.gif

    實(shí)施方案選擇原則如下:

    jsj4-t1-x1.gif

    利用MATLAB建模仿真獲得如圖2結(jié)果。由圖2可知,在此模型假設(shè)基礎(chǔ)上,當(dāng)維護(hù)周期為1 700 h時(shí)效益最大化。維護(hù)周期較低時(shí),頻繁的維護(hù)會(huì)增加維護(hù)費(fèi)用導(dǎo)致效益降低。維護(hù)周期太大時(shí),設(shè)備維護(hù)不及時(shí),故障停機(jī)的概率增加,設(shè)備利用率下降,導(dǎo)致效益下降。

jsj4-t2.gif

    由圖3可知,在設(shè)備運(yùn)轉(zhuǎn)初期(0<t<2 500),當(dāng)?shù)竭_(dá)維護(hù)周期時(shí)選擇正常運(yùn)轉(zhuǎn)(a=0)而不實(shí)施維護(hù)措施的概率為40%;在運(yùn)轉(zhuǎn)中期(2 500<t<5 600),選擇預(yù)防性維護(hù)(a=1)的概率為61%;在運(yùn)轉(zhuǎn)后期(t>5 600),選擇故障性維護(hù)(a=2)的概率為54%。由此可知,在設(shè)備運(yùn)行后期隨著設(shè)備可靠性的降低,故障維修的次數(shù)增加,符合生產(chǎn)實(shí)際,證明方案選擇假設(shè)可行。

jsj4-t3.gif

    本文以混聯(lián)結(jié)構(gòu)為框架應(yīng)用此模型,分析系統(tǒng)的設(shè)備利用率,與基于離散空間的MDP維護(hù)策略進(jìn)行比較。如圖4所示,采用連續(xù)時(shí)間MDP模型下的平均利用率為0.992 48,采用離散MDP模型的平均利用率為0.987 22。由此可知,連續(xù)時(shí)間MDP模型下的維護(hù)策略能夠有效提高設(shè)備利用率,從而在一定程度上提高效益,進(jìn)一步證明基于連續(xù)時(shí)間MDP模型的維護(hù)決策的有效性和可行性。

jsj4-t4.gif

5 結(jié)論

    在生產(chǎn)實(shí)際中設(shè)備狀態(tài)屬于連續(xù)變化量,本文采用連續(xù)時(shí)間的MDP模型模擬設(shè)備狀態(tài)連續(xù)變化過(guò)程下系統(tǒng)效益的連續(xù)變化過(guò)程。綜合考慮生產(chǎn)實(shí)際因素,利用生產(chǎn)實(shí)際數(shù)據(jù)模擬設(shè)備自然退化過(guò)程,將連續(xù)變化的設(shè)備狀態(tài)轉(zhuǎn)化為效益的變化過(guò)程,以效益最大化為目標(biāo)獲得最優(yōu)維護(hù)策略。系統(tǒng)層框架結(jié)構(gòu)在基于連續(xù)時(shí)間的MDP模型下,將生產(chǎn)系統(tǒng)的現(xiàn)實(shí)因素融于控制條件,進(jìn)一步控制維護(hù)策略,獲得較為合理的維護(hù)策略。仿真結(jié)果顯示,基于連續(xù)時(shí)間MDP模型應(yīng)用于生產(chǎn)系統(tǒng),可有效提高設(shè)備利用率和產(chǎn)量,改善系統(tǒng)性能,從而提高生產(chǎn)線(xiàn)效益。

參考文獻(xiàn)

[1] 吳洪飛.基于非齊次馬爾可夫過(guò)程的多動(dòng)作動(dòng)態(tài)維護(hù)策略研究[D].上海:上海交通大學(xué),2008.

[2] 王振雷.模糊神經(jīng)網(wǎng)絡(luò)理論及其在復(fù)雜系統(tǒng)中的應(yīng)用研究[D].沈陽(yáng):東北大學(xué),2002.

[3] 徐瑜,危韌勇.神經(jīng)網(wǎng)絡(luò)在控制系統(tǒng)中的應(yīng)用現(xiàn)狀及展望[J].電腦知識(shí)與技術(shù),2006(5):178-179,187.

[4] 徐英智.一種新型模糊神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用[D].西安:西安電子科技大學(xué),2008.

[5] 馬俊偉.動(dòng)態(tài)模糊神經(jīng)網(wǎng)絡(luò)在非線(xiàn)性系統(tǒng)中的應(yīng)用研究[D].沈陽(yáng):東北大學(xué),2010.

[6] 徐昕,沈棟,高巖青,等.基于馬氏決策過(guò)程模型的動(dòng)態(tài)系統(tǒng)學(xué)習(xí)控制:研究前沿與展望[J].自動(dòng)化學(xué)報(bào),2012(5):673-687.

[7] GHARBI A,KENNE′ J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers & Industrial Engineering,2005(48):693-707.

[8] JIN Y L,JIANG Z H,HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University,2006,40(12):2051-2056.

[9] 陳靜靜.基于MDP的半導(dǎo)體制造設(shè)備維護(hù)調(diào)度研究[J].電子測(cè)量技術(shù),2012(3):24-27.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。