《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 測試測量 > 設(shè)計應(yīng)用 > 基于多Agent的容錯中間件失效處理系統(tǒng)的研究
基于多Agent的容錯中間件失效處理系統(tǒng)的研究
來源:微型機與應(yīng)用2013年第17期
黃細閩,郭朝珍
(福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州350108)
摘要: 針對敏感行業(yè)中分布式應(yīng)用的容錯需求問題,分析介紹Agent、多Agent系統(tǒng)和容錯中間件技術(shù),根據(jù)Agent和中間件特性結(jié)構(gòu)上的相似性,對利用多Agent技術(shù)構(gòu)建容錯中間件作了嘗試,并著重研究了失效檢測與恢復(fù)系統(tǒng);建立局部檢測與全局檢測互相結(jié)合的雙層失效檢測模型,提出融入定點恢復(fù)和異機恢復(fù)的改進型REDO失效恢復(fù)策略;最后給出基于JADE的一個系統(tǒng)實現(xiàn)。實驗結(jié)果顯示雙層檢測模型和改進型REDO恢復(fù)策略是可行的、高效率的。
Abstract:
Key words :

摘  要: 針對敏感行業(yè)中分布式應(yīng)用的容錯需求問題,分析介紹Agent、多Agent系統(tǒng)和容錯中間件技術(shù),根據(jù)Agent和中間件特性結(jié)構(gòu)上的相似性,對利用多Agent技術(shù)構(gòu)建容錯中間件作了嘗試,并著重研究了失效檢測與恢復(fù)系統(tǒng);建立局部檢測與全局檢測互相結(jié)合的雙層失效檢測模型,提出融入定點恢復(fù)和異機恢復(fù)的改進型REDO失效恢復(fù)策略;最后給出基于JADE的一個系統(tǒng)實現(xiàn)。實驗結(jié)果顯示雙層檢測模型和改進型REDO恢復(fù)策略是可行的、高效率的。
關(guān)鍵詞: 多Agent系統(tǒng)(MAS);容錯中間件;失效檢測;失效恢復(fù);JADE平臺

 容錯中間件[1-2]是一個可為開發(fā)者提供分布式應(yīng)用容錯支持的開發(fā)平臺。容錯中間件將容錯邏輯從應(yīng)用邏輯中分離出來,為容錯應(yīng)用開發(fā)提供框架支持,簡化業(yè)務(wù)應(yīng)用開發(fā),同時使開發(fā)過程變得清晰。目前,容錯中間件的研究和實現(xiàn)主要是基于分布對象。國外主要產(chǎn)品有:基于JavaRMI的Arjuna系統(tǒng),F(xiàn)ilterFresh系統(tǒng)等;基于DCOM的COMERA系統(tǒng);基于CORBA的OGS系統(tǒng),Enteral系統(tǒng)等。國內(nèi)方面主要有國防科學(xué)技術(shù)大學(xué)研發(fā)的分布應(yīng)用容錯計算平臺StarFT。
 中間件包括平臺功能,自身具有自治性、自主性、隔離性、社會化、激發(fā)性、主動性、并發(fā)性、認(rèn)識能力等特性,是近似于Agent的結(jié)構(gòu),因此利用Agent來建立容錯中間件是一個不錯的選擇。
失效檢測[3]與恢復(fù)是實現(xiàn)容錯的核心問題。檢測到失效是容錯恢復(fù)的前提,因此,失效檢測是實現(xiàn)容錯不可或缺的一部分。失效恢復(fù)是容錯的目標(biāo),也是容錯技術(shù)提高系統(tǒng)效率的關(guān)鍵所在。
 本文在分析介紹Agent[4]和多Agent系統(tǒng)[5-9]之后,給出了容錯中間件中的失效檢測模型和恢復(fù)策略,最后討論了基于JADE[10-12]的系統(tǒng)實現(xiàn)。
1 相關(guān)技術(shù)
1.1 Agent的定義及其結(jié)構(gòu)

 Agent(代理)概念起源于人工智能領(lǐng)域,是指用于模仿人類能力的自主實體,駐留在某一環(huán)境下能持續(xù)、自主地發(fā)揮作用。Agent的基本結(jié)構(gòu)如圖1所示。

 Agent一般具有自主性、反應(yīng)性、交互性、協(xié)作性、主動性和智能性等特性。但在實際的系統(tǒng)中,Agent并不能保證具有以上的全部特性。
1.2 多Agent系統(tǒng)
 多Agent系統(tǒng)是由多個Agent組成的一個社會整體,不同的Agent可以控制或影響環(huán)境的不同部分,多個Agent可以通過Agent通信語言進行交互,分工合作,實現(xiàn)更為復(fù)雜、單個Agent無法解決的問題。多Agent系統(tǒng)可以有效地解決數(shù)據(jù)、控制具有分布性的問題,并能提高系統(tǒng)的效率和魯棒性。
1.3 容錯技術(shù)
 使得系統(tǒng)在部分節(jié)點失效或是部分對象崩潰的情況下仍能正常運行并得到預(yù)期結(jié)果的技術(shù)稱為容錯技術(shù)。軟件容錯借鑒硬件容錯的成功經(jīng)驗,經(jīng)常采用冗余技術(shù)進行處理。軟件容錯方法主要有錯誤回卷恢復(fù)、恢復(fù)塊、N版本軟件。
 錯誤回卷恢復(fù)主要分為兩大類:基于檢查點的錯誤回卷恢復(fù)、基于日志的錯誤回卷恢復(fù)?;跈z查點的錯誤回卷恢復(fù)的核心思想是任務(wù)執(zhí)行過程中設(shè)置檢查點,發(fā)現(xiàn)失效時不需要從頭開始運行,而是直接從最后一個成功執(zhí)行的檢查點往下執(zhí)行?;谌罩镜腻e誤回卷恢復(fù)則是在判斷失效發(fā)生后,利用發(fā)生失效前最近的檢查點和日志信息完全重新運行作業(yè)的過程。
恢復(fù)塊的主要思想是:系統(tǒng)被劃分成若干恢復(fù)塊,整個系統(tǒng)由這些恢復(fù)塊組成。每個塊包含一個首要執(zhí)行模塊和一些替換模塊。若首要執(zhí)行模塊輸出結(jié)果驗收失敗,則調(diào)用第二個模塊;若再次失敗,則繼續(xù)調(diào)用另外的替換模塊。重復(fù)該操作,直到所有模塊均被調(diào)用,或超出時間限制。
    N版本軟件的方法與硬件容錯的NMR方法類似。N(N>=2)個以不同方式實現(xiàn)的功能相同的模塊同時執(zhí)行,由表決器判定正確的結(jié)果,作為模塊的結(jié)果。
2 失效檢測
2.1 失效檢測模型

 本文設(shè)計的失效檢測系統(tǒng)主要由兩部分組成:局部檢測Agent,LDA(Local Detector Agent)和全局檢測Agent,GDA(Global Detector Agent)。LDA駐留在各節(jié)點,負(fù)責(zé)所駐留節(jié)點中實體的檢測工作;GDA負(fù)責(zé)各LDA及其所駐留節(jié)點的檢測工作。設(shè)計的檢測模型如圖2所示。

 

 

 各部分詳細描述如下:
 檢測對象:需要進行檢測的實體,可以是一個應(yīng)用程序?qū)ο?、也可以是一個進程、甚至是一個Agent;任何檢測對象在啟動時均需向LDA注冊。
 LDA:每個工作中的節(jié)點均駐留有一個專屬的LDA,負(fù)責(zé)所屬節(jié)點中檢測對象的檢測及在發(fā)現(xiàn)失效時給出通告;任何LDA必須成功注冊到GDA后才能開始工作。
 GDA:整個系統(tǒng)只有一個GDA,GDA駐留在主控節(jié)點,主要負(fù)責(zé)對各LDA的失效檢測、分類及通告的工作。
 失效處理器:接收來自LDA或GDA的失效通告,對失效進行處理。
2.2 局部檢測Agent
 LDA必須成功注冊到GDA后才能開始工作,若注冊失敗,允許重啟,當(dāng)重啟次數(shù)超過設(shè)定閾值(比如3次)則給出警告,提請系統(tǒng)管理員介入,查看是否LDA程序出現(xiàn)錯誤。
 任何檢測對象在啟動時都需要向該節(jié)點所屬LDA注冊,LDA根據(jù)各檢測對象的注冊信息建立并維護檢測對象及其狀態(tài)等信息的狀態(tài)表。流程如圖3所示。
 LDA定時對狀態(tài)表中各檢測對象執(zhí)行失效檢測算法,然后更新狀態(tài)表,并在發(fā)現(xiàn)失效對象時通告失效處理器。執(zhí)行流程如圖4所示。

 失效檢測主要有兩種模式:心跳模式,或稱“推”模式;輪詢模式,或稱“拉”模式。“推”模式的思想是:被檢測實體定時向檢測器發(fā)送心跳信息,檢測器在一段設(shè)定的時間內(nèi)沒收到心跳信息,則判定實體失效;“拉”模式則為:檢測器定時向被檢測實體發(fā)送詢問信息,被檢測實體應(yīng)答檢測器以申明自己未失效,檢測器在發(fā)出詢問后一段設(shè)定的時間內(nèi)沒收到應(yīng)答,則判定實體失效。本文采用的測試模式是“拉”模式,在一個檢測間隔里完成對所有檢測對象的詢問及應(yīng)答的接收或失效的判斷。如果檢測間隔太短,將無法正確處理對所有對象的檢測;而如果檢測間隔太長,則無法及時發(fā)現(xiàn)失效。因此,檢測間隔的設(shè)定需要一個綜合的折中考慮。
2.3 全局檢測Agent
 整個系統(tǒng)只有一個GDA,GDA駐留在主控節(jié)點,主要負(fù)責(zé)對各LDA及其所在節(jié)點的失效檢測工作。如LDA維護檢測對象的狀態(tài)信息表一般,GDA根據(jù)各LDA注冊信息創(chuàng)建并維護針對LDA的狀態(tài)信息表。由于GDA與LDA一般駐留在不同節(jié)點,檢測時需要進行遠程通信,當(dāng)發(fā)現(xiàn)LDA失效,需要進一步識別失效類型。主要失效類型有:LDA失效;通信失效;LDA所在節(jié)點失效。
3 失效恢復(fù)
3.1 恢復(fù)策略

 本文主要采取的恢復(fù)策略是REDO策略,即檢測對象失效時,由失效處理器根據(jù)接收到的失效通告重啟該對象。在此基礎(chǔ)上針對一些比較特殊的檢測對象,執(zhí)行更為符合其需求的恢復(fù)方法。
 對于大數(shù)據(jù)量處理的對象,其執(zhí)行可能涉及成千上萬的數(shù)據(jù)庫記錄,如果只是簡單的REDO,則已經(jīng)處理過的記錄將會全部被再次處理,造成性能的重大浪費。因此,可以建立該對象的執(zhí)行日志,維護該對象成功處理的記錄條數(shù)或是序號;當(dāng)該對象需要被恢復(fù)時,根據(jù)執(zhí)行日志直接從最后成功處理的記錄往下執(zhí)行,也就是對該對象進行定點恢復(fù)。采用定點恢復(fù)將大大的提高系統(tǒng)的性能,避免大量時間的浪費。
 對于在同一節(jié)點多次失效的對象,則可以考慮在另外的節(jié)點重新啟動,稱為對該對象的異機恢復(fù)。
3.2 定點恢復(fù)、異機恢復(fù)
 定點恢復(fù)很重要的一個方面是恢復(fù)點的記錄,本文采用的是建立執(zhí)行日志的方式。對于大量數(shù)據(jù)庫記錄處理的對象,假設(shè)需要處理1 000條記錄,每10條記錄設(shè)置一個恢復(fù)點,即當(dāng)成功執(zhí)行第10、20、30、……、1 000條記錄時,執(zhí)行日志將產(chǎn)生一行日志信息表示該條記錄以及其之前的記錄已成功執(zhí)行。若對象在執(zhí)行第901至910條記錄時失效,恢復(fù)該對象時根據(jù)執(zhí)行日志最后一行信息可以知道第900條以及之前的記錄已成功執(zhí)行,于是,可以直接從第901條記錄開始處理,而不是從第1條記錄開始。由此可見,運用定點恢復(fù)可以避免大量無謂的時間浪費,很大程度上提高系統(tǒng)的性能。
 一個對象在同一個節(jié)點失效次數(shù)超過設(shè)定閾值(比如4次),無論是該節(jié)點機器兼容性問題還是資源搶占問題,單純的在本機上的REDO已經(jīng)不能解決問題。因此,可以考慮對該對象進行異機恢復(fù),在另一個節(jié)點重啟該對象。
 對于只采取REDO恢復(fù)策略的對象,只需要在選定的節(jié)點上啟動該對象,并在注冊信息里修改該對象所在地址即可實現(xiàn)異機恢復(fù)。
 對于已運用定點恢復(fù)策略的對象,異機恢復(fù)時可以不考慮其已執(zhí)行情況,簡單地在另一個節(jié)點重啟;也可以結(jié)合異機恢復(fù)與定點恢復(fù),將該對象執(zhí)行日志復(fù)制到選定的節(jié)點,實現(xiàn)在異機上的定點恢復(fù)。
4 系統(tǒng)實現(xiàn)
4.1 基于JADE的系統(tǒng)實現(xiàn)

 JADE中,任何Agent必須向AMS注冊[11]。因此,對于檢測對象是Agent的情形,其主要注冊信息可由AMS獲取,負(fù)責(zé)檢測該Agent的LDA或者GDA只需記錄該Agent的標(biāo)識及其狀態(tài)。
 系統(tǒng)實現(xiàn)的各Agent按照職能不同分別駐留在主控節(jié)點和各計算節(jié)點上。主要有駐留在主控節(jié)點的容錯Agent(FTA,F(xiàn)ault Tolerant Agent)、日志收集Agent(LCA,Log Collector Agent);駐留在各計算節(jié)點的局部檢測Agent(LDA,Local Detector Agent)、日志Agent(LA,Log Agent)、恢復(fù)Agent(RA,Recovery Agent);檢測對象為在各計算節(jié)點上提供服務(wù)的計算Agent(CA,Compute Agent)。各Agent相互關(guān)系如圖5所示。

 各Agent詳細功能如下所述:
 LDA:負(fù)責(zé)CA、LA、RA的檢測工作。發(fā)現(xiàn)LA或CA失效時向RA發(fā)出本機恢復(fù)請求;必要時向FTA發(fā)出CA異機恢復(fù)請求;負(fù)責(zé)RA的本機恢復(fù)工作。(本文設(shè)定檢測間隔為1 000 ms)
FTA:負(fù)責(zé)LDA、LCA的檢測工作。發(fā)現(xiàn)LDA失效時向其所在節(jié)點的RA發(fā)出LDA恢復(fù)請求;接收來自LDA的CA異機恢復(fù)請求并將該請求轉(zhuǎn)發(fā)到合適的節(jié)點;負(fù)責(zé)LCA的恢復(fù)工作。另外,F(xiàn)TA還負(fù)責(zé)LDA所在主機的檢測及通報工作。
 RA:接收來自LDA的本機恢復(fù)請求,并按照請求恢復(fù)本機的LA或CA;接收來自FTA的LDA恢復(fù)請求,并按照請求恢復(fù)本機上的LDA;接收來自FTA的CA異機恢復(fù)請求,并在本機上啟動指定的CA,實現(xiàn)異機恢復(fù);必要時對CA進行定點恢復(fù)。
 CA:計算能力提供者,屬于業(yè)務(wù)系統(tǒng),本文所設(shè)計容錯系統(tǒng)的服務(wù)對象。
 LA:本機日志記錄器;負(fù)責(zé)本機上各Agent運行情況的記錄,并將必要的信息發(fā)送給日志收集器LCA;負(fù)責(zé)用于定點恢復(fù)CA所必須的CA執(zhí)行日志的創(chuàng)建及維護。
 LCA:日志收集器;負(fù)責(zé)收集各節(jié)點的日志信息(CA執(zhí)行日志不在收集范圍內(nèi));負(fù)責(zé)記錄FTA的運行情況。
 分析上述Agent詳細功能,RA即為前述檢測模型中的失效處理器(主要處理策略是REDO,即重新啟動);LDA除去本機檢測工作外,還負(fù)擔(dān)了一部分失效處理器的工作(RA的恢復(fù));FTA主要表現(xiàn)為前述模型中的全局檢測器GDA,此外,也負(fù)擔(dān)了一部分失效處理器的工作(LCA的恢復(fù);LDA恢復(fù)請求、CA異機恢復(fù)請求的轉(zhuǎn)發(fā))。
4.2 容錯Agent
 容錯Agent(FTA)在系統(tǒng)中起著極其重要的作用,負(fù)責(zé)全局檢測工作與恢復(fù)請求的調(diào)度。為檢測各LDA,F(xiàn)TA需要維護一張記錄LDA信息的狀態(tài)表。由于LDA作為一個Agent,其主要信息均可從AMS獲取,F(xiàn)TA實際需要維護的信息僅僅是LDA標(biāo)識(AID)及LDA狀態(tài)(是否正常)。本文選用HashMap<AID,Boolean>作為記錄LDA狀態(tài)信息的數(shù)據(jù)結(jié)構(gòu),key-value對分別記錄LDA標(biāo)識及LDA狀態(tài)。
定義一個TickerBehaviour負(fù)責(zé)周期性的更新LDA狀態(tài)表和LDA的失效判斷與處理工作。周期設(shè)定為1 000 ms。LDA失效判斷與處理算法如下描述:
?。?)從AMS獲取Agent描述信息AMSAgentDescription;
?。?)遍歷LDA狀態(tài)表,與AMSAgentDescription進行比對,更新狀態(tài)表;
 (3)若所有LDA狀態(tài)均為true,則算法結(jié)束;否則,轉(zhuǎn)到(4);
 (4)對狀態(tài)為false的LDA,通過AMSAgentDescription找尋與該LDA同節(jié)點的恢復(fù)Agent(RA);若該RA存在,則轉(zhuǎn)到(5);若不存在,則ping該節(jié)點地址,然后轉(zhuǎn)到(6);
?。?)標(biāo)識失效類型為LDA失效并請求該RA恢復(fù)其節(jié)點所屬LDA,然后轉(zhuǎn)到(7);
   (6)若ping該節(jié)點有響應(yīng),則標(biāo)識失效類型為節(jié)點系統(tǒng)失效并給出警告;若無響應(yīng),則標(biāo)識失效類型為節(jié)點主機失效并給出警告;
   (7)若全部狀態(tài)為false的LDA均處理完畢,則算法結(jié)束;否則,取下一個狀態(tài)為false的LDA,然后轉(zhuǎn)到(4)。
5 實驗結(jié)果
    系統(tǒng)主控節(jié)點的計算機配置如下:Windows 7(32位)操作系統(tǒng);Intel(R)Core(TM)i3-2120 CPU@3.30 GHz;4 GB內(nèi)存。
 系統(tǒng)計算節(jié)點(3臺)的計算機配置如下:Windows 7(32位)操作系統(tǒng);Intel(R)Core(TM)2 Quad CPU Q8400@2.66GHz 2.67GHz;4.00 GB內(nèi)存。
5.1 系統(tǒng)測試
 臺風(fēng)預(yù)報系統(tǒng)[13]中的相似路徑計算是一個分布式、多Agent的計算過程,其計算節(jié)點的失效將導(dǎo)致整體計算結(jié)果的不可靠,故為其提供容錯是必要的。在此背景下,本文以在臺風(fēng)預(yù)報系統(tǒng)中提供相似路徑計算服務(wù)的計算Agent為系統(tǒng)檢測對象,對系統(tǒng)進行功能和性能上的測試。主控和各計算節(jié)點啟動、各功能Agent加載后,可在主控節(jié)點RMA控制界面查看詳細信息。
 Main_Container(主容器)包含維持JADE平臺功能的3個服務(wù):ams、df和rma;masterContainer(主控節(jié)點容器)包含3個Agent:容錯Agent(FTA)、日志收集Agent(LCA)和主控Agent(MA),MA屬于臺風(fēng)預(yù)報系統(tǒng)的業(yè)務(wù)處理Agent,主要負(fù)責(zé)計算任務(wù)的分發(fā),不是本文研究重點,故不進行詳細敘述;之后是3個computeContainer(計算節(jié)點容器),每個computeContainer里包含有計算Agent(CA)、局部檢測Agent(LDA)、日志Agent(LA)、恢復(fù)Agent(RA)以及負(fù)載平衡Agent(LBA),LBA負(fù)責(zé)計算各計算節(jié)點的負(fù)載值和計算能力值,為MA分發(fā)任務(wù)和FTA申請異機恢復(fù)時選擇節(jié)點提供參考。為方便操作,特制定Agent命名規(guī)則如下:(XXXXAgent)_(IP)_(端口號)。如:
recoverAgent_218.193.124.101_1013@Softlab-C-PC:1099/JADE
 其中,“@”之前為本文系統(tǒng)指定的Agent名,“@”之后則為JADE平臺自動添加的標(biāo)識。
5.2 結(jié)論
 經(jīng)過比較大量的測試,各Agent本機恢復(fù)均可在1 s內(nèi)完成;異機恢復(fù)花費時間較長,在2 s到3 s之間。系統(tǒng)功能和性能上均符合本文前述內(nèi)容的要求。由此印證本文提出的兩層失效檢測模型和改進行的REDO恢復(fù)策略真實可行。
 Agent所表現(xiàn)出來的自主性、反應(yīng)性、交互性、協(xié)作性、主動性和智能性等特性,為構(gòu)建容錯中間件提供了一種新的技術(shù)途徑。采用兩層的失效檢測模型,局部檢測Agent與全局檢測Agent等多Agent分工合作,能夠較好地協(xié)作完成失效檢測的工作。定點恢復(fù)的采用大大的提高了系統(tǒng)的效率。基于多Agent的容錯中間件融合了Agent技術(shù)、容錯技術(shù)與中間件技術(shù),能夠為分布式容錯應(yīng)用開發(fā)提供框架支持,提供自主的、協(xié)作的失效檢測和恢復(fù)服務(wù),簡化業(yè)務(wù)應(yīng)用開發(fā)過程,提高系統(tǒng)的效率和魯棒性。
參考文獻
[1] 張龍,孟慶鑫.基于中間件的容錯服務(wù)的研究[J].計算機與網(wǎng)絡(luò),2009(12):62-64.
[2] 裘方敏.分布式系統(tǒng)容錯中間件的研究與實現(xiàn)[D].長沙:中南大學(xué),2007.
[3] 雷燕,豐雁.分布式系統(tǒng)失效檢測器模型的研究[J].河南科學(xué),2011(5):586-590.
[4] 毛新軍,常志明.面向Agent的軟件設(shè)計模式[J].計算機工程與科學(xué),2011(6):72-78.
[5] TOM?魣?譒EK M. Architecture of Multi-Agent System[C]. International Conference on Emerging eLearning Technologies and Applications. High Tatras, Slovakia, 2012.
[6] Jiang Guorui, Wu Lin. Research on Method of Multi-Agent Negotiation Strategy Selection[C]. ICCGI 2010:110-115.
[7] 張偉.多Agent系統(tǒng)協(xié)商模型研究與設(shè)計[D].石家莊:河北經(jīng)貿(mào)大學(xué),2011.
[8] 王俊,鄭笛,吳泉源.一種基于Agent的多粒度負(fù)載平衡中間件[J].計算機工程與科學(xué),2007(9):143-146.
[9] SYLVAIN D, GUESSOUM Z, ZIANE M. Adaptive Replication in Fault-Tolerant Multi-Agent Systems[C]. International Conferences on Web Intelligence and Intelligent Agent Technology, 2011.
[10] 劉漢雷.基于Jade的多Agent圖像檢索系統(tǒng)[D].武漢:華中科技大學(xué),2011.
[11] 于衛(wèi)紅.基于JADE平臺的多Agent系統(tǒng)開發(fā)技術(shù)[M].第一版.北京:國防工業(yè)出版社,2011:35-61.
[12] JADE PROGRAMMER′S GUIDE[DB/OL].http://jade.tilab.com/doc/programmersguide.pdf.
[13] 鄒宇,郭朝珍.臺風(fēng)綜合預(yù)報GDSS的研究[J].計算機與現(xiàn)代化,2010(2):11-14.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。