摘 要: 本文測試了基于網(wǎng)格計算技術(shù)的PC 集群系統(tǒng)在大規(guī)模油藏模擬中的使用,測試結(jié)果顯示大規(guī)模油藏模擬在最新的PC集群系統(tǒng)上高效運(yùn)行是可行的。
關(guān)鍵詞: 油藏模擬 網(wǎng)格計算 PC集群 高速網(wǎng)絡(luò)
1 數(shù)字油藏模擬對計算機(jī)性能的要求
在油田開發(fā)、地質(zhì)研究、大規(guī)模并行油藏模擬應(yīng)用方面,目前使用的主流數(shù)值模擬軟件有美國Schlumberger公司的并行Eclipse,美國Landmark公司的并行VIP和加拿大CMG公司的STARTS。這3個軟件都能夠提供數(shù)值模擬的前期預(yù)處理、模擬、后期處理的完整工作流模式,模擬黑油、組份和裂縫模型。當(dāng)前被模擬的油藏模型從幾十萬個單元到幾千萬個單元,運(yùn)行平臺主要是在專業(yè)的并行機(jī)。在未來幾年,隨著老油區(qū)開發(fā)難度的增大,油藏模型的面積和數(shù)量將會明顯地增加和擴(kuò)大。如果繼續(xù)用傳統(tǒng)的并行計算機(jī)來模擬,為了達(dá)到理想的模擬速度和效果,其硬件平臺的投資將很高。由于網(wǎng)格計算技術(shù)的發(fā)展,并行機(jī)市場不斷萎縮,其系統(tǒng)的擴(kuò)容、維護(hù)等都存在很大的問題。為了應(yīng)對面臨的挑戰(zhàn),本文對今后的數(shù)值模擬的硬件平臺作了一系列性能評估測試,其目的就是要去驗證和評估一個低成本、高性能的計算平臺,以滿足企業(yè)對油藏模擬的不斷增長的計算需求。
2 網(wǎng)格計算的發(fā)展
隨著微處理器、高速網(wǎng)絡(luò)、網(wǎng)格計算技術(shù)和Linux系統(tǒng)的發(fā)展,基于低成本的PC架構(gòu)的服務(wù)器和高速網(wǎng)絡(luò)構(gòu)成的Linux集群系統(tǒng)在高性能并行計算領(lǐng)域逐漸興起。網(wǎng)格計算為工程師、科研人員、和其他需要專門、高性能計算的人員提供了無縫的、對分布式計算的透明訪問的服務(wù),促成對已安裝的IT設(shè)施的更好使用率,跨平臺和地區(qū)的計算能力的更靈活管理和對資源的更好訪問。
網(wǎng)格計算的目標(biāo)是實現(xiàn)資源的集中調(diào)度、模塊化可擴(kuò)充的計算節(jié)點(diǎn)、資源的透明訪問和負(fù)載均衡。當(dāng)前正在建設(shè)的網(wǎng)格系統(tǒng)都是以PC集群作為網(wǎng)格主節(jié)點(diǎn),再通過網(wǎng)格中間件,將其他異構(gòu)的系統(tǒng)加入其中。PC集群是通過高速交換網(wǎng)絡(luò)連接的PC服務(wù)器的集合,其優(yōu)秀的性能得益于其計算核心(CPU)的性能的極大提高。目前,典型的PC集群采用的處理器的性能(例如主頻為1.8GHz的Opteron處理器)要遠(yuǎn)遠(yuǎn)超過傳統(tǒng)的并行機(jī)采用的處理器,3個處理器的性能(SPECfp2000,主要用于衡量處理器浮點(diǎn)運(yùn)算性能)對比如圖1所示。
Power3處理器用于IBM SP2并行系統(tǒng),Xeon以及Opteron處理器被廣泛地使用在低價位的PC服務(wù)器上。SPECfp2000測試值僅僅是衡量系統(tǒng)性能的一個指標(biāo),一個系統(tǒng)的整體性能高低還是要以應(yīng)用軟件的運(yùn)行效率來判斷。處理器性能測試指標(biāo)和處理器價格相比,PC集群比并行計算機(jī)有更好的性價比。
當(dāng)前IBM SP2并行機(jī)是新疆油田作數(shù)值模擬的計算平臺,運(yùn)行LandMark VIP和Schlumberger Eclipse。在國外,石油公司逐步采用了基于網(wǎng)格技術(shù)的PC 集群系統(tǒng)替代原有的并行機(jī)來作油藏模擬。
3 測試平臺的選型
為了驗證集群系統(tǒng)是否可行,我們和應(yīng)用集成商合作搭建了32個節(jié)點(diǎn)的基于雙AMD Opteron 64位處理器的系統(tǒng),節(jié)點(diǎn)間通信實驗了Infiniband、Myrinet、千兆以太網(wǎng)3種互聯(lián)方式。系統(tǒng)支持MPI調(diào)用和OpenMP二種并行機(jī)制。油藏模擬軟件選擇Landmark公司的VIP,計算網(wǎng)格的資源調(diào)度、作業(yè)分配都由VIP軟件來完成。
測試在IBM SP2并行機(jī)和運(yùn)行Linux系統(tǒng)的PC集群平臺上進(jìn)行。IBM SP2使用4個節(jié)點(diǎn),8個222MHz Power3處理器。PC集群系統(tǒng)是基于千兆以太網(wǎng)、Myrinet 高速交換技術(shù)和AMD Opteron 64位處理器。在配置集群系統(tǒng)時,應(yīng)從以下5點(diǎn)考慮:處理器(CPU)、網(wǎng)絡(luò)連接、內(nèi)存、I/O以及管理軟件等工具。
在集群的處理器方面,主要考察了Intel的Xeon處理器以及AMD的Opteron處理器。因為Intel處理器應(yīng)用范圍廣,應(yīng)用軟件兼容性好,而AMD Opteron 64位處理器可以向下兼容32位應(yīng)用,可以保護(hù)以前在32位平臺上的軟件投資,并且在未來軟件升級到64位后,無需更換硬件平臺,保護(hù)了硬件的投資。從處理器性能等方面綜合考慮,選擇了基于Opteron處理器的集群平臺。
在高速交換方面有幾種選擇:千兆以太網(wǎng)、Myrinet、Quadrics、Infiniband。4種交換網(wǎng)絡(luò)的性能參數(shù)對比如表1所示。
VIP并行油藏模擬軟件要求高速、低延遲的通信方式,因為計算節(jié)點(diǎn)之間需要大量的數(shù)據(jù)交換去計算相鄰網(wǎng)格單元邊緣處的偏移。千兆以太網(wǎng)價格低,但是帶寬窄、延遲大,可以作為集群管理和I/O網(wǎng)絡(luò),但不適于節(jié)點(diǎn)間的數(shù)據(jù)通信(節(jié)點(diǎn)間的通信帶寬至少要200MBps)。Myrinet、Qua-
drics、Inifiband在帶寬和延遲方面都可以滿足VIP軟件的要求,結(jié)合應(yīng)用需求最終選擇Myrinet。
存儲選擇采用SCSI技術(shù)的NAS系統(tǒng),計算節(jié)點(diǎn)訪問存儲采用千兆以太網(wǎng)。集群系統(tǒng)的管理采用了基于瀏覽器的監(jiān)控軟件,可以實時檢測每個計算節(jié)點(diǎn)的CPU、機(jī)箱內(nèi)溫度、風(fēng)扇轉(zhuǎn)速等參數(shù)以及系統(tǒng)資源利用率等。
4 測試結(jié)果
在測試中,選擇了國外某油田100萬個網(wǎng)格(有效網(wǎng)格85萬個)、8個斷層、7個組分、100個井的模型。從2001年開始模擬時間20年,并行分區(qū)64個,共設(shè)計了單個節(jié)點(diǎn)(2個CPU)、4個節(jié)點(diǎn)(8個CPU)、8個節(jié)點(diǎn)(16個CPU)、16個節(jié)點(diǎn)(32個CPU)、32個節(jié)點(diǎn)(64個CPU)5個方案進(jìn)行測試。交換網(wǎng)絡(luò)采用千兆以太網(wǎng)和Myrinet。在測試中,驗證了多處理器集群性能的關(guān)鍵指標(biāo):精度、解法穩(wěn)定性、并行效率。
4.1 計算精度和解法的穩(wěn)定性
測試表明,幾個方案初始化結(jié)果的油儲量、氣儲量、水儲量、原始油藏壓力完全相同;計算到2020年底,幾個方案模擬結(jié)果的累計產(chǎn)油量完全相同,累計產(chǎn)氣量、累計產(chǎn)水量及平均壓力基本相同,如表2、表3所示。
4.2 并行效率
評價并行軟件效率高低的主要指標(biāo)是加速比、加速效率、增量加速比和增量加速效率,其中加速比包括實際加速比和理想加速比2個概念。當(dāng)運(yùn)行某一作業(yè)時,實際加速比是指使用多個CPU時的作業(yè)運(yùn)行時間與只用1個CPU時的作業(yè)運(yùn)行時間之比;理想加速比是指使用多個CPU的理想運(yùn)行時間與只用1個CPU的運(yùn)行時間之比。加速效率指實際加速比與理想加速比之比的百分?jǐn)?shù)。
4.2.1 千兆以太網(wǎng)(GbE)
千兆以太網(wǎng)模擬計算的時間統(tǒng)計如表4所示。由表4可知,在千兆以太網(wǎng)環(huán)境下,4、8、16、32個節(jié)點(diǎn)的加速效率為63%~20.31%,其中4、8節(jié)點(diǎn)分別為63%、59.25%,16和32個節(jié)點(diǎn)的加速效率明顯下降,只有34.5%和20.31%,增量加速效率均不高,為59%左右。分析表明,隨著節(jié)點(diǎn)數(shù)的增多,節(jié)點(diǎn)與節(jié)點(diǎn)之間的數(shù)據(jù)交換占用了大量的時間,CPU的利用效率明顯降低。因此在多節(jié)點(diǎn)的情況下,節(jié)點(diǎn)之間的數(shù)據(jù)交換成為制約運(yùn)算速度的瓶頸。
4.2.2 Myrinet交換網(wǎng)絡(luò)
由表5可以看出,8個CPU的加速比為6.92,加速效率為86%,16個CPU的加速比為12.22,加速效率為76%,均達(dá)到較為理想的加速比。
Myrinet和千兆以太網(wǎng)加速效率對比如圖2所示。圖2數(shù)據(jù)表明,這種緊耦合應(yīng)用的集群系統(tǒng)中,由于并行節(jié)點(diǎn)間需要大的數(shù)據(jù)交換,所以節(jié)點(diǎn)間數(shù)據(jù)交換的效率將極大地影響并行軟件運(yùn)算的效率,因此Myrinet以其高帶寬和低延遲而取得了比千兆以太網(wǎng)好得多的加速比。另外,將這組數(shù)據(jù)輸入到IBM SP2的4個節(jié)點(diǎn)8 CPU的并行機(jī)上模擬,系統(tǒng)運(yùn)行了30.2個小時后,同樣CPU個數(shù)的基于Myrinet的PC集群的運(yùn)算時間為11.66小時;基于千兆以太網(wǎng)的PC Cluster運(yùn)算時間是16小時,速度比IBM SP2提高了2.6~1.9倍。而同樣配置的硬件平臺的價格相差就更大了。
4.3 其他相關(guān)問題
在測試中,其他例如兼容性、管理、I/O存儲等方面問題,需要在將來改進(jìn)。
(1)Linux的兼容性問題。開源的Linux可以降低擁有成本,但由于硬件平臺的品牌太多,在支持不同的板卡、網(wǎng)絡(luò)等方面,缺乏統(tǒng)一的解決方案,因而在構(gòu)建應(yīng)用系統(tǒng)時,需要做很多的測試來保證軟件和硬件的匹配和兼容。
(2)現(xiàn)在的PC集群系統(tǒng)是由許多1U高度的機(jī)架式低端服務(wù)器集成在一個機(jī)柜內(nèi)的,因此散熱等問題將考驗這樣一個集合的系統(tǒng)的穩(wěn)定性。同時要考慮這么多通過網(wǎng)絡(luò)連接起來的、物理上獨(dú)立、邏輯上相關(guān)的服務(wù)器怎樣集中監(jiān)控管理,才能保證其作為一個完整的系統(tǒng)發(fā)揮最佳的運(yùn)算效能。所以選擇產(chǎn)品時,就要考慮設(shè)備廠商是否有對集群系統(tǒng)可靠的產(chǎn)品和完整網(wǎng)格計算的解決方案。目前國際上有許多網(wǎng)格的工程在開展,如Globus、Gridbus Tools等,而且涉及到網(wǎng)格中間件、資源調(diào)度、開發(fā)工具、安全等方面。因此在組建網(wǎng)格系統(tǒng)時要跟蹤這些工程的進(jìn)展,才能有效地利用這些技術(shù),最大地發(fā)揮網(wǎng)格系統(tǒng)的運(yùn)算能力,達(dá)到最佳的性能指標(biāo)。
(3)I/O存儲問題。在PC 集群系統(tǒng)中,由于計算節(jié)點(diǎn)間要共享存儲系統(tǒng),當(dāng)計算節(jié)點(diǎn)很多時,就存在著訪問網(wǎng)絡(luò)的瓶頸問題。目前有多種解決瓶頸問題的方案可供選擇,例如:①采用SAN方式解決計算節(jié)點(diǎn)的訪問瓶頸問題,但這種方案投資高。②后端采用SAN存儲網(wǎng)絡(luò),前端采用多個I/O節(jié)點(diǎn)進(jìn)行復(fù)雜均衡。③正在進(jìn)行試驗的許多新方案,例如并行虛擬文件系統(tǒng)(PVFS)、面向?qū)ο蟮拇鎯Γ∣OS)等。至于如何選擇,要從應(yīng)用的性能、兼容性和成本費(fèi)用等方面綜合考慮。
5 結(jié) 論
根據(jù)本文的測試,可得出以下一些結(jié)論:
(1)PC集群系統(tǒng)在油藏數(shù)值模擬是一個表現(xiàn)很不錯的硬件平臺,從性能和成本等方面都是很有競爭力的選擇。
(2)大規(guī)模的上百萬網(wǎng)格的油藏模擬在PC Cluster上運(yùn)算是切實可行。
(3)系統(tǒng)管理、I/O問題將在大規(guī)模計算節(jié)點(diǎn)的集群中顯得更加突出。
(4)基于Linux的網(wǎng)格集群技術(shù)將在油田勘探開發(fā)中扮演更加重要的角色,所以在新的系統(tǒng)選型中應(yīng)綜合考慮系統(tǒng)的性價比。
參考文獻(xiàn)
1 Buyya R.High Performance Cluster Computing Architectures and Systems.ISBN,1999;(1)
2 孟杰.MPI 網(wǎng)絡(luò)并行計算系統(tǒng)通信性能及并行計算性能的研究.小型微型計算機(jī)系統(tǒng),1997;18(1)
3 Feng P,Jianwen C.Parallel Reservoir Integrated Simulation Platform For One Million Grid Blocks Case.超級計算通訊,2004;2(3)
4 Wheeler M F.Arbogast T,Bryant S et al.A Parallel Multiblock/Multidomain Approach for Reservoir Simulation. Paper SPE 51884 Presented at the 1999 SPE Symposium on Reservoir Simulation,Houston.Texas,1999