《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系研究
基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系研究
2018智能電網(wǎng)增刊
梁 霄,湯 寧,張 瑋
南瑞集團(tuán)有限公司,江蘇 南京 211106
摘要: 目前,國(guó)家電網(wǎng)公司擁有海量的歷史存量數(shù)據(jù)以及不斷增長(zhǎng)的各類實(shí)時(shí)業(yè)務(wù)信息資源,各地電力公司的數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行集中式存儲(chǔ),難以實(shí)現(xiàn)數(shù)據(jù)的高效計(jì)算、挖掘。要在此基礎(chǔ)上實(shí)現(xiàn)全量業(yè)務(wù)數(shù)據(jù)歸集,對(duì)海量數(shù)據(jù)進(jìn)行統(tǒng)一處理,數(shù)據(jù)的存儲(chǔ)是其中的關(guān)鍵環(huán)節(jié)?;趯?duì)云計(jì)算技術(shù)架構(gòu)的研究,提出一種基于云存儲(chǔ)的數(shù)據(jù)歸集體系架構(gòu),該體系可以穩(wěn)定、高效地解決全量業(yè)務(wù)數(shù)據(jù)歸集過(guò)程中的海量數(shù)據(jù)存儲(chǔ)問(wèn)題,為全量業(yè)務(wù)數(shù)據(jù)歸集提供可靠保障。
中圖分類號(hào): TM76
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.038
Abstract:
Key words :

0  引言

    建設(shè)全量業(yè)務(wù)、全時(shí)間維度、全類型的數(shù)據(jù)中心是國(guó)家電力公司運(yùn)監(jiān)中心數(shù)據(jù)歸集工作的基礎(chǔ),其目標(biāo)的是在此基礎(chǔ)上為電力公司各類決策提供全面的信息支撐、高效的分析計(jì)算,以改變過(guò)去的數(shù)據(jù)冗余、重復(fù)抽取數(shù)據(jù)的局面,全面支撐電力公司大數(shù)據(jù)分析及應(yīng)用。然而,由于國(guó)家電網(wǎng)電力公司涉及的應(yīng)用系統(tǒng)較多,包括ERP、營(yíng)銷、生產(chǎn)、調(diào)度等業(yè)務(wù)系統(tǒng),這些系統(tǒng)已經(jīng)累積了海量的存量數(shù)據(jù),同時(shí)還需要考慮各類設(shè)備的實(shí)時(shí)數(shù)據(jù)采集以及復(fù)雜的外部環(huán)境數(shù)據(jù),數(shù)據(jù)量非常龐大。要在此基礎(chǔ)上完成全量業(yè)務(wù)數(shù)據(jù)歸集工作,海量數(shù)據(jù)的存儲(chǔ)必須要解決的問(wèn)題??紤]到集中存儲(chǔ)的模式下,存儲(chǔ)容量存在瓶頸問(wèn)題且開支成本巨大,因此考慮使用云存儲(chǔ)的模式進(jìn)行海量數(shù)據(jù)的存儲(chǔ)[1]

1  基于云存儲(chǔ)的歸集體系介紹

    云存儲(chǔ)是基于云計(jì)算框架衍生出的一種新概念,它是隨著海量數(shù)據(jù)存儲(chǔ)問(wèn)題應(yīng)運(yùn)而生的,專注于為大數(shù)據(jù)的存儲(chǔ)提供解決方案。它主要通過(guò)集群技術(shù)和新興的網(wǎng)絡(luò)技術(shù)把大量數(shù)據(jù)存儲(chǔ)設(shè)備聯(lián)合在一起協(xié)同工作,并能夠?qū)ν馓峁┙y(tǒng)一的數(shù)據(jù)存儲(chǔ)與訪問(wèn)的功能。云存儲(chǔ)是一種低成本、可擴(kuò)展的網(wǎng)絡(luò)形式實(shí)用型服務(wù)[2]。

    目前,國(guó)家電網(wǎng)公司運(yùn)監(jiān)中心數(shù)據(jù)中心的數(shù)據(jù)不僅有海量的結(jié)構(gòu)化以及非結(jié)構(gòu)化存量數(shù)據(jù),同時(shí)還有來(lái)自各個(gè)業(yè)務(wù)系統(tǒng)的實(shí)時(shí)采集數(shù)據(jù),還存在國(guó)家電網(wǎng)數(shù)據(jù)的增長(zhǎng)速度以及數(shù)據(jù)的保密性等問(wèn)題。因此,需要在云存儲(chǔ)的基礎(chǔ)上綜合考慮國(guó)家電網(wǎng)大數(shù)據(jù)存儲(chǔ)問(wèn)題的特殊性,科學(xué)合理地制定一套基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)存儲(chǔ)體系,從而為全量業(yè)務(wù)數(shù)據(jù)歸集提供有力支持[3]。

2  基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系

    依據(jù)國(guó)家電網(wǎng)公司運(yùn)監(jiān)中心對(duì)全量業(yè)務(wù)數(shù)據(jù)歸集整體架構(gòu)和技術(shù)路線的統(tǒng)一要求,首先需要將電力公司的數(shù)據(jù)接入緩沖區(qū),隨后再逐步進(jìn)行熱點(diǎn)數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)[4]。因此,基于云存儲(chǔ)的數(shù)據(jù)歸集體系構(gòu)架主要由以下層級(jí)組成:

    (1)存儲(chǔ)設(shè)備層

    存儲(chǔ)設(shè)備是云存儲(chǔ)數(shù)據(jù)歸集體系中的基礎(chǔ)組成部分,它位于該體系的底層,由多種存儲(chǔ)設(shè)備的組合使用,有用于作為緩沖區(qū)的MySQL數(shù)據(jù)庫(kù)設(shè)備以及適用于分布式架構(gòu)的MongoDB,其中MongoDB可以支持海量數(shù)據(jù)的高并發(fā)、低時(shí)延的吞吐操作及部署,同時(shí)它可以支持各種復(fù)雜的數(shù)據(jù)格式,非常適合用于國(guó)家電網(wǎng)電力大數(shù)據(jù)的分布式存儲(chǔ)以及高速率讀寫[5]。

    (2)存儲(chǔ)引擎層

    存儲(chǔ)引擎主要是對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)的管理,但卻是云存儲(chǔ)歸集體系的核心層。由于云存儲(chǔ)是基于網(wǎng)絡(luò)技術(shù)及應(yīng)用集群協(xié)同工作的模式,因此數(shù)據(jù)的安全性、一致性以及容錯(cuò)性都需要予以重點(diǎn)關(guān)注[6]。引擎層主要通過(guò)DHT數(shù)據(jù)分布、強(qiáng)一致性數(shù)據(jù)復(fù)制、數(shù)據(jù)加密、集群狀態(tài)管理、并行數(shù)據(jù)重建、集群故障自愈等技術(shù)來(lái)進(jìn)行數(shù)據(jù)的管理,保證數(shù)據(jù)的一致性,安全性以及從災(zāi)變中恢復(fù)的能力。

    (3)存儲(chǔ)服務(wù)層

    服務(wù)層主要用于提供數(shù)據(jù)訪問(wèn)以及數(shù)據(jù)備份服務(wù)?;谠拼鎯?chǔ)的數(shù)據(jù)歸集體系要求用戶必須經(jīng)過(guò)授權(quán)才能使用標(biāo)準(zhǔn)的服務(wù)接口進(jìn)行登陸并使用里邊的數(shù)據(jù)資源,同時(shí)為了保證大量用戶登錄時(shí)的訪問(wèn)速度需要使用Cache技術(shù)[7]。該層主要由分布式快照、本地化Cache、精簡(jiǎn)配置、分級(jí)存儲(chǔ)、數(shù)據(jù)備份模塊組成。

    (4)存儲(chǔ)接口層

    基于云存儲(chǔ)的電力全量業(yè)務(wù)數(shù)據(jù)歸集體系主要基于iSCSI/RBD接口協(xié)議實(shí)現(xiàn)。其中iSCSI是指IP協(xié)議中的SCSI指令集,它是一種開放的標(biāo)準(zhǔn),主要使用TCP/IP協(xié)議進(jìn)行指令封裝,因此基于該協(xié)議可以在任何基于IP的網(wǎng)絡(luò)之間進(jìn)行傳播。通過(guò)使用SCSI/RBD接口協(xié)議標(biāo)準(zhǔn)可以使用戶方便地對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)及訪問(wèn)。

3  基于云存儲(chǔ)的數(shù)據(jù)歸集體系關(guān)鍵技術(shù)

3.1 虛擬分布式存儲(chǔ)技術(shù)

    虛擬存儲(chǔ)技術(shù)是指通過(guò)虛擬的方法,把不同的廠商、不同業(yè)務(wù)系統(tǒng),不同類型,不同通信協(xié)議的存儲(chǔ)設(shè)備聯(lián)系起來(lái),將體系中各個(gè)設(shè)備映射成統(tǒng)一的資源池,并通過(guò)虛擬方式進(jìn)行數(shù)據(jù)統(tǒng)一管理,它可以屏蔽用于數(shù)據(jù)的物理設(shè)備位置及其異構(gòu)特性,降低了數(shù)據(jù)管理及維護(hù)的成本。分布式是在虛擬技術(shù)的基礎(chǔ)上將分散的存儲(chǔ)資源映射為虛擬設(shè)備,通過(guò)多臺(tái)互聯(lián)的存儲(chǔ)服務(wù)器進(jìn)行存儲(chǔ)負(fù)荷的分擔(dān),同時(shí)通過(guò)位置服務(wù)器進(jìn)行存儲(chǔ)信息的定位,使用該技術(shù)可以提高系統(tǒng)的可擴(kuò)展性以及存取效率,實(shí)現(xiàn)云存儲(chǔ)數(shù)據(jù)歸集體系中不同的應(yīng)用,不同的存儲(chǔ)設(shè)備以及不同的服務(wù)之間高效協(xié)同工作[8]

3.2 基于重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)備份技術(shù)

    隨著國(guó)家電網(wǎng)電力數(shù)據(jù)量的增加,數(shù)據(jù)中的冗余部分也在不斷增多,從而導(dǎo)致更多的存儲(chǔ)空間被占用,同時(shí)給數(shù)據(jù)備份工作帶來(lái)巨大的壓力。因此,重復(fù)數(shù)據(jù)的刪除是非常必要的數(shù)據(jù)壓縮技術(shù),該技術(shù)基于刪除運(yùn)算邏輯以消除數(shù)據(jù)中冗余的字節(jié)、數(shù)據(jù)塊或文件,從而保證系統(tǒng)中存儲(chǔ)的只是單一的數(shù)據(jù),減少數(shù)據(jù)歸集體系所使用的存儲(chǔ)空間,增加可用存儲(chǔ)容量,增大數(shù)據(jù)傳輸過(guò)程中的有效數(shù)據(jù)成分。同時(shí),考慮在原數(shù)據(jù)出錯(cuò)、誤刪等情況下的數(shù)據(jù)恢復(fù)問(wèn)題,數(shù)據(jù)備份技術(shù)也是歸集體系必不可少的部分,因此,經(jīng)過(guò)重復(fù)數(shù)據(jù)刪除技術(shù)也間接地減少了數(shù)據(jù)備份工作的存儲(chǔ)量,解決了不必要的存儲(chǔ)空間占用問(wèn)題。

3.3 數(shù)據(jù)安全技術(shù)

    用戶數(shù)據(jù)的安全性始終是備受關(guān)注的問(wèn)題。數(shù)據(jù)的安全性主要是指數(shù)據(jù)泄漏、數(shù)據(jù)丟失、數(shù)據(jù)篡改等問(wèn)題,在存儲(chǔ)架構(gòu)中,通常數(shù)據(jù)距離用戶越“近”越安全,但采用云存儲(chǔ)的架構(gòu)下,數(shù)據(jù)通常距離用戶很“遠(yuǎn)”,因此有必要對(duì)數(shù)據(jù)采取安全保護(hù)措施?;谠拼鎯?chǔ)的數(shù)據(jù)歸集體系通過(guò)大量的網(wǎng)狀客戶端對(duì)系統(tǒng)中的操作行為進(jìn)行異常監(jiān)測(cè),從而能夠及時(shí)獲取網(wǎng)絡(luò)中的病毒、木馬程序信息,并將其推送至服務(wù)器端進(jìn)行處理,隨后將病毒及木馬的解決方法發(fā)送至所有客戶端,使整個(gè)體系成為一個(gè)防御系統(tǒng),從而保證了海量數(shù)據(jù)的安全。

4  基于云存儲(chǔ)的數(shù)據(jù)歸集體系的優(yōu)勢(shì)

4.1  存儲(chǔ)資源利用率的提升

    虛擬化是基于云存儲(chǔ)的數(shù)據(jù)歸集體系的特征之一,通過(guò)這種技術(shù)可以將國(guó)家電網(wǎng)電力公司閑置以及利用率低的資源進(jìn)行抽象并呈現(xiàn),改變了計(jì)算機(jī)網(wǎng)絡(luò)實(shí)體結(jié)構(gòu)不可切割的現(xiàn)狀,從而獲得更高的資源利用率,使這些資源不必受現(xiàn)有架構(gòu)以及物理組態(tài)的限制,通過(guò)將利用率低的硬件重組,可以最大化地實(shí)現(xiàn)物理硬件的利用,最終達(dá)到提高整體資源利用率的目的[9]。

4.2  系統(tǒng)整體運(yùn)行效率的提高

    基于云存儲(chǔ)的數(shù)據(jù)歸集體系在實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)的同時(shí)也實(shí)現(xiàn)了應(yīng)用存儲(chǔ)。即在存儲(chǔ)數(shù)據(jù)的同時(shí)還實(shí)現(xiàn)了應(yīng)用功能的存儲(chǔ),該體系同時(shí)具備存儲(chǔ)設(shè)備和服務(wù)器的功能,因此能夠顯著地減少存儲(chǔ)服務(wù)器數(shù)據(jù),并減少存儲(chǔ)體系中由于服務(wù)器造成的性能瓶頸問(wèn)題及單點(diǎn)故障,從而降低系統(tǒng)的成本,且減少了數(shù)據(jù)傳輸過(guò)程所經(jīng)歷的環(huán)節(jié),實(shí)現(xiàn)了整個(gè)存儲(chǔ)體系的高效率運(yùn)行。

4.3  系統(tǒng)整體安全性的加強(qiáng)

    基于云存儲(chǔ)的數(shù)據(jù)歸集體系所采取的安全技術(shù)在反病毒功能上較傳統(tǒng)的病毒防范策略更具優(yōu)勢(shì),由于采用大量客戶端對(duì)網(wǎng)狀的系統(tǒng)操作進(jìn)行異常監(jiān)測(cè),該體系在反病毒技術(shù)競(jìng)爭(zhēng)中往往能夠占據(jù)先機(jī),同時(shí)由于融合了并行處理以及網(wǎng)格計(jì)算等新技術(shù),可以實(shí)現(xiàn)快速地異常自動(dòng)分析及處理,并把解決方案運(yùn)用到每一個(gè)客戶端。原則上只要客戶端足夠多,就可以實(shí)現(xiàn)只要有新的木馬或者病毒出現(xiàn),就將被立即被獲取到并進(jìn)行處理,從而使整個(gè)存儲(chǔ)體系的安全性能得到極大的加強(qiáng)[10]。

4.4  系統(tǒng)可擴(kuò)展性的開拓

    相對(duì)于傳統(tǒng)的存儲(chǔ)體系通過(guò)某個(gè)策略的執(zhí)行使各個(gè)節(jié)點(diǎn)獲取所要執(zhí)行的操作信息,基于云存儲(chǔ)的數(shù)據(jù)歸集體系采用松耦合非對(duì)稱架構(gòu),利用數(shù)據(jù)路徑外的元數(shù)據(jù)進(jìn)行服務(wù)器的控制,這種集中控制的方式支持新層次的擴(kuò)充,從而具備了以下優(yōu)點(diǎn):

    (1)存儲(chǔ)節(jié)點(diǎn)不需要接收來(lái)自網(wǎng)絡(luò)節(jié)點(diǎn)的驗(yàn)證信息,從而將更多的資源用于提供讀寫服務(wù)。

    (2)客戶可以通過(guò)虛擬化應(yīng)用實(shí)例或硬件性能實(shí)現(xiàn)云存儲(chǔ)的快速調(diào)整。

    (3)消除了節(jié)點(diǎn)之間由于共享大量狀態(tài)而產(chǎn)生的開銷以及用戶網(wǎng)絡(luò)互聯(lián)的需要,進(jìn)一步降低了存儲(chǔ)體系的成本。

    (4)通過(guò)具有集中控制功能的元數(shù)據(jù),存儲(chǔ)節(jié)點(diǎn)可以實(shí)現(xiàn)深層次的應(yīng)用歸檔,實(shí)現(xiàn)資源的精細(xì)化管理。

5  結(jié)語(yǔ)

    針對(duì)國(guó)家電網(wǎng)公司運(yùn)監(jiān)中心全量業(yè)務(wù)數(shù)據(jù)歸集過(guò)程中所面臨的數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)更新快等問(wèn)題,本文提出了一種可適用于全量業(yè)務(wù)數(shù)據(jù)歸集工作的存儲(chǔ)體系,該體系克服了傳統(tǒng)存儲(chǔ)體系成本高、處理速度慢、擴(kuò)展性能差的問(wèn)題,很好地解決了全量業(yè)務(wù)海量數(shù)據(jù)的存儲(chǔ)問(wèn)題,同時(shí)該體系具有設(shè)備虛擬、數(shù)據(jù)安全、快速訪問(wèn)以及高運(yùn)行效率等優(yōu)勢(shì),因此能夠很好地滿足當(dāng)下全量業(yè)務(wù)數(shù)據(jù)歸集工作的需要,對(duì)于后期可能出現(xiàn)的新問(wèn)題,由本系統(tǒng)具備的高可擴(kuò)展性作為保障,最終實(shí)現(xiàn)為全量業(yè)務(wù)數(shù)據(jù)歸集工作開展過(guò)程中的數(shù)據(jù)歸集問(wèn)題提供完備的解決方案。

參考文獻(xiàn)

[1] WANG  P,  RAO  L,  LIU  X,  et  al.  Dynamic data  center  operations  with  demand-responsive  electricity  prices  in  smart grid[J]. IEEE Transactions on Smart Grid, 2012, 3(4): 1743-1754.

[2] BOICEA A ,  RADULESCU  F,  AGAPINL  I.  Mongo DB  vs  Oracle  ——  database comparison[C].Third  International Conference on Emerging Intelligent Data and Web Technologies, September 19-21, 2012, Bucharest, Romania. New Jersey: IEEE Press, 2012: 330-335.

[3] 嚴(yán)霄鳳,  張德馨.  大數(shù)據(jù)研究[J].  計(jì)算機(jī)技術(shù)與發(fā)展,  2013, 23(4): 168-172.

[4] 喬琳,  許暉.  復(fù)雜企業(yè)決策支持環(huán)境下的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)的演化[J]. 計(jì)算機(jī)工程與應(yīng)用, 2000, 36(7): 98-100.

[5] 郝悍勇, 黃文思, 林燊, 等.  用戶感知度模型分析及其在客戶服務(wù)領(lǐng)域的應(yīng)用[J]. 電力信息與通信技術(shù), 2016, 14(1): 33-37.

[6] 國(guó)家電網(wǎng)公司. Q\GDW703-2012 國(guó)家電網(wǎng)公司公共信息模型(SG-CIM)[M]. 北京:中國(guó)電力出版社, 2012.

[7] LIU  Y,  WAN G  Y,  JIN  Y. Research  on the  improvement  of  Mongo DB  auto-shareing  in  cloud  environment[C].International Conference on Computer Science & Education, November 12, 2012, Yogyakarta, Indonesia. New Jersey: IEEE Press, 2012: 851-854.

[8] HAN J W,PEI J,YIN Y W.Mining frequent  patterns  without  candidate generation[J]. Data Mining and Knowledge Discovery, 2004, 8(1): 53-87.

[9] 陳毅波,陳乾,眭建新.基于大數(shù)據(jù)技術(shù)的電網(wǎng)運(yùn)營(yíng)分析決策系統(tǒng)研究[J].電力信息與通信技術(shù),2015,13(8):128-131.

[10] 王忻.基于大數(shù)據(jù)技術(shù)的電力公司運(yùn)營(yíng)系統(tǒng)研究[J].商,2016(4):214-214.



作者信息:

梁 霄,湯  寧,張  瑋

(南瑞集團(tuán)有限公司,江蘇 南京 211106)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。