文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.036
0 引言
隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新一代信息通信技術(shù)的快速發(fā)展,智能終端產(chǎn)品層出不窮,新技術(shù)、新產(chǎn)品、新應(yīng)用等不斷涌現(xiàn)。移動(dòng)智能終端設(shè)備及應(yīng)用通過豐富多樣的功能滿足人們各式各樣的需求,從各個(gè)方面改變著人們的日常工作與生活。
近年來,國(guó)家電網(wǎng)公司緊緊抓住新一代信息通信技術(shù)快速發(fā)展為智能電網(wǎng)生產(chǎn)方式及管理模式變革帶來的契機(jī),積極推進(jìn)智能電網(wǎng)建設(shè),密切跟蹤新技術(shù)發(fā)展趨勢(shì),開展關(guān)鍵技術(shù)攻關(guān),面向“十三五”,充分發(fā)揮信息通信在智能電網(wǎng)中的核心技術(shù)作用,統(tǒng)籌推動(dòng)智能電網(wǎng)技術(shù)變革和創(chuàng)新發(fā)展,未來要形成一大批成功應(yīng)用、成效顯著的技術(shù)成果,為堅(jiān)強(qiáng)智能電網(wǎng)持續(xù)創(chuàng)新發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。
隨著國(guó)民經(jīng)濟(jì)的不斷發(fā)展和人民生活水平的日益提高,社會(huì)用電負(fù)荷也隨之快速增長(zhǎng),與此同時(shí),對(duì)電網(wǎng)公司的供電可靠性和停電時(shí)間等重要指標(biāo)也提出了更高的要求。特別是對(duì)于配網(wǎng)搶修工單的派發(fā),要求及時(shí)快速、準(zhǔn)確判斷。目前工單派發(fā)多數(shù)基于人工派單,或者系統(tǒng)向所有搶修隊(duì)派單由搶修隊(duì)搶單,工單的派發(fā)策略不夠合理,存在一定的主觀因素,這在一定程度上影響了派單的及時(shí)性以及后續(xù)搶修工作的完成效果。
1 技術(shù)架構(gòu)
基于大數(shù)據(jù)產(chǎn)業(yè)鏈的定義,大數(shù)據(jù)的關(guān)鍵技術(shù)既包括數(shù)據(jù)分析技術(shù)等核心技術(shù),也包括數(shù)據(jù)管理、數(shù)據(jù)處理、數(shù)據(jù)可視化等重要技術(shù),技術(shù)架構(gòu)圖如圖1所示。
數(shù)據(jù)抽取技術(shù):對(duì)集成信息系統(tǒng)數(shù)據(jù)庫(kù)中的海量各類數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取,實(shí)時(shí)存入本系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)主要用于分析,數(shù)據(jù)設(shè)計(jì)按照面向業(yè)務(wù)設(shè)計(jì)原則進(jìn)行設(shè)計(jì)。本系統(tǒng)數(shù)據(jù)來源于PMS數(shù)據(jù)、95598工單數(shù)據(jù)、在線監(jiān)測(cè)數(shù)據(jù)、線路巡視數(shù)據(jù)、輔助監(jiān)控?cái)?shù)據(jù)、歷史故障數(shù)據(jù)、線路監(jiān)拍數(shù)據(jù)、實(shí)時(shí)負(fù)荷數(shù)據(jù)、APP使用數(shù)據(jù)等,經(jīng)過數(shù)據(jù)抽取、數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加載三個(gè)過程生成用于工單自動(dòng)派發(fā)。數(shù)據(jù)是通過數(shù)據(jù)抽取工具從各集成系統(tǒng)中自動(dòng)定期抽取,抽取的數(shù)據(jù)針對(duì)不同業(yè)務(wù)要求進(jìn)行過濾,過濾掉臟數(shù)據(jù)和不完整數(shù)據(jù)形成可用于用電分析的數(shù)據(jù)。
數(shù)據(jù)分析技術(shù):故障綜合預(yù)警預(yù)判,對(duì)大量需求數(shù)據(jù)進(jìn)行數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示,挖掘的主要任務(wù)有數(shù)據(jù)關(guān)聯(lián)、聚類、分類等,以此實(shí)現(xiàn)各類故障的預(yù)測(cè),為提高電網(wǎng)的運(yùn)維檢修水平提供技術(shù)支持。
數(shù)據(jù)服務(wù)技術(shù):為展示客戶端提供數(shù)據(jù)訪問服務(wù),數(shù)據(jù)服務(wù)內(nèi)嵌內(nèi)存緩存數(shù)據(jù)庫(kù),用于提高數(shù)據(jù)訪問性能。通過數(shù)據(jù)服務(wù)提供的多種分析數(shù)據(jù)輸出方式接口,為實(shí)時(shí)展現(xiàn)當(dāng)前各類電網(wǎng)設(shè)備可能發(fā)生的故障情況提供支撐。
數(shù)據(jù)展現(xiàn)技術(shù):數(shù)據(jù)的全方位、多角度展現(xiàn)。以熱力圖的方式,基于GIS展現(xiàn)電網(wǎng)設(shè)備故障風(fēng)險(xiǎn)。
系統(tǒng)安全:安全架構(gòu)針對(duì)系統(tǒng)的具體業(yè)務(wù)特點(diǎn),按照管理信息內(nèi)、外網(wǎng)分離的安全要求建立起強(qiáng)健的信息安全防范體系,有效保護(hù)系統(tǒng)的信息安全,防范黑客和非法入侵者的攻擊。
系統(tǒng)應(yīng)用的安全體系可分為技術(shù)層面的安全和管理層面的安全兩個(gè)部分。技術(shù)層面的安全設(shè)計(jì)主要包括應(yīng)用安全、數(shù)據(jù)安全、系統(tǒng)安全、網(wǎng)絡(luò)安全、物理安全等,其中應(yīng)用安全是業(yè)務(wù)安全防護(hù)體系的核心。管理層面的安全主要包括安全組織及人員保證、安全管理制度、安全技術(shù)規(guī)范、安全考核及監(jiān)督等內(nèi)容。
2 數(shù)據(jù)架構(gòu)
大數(shù)據(jù)是體量巨大具有高價(jià)值的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。通過對(duì)大數(shù)據(jù)處理技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)需要的數(shù)據(jù)模型,發(fā)現(xiàn)大數(shù)據(jù)中的“信息”和知識(shí),為行業(yè)內(nèi)外提供大量的高附加值的內(nèi)容增值服務(wù)。
大數(shù)據(jù)對(duì)數(shù)據(jù)特性、數(shù)據(jù)來源、數(shù)據(jù)獲取方式、數(shù)據(jù)獲取頻率等不同角度對(duì)數(shù)據(jù)進(jìn)行分類、規(guī)劃、設(shè)計(jì)、部署,其數(shù)據(jù)架構(gòu)如圖2所示。
3 故障預(yù)警預(yù)判模型
基于對(duì)歷史故障原因的深入分析,將故障分成大類,針對(duì)每類故障再劃分為子類,針對(duì)每個(gè)子類故障,根據(jù)支撐數(shù)據(jù)類型及維度的不同,選擇不同的機(jī)器學(xué)習(xí)方法計(jì)算其可能發(fā)生故障的概率,進(jìn)而推算出可能發(fā)生故障的綜合概率以及最有可能發(fā)生故障的類型,實(shí)現(xiàn)對(duì)故障的預(yù)警預(yù)判。
3.1 故障因素分析
基于對(duì)歷史故障原因的分析,大致將故障分成如下5大類:電網(wǎng)設(shè)備自身故障、自然因素、外力因素、運(yùn)維不當(dāng)、其他因素。針對(duì)每類故障,同時(shí)將故障細(xì)分成小類:
針對(duì)電網(wǎng)設(shè)備自身故障,可以細(xì)分為架空導(dǎo)線故障、電纜故障、柱上設(shè)備故障、箱變故障、配電室故障、開關(guān)柜故障、環(huán)網(wǎng)柜故障、JP柜故障、電纜分支箱故障、桿塔故障、絕緣子故障、避雷器故障、其他設(shè)備故障。
針對(duì)自然因素,可以細(xì)分為雷擊、強(qiáng)風(fēng)、洪水、地震、山體滑坡、雨雪冰凍。
針對(duì)外力因素,可以細(xì)分為盜竊、建設(shè)施工、車輛、外部火災(zāi)、外部異物。
針對(duì)運(yùn)維不當(dāng),可以細(xì)分為樹障、鳥害等小動(dòng)物、消缺不及時(shí)、巡檢不到位、過負(fù)荷、過電壓。
3.2 分類建模
針對(duì)每一大類故障,分別建立對(duì)應(yīng)的數(shù)據(jù)模型。
3.2.1 電網(wǎng)設(shè)備因素導(dǎo)致故障預(yù)測(cè)模型
針對(duì)設(shè)備故障,從設(shè)備實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)、運(yùn)行數(shù)據(jù)、設(shè)備制造廠商、設(shè)備運(yùn)行年限、設(shè)備歷史故障次數(shù)等維度,針對(duì)歷史故障信息,建立電網(wǎng)設(shè)備自身故障預(yù)測(cè)模型。例如,針對(duì)環(huán)網(wǎng)柜設(shè)備,實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)包括:溫度、濕度、局放、電纜溫度、母線樁頭溫度、避雷器放電次數(shù)、煙霧濃度等維度,運(yùn)行數(shù)據(jù)包括電壓、電流等維度,設(shè)備制造廠商包括廠商名稱、設(shè)備批次等維度。
為了產(chǎn)生可視化的分類規(guī)則,避免了線性回歸事先假定的線性關(guān)系不符合實(shí)際造成較大誤差的情況,避免對(duì)函數(shù)形式事先進(jìn)行假設(shè)而產(chǎn)生的假設(shè)誤差,使得產(chǎn)生的模型具有可解釋性,故采用樹形模式進(jìn)行建模,同時(shí),為了減少需要調(diào)整參數(shù)、提高分類速度、高效處理大樣本數(shù)據(jù)、實(shí)現(xiàn)特征因素的重要性估計(jì)、很好地處理類別變量、提高抗噪聲能力、提高泛化能力,使得模型對(duì)新樣本具有更強(qiáng)的適應(yīng)性,在決策樹的基礎(chǔ)上,選擇隨機(jī)森林方法進(jìn)行建模。
隨機(jī)森林回歸的基本思路是:首先利用自助抽樣法,從原始數(shù)據(jù)中抽取N個(gè)樣本,且每個(gè)樣本容量都與原始數(shù)據(jù)集相通;然后對(duì)N個(gè)樣本分別建立N課樹,得到N個(gè)結(jié)果,最后對(duì)這N個(gè)結(jié)果取平均值得到最終的預(yù)測(cè)結(jié)果。
電網(wǎng)設(shè)備自身故障隨機(jī)森林模型由N棵樹組成,{F1(X),F2(X),……,FN(X)},其中X={x1,x2,……,xM}是故障的M維特征向量。結(jié)果會(huì)產(chǎn)生B個(gè)預(yù)測(cè)結(jié)果。對(duì)于回歸問題預(yù)測(cè)值為所有以樹預(yù)測(cè)結(jié)果的平均。算法流程如下:
(1)原始數(shù)據(jù)含樣本量為32 859,應(yīng)用bootstrap方式抽樣選擇500個(gè)樣本集,構(gòu)建500棵決策樹。每次抽樣未被抽到的樣本構(gòu)成OOB(out of bag)樣本作為隨機(jī)森林的驗(yàn)證樣本。
(2)樣本中變量個(gè)數(shù)為15,每一棵決策樹每一個(gè)節(jié)點(diǎn)隨機(jī)選擇k個(gè)變量進(jìn)行基尼指標(biāo)計(jì)算,確定合適的變量得到合適的劃分。使用隨機(jī)森林做回歸時(shí),通常取k=P/3。本模型每次劃分選擇5個(gè)變量。
(3)每一棵決策樹生長(zhǎng)到最大,無需進(jìn)行剪枝,重復(fù)上述步驟直到生成500棵決策樹。
通過上述步驟,建立得到電網(wǎng)設(shè)備自身故障隨機(jī)森林模型,將OOB樣本輸入隨機(jī)森林模型得到故障預(yù)測(cè)精度。
隨機(jī)森林可以給出變量重要性排序,據(jù)此得出營(yíng)銷故障發(fā)生的重要預(yù)測(cè)變量。其次,通過依次刪除預(yù)測(cè)變量的方式計(jì)算方差解釋性差值,得到變量的重要性排序。刪除某個(gè)變量后解釋性差值變化越大,證明這個(gè)變量越重要;解釋性差值變化越小,證明這個(gè)變量越不重要。
預(yù)測(cè)變量如表1所示:
為提高準(zhǔn)確性,隨機(jī)森林運(yùn)行10次得到方差解釋性,如表2所示:
方差平均解釋性為85.12%。
逐個(gè)刪除變量方差解釋性如表3所示:
方差解釋性變化如表4所示:
因此,對(duì)故障的發(fā)生貢獻(xiàn)影響因素最大的三個(gè)變量分別為溫度、濕度和局放。
通過bootstrap抽樣,未被抽到的樣本組成了K個(gè)袋外數(shù)據(jù),構(gòu)成OOB樣本。將入袋樣本作為測(cè)試集,將袋外樣本作為驗(yàn)證集,衡量預(yù)測(cè)精度。隨機(jī)森林每一次bootstrap抽樣,會(huì)產(chǎn)生不同的OOB樣本,不同的OOB樣本會(huì)得到不同的預(yù)測(cè)精度。為保證預(yù)測(cè)準(zhǔn)確性,對(duì)10次bootstrap得到的袋外數(shù)據(jù)計(jì)算預(yù)測(cè)誤差并取平均,得出預(yù)測(cè)精度平均為79.3982%,滿足要求。
3.2.2 自然因素導(dǎo)致故障預(yù)測(cè)模型
在自然因素中,雷擊、強(qiáng)風(fēng)、洪水、地震、山體滑坡、雨雪冰凍等,多與故障的產(chǎn)生呈現(xiàn)一定的線性關(guān)系,采用線性回歸方法對(duì)故障進(jìn)行預(yù)測(cè)。選取特征X={x1,x2,……,xn}分別為:2小時(shí)內(nèi)雷擊次數(shù)、平均風(fēng)速、最大風(fēng)速、洪水等級(jí)、地震等級(jí)、山體滑坡等級(jí)、覆冰厚度等,進(jìn)行建模,預(yù)測(cè)值y為發(fā)生故障的概率。將自然因素特征X映射到故障發(fā)生概率y函數(shù)為:
選取71 982條歷史數(shù)據(jù)作為訓(xùn)練集,用來訓(xùn)練特征系數(shù)向量,損失函數(shù)為:
采用小批量隨機(jī)梯度下降(MSGD)方法,將損失函數(shù)最小化以得到特征系數(shù)向量,MSGD方法隨機(jī)采樣一個(gè)批量的樣本進(jìn)行梯度計(jì)算,在保證算法收斂的同時(shí),也提高了收斂速度。
選取一個(gè)batch大小為10的訓(xùn)練樣本,每次迭代計(jì)算一小批樣本的誤差來進(jìn)行梯度下降;
最終當(dāng)兩次迭代的結(jié)果小于設(shè)定值,則完成求解,得出模型。
3.2.3 外力因素導(dǎo)致故障預(yù)測(cè)模型
外力因素為盜竊、建設(shè)施工、車輛、外部火災(zāi)、外部異物等。選取特征值為是否發(fā)生盜竊、施工距離、電壓等級(jí)、車輛數(shù)量、是否發(fā)生外部火災(zāi)、是否存在外部異物等。其中盜竊、車輛數(shù)量、外部火災(zāi)、外部異物等參考?xì)v史數(shù)據(jù)中的平均值,施工距離可以依靠設(shè)備附近監(jiān)拍裝置圖像獲取。涉及特征量多為離散數(shù)據(jù),選取決策樹方法進(jìn)行建模。特征的選擇依靠信息增益比進(jìn)行計(jì)算。
針對(duì)歷史數(shù)據(jù),首先計(jì)算是否發(fā)生盜竊、施工距離、電壓等級(jí)、車輛數(shù)量、是否發(fā)生外部火災(zāi)、是否存在外部異物等特征的信息增益:
其中信息增益為:
計(jì)算各特征的內(nèi)部信息為:
計(jì)算通過信息增益比為:
通過比較得出信息增益比最大的特征,依據(jù)此特征進(jìn)行劃分,劃分后再次計(jì)算其他特征的信息增益比,再進(jìn)行劃分,直到信息增益比小于閾值,完成模型的訓(xùn)練。
3.2.4 運(yùn)維不當(dāng)導(dǎo)致故障預(yù)測(cè)模型
運(yùn)維不當(dāng)因素包括樹障、鳥害等小動(dòng)物、消缺不及時(shí)、巡檢不到位、過負(fù)荷、過電壓。選取特征值為周圍是否存在樹障、是否存在鳥害等小動(dòng)物、缺陷發(fā)生時(shí)間、是否按計(jì)劃完成巡檢、負(fù)荷值、電壓值。同外力因素導(dǎo)致故障預(yù)測(cè)模型類似,選擇C4.5決策樹進(jìn)行建模。
3.3 綜合建模
完成上述模型建立后,可獲取上述4類原因?qū)е鹿收系母怕?,分別為P1、P2、P3、P4,根據(jù)歷史故障數(shù)據(jù)可以計(jì)算各類因素導(dǎo)致故障的權(quán)重,計(jì)為a1、a2、a3、a4,最終故障預(yù)判模型為:
故障發(fā)生概率P=a1×P1+a2×P2+a3×P3+a4×P4
4 技術(shù)實(shí)現(xiàn)路線
本系統(tǒng)技術(shù)實(shí)現(xiàn)路線如下:數(shù)據(jù)收集及存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)挖掘技術(shù)以及可視化展現(xiàn)4個(gè)部分。
4.1 數(shù)據(jù)收集與存儲(chǔ)
(1)電力系統(tǒng)數(shù)據(jù)
PMS系統(tǒng)中的數(shù)據(jù)主要包含電網(wǎng)設(shè)備信息、檢修計(jì)劃等,搶修人員根據(jù)搶修工單信息,獲取PMS中的電網(wǎng)設(shè)備及剛性計(jì)劃等,本系統(tǒng)對(duì)PMS系統(tǒng)中的數(shù)據(jù)不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用。
95598數(shù)據(jù)主要包含:電話服務(wù)記錄、多媒體服務(wù)記錄、95598服務(wù)記錄、其他服務(wù)信息、語音記錄、客戶檔案信息、部門人員信息、公共信息共8類數(shù)據(jù),其中95598服務(wù)記錄:主要包括業(yè)務(wù)受理信息、處理信息、流程信息等內(nèi)容。以業(yè)務(wù)受理信息為例,按每天250條受理工單計(jì)算,年增91 250條記錄,容量約870 MB。
在線監(jiān)測(cè)數(shù)據(jù)主要包含:架空導(dǎo)線、電纜、柱上設(shè)備、箱變、配電室、開關(guān)柜、環(huán)網(wǎng)柜、JP柜、電纜分支箱、桿塔、絕緣子、避雷器。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù)。共存儲(chǔ)57 GB數(shù)據(jù)。
巡視搶修信息的數(shù)據(jù)主要包含:巡視搶修工單信息,圖片、音視頻信息等。本系統(tǒng)保存所有巡視、搶修工單信息。按每月1.2 GB計(jì)算,年增長(zhǎng)量為15 GB。
電網(wǎng)GIS平臺(tái)數(shù)據(jù)主要包含:地圖切片數(shù)據(jù),路網(wǎng)數(shù)據(jù),重要設(shè)備的CPS坐標(biāo)信息。本系統(tǒng)對(duì)電網(wǎng)GIS平臺(tái)中的數(shù)據(jù)不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用。
輔助監(jiān)控?cái)?shù)據(jù)主要包含變電站、環(huán)網(wǎng)柜等設(shè)備溫濕度、油色譜數(shù)據(jù)、微水、氣壓等數(shù)據(jù)。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù)。共存儲(chǔ)7.5 G信息。
歷史故障信息主要包括故障的基本信息、文本信息以及圖片、音視頻等數(shù)據(jù)。本系統(tǒng)一次性抽取400 G故障信息。
線路監(jiān)拍數(shù)據(jù)為桿塔上監(jiān)拍裝置拍攝的圖像信息。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù)。共存儲(chǔ)189 G信息。
實(shí)時(shí)負(fù)荷數(shù)據(jù)為開關(guān)的電壓、電流等數(shù)據(jù)。本系統(tǒng)獲取各類設(shè)備的歷史及實(shí)時(shí)數(shù)據(jù)。共存儲(chǔ)3.4 G信息。
APP使用數(shù)據(jù)主要包括APP的使用日志信息,按照每月500 M計(jì)算,年增長(zhǎng)量為6 G。
(2)外部數(shù)據(jù)
氣象數(shù)據(jù)主要為網(wǎng)格化的氣象數(shù)據(jù),包括溫度、濕度、風(fēng)力、最高氣溫、最低氣溫、臺(tái)風(fēng)預(yù)警、山火預(yù)警等。網(wǎng)格大小約為16平方公里。本系統(tǒng)對(duì)氣象數(shù)據(jù)不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用。
路況信息主要為路徑導(dǎo)航數(shù)據(jù)、道路擁堵情況數(shù)據(jù)、臨時(shí)封堵與管制信息等。本系統(tǒng)對(duì)路況信息不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用。
網(wǎng)絡(luò)輿情數(shù)據(jù)主要為主流社交媒體中電力相關(guān)的輿情信息。本系統(tǒng)對(duì)網(wǎng)絡(luò)輿情數(shù)據(jù)不做存儲(chǔ),僅進(jìn)行實(shí)時(shí)調(diào)用。
(3)數(shù)據(jù)收集
數(shù)據(jù)采集方法有數(shù)據(jù)復(fù)制、ETL、OGG、ESB等,可以根據(jù)實(shí)際業(yè)務(wù)選擇采集方法,采集所要分析的數(shù)據(jù)集。對(duì)數(shù)據(jù)存儲(chǔ)可以根據(jù)讀寫效率、存儲(chǔ)成本、存儲(chǔ)管理的不同運(yùn)用選擇存儲(chǔ)方法,例如分布式關(guān)系數(shù)據(jù)庫(kù)、分布式文件存儲(chǔ)系統(tǒng)、分布式內(nèi)存數(shù)據(jù)庫(kù)、分布式NoSql數(shù)據(jù)庫(kù)等。
4.2 數(shù)據(jù)分析
大數(shù)據(jù)分析是運(yùn)用大數(shù)據(jù)分布式計(jì)算方式結(jié)合分析模型對(duì)初始數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。大數(shù)據(jù)處理的方式有基于實(shí)時(shí)計(jì)算的流計(jì)算、內(nèi)存計(jì)算、CEP復(fù)雜事件處理計(jì)算以及非實(shí)時(shí)計(jì)算的Map/Reduce處理方式等,計(jì)算方式可以根據(jù)實(shí)際業(yè)務(wù)的需要來選擇。在數(shù)據(jù)分析過程中,首先對(duì)初始數(shù)據(jù)進(jìn)行輕度加工,形成分析型數(shù)據(jù),然后通過分析模型的應(yīng)用,得到分析結(jié)果數(shù)據(jù)并形成價(jià)值服務(wù)數(shù)據(jù),如圖4所示。
4.3 數(shù)據(jù)挖掘技術(shù)
(1)決策樹
決策樹(Decision Tree)是一種非常成熟的、普遍采用的數(shù)據(jù)挖掘技術(shù)。之所以稱為樹,是因?yàn)槠浣_^程類似一棵樹的成長(zhǎng)過程,即從根部開始,到樹干,到分枝,再到細(xì)枝末節(jié)的分叉,最終生長(zhǎng)出一片片的樹葉。在決策樹里,所分析的數(shù)據(jù)樣本先是集成為一個(gè)樹根,然后經(jīng)過層層分枝,最終形成若干個(gè)結(jié)點(diǎn),每個(gè)結(jié)點(diǎn)代表一個(gè)結(jié)論。決策樹算法之所以在數(shù)據(jù)分析挖掘應(yīng)用中如此流行,主要原因在于決策樹的構(gòu)造不需要任何領(lǐng)域的知識(shí),很適合探索式的知識(shí)發(fā)掘,并且可以處理高維度的數(shù)據(jù)。在眾多的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析算法中,決策樹最大的優(yōu)點(diǎn)在于它所產(chǎn)生的一系列從樹根到樹枝(或樹葉)的規(guī)則,可以很容易地被分析師和業(yè)務(wù)人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現(xiàn)成的可以應(yīng)用的業(yè)務(wù)優(yōu)化策略和業(yè)務(wù)優(yōu)化路徑。另外,決策樹技術(shù)對(duì)數(shù)據(jù)的分布甚至缺失非常寬容,不容易受到極值的影響。
(2)聚類分析
聚類(Clustering)分析有一個(gè)通俗的解釋和比喻,那就是“物以類聚,人以群分”。針對(duì)幾個(gè)特定的業(yè)務(wù)指標(biāo),可以將觀察對(duì)象的群體按照相似性和相異性進(jìn)行不同群組的劃分。經(jīng)過劃分后,每個(gè)群組內(nèi)部各對(duì)象間的相似度會(huì)很高,而在不同群組之間的對(duì)象彼此間將具有很高的相異度。
(3)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則(Association Rule)是在數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘領(lǐng)域中被發(fā)明并被廣泛研究的一種重要模型,關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的主要目的是找出數(shù)據(jù)集中的頻繁模式(Frequent Pattern),即多次重復(fù)出現(xiàn)的模式和并發(fā)關(guān)系(Cooccurrence Relationships),即同時(shí)出現(xiàn)的關(guān)系,頻繁和并發(fā)關(guān)系也稱作關(guān)聯(lián)(Association)。
(4)回歸分析
回歸(Regression)分析包括線性回歸(Linear Regression),這里主要是指多元線性回歸和邏輯斯蒂回歸(Logistic Regression)。其中,在客戶全面感知數(shù)據(jù)分析中更多使用的是邏輯斯蒂回歸,它又包括響應(yīng)預(yù)測(cè)、分類劃分等內(nèi)容。
多元線性回歸主要描述一個(gè)因變量如何隨著一批自變量的變化而變化,其回歸公式(回歸方程)就是因變量與自變量關(guān)系的數(shù)據(jù)反映。因變量的變化包括兩部分:系統(tǒng)性變化與隨機(jī)變化,其中,系統(tǒng)性變化是由自變量引起的(自變量可以解釋的),隨機(jī)變化是不能由自變量解釋的,通常也稱作殘值。
4.4 可視化展現(xiàn)
大數(shù)據(jù)應(yīng)用基于準(zhǔn)備數(shù)據(jù),依據(jù)分析模型,分析統(tǒng)匯出結(jié)果,需要對(duì)分析結(jié)果進(jìn)行可視化展現(xiàn)以及驗(yàn)證。
數(shù)據(jù)可視化展現(xiàn)實(shí)現(xiàn)面向客戶、面向服務(wù)人員、面向管理人員、面向決策人員的大數(shù)據(jù)結(jié)果可視化展示。根據(jù)業(yè)務(wù)數(shù)據(jù)集的特征和潛在結(jié)構(gòu)選擇合理的可視化模型,主要模型有多維可視化模型(散點(diǎn)圖、線形圖、柱形圖、餅形圖)、特殊的地形和層次可視化模型(地圖和樹型圖),以及混合模型(圖文說明圖、動(dòng)態(tài)效果圖)等??梢暬募夹g(shù)有適合強(qiáng)交互多數(shù)據(jù)展示的Flex、強(qiáng)交互多動(dòng)畫展示的Flash、強(qiáng)交互動(dòng)態(tài)展示的Silver Light、強(qiáng)交互多圖文展示的Html5等。
數(shù)據(jù)可視化驗(yàn)證可以從驗(yàn)證業(yè)務(wù)數(shù)據(jù)集的邏輯轉(zhuǎn)換和驗(yàn)證業(yè)務(wù)假設(shè)進(jìn)行驗(yàn)證,驗(yàn)證其分析結(jié)果是否符合預(yù)期或者是否可以依據(jù)分析結(jié)果做出預(yù)判等。根據(jù)驗(yàn)證結(jié)果也可以不斷調(diào)整和完善大數(shù)據(jù)應(yīng)用中各個(gè)業(yè)務(wù)的分析模型。
參考文獻(xiàn)
[1] 施文波,俞君杰,李校驍,等.電力GIS系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2015,38(21):155-158.
[2] 張婷.GIS系統(tǒng)在供電局配電網(wǎng)中的應(yīng)用探討[J].城市建設(shè)理論研究(電子版),2014,(7).
[3] 徐建.基于GIS的電力配網(wǎng)系統(tǒng)探討[J].低碳世界,2015,(26):90-91.
[4] 謝炯,額爾敦,李欣,等.電力生產(chǎn)GIS服務(wù)平臺(tái)的研究與設(shè)計(jì)[J].電力信息與通信技術(shù),2013,11(9):85-89.
[5] 蔣錦霞,莊曉丹,梅峰,等.配網(wǎng)生產(chǎn)搶修指揮平臺(tái)設(shè)計(jì)及應(yīng)用[J].電力信息化,2013,11(5):57-61.
[6] 姚楠,陳哲,劉玉林,等.基于GIS的電網(wǎng)氣象災(zāi)害監(jiān)測(cè)預(yù)警系統(tǒng)的研制[J].電力信息化,2013,11(3):41-45.
[7] 崔巍,王本德.電力搶修監(jiān)控調(diào)度系統(tǒng)開發(fā)和應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2002,26(19):64-67.
[8] 郭建成,錢靜,陳光,等.智能配電網(wǎng)調(diào)度控制系統(tǒng)技術(shù)方案[J].電力系統(tǒng)自動(dòng)化,2015,(1):206-212.
[9] 翁穎鈞,朱仲英.地理信息系統(tǒng)技術(shù)在電力系統(tǒng)自動(dòng)化中的應(yīng)用[J].電力系統(tǒng)自動(dòng)化,2003,27(18):74-78.
[10] 劉友波,劉洋,劉俊勇,等.基于Hadoop架構(gòu)的電力系統(tǒng)連鎖故障分布式計(jì)算技術(shù)[J].電力系統(tǒng)自動(dòng)化,2016,40(7):90-97.
[11] 夏可青,陳根軍,李力,等.基于多數(shù)據(jù)源融合的實(shí)時(shí)電網(wǎng)故障分析及實(shí)現(xiàn)[J].電力系統(tǒng)自動(dòng)化,2013,(24):81-88.
[12] 陳春,王業(yè)平,崔毅敏,等.電網(wǎng)故障信息系統(tǒng)中的故障分析與判斷[J].電力系統(tǒng)自動(dòng)化,2011,35(19):97-100.
[13] 林穎,郭志紅,陳玉峰,等.基于卷積遞歸網(wǎng)絡(luò)的電流互感器紅外故障圖像診斷[J].電力系統(tǒng)保護(hù)與控制,2015,(16):87-94.
[14] 李雨舒,李明珍.無人值班變電站遙控常見故障的分析與處理[J].電力系統(tǒng)保護(hù)與控制,2009,37(18):145-146.
[15] 李濤,吳冰,潘磊,等.應(yīng)急指揮中心信息接入方法研究[J].電力信息化,2012,10(11):38-42.
[16] 張尚謨,王永紅,華侃,等.應(yīng)急指揮中心多級(jí)音視頻互聯(lián)的研究及應(yīng)用[J].電力信息化,2012,10(5):33-36.
[17] 李嘯東,渠毅,郝小龍,等.電網(wǎng)全景展現(xiàn)與運(yùn)行指揮系統(tǒng)的應(yīng)用[J].電力信息化,2012,10(1):90-94.
[18] 曾東,王法,許金明,等.基于輸電狀態(tài)監(jiān)測(cè)平臺(tái)的巡檢系統(tǒng)研發(fā)及應(yīng)用[J].電力信息化,2011,09(11):96-99.
作者信息:
劉周斌1,何 颋2,李沁園1,胡曉哲2,項(xiàng) 翔2,袁永軍2,王海峰2
(1.國(guó)網(wǎng)浙江省電力有限公司電力科學(xué)研究院,浙江 杭州310007;2.國(guó)網(wǎng)浙江杭州市富陽(yáng)區(qū)供電有限公司,浙江 杭州311400)