《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 電力企業(yè)指標(biāo)運營監(jiān)測方法研究
電力企業(yè)指標(biāo)運營監(jiān)測方法研究
2015《電子技術(shù)應(yīng)用》智能電網(wǎng)增刊
周小明1,陳 剛1,楊宏宇2
(1.國網(wǎng)遼寧省電力有限公司,遼寧 沈陽110006;2.南瑞集團公司信息通信技術(shù)分公司,江蘇 南京210003)
摘要: 國家電網(wǎng)運營監(jiān)測中心對各業(yè)務(wù)部門進行指標(biāo)數(shù)據(jù)監(jiān)測的主要根據(jù)是業(yè)務(wù)專家知識和經(jīng)驗[1-2],所以對專家的業(yè)務(wù)水平有很大的依賴性。本文將數(shù)據(jù)挖掘的方法引入到電力企業(yè)指標(biāo)閾值設(shè)置的研究領(lǐng)域,用時間序列模型反映數(shù)據(jù)時間變化特征[3-5],用正態(tài)分布反映數(shù)據(jù)的穩(wěn)定性[6-7],用線性擬合體現(xiàn)數(shù)據(jù)的線性變化趨勢[8],在一定程度上解決了以往設(shè)置的閾值缺少客觀依據(jù)的現(xiàn)狀。
Abstract:
Key words :

  周小明1,陳  剛1,楊宏宇2

 ?。?.國網(wǎng)遼寧省電力有限公司,遼寧 沈陽110006;2.南瑞集團公司信息通信技術(shù)分公司,江蘇 南京210003)

  摘  要: 本文研究了電力企業(yè)指標(biāo)的數(shù)據(jù)形態(tài)和業(yè)務(wù)形態(tài),確定指標(biāo)數(shù)據(jù)在一定時間階段內(nèi)是否穩(wěn)定(業(yè)務(wù)是否穩(wěn)定),發(fā)現(xiàn)指標(biāo)在時間序列的變化特征,以及觀察指標(biāo)數(shù)據(jù)在每個時間周期內(nèi)是否呈線性趨勢,應(yīng)用統(tǒng)計學(xué)及數(shù)據(jù)挖掘方法,結(jié)合業(yè)務(wù)的精細化需要,提出了適用于不同特性指標(biāo)的三種閾值設(shè)置方法,包括正態(tài)分布指標(biāo)閾值設(shè)置方法、時間序列指標(biāo)閾值設(shè)置方法以及線性擬合指標(biāo)閾值設(shè)置方法。實驗結(jié)果表明,本文提出的三種閾值設(shè)置方法能夠反映業(yè)務(wù)實際,對國家電網(wǎng)的運營監(jiān)測有著重要意義。

  關(guān)鍵詞: 數(shù)據(jù)挖掘;正態(tài)分布;時間序列;線性擬合;閾值設(shè)置

0 引言

  國家電網(wǎng)運營監(jiān)測中心對各業(yè)務(wù)部門進行指標(biāo)數(shù)據(jù)監(jiān)測的主要根據(jù)是業(yè)務(wù)專家知識和經(jīng)驗[1-2],所以對專家的業(yè)務(wù)水平有很大的依賴性。本文將數(shù)據(jù)挖掘的方法引入到電力企業(yè)指標(biāo)閾值設(shè)置的研究領(lǐng)域,用時間序列模型反映數(shù)據(jù)時間變化特征[3-5],用正態(tài)分布反映數(shù)據(jù)的穩(wěn)定性[6-7],用線性擬合體現(xiàn)數(shù)據(jù)的線性變化趨勢[8],在一定程度上解決了以往設(shè)置的閾值缺少客觀依據(jù)的現(xiàn)狀。

1 指標(biāo)閾值設(shè)置方法

  本文介紹了三種指標(biāo)閾值設(shè)置方法,包括正態(tài)分布方法、時間序列方法、線性擬合方法,其中涉及到的正態(tài)分布有效性檢驗、時間序列建模條件檢驗和模型創(chuàng)建,以及線性擬合均采用工具Pluto數(shù)據(jù)挖掘平臺實現(xiàn)。

  1.1 正態(tài)分布

  1.1.1 正態(tài)分布算法介紹

  正態(tài)分布是實踐中應(yīng)用最為廣泛、在理論上研究最多的分布之一,它在概率統(tǒng)計中占用特別重要的地位。

  正態(tài)分布的概率密度函數(shù)為:

  XW1_`2AQP1{JX@{YYT}A%QK.jpg

  正態(tài)分布的3規(guī)則如圖1所示,置信區(qū)間如表1。

  1.1.2 正態(tài)分布指標(biāo)閾值設(shè)置方法

  正態(tài)分布指標(biāo)閾值設(shè)置方法,首先需要判斷指標(biāo)數(shù)據(jù)是否符合正態(tài)分布,若符合正態(tài)分布,則選取最近周期的指標(biāo)數(shù)據(jù)作為分析對象,計算該樣本數(shù)據(jù)的均值與標(biāo)準(zhǔn)差,根據(jù)正態(tài)分布置信區(qū)間的覆蓋率,結(jié)合業(yè)務(wù)的精細化需要,上下限圍繞中心點(均值)做2個標(biāo)準(zhǔn)差的波動形成指標(biāo)閾值。

  1.1.3 適用于正態(tài)分布閾值設(shè)置方法的指標(biāo)特性

  (1)在一段較長時間周期內(nèi)(1年以上),業(yè)務(wù)是穩(wěn)定的、收斂的。數(shù)據(jù)呈現(xiàn)出來的形式是趨近與某一點,并在一定范圍內(nèi)波動。

  (2)在正態(tài)分布有效性檢驗中P值>0.05時,說明樣本數(shù)據(jù)符合正態(tài)分布形態(tài)。

  (3)適用于服從正態(tài)分布的數(shù)據(jù)。

  (4)受連續(xù)時間因素干擾較小。

  1.2 時間序列

  1.2.1 時間序列算法介紹

  時間序列法是一種定量預(yù)測方法,在數(shù)據(jù)挖掘中作為一種常用的預(yù)測手段被廣泛應(yīng)用。對時間序列建模的兩個任務(wù),一是分析當(dāng)期數(shù)據(jù)如何受前幾期的數(shù)據(jù)影響,二是變量在時間變化上的規(guī)律性。

  本文選用的時間序列算法為ARIMA算法。

  ARIMA模型是將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現(xiàn)值和滯后值進行回歸所建立的模型。在ARIMA模型的識別過程中,主要用到兩個工具:一是自相關(guān)函數(shù)(簡稱ACF),二是偏自相關(guān)函數(shù)(簡稱PACF)以及它們各自的相關(guān)圖(即ACF、PACF相對于滯后長度描圖)。對于一個序列y來說,它的第k階自相關(guān)系數(shù)(記作rk)定義為它的k階自協(xié)方差除以它的方差。

  RNWI$4P9{Y6{0SR6HG79EXR.png

  它是關(guān)于k的函數(shù),因此也稱之為自相關(guān)函數(shù),通常記為ACF(k)。偏自相關(guān)函數(shù)PACF(k)度量了消除中間滯后項影響后兩滯后變量之間的相關(guān)關(guān)系。

  ARIMA(p,d,q)模型是經(jīng)過d階差分變換后的ARMA(p,q)模型,ARMA(p,q)模型的一般形式:

  `EVYHQL4PYIV~JU@(~_V9)Q.png

  ARIMA(p,d,q)模型的算法如下:

  (1)對原序列進行平穩(wěn)性檢驗,如果序列不滿足平穩(wěn)性條件,可以通過差分變換(單整階數(shù)為d,則進行d階差分)或者其他變換,如對數(shù)差分變換使序列滿足平穩(wěn)性條件。

  (2)通過計算能夠描述序列特征的一些統(tǒng)計量(如自相關(guān)系數(shù)和偏自相關(guān)系數(shù)),來確定ARMA模型的階數(shù)p和q,并在初始估計中選擇盡可能少的參數(shù)。

  (3)估計模型的未知參數(shù),并檢驗參數(shù)的顯著性,以及模型本身的合理性。

  (4)進行診斷分析,以證實所得模型確實與所觀察到的數(shù)據(jù)特征相符。

  1.2.2 時間序列指標(biāo)閾值設(shè)置方法

  時間序列指標(biāo)閾值設(shè)置方法,首先需要對時間上連續(xù)的指標(biāo)數(shù)據(jù)進行時間序列建模條件檢驗,如果數(shù)據(jù)既滿足平穩(wěn)性,又具有相關(guān)性,則應(yīng)用ARIMA算法對樣本數(shù)據(jù)進行ARIMA時間序列建模,對模型性能進行評估,若模型可用,則以模型創(chuàng)建過程中形成的樣本預(yù)測數(shù)據(jù)與實際數(shù)據(jù)的偏差為分析對象,計算其誤差均值與誤差標(biāo)準(zhǔn)差,根據(jù)正態(tài)分布置信區(qū)間與樣本覆蓋率的對照關(guān)系,結(jié)合業(yè)務(wù)的精細化需要,上下限圍繞指標(biāo)當(dāng)前預(yù)測值做2個標(biāo)準(zhǔn)差的波動形成指標(biāo)閾值。

  1.2.3 適用于時間序列閾值設(shè)置方法的指標(biāo)特性

  (1)當(dāng)指標(biāo)數(shù)據(jù)或者一階差分平穩(wěn)性檢驗<0.05,且檢驗?zāi)P椭袛?shù)據(jù)存在自相關(guān)和偏自相關(guān)性(相關(guān)性檢測圖中,存在自相關(guān)系數(shù)、偏自相關(guān)系數(shù)超出±2倍估計標(biāo)準(zhǔn)差)時,說明樣本數(shù)據(jù)適合時間序列算法。

  (2)適用于連續(xù)時間點數(shù)據(jù)序列,當(dāng)數(shù)據(jù)因為數(shù)據(jù)質(zhì)量出現(xiàn)缺值時應(yīng)對數(shù)據(jù)進行預(yù)處理后才能使用時間序列。

  (3)不適用與在連續(xù)時間序列中出現(xiàn)多個異常點的情況。

  1.3 線性擬合

  1.3.1 線性擬合算法介紹

  若兩組數(shù)據(jù)X和Y具有統(tǒng)計關(guān)系而且是線性關(guān)系,那么就可以建立回歸模型:

  ~CA`O%(9YUR[OFL%BR3R`$I.jpg。

  1.3.2 線性擬合指標(biāo)閾值設(shè)置方法

  線性擬合指標(biāo)閾值設(shè)置方法是,首先需要觀察指標(biāo)歷史數(shù)據(jù)的變化趨勢,如果數(shù)據(jù)在每個時間周期內(nèi)呈線性趨勢,并且不同時間周期數(shù)據(jù)的變化趨勢近似相同,則對每個時間周期內(nèi)的數(shù)據(jù)分別應(yīng)用線性擬合算法進行一元線性回歸,若擬合度R2都大于0.95,則選擇最近時間周期內(nèi)的數(shù)據(jù)及線性擬合函數(shù),以該樣本預(yù)測數(shù)據(jù)與實際數(shù)據(jù)的偏差為分析對象,計算其誤差均值與誤差標(biāo)準(zhǔn)差,按正態(tài)分布置信區(qū)間與樣本覆蓋率的對照關(guān)系,結(jié)合業(yè)務(wù)的精細化需要,上下限圍繞指標(biāo)當(dāng)前預(yù)測值做3個標(biāo)準(zhǔn)差的波動形成指標(biāo)閾值。

  1.3.3 適用于線性擬合閾值設(shè)置方法的指標(biāo)特性

  (1)在每個時間周期(一般選擇1年為一個周期)內(nèi),業(yè)務(wù)是穩(wěn)定的。數(shù)據(jù)在每個時間周期內(nèi)呈線性趨勢,并且不同時間周期數(shù)據(jù)的變化趨勢近似相同(即不同時間周期內(nèi)同一時間點的指標(biāo)值幾乎相同)。比較適用于指標(biāo)的累計值。

  (2)對每個時間周期內(nèi)的數(shù)據(jù)進行線性擬合,擬合度R2都需大于0.95。

  (3)適用于具有線性趨勢的數(shù)據(jù)。

  (4)受連續(xù)時間因素干擾較小。

2 實驗結(jié)果及分析

  本次實驗在選取數(shù)據(jù)時,依據(jù)運營監(jiān)測指標(biāo)體系中的指標(biāo)項,采用某省電力公司的3個指標(biāo)的省數(shù)據(jù)作為研究對象,運用以上介紹的三種指標(biāo)閾值設(shè)置方法進行實驗分析。指標(biāo)清單如表2。

008.jpg

  2.1 基于正態(tài)分布方法的“總資產(chǎn)周轉(zhuǎn)率”閾值設(shè)置

  2.1.1 指標(biāo)數(shù)據(jù)進行正態(tài)分布分析

  選取總資產(chǎn)周轉(zhuǎn)率當(dāng)期值,2012年1月到2012年12的樣本數(shù)據(jù)進行正態(tài)性分布檢測,共計12條數(shù)據(jù)。利用正態(tài)分布校驗?zāi)P头治觯滹@著性指標(biāo)P=0.754,P值大于0.05,說明服從正態(tài)分布。校驗圖如圖2。

002.jpg

  2.1.2 波動區(qū)間計算

  以正態(tài)分布置信區(qū)間與分布覆蓋率對照表為依據(jù),以保證95%的樣本值落入域值范圍作為異動監(jiān)測要求。

  利用正態(tài)分布統(tǒng)計分析模型,計算所提供的2012年的12條樣本數(shù)據(jù)的均值與標(biāo)準(zhǔn)差。均值為:9.291,標(biāo)準(zhǔn)差為:0.339,按上下限圍繞中心點做2個標(biāo)準(zhǔn)差的波動形成指標(biāo)閾值??捎嬎愕玫娇傎Y產(chǎn)周轉(zhuǎn)率上限為:9.970,下限為:8.613。

  按照上述2012年數(shù)據(jù)得到的閾值,對2013年1月到10月數(shù)據(jù)(共10條數(shù)據(jù))進行覆蓋率測試,如圖3所示。

003.jpg

  2.2 基于時間序列方法的“單位購電成本”閾值設(shè)置

  選取單位購電成本當(dāng)前值,2008年1月到2013年9月省數(shù)據(jù),共計69條數(shù)據(jù)(其中,2013年3月和4月數(shù)據(jù)為空)。以2008年1月~2013年2月的數(shù)據(jù)為時間序列模型使用的樣本數(shù)據(jù),包括模型構(gòu)建樣本數(shù)據(jù)(2008年1月~2012年12月的數(shù)據(jù))與測試數(shù)據(jù)(2013年1月和2月的數(shù)據(jù)),共計62條記錄。

  2.2.1 樣本數(shù)據(jù)檢驗

  (1)數(shù)據(jù)的平穩(wěn)性檢驗

  應(yīng)用檢驗?zāi)P偷玫絇=0.951 5,說明該數(shù)據(jù)是一組非平穩(wěn)序列。

  對原數(shù)據(jù)進行一階差分處理,對差分后的數(shù)據(jù)再次進行平穩(wěn)性檢驗,P=0.000 0,此時數(shù)據(jù)具有平穩(wěn)性。說明原數(shù)據(jù)具有一階平穩(wěn)性。

  (2)數(shù)據(jù)的相關(guān)性檢驗

  對一階差分后的數(shù)據(jù)進行相關(guān)性檢驗,具有相關(guān)性(包括自相關(guān)和偏自相關(guān))。相關(guān)性檢驗如圖4所示。

004.jpg

  從檢驗結(jié)果可以看出,此時數(shù)據(jù)存在自相關(guān)和偏自相關(guān)性(相關(guān)性檢測圖中,序列1階自相關(guān)系數(shù)、1階偏自相關(guān)系數(shù)均比較顯著,具有自相關(guān)性)。因此,該數(shù)據(jù)可進行時間序列建模。

  2.2.2 時間序列建模

  選取2008年1月~2012年12月的數(shù)據(jù)作為時間序列建模的訓(xùn)練樣本,2013年1月和2月的數(shù)據(jù)作為測試樣本。時間序列如圖5所示。

005.jpg

  以ARIMA時間序列模型為預(yù)測模型,獲得2013年1月和2月時間序列預(yù)測結(jié)果與實際數(shù)據(jù)比對誤差如表3。

  2.2.3 波動區(qū)間計算

  上述時間序列模型的誤差的均值為0.139 2,誤差的標(biāo)準(zhǔn)差為:6.520 4。應(yīng)用時間序列模型,實時地預(yù)測2013年1月~2013年9月各月單位購電成本。并根據(jù)設(shè)置指標(biāo)波動區(qū)間的方法,設(shè)置各月指標(biāo)的閾值區(qū)間,如表3。

006.jpg

  2.3 基于線性擬合方法的“累計總資產(chǎn)周轉(zhuǎn)率”閾值設(shè)置

  2.3.1 指標(biāo)數(shù)據(jù)線性擬合分析

  選取總資產(chǎn)周轉(zhuǎn)率累計值,2010年1月~2013年10月省數(shù)據(jù),共46條。該指標(biāo)數(shù)據(jù)在一年內(nèi)(12個月)呈線性增長的趨勢,并且每年的變化趨勢近似相同。2010年~2013年各月數(shù)據(jù)的分布情況如圖6所示。

  對2010年、2011年、2012年的數(shù)據(jù)(每年12條數(shù)據(jù))分別按照月份進行線性擬合,2010年、2011年、2012年的數(shù)據(jù)線性擬合的擬合優(yōu)度均大于0.95,說明“總資產(chǎn)周轉(zhuǎn)率”指標(biāo)的累計值在一年內(nèi)呈線性增長趨勢,并且在每年的同月指標(biāo)值幾乎相同。

  2.3.2 波動區(qū)間計算

  選取2012年各月數(shù)據(jù)得到線性擬合函數(shù),計算2012年各月的預(yù)測值,同時以該樣本數(shù)據(jù)的預(yù)測值與實際數(shù)據(jù)的偏差為分析對象,計算其誤差均值與標(biāo)準(zhǔn)差。

  經(jīng)計算得到誤差的均值為0.000 258,誤差的標(biāo)準(zhǔn)差為:0.005 931。應(yīng)用以上線性擬合函數(shù),預(yù)測2013年1月~2013年10月遼寧各月累計總資產(chǎn)周轉(zhuǎn)率值,并根據(jù)設(shè)置指標(biāo)波動區(qū)間的方法,設(shè)置各月指標(biāo)的閾值區(qū)間。

  3 結(jié)論

  本文根據(jù)國家電網(wǎng)的運營監(jiān)測中心對于指標(biāo)的監(jiān)測有較多指標(biāo)閾值設(shè)置是由業(yè)務(wù)專家人工設(shè)置實現(xiàn)的現(xiàn)狀,針對存在部分指標(biāo)設(shè)置沒有結(jié)合各地區(qū)業(yè)務(wù)能力的差異,或者沒有充分考慮業(yè)務(wù)自身規(guī)律等問題,通過研究指標(biāo)的數(shù)據(jù)形態(tài)和業(yè)務(wù)形態(tài),確定指標(biāo)數(shù)據(jù)在一定時間階段內(nèi)是否穩(wěn)定(業(yè)務(wù)是否穩(wěn)定),發(fā)現(xiàn)指標(biāo)在時間序列的變化特征,以及觀察指標(biāo)數(shù)據(jù)在每個時間周期內(nèi)是否呈線性趨勢,結(jié)合統(tǒng)計學(xué)及數(shù)據(jù)挖掘方法,提出了適用于不同特性指標(biāo)的三種閾值設(shè)置方法——時間序列指標(biāo)閾值設(shè)置方法、正態(tài)分布指標(biāo)閾值設(shè)置方法以及線性擬合指標(biāo)閾值設(shè)置方法。在此基礎(chǔ)上,應(yīng)用本文提出的方法對相適用三類指標(biāo)進行了實驗和分析,并將通過線性擬合方法得到的“累計總資產(chǎn)周轉(zhuǎn)率”的閾值和目前國網(wǎng)已有的閾值進行了對比實驗。實驗結(jié)果表明本文的方法設(shè)置的指標(biāo)閥值更加合理,更能反映客觀現(xiàn)實情況。

  參考文獻

  [1] 張云飛.我國電力行業(yè)運行情況剖析[J].上海電力,2008(6):519-524.

  [2] 國家電網(wǎng)公司總部運營監(jiān)測(控)中心建成投運[J].電力信息化,2013(6):111-112.

  [3] 段江嬌.基于模型的時間序列數(shù)據(jù)挖掘[D].上海:復(fù)旦大學(xué),2008.

  [4] 谷赫.時間序列的數(shù)據(jù)挖掘在證券預(yù)測分析中的應(yīng)用研究[D].長春:吉林大學(xué),2005.

  [5] 李慶雷,馬楠,付遵濤.時間序列非平穩(wěn)檢測方法的對比分析[J].北京大學(xué)學(xué)報(自然科學(xué)版),2013(2):252-260.

  [6] 馬莉.電力市場環(huán)境下發(fā)電公司報價策略研究[D].杭州:浙江大學(xué),2003.

  [7] 杜宇上.基于正態(tài)密度函數(shù)的滾動窗口路徑規(guī)劃方法[J].科學(xué)技術(shù)與工程,2010(15):3741-3744.

  [8] 何菊明,王芙.實驗數(shù)據(jù)的線性擬合及計算機處理[J].武漢工程大學(xué)學(xué)報,2008,30(1):117-119.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。