文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.173985
中文引用格式: 方芳,田世明,卜凡鵬,等. 一種自適應選擇樣本的用電負荷預測方法[J].電子技術應用,2017,43(11):18-21,26.
英文引用格式: Fang Fang,Tian Shiming,Bu Fanpeng,et al. An electric load forecasting method based on adaptive selection of samples[J].Application of Electronic Technique,2017,43(11):18-21,26.
0 引言
短期負荷預測是電力系統(tǒng)實現(xiàn)安全運行與經濟調度的前提與保障[1-3],及時準確的預測能為電力網(wǎng)絡運行各個環(huán)節(jié)的管理者及調度部門提供決策依據(jù),同時也是實時電價策略制定、電力市場規(guī)劃實施的基礎。短期負荷預測,尤其是未來24小時的短期預測,由于負荷波動隨機性強、影響因素種類眾多、負荷周期性差異大[4],一直是負荷預測工作中的難點與重點。
影響未來負荷波動狀況的因素眾多,除了氣溫、濕度、降雨量等氣象因素,經濟產業(yè)波動、重大節(jié)假日等也與其存在相關關系,如何在模型中考慮多種因素而又能消除因素間的多重共線性及樣本數(shù)不足的缺陷,成為研究的阻礙[5-6]。在機器學習領域,嶺回歸技術恰好對樣本數(shù)小于特征數(shù)、特征間存在多重共線性這一預測場景適用。文獻[7]將主成份分析與嶺回歸結合進行了短期負荷分析,文獻[7-8]則結合偏最小二乘與嶺回歸建立了PLSR-RE預測模型進行中長期負荷預測。由于缺少特征相似樣本的提取,這些預測方法都沒有發(fā)掘出嶺回歸技術在小樣本多特征情形下相較普通最小二乘回歸的優(yōu)勢。
面對短期負荷預測在較短時期內就存在較大非周期性差異的特點,固定的預測模型即使使用了較多的歷史數(shù)據(jù)做訓練,也很可能在預測數(shù)周后預測效果就大為下降。因此在24小時負荷預測中,一個改進趨勢便是依據(jù)預測日的某些特征,自適應選擇其適用的預測模型。自適應的思想在人工智能領域應用廣泛,自適應系統(tǒng)可以從自身的挫折、對外部世界的觀察和經歷中進行學習[9-14]。當條件發(fā)生變化時,它能夠對自身做出相應調整。本文將自適應的思想結合嶺回歸預測技術,建立了一套預測精度較好的24小時短期負荷預測模型,并結合某區(qū)實際數(shù)據(jù)分析模型的預測效果。
1 自適應負荷預測原理
自適應預測的目標是針對不同的預測日,通過某種指標自動比較各種預測模型在對預測日進行預測時的性能,一方面自適應地選擇合適的預測方法,另外一方面,還要自適應地進行模型參數(shù)的尋優(yōu),以實現(xiàn)自動地將具有最優(yōu)參數(shù)的最優(yōu)模型應用于下一次預測。
通常評價預測模型的主要指標是模型的預測精確度,而由于對待預測日的實際負荷未知,其實際預測精確度難以估計。因此在使用自適應技術時,可以考慮使用兩種自適應模式:預測日特征自適應及虛擬預測日自適應。
預測日特征自適應,即通過預測日的特征,如氣象特征、節(jié)假日信息、人流密度等預報信息,在歷史日中選擇與預測日特征相近的相似日進行模型自適應訓練與尋優(yōu),最終完成預測。其優(yōu)點是訓練時間較短,缺點是特征相似日的自適應模型可能對預測日精度較差。
虛擬預測日自適應,是首先通過預測日的特征,在歷史日中選擇與預測日最相近的虛擬預測日,通過對虛擬預測日預測精度不斷尋優(yōu),得到一個精度較高的模型用于實際預測日。該預測方法優(yōu)點是自適應程度高,預測效果好,缺點是尋優(yōu)時間較長,對虛擬日的尋優(yōu)過程可能造成過擬合而在實際預測中性能下降。
2 嶺回歸與帶交叉驗證的嶺回歸
嶺回歸是一種適用于共線性數(shù)據(jù)分析的有偏估計回歸方法,屬于一種改進的最小二乘法。嶺回歸最為經典的應用場景是不考慮多重共線性,引入較多的影響因素來對模型進行擬合,這一場景下時常會造成樣本的特征維度大于樣本的個數(shù),從而自變量矩陣是不滿秩的,在普通最小二乘法中需要對自變量自乘矩陣求逆,而該場景下該矩陣接近于奇異,對其求逆存在很大誤差,而嶺回歸則不會存在這一問題。
回歸分析中常用的最小二乘法是一種無偏估計,對于一個適定問題,X通常是列滿秩的,回歸模型可以表述如下:
其中X為自變量矩陣,θ為回歸參數(shù)矩陣,y為因變量向量。
采用最小二乘法,定義的損失函數(shù)為殘差的平方和,表述如下:
為求取最小化損失,對上述問題求導后,可得到時殘差平方和最小化的參數(shù)矩陣:
當X不是列滿秩時,或者其某些列之間的線性相關性較大時,XTX的行列式接近于0,即XTX接近于奇異,上述問題轉變?yōu)橐粋€不適定問題。此時對XTX求逆的誤差急劇增大,傳統(tǒng)的最小二乘法表現(xiàn)出非穩(wěn)定性和不可靠性。
為解決上述問題,在上述的損失函數(shù)中加入一個正則化項,即變?yōu)椋?/p>
帶交叉驗證的嶺回歸算法則是通過預先設定好α的不同取值(通常設定一個步長與范圍,在一定區(qū)間內等步長取值作為α的取值集合),通過對樣本所有點隨機劃分訓練點的測試點,對每一個測試點遍歷α的取值集合做嶺回歸預測,最終通過交叉驗證選取使整體擬合誤差最小的α值作為最終的嶺回歸模型的α值。
3 模型輸入變量數(shù)值化
對于一天之后的短期負荷預測,影響其負荷大小的相關因子主要是星期類型、月份、總體的時間趨勢、該日的氣象值、該日相對于前一日的氣象變化、前一日的負荷值。將以上因素數(shù)值化表述如下:
星期類型:
其中wi,j表示第i個氣象類型(如溫度、濕度、氣壓等)在該日第j個時點的氣象值。
相對前一日氣象變化值:
其中wdi,j表示第i個氣象類型(如溫度、濕度、氣壓等)該日第j個時點的值與前一日第j個時點的值作差分得到的氣象變化量。
前一日負荷:
即44+8×m維,m為考慮的氣象因素種類數(shù),假設考慮4種天氣因素,則模型輸入為236維向量,而在3年的歷史數(shù)據(jù)中選擇的與預測日天氣類型相近的訓練樣本顯然不會超過236個,因此需要使用嶺回歸技術實現(xiàn)這一預測模型。
綜上,對預測日i第k個時點負荷的預測模型可寫為:
4 自適應預測方法
依據(jù)預測模型的自適應程度,分別建立了模式1至模式3三種預測模型。
4.1 模式1:訓練所有樣本的RidgeCV回歸模型
該模式即將預測日之前所有歷史日的負荷及相關因素均用于模型的訓練,其基本流程如圖1所示。
模式1的優(yōu)點是方法簡單、實現(xiàn)容易,對每一個預測日只需要使用所用歷史數(shù)據(jù)訓練好的一個模型,從而預測速度快。但由于缺乏對待預測日自身特點的針對性,預測效果容易受到整體訓練樣本中無關樣本的干擾,因此可以考慮已經不同預測日自身特點篩選用于訓練的樣本,從而提高訓練的效率與針對性,達到提高預測精度的目的。由此提出模式2的預測方法。
4.2 模式2:依據(jù)預測日天氣自適應選擇最優(yōu)訓練樣本訓練模型
模式2考慮具體實現(xiàn)自適應預測中的依據(jù)預測日特征自適應方法。具有相同天氣類型與氣象變化情況的日期,其負荷與天氣因素、前日負荷變化情況也存在相似性,通過尋找對預測日有較高氣象相似度的歷史日作為訓練樣本訓練模型,能夠最大程度地排除無關樣本對建立預測模型的干擾,從而提高最終預測模型的準確性與針對性。
模式2基本預測流程如圖2所示。其相比模式1增加了相關樣本篩選功能,排除了無關樣本對預測日的干擾,減少模型訓練時間的同時提高最終預測精度。
4.3 模式3:最小化虛擬日預測誤差自適應選擇權重篩選訓練樣本的預測模型
模式3相比模式2,加入了虛擬預測日預測的概念,將虛擬預測日預測誤差極小化作為模型優(yōu)化的目標,通過優(yōu)化用于篩選的權重系數(shù)向量ω1、ω2,使得最終用于訓練的樣本與預測日氣象狀況高度相關,從而最終模型更適用于預測日,以提高對最終預測日的預測精度。
具體流程如圖3所示。
5 預測結果
通過實際使用模式2和模式3對某地區(qū)電網(wǎng)的實際負荷數(shù)據(jù)進行預測,同時與短期負荷預測中精度較高的SVR預測方法進行精度的比較,分析使用自適應技術后模型的預測結果。
圖4為模式2、模式3與SVR測試結果,通過觀察可發(fā)現(xiàn),在對節(jié)假日與工作日交匯的日期及負荷變化大的日期的預測中,模式2與模式3的預測效果要好于支持向量回歸預測,模式3相比模式2預測效果差別不大,但整體的預測誤差要小于模式2,其中模式2預測MAPE為1.024%,模式3預測MAPE為0.978%,SVR預測MAPE1.464%,模式2雖然誤差較模式3大,但對于氣象變化大的預測日效果更好,模式3則在負荷平穩(wěn)時段預測精度最高。
6 結論
在嶺回歸預測模型及自適應思想的基礎上,本文提出了一種應用虛擬預測日方法的自適應嶺回歸預測模型,并依據(jù)自適應程度提出了兩種預測模式。模型在實際運用中體現(xiàn)了對不同類型預測日的針對性,相比常用的SVR預測模型精度更高,對負荷突變日的適應性更強,總體預測效果更好。
參考文獻
[1] 康重慶,夏清,劉梅,等.電力系統(tǒng)負荷預測[M].北京:中國電力出版社,2007.
[2] 牛東曉,曹樹華,趙磊,等.電力負荷預測技術及其應用[M].北京:中國電力出版社,2009.
[3] 劉晨暉.電力系統(tǒng)負荷預報理論與方法[M].哈爾濱:哈爾濱工業(yè)大學出版社,1987.
[4] TAYLOR R C.An overview of the Hadoop/MapReduce/HBase framework and its current applications in bioinformatics[J].BMC Bioinformatics,2010,11(12):S1.
[5] DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[6] ENE A,IM S,MOSELEY B.Fast clustering using Map-Reduce[C].Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2011:681-689.
[7] 楊卓.基于負荷混沌特性和最小二乘支持向量機的短期負荷預測[D].西安:西安理工大學,2008.
[8] 何永秀,王躍錦,楊麗芳,等.基于最小二乘支持向量機的居民用電預測研究[J].電力需求側管理,2010,12(3):19-23.
[9] WONG P C,SHEN H W,JOHNSON C R,et al.The top 10 challenges in extreme-scale visual analytics[J].IEEE computer graphics and applications,2012,32(4):63.
[10] 顧丹珍,艾芊,陳陳,等.自適應神經網(wǎng)絡在負荷動態(tài)建模中的應用[J].中國電機工程學報,2007,27(16):31-36.
[11] GUO H,MAO N,YUAN X.Wysiwyg(what you see is what you get)volume visualization[J].Visualization and Computer Graphics,IEEE Transactions on,2011,17(12):2106-2114.
[12] AHRENS J,BRISLAWN K,MARTIN K,et al.Large-scale data visualization using parallel data streaming[J].Computer Graphics and Applications,IEEE,2001,21(4):34-41.
[13] ROSS R B,PETERKA T,SHEN H W,et al.Visualization and parallel I/O at extreme scale[C].Journal of Physics:Conference Series IOP Publishing,2008.
[14] JAGADISH H V,OOI B C,TAN K L,et al.Distance:An adaptive B+-tree based indexing method for nearest neighbor search[J].ACM Transactions on Database Systems(TODS),2005,30(2):364-397.
作者信息:
方 芳1,田世明2,卜凡鵬2,蘇 運3
(1.國網(wǎng)北京市電力公司昌平供電公司,北京102200;
2.中國電力科學研究院,北京100192;3.國網(wǎng)上海市電力公司,上海200437)