文獻標識碼: A
文章編號: 0258-7998(2014)10-0131-03
0 引言
隨著科技的發(fā)展,大規(guī)模數(shù)據(jù)的分析和處理在當今的社會生活中占據(jù)著越來越重要的地位。然而,常常因為數(shù)據(jù)保存不當或條件有限等原因?qū)е伦罱K得到的數(shù)據(jù)是缺失的,不完整的。為了得到完整的數(shù)據(jù),需要對高維大規(guī)模數(shù)據(jù)的處理與分析。如何利用數(shù)據(jù)間的相關性,挖掘出主要信息[1],利用有限的信息得到完整的數(shù)據(jù)成為近年來研究的熱點問題。
溫度場是物質(zhì)系統(tǒng)內(nèi)部各個點上溫度的集合,包含大量的數(shù)據(jù)。已有研究[2-6]介紹了用聲學法測量,用不同算法擬合溫度場的方法,但是關于溫度場含有缺失點后的重建問題,目前的研究還比較少。本文針對含有缺失點的溫度場,提出了一種基于核范數(shù)凸優(yōu)化的矩陣填充理論的方法,為含有缺失點的溫度場重建提供了新的思路,并與模擬的溫度場進行比較,驗證該方法的可行性。
1 問題建模
以二維的穩(wěn)態(tài)溫度場為研究對象,系統(tǒng)模型如圖1所示。
圖1中,白框代表已知的溫度場的值,黑框代表未知的值。本文需要解決的問題是,如何通過已知溫度場的數(shù)據(jù)構造未知的部分,從而重建整個溫度場。圖中的P和Q分別為二維溫度場的長和寬。
2 矩陣填充理論
矩陣填充考慮的是矩陣的一部分或者大部分元素由于各種原因丟失或無法得知的情況下,如何準確地將這些元素合理地填充。該理論是由CANDES E J等人在2009年在壓縮感知的基礎上提出[7]。CANDES E J詳細證明了待填充矩陣的特征以及在一定條件下的重建概率[8]。為了解決矩陣的填充問題,假設待填充的矩陣是冗余的,即其數(shù)據(jù)可以用一個低位的線性子空間表示[9]。矩陣填充的優(yōu)化問題表示為:
其中M是觀測到的含有缺失點的矩陣,X是待重建的矩陣,Ω是觀測到的已知元素的下標的集合。此模型的意義在于,將空缺的元素填充后,使矩陣的結構盡可能好,即秩盡可能低。然而,這是一個NP-hard問題。由于矩陣的秩r與它非奇異值的個數(shù)相同,所以用矩陣的奇異值的和(即核范數(shù))來近似代替矩陣的秩,于是式(1)優(yōu)化為:
然而二維穩(wěn)態(tài)溫度場數(shù)值構成的矩陣是非稀疏的,如果直接對缺失點進行填充,不僅會花費大量的時間,而且重建出來的溫度場誤差很大。實驗表明,溫度場數(shù)值構成的矩陣通過DCT(即離散傅里葉)變換后,表現(xiàn)出較好的稀疏性。在DCT域下,通過矩陣填充理論,采用奇異值迭代[11]的方法對缺失點進行重構,然后再對重構后的矩陣作逆變換,最終得到完整的溫度場。
3 溫度場缺失值填充算法
3.1 DCT變換
DCT即離散傅里葉變換,屬于正交變換,它將空間域變換到頻域,把能量集中到少數(shù)幾個低頻系數(shù)上,高頻分量占其中的比重相當小,因此將高頻取出后,仍然可以使原數(shù)據(jù)保持較高的準確性,具體公式為:
DCT正變換:
3.2 SVD分解
通過SVD(奇異值分解)將一個非常復雜的矩陣用更小更簡單的幾個子矩陣相乘來表示,分解后的奇異值越大,表明對應的元素越重要[12]。奇異值分解描述為:
a11 … a1n
其中r為矩陣A的秩。
3.3 算法設計如下
輸入:含有缺失值的矩陣EM×N,
輸出:完整的矩陣X。
(1)初始化,令矩陣EM×N缺失點處的值為零,Y0=0。
(2)計算:Xk=Dτ(Yk-1),Yk=Yk-1+δkPΩ(E-Xk)。其中Dτ為收縮算子,δk為迭代步長,PΩ為投影算子。
(3)根據(jù)計算結果,若滿足的最優(yōu)解,則跳出;若不滿足,跳到步驟(2)繼續(xù)運算,L為拉格朗日函數(shù)。
(4)矩陣填充結束,得到結果為X。
上述算法中,每一次迭代都使Xk最小化,最終收斂到最優(yōu)解,并且設置迭代的最大次數(shù)為N。然后根據(jù)得到的最優(yōu)解,通過DCT逆變換,實現(xiàn)溫度場的重建。
4 仿真結果及分析
4.1 仿真結果
在長P=10 m、寬Q=10 m的二維空間中,構建一個如下的模擬的典型單峰對稱溫度場[5]:
在溫度場重建過程中各取長寬M=N=100。文中采用隨機均勻去掉溫度值的方式,分別對不同缺失率的溫度場進行重建,重建結果用均方根誤差[5]評價,仿真實驗在內(nèi)存為3 GB、處理器為2 GHz的計算機上進行。為了保證數(shù)據(jù)準確性,以10次結果的平均值作為實驗依據(jù)。均方根誤差定義為:
4.2 仿真分析
從表1中可以看出,隨著缺失率的提高,均方根誤差不斷增大,即便在缺失率高達20%的情況下,均方根誤差依然在誤差較小的范圍內(nèi),并且重構溫度場的時間僅為3.12 s。但是從圖5可以看出,此時在溫度場的若干點上,誤差相對較大。因此實驗表明:僅在缺失率處于較低水平時,該方法能夠精確快速地重構出原來的溫度場。另外從表1中可以看出,當缺失率變大時,重建時間并不一定會變大,這與溫度場缺失數(shù)據(jù)后形成的矩陣的自由度有關[8],矩陣自由度反映了數(shù)據(jù)的可降維性,處理后的矩陣自由度越小,重建時間和迭代次數(shù)會越小,反之亦然,因此實驗結果符合矩陣填充理論。
5 結論
在大規(guī)模數(shù)據(jù)處理與分析占據(jù)著社會生活和科學研究主流的時代,如何充分利用數(shù)據(jù)間的冗余性對數(shù)據(jù)進行有效地提取成為研究的重點。本文以含有缺失點的復雜的溫度場為研究對象,利用核范數(shù)凸優(yōu)化的矩陣填充理論,對溫度場數(shù)據(jù)進行稀疏化處理,對不同缺失率下溫度場的重建進行了仿真分析,驗證了該方法在低缺失率下的可行性,為研究含有缺失點的溫度場的重構問題提供了新的方向。
參考文獻
[1] HAN J,KAMBER M,PEI J.Data mining:concepts and techniques[M].Morgan Kaufmann,2006.
[2] TIAN F,LIU S,ZHANG C,et al.Study on reconstruction algorithm of two-dimensional temperature field based on simulation of sound propagation path[C].Electronic Measurement & Instruments, 2009.ICEMI′09.9th International Conference on.IEEE,2009:3-844-3-847.
[3] WAN X,GAO Y,WANG Y.3-D flame temperature field reconstruction with multi objective neural network[J].Chinese Optics Letters,2003,1(2):78-81.
[4] Tian Feng,Sun Xiaoping, Shao Fuqun,et al.A study on complex temperature field reconstruction algorithm based on combination of gauss functions with regularization method[J].Proceedings of the Csee,2004,24(5):041.
[5] 周獻,王強,繆志農(nóng),等.基于RBF神經(jīng)網(wǎng)絡的三維溫度場重建算法[J].儀表技術與傳感器,2013(5):99-102.
[6] 田豐,孫小平,邵富群,等.基于高斯函數(shù)與正則化法的復雜溫度場圖像重建算法研究[J].中國電機工程學報,2004,24(5):212-215.
[7] 彭義剛,索津莉,戴瓊海,等.從壓縮傳感到低秩矩陣恢復:理論與應用[J].自動化學報,2013,39(7):981-994.
[8] CAND?魬S E J,RECHT B.Exact matrix completion via convex optimization[J].Foundations of Computational mathematics,2009,9(6):717-772.
[9] 陳敏銘.矩陣重建的算法與實現(xiàn)[D].北京:中國科學院研究生院,2010.
[10] RECHT B.A simpler approach to matrix completion[J].The Journal of Machine Learning Research,2011(12):3413-3430.
[11] CAI J F,CAND?魬S E J,SHEN Z.A singular value thresholding algorithm for matrix completion[J].SIAM Journal on Optimization,2010,20(4):1956-1982.
[12] DE LATHAUWER L,DE MOOR B,VANDEWALLE J.A multilinear singular value decomposition[J].SIAM Journal on Matrix Analysis and Applications,2000,21(4):1253-1278.