文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2014)10-0131-03
0 引言
隨著科技的發(fā)展,大規(guī)模數(shù)據(jù)的分析和處理在當(dāng)今的社會(huì)生活中占據(jù)著越來(lái)越重要的地位。然而,常常因?yàn)閿?shù)據(jù)保存不當(dāng)或條件有限等原因?qū)е伦罱K得到的數(shù)據(jù)是缺失的,不完整的。為了得到完整的數(shù)據(jù),需要對(duì)高維大規(guī)模數(shù)據(jù)的處理與分析。如何利用數(shù)據(jù)間的相關(guān)性,挖掘出主要信息[1],利用有限的信息得到完整的數(shù)據(jù)成為近年來(lái)研究的熱點(diǎn)問(wèn)題。
溫度場(chǎng)是物質(zhì)系統(tǒng)內(nèi)部各個(gè)點(diǎn)上溫度的集合,包含大量的數(shù)據(jù)。已有研究[2-6]介紹了用聲學(xué)法測(cè)量,用不同算法擬合溫度場(chǎng)的方法,但是關(guān)于溫度場(chǎng)含有缺失點(diǎn)后的重建問(wèn)題,目前的研究還比較少。本文針對(duì)含有缺失點(diǎn)的溫度場(chǎng),提出了一種基于核范數(shù)凸優(yōu)化的矩陣填充理論的方法,為含有缺失點(diǎn)的溫度場(chǎng)重建提供了新的思路,并與模擬的溫度場(chǎng)進(jìn)行比較,驗(yàn)證該方法的可行性。
1 問(wèn)題建模
以二維的穩(wěn)態(tài)溫度場(chǎng)為研究對(duì)象,系統(tǒng)模型如圖1所示。
圖1中,白框代表已知的溫度場(chǎng)的值,黑框代表未知的值。本文需要解決的問(wèn)題是,如何通過(guò)已知溫度場(chǎng)的數(shù)據(jù)構(gòu)造未知的部分,從而重建整個(gè)溫度場(chǎng)。圖中的P和Q分別為二維溫度場(chǎng)的長(zhǎng)和寬。
2 矩陣填充理論
矩陣填充考慮的是矩陣的一部分或者大部分元素由于各種原因丟失或無(wú)法得知的情況下,如何準(zhǔn)確地將這些元素合理地填充。該理論是由CANDES E J等人在2009年在壓縮感知的基礎(chǔ)上提出[7]。CANDES E J詳細(xì)證明了待填充矩陣的特征以及在一定條件下的重建概率[8]。為了解決矩陣的填充問(wèn)題,假設(shè)待填充的矩陣是冗余的,即其數(shù)據(jù)可以用一個(gè)低位的線性子空間表示[9]。矩陣填充的優(yōu)化問(wèn)題表示為:
其中M是觀測(cè)到的含有缺失點(diǎn)的矩陣,X是待重建的矩陣,Ω是觀測(cè)到的已知元素的下標(biāo)的集合。此模型的意義在于,將空缺的元素填充后,使矩陣的結(jié)構(gòu)盡可能好,即秩盡可能低。然而,這是一個(gè)NP-hard問(wèn)題。由于矩陣的秩r與它非奇異值的個(gè)數(shù)相同,所以用矩陣的奇異值的和(即核范數(shù))來(lái)近似代替矩陣的秩,于是式(1)優(yōu)化為:
然而二維穩(wěn)態(tài)溫度場(chǎng)數(shù)值構(gòu)成的矩陣是非稀疏的,如果直接對(duì)缺失點(diǎn)進(jìn)行填充,不僅會(huì)花費(fèi)大量的時(shí)間,而且重建出來(lái)的溫度場(chǎng)誤差很大。實(shí)驗(yàn)表明,溫度場(chǎng)數(shù)值構(gòu)成的矩陣通過(guò)DCT(即離散傅里葉)變換后,表現(xiàn)出較好的稀疏性。在DCT域下,通過(guò)矩陣填充理論,采用奇異值迭代[11]的方法對(duì)缺失點(diǎn)進(jìn)行重構(gòu),然后再對(duì)重構(gòu)后的矩陣作逆變換,最終得到完整的溫度場(chǎng)。
3 溫度場(chǎng)缺失值填充算法
3.1 DCT變換
DCT即離散傅里葉變換,屬于正交變換,它將空間域變換到頻域,把能量集中到少數(shù)幾個(gè)低頻系數(shù)上,高頻分量占其中的比重相當(dāng)小,因此將高頻取出后,仍然可以使原數(shù)據(jù)保持較高的準(zhǔn)確性,具體公式為:
DCT正變換:
3.2 SVD分解
通過(guò)SVD(奇異值分解)將一個(gè)非常復(fù)雜的矩陣用更小更簡(jiǎn)單的幾個(gè)子矩陣相乘來(lái)表示,分解后的奇異值越大,表明對(duì)應(yīng)的元素越重要[12]。奇異值分解描述為:
a11 … a1n
其中r為矩陣A的秩。
3.3 算法設(shè)計(jì)如下
輸入:含有缺失值的矩陣EM×N,
輸出:完整的矩陣X。
(1)初始化,令矩陣EM×N缺失點(diǎn)處的值為零,Y0=0。
(2)計(jì)算:Xk=Dτ(Yk-1),Yk=Yk-1+δkPΩ(E-Xk)。其中Dτ為收縮算子,δk為迭代步長(zhǎng),PΩ為投影算子。
(3)根據(jù)計(jì)算結(jié)果,若滿足的最優(yōu)解,則跳出;若不滿足,跳到步驟(2)繼續(xù)運(yùn)算,L為拉格朗日函數(shù)。
(4)矩陣填充結(jié)束,得到結(jié)果為X。
上述算法中,每一次迭代都使Xk最小化,最終收斂到最優(yōu)解,并且設(shè)置迭代的最大次數(shù)為N。然后根據(jù)得到的最優(yōu)解,通過(guò)DCT逆變換,實(shí)現(xiàn)溫度場(chǎng)的重建。
4 仿真結(jié)果及分析
4.1 仿真結(jié)果
在長(zhǎng)P=10 m、寬Q=10 m的二維空間中,構(gòu)建一個(gè)如下的模擬的典型單峰對(duì)稱溫度場(chǎng)[5]:
在溫度場(chǎng)重建過(guò)程中各取長(zhǎng)寬M=N=100。文中采用隨機(jī)均勻去掉溫度值的方式,分別對(duì)不同缺失率的溫度場(chǎng)進(jìn)行重建,重建結(jié)果用均方根誤差[5]評(píng)價(jià),仿真實(shí)驗(yàn)在內(nèi)存為3 GB、處理器為2 GHz的計(jì)算機(jī)上進(jìn)行。為了保證數(shù)據(jù)準(zhǔn)確性,以10次結(jié)果的平均值作為實(shí)驗(yàn)依據(jù)。均方根誤差定義為:
4.2 仿真分析
從表1中可以看出,隨著缺失率的提高,均方根誤差不斷增大,即便在缺失率高達(dá)20%的情況下,均方根誤差依然在誤差較小的范圍內(nèi),并且重構(gòu)溫度場(chǎng)的時(shí)間僅為3.12 s。但是從圖5可以看出,此時(shí)在溫度場(chǎng)的若干點(diǎn)上,誤差相對(duì)較大。因此實(shí)驗(yàn)表明:僅在缺失率處于較低水平時(shí),該方法能夠精確快速地重構(gòu)出原來(lái)的溫度場(chǎng)。另外從表1中可以看出,當(dāng)缺失率變大時(shí),重建時(shí)間并不一定會(huì)變大,這與溫度場(chǎng)缺失數(shù)據(jù)后形成的矩陣的自由度有關(guān)[8],矩陣自由度反映了數(shù)據(jù)的可降維性,處理后的矩陣自由度越小,重建時(shí)間和迭代次數(shù)會(huì)越小,反之亦然,因此實(shí)驗(yàn)結(jié)果符合矩陣填充理論。
5 結(jié)論
在大規(guī)模數(shù)據(jù)處理與分析占據(jù)著社會(huì)生活和科學(xué)研究主流的時(shí)代,如何充分利用數(shù)據(jù)間的冗余性對(duì)數(shù)據(jù)進(jìn)行有效地提取成為研究的重點(diǎn)。本文以含有缺失點(diǎn)的復(fù)雜的溫度場(chǎng)為研究對(duì)象,利用核范數(shù)凸優(yōu)化的矩陣填充理論,對(duì)溫度場(chǎng)數(shù)據(jù)進(jìn)行稀疏化處理,對(duì)不同缺失率下溫度場(chǎng)的重建進(jìn)行了仿真分析,驗(yàn)證了該方法在低缺失率下的可行性,為研究含有缺失點(diǎn)的溫度場(chǎng)的重構(gòu)問(wèn)題提供了新的方向。
參考文獻(xiàn)
[1] HAN J,KAMBER M,PEI J.Data mining:concepts and techniques[M].Morgan Kaufmann,2006.
[2] TIAN F,LIU S,ZHANG C,et al.Study on reconstruction algorithm of two-dimensional temperature field based on simulation of sound propagation path[C].Electronic Measurement & Instruments, 2009.ICEMI′09.9th International Conference on.IEEE,2009:3-844-3-847.
[3] WAN X,GAO Y,WANG Y.3-D flame temperature field reconstruction with multi objective neural network[J].Chinese Optics Letters,2003,1(2):78-81.
[4] Tian Feng,Sun Xiaoping, Shao Fuqun,et al.A study on complex temperature field reconstruction algorithm based on combination of gauss functions with regularization method[J].Proceedings of the Csee,2004,24(5):041.
[5] 周獻(xiàn),王強(qiáng),繆志農(nóng),等.基于RBF神經(jīng)網(wǎng)絡(luò)的三維溫度場(chǎng)重建算法[J].儀表技術(shù)與傳感器,2013(5):99-102.
[6] 田豐,孫小平,邵富群,等.基于高斯函數(shù)與正則化法的復(fù)雜溫度場(chǎng)圖像重建算法研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2004,24(5):212-215.
[7] 彭義剛,索津莉,戴瓊海,等.從壓縮傳感到低秩矩陣恢復(fù):理論與應(yīng)用[J].自動(dòng)化學(xué)報(bào),2013,39(7):981-994.
[8] CAND?魬S E J,RECHT B.Exact matrix completion via convex optimization[J].Foundations of Computational mathematics,2009,9(6):717-772.
[9] 陳敏銘.矩陣重建的算法與實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院研究生院,2010.
[10] RECHT B.A simpler approach to matrix completion[J].The Journal of Machine Learning Research,2011(12):3413-3430.
[11] CAI J F,CAND?魬S E J,SHEN Z.A singular value thresholding algorithm for matrix completion[J].SIAM Journal on Optimization,2010,20(4):1956-1982.
[12] DE LATHAUWER L,DE MOOR B,VANDEWALLE J.A multilinear singular value decomposition[J].SIAM Journal on Matrix Analysis and Applications,2000,21(4):1253-1278.