朱明鋒,鄭勝,曾祥云,徐高貴
(三峽大學(xué) 理學(xué)院,湖北 宜昌 443002)
摘要:手繪太陽黑子圖像手寫記錄信息對于研究太陽黑子長期活動規(guī)律具有重要價值,而背景提取又是利用計(jì)算機(jī)手繪太陽黑子信息數(shù)字化工作中的關(guān)鍵過程。文章提出一種基于支持向量機(jī)(Support Vector Machine ,SVM)的手繪太陽黑子圖像信息背景提取方法,通過針對性地對每個像素樣本特征向量的監(jiān)督學(xué)習(xí)訓(xùn)練,從而實(shí)現(xiàn)背景像素與前景像素的分離,實(shí)驗(yàn)證明該方法具有很好的魯棒性,將此方法與傳統(tǒng)的K-means模糊劃分、模糊C均值(FCM)聚類方法進(jìn)行對比分析,證實(shí)該方法的應(yīng)用價值更高。
關(guān)鍵詞:手繪太陽黑子圖;背景提??;支持向量機(jī);監(jiān)督學(xué)習(xí);K-means聚類
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:ADOI: 10.19358/j.issn.1674 7720.2016.23.015
引用格式:朱明鋒,鄭勝,曾祥云,等. 基于SVM手繪太陽黑子圖像背景提取方法[J].微型機(jī)與應(yīng)用,2016,35(23):52-55,58.
0引言
隨著科學(xué)技術(shù)的快速發(fā)展,在短短幾十年間,數(shù)字圖像處理技術(shù)快速發(fā)展,并逐漸趨于成熟。該技術(shù)在人工智能應(yīng)用、遙感影像處理、空間探測、工業(yè)檢測以及生物醫(yī)學(xué)等眾多領(lǐng)域都得到了廣泛應(yīng)用,并為這些領(lǐng)域內(nèi)的學(xué)科發(fā)展提供了新的方向和突破點(diǎn)[1]。在研究太陽活動的過程中,對太陽黑子活動的觀察最為明顯和容易。在計(jì)算機(jī)不發(fā)達(dá)的過去,天文工作者所觀測到的太陽黑子的大小、形狀和位置等特征,主要是通過投影法手工描跡[2],近些年才逐漸由光球觀測照相替代這一傳統(tǒng)方法。每天黑子面積數(shù)值表示的是每天出現(xiàn)在全日面上的黑子面積(單位是全日面面積的百萬分之一),在一定意義上,它是太陽磁場活動的每日磁流量的數(shù)字化表示,也是太陽發(fā)電機(jī)產(chǎn)生黑子功率的直接表現(xiàn)[3]。將手繪太陽黑子圖的工作數(shù)字化,能夠最大程度地保護(hù)這些寶貴數(shù)據(jù)不被丟失,并且可以方便地快速整合所有觀測到的黑子信息,使不同天文臺的觀測數(shù)據(jù)信息得到有效的整合與規(guī)整化處理,可為太陽黑子活動研究者提供便捷的數(shù)據(jù)查詢和使用服務(wù),這一革新對天文研究的意義是不言而喻的[4-5]。
西班牙和比利時是世界上較早開始手繪太陽黑子圖像數(shù)字化處理工作的,DigiSun和HSUNSPOTS等手繪黑子圖像的數(shù)字化工具就是由他們研制出來的[6]。我國自上世紀(jì)30年代末開始對太陽黑子活動進(jìn)行相關(guān)觀測,并將觀測結(jié)果記錄于紙上,到目前為止云南國家天文臺已經(jīng)獲取了2萬多張如圖1所示的太陽黑子手繪圖。對于手繪太陽黑子圖信息數(shù)字化工作即是將圖像中手寫記錄信息提取并保存于數(shù)據(jù)庫中,這一工作的重要環(huán)節(jié)是對圖像背景的提取和分離。
圖像信息數(shù)字化的關(guān)鍵在于數(shù)字圖像的處理算法[7-10],包括圖像RGB空間聚類、圖像分割等,背景的有效分割是手繪太陽黑子圖像中信息數(shù)字化的難點(diǎn)。
SVM是經(jīng)典的機(jī)器學(xué)習(xí)方法之一,在回歸處理、模式分類等方面都有明顯優(yōu)勢[11]。針對手繪太陽黑子圖像信息數(shù)字化中的背景分離工作,本文提出一種基于支持向量機(jī)的背景提取方法,通過利用LIBSVM圖像處理算法將圖像中的R、G、B顏色分量進(jìn)行訓(xùn)練學(xué)習(xí),得到最優(yōu)分類模型,經(jīng)試驗(yàn)驗(yàn)證,該方法不僅效果顯著,而且魯棒性也很好,自動適應(yīng)由于年代久遠(yuǎn)、紙張發(fā)生變化給圖像帶來的模糊效應(yīng)。
1理論基礎(chǔ)
支持向量機(jī) (Support Vector Machine,SVM)機(jī)器學(xué)習(xí)方法以統(tǒng)計(jì)學(xué)的VC理論和構(gòu)造風(fēng)險最小化為基本原理。該方法可以基于一定的樣本信息,使模型在其實(shí)現(xiàn)可行性和模式分類能力之間尋找最佳平衡點(diǎn),是SLT的一種成功實(shí)現(xiàn)[12],又稱為回歸機(jī)。假設(shè)訓(xùn)練樣本為(xi,yi),(i=1,…,n),其中n為樣本大小。采用線性函數(shù)對樣本進(jìn)行擬合是最簡易的SVM回歸分析方法。對于如何解決線性不可分的分類問題,最有效的方法是在高維樣本特征空間中建立線性模型,其中的關(guān)鍵是將樣本點(diǎn)映射到高維空間的非線性變換,SVM回歸機(jī)可以表示如下:
式(1)中,ω2是模型復(fù)雜度相關(guān)因素;C>0代表對誤差范圍之外樣本的抑制力度,即懲罰系數(shù);ε則代表非敏感損失函數(shù),模型中支持向量的個數(shù)會受到其取值大小的影響;ξi、ξ*i表示樣本與非敏感區(qū)域的相對距離,即松弛變量。
對于式(1),通常獲得原始問題最佳解的方法是通過求解上述模型對偶問題的最佳解:
其中,K(xi+xj)是核函數(shù),滿足Mercer條件并且K(xi+xj)=φ(xi)φ(xj)。徑向基核(Radial Basis Function,RBF)是普適的核函數(shù):
其中γ=1/σ2,σ>0 是核函數(shù)寬度系數(shù)。懲罰力度大小C、不敏感程度ε、卷積核及其處理參數(shù)的選取,對SVM的分類正確率有較大的影響[13]。
K-means是一種無監(jiān)督的數(shù)據(jù)劃分聚類算法,在預(yù)先不知道樣本所屬類別的情況下,根據(jù)樣本之間的距離或相似程度自動地進(jìn)行樣本的分類,是一種基于劃分的聚類方法 [14] 。
經(jīng)典的K-means算法中,使用每個樣本與每個樣本區(qū)中心點(diǎn)之間誤差的平方和最小為準(zhǔn)則來建立映射關(guān)系。假設(shè)待分類的樣本集合為D={xj}nj=1,xj∈Rd,K-means劃分算法的目的就是將樣本數(shù)據(jù)集合劃分為k(k<n)類:S={S1,S2,…Sk},令劃分后的k個樣本子集合滿足類內(nèi)誤差的平方和最小。
FCM采用隸屬度矩陣來確定每個樣本屬于某個分類的程度[15]。假設(shè)樣本數(shù)為n個向量xi(i=1,2,…,n)組成的模糊組,將其分為c個區(qū)域中心,使得非相似性指標(biāo)函數(shù)的值達(dá)到最小。
2數(shù)據(jù)樣本采集及特征向量構(gòu)造
2.1數(shù)據(jù)樣本采集
早先的太陽黑子觀測是記錄在特定的紙張上的。特定的繪制紙張是印刷出來的,上面有固定的表格和文字信息等,如圖2所示。為了更好地進(jìn)行圖像的下一步分割操作,首先需要將圖像中的印刷部分提取出來,也就是圖2所示部分。
將圖2中的圖像進(jìn)行二值化處理,即可得到每個像素樣本的類別信息。手繪太陽黑子圖像中,對于每個像素點(diǎn),都是一個特定樣本,其R、G、B值即是其特征值,那么,對于每個像素樣本而言,其特征向量即為X=[RGB]。
2.2特征向量構(gòu)造
手繪太陽黑子圖像的背景提取中,每個像素點(diǎn)都是一個待分類的樣本,由此,構(gòu)造樣本的特征向量為:
其中,n為圖像中像素的個數(shù)。假設(shè)圖像為M×N×3的矩陣,那么n=M×N。在SVM模型訓(xùn)練過程中,需要輸入樣本的監(jiān)督向量。由此,建立監(jiān)督向量為:
其中,當(dāng)Xi為前景像素點(diǎn)時,yi=+1;當(dāng)Xi為背景像素點(diǎn)時,yi=-1。
SVM可以使用少量樣本來對大量實(shí)體對象進(jìn)行分類[16-17]。因此,本文隨機(jī)選取原圖像素中的2萬個點(diǎn)進(jìn)行訓(xùn)練,然后使用得到的模型對圖像進(jìn)行前景與背景的提取。
2.3SVM問題求解機(jī)制
SVM比較擅長于二分類問題的求解,本問題正屬于二分類問題。假設(shè)待分類的N個樣本組成的集合為:xi,yiNi,并且yi=+1,-1,這里,可以將構(gòu)造的樣本特征向量X i看作是xi,而Y i即是yi。其中xi是一個n維向量,這里n=3,yi是向量所屬的分類類別信息。
SVM使用一個超平面將樣本進(jìn)行分類:
其中,w是輸入向量,x是自適應(yīng)權(quán)重向量,b是偏置量。求解過程中,最大化邊界2/w2獲得最優(yōu)分界面參數(shù)w和b,設(shè)定約束條件為:
引入拉格朗日系數(shù),獲得對偶問題有效解:
滿足條件:
αi≥0,∑mi=1αiyi=0
將內(nèi)積形式數(shù)據(jù)點(diǎn)映射到希爾伯特內(nèi)積空間:
其中,K(·)是核函數(shù)。
由此可將式(9)化為:
由此可得到SVM分類器為:
其中,
是SVM分類面上的決策表達(dá)式。
3手繪黑子圖像背景提取實(shí)驗(yàn)結(jié)果及分析
3.1SVM背景提取
構(gòu)造的樣本通過訓(xùn)練后得到SVM分類模型,然后對原始圖像進(jìn)行分類處理。
圖3是背景提取結(jié)果的局部顯示,圖3(a)是原始圖像中的局部圖,圖3(b)是提取出來的背景圖像,圖3(c)是提取出來的背景黑白顯示。
3.2SVM劃分與模糊聚類劃分對比分析
文中使用中國科學(xué)院云南天文臺1982年到1992年,以及1995、1997、2000年每年一月份中隨機(jī)抽取一張共14張手繪太陽黑子圖像進(jìn)行試驗(yàn),使用Kmeans、FCM、SVM等方法分別對圖像中印刷體背景進(jìn)行提取,部分結(jié)果如圖4所示。
圖4中a0、a1、a2、a3、a4分別是1989年1月19日手繪太陽黑子圖像原圖中的部分圖像、手動提取背景信息圖像中相同位置部分圖像、Kmeans聚類提取背景信息圖像中相同位置部分圖像、SVM提取背景圖像中相同位置部分圖像、FCM提取背景圖像中相同位置部分圖像;b0、b1、b2、b3、b4,c0、c1、c2、c3、c4則分別是1991年1月9日和1995年1月11日兩天不同處理后圖像中的局部顯示。
分別對幾種處理方法在處理速度和處理PSNR上進(jìn)行統(tǒng)計(jì),結(jié)果如表1所示,計(jì)算PSNR的公式為:
其中,d代表圖像像素的位深,8 bit的圖像中d=8,MSE是原始圖像與處理后圖像之間的均方誤差,其計(jì)算公式如下:
其中,m,n是圖像的大小維度,I(i,j)為原圖像中的像素點(diǎn)的值,P(i,j)為處理后圖像中對應(yīng)點(diǎn)的像素點(diǎn)的值。因此,PSNR值越大,代表處理后圖像失真越小。
由表1可知,SVM提取印刷體背景與人工手動處理得到的背景信息PSNR均值達(dá)到56.33,具有高的實(shí)用價值,并且處理速度也在可接受范圍內(nèi)。
4結(jié)論
K-means與FCM等傳統(tǒng)的聚類方法在前景與背景的分離中具有較好的使用價值,但聚類中心不穩(wěn)定性以及聚類算法復(fù)雜性,限制了其應(yīng)用范圍和場景。支持向量機(jī)作為有監(jiān)督的分類網(wǎng)絡(luò),可在一次性學(xué)習(xí)后,得到相關(guān)系列分類問題的分類知識表達(dá),并且模型易于推廣使用,在手繪太陽黑子圖像背景的分離中具有較好的效果,可應(yīng)用于手繪太陽黑子圖像分割的前期處理,以便更好地自動提取和識別圖像中的手寫記錄信息,對于手繪太陽黑子圖像信息的提取和數(shù)字化具有重要意義。另外,在自然背景下的圖像中,對于單色目標(biāo)的分割也具有較好的適應(yīng)性。
參考文獻(xiàn)
[1] 劉中和,王瑞雪,王鋒德,等. 數(shù)字圖像處理現(xiàn)狀與展望[J]. 計(jì)算機(jī)時代,2005(9):6-8.
[2] 劉學(xué)富. 太陽黑子觀測[J]. 天文愛好者,1999(6):24-26.
?。?] 吳立德. 計(jì)算機(jī)視覺[M]. 上海:復(fù)旦大學(xué)出版社,1993.
?。?] 李可軍,蘇同衛(wèi),梁紅飛. 現(xiàn)代黑子觀測的太陽黑子活動周的周期性[J]. 科學(xué)通報(bào),2004,49(24):2511-2516.
[5] Zheng Sheng,Zeng Xiangyun,Lin Ganghua,et al. Sunspot drawings handwritten character recognition method based on deep learning[J]. New Astronomy, 2016,(45): 54-59.
?。?] 朱道遠(yuǎn),鄭勝,曾祥云,等. 手繪太陽黑子圖像手寫字符分割方法研究[J]. 微型機(jī)與應(yīng)用,2015,34(20):33-35.
?。?] 周得水,葛洪偉. 基于貪心算法的快速模糊連接圖像分割[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(8):201-203.
[8] 邰瀅瀅,吳彥海,張利. 基于快速mean-shift聚類與標(biāo)記分水嶺的圖像分割方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(8):184-186.
?。?] 黎遠(yuǎn)松. 高斯混合模型融合SSC的腦部MR圖像分割[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(7):70-73.
?。?0] 鄧娟. 基于灰度向量表示的紋理元集的非監(jiān)控紋理圖像分割[J]. 計(jì)算機(jī)應(yīng)用,2005,25(1):117-118.
?。?1] 鐘壇旺,林昭語. LIBSVM回歸算法在話務(wù)預(yù)測中的應(yīng)用[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化,2014(9):80-83.
[12] 李冬萍. 基于混沌粒子群優(yōu)化的SVM分類器研究[J]. 計(jì)算機(jī)仿真,2010,27(4):185-187.
?。?3] 袁勛,吳秀清,洪日昌,等. 基于主動學(xué)習(xí)SVM分類器的視頻分類[J]. 中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(5):473-478.
?。?4] 高麗平,周雪燕,詹宇斌. 流行上的非線性判別K均值聚類[J]. 計(jì)算機(jī)應(yīng)用,2011,31(12):3247-3251.
[15] 徐少平,劉小平,李春泉,等. 基于區(qū)域特征分析的快速FCM圖像分割改進(jìn)算法[J]. 模式識別與人工智能,2012,25(6):987-995.
[16] 孫少乙,黃志波. 一種 SVM 多分類算法[J]. 微型機(jī)與應(yīng)用,2016,35(8):12-14,17.
[17] 高晴,閆德勤,楚永賀,等.基于模糊聚類的 LLE 和 SVM 的人臉識別[J].微型機(jī)與應(yīng)用,2016,34(6):56-58.