摘 要: 建立了一種基于支持向量機的地表水環(huán)境質(zhì)量分類模型,并將其用于浙江省主要市界交界面的地表水環(huán)境質(zhì)量分類。該模型采用徑向基核函數(shù),以一對多方式實現(xiàn)多分類。分別以網(wǎng)格搜索、粒子群優(yōu)化和遺傳算法三種優(yōu)化方法對支持向量機的控制參數(shù)進行尋優(yōu)。實驗表明,采用網(wǎng)格搜索法確定支持向量機控制參數(shù)可以得到最好的水質(zhì)分類結(jié)果,分類準(zhǔn)確率可達到82%,由此證明以支持向量機對水質(zhì)進行分類是可行的。
關(guān)鍵詞: 支持向量機;水質(zhì)分類;分類模型;網(wǎng)格搜索;主成分分析
0 引言
地表水環(huán)境質(zhì)量分類是進行水環(huán)境治理保護的一項重要內(nèi)容,建立地表水環(huán)境質(zhì)量分類模型是對地表水環(huán)境質(zhì)量進行正確分類的一項基礎(chǔ)工作。近年來,常見的水環(huán)境質(zhì)量分類方法有綜合指數(shù)法[1]、灰色聚類法[2]、人工神經(jīng)網(wǎng)絡(luò)[3]等,但前兩類方法中的模型屬于傳統(tǒng)模型,并沒有很好地解決水環(huán)境質(zhì)量分類中的評價因子和水質(zhì)等級之間存在的非線性關(guān)系[4]。
支持向量機(Support Vector Machine, SVM)[5]作為近年發(fā)展起來的一種機器學(xué)習(xí)方法,是一種建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原則基礎(chǔ)上的監(jiān)督式學(xué)習(xí)方法[6],能很好地解決小樣本、非線性、高維數(shù)和局部極小點等問題,已成為機器學(xué)習(xí)界的研究熱點之一[7]。目前,SVM已廣泛應(yīng)用于統(tǒng)計分類、回歸分析和時間序列預(yù)測等實際問題。SVM作為分類模型,無論是訓(xùn)練速度還是分類準(zhǔn)確率均明顯優(yōu)于神經(jīng)網(wǎng)絡(luò)[8]。因此,本文嘗試將SVM分類模型用于地表水環(huán)境質(zhì)量分類。
1 支持向量機分類
SVM的研究最初是針對模式識別中的二類線性可分問題,對于二類線性不可分問題則通過非線性映射,將數(shù)據(jù)由低維空間映射到高維特征空間,使其在高維空間線性可分,進而得到最優(yōu)分類超平面,實現(xiàn)問題的求解。
設(shè)輸入空間Rn中的訓(xùn)練集為:
通過非線性映射到高維Hilbert空間H,得到新的訓(xùn)練集:
若在高維特征空間建立一最優(yōu)超平面:
其中,是最優(yōu)超平面的法向量,b是最優(yōu)超平面的偏移量。對于部分不能被最優(yōu)超平面直接分開的數(shù)據(jù),通過引入松弛變量ξi使約束條件弱化,同時由懲罰因子C控制對錯分樣本的懲罰程度。則二類線性不可分的原始問題可以轉(zhuǎn)化為:
再引入拉格朗日乘數(shù)αi≥0,βi≥0,得:
根據(jù)Wolfe對偶定義,對L關(guān)于、b、ξ求極小,可得:
然后將上述極值條件代入拉格朗日函數(shù),對α求極大,獲得其對偶問題:
同時得到分類函數(shù):
其中,為核函數(shù)。最優(yōu)超平面僅依賴于相應(yīng)αi不為零的訓(xùn)練點(xi,yi)所對應(yīng)的輸入xi,稱其為支持向量(Support Vector, SV)。選擇不同的核函數(shù),可以生成不同的SVM,本文選用徑向基核函數(shù):,γ為核函數(shù)寬度。
2 支持向量機地表水環(huán)境質(zhì)量分類模型
用SVM對地表水環(huán)境質(zhì)量進行分類有兩個問題需要考慮:首先水質(zhì)分類問題屬于多分類問題,要采用多分類的SVM;其次從SVM分類算法可以看出,懲罰因子C及徑向基核函數(shù)寬度γ是SVM的兩個控制參數(shù),訓(xùn)練時需對它們進行調(diào)整,即存在控制參數(shù)尋優(yōu)問題。
2.1 多分類方法
SVM多分類的方法有多種[9],常用的有一對一(One Against One)和一對多(One Against All)兩種方法[10],由于一對一分類器訓(xùn)練速度比較慢,故本文采用一對多方法。
2.2 控制參數(shù)尋優(yōu)
交叉驗證(Cross Validation, CV)是一種用來驗證分類器性能的統(tǒng)計分析方法,常用的CV方法有幾種,本文采用k-fold Cross Validation(k-CV),其基本思想是將原始樣本分成k組,每個子集樣本分別做一次驗證集,同時剩下的k-1組子集樣本作為訓(xùn)練集,得到k個模型,取這k個模型驗證集的分類準(zhǔn)確率的平均值作為此分類器的性能指標(biāo)。
采用徑向基核函數(shù)時需要調(diào)節(jié)懲罰因子C和核函數(shù)寬度γ兩個SVM控制參數(shù),本文使用3種控制參數(shù)尋優(yōu)方法,分別是網(wǎng)格搜索法(Grid Search)、粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)和遺傳算法(Genetic Algorithm, GA)。
網(wǎng)格搜索法分兩步進行,其基本原理是先在大范圍內(nèi)粗略尋找較佳參數(shù),采用k-CV方法對訓(xùn)練集進行測試,并得到使分類準(zhǔn)確率較高的控制參數(shù)。再在上述控制參數(shù)附近的小范圍內(nèi)精確搜索,再次進行尋優(yōu),找到最優(yōu)參數(shù)。PSO是一種基于群體智能的演化計算方法,它是通過粒子在解空間追隨最優(yōu)的粒子進行搜索的。本文中利用PSO對SVM參數(shù)優(yōu)化時以對訓(xùn)練集進行CV得到的準(zhǔn)確率作為適應(yīng)度函數(shù),最大進化次數(shù)設(shè)置為200,種群最大數(shù)量設(shè)置為20。GA是通過模擬“優(yōu)勝劣汰,適者生存”的自然界演化法則而生成的一種并行隨機搜索最優(yōu)化方法。本文中GA以對訓(xùn)練集進行CV得到的準(zhǔn)確率為適應(yīng)度函數(shù),最大進化代數(shù)設(shè)置為500,種群最大數(shù)量設(shè)置為20。
3 實驗
3.1 實驗數(shù)據(jù)集
實驗數(shù)據(jù)來源于浙江省環(huán)境保護廳網(wǎng)站(http://www.zjepb.gov.cn)發(fā)布的浙江省主要市界交界面水質(zhì)自動監(jiān)測月報(2009年1月~2012年1月)。其中主要檢測項目為PH值、溶解氧(DO)、高錳酸鹽指數(shù)(CODMn)、氨氮(NH3-N)這4個參數(shù)。根據(jù)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838-2002),水質(zhì)分類有Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ類,如表1所示。
3.2 監(jiān)測數(shù)據(jù)分析
主成分分析(Principal Component Analysis, PCA)是一種分析、簡化數(shù)據(jù)集的技術(shù)。PCA可以在盡可能減少信息損失的情況下,將高維數(shù)據(jù)降至低維,在二維或三維空間以圖形方式直觀顯示數(shù)據(jù)的分布情況[11],因此本文采用PCA觀測地表水環(huán)境監(jiān)測數(shù)據(jù)的復(fù)雜程度。在本實驗中,監(jiān)測數(shù)據(jù)總共有360個樣本,除Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ類之外,對于低于Ⅴ類的水質(zhì),本文稱之為劣Ⅴ類,這樣一共有6類,即本文需解決的地表水環(huán)境質(zhì)量分類問題是6分類問題。對其監(jiān)測數(shù)據(jù)進行PCA分析后得到前4個主成分分量的貢獻率如圖1所示,相應(yīng)前2個及前3個主成分分量數(shù)據(jù)分布分別如圖2與圖3所示。
由圖1可知,PCA分析結(jié)果中前4個主成分的貢獻率分別為52.067 6%、22.555 4%、14.899 6%和10.477 4%,這說明PCA分析后的每個主成分分量都比較重要,若降維則會對水質(zhì)分類結(jié)果有較大的影響,因此本文對訓(xùn)練與測試SVM分類模型的數(shù)據(jù)不進行降維處理。從圖2及圖3可以看出,待分類處理的檢測數(shù)據(jù)分布是比較復(fù)雜的,例如圖2的Ⅲ類與Ⅳ類、Ⅴ類與劣Ⅴ類以及圖3中的Ⅰ類、Ⅱ類和Ⅳ類之間都存在比較嚴(yán)重混疊,用常規(guī)方法難以準(zhǔn)確分類。因此,本文通過建立SVM分類模型,實現(xiàn)地表水環(huán)境質(zhì)量的分類。在360個樣本中取其中的182個樣本數(shù)據(jù)作為SVM的訓(xùn)練集,剩余的178個樣本數(shù)據(jù)作為SVM的測試集。
3.3 實驗結(jié)果與分析
使用網(wǎng)格搜索法、PSO參數(shù)尋優(yōu)法和GA參數(shù)尋優(yōu)法3種方法得到的訓(xùn)練集交叉驗證(CV)分類準(zhǔn)確率、測試集分類準(zhǔn)確率及整個程序運行所需要的時間如表2所示(每種控制參數(shù)尋優(yōu)方法均運行3次)。
從表2可以看出,網(wǎng)格搜索法的測試集分類準(zhǔn)確率可以達到82.022 5%,PSO參數(shù)尋優(yōu)法雖然也可以達到82.022 5%,但是沒有網(wǎng)格搜索法穩(wěn)定,且整個程序運行所需要的時間是網(wǎng)格搜索法的3倍多。GA參數(shù)尋優(yōu)法的測試集分類準(zhǔn)確率則普遍沒有PSO參數(shù)尋優(yōu)法高,且整個程序運行所需要的時間也比PSO參數(shù)尋優(yōu)法長。通過比較這3種控制參數(shù)尋優(yōu)方法可知,用網(wǎng)格搜索法對SVM中的參數(shù)進行尋優(yōu)是可行的,且得到的水質(zhì)分類結(jié)果最好。
4 結(jié)論
本文通過建立SVM多分類模型實現(xiàn)地表水環(huán)境質(zhì)量分類,并在建模過程中以網(wǎng)格搜索法、PSO參數(shù)尋優(yōu)法和GA參數(shù)尋優(yōu)法分別對SVM的控制參數(shù)進行了尋優(yōu)。從實驗結(jié)果可知,采用網(wǎng)格搜索法進行SVM參數(shù)尋優(yōu),可以得到較高的測試集分類精度,表明采用SVM多分類模型進行地表水環(huán)境質(zhì)量分類是可行的。
參考文獻
[1] 王文強. 綜合指數(shù)法在地下水質(zhì)評價中的應(yīng)用[J]. 水利科技與經(jīng)濟,2008, 14(1): 54-55.
[2] 鄧聚龍. 灰色理論系統(tǒng)[M]. 武漢:華中科技大學(xué)出版社, 2002.
[3] FARMAKI E G, THOMAIDIS N S, EFSTATHIOU C E. Artificial neural networks in water analysis: theory and application [J]. International Journal of Environmental Analytical Chemistry, 2010, 90(2): 85-105.
[4] 鄭一華. 基于支持向量機的水質(zhì)評價和預(yù)測研究[D]. 南京:河海大學(xué),2006.
[5] CORTES C, VAPNIK V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
[6] 張學(xué)工. 關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機[J]. 自動化學(xué)報,2000, 26(1): 32-42.
[7] 鄧乃揚,田英杰. 數(shù)學(xué)挖掘中的新方法:支持向量機[M]. 北京:科學(xué)出版社,2004.
[8] Cao Jian, Hu Hongsheng, Qian Suxiang, et al. Research on the water quality forecast method based on SVM [C]. SPIE, 2009,7500.
[9] 聶盼盼, 臧洌, 劉雷雷. 基于對支持向量機的多分類算法在入侵檢測中的應(yīng)用[J]. 計算機應(yīng)用, 2013, 33(2): 426-429.
[10] JOUTSIJOKI H, JUHOLA M. Comparing the one-vs-one and one-vs-all methods in benthic macroinvertebrate image classification [C]. Proceeding in 7th International Conference, MLDM 2011, NewYork, USA, 2011:399-413.
[11] PARDO M, SBERYEGLIERI G. Coffee analysis with an electronic nose [J]. IEEE Transactions on Instrumentation and Measurement, 2002, 51(6): 1334-1339.