林莉媛1,陳曉云1,簡彩仁2
?。?.福州大學 數(shù)學與計算機科學學院,福建 福州 350116;2. 廈門大學 嘉庚學院,福建 漳州 363105)
摘要:有效分類基因表達數(shù)據(jù)有助于癌癥的診斷,而基因表達數(shù)據(jù)的高維數(shù)、小樣本特點使基因表達數(shù)據(jù)分類困難。針對這個問題,在最小二乘回歸子空間分割算法中考慮距離信息,提出融入距離信息的最小二乘回歸子空間分割算法。融入距離信息的最小二乘回歸子空間分割模型除了考慮數(shù)據(jù)之間的相關(guān)性,還考慮了數(shù)據(jù)之間的距離信息。在基因表達數(shù)據(jù)集上的實驗結(jié)果表明,所提出的算法是有效的聚類方法。
關(guān)鍵詞:基因表達數(shù)據(jù);聚類;距離;子空間分割
0引言
基因表達數(shù)據(jù)的研究有助于準確識別癌癥[1],因此有效處理基因表達數(shù)據(jù)尤為重要。但基因表達數(shù)據(jù)小樣本、高維數(shù)[2]的特點令這項工作困難重重。近幾十年來,很多分類和聚類方法成功應(yīng)用在基因表達數(shù)據(jù)上,如凸非負矩陣分解(Convex Nonnegative Matrix Factorization,C_NMF)、半非負矩陣分解(Seminonnegative Matrix Factorization,S_NMF)[3]、基因數(shù)據(jù)分析半監(jiān)督學習[2]以及根據(jù)基因表達數(shù)據(jù)特點改進的譜聚類算法[4]等?;虮磉_數(shù)據(jù)的聚類分為基因聚類、樣本聚類和雙向聚類[5],本文對腫瘤基因表達數(shù)據(jù)樣本聚類。
子空間分割方法是近年流行的方法[6],如稀疏子空間聚類SSC[7]、低秩表示子空間聚類LRR[8]、最小二乘回歸子空間聚類LSR[9]等,并成功用于圖像分割、圖像壓縮以及混合系統(tǒng)鑒定等領(lǐng)域[6]。子空間分割方法可使高維數(shù)據(jù)有效聚類,這適用于基因表達數(shù)據(jù),因此本文將提出新的用于基因表達數(shù)據(jù)聚類的子空間分割方法。LSR使同類相關(guān)性強的樣本聚集,但沒考慮距離信息,針對這點,本文對LSR進行改進,融入距離信息,并將改進后的模型應(yīng)用在基因表達數(shù)據(jù)中,通過與其他用于基因表達數(shù)據(jù)的聚類方法以及子空間分割算法進行實驗比較,證明本文方法是有效的。
1子空間分割
子空間聚類又稱子空間分割[6],目標是尋找多個低維子空間,將數(shù)據(jù)歸到相應(yīng)子空間中,數(shù)學定義為[6]:設(shè){xi∈Rd}ni=1是從k≥1個維數(shù)未知的子空間或仿射空間{Si}ki=1中采樣獲得的點集,各子空間維數(shù)為mi,0<mi<d,i=1,…,k。子空間描述為Si={x∈Rd:x=ui+Uiy},i=1,…,k,ui∈Rd是子空間Si的任意點(線性空間ui=0),Ui∈Rd×mi是Si的一個基,y∈Rmi是x的低維表示。子空間聚類是找子空間個數(shù)k、維數(shù){mi}ki=1、基{Ui}ki=1、點{ui}ki=1,并將點集分割到子空間中。
LSR[9]是基于譜聚類的子空間聚類方法,與其他基于譜聚類的方法一樣,先構(gòu)造仿射矩陣,再將譜聚類方法應(yīng)用在仿射矩陣上,模型為:
minZZF,s.t.X=XZ
噪聲的擴展模型為:
minZX-XZ2F+λZ2F(1)
其中,λ>0,·F是F范數(shù),參考文獻[9]給出式(1)的計算方法,并證明LSR有聚集性,是高效、魯棒的方法。
2融入距離信息的最小二乘回歸子空間分割
2.1樣本數(shù)據(jù)點的距離信息
由參考文獻[10]可知彼此間距離近的數(shù)據(jù)點更可能來自同一子空間,因此本文假設(shè)彼此間距離近的數(shù)據(jù)點可分配到更大的權(quán)重系數(shù)。設(shè)樣本集為{x1,x2,...,xn},X∈Rd×n,xi∈Rd×1。根據(jù)上述假設(shè),對于任意樣本xi,希望:
min∑nj=1xi-xj2zij
其中,zi∈Rn×1,zij是zi的第j個元素,矩陣形式為:
min Tr(ZΤD)(2)
其中,D為距離矩陣,xi-xj2是D的第i行的第j個元素,Z={z1,z2,…,zn}。
2.2融入距離信息的最小二乘回歸子空間分割模型
將式(2)與最小二乘回歸子空間分割模型相結(jié)合,得到融入距離信息的最小二乘回歸子空間分割模型為:
minZ12X-XZ2F+λ2Z2F+βTr(ZΤD)(3)
其中,λ>0、β>0是兩個可調(diào)節(jié)的參數(shù),·F表示F范數(shù),Tr(·)表示跡。令:
對L(Z)求導(dǎo),并令其導(dǎo)數(shù)為0,即L=-XΤX+XΤXZ+λZ+βD=0,可得到式(3)的最優(yōu)解:Z*=(XTX+λI)-1(XTX-βD)。
通過(|Z*|+|(Z*)T|)/2構(gòu)造仿射矩陣,再用標準聚類方法(Normalized Cuts, Ncut)[11]分割彷射矩陣。融入距離信息的最小二乘回歸子空間分割(Subspace Segmentation via Least Squares Regression including Information about Distance, DLSR)算法如下:
輸入:數(shù)據(jù)矩陣X,類別數(shù)為k,參數(shù)β、λ
?。?)解決問題式(3)得到解Z*;
?。?)通過(|Z*|+|(Z*)T|)/2計算仿射矩陣;
?。?)應(yīng)用Ncut方法將數(shù)據(jù)分成k個子空間。
輸出:聚類結(jié)果
3實驗
本節(jié)在基因表達數(shù)據(jù)集上用聚類準確率驗證提出的DLSR,與本文方法比較的現(xiàn)有方法為:傳統(tǒng)聚類方法kmeans和層次聚類(Hierarchical Clustering, HC),子空間分割方法LRR[8]和LSR[9],非負矩陣分解擴展方法C_NMF和S_NMF[3]。
3.1數(shù)據(jù)集
實驗使用公開基因表達數(shù)據(jù)集: 9_Tumor[12]、Brain_Tumor[13]、Leukemia[14]、Leukemia[13]、Leukemia[15]、DLBCL[13],數(shù)據(jù)集信息如表1所示。表1數(shù)據(jù)集信息數(shù)據(jù)集診斷內(nèi)容樣本個數(shù)基因個數(shù)類別數(shù)9_Tumor人類腫瘤605 7269Brain_Tumor1腦癌1905 9205Leukemia白血病727 1292DLBCL彌漫性大B細胞淋巴瘤和
濾泡性淋巴瘤775 4692Leukemia1白血病1725 3273Leukemia2白血病28311 2253
3.2實驗結(jié)果與分析
準確率計算公式為:
其中,ri是得到的類標簽;si是樣本本身的類標簽;n為樣本數(shù);map(ri)是將ri映射成與si等價的類標簽;δ(x,y)是一個函數(shù),δ(x,y)=1x=y
0x≠y。
實驗中,DLSR、LSR、LRR都需設(shè)置參數(shù),本文的參數(shù)選擇方法是讓參數(shù)取多個不同的值,實驗時遍歷這些值,最后取使結(jié)果最好的值。DLSR還有另一個參數(shù)β,取值策略與λ相同。實驗時,HC運行一次,其余算法運行10次,取準確率的平均值,結(jié)果如表2所示。
6個數(shù)據(jù)集上的實驗表明,除Leukemia外,DLSR與其他方法相比,都取得較優(yōu)準確率。kmeans雖然在Leukemia中準確率最高,但在其余數(shù)據(jù)集中的結(jié)果并不都好??偟膩碚f,DLSR還是優(yōu)于kmeans。因此,本文算法對基因表達數(shù)據(jù)的聚類更有效。
值得注意的是,DLSR優(yōu)于LSR,因此在LSR中融入距離信息,可以提供一定的額外信息,有利于提高算法聚類能力。
3.3參數(shù)選擇
DLSR模型有兩個參數(shù)β和λ。本節(jié)設(shè)置參數(shù)β的變化范圍為{0.002,0.004,0.01,0.04,0.6,0.7,1,100,10 000, 100 000},參數(shù)λ的變化范圍為{0.005,0.01,0.05, 0.1,0.5,1,10,100,1 000}。圖1描述了這兩個參數(shù)變化對聚類準確率的影響。平穩(wěn)的地方說明參數(shù)取在那部分時準確率變化較穩(wěn)定。可看出DLSR對參數(shù)β和λ的選取都較敏感,聚類準確率隨參數(shù)變化呈現(xiàn)出一定波動??傮w上看,參數(shù)β選在0.002~0.6范圍內(nèi)可找到較理想的聚類準確率,參數(shù)λ選在0.05~10范圍內(nèi)可找到較好的聚類準確率。
4結(jié)論
本文在最小二乘回歸子空間分割模型的基礎(chǔ)上,考慮距離信息,提出融入距離信息的最小二乘回歸子空間分割模型,并應(yīng)用在基因表達數(shù)據(jù)上。實驗表明,對于給出的基因表達數(shù)據(jù)集,DLSR與子空間分割算法LRR、LSR以及原先用于基因表達數(shù)據(jù)的方法相比更有效。而且,在LSR的基礎(chǔ)上融入了距離信息,確實可提高聚類能力,對LSR有一定的優(yōu)化。但是介于參數(shù)的選取對實驗結(jié)果較為敏感,如何高效地選取參數(shù)是今后要研究的問題。
參考文獻
[1] 黃德雙. 基因表達譜數(shù)據(jù)挖掘方法研究[M].北京:科學出版社, 2009.
?。?] 劉德山, 孫麗, 閆德勤. 一種基因數(shù)據(jù)分析的半監(jiān)督學習算法[J]. 微型機與應(yīng)用, 2014, 33(12): 4447.
[3] DING C, Li Tao, JORDAN M. Convex and seminonnegative matrix factorizations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 4555.
?。?] 王俊生, 王年, 郭秀麗, 等. 基于 Normalized Cut 的基因表達數(shù)據(jù)聚類[J]. 安徽大學學報(自然科學版),2012, 36(4): 6872.
?。?] Jiang Daxin, Tang Chun, Zhang Aidong. Cluster analysis for gene expression data: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(11): 13701386.
?。?] VIDAL R. A tutorial on subspace clustering[J]. IEEE Signal Processing Magazine, 2010, 28(2): 5268.
?。?] ELHAMIFAR E, VIDAL R. Sparse subspace clustering[C]. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2009, IEEE, 2009: 27902797.
?。?] Liu Guangcan, Lin Zhouchen, Yu Yong. Robust subspace segmentation by lowrank representation[C]. Proceedings of the 27th International Conference on Machine Learning (ICML10), 2010: 663670.
[9] Lu Canyi, Min Hai, Zhao Zhongqiu, et al. Robust and efficient subspace segmentation via least squares regression[C]. European Conference on Computer Vision, ECCV 2012, 2012,7578(1): 347360.
?。?0] Nie Feiping, Wang Xiaoqian, Huang Heng. Clustering and projected clustering with adaptive neighbors[C]. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2014: 977986.
?。?1] Shi Jianbo, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888905.
[12] STAUNTON J E, SLONIM D K, COLLER H A, et al. Chemosensitivity prediction by transcriptional profiling[J]. Proceedings of the National Academy of Sciences, 2001, 98(19): 1078710792.