許睿,李琳芳
?。ê幽峡萍紝W(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003)
摘要:蛋白質(zhì)是生物體生命活動(dòng)中最為核心的物質(zhì)基礎(chǔ)。如何用定量分析的方法識(shí)別蛋白質(zhì)網(wǎng)絡(luò)中那些是關(guān)鍵蛋白質(zhì),或者評(píng)價(jià)某些蛋白質(zhì)的重要程度,這是蛋白質(zhì)組學(xué)中亟待解決的重要問(wèn)題之一。從蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞒霭l(fā),結(jié)合交通網(wǎng)絡(luò)中可達(dá)性的概念,具體量化每一個(gè)蛋白質(zhì)節(jié)點(diǎn)的作用,通過(guò)統(tǒng)計(jì)整個(gè)蛋白質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)資本值的變化量,來(lái)衡量蛋白質(zhì)節(jié)點(diǎn)的重要性,為進(jìn)一步識(shí)別關(guān)鍵蛋白質(zhì)提供了理論和實(shí)驗(yàn)的依據(jù)。
關(guān)鍵詞:可達(dá)性;網(wǎng)絡(luò)資本評(píng)估;關(guān)鍵蛋白質(zhì);節(jié)點(diǎn)重要性
0引言
在生物界,蛋白質(zhì)是各種生物體生命活動(dòng)中最核心的物質(zhì)基礎(chǔ),承擔(dān)著一系列生理功能的傳遞、執(zhí)行等功能。在細(xì)胞的一系列生命過(guò)程中,有一部分蛋白質(zhì)在其中參與了多個(gè)生命過(guò)程,而其他蛋白質(zhì)只參加很少的生命過(guò)程,通過(guò)衡量這些蛋白質(zhì)對(duì)于生命活動(dòng)的影響程度,將前者稱(chēng)為關(guān)鍵蛋白質(zhì),將后者稱(chēng)為非關(guān)鍵蛋白質(zhì)。
如何識(shí)別關(guān)鍵蛋白質(zhì)?首先需要對(duì)蛋白質(zhì)網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點(diǎn)的重要性進(jìn)行排序。研究表明,在蛋白質(zhì)網(wǎng)絡(luò)中,蛋白質(zhì)所在的位置表現(xiàn)出來(lái)的拓?fù)涮匦耘c該蛋白質(zhì)在生命活動(dòng)中具有的功能有很大的聯(lián)系[1]。因此本文通過(guò)分析單個(gè)蛋白質(zhì)節(jié)點(diǎn)失效前后整個(gè)蛋白質(zhì)網(wǎng)絡(luò)資本下降的程度,來(lái)評(píng)估該蛋白質(zhì)節(jié)點(diǎn)在蛋白質(zhì)網(wǎng)絡(luò)中的作用大小,進(jìn)而實(shí)現(xiàn)蛋白質(zhì)網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點(diǎn)的重要性排序。
1相關(guān)定義說(shuō)明
1.1蛋白質(zhì)節(jié)點(diǎn)可達(dá)性
在蛋白質(zhì)網(wǎng)絡(luò)中,蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性是指某個(gè)蛋白質(zhì)節(jié)點(diǎn)與其他蛋白質(zhì)節(jié)點(diǎn)之間的相互作用關(guān)系之和,它表示該蛋白質(zhì)節(jié)點(diǎn)與其他蛋白質(zhì)節(jié)點(diǎn)相互連接的密切程度,同時(shí)反映出該蛋白質(zhì)節(jié)點(diǎn)在蛋白質(zhì)網(wǎng)絡(luò)中的影響力。
將蛋白質(zhì)網(wǎng)絡(luò)中的每個(gè)蛋白質(zhì)抽象為一個(gè)節(jié)點(diǎn),蛋白質(zhì)與蛋白質(zhì)之間的作用關(guān)系被抽象為一條邊,蛋白質(zhì)與蛋白質(zhì)之間的相互作用構(gòu)成了一個(gè)無(wú)向網(wǎng)絡(luò)。用一個(gè)無(wú)向圖G表示蛋白質(zhì)網(wǎng)絡(luò),則在圖G中,有n個(gè)蛋白質(zhì)節(jié)點(diǎn)構(gòu)成頂點(diǎn)集合V,其中存在任意兩個(gè)蛋白質(zhì)節(jié)點(diǎn)i、j∈V,G對(duì)應(yīng)的鄰接矩陣為矩陣C,用C(i, j)表示蛋白質(zhì)節(jié)點(diǎn)i、j之間是否存在直接相互作用,即表示在無(wú)向圖G中這兩個(gè)蛋白質(zhì)節(jié)點(diǎn)是否存在直接連接。
在圖G中,dij為蛋白質(zhì)節(jié)點(diǎn)i到蛋白質(zhì)節(jié)點(diǎn)j的最短路徑長(zhǎng)度。蛋白質(zhì)節(jié)點(diǎn)j之外的其他蛋白質(zhì)節(jié)點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)j的最短距離反映了這些點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)j的難易程度,間接地反映了其他蛋白質(zhì)節(jié)點(diǎn)對(duì)于蛋白質(zhì)節(jié)點(diǎn)j的影響能力或相互作用能力。蛋白質(zhì)節(jié)點(diǎn)j的可達(dá)性(Accessibility, Ac)定義為蛋白質(zhì)網(wǎng)絡(luò)中其他蛋白質(zhì)節(jié)點(diǎn)對(duì)蛋白質(zhì)節(jié)點(diǎn)j的影響之和??蛇_(dá)性公式為:
Acj=∑ni=1,i≠j1dij(2)
可達(dá)性描述的是蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)之間相互影響力之和。對(duì)某個(gè)蛋白質(zhì)節(jié)點(diǎn)而言,該蛋白質(zhì)節(jié)點(diǎn)可達(dá)性越大,表明該蛋白質(zhì)節(jié)點(diǎn)在與蛋白質(zhì)網(wǎng)絡(luò)中的其他蛋白質(zhì)節(jié)點(diǎn)之間的聯(lián)系也就越密切,對(duì)蛋白質(zhì)網(wǎng)絡(luò)中其他蛋白質(zhì)節(jié)點(diǎn)的影響力也就越大。將所有蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性用矩陣的形式表示出來(lái),就形成了該蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性評(píng)價(jià)矩陣,記為H(Ac)。
在式(3)中,i=1,…,n且i≠n,i表示除去蛋白質(zhì)節(jié)點(diǎn)n之外所有其他蛋白質(zhì)節(jié)點(diǎn),蛋白質(zhì)節(jié)點(diǎn)n對(duì)應(yīng)的可達(dá)性Ac(n)等于i表示的這些蛋白質(zhì)節(jié)點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)n的最短距離的倒數(shù)之和。
1.2網(wǎng)絡(luò)資本評(píng)估
對(duì)蛋白質(zhì)復(fù)合物內(nèi)部的拓?fù)浣Y(jié)構(gòu)而言,偏重于分析該蛋白質(zhì)節(jié)點(diǎn)對(duì)蛋白質(zhì)復(fù)合物內(nèi)部的局部影響力,但對(duì)整個(gè)蛋白質(zhì)網(wǎng)絡(luò)而言,則需要分析該蛋白質(zhì)節(jié)點(diǎn)對(duì)整個(gè)網(wǎng)絡(luò)功能的全局影響力,因?yàn)橐粋€(gè)蛋白質(zhì)節(jié)點(diǎn)的失效,影響的不僅是其周邊與其直接相連的蛋白質(zhì)節(jié)點(diǎn),還可能會(huì)造成其他蛋白質(zhì)節(jié)點(diǎn)之間的連鎖反應(yīng),進(jìn)而影響整個(gè)蛋白質(zhì)網(wǎng)絡(luò)的功能。為此,本文在節(jié)點(diǎn)可達(dá)性的基礎(chǔ)上定義了蛋白質(zhì)網(wǎng)絡(luò)資本NC (Network Cost),用以描述整個(gè)蛋白質(zhì)網(wǎng)絡(luò)內(nèi)蛋白質(zhì)節(jié)點(diǎn)相互作用的強(qiáng)弱[2]。網(wǎng)絡(luò)資本NC公式如下:
蛋白質(zhì)網(wǎng)絡(luò)中的網(wǎng)絡(luò)資本是指整個(gè)網(wǎng)絡(luò)中所有蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性之和,表明整個(gè)網(wǎng)絡(luò)內(nèi)所有蛋白質(zhì)節(jié)點(diǎn)之間的相互影響力。
1.3關(guān)鍵蛋白質(zhì)節(jié)點(diǎn)集合
關(guān)鍵蛋白質(zhì)集合是指使將某個(gè)節(jié)點(diǎn)失效后,蛋白質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)資本下降到一定程度(閾值Tmin)時(shí)節(jié)點(diǎn)的集合。f(G)為蛋白質(zhì)網(wǎng)絡(luò)資本值下降函數(shù),Gc為G去掉節(jié)點(diǎn)集合c后的子網(wǎng),ΔfNC(Gc)為G變成Gc后網(wǎng)絡(luò)資本的改變值,使ΔfNC(Gc)→Tmin的網(wǎng)絡(luò)元素集合L=C。對(duì)于不同的蛋白質(zhì)網(wǎng)絡(luò),它們的拓?fù)浣Y(jié)構(gòu)有很大的差異,因此閾值Tmin必須根據(jù)具體的蛋白質(zhì)網(wǎng)絡(luò)來(lái)進(jìn)行確定,本文將閾值Tmin設(shè)置為0.3。
2基于網(wǎng)絡(luò)資本評(píng)估的節(jié)點(diǎn)重要性評(píng)價(jià)標(biāo)準(zhǔn)的有效性分析
本章采用基于網(wǎng)絡(luò)資本評(píng)估的標(biāo)準(zhǔn)對(duì)經(jīng)典的ARPA網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)重要性評(píng)估以驗(yàn)證算法的有效性。ARPA(Advanced Research Project Agency)網(wǎng)絡(luò)是研究關(guān)鍵節(jié)點(diǎn)識(shí)別時(shí)常常使用的驗(yàn)證網(wǎng)絡(luò),該網(wǎng)絡(luò)包括21個(gè)節(jié)點(diǎn)和26條邊。ARPA網(wǎng)絡(luò)平均度值在2~3之間,大部分節(jié)點(diǎn)的度值為2。ARPA網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。
圖1ARPA網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖ARPA網(wǎng)絡(luò)是驗(yàn)證節(jié)點(diǎn)重要性評(píng)價(jià)標(biāo)準(zhǔn)的經(jīng)典網(wǎng)絡(luò)。參考文獻(xiàn)[3]提出基于生成樹(shù)數(shù)目的節(jié)點(diǎn)重要性評(píng)價(jià)方法,依據(jù)節(jié)點(diǎn)為網(wǎng)絡(luò)提供最短可用路由的能力來(lái)進(jìn)行節(jié)點(diǎn)重要度評(píng)價(jià)。參考文獻(xiàn)[4]提出了一種利用節(jié)點(diǎn)間關(guān)聯(lián)特性的評(píng)價(jià)方法,通過(guò)定義Node Importance Contribution Matrix來(lái)評(píng)價(jià)網(wǎng)絡(luò)中不同節(jié)點(diǎn)間的連接關(guān)系對(duì)節(jié)點(diǎn)重要性的影響。首先依據(jù)參考文獻(xiàn)[3]、[4]中的評(píng)價(jià)標(biāo)準(zhǔn)分別對(duì)于ARPA網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)重要性評(píng)價(jià),得到它們對(duì)于ARPA網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的權(quán)值。然后,在相同的實(shí)驗(yàn)條件下,采用本文中基于網(wǎng)絡(luò)資本評(píng)估的節(jié)點(diǎn)重要性評(píng)價(jià)標(biāo)準(zhǔn),得到該網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的權(quán)值。綜合以上3種方法得到的結(jié)果如表1所示。
在表1中,參考文獻(xiàn)[3]得到網(wǎng)絡(luò)中最重要的6個(gè)關(guān)鍵節(jié)點(diǎn),其重要度按從大到小排序?yàn)椋汗?jié)點(diǎn)3、14、6、12、2、19,但對(duì)于節(jié)點(diǎn)7、8、9、10、11,其重要度均為0.879 7,無(wú)法區(qū)分排序。參考文獻(xiàn)[4]得到的節(jié)點(diǎn)重要度按從大到小排序?yàn)?、12、19、6、4、5、11、14、13、18、10、7等。本算法得到的12個(gè)重要節(jié)點(diǎn),其重要度按從大到小排序?yàn)椋汗?jié)點(diǎn)3、12、6、14、2、9、19、4、11、7、15、21。本算法得到的重要節(jié)點(diǎn)與參考文獻(xiàn)[3]有9個(gè)節(jié)點(diǎn)重合,與參考文獻(xiàn)[4]有8個(gè)節(jié)點(diǎn)重合;如果將參考文獻(xiàn)[3]和參考文獻(xiàn)[4]的結(jié)果合并,則本文得到的前10個(gè)重要節(jié)點(diǎn)都是重合的,而且3種算法得到的最關(guān)鍵的節(jié)點(diǎn)都是節(jié)點(diǎn)3。這說(shuō)明本文采用的方法在網(wǎng)絡(luò)的節(jié)點(diǎn)重要度評(píng)估方面有很好的效果。本文算法給出了12個(gè)節(jié)點(diǎn)的重要度,占ARPA網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)的57%。
3結(jié)論
本文提出一種衡量蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)重要性的標(biāo)準(zhǔn),用可達(dá)性具體度量每一個(gè)節(jié)點(diǎn)在網(wǎng)絡(luò)中的作用,通過(guò)分析節(jié)點(diǎn)失效后對(duì)整個(gè)網(wǎng)絡(luò)資本的影響能力,衡量該節(jié)點(diǎn)的重要性。通過(guò)簡(jiǎn)單的實(shí)驗(yàn)分析,本文提出的標(biāo)準(zhǔn)可以準(zhǔn)確地識(shí)別出網(wǎng)絡(luò)中最重要的節(jié)點(diǎn),同時(shí)可以有效地分析出網(wǎng)絡(luò)中其他重要性比較靠前的節(jié)點(diǎn)。對(duì)大型蛋白質(zhì)網(wǎng)絡(luò)來(lái)說(shuō),關(guān)鍵蛋白質(zhì)的個(gè)數(shù)一般不超過(guò)蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)總數(shù)的20%,其中重要度位居前列的TOP 1%和TOP 5%的蛋白質(zhì)是網(wǎng)絡(luò)中最重要的蛋白質(zhì)節(jié)點(diǎn),對(duì)蛋白質(zhì)網(wǎng)絡(luò)整體功能影響最大。因此,本文的標(biāo)準(zhǔn)可以為進(jìn)一步研究關(guān)鍵蛋白質(zhì)的識(shí)別方法提供理論和實(shí)驗(yàn)的依據(jù)。
參考文獻(xiàn)
?。?] DA SILVA J P M, ACENCIO M L, MOMBACH J C M, et al. In silico network topologybased prediction of gene essentiality[J]. Physica A: Statistical Mechanics and its Applications, 2008, 387(4):10491055.
?。?] 黃金才,成清,劉彥君,等. 一種基于網(wǎng)絡(luò)資本評(píng)價(jià)的關(guān)鍵核挖掘方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2012,42(1):15.
?。?] 陳勇,胡愛(ài)群,胡俊,等. 通信網(wǎng)中最重要節(jié)點(diǎn)的確定方法[J].高技術(shù)通訊,2004,14(1):2124.
?。?] 趙毅寰,王祖林,鄭晶,等. 利用重要性貢獻(xiàn)矩陣確定通信網(wǎng)中最重要節(jié)點(diǎn)[J].北京航空航天大學(xué)學(xué)報(bào),2009,35(9):10761079.