許睿,李琳芳
?。ê幽峡萍紝W院 信息工程學院,河南 新鄉(xiāng) 453003)
摘要:蛋白質(zhì)是生物體生命活動中最為核心的物質(zhì)基礎。如何用定量分析的方法識別蛋白質(zhì)網(wǎng)絡中那些是關(guān)鍵蛋白質(zhì),或者評價某些蛋白質(zhì)的重要程度,這是蛋白質(zhì)組學中亟待解決的重要問題之一。從蛋白質(zhì)網(wǎng)絡拓撲特征出發(fā),結(jié)合交通網(wǎng)絡中可達性的概念,具體量化每一個蛋白質(zhì)節(jié)點的作用,通過統(tǒng)計整個蛋白質(zhì)網(wǎng)絡的網(wǎng)絡資本值的變化量,來衡量蛋白質(zhì)節(jié)點的重要性,為進一步識別關(guān)鍵蛋白質(zhì)提供了理論和實驗的依據(jù)。
關(guān)鍵詞:可達性;網(wǎng)絡資本評估;關(guān)鍵蛋白質(zhì);節(jié)點重要性
0引言
在生物界,蛋白質(zhì)是各種生物體生命活動中最核心的物質(zhì)基礎,承擔著一系列生理功能的傳遞、執(zhí)行等功能。在細胞的一系列生命過程中,有一部分蛋白質(zhì)在其中參與了多個生命過程,而其他蛋白質(zhì)只參加很少的生命過程,通過衡量這些蛋白質(zhì)對于生命活動的影響程度,將前者稱為關(guān)鍵蛋白質(zhì),將后者稱為非關(guān)鍵蛋白質(zhì)。
如何識別關(guān)鍵蛋白質(zhì)?首先需要對蛋白質(zhì)網(wǎng)絡中的蛋白質(zhì)節(jié)點的重要性進行排序。研究表明,在蛋白質(zhì)網(wǎng)絡中,蛋白質(zhì)所在的位置表現(xiàn)出來的拓撲特性與該蛋白質(zhì)在生命活動中具有的功能有很大的聯(lián)系[1]。因此本文通過分析單個蛋白質(zhì)節(jié)點失效前后整個蛋白質(zhì)網(wǎng)絡資本下降的程度,來評估該蛋白質(zhì)節(jié)點在蛋白質(zhì)網(wǎng)絡中的作用大小,進而實現(xiàn)蛋白質(zhì)網(wǎng)絡中的蛋白質(zhì)節(jié)點的重要性排序。
1相關(guān)定義說明
1.1蛋白質(zhì)節(jié)點可達性
在蛋白質(zhì)網(wǎng)絡中,蛋白質(zhì)節(jié)點的可達性是指某個蛋白質(zhì)節(jié)點與其他蛋白質(zhì)節(jié)點之間的相互作用關(guān)系之和,它表示該蛋白質(zhì)節(jié)點與其他蛋白質(zhì)節(jié)點相互連接的密切程度,同時反映出該蛋白質(zhì)節(jié)點在蛋白質(zhì)網(wǎng)絡中的影響力。
將蛋白質(zhì)網(wǎng)絡中的每個蛋白質(zhì)抽象為一個節(jié)點,蛋白質(zhì)與蛋白質(zhì)之間的作用關(guān)系被抽象為一條邊,蛋白質(zhì)與蛋白質(zhì)之間的相互作用構(gòu)成了一個無向網(wǎng)絡。用一個無向圖G表示蛋白質(zhì)網(wǎng)絡,則在圖G中,有n個蛋白質(zhì)節(jié)點構(gòu)成頂點集合V,其中存在任意兩個蛋白質(zhì)節(jié)點i、j∈V,G對應的鄰接矩陣為矩陣C,用C(i, j)表示蛋白質(zhì)節(jié)點i、j之間是否存在直接相互作用,即表示在無向圖G中這兩個蛋白質(zhì)節(jié)點是否存在直接連接。

在圖G中,dij為蛋白質(zhì)節(jié)點i到蛋白質(zhì)節(jié)點j的最短路徑長度。蛋白質(zhì)節(jié)點j之外的其他蛋白質(zhì)節(jié)點到蛋白質(zhì)節(jié)點j的最短距離反映了這些點到蛋白質(zhì)節(jié)點j的難易程度,間接地反映了其他蛋白質(zhì)節(jié)點對于蛋白質(zhì)節(jié)點j的影響能力或相互作用能力。蛋白質(zhì)節(jié)點j的可達性(Accessibility, Ac)定義為蛋白質(zhì)網(wǎng)絡中其他蛋白質(zhì)節(jié)點對蛋白質(zhì)節(jié)點j的影響之和??蛇_性公式為:
Acj=∑ni=1,i≠j1dij(2)
可達性描述的是蛋白質(zhì)網(wǎng)絡中蛋白質(zhì)節(jié)點之間相互影響力之和。對某個蛋白質(zhì)節(jié)點而言,該蛋白質(zhì)節(jié)點可達性越大,表明該蛋白質(zhì)節(jié)點在與蛋白質(zhì)網(wǎng)絡中的其他蛋白質(zhì)節(jié)點之間的聯(lián)系也就越密切,對蛋白質(zhì)網(wǎng)絡中其他蛋白質(zhì)節(jié)點的影響力也就越大。將所有蛋白質(zhì)節(jié)點的可達性用矩陣的形式表示出來,就形成了該蛋白質(zhì)節(jié)點的可達性評價矩陣,記為H(Ac)。


在式(3)中,i=1,…,n且i≠n,i表示除去蛋白質(zhì)節(jié)點n之外所有其他蛋白質(zhì)節(jié)點,蛋白質(zhì)節(jié)點n對應的可達性Ac(n)等于i表示的這些蛋白質(zhì)節(jié)點到蛋白質(zhì)節(jié)點n的最短距離的倒數(shù)之和。
1.2網(wǎng)絡資本評估
對蛋白質(zhì)復合物內(nèi)部的拓撲結(jié)構(gòu)而言,偏重于分析該蛋白質(zhì)節(jié)點對蛋白質(zhì)復合物內(nèi)部的局部影響力,但對整個蛋白質(zhì)網(wǎng)絡而言,則需要分析該蛋白質(zhì)節(jié)點對整個網(wǎng)絡功能的全局影響力,因為一個蛋白質(zhì)節(jié)點的失效,影響的不僅是其周邊與其直接相連的蛋白質(zhì)節(jié)點,還可能會造成其他蛋白質(zhì)節(jié)點之間的連鎖反應,進而影響整個蛋白質(zhì)網(wǎng)絡的功能。為此,本文在節(jié)點可達性的基礎上定義了蛋白質(zhì)網(wǎng)絡資本NC (Network Cost),用以描述整個蛋白質(zhì)網(wǎng)絡內(nèi)蛋白質(zhì)節(jié)點相互作用的強弱[2]。網(wǎng)絡資本NC公式如下:

蛋白質(zhì)網(wǎng)絡中的網(wǎng)絡資本是指整個網(wǎng)絡中所有蛋白質(zhì)節(jié)點的可達性之和,表明整個網(wǎng)絡內(nèi)所有蛋白質(zhì)節(jié)點之間的相互影響力。
1.3關(guān)鍵蛋白質(zhì)節(jié)點集合
關(guān)鍵蛋白質(zhì)集合是指使將某個節(jié)點失效后,蛋白質(zhì)網(wǎng)絡的網(wǎng)絡資本下降到一定程度(閾值Tmin)時節(jié)點的集合。f(G)為蛋白質(zhì)網(wǎng)絡資本值下降函數(shù),Gc為G去掉節(jié)點集合c后的子網(wǎng),ΔfNC(Gc)為G變成Gc后網(wǎng)絡資本的改變值,使ΔfNC(Gc)→Tmin的網(wǎng)絡元素集合L=C。對于不同的蛋白質(zhì)網(wǎng)絡,它們的拓撲結(jié)構(gòu)有很大的差異,因此閾值Tmin必須根據(jù)具體的蛋白質(zhì)網(wǎng)絡來進行確定,本文將閾值Tmin設置為0.3。
2基于網(wǎng)絡資本評估的節(jié)點重要性評價標準的有效性分析
本章采用基于網(wǎng)絡資本評估的標準對經(jīng)典的ARPA網(wǎng)絡進行節(jié)點重要性評估以驗證算法的有效性。ARPA(Advanced Research Project Agency)網(wǎng)絡是研究關(guān)鍵節(jié)點識別時常常使用的驗證網(wǎng)絡,該網(wǎng)絡包括21個節(jié)點和26條邊。ARPA網(wǎng)絡平均度值在2~3之間,大部分節(jié)點的度值為2。ARPA網(wǎng)絡拓撲結(jié)構(gòu)如圖1所示。

圖1ARPA網(wǎng)絡拓撲結(jié)構(gòu)圖ARPA網(wǎng)絡是驗證節(jié)點重要性評價標準的經(jīng)典網(wǎng)絡。參考文獻[3]提出基于生成樹數(shù)目的節(jié)點重要性評價方法,依據(jù)節(jié)點為網(wǎng)絡提供最短可用路由的能力來進行節(jié)點重要度評價。參考文獻[4]提出了一種利用節(jié)點間關(guān)聯(lián)特性的評價方法,通過定義Node Importance Contribution Matrix來評價網(wǎng)絡中不同節(jié)點間的連接關(guān)系對節(jié)點重要性的影響。首先依據(jù)參考文獻[3]、[4]中的評價標準分別對于ARPA網(wǎng)絡進行節(jié)點重要性評價,得到它們對于ARPA網(wǎng)絡中各個節(jié)點的權(quán)值。然后,在相同的實驗條件下,采用本文中基于網(wǎng)絡資本評估的節(jié)點重要性評價標準,得到該網(wǎng)絡中各個節(jié)點的權(quán)值。綜合以上3種方法得到的結(jié)果如表1所示。

在表1中,參考文獻[3]得到網(wǎng)絡中最重要的6個關(guān)鍵節(jié)點,其重要度按從大到小排序為:節(jié)點3、14、6、12、2、19,但對于節(jié)點7、8、9、10、11,其重要度均為0.879 7,無法區(qū)分排序。參考文獻[4]得到的節(jié)點重要度按從大到小排序為3、12、19、6、4、5、11、14、13、18、10、7等。本算法得到的12個重要節(jié)點,其重要度按從大到小排序為:節(jié)點3、12、6、14、2、9、19、4、11、7、15、21。本算法得到的重要節(jié)點與參考文獻[3]有9個節(jié)點重合,與參考文獻[4]有8個節(jié)點重合;如果將參考文獻[3]和參考文獻[4]的結(jié)果合并,則本文得到的前10個重要節(jié)點都是重合的,而且3種算法得到的最關(guān)鍵的節(jié)點都是節(jié)點3。這說明本文采用的方法在網(wǎng)絡的節(jié)點重要度評估方面有很好的效果。本文算法給出了12個節(jié)點的重要度,占ARPA網(wǎng)絡節(jié)點總數(shù)的57%。
3結(jié)論
本文提出一種衡量蛋白質(zhì)網(wǎng)絡中蛋白質(zhì)節(jié)點重要性的標準,用可達性具體度量每一個節(jié)點在網(wǎng)絡中的作用,通過分析節(jié)點失效后對整個網(wǎng)絡資本的影響能力,衡量該節(jié)點的重要性。通過簡單的實驗分析,本文提出的標準可以準確地識別出網(wǎng)絡中最重要的節(jié)點,同時可以有效地分析出網(wǎng)絡中其他重要性比較靠前的節(jié)點。對大型蛋白質(zhì)網(wǎng)絡來說,關(guān)鍵蛋白質(zhì)的個數(shù)一般不超過蛋白質(zhì)網(wǎng)絡中蛋白質(zhì)節(jié)點總數(shù)的20%,其中重要度位居前列的TOP 1%和TOP 5%的蛋白質(zhì)是網(wǎng)絡中最重要的蛋白質(zhì)節(jié)點,對蛋白質(zhì)網(wǎng)絡整體功能影響最大。因此,本文的標準可以為進一步研究關(guān)鍵蛋白質(zhì)的識別方法提供理論和實驗的依據(jù)。
參考文獻
?。?] DA SILVA J P M, ACENCIO M L, MOMBACH J C M, et al. In silico network topologybased prediction of gene essentiality[J]. Physica A: Statistical Mechanics and its Applications, 2008, 387(4):10491055.
?。?] 黃金才,成清,劉彥君,等. 一種基于網(wǎng)絡資本評價的關(guān)鍵核挖掘方法[J].山東大學學報(工學版),2012,42(1):15.
?。?] 陳勇,胡愛群,胡俊,等. 通信網(wǎng)中最重要節(jié)點的確定方法[J].高技術(shù)通訊,2004,14(1):2124.
[4] 趙毅寰,王祖林,鄭晶,等. 利用重要性貢獻矩陣確定通信網(wǎng)中最重要節(jié)點[J].北京航空航天大學學報,2009,35(9):10761079.
