許睿,李琳芳
?。ê幽峡萍紝W院 信息工程學院,河南 新鄉(xiāng) 453003)
摘要:蛋白質是生物體生命活動中最為核心的物質基礎。如何用定量分析的方法識別蛋白質網(wǎng)絡中那些是關鍵蛋白質,或者評價某些蛋白質的重要程度,這是蛋白質組學中亟待解決的重要問題之一。從蛋白質網(wǎng)絡拓撲特征出發(fā),結合交通網(wǎng)絡中可達性的概念,具體量化每一個蛋白質節(jié)點的作用,通過統(tǒng)計整個蛋白質網(wǎng)絡的網(wǎng)絡資本值的變化量,來衡量蛋白質節(jié)點的重要性,為進一步識別關鍵蛋白質提供了理論和實驗的依據(jù)。
關鍵詞:可達性;網(wǎng)絡資本評估;關鍵蛋白質;節(jié)點重要性
0引言
在生物界,蛋白質是各種生物體生命活動中最核心的物質基礎,承擔著一系列生理功能的傳遞、執(zhí)行等功能。在細胞的一系列生命過程中,有一部分蛋白質在其中參與了多個生命過程,而其他蛋白質只參加很少的生命過程,通過衡量這些蛋白質對于生命活動的影響程度,將前者稱為關鍵蛋白質,將后者稱為非關鍵蛋白質。
如何識別關鍵蛋白質?首先需要對蛋白質網(wǎng)絡中的蛋白質節(jié)點的重要性進行排序。研究表明,在蛋白質網(wǎng)絡中,蛋白質所在的位置表現(xiàn)出來的拓撲特性與該蛋白質在生命活動中具有的功能有很大的聯(lián)系[1]。因此本文通過分析單個蛋白質節(jié)點失效前后整個蛋白質網(wǎng)絡資本下降的程度,來評估該蛋白質節(jié)點在蛋白質網(wǎng)絡中的作用大小,進而實現(xiàn)蛋白質網(wǎng)絡中的蛋白質節(jié)點的重要性排序。
1相關定義說明
1.1蛋白質節(jié)點可達性
在蛋白質網(wǎng)絡中,蛋白質節(jié)點的可達性是指某個蛋白質節(jié)點與其他蛋白質節(jié)點之間的相互作用關系之和,它表示該蛋白質節(jié)點與其他蛋白質節(jié)點相互連接的密切程度,同時反映出該蛋白質節(jié)點在蛋白質網(wǎng)絡中的影響力。
將蛋白質網(wǎng)絡中的每個蛋白質抽象為一個節(jié)點,蛋白質與蛋白質之間的作用關系被抽象為一條邊,蛋白質與蛋白質之間的相互作用構成了一個無向網(wǎng)絡。用一個無向圖G表示蛋白質網(wǎng)絡,則在圖G中,有n個蛋白質節(jié)點構成頂點集合V,其中存在任意兩個蛋白質節(jié)點i、j∈V,G對應的鄰接矩陣為矩陣C,用C(i, j)表示蛋白質節(jié)點i、j之間是否存在直接相互作用,即表示在無向圖G中這兩個蛋白質節(jié)點是否存在直接連接。

在圖G中,dij為蛋白質節(jié)點i到蛋白質節(jié)點j的最短路徑長度。蛋白質節(jié)點j之外的其他蛋白質節(jié)點到蛋白質節(jié)點j的最短距離反映了這些點到蛋白質節(jié)點j的難易程度,間接地反映了其他蛋白質節(jié)點對于蛋白質節(jié)點j的影響能力或相互作用能力。蛋白質節(jié)點j的可達性(Accessibility, Ac)定義為蛋白質網(wǎng)絡中其他蛋白質節(jié)點對蛋白質節(jié)點j的影響之和??蛇_性公式為:
Acj=∑ni=1,i≠j1dij(2)
可達性描述的是蛋白質網(wǎng)絡中蛋白質節(jié)點之間相互影響力之和。對某個蛋白質節(jié)點而言,該蛋白質節(jié)點可達性越大,表明該蛋白質節(jié)點在與蛋白質網(wǎng)絡中的其他蛋白質節(jié)點之間的聯(lián)系也就越密切,對蛋白質網(wǎng)絡中其他蛋白質節(jié)點的影響力也就越大。將所有蛋白質節(jié)點的可達性用矩陣的形式表示出來,就形成了該蛋白質節(jié)點的可達性評價矩陣,記為H(Ac)。


在式(3)中,i=1,…,n且i≠n,i表示除去蛋白質節(jié)點n之外所有其他蛋白質節(jié)點,蛋白質節(jié)點n對應的可達性Ac(n)等于i表示的這些蛋白質節(jié)點到蛋白質節(jié)點n的最短距離的倒數(shù)之和。
1.2網(wǎng)絡資本評估
對蛋白質復合物內部的拓撲結構而言,偏重于分析該蛋白質節(jié)點對蛋白質復合物內部的局部影響力,但對整個蛋白質網(wǎng)絡而言,則需要分析該蛋白質節(jié)點對整個網(wǎng)絡功能的全局影響力,因為一個蛋白質節(jié)點的失效,影響的不僅是其周邊與其直接相連的蛋白質節(jié)點,還可能會造成其他蛋白質節(jié)點之間的連鎖反應,進而影響整個蛋白質網(wǎng)絡的功能。為此,本文在節(jié)點可達性的基礎上定義了蛋白質網(wǎng)絡資本NC (Network Cost),用以描述整個蛋白質網(wǎng)絡內蛋白質節(jié)點相互作用的強弱[2]。網(wǎng)絡資本NC公式如下:

蛋白質網(wǎng)絡中的網(wǎng)絡資本是指整個網(wǎng)絡中所有蛋白質節(jié)點的可達性之和,表明整個網(wǎng)絡內所有蛋白質節(jié)點之間的相互影響力。
1.3關鍵蛋白質節(jié)點集合
關鍵蛋白質集合是指使將某個節(jié)點失效后,蛋白質網(wǎng)絡的網(wǎng)絡資本下降到一定程度(閾值Tmin)時節(jié)點的集合。f(G)為蛋白質網(wǎng)絡資本值下降函數(shù),Gc為G去掉節(jié)點集合c后的子網(wǎng),ΔfNC(Gc)為G變成Gc后網(wǎng)絡資本的改變值,使ΔfNC(Gc)→Tmin的網(wǎng)絡元素集合L=C。對于不同的蛋白質網(wǎng)絡,它們的拓撲結構有很大的差異,因此閾值Tmin必須根據(jù)具體的蛋白質網(wǎng)絡來進行確定,本文將閾值Tmin設置為0.3。
2基于網(wǎng)絡資本評估的節(jié)點重要性評價標準的有效性分析
本章采用基于網(wǎng)絡資本評估的標準對經(jīng)典的ARPA網(wǎng)絡進行節(jié)點重要性評估以驗證算法的有效性。ARPA(Advanced Research Project Agency)網(wǎng)絡是研究關鍵節(jié)點識別時常常使用的驗證網(wǎng)絡,該網(wǎng)絡包括21個節(jié)點和26條邊。ARPA網(wǎng)絡平均度值在2~3之間,大部分節(jié)點的度值為2。ARPA網(wǎng)絡拓撲結構如圖1所示。

圖1ARPA網(wǎng)絡拓撲結構圖ARPA網(wǎng)絡是驗證節(jié)點重要性評價標準的經(jīng)典網(wǎng)絡。參考文獻[3]提出基于生成樹數(shù)目的節(jié)點重要性評價方法,依據(jù)節(jié)點為網(wǎng)絡提供最短可用路由的能力來進行節(jié)點重要度評價。參考文獻[4]提出了一種利用節(jié)點間關聯(lián)特性的評價方法,通過定義Node Importance Contribution Matrix來評價網(wǎng)絡中不同節(jié)點間的連接關系對節(jié)點重要性的影響。首先依據(jù)參考文獻[3]、[4]中的評價標準分別對于ARPA網(wǎng)絡進行節(jié)點重要性評價,得到它們對于ARPA網(wǎng)絡中各個節(jié)點的權值。然后,在相同的實驗條件下,采用本文中基于網(wǎng)絡資本評估的節(jié)點重要性評價標準,得到該網(wǎng)絡中各個節(jié)點的權值。綜合以上3種方法得到的結果如表1所示。

在表1中,參考文獻[3]得到網(wǎng)絡中最重要的6個關鍵節(jié)點,其重要度按從大到小排序為:節(jié)點3、14、6、12、2、19,但對于節(jié)點7、8、9、10、11,其重要度均為0.879 7,無法區(qū)分排序。參考文獻[4]得到的節(jié)點重要度按從大到小排序為3、12、19、6、4、5、11、14、13、18、10、7等。本算法得到的12個重要節(jié)點,其重要度按從大到小排序為:節(jié)點3、12、6、14、2、9、19、4、11、7、15、21。本算法得到的重要節(jié)點與參考文獻[3]有9個節(jié)點重合,與參考文獻[4]有8個節(jié)點重合;如果將參考文獻[3]和參考文獻[4]的結果合并,則本文得到的前10個重要節(jié)點都是重合的,而且3種算法得到的最關鍵的節(jié)點都是節(jié)點3。這說明本文采用的方法在網(wǎng)絡的節(jié)點重要度評估方面有很好的效果。本文算法給出了12個節(jié)點的重要度,占ARPA網(wǎng)絡節(jié)點總數(shù)的57%。
3結論
本文提出一種衡量蛋白質網(wǎng)絡中蛋白質節(jié)點重要性的標準,用可達性具體度量每一個節(jié)點在網(wǎng)絡中的作用,通過分析節(jié)點失效后對整個網(wǎng)絡資本的影響能力,衡量該節(jié)點的重要性。通過簡單的實驗分析,本文提出的標準可以準確地識別出網(wǎng)絡中最重要的節(jié)點,同時可以有效地分析出網(wǎng)絡中其他重要性比較靠前的節(jié)點。對大型蛋白質網(wǎng)絡來說,關鍵蛋白質的個數(shù)一般不超過蛋白質網(wǎng)絡中蛋白質節(jié)點總數(shù)的20%,其中重要度位居前列的TOP 1%和TOP 5%的蛋白質是網(wǎng)絡中最重要的蛋白質節(jié)點,對蛋白質網(wǎng)絡整體功能影響最大。因此,本文的標準可以為進一步研究關鍵蛋白質的識別方法提供理論和實驗的依據(jù)。
參考文獻
[1] DA SILVA J P M, ACENCIO M L, MOMBACH J C M, et al. In silico network topologybased prediction of gene essentiality[J]. Physica A: Statistical Mechanics and its Applications, 2008, 387(4):10491055.
?。?] 黃金才,成清,劉彥君,等. 一種基于網(wǎng)絡資本評價的關鍵核挖掘方法[J].山東大學學報(工學版),2012,42(1):15.
?。?] 陳勇,胡愛群,胡俊,等. 通信網(wǎng)中最重要節(jié)點的確定方法[J].高技術通訊,2004,14(1):2124.
?。?] 趙毅寰,王祖林,鄭晶,等. 利用重要性貢獻矩陣確定通信網(wǎng)中最重要節(jié)點[J].北京航空航天大學學報,2009,35(9):10761079.
