《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于網(wǎng)絡(luò)資本評估的蛋白質(zhì)節(jié)點(diǎn)重要性排序
基于網(wǎng)絡(luò)資本評估的蛋白質(zhì)節(jié)點(diǎn)重要性排序
2016年微型機(jī)與應(yīng)用第08期
許睿,李琳芳
(河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003)
摘要: 蛋白質(zhì)是生物體生命活動中最為核心的物質(zhì)基礎(chǔ)。如何用定量分析的方法識別蛋白質(zhì)網(wǎng)絡(luò)中那些是關(guān)鍵蛋白質(zhì),或者評價某些蛋白質(zhì)的重要程度,這是蛋白質(zhì)組學(xué)中亟待解決的重要問題之一。從蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞒霭l(fā),結(jié)合交通網(wǎng)絡(luò)中可達(dá)性的概念,具體量化每一個蛋白質(zhì)節(jié)點(diǎn)的作用,通過統(tǒng)計(jì)整個蛋白質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)資本值的變化量,來衡量蛋白質(zhì)節(jié)點(diǎn)的重要性,為進(jìn)一步識別關(guān)鍵蛋白質(zhì)提供了理論和實(shí)驗(yàn)的依據(jù)。
Abstract:
Key words :

  許睿,李琳芳

 ?。ê幽峡萍紝W(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003)

  摘要:蛋白質(zhì)是生物體生命活動中最為核心的物質(zhì)基礎(chǔ)。如何用定量分析的方法識別蛋白質(zhì)網(wǎng)絡(luò)中那些是關(guān)鍵蛋白質(zhì),或者評價某些蛋白質(zhì)的重要程度,這是蛋白質(zhì)組學(xué)中亟待解決的重要問題之一。從蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮卣鞒霭l(fā),結(jié)合交通網(wǎng)絡(luò)中可達(dá)性的概念,具體量化每一個蛋白質(zhì)節(jié)點(diǎn)的作用,通過統(tǒng)計(jì)整個蛋白質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)資本值的變化量,來衡量蛋白質(zhì)節(jié)點(diǎn)的重要性,為進(jìn)一步識別關(guān)鍵蛋白質(zhì)提供了理論和實(shí)驗(yàn)的依據(jù)。

  關(guān)鍵詞:可達(dá)性;網(wǎng)絡(luò)資本評估;關(guān)鍵蛋白質(zhì);節(jié)點(diǎn)重要性

0引言

  在生物界,蛋白質(zhì)是各種生物體生命活動中最核心的物質(zhì)基礎(chǔ),承擔(dān)著一系列生理功能的傳遞、執(zhí)行等功能。在細(xì)胞的一系列生命過程中,有一部分蛋白質(zhì)在其中參與了多個生命過程,而其他蛋白質(zhì)只參加很少的生命過程,通過衡量這些蛋白質(zhì)對于生命活動的影響程度,將前者稱為關(guān)鍵蛋白質(zhì),將后者稱為非關(guān)鍵蛋白質(zhì)。

  如何識別關(guān)鍵蛋白質(zhì)?首先需要對蛋白質(zhì)網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點(diǎn)的重要性進(jìn)行排序。研究表明,在蛋白質(zhì)網(wǎng)絡(luò)中,蛋白質(zhì)所在的位置表現(xiàn)出來的拓?fù)涮匦耘c該蛋白質(zhì)在生命活動中具有的功能有很大的聯(lián)系[1]。因此本文通過分析單個蛋白質(zhì)節(jié)點(diǎn)失效前后整個蛋白質(zhì)網(wǎng)絡(luò)資本下降的程度,來評估該蛋白質(zhì)節(jié)點(diǎn)在蛋白質(zhì)網(wǎng)絡(luò)中的作用大小,進(jìn)而實(shí)現(xiàn)蛋白質(zhì)網(wǎng)絡(luò)中的蛋白質(zhì)節(jié)點(diǎn)的重要性排序。

1相關(guān)定義說明

  1.1蛋白質(zhì)節(jié)點(diǎn)可達(dá)性

  在蛋白質(zhì)網(wǎng)絡(luò)中,蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性是指某個蛋白質(zhì)節(jié)點(diǎn)與其他蛋白質(zhì)節(jié)點(diǎn)之間的相互作用關(guān)系之和,它表示該蛋白質(zhì)節(jié)點(diǎn)與其他蛋白質(zhì)節(jié)點(diǎn)相互連接的密切程度,同時反映出該蛋白質(zhì)節(jié)點(diǎn)在蛋白質(zhì)網(wǎng)絡(luò)中的影響力。

  將蛋白質(zhì)網(wǎng)絡(luò)中的每個蛋白質(zhì)抽象為一個節(jié)點(diǎn),蛋白質(zhì)與蛋白質(zhì)之間的作用關(guān)系被抽象為一條邊,蛋白質(zhì)與蛋白質(zhì)之間的相互作用構(gòu)成了一個無向網(wǎng)絡(luò)。用一個無向圖G表示蛋白質(zhì)網(wǎng)絡(luò),則在圖G中,有n個蛋白質(zhì)節(jié)點(diǎn)構(gòu)成頂點(diǎn)集合V,其中存在任意兩個蛋白質(zhì)節(jié)點(diǎn)i、j∈V,G對應(yīng)的鄰接矩陣為矩陣C,用C(i, j)表示蛋白質(zhì)節(jié)點(diǎn)i、j之間是否存在直接相互作用,即表示在無向圖G中這兩個蛋白質(zhì)節(jié)點(diǎn)是否存在直接連接。

  1.jpg

  在圖G中,dij為蛋白質(zhì)節(jié)點(diǎn)i到蛋白質(zhì)節(jié)點(diǎn)j的最短路徑長度。蛋白質(zhì)節(jié)點(diǎn)j之外的其他蛋白質(zhì)節(jié)點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)j的最短距離反映了這些點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)j的難易程度,間接地反映了其他蛋白質(zhì)節(jié)點(diǎn)對于蛋白質(zhì)節(jié)點(diǎn)j的影響能力或相互作用能力。蛋白質(zhì)節(jié)點(diǎn)j的可達(dá)性(Accessibility, Ac)定義為蛋白質(zhì)網(wǎng)絡(luò)中其他蛋白質(zhì)節(jié)點(diǎn)對蛋白質(zhì)節(jié)點(diǎn)j的影響之和??蛇_(dá)性公式為:

  Acj=∑ni=1,i≠j1dij(2)

  可達(dá)性描述的是蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)之間相互影響力之和。對某個蛋白質(zhì)節(jié)點(diǎn)而言,該蛋白質(zhì)節(jié)點(diǎn)可達(dá)性越大,表明該蛋白質(zhì)節(jié)點(diǎn)在與蛋白質(zhì)網(wǎng)絡(luò)中的其他蛋白質(zhì)節(jié)點(diǎn)之間的聯(lián)系也就越密切,對蛋白質(zhì)網(wǎng)絡(luò)中其他蛋白質(zhì)節(jié)點(diǎn)的影響力也就越大。將所有蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性用矩陣的形式表示出來,就形成了該蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性評價矩陣,記為H(Ac)。

  2.png

  3.png

  在式(3)中,i=1,…,n且i≠n,i表示除去蛋白質(zhì)節(jié)點(diǎn)n之外所有其他蛋白質(zhì)節(jié)點(diǎn),蛋白質(zhì)節(jié)點(diǎn)n對應(yīng)的可達(dá)性Ac(n)等于i表示的這些蛋白質(zhì)節(jié)點(diǎn)到蛋白質(zhì)節(jié)點(diǎn)n的最短距離的倒數(shù)之和。

  1.2網(wǎng)絡(luò)資本評估

  對蛋白質(zhì)復(fù)合物內(nèi)部的拓?fù)浣Y(jié)構(gòu)而言,偏重于分析該蛋白質(zhì)節(jié)點(diǎn)對蛋白質(zhì)復(fù)合物內(nèi)部的局部影響力,但對整個蛋白質(zhì)網(wǎng)絡(luò)而言,則需要分析該蛋白質(zhì)節(jié)點(diǎn)對整個網(wǎng)絡(luò)功能的全局影響力,因?yàn)橐粋€蛋白質(zhì)節(jié)點(diǎn)的失效,影響的不僅是其周邊與其直接相連的蛋白質(zhì)節(jié)點(diǎn),還可能會造成其他蛋白質(zhì)節(jié)點(diǎn)之間的連鎖反應(yīng),進(jìn)而影響整個蛋白質(zhì)網(wǎng)絡(luò)的功能。為此,本文在節(jié)點(diǎn)可達(dá)性的基礎(chǔ)上定義了蛋白質(zhì)網(wǎng)絡(luò)資本NC (Network Cost),用以描述整個蛋白質(zhì)網(wǎng)絡(luò)內(nèi)蛋白質(zhì)節(jié)點(diǎn)相互作用的強(qiáng)弱[2]。網(wǎng)絡(luò)資本NC公式如下:

  4.png

  蛋白質(zhì)網(wǎng)絡(luò)中的網(wǎng)絡(luò)資本是指整個網(wǎng)絡(luò)中所有蛋白質(zhì)節(jié)點(diǎn)的可達(dá)性之和,表明整個網(wǎng)絡(luò)內(nèi)所有蛋白質(zhì)節(jié)點(diǎn)之間的相互影響力。

 1.3關(guān)鍵蛋白質(zhì)節(jié)點(diǎn)集合

  關(guān)鍵蛋白質(zhì)集合是指使將某個節(jié)點(diǎn)失效后,蛋白質(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)資本下降到一定程度(閾值Tmin)時節(jié)點(diǎn)的集合。f(G)為蛋白質(zhì)網(wǎng)絡(luò)資本值下降函數(shù),Gc為G去掉節(jié)點(diǎn)集合c后的子網(wǎng),ΔfNC(Gc)為G變成Gc后網(wǎng)絡(luò)資本的改變值,使ΔfNC(Gc)→Tmin的網(wǎng)絡(luò)元素集合L=C。對于不同的蛋白質(zhì)網(wǎng)絡(luò),它們的拓?fù)浣Y(jié)構(gòu)有很大的差異,因此閾值Tmin必須根據(jù)具體的蛋白質(zhì)網(wǎng)絡(luò)來進(jìn)行確定,本文將閾值Tmin設(shè)置為0.3。

2基于網(wǎng)絡(luò)資本評估的節(jié)點(diǎn)重要性評價標(biāo)準(zhǔn)的有效性分析

  本章采用基于網(wǎng)絡(luò)資本評估的標(biāo)準(zhǔn)對經(jīng)典的ARPA網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)重要性評估以驗(yàn)證算法的有效性。ARPA(Advanced Research Project Agency)網(wǎng)絡(luò)是研究關(guān)鍵節(jié)點(diǎn)識別時常常使用的驗(yàn)證網(wǎng)絡(luò),該網(wǎng)絡(luò)包括21個節(jié)點(diǎn)和26條邊。ARPA網(wǎng)絡(luò)平均度值在2~3之間,大部分節(jié)點(diǎn)的度值為2。ARPA網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。

001.jpg

  圖1ARPA網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖ARPA網(wǎng)絡(luò)是驗(yàn)證節(jié)點(diǎn)重要性評價標(biāo)準(zhǔn)的經(jīng)典網(wǎng)絡(luò)。參考文獻(xiàn)[3]提出基于生成樹數(shù)目的節(jié)點(diǎn)重要性評價方法,依據(jù)節(jié)點(diǎn)為網(wǎng)絡(luò)提供最短可用路由的能力來進(jìn)行節(jié)點(diǎn)重要度評價。參考文獻(xiàn)[4]提出了一種利用節(jié)點(diǎn)間關(guān)聯(lián)特性的評價方法,通過定義Node Importance Contribution Matrix來評價網(wǎng)絡(luò)中不同節(jié)點(diǎn)間的連接關(guān)系對節(jié)點(diǎn)重要性的影響。首先依據(jù)參考文獻(xiàn)[3]、[4]中的評價標(biāo)準(zhǔn)分別對于ARPA網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)重要性評價,得到它們對于ARPA網(wǎng)絡(luò)中各個節(jié)點(diǎn)的權(quán)值。然后,在相同的實(shí)驗(yàn)條件下,采用本文中基于網(wǎng)絡(luò)資本評估的節(jié)點(diǎn)重要性評價標(biāo)準(zhǔn),得到該網(wǎng)絡(luò)中各個節(jié)點(diǎn)的權(quán)值。綜合以上3種方法得到的結(jié)果如表1所示。

002.jpg

  在表1中,參考文獻(xiàn)[3]得到網(wǎng)絡(luò)中最重要的6個關(guān)鍵節(jié)點(diǎn),其重要度按從大到小排序?yàn)椋汗?jié)點(diǎn)3、14、6、12、2、19,但對于節(jié)點(diǎn)7、8、9、10、11,其重要度均為0.879 7,無法區(qū)分排序。參考文獻(xiàn)[4]得到的節(jié)點(diǎn)重要度按從大到小排序?yàn)?、12、19、6、4、5、11、14、13、18、10、7等。本算法得到的12個重要節(jié)點(diǎn),其重要度按從大到小排序?yàn)椋汗?jié)點(diǎn)3、12、6、14、2、9、19、4、11、7、15、21。本算法得到的重要節(jié)點(diǎn)與參考文獻(xiàn)[3]有9個節(jié)點(diǎn)重合,與參考文獻(xiàn)[4]有8個節(jié)點(diǎn)重合;如果將參考文獻(xiàn)[3]和參考文獻(xiàn)[4]的結(jié)果合并,則本文得到的前10個重要節(jié)點(diǎn)都是重合的,而且3種算法得到的最關(guān)鍵的節(jié)點(diǎn)都是節(jié)點(diǎn)3。這說明本文采用的方法在網(wǎng)絡(luò)的節(jié)點(diǎn)重要度評估方面有很好的效果。本文算法給出了12個節(jié)點(diǎn)的重要度,占ARPA網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)的57%。

3結(jié)論

  本文提出一種衡量蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)重要性的標(biāo)準(zhǔn),用可達(dá)性具體度量每一個節(jié)點(diǎn)在網(wǎng)絡(luò)中的作用,通過分析節(jié)點(diǎn)失效后對整個網(wǎng)絡(luò)資本的影響能力,衡量該節(jié)點(diǎn)的重要性。通過簡單的實(shí)驗(yàn)分析,本文提出的標(biāo)準(zhǔn)可以準(zhǔn)確地識別出網(wǎng)絡(luò)中最重要的節(jié)點(diǎn),同時可以有效地分析出網(wǎng)絡(luò)中其他重要性比較靠前的節(jié)點(diǎn)。對大型蛋白質(zhì)網(wǎng)絡(luò)來說,關(guān)鍵蛋白質(zhì)的個數(shù)一般不超過蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)總數(shù)的20%,其中重要度位居前列的TOP 1%和TOP 5%的蛋白質(zhì)是網(wǎng)絡(luò)中最重要的蛋白質(zhì)節(jié)點(diǎn),對蛋白質(zhì)網(wǎng)絡(luò)整體功能影響最大。因此,本文的標(biāo)準(zhǔn)可以為進(jìn)一步研究關(guān)鍵蛋白質(zhì)的識別方法提供理論和實(shí)驗(yàn)的依據(jù)。

參考文獻(xiàn)

  [1] DA SILVA J P M, ACENCIO M L, MOMBACH J C M, et al. In silico network topologybased prediction of gene essentiality[J]. Physica A: Statistical Mechanics and its Applications, 2008, 387(4):10491055.

 ?。?] 黃金才,成清,劉彥君,等. 一種基于網(wǎng)絡(luò)資本評價的關(guān)鍵核挖掘方法[J].山東大學(xué)學(xué)報(工學(xué)版),2012,42(1):15.

 ?。?] 陳勇,胡愛群,胡俊,等. 通信網(wǎng)中最重要節(jié)點(diǎn)的確定方法[J].高技術(shù)通訊,2004,14(1):2124.

 ?。?] 趙毅寰,王祖林,鄭晶,等. 利用重要性貢獻(xiàn)矩陣確定通信網(wǎng)中最重要節(jié)點(diǎn)[J].北京航空航天大學(xué)學(xué)報,2009,35(9):10761079.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。