摘 要: 根據(jù)國際上最新提出的蛋白質(zhì)結(jié)構(gòu)預(yù)測問題的三維歐氏空間的連續(xù)模型,找到相應(yīng)的物理模型,并形成了相應(yīng)的擬物擬人算法" title="擬物擬人算法">擬物擬人算法。
關(guān)鍵詞: 蛋白質(zhì)結(jié)構(gòu)預(yù)測 擬物擬人算法 折疊 引力勢能
蛋白質(zhì)結(jié)構(gòu)預(yù)測問題是當(dāng)今最具有挑戰(zhàn)和研究價(jià)值的課題之一。蛋白質(zhì)工程正在發(fā)展成為可能影響人類生活許多方面的生物高技術(shù)。蛋白質(zhì)工程的根本目的就是希望能夠根據(jù)人類的需要設(shè)計(jì)并制造出具有特定功能的非天然蛋白質(zhì)。
蛋白質(zhì)的生物學(xué)功能取決于蛋白質(zhì)的空間折疊結(jié)構(gòu)。自上世紀(jì)50年代末以來,C.B.Anfinsen,K.A.Dill 及K.F.Lau等人[1~3]就發(fā)現(xiàn)蛋白質(zhì)的空間折疊結(jié)構(gòu)取決于構(gòu)成該蛋白質(zhì)的氨基酸的序列。也就是說蛋白質(zhì)的空間折疊結(jié)構(gòu)的全部信息都隱藏在蛋白質(zhì)線性結(jié)構(gòu)中,即氨基酸序列中。因此,從理論上講人們可以通過控制蛋白質(zhì)的氨基酸序列來控制蛋白質(zhì)的空間折疊結(jié)構(gòu),從而控制所設(shè)計(jì)制造出的蛋白質(zhì)的生物學(xué)功能。
1 用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的三維連續(xù)數(shù)學(xué)模型
連續(xù)模型[4]的描述為:對于任意給定的正整數(shù)n和任意地被確定了黑白顏色標(biāo)號(hào)分別為1,2,……n的n個(gè)半徑為0.5的小球(h代表黑球,p代表白球),如何調(diào)整這n個(gè)球的球心在三維歐氏空間中的位置,才能使這n個(gè)球兩兩互不嵌入,標(biāo)號(hào)相鄰的兩個(gè)球皆相切,并且使其按如下公式(1)計(jì)算處于能量最低的狀態(tài),即值越小越好。
?

此問題更為形式化的提法是尋求3n個(gè)實(shí)數(shù)x1,y1,z1,……xn,yn,zn,使其在如下約束關(guān)系(4),(5)得到滿足的條件下,(1)式達(dá)到最小值。

在此數(shù)學(xué)模型" title="數(shù)學(xué)模型">數(shù)學(xué)模型中,黑球h代表疏水氨基酸,白球p代表親水氨基酸;長度為n的黑白球序列代表蛋白質(zhì)氨基酸序列。數(shù)學(xué)模型(1)~(5)的解(x1,y1,z1,……xn,yn,zn)即為所求蛋白質(zhì)在三維空間中的折疊結(jié)構(gòu)。
2 求解蛋白質(zhì)結(jié)構(gòu)預(yù)測問題的擬物擬人算法
2.1 擬物算法的簡述
在C.B.Anfinsen,K.A.Dill及Hsian-Ping Hsu等人的原始發(fā)現(xiàn)和后續(xù)工作的基礎(chǔ)[1~4]之上,受到他們的啟發(fā)同時(shí)也觀察到他們在實(shí)際中所遇到的困難,結(jié)合作者自身NP-hard問題求解中的經(jīng)驗(yàn)[5~8]提出如下的物理模型:將(1)~(5)式中涉及到的n個(gè)半徑為0.5的球想象為光滑的彈性實(shí)體,想象第i個(gè)球與第i+1個(gè)球的球心之間有一根原始長度為1的彈簧相連(i=1,2,3,……n-1)。并且每個(gè)黑球和當(dāng)前所有小球形成的系統(tǒng)的幾何中心有一根原長為RR(RR為任意給的一個(gè)實(shí)數(shù))的彈簧相連。設(shè)想這n個(gè)球現(xiàn)在被隨機(jī)地撒在空間中。這樣整個(gè)系統(tǒng)就會(huì)具有如下能量:
?、倬幪?hào)不相鄰的小球之間的萬有引力所引起的引力勢能;
?、诰幪?hào)相鄰的三個(gè)小球之間的角度所引起的角度勢能;
?、劬幪?hào)相鄰的兩個(gè)小球之間的彈簧拉力所引起的彈簧勢能;
④編號(hào)不相鄰的兩個(gè)小球相互嵌入時(shí)所引起的嵌入勢能;
?、菝總€(gè)黑球和所有小球形成系統(tǒng)幾何中心彈簧拉力所引起的彈簧勢能。
在此過程中新加入的彈簧勢能③和嵌入勢能④的作用是在運(yùn)動(dòng)中逐漸使約束條件" title="約束條件">約束條件(4)和(5)得以滿足,而黑球和系統(tǒng)幾何中心的彈簧勢能是筆者在實(shí)踐工作中了解到黑球聚在一起時(shí)能量會(huì)更低些,因此這里加入了此能量來加快黑球聚攏。
在此擬物的思想下本文把在滿足(4)和(5)式的條件下求解(1)式的最小值轉(zhuǎn)換為求如下式子的最小值:

其中U1為(1)式中的能量E的值,n為黑白球總數(shù),m為黑球的總數(shù)。
2.2 模型中新加入的能量分析及其物理意義
(1)相鄰小球i和小球i+1之間的彈簧拉力所引起的彈簧勢能如下:
2.3 模型的求解方法
經(jīng)過以上的擬物處理后能量表達(dá)式(1)轉(zhuǎn)換為(6)式在三維歐氏(x1,y1,z1,……xn,yn,zn)空間無約束條件的情況下求最小值。這里采用沿梯度的反方向運(yùn)動(dòng)求其最小值。其體系的運(yùn)動(dòng)方程為:
2.4 跳坑的擬人策略
由于在計(jì)算過程中往往會(huì)遇到這樣的情況:各球均以其平衡位置為中心微幅振動(dòng),趨于靜止,并且滿足(4)和(5)這兩個(gè)約束條件,但是其能量很高,可以把這種情形看成是計(jì)算落入了局部極小值。
為解脫此種困境,純粹的擬物方法是重新選取初始值,然后進(jìn)行新一輪的擬物計(jì)算。這樣雖然具有最終的收斂性質(zhì),但是實(shí)算的經(jīng)驗(yàn)說明其效率是低的。此時(shí)好的辦法是提出一種有效的“跳出陷阱”的策略,將計(jì)算點(diǎn)從局部極小值的陷阱中取出,而置入更有前景的位置上,然后進(jìn)行新的擬物計(jì)算。這種“跳出陷阱”的策略可通過觀察與體會(huì)人類社會(huì)的生活經(jīng)驗(yàn)得出,因而被稱為擬人策略[8]。
在擁擠的公共汽車中,受擠壓者總是設(shè)法改換自己的位置。這里將n個(gè)小球和三維空間看成是一個(gè)公共汽車的車廂,于是對以上乘車現(xiàn)象的觀察啟發(fā)筆者得出以下策略。
計(jì)算出每個(gè)黑球和其他小球間的引力勢能,這樣一定有一個(gè)黑球S的引力勢能值最小,可以認(rèn)為它處于很舒服的地方因此不動(dòng)它。而其他的黑球按照它們相對于黑球S的引力勢能值越大被選中的概率也越大來選擇其中的一個(gè)黑球,這里給這個(gè)被選中的黑球和它相鄰的幾個(gè)小球的坐標(biāo)一個(gè)微小的變動(dòng)來破壞當(dāng)前的系統(tǒng),在此基礎(chǔ)上開始進(jìn)行擬物計(jì)算。
2.5 擬物擬人算法
(1)初始值的選取
對每一個(gè)小球以等概率產(chǎn)生0到1之間的三個(gè)隨機(jī)數(shù)α,β,γ,若其為黑球則用α*R,β*R,γ*R(R為任意給定的一個(gè)實(shí)數(shù))分別作為該球的x,y,z的坐標(biāo)。若為白球則用α*R+R,β*R+R及γ*R+R分別作為該球的x,y,z的坐標(biāo)。這樣所有的黑球落在半徑為R的球內(nèi),所有的白球落在半徑為R和半徑為2R的球環(huán)中" title="環(huán)中">環(huán)中。
(2)擬物擬人算法的流程
圖2為擬物擬人算法的流程圖。這里把任意一個(gè)時(shí)刻所有小球的坐標(biāo)(x1,y1,z1,……xn,yn,zn)稱為一個(gè)格局;UminA,UminB,UminC分別為格局A下、格局B下和格局C下按照公式(6)所求得的能量;Min為在自己的經(jīng)驗(yàn)和別人的成果[4]上根據(jù)小球的鏈長的不同為初始格局設(shè)置的門限值。一個(gè)初始格局經(jīng)過chances1次沒有找到比它能量更低的格局就認(rèn)為它很好,可以對它進(jìn)行跳坑處理,一個(gè)格局經(jīng)過chances2次跳坑還沒有找到比它能量更低的格局,就認(rèn)為它已經(jīng)無法改進(jìn)(count1和count2為計(jì)數(shù)器,chances1和chances2根據(jù)鏈長的不同設(shè)定)。
蛋白質(zhì)結(jié)構(gòu)預(yù)測問題現(xiàn)在國際上還沒有很成熟的算法。連續(xù)模型下的擬物擬人算法與近年國際學(xué)術(shù)界廣泛流行的模擬退火算法,遺傳算法" title="遺傳算法">遺傳算法[9~10]等有很好的相容性與互補(bǔ)性。希望在未來的工作中恰當(dāng)?shù)亟Y(jié)合退火和遺傳的思想,為蛋白質(zhì)的結(jié)構(gòu)預(yù)測問題設(shè)計(jì)出更有效的算法。
參考文獻(xiàn)
1 Anfinsen C.Principles That Govern the Folding of Protein Chains.Science 1973;(181):233
2 Dill K A.Dominant Forces in Protein Folding.Biochemistry,1990;(29):7133
3 Lau K F,Dill K A.A lattice Statistical Mechanics Model of the Conformation and Sequence Spaces of Proteins.Macro-molecules 1989(22):3986
4 Hsu HP,Mehra V,Grassberger P.Structure optimization in an off-lattice protein model.Phys.Rev.E68,037703(2003)
5 Wenqi H,Yan K.A heuristic Quasi-physical Strategy for Solving disks Packing Problem.Simulation Modeling Practice and Theory,2002;(10):195-207
6 Huai qing W,Wen qi H,zhang Q.An Improved Algo-rithm for the Packing Of Unequal Circles Within a Larger Containing Circle,European Journal of Operational Research,2002;(141):440-453
7 黃文奇,詹叔浩.求解packing問題的擬物方法.應(yīng)用數(shù)學(xué)學(xué)報(bào),1999;2(2.2)
8 黃文奇,許如初.支持求解圓形packing問題的兩個(gè)擬人策略.中國科學(xué),1999;29(4)
9 李世炳,鄒忠毅.簡介導(dǎo)引模擬退火法及其應(yīng)用.物理雙月刊.2002;24(2),307-319
10 倪紅春,衛(wèi)翼飛.基于遺傳算法的蛋白質(zhì)折疊模擬系統(tǒng).上海大學(xué)學(xué)報(bào)(自然科學(xué)版),2001;7(4),359-364

