自基因測序技術(shù)被發(fā)明以來,建設(shè)人類基因組數(shù)據(jù)庫一直是各國基因組研究中心的核心內(nèi)容之一,人類基因組數(shù)據(jù)庫的宗旨是為從事人類基因組研究的科學(xué)家和醫(yī)護人員提供人類基因組信息。目前國際上人類基因組數(shù)據(jù)大多來源于西方白種人,然而不同人種的進化差異會導(dǎo)致明顯的易感基因差異、特異性位點突變頻率不同、基因突變表觀差異等,因此在我國分子診斷與精準醫(yī)學(xué)飛速發(fā)展的背景下,建立高質(zhì)量的中國人群基因組數(shù)據(jù)庫已經(jīng)成為當(dāng)下制約分子醫(yī)學(xué)發(fā)展的重要壁壘。今年兩會上,委員也建議應(yīng)盡快建立精準醫(yī)學(xué)資源庫,整合共享醫(yī)療大數(shù)據(jù),促進精準醫(yī)學(xué)更好的發(fā)展。
貝瑞和康作為致力于將高通量測序技術(shù)實現(xiàn)臨床轉(zhuǎn)化的行業(yè)領(lǐng)導(dǎo)者,早在2015年8月14日宣布與云計算服務(wù)平臺提供商阿里云達成合作,共同打造以海量的中國人群基因組數(shù)據(jù)為核心的數(shù)據(jù)云,實現(xiàn)對個人基因組數(shù)據(jù)的精準解讀。該項目由美國貝勒醫(yī)學(xué)院、現(xiàn)任職貝瑞和康CIO的于福利教授牽頭,參與“神州基因組數(shù)據(jù)云”項目的研究人員達到了100多人,由醫(yī)學(xué)、分子生物學(xué)、遺傳學(xué)、計算機編程等研究領(lǐng)域的博士組成。項目組分成三個團隊,一個是貝瑞和康的研究團隊,一個是于福利在貝勒實驗室的團隊,另外一個則是專門做高性能運算的阿里云團隊。
神州基因組數(shù)據(jù)云,是一個知識密集型項目。
阿里云擁有批量計算服務(wù)的強大能力,貝瑞和康則深耕基因檢測多年已積累超過百萬人群基因組數(shù)據(jù),此次選取其中四十萬人份數(shù)據(jù)作為“神州基因組數(shù)據(jù)云”項目的第一階段數(shù)據(jù),旨在借助云計算對該數(shù)據(jù)資源進行深入挖掘,進一步揭示中國人群遺傳突變分布,提升中國人遺傳疾病診斷的效率和精準程度。
當(dāng)基因測序成本迅速下降以后,擁有數(shù)據(jù)量的多少不再是行業(yè)里唯一的競爭優(yōu)勢,而是否能夠?qū)⒑A康拇髷?shù)據(jù)進行解讀,轉(zhuǎn)換成具體能夠應(yīng)用的有效信息,才是測序企業(yè)發(fā)展的核心競爭力。光有云計算能力和基因組數(shù)據(jù)還不夠,分析和注釋技術(shù)是能否達成項目目標(biāo)的內(nèi)在核心驅(qū)動力。該項目發(fā)布一年后,也即2016年8月24日貝瑞和康公布了為基因數(shù)據(jù)分析開發(fā)的兩大核心專利技術(shù):Verita Trekker?變異位點檢測系統(tǒng)和Enliven?變異位點注釋系統(tǒng)。
Verita Trekker?經(jīng)過嚴格的基因型質(zhì)量控制,SNP 檢測的靈敏度達99.00%,特異性達99.99%,真陽性率達99.90%;Indel 檢測的真陽性率達88.00%;家系樣本基因型真陽性率大于99.90%;各項指標(biāo)均屬國際業(yè)界一流水平。而Enliven?則通過統(tǒng)計學(xué)計算和文本挖掘方法整合國際權(quán)威的超過50個數(shù)據(jù)庫和預(yù)測算法,其中也包括“神州基因組數(shù)據(jù)云”項目所產(chǎn)生的中國人特有基因信息數(shù)據(jù)庫。同時,支持千萬篇文獻的即時查找,全面覆蓋基因、變異、表型、疾病信息,參考權(quán)威文獻、美國醫(yī)學(xué)遺傳學(xué)學(xué)會(ACMG)標(biāo)準與實際基因型-表型對應(yīng),在這樣完善的體系和先進的算法的保障下,能夠出具可靠的變異致病性結(jié)果,為科研工作者和臨床醫(yī)生更好的研究和制定精準醫(yī)療方案提供幫助。
在Verita Trekker?和Enliven?兩大核心技術(shù)共同驅(qū)動下的“神州基因組數(shù)據(jù)云”項目取得了階段性的重要成果。2016年9月8日,貝瑞和康已完成世界首個中國人群基因組數(shù)據(jù)庫建設(shè),填補了國際基因數(shù)據(jù)庫中缺少中國人群特有基因組數(shù)據(jù)信息的空白。
同年9月23日,在第十九屆全國臨床腫瘤學(xué)大會暨CSCO學(xué)術(shù)年會上,貝瑞和康進一步展示了該項目的重要成果應(yīng)用。這其中包括與北京大學(xué)腫瘤醫(yī)院解云濤教授合作的“中國人遺傳性乳腺癌基因突變圖譜項目”,以及中國40萬人基因組大數(shù)據(jù)項目在臨床應(yīng)用層面上所取得的階段性成果,結(jié)果顯示中國人乳腺癌基因突變和其他人種相比具有顯著性差異。
項目由解云濤教授和于福利教授共同展示,可以看到采用Enliven?變異位點注釋系統(tǒng)對美國國家衛(wèi)生研究院的相關(guān)項目中的BRCA1、BRCA2基因的2152個位點進行注釋,將注釋結(jié)果與以往報告結(jié)果對比,PPV(陽性預(yù)測值)達到99.3%,充分驗證了Enliven?注釋和解讀能力的準確性。在此基礎(chǔ)上,貝瑞和康將自建的中國人基因組數(shù)據(jù)庫與萬例婦科腫瘤患者的基因數(shù)據(jù)進行整合,建設(shè)成為全球最大的婦科腫瘤基因組數(shù)據(jù)庫。
現(xiàn)在,神州基因組數(shù)據(jù)云項目仍在進行中,中國人群的基因組大數(shù)據(jù)正在成倍累積增長。受益于測序成本下降,降低獲得大量數(shù)據(jù)的難度,因此只要在數(shù)據(jù)解讀能力上快速突破,中國非常有可能在生物基因信息解讀這一領(lǐng)域?qū)崿F(xiàn)彎道超車。
“神州基因組數(shù)據(jù)云”項目的另一層意義則與我國醫(yī)療政策中正在力推的分級診療政策息息相關(guān)。通過與專家合作,大數(shù)據(jù)體系為90%以上的醫(yī)院提供解讀能力,這將對基層臨床產(chǎn)生重要的指導(dǎo)意義??梢韵胂螅谌木€城市,醫(yī)生利用該數(shù)據(jù)云平臺分析基因測序數(shù)據(jù),在當(dāng)?shù)乜梢垣@得同樣質(zhì)量的檢測分析,獲得和在大城市大醫(yī)院同等質(zhì)量的報告,就能夠進一步促進實現(xiàn)分級診療。于福利教授展望道。