文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212080
中文引用格式: 魏若冰,何家峰,邱曉芳,等. 基于SGCN的化合物致癌性預測模型[J].電子技術應用,2022,48(6):33-35,41.
英文引用格式: Wei Ruobing,He Jiafeng,Qiu Xiaofang,et al. Predict the carcinogenicity of compounds with SGCN[J]. Application of Electronic Technique,2022,48(6):33-35,41.
0 引言
由于技術的發(fā)展,新化合物的合成速度加快,每年誕生的化合物數(shù)以萬計[1-2],傳統(tǒng)的評價方法不可能對所有的化合物進行評估。并且近年來患癌人數(shù)不斷增多[3],目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導致的。世界衛(wèi)生組織國際癌癥機構(gòu)(IARC)致癌清單中只有429種化合物被歸為具有致癌性物質(zhì),但仍有500余種化合物未進行判定。傳統(tǒng)的化合物致癌性評估主要通過實驗測試進行,試驗周期長且成本昂貴,不確定因素過多,因此迫切需要開發(fā)替代方法和工具來評估化合物的致癌性。
利用計算機進行毒性預測[4]是安全評價的重要手段,能夠大幅度節(jié)省非臨床安全評價試驗成本,提高試驗設計的科學性和準確性。隨著機器學習的不斷發(fā)展,支持向量機(SVM)、隨機森林、神經(jīng)網(wǎng)絡(Random Forest)和K-最近鄰(KNN)等機器學習算法已被廣泛用于化合物毒性預測中[5-7]。此外,對致癌性化合物的預測也有一些報道。2004年,張曉昀等人[8]用人工神經(jīng)網(wǎng)絡中誤差反向傳播網(wǎng)絡(BPNN)和徑向基函數(shù)網(wǎng)絡(RBFNN)對化合物的致癌性強弱進行了分類,模型的分類準確率達到了80%以上;2005年,張振山等人[9]用PCA對分子描述符降維,利用決策森林的方法預測化合物致癌性;在2007年,謝瑩等人[10]基于gSpan算法,挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物,進行未知化合物的毒性預測;2017年,梁倩倩等人[11]基于量化構(gòu)效關系(QSAR)方法預測N-亞硝基化學物(NOCs)的致癌性,同年,閻愛俠等人[12]構(gòu)建化合物的多維描述符,分別采用4種機器學習方法(樸素貝葉斯、隨機森林、多層感知機和支持向量機),模型的平均正確率達到74%±3%。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004415。
作者信息:
魏若冰,何家峰,邱曉芳,劉 旗
(廣東工業(yè)大學 信息工程學院,廣東 廣州 510006)