中文引用格式: 楊波,徐勝超,周繼鵬,等. 一種基于Yarn云平臺(tái)的基因啟發(fā)式多序列比對(duì)算法[J]. 電子技術(shù)應(yīng)用,2024,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,Zhou Jipeng,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,50(11):16-22.
引言
生物序列對(duì)比是生物信息學(xué)領(lǐng)域的核心內(nèi)容。由于不同物種的基因序列長(zhǎng)度不同,大量的重復(fù)序列高頻率出現(xiàn)在每個(gè)物種的基因組中,因此每個(gè)物種都有一個(gè)多序列比對(duì)問題。最重要的工作是建立基因數(shù)據(jù)庫,在基因數(shù)據(jù)庫的建立過程中,對(duì)于基因啟發(fā)式的多序列比對(duì)研究是重中之重。在比對(duì)的過程中,通過比較不同物種或同一物種不同基因的DNA序列,基因啟發(fā)式多序列比對(duì)算法有助于理解基因的進(jìn)化歷史、功能和結(jié)構(gòu),通過比對(duì)多個(gè)基因序列的相似性和差異性,可以推斷出這些物種之間的進(jìn)化關(guān)系,從而了解物種之間是否有親緣關(guān)系和演化到目前為止的歷程?;騿l(fā)式多序列比對(duì)算法可以找出多個(gè)基因序列之間的共同結(jié)構(gòu)和功能區(qū)域,這有助于預(yù)測(cè)新的基因功能,為藥物設(shè)計(jì)和疾病治療提供重要信息??傊騿l(fā)式多序列對(duì)比算法可以揭示基因的多種特點(diǎn)和規(guī)律,為生物學(xué)、醫(yī)學(xué)和農(nóng)業(yè)等領(lǐng)域的研究提供重要支持。
國(guó)內(nèi)外眾多學(xué)者都對(duì)基因比對(duì)算法有著深入研究。文獻(xiàn)[1]提出了一種基于序列長(zhǎng)度的高效多序列比對(duì)算法,該算法首先根據(jù)基因序列的長(zhǎng)度將其劃分為若干段,然后對(duì)每個(gè)分段排序,并與原始序列比對(duì)。文獻(xiàn)[2]介紹了一種基于時(shí)間窗的DNA序列分段方法,該方法的核心步驟是將DNA序列依據(jù)其長(zhǎng)度切割成多個(gè)區(qū)間,并對(duì)這些區(qū)間逐一比較分析。而文獻(xiàn)[3]則側(cè)重于基因序列比對(duì)原理的探討,通過引入Logistic映射對(duì)混沌遺傳算法的優(yōu)化,有效提升了算法的收斂速度。在算法設(shè)計(jì)中,它明確了基因序列的遺傳編碼方式,并計(jì)算了相應(yīng)的適應(yīng)度值,同時(shí)考慮了堿基缺失情況的影響。此外,文中還設(shè)計(jì)了混沌遺傳算子,實(shí)施了混沌變異操作,從而實(shí)現(xiàn)了基因序列的比對(duì)。文獻(xiàn)[4]則提出了一種基于啟發(fā)式策略的多序列比對(duì)算法。該算法首先利用啟發(fā)式策略對(duì)多個(gè)基因排序,然后將所有排序后的結(jié)果比對(duì)。然而,DNA序列比對(duì)算法在實(shí)踐中也面臨一些挑戰(zhàn)。由于DNA序列通常較長(zhǎng)且序列間重疊率高,傳統(tǒng)的比對(duì)算法往往耗時(shí)較長(zhǎng)。同時(shí),由于DNA序列的穩(wěn)定性以及比對(duì)結(jié)果的單一性,基因數(shù)據(jù)信息在比對(duì)過程中損失較大,這在一定程度上影響了比對(duì)的準(zhǔn)確性。因此,如何快速且準(zhǔn)確地完成多個(gè)基因的比對(duì),成為當(dāng)前亟待解決的問題[5-8]。
云平臺(tái)能夠共享龐大的計(jì)算資源,并以服務(wù)的形式提供給用戶,讓用戶能夠按需靈活使用。Yarn云平臺(tái)是云計(jì)算Apache Hadoop2.0生態(tài)系統(tǒng)中的一個(gè)關(guān)鍵組件,是用于資源管理和作業(yè)調(diào)度的分布式計(jì)算框架。利用Yarn在云環(huán)境中提供資源分配、作業(yè)調(diào)度和容錯(cuò)能力,使用戶能夠高效地利用云計(jì)算提供的計(jì)算能力。本文提出了一種基于Yarn云平臺(tái)的基因啟發(fā)式多序列比對(duì)算法,旨在提高比對(duì)效率和準(zhǔn)確性。結(jié)合生物知識(shí)建立基因啟發(fā)式數(shù)學(xué)模型,構(gòu)建Yarn云平臺(tái)邏輯架構(gòu),針對(duì)處理后的數(shù)據(jù)并行計(jì)算,提高處理效率,利用HBase數(shù)據(jù)庫和基因段編碼模塊對(duì)數(shù)據(jù)的存儲(chǔ)和處理,將序列比對(duì)的結(jié)果展示在數(shù)據(jù)庫中。通過實(shí)驗(yàn)結(jié)果可知,本文的方法運(yùn)行時(shí)間較短且SP分值高于0.9,具有良好的應(yīng)用性能。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000006204
作者信息:
楊波1,徐勝超1,周繼鵬2,王志堅(jiān)1
(1.廣州華商學(xué)院 人工智能學(xué)院, 廣東 廣州511300;
2.暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院, 廣東 廣州510632)