引 言
隨著現(xiàn)代技術(shù)的發(fā)展,作為現(xiàn)代高科技代表的航天工程,對(duì)星載計(jì)算機(jī)的依賴(lài)程度也越來(lái)越高。由于宇宙中存在著大量的帶電粒子,星載計(jì)算機(jī)硬件系統(tǒng)的電子器件會(huì)受到電磁場(chǎng)的輻射和重粒子的沖擊,其相互作用產(chǎn)生各種效應(yīng),其中單粒子反轉(zhuǎn)(SEU)效應(yīng)的影響尤為明顯,它將引起衛(wèi)星工作的異?;蚬收?。這種錯(cuò)誤若不及時(shí)進(jìn)行糾正,將會(huì)影響計(jì)算機(jī)系統(tǒng)的運(yùn)行和關(guān)鍵數(shù)據(jù)的正確性,造成程序運(yùn)行不穩(wěn)定和設(shè)備狀態(tài)改變。
1 糾錯(cuò)原理
漢明碼(Hamming Code)是由Richard Hamming于1950年提出的,屬于線(xiàn)性分組碼的范疇,其基本原理是將信息碼元與監(jiān)督碼元通過(guò)線(xiàn)性方程式聯(lián)系起來(lái)的,每一個(gè)監(jiān)督位被編在傳輸碼字的特定比特位置上。系統(tǒng)對(duì)于錯(cuò)誤的數(shù)位無(wú)論是原有信息位中的,還是附加監(jiān)督位中的都能把它分離出來(lái)。(n,k)線(xiàn)性分組碼的生成矩陣G和校驗(yàn)矩陣H分別為n×k和n×(n-k)維矩陣,其中校驗(yàn)矩陣H決定信息位與校驗(yàn)位的關(guān)系,在編碼和譯碼中都要用到。線(xiàn)性碼的最小碼距為d,即校驗(yàn)矩陣H中任意d-1列線(xiàn)性無(wú)關(guān),它與碼的糾錯(cuò)能力有以下關(guān)系:
(1)檢測(cè)P個(gè)隨機(jī)錯(cuò)誤,要求d≥e+1;
(2)糾t個(gè)隨機(jī)錯(cuò)誤,要求d≥2t+1;
(3)糾t個(gè)隨機(jī)錯(cuò)誤,同時(shí)檢測(cè)e(e≥t+1)個(gè)隨機(jī)錯(cuò)誤,要求d≥e+t+1。
作為一種典型的線(xiàn)性分組碼,標(biāo)準(zhǔn)漢明碼的碼長(zhǎng)n=2m-1,監(jiān)督位數(shù)為m,信息位數(shù)為k=n-m,最小碼距d=3,因此它的糾錯(cuò)能力t=1,是一種常用糾單個(gè)位錯(cuò)誤的編碼方式。還可以根據(jù)需要對(duì)標(biāo)準(zhǔn)漢明碼進(jìn)行擴(kuò)展,增加1個(gè)校驗(yàn)位對(duì)所有位進(jìn)行監(jiān)測(cè),就得到擴(kuò)展?jié)h明碼。1個(gè)(n,k)漢明碼經(jīng)過(guò)擴(kuò)展以后,就變成了(n+1,k)漢明碼。擴(kuò)展以后的漢明碼d=4,t=2,e=1,可以糾正單個(gè)位錯(cuò)誤,并檢測(cè)出雙位的錯(cuò)誤。對(duì)64位的數(shù)據(jù)進(jìn)行糾錯(cuò)設(shè)計(jì),滿(mǎn)足信息位數(shù)大于64要求的最短的標(biāo)準(zhǔn)漢明碼為n=26-1時(shí)的(127,120)碼,它具有7個(gè)監(jiān)督校驗(yàn)位。根據(jù)漢明碼信息位刪減后其糾錯(cuò)能力較之前不會(huì)降低的特性,將該碼的信息位縮短為64位,使用了(71,64)的刪減漢明碼。這里設(shè)計(jì)了一種7個(gè)校驗(yàn)位同64個(gè)信息位的對(duì)應(yīng)計(jì)算關(guān)系如圖1所示。
圖1中DA0~DA63為信息位;CC0~CC6為監(jiān)督校驗(yàn)位。其中CCO是所有位于編號(hào)末位數(shù)為1列中信息位數(shù)據(jù)的奇偶校驗(yàn)計(jì)算結(jié)果。與之類(lèi)似,CCl對(duì)應(yīng)于所有位于編號(hào)次低位數(shù)為1列中的信息位。同理,CC3~CC6分別對(duì)應(yīng)了行號(hào)各位數(shù)為1行中的信息位數(shù)據(jù)。通過(guò)這個(gè)對(duì)應(yīng)關(guān)系表,可以得出整個(gè)漢明碼的生成公式:
M=DG
式中:M為生成的(71,64)漢明碼矩陣,每個(gè)行向量是一組漢明碼;D為信息位數(shù)據(jù)矩陣行,64個(gè)信息位組成一個(gè)行向量;G成為漢明碼生成矩陣,可以根據(jù)上述的對(duì)應(yīng)計(jì)算關(guān)系得出來(lái)。
當(dāng)執(zhí)行糾錯(cuò)功能時(shí),需要同時(shí)讀取數(shù)據(jù)位和監(jiān)督校驗(yàn)位,并且對(duì)所讀取的數(shù)據(jù)位按照校驗(yàn)位的生成算法重新進(jìn)行1次校驗(yàn)位的生成(可以用NCC0~NCC6來(lái)表示),通過(guò)CC0~CC6和NCCO~NCC6的比對(duì)來(lái)進(jìn)行檢錯(cuò)糾錯(cuò)運(yùn)算。如果發(fā)生1位數(shù)據(jù)翻轉(zhuǎn)錯(cuò)誤,則新生成的校驗(yàn)位NCC中會(huì)有若干位同原先的CC校驗(yàn)位相異,通過(guò)相異的位可以對(duì)數(shù)據(jù)進(jìn)行糾錯(cuò)。假設(shè)目前檢測(cè)出CCl,CC2,CC4,CC5這4個(gè)校驗(yàn)位同新生成的NCC中對(duì)應(yīng)位的異或運(yùn)算結(jié)果為1,如圖2中細(xì)箭頭所示。
CCl校驗(yàn)位相異對(duì)應(yīng)出錯(cuò)數(shù)據(jù)位列號(hào)倒數(shù)第二位為1;CC2對(duì)應(yīng)列號(hào)倒數(shù)第3位為1,可以推出錯(cuò)誤數(shù)據(jù)位的列號(hào)為110,同理行號(hào)相關(guān)的幾個(gè)校驗(yàn)位中CC4,CC5出現(xiàn)相異可以推出錯(cuò)誤數(shù)據(jù)位的行號(hào)為0110,由此可以知道出錯(cuò)的數(shù)據(jù)位是DA22,再對(duì)確認(rèn)出錯(cuò)的數(shù)據(jù)位取反就實(shí)現(xiàn)了糾正1位錯(cuò)誤的功能。而如果出現(xiàn)2位錯(cuò)誤,比如數(shù)據(jù)位DAl和DA34同時(shí)出錯(cuò),如圖2中所示,這會(huì)引起新老校驗(yàn)位中的CC0,CCl,CC3,CC4,CC6同時(shí)出現(xiàn)相異。這時(shí)如果還按照上述糾正1位錯(cuò)誤時(shí)的算法,就會(huì)推出出錯(cuò)數(shù)據(jù)位的行號(hào)為1011列號(hào)為011,這樣,就會(huì)認(rèn)為是數(shù)據(jù)為DA51發(fā)生了翻轉(zhuǎn),從而產(chǎn)生錯(cuò)誤的檢糾錯(cuò)結(jié)果,如圖2中粗箭頭所示。以前的測(cè)試數(shù)據(jù)表明,若在近地軌道中,SRAM存儲(chǔ)器中的每一個(gè)存儲(chǔ)數(shù)據(jù)位一天之內(nèi)發(fā)生SEU概率約是10-7(位·天),則可以推導(dǎo)出這個(gè)SRAM中1組64位的數(shù)據(jù),在一天時(shí)間內(nèi)有2位同時(shí)出現(xiàn)錯(cuò)誤的可能性約為10-10(次·天),在南大西洋輻射異常區(qū)和太陽(yáng)活動(dòng)高峰期,這種情況的發(fā)生率可能還會(huì)提高1~2個(gè)數(shù)量級(jí)。
為了避免在發(fā)生雙位元錯(cuò)誤時(shí)出現(xiàn)錯(cuò)檢錯(cuò)糾的情況,需要增加1個(gè)校驗(yàn)位CC7,它是所有數(shù)據(jù)位的奇偶校驗(yàn)結(jié)果,即CC7=DA0⊕DAl⊕DA2⊕DA3⊕…⊕DA63。這樣在每次出現(xiàn)1個(gè)數(shù)據(jù)位錯(cuò)誤時(shí),新生成的NCC7也都會(huì)與先前的值相異,而當(dāng)數(shù)據(jù)位中有2個(gè)存儲(chǔ)單元出錯(cuò),其他校驗(yàn)位會(huì)檢測(cè)有錯(cuò)誤出現(xiàn),但NCC7不會(huì)發(fā)生變化,NCC7⊕CC7=0,這時(shí)就可以判斷出有雙位錯(cuò)誤,從而使系統(tǒng)實(shí)現(xiàn)了檢測(cè)雙位錯(cuò)誤的功能。
2 設(shè)計(jì)實(shí)現(xiàn)
將所有與主存儲(chǔ)器中數(shù)據(jù)一一對(duì)應(yīng)的校驗(yàn)位(CCl~CC8)存儲(chǔ)在另一個(gè)獨(dú)立的8位SRAM中,系統(tǒng)的硬件結(jié)構(gòu)如圖3所示。
存儲(chǔ)校驗(yàn)位的8位數(shù)據(jù)SRAM2同樣遇到出現(xiàn)SEU效應(yīng)得可能,通過(guò)分析可以知道,SRAM2出現(xiàn)1位數(shù)據(jù)翻轉(zhuǎn)時(shí),只有對(duì)應(yīng)的一位數(shù)值與通過(guò)數(shù)據(jù)位新生成的校驗(yàn)位數(shù)值相異,而其他的7個(gè)校驗(yàn)位數(shù)據(jù)都沒(méi)有變化,此時(shí)對(duì)對(duì)應(yīng)的校驗(yàn)位取反就實(shí)現(xiàn)了糾錯(cuò)功能。對(duì)于出現(xiàn)雙位元錯(cuò)誤的可能,通過(guò)理論分析,可以知道一組8位的校驗(yàn)數(shù)據(jù)在一天中出現(xiàn)這種情況的概率約為7×10-13。,相比于主存儲(chǔ)器而言降低了兩三個(gè)數(shù)量級(jí),暫時(shí)可以不予考慮。
FPGA的檢糾錯(cuò)邏輯設(shè)計(jì)采用VHDL語(yǔ)言實(shí)現(xiàn)。設(shè)計(jì)使主存儲(chǔ)器SRAMl中的64位數(shù)據(jù)新生成的NCC[7:0]與SRAM2中的7位校驗(yàn)位CC[7:0]一起經(jīng)過(guò)異或運(yùn)算,生成8位的校正子,其中前7位就對(duì)應(yīng)于前述定位錯(cuò)誤數(shù)據(jù)的行號(hào)和列號(hào)的值,第8位用于判斷是否出現(xiàn)雙位元錯(cuò)誤。8位校驗(yàn)子的值可以求出1個(gè)64位糾錯(cuò)掩碼(Mask),用以校正單位元錯(cuò)誤。如果未檢測(cè)到錯(cuò)誤,此掩碼的所有位都為零。如果檢測(cè)到單位元錯(cuò)誤,相應(yīng)掩碼會(huì)屏蔽除錯(cuò)誤位之外的所有位。下一階段,使用原始數(shù)據(jù)對(duì)此掩碼進(jìn)行異或運(yùn)算。最終,錯(cuò)誤位被反轉(zhuǎn)(或校正)至正確狀態(tài)。如果檢測(cè)到雙位元錯(cuò)誤,所有掩碼位也都為零。使用1個(gè)雙位的數(shù)組(ER[1,O])用于報(bào)告檢測(cè)的錯(cuò)誤類(lèi)型(“OO”表示無(wú)錯(cuò)、“01”表示單位元錯(cuò)誤、“10”表示雙位錯(cuò)誤、“11”表示無(wú)法判斷的多位錯(cuò)誤)。整個(gè)糾錯(cuò)邏輯的工作過(guò)程如圖4所示。生成錯(cuò)誤類(lèi)型報(bào)告數(shù)組和相應(yīng)的校正掩碼的工作都在同一時(shí)鐘周期內(nèi)完成,體現(xiàn)了采用FPGA進(jìn)行并行處理的獨(dú)特優(yōu)勢(shì)。
3 結(jié) 語(yǔ)
對(duì)綜合后進(jìn)行仿真的結(jié)果進(jìn)行分析,期間人為地加入1位、2位、3位隨機(jī)分布的數(shù)據(jù)位錯(cuò)誤,該系統(tǒng)能夠在2個(gè)系統(tǒng)時(shí)鐘周期內(nèi)對(duì)1位錯(cuò)誤的情況成功地檢測(cè)并予以糾正;對(duì)2位和3位錯(cuò)誤情況也都進(jìn)行了正確的類(lèi)別判定。仿真結(jié)果表明,設(shè)計(jì)的系統(tǒng)比較理想,能滿(mǎn)足設(shè)計(jì)要求。