文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.018
中文引用格式: 司明,李志華,劉定星. 數(shù)據(jù)壓縮在次聲監(jiān)測中的應用[J].電子技術(shù)應用,2016,42(11):70-73.
英文引用格式: Si Ming,Li Zhihua,Liu Dingxing. The application of data compression in infrasound monitoring[J].Application of Electronic Technique,2016,42(11):70-73.
0 引言
次聲波信號簡稱次聲信號,頻率范圍為10-4~20 Hz,具有頻率低、波長大、傳播距離遠、衰減小、穿透能力強等特點[1]。通過檢測和分析次聲信號對聲波源進行定位,研究次聲波的產(chǎn)生和傳播規(guī)律來揭示次聲波信號與對應事件的關(guān)聯(lián)性,達到監(jiān)測和預報事件的目的[2]。實踐證明,次聲監(jiān)測對自然災害、工業(yè)生產(chǎn)、交通運輸、人民的生命和財產(chǎn)安全等有著極其重要的意義。
隨著科技的不斷發(fā)展,次聲監(jiān)測的應用越來越廣泛,次聲監(jiān)測中數(shù)據(jù)量也急劇增加,人們面對傳輸、存儲及處理這些海量信息的壓力越來越大,所以進行數(shù)據(jù)壓縮成了一種迫切的需求,也是一種行之有效的方法[3]。次聲數(shù)據(jù)監(jiān)測儀器采集的數(shù)據(jù)存在大量冗余、密切相關(guān)等特點,為數(shù)據(jù)壓縮提供了可能。對這些次聲監(jiān)測儀器采集的數(shù)據(jù)進行壓縮,也可以充分應用傳輸和記錄信道,提高次聲監(jiān)測的效率[4]。
次聲數(shù)據(jù)壓縮與其他常見的數(shù)據(jù)壓縮有很多相似之處。早期人們使用變長碼編碼、香農(nóng)-范諾編碼以及去相關(guān)性的馬爾可夫模型等來壓縮聲波數(shù)據(jù);后來隨正交變換的出現(xiàn),將原始數(shù)據(jù)轉(zhuǎn)換為一組相關(guān)性很小的系數(shù),再對變換后的系數(shù)進行各種二次量化和編碼處理實現(xiàn)數(shù)據(jù)壓縮[5-6]。目前的研究結(jié)果表明,選擇合適的壓縮方法和參數(shù),壓縮數(shù)據(jù)產(chǎn)生的誤差比數(shù)據(jù)處理流程中引入的誤差還要小,而且壓縮比相比于無損壓縮要大很多[7]。這表明有損數(shù)據(jù)壓縮是可以用于數(shù)據(jù)處理和解釋階段的。
1 數(shù)據(jù)壓縮方法和原理
數(shù)據(jù)壓縮歸納起來可分為兩大類型:第一類為壓縮-存儲-回放系統(tǒng),通常又稱數(shù)字錄放系統(tǒng);第二類為壓縮-傳輸-解壓系統(tǒng),通常又稱數(shù)字通信系統(tǒng)[8]。兩種物理過程均可用圖1所示的數(shù)據(jù)壓縮系統(tǒng)模型來概括。
1.1 改進型離散余弦變換
改進型離散余弦變換(Modified Discrete Cosine Transform,MDCT)是將信號從一個域變換到一個域中,在該域中更容易完成壓縮。DCT屬于正交變換,正交變換實現(xiàn)數(shù)據(jù)壓縮的本質(zhì)是經(jīng)過多維坐標中適當?shù)男D(zhuǎn)和變換,把散布在各個坐標軸上的原始數(shù)據(jù)集中到新的、適當?shù)淖鴺讼抵械纳贁?shù)坐標軸上。DCT具有熵保持、解相關(guān)、能量重新分配和集中的特性。與其他5種正交變換(KLT、SLT、DFT、WHT和Haar)相比,DCT具有很好的性能,算法也相對簡便,實現(xiàn)成本低,所以被廣泛應用在信號處理中[9-10]。
次聲監(jiān)測數(shù)據(jù)的壓縮過程使用了一維離散余弦變換(1D-DCT)。1D-DCT的正交變換矩陣為:
因數(shù)據(jù)量大需分段作DCT,而相鄰段變換后數(shù)據(jù)邊界處存在不連續(xù)的“跳邊效應”,所以采用改進型離散余弦變換(MDCT)。即用長度為2M的矩形窗函數(shù)h(m)截取原始數(shù)據(jù)的2M個樣點,將截取的h(m)x(m)變換為:
改進型離散余弦反變換(IMDCT)為:
MDCT也稱余弦調(diào)制濾波器組,采用重疊轉(zhuǎn)換M個樣點的方法消除“跳邊效應”。該變換也有快速算法,不會因重復轉(zhuǎn)換樣點給整個數(shù)據(jù)壓縮系統(tǒng)附加運算量,而且性能好于DCT,可廣泛應用在聲頻壓縮中[11]。
1.2 壓擴量化
均勻量化的優(yōu)點是簡便,缺點是量化噪聲較大,用于量化MDCT的系數(shù)會影響數(shù)據(jù)壓縮質(zhì)量,所以選擇改善信噪比的非線性壓縮與擴張量化(簡稱壓擴量化)。壓擴量化是非均勻量化方法,即用一個非線性對數(shù)函數(shù)y=F(x)將信號“壓縮”后再作最佳量化,恢復時用反變換x=F-1(y)對量化值進行“擴展”得到重建數(shù)據(jù)。
壓擴量化在小信號域量化區(qū)間小,大信號域量化區(qū)間大。因為低電平信號出現(xiàn)概率大、量化噪聲小,高電平量化噪聲大、但出現(xiàn)概率小,所以可以提高數(shù)據(jù)量化后的信噪比[12]。目前國內(nèi)外常用?滋律和A律兩種對數(shù)壓擴量化器(歸一化)。
μ律曲線公式:
其中,A為壓擴參數(shù),通常取A=87.6,可以通過13或18折線逼近來實現(xiàn)。
μ律和A律的特性基本相同,只在小信號區(qū)μ律量化器的信噪比略高于A律量化器,但在大信號區(qū)則不如A律量化器。
1.3 Huffman編碼/譯碼
Huffman編碼相比于其他3種統(tǒng)計編碼(香農(nóng)-范諾編碼、游程編碼、算數(shù)編碼)的算法簡單,編碼效率高,Huffman譯碼是編碼的逆過程。編碼的方法步驟如下:
(1)將信源符號的概率按照由大到小的順序建立列表。
(2)取2個最小的概率進行組合相加,然后將組合后的概率之和作為新的符號概率,重復步驟(1)和(2),直到概率總和達到1為止。
(3)將每個組合中的上邊一個指定為0,下邊一個指定為1。
(4)構(gòu)造由概率1處到每個信源符號概率的編碼樹,順次記下編碼樹分支上的0和1,即為Huffman碼字。
為了提高編碼速度,采用自適應Huffman編碼,即從一顆空的Huffman編碼樹開始,隨著輸入符號的讀入和編碼、譯碼,不斷修改碼樹[13]。
2 數(shù)據(jù)壓縮和解壓設(shè)計
由于數(shù)據(jù)壓縮參數(shù)、應用環(huán)境、使用技術(shù)、應用目的等不同,數(shù)據(jù)壓縮系統(tǒng)的設(shè)計也是多種多樣的。
結(jié)合次聲信號的特點,以及監(jiān)測數(shù)據(jù)體信息冗余和互相關(guān)的特征,采用MDCT將次聲監(jiān)測數(shù)據(jù)體從時域轉(zhuǎn)換到另一域中。選用小信號域量化噪聲低的μ律量化器,對作MDCT后的系數(shù)進行二次“壓縮”及基于Max-Lloyd算法(簡稱M-L算法)的最佳量化。由于數(shù)據(jù)能量集中到了MDCT系數(shù)的前段部分,所以對MDCT系數(shù)進行量化時,保留百分之一數(shù)據(jù)長度的前段變換系數(shù),只對剩余的變換系數(shù)進行量化,這樣做可以有效降低量化噪聲,也不影響數(shù)據(jù)壓縮程度。最后通過自適應Huffman編碼,實現(xiàn)對次聲監(jiān)測數(shù)據(jù)的壓縮。解壓過程除去MDCT系數(shù)量化部分外,其他過程為上述逆過程。
設(shè)計選用MATLAB數(shù)據(jù)處理軟件實現(xiàn)對數(shù)據(jù)的轉(zhuǎn)換、量化、壓縮和解壓處理。整個設(shè)計框圖如圖2所示。
3 數(shù)據(jù)壓縮測試
3.1 壓縮系統(tǒng)評價指標
壓縮比(Compression Ratio,CR)是衡量數(shù)據(jù)壓縮系統(tǒng)性能好壞的一個重要指標。其定義為:
CR又稱bpc(bit per character),表示壓縮一個字符平均所需的比特數(shù)。以下測試是對次聲監(jiān)測數(shù)據(jù)文本文件的壓縮。
離散時間域重建數(shù)據(jù)的保真度常用信噪比SNR來度量,其計算公式為:
3.2 次聲監(jiān)測數(shù)據(jù)壓縮測試
取已有次聲監(jiān)測數(shù)據(jù),使用該數(shù)據(jù)壓縮系統(tǒng)對其進行壓縮處理。表1為對3個文件中的次聲監(jiān)測數(shù)據(jù)壓縮測試的結(jié)果。
從表1可以看出,該數(shù)據(jù)壓縮設(shè)計對原始數(shù)據(jù)文件進行壓縮后,信噪比都大于90 dB,并且文件2和文件3壓縮后數(shù)據(jù)量大幅減少,這樣可以很大程度地減輕后續(xù)數(shù)據(jù)存儲、傳輸和處理的壓力。
圖3~圖5是對這3個文件的原始波形、重建波形及其兩者誤差波形進行測試的結(jié)果。
從表1和圖3(c)可以看出,CR=2.52時信噪比高達113.7 dB,實現(xiàn)了對原始波形的高保真重建。隨著壓縮比的增大,原始波形與重建波形的誤差增大,信噪比降低。從圖5(b)看到,CR=9.56時,重建數(shù)據(jù)已經(jīng)開始濾掉原始數(shù)據(jù)中的高頻微弱信號,MDCT開始主要體現(xiàn)出濾波器組的作用,在有用信號電平很低時,選擇過高的壓縮比會造成有用信號的掉失,所以對壓縮比的選取應當小于10。圖6~圖8是對3個文件的原始數(shù)據(jù)和重建數(shù)據(jù)進行頻譜測試的結(jié)果。
從圖6和圖7可以看出原始數(shù)據(jù)和重建數(shù)據(jù)的頻譜相關(guān)性比較好,100 Hz以內(nèi)的波形基本無衰減。從圖8看到重建數(shù)據(jù)的頻譜從20 Hz開始衰減,到100 Hz時重建數(shù)據(jù)的頻率已經(jīng)基本衰減為零,但原始數(shù)據(jù)中還存在20 Hz~100 Hz的信號,很明顯地看出該壓縮系統(tǒng)在較大壓縮比情況下,衰減甚至濾掉了信號帶寬以外的較高頻信號。
4 小結(jié)
改進型離散余弦變換、非線性壓擴量化和霍夫曼編碼相結(jié)合的數(shù)據(jù)壓縮技術(shù),相比于其他聲波壓縮技術(shù)更適用于低頻的次聲波數(shù)據(jù)壓縮。該技術(shù)在CR≤10時,不僅實現(xiàn)了對次聲監(jiān)測數(shù)據(jù)的低失真壓縮處理,而且濾掉了信號中的高頻干擾,保存了次聲波帶寬內(nèi)的有用信號。
參考文獻
[1] 李彥,歐陽紅群,劉小偉.次聲波簡易監(jiān)測方法及分析[J].物理實驗,2010,30(10):40-43.
[2] 楊慶生,張少偉,夏雅琴.不同地域前次聲波異常信號的分析[J].北京工業(yè)大學學報,2016,42(2):167-168.
[3] 吳家安.數(shù)據(jù)壓縮技術(shù)及應用[M].北京:科學出版社,2009.
[4] Khalid Sayood.Introduction to data compression[M].Harbin:Harbin Industrial University Press,2014.
[5] 張俊蘭,周峰.數(shù)據(jù)壓縮的發(fā)展歷程[J].延安大學學報(自然科學版),2008,27(3):24-27.
[6] 杜美華,孫建英.正交變換的幾何意義及其應用[J].哈爾濱師范大學自然科學學報,2014,30(3):36-39.
[7] 胡麗麗,李杰.數(shù)據(jù)采集存儲系統(tǒng)無損壓縮算法的設(shè)計與實現(xiàn)[J].計算機測量與控制,2010,18(12):2833-2835.
[8] 吳樂南.數(shù)據(jù)壓縮(第三版)[M].北京:電子工業(yè)出版社,2012.
[9] Shaban Al-Ani Muzhir,Abd Rajab Maha.Biometrics hand geometry using Discrete Cosine Transform(DCT)[J].Science and Technology,2013,3(4):34-37.
[10] 張婧,徐國根.基于DCT的遙感圖像壓縮算法應用[J].航空電子技術(shù),2015,46(1):25-28.
[11] 閆保中,劉泥石.一種有效的MDCT/IMDCT快速算法[J].應用科技,2011,38(3):12-15.
[12] 賈瑞蓮,肖沙里,郭成.A律語音壓縮編解碼器的FPGA實現(xiàn)[J].重慶工商大學學報,2016,33(1):59-64.
[13] 劉政.一種自適應Huffman算法在無線傳感器網(wǎng)絡數(shù)據(jù)壓縮的應用[J].重慶理工大學學報,2013,27(2):84-89.