文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.018
中文引用格式: 司明,李志華,劉定星. 數(shù)據(jù)壓縮在次聲監(jiān)測(cè)中的應(yīng)用[J].電子技術(shù)應(yīng)用,2016,42(11):70-73.
英文引用格式: Si Ming,Li Zhihua,Liu Dingxing. The application of data compression in infrasound monitoring[J].Application of Electronic Technique,2016,42(11):70-73.
0 引言
次聲波信號(hào)簡(jiǎn)稱(chēng)次聲信號(hào),頻率范圍為10-4~20 Hz,具有頻率低、波長(zhǎng)大、傳播距離遠(yuǎn)、衰減小、穿透能力強(qiáng)等特點(diǎn)[1]。通過(guò)檢測(cè)和分析次聲信號(hào)對(duì)聲波源進(jìn)行定位,研究次聲波的產(chǎn)生和傳播規(guī)律來(lái)揭示次聲波信號(hào)與對(duì)應(yīng)事件的關(guān)聯(lián)性,達(dá)到監(jiān)測(cè)和預(yù)報(bào)事件的目的[2]。實(shí)踐證明,次聲監(jiān)測(cè)對(duì)自然災(zāi)害、工業(yè)生產(chǎn)、交通運(yùn)輸、人民的生命和財(cái)產(chǎn)安全等有著極其重要的意義。
隨著科技的不斷發(fā)展,次聲監(jiān)測(cè)的應(yīng)用越來(lái)越廣泛,次聲監(jiān)測(cè)中數(shù)據(jù)量也急劇增加,人們面對(duì)傳輸、存儲(chǔ)及處理這些海量信息的壓力越來(lái)越大,所以進(jìn)行數(shù)據(jù)壓縮成了一種迫切的需求,也是一種行之有效的方法[3]。次聲數(shù)據(jù)監(jiān)測(cè)儀器采集的數(shù)據(jù)存在大量冗余、密切相關(guān)等特點(diǎn),為數(shù)據(jù)壓縮提供了可能。對(duì)這些次聲監(jiān)測(cè)儀器采集的數(shù)據(jù)進(jìn)行壓縮,也可以充分應(yīng)用傳輸和記錄信道,提高次聲監(jiān)測(cè)的效率[4]。
次聲數(shù)據(jù)壓縮與其他常見(jiàn)的數(shù)據(jù)壓縮有很多相似之處。早期人們使用變長(zhǎng)碼編碼、香農(nóng)-范諾編碼以及去相關(guān)性的馬爾可夫模型等來(lái)壓縮聲波數(shù)據(jù);后來(lái)隨正交變換的出現(xiàn),將原始數(shù)據(jù)轉(zhuǎn)換為一組相關(guān)性很小的系數(shù),再對(duì)變換后的系數(shù)進(jìn)行各種二次量化和編碼處理實(shí)現(xiàn)數(shù)據(jù)壓縮[5-6]。目前的研究結(jié)果表明,選擇合適的壓縮方法和參數(shù),壓縮數(shù)據(jù)產(chǎn)生的誤差比數(shù)據(jù)處理流程中引入的誤差還要小,而且壓縮比相比于無(wú)損壓縮要大很多[7]。這表明有損數(shù)據(jù)壓縮是可以用于數(shù)據(jù)處理和解釋階段的。
1 數(shù)據(jù)壓縮方法和原理
數(shù)據(jù)壓縮歸納起來(lái)可分為兩大類(lèi)型:第一類(lèi)為壓縮-存儲(chǔ)-回放系統(tǒng),通常又稱(chēng)數(shù)字錄放系統(tǒng);第二類(lèi)為壓縮-傳輸-解壓系統(tǒng),通常又稱(chēng)數(shù)字通信系統(tǒng)[8]。兩種物理過(guò)程均可用圖1所示的數(shù)據(jù)壓縮系統(tǒng)模型來(lái)概括。
1.1 改進(jìn)型離散余弦變換
改進(jìn)型離散余弦變換(Modified Discrete Cosine Transform,MDCT)是將信號(hào)從一個(gè)域變換到一個(gè)域中,在該域中更容易完成壓縮。DCT屬于正交變換,正交變換實(shí)現(xiàn)數(shù)據(jù)壓縮的本質(zhì)是經(jīng)過(guò)多維坐標(biāo)中適當(dāng)?shù)男D(zhuǎn)和變換,把散布在各個(gè)坐標(biāo)軸上的原始數(shù)據(jù)集中到新的、適當(dāng)?shù)淖鴺?biāo)系中的少數(shù)坐標(biāo)軸上。DCT具有熵保持、解相關(guān)、能量重新分配和集中的特性。與其他5種正交變換(KLT、SLT、DFT、WHT和Haar)相比,DCT具有很好的性能,算法也相對(duì)簡(jiǎn)便,實(shí)現(xiàn)成本低,所以被廣泛應(yīng)用在信號(hào)處理中[9-10]。
次聲監(jiān)測(cè)數(shù)據(jù)的壓縮過(guò)程使用了一維離散余弦變換(1D-DCT)。1D-DCT的正交變換矩陣為:
因數(shù)據(jù)量大需分段作DCT,而相鄰段變換后數(shù)據(jù)邊界處存在不連續(xù)的“跳邊效應(yīng)”,所以采用改進(jìn)型離散余弦變換(MDCT)。即用長(zhǎng)度為2M的矩形窗函數(shù)h(m)截取原始數(shù)據(jù)的2M個(gè)樣點(diǎn),將截取的h(m)x(m)變換為:
改進(jìn)型離散余弦反變換(IMDCT)為:
MDCT也稱(chēng)余弦調(diào)制濾波器組,采用重疊轉(zhuǎn)換M個(gè)樣點(diǎn)的方法消除“跳邊效應(yīng)”。該變換也有快速算法,不會(huì)因重復(fù)轉(zhuǎn)換樣點(diǎn)給整個(gè)數(shù)據(jù)壓縮系統(tǒng)附加運(yùn)算量,而且性能好于DCT,可廣泛應(yīng)用在聲頻壓縮中[11]。
1.2 壓擴(kuò)量化
均勻量化的優(yōu)點(diǎn)是簡(jiǎn)便,缺點(diǎn)是量化噪聲較大,用于量化MDCT的系數(shù)會(huì)影響數(shù)據(jù)壓縮質(zhì)量,所以選擇改善信噪比的非線性壓縮與擴(kuò)張量化(簡(jiǎn)稱(chēng)壓擴(kuò)量化)。壓擴(kuò)量化是非均勻量化方法,即用一個(gè)非線性對(duì)數(shù)函數(shù)y=F(x)將信號(hào)“壓縮”后再作最佳量化,恢復(fù)時(shí)用反變換x=F-1(y)對(duì)量化值進(jìn)行“擴(kuò)展”得到重建數(shù)據(jù)。
壓擴(kuò)量化在小信號(hào)域量化區(qū)間小,大信號(hào)域量化區(qū)間大。因?yàn)榈碗娖叫盘?hào)出現(xiàn)概率大、量化噪聲小,高電平量化噪聲大、但出現(xiàn)概率小,所以可以提高數(shù)據(jù)量化后的信噪比[12]。目前國(guó)內(nèi)外常用?滋律和A律兩種對(duì)數(shù)壓擴(kuò)量化器(歸一化)。
μ律曲線公式:
其中,A為壓擴(kuò)參數(shù),通常取A=87.6,可以通過(guò)13或18折線逼近來(lái)實(shí)現(xiàn)。
μ律和A律的特性基本相同,只在小信號(hào)區(qū)μ律量化器的信噪比略高于A律量化器,但在大信號(hào)區(qū)則不如A律量化器。
1.3 Huffman編碼/譯碼
Huffman編碼相比于其他3種統(tǒng)計(jì)編碼(香農(nóng)-范諾編碼、游程編碼、算數(shù)編碼)的算法簡(jiǎn)單,編碼效率高,Huffman譯碼是編碼的逆過(guò)程。編碼的方法步驟如下:
(1)將信源符號(hào)的概率按照由大到小的順序建立列表。
(2)取2個(gè)最小的概率進(jìn)行組合相加,然后將組合后的概率之和作為新的符號(hào)概率,重復(fù)步驟(1)和(2),直到概率總和達(dá)到1為止。
(3)將每個(gè)組合中的上邊一個(gè)指定為0,下邊一個(gè)指定為1。
(4)構(gòu)造由概率1處到每個(gè)信源符號(hào)概率的編碼樹(shù),順次記下編碼樹(shù)分支上的0和1,即為Huffman碼字。
為了提高編碼速度,采用自適應(yīng)Huffman編碼,即從一顆空的Huffman編碼樹(shù)開(kāi)始,隨著輸入符號(hào)的讀入和編碼、譯碼,不斷修改碼樹(shù)[13]。
2 數(shù)據(jù)壓縮和解壓設(shè)計(jì)
由于數(shù)據(jù)壓縮參數(shù)、應(yīng)用環(huán)境、使用技術(shù)、應(yīng)用目的等不同,數(shù)據(jù)壓縮系統(tǒng)的設(shè)計(jì)也是多種多樣的。
結(jié)合次聲信號(hào)的特點(diǎn),以及監(jiān)測(cè)數(shù)據(jù)體信息冗余和互相關(guān)的特征,采用MDCT將次聲監(jiān)測(cè)數(shù)據(jù)體從時(shí)域轉(zhuǎn)換到另一域中。選用小信號(hào)域量化噪聲低的μ律量化器,對(duì)作MDCT后的系數(shù)進(jìn)行二次“壓縮”及基于Max-Lloyd算法(簡(jiǎn)稱(chēng)M-L算法)的最佳量化。由于數(shù)據(jù)能量集中到了MDCT系數(shù)的前段部分,所以對(duì)MDCT系數(shù)進(jìn)行量化時(shí),保留百分之一數(shù)據(jù)長(zhǎng)度的前段變換系數(shù),只對(duì)剩余的變換系數(shù)進(jìn)行量化,這樣做可以有效降低量化噪聲,也不影響數(shù)據(jù)壓縮程度。最后通過(guò)自適應(yīng)Huffman編碼,實(shí)現(xiàn)對(duì)次聲監(jiān)測(cè)數(shù)據(jù)的壓縮。解壓過(guò)程除去MDCT系數(shù)量化部分外,其他過(guò)程為上述逆過(guò)程。
設(shè)計(jì)選用MATLAB數(shù)據(jù)處理軟件實(shí)現(xiàn)對(duì)數(shù)據(jù)的轉(zhuǎn)換、量化、壓縮和解壓處理。整個(gè)設(shè)計(jì)框圖如圖2所示。
3 數(shù)據(jù)壓縮測(cè)試
3.1 壓縮系統(tǒng)評(píng)價(jià)指標(biāo)
壓縮比(Compression Ratio,CR)是衡量數(shù)據(jù)壓縮系統(tǒng)性能好壞的一個(gè)重要指標(biāo)。其定義為:
CR又稱(chēng)bpc(bit per character),表示壓縮一個(gè)字符平均所需的比特?cái)?shù)。以下測(cè)試是對(duì)次聲監(jiān)測(cè)數(shù)據(jù)文本文件的壓縮。
離散時(shí)間域重建數(shù)據(jù)的保真度常用信噪比SNR來(lái)度量,其計(jì)算公式為:
3.2 次聲監(jiān)測(cè)數(shù)據(jù)壓縮測(cè)試
取已有次聲監(jiān)測(cè)數(shù)據(jù),使用該數(shù)據(jù)壓縮系統(tǒng)對(duì)其進(jìn)行壓縮處理。表1為對(duì)3個(gè)文件中的次聲監(jiān)測(cè)數(shù)據(jù)壓縮測(cè)試的結(jié)果。
從表1可以看出,該數(shù)據(jù)壓縮設(shè)計(jì)對(duì)原始數(shù)據(jù)文件進(jìn)行壓縮后,信噪比都大于90 dB,并且文件2和文件3壓縮后數(shù)據(jù)量大幅減少,這樣可以很大程度地減輕后續(xù)數(shù)據(jù)存儲(chǔ)、傳輸和處理的壓力。
圖3~圖5是對(duì)這3個(gè)文件的原始波形、重建波形及其兩者誤差波形進(jìn)行測(cè)試的結(jié)果。
從表1和圖3(c)可以看出,CR=2.52時(shí)信噪比高達(dá)113.7 dB,實(shí)現(xiàn)了對(duì)原始波形的高保真重建。隨著壓縮比的增大,原始波形與重建波形的誤差增大,信噪比降低。從圖5(b)看到,CR=9.56時(shí),重建數(shù)據(jù)已經(jīng)開(kāi)始濾掉原始數(shù)據(jù)中的高頻微弱信號(hào),MDCT開(kāi)始主要體現(xiàn)出濾波器組的作用,在有用信號(hào)電平很低時(shí),選擇過(guò)高的壓縮比會(huì)造成有用信號(hào)的掉失,所以對(duì)壓縮比的選取應(yīng)當(dāng)小于10。圖6~圖8是對(duì)3個(gè)文件的原始數(shù)據(jù)和重建數(shù)據(jù)進(jìn)行頻譜測(cè)試的結(jié)果。
從圖6和圖7可以看出原始數(shù)據(jù)和重建數(shù)據(jù)的頻譜相關(guān)性比較好,100 Hz以?xún)?nèi)的波形基本無(wú)衰減。從圖8看到重建數(shù)據(jù)的頻譜從20 Hz開(kāi)始衰減,到100 Hz時(shí)重建數(shù)據(jù)的頻率已經(jīng)基本衰減為零,但原始數(shù)據(jù)中還存在20 Hz~100 Hz的信號(hào),很明顯地看出該壓縮系統(tǒng)在較大壓縮比情況下,衰減甚至濾掉了信號(hào)帶寬以外的較高頻信號(hào)。
4 小結(jié)
改進(jìn)型離散余弦變換、非線性壓擴(kuò)量化和霍夫曼編碼相結(jié)合的數(shù)據(jù)壓縮技術(shù),相比于其他聲波壓縮技術(shù)更適用于低頻的次聲波數(shù)據(jù)壓縮。該技術(shù)在CR≤10時(shí),不僅實(shí)現(xiàn)了對(duì)次聲監(jiān)測(cè)數(shù)據(jù)的低失真壓縮處理,而且濾掉了信號(hào)中的高頻干擾,保存了次聲波帶寬內(nèi)的有用信號(hào)。
參考文獻(xiàn)
[1] 李彥,歐陽(yáng)紅群,劉小偉.次聲波簡(jiǎn)易監(jiān)測(cè)方法及分析[J].物理實(shí)驗(yàn),2010,30(10):40-43.
[2] 楊慶生,張少偉,夏雅琴.不同地域前次聲波異常信號(hào)的分析[J].北京工業(yè)大學(xué)學(xué)報(bào),2016,42(2):167-168.
[3] 吳家安.數(shù)據(jù)壓縮技術(shù)及應(yīng)用[M].北京:科學(xué)出版社,2009.
[4] Khalid Sayood.Introduction to data compression[M].Harbin:Harbin Industrial University Press,2014.
[5] 張俊蘭,周峰.數(shù)據(jù)壓縮的發(fā)展歷程[J].延安大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,27(3):24-27.
[6] 杜美華,孫建英.正交變換的幾何意義及其應(yīng)用[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2014,30(3):36-39.
[7] 胡麗麗,李杰.數(shù)據(jù)采集存儲(chǔ)系統(tǒng)無(wú)損壓縮算法的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)測(cè)量與控制,2010,18(12):2833-2835.
[8] 吳樂(lè)南.數(shù)據(jù)壓縮(第三版)[M].北京:電子工業(yè)出版社,2012.
[9] Shaban Al-Ani Muzhir,Abd Rajab Maha.Biometrics hand geometry using Discrete Cosine Transform(DCT)[J].Science and Technology,2013,3(4):34-37.
[10] 張婧,徐國(guó)根.基于DCT的遙感圖像壓縮算法應(yīng)用[J].航空電子技術(shù),2015,46(1):25-28.
[11] 閆保中,劉泥石.一種有效的MDCT/IMDCT快速算法[J].應(yīng)用科技,2011,38(3):12-15.
[12] 賈瑞蓮,肖沙里,郭成.A律語(yǔ)音壓縮編解碼器的FPGA實(shí)現(xiàn)[J].重慶工商大學(xué)學(xué)報(bào),2016,33(1):59-64.
[13] 劉政.一種自適應(yīng)Huffman算法在無(wú)線傳感器網(wǎng)絡(luò)數(shù)據(jù)壓縮的應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào),2013,27(2):84-89.