123,123,123

音频嵌入数字水印研究

刘刚刘群

哈尔滨工程大学计算机科学与技术学院(150001)

摘要： 在论述音频水印技术及其发展的基础上，综述了音频数字水印的一些重要算法，并提出了一个基于离散小波分析并结合人耳听觉特性设计的明水印算法。

關(guān)鍵詞： 数字水印音频离散小波变换

Abstract：

Key words :

摘要： 在論述音頻水印技術(shù)及其發(fā)展的基礎(chǔ)上，綜述了音頻數(shù)字水印的一些重要算法，并提出了一個基于離散小波分析并結(jié)合人耳聽覺特性設(shè)計的明水印算法。
關(guān)鍵詞： 數(shù)字水印音頻離散小波變換

　　計算機(jī)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，極大地方便了人們對信息的獲取和交流。信息技術(shù)的發(fā)展在給人類生活帶來快捷便利的同時，也使人們面臨著諸如非法盜版以及惡意篡改等嚴(yán)峻挑戰(zhàn)。信息的安全問題已經(jīng)成為一個迫切需要解決的現(xiàn)實問題。作為安全手段之一的加密技術(shù)并不能夠滿足許多特定條件下的安全要求，尤其是在要求不過分破壞信息的可理解性以及要求對信息全程加密(長期安全)的場合下。數(shù)字水印是能滿足這些要求的一項技術(shù)。
　　數(shù)字水印根據(jù)其應(yīng)用和載體的不同主要可分為圖像水印、音頻水印、視頻水印等。自Van Schyndel在ICIP′94會議上發(fā)表關(guān)于數(shù)字水印的第一篇文章“A digital watermarking”以來，短短10余年內(nèi)，針對數(shù)字水印的研究吸引了一大批學(xué)者的參與。但絕大部分研究都以靜止圖像的數(shù)字水印作為研究對象，而針對音視頻數(shù)字水印的研究較為缺乏。本文簡單介紹了數(shù)字水印的幾種重要算法，提出了一個基于離散小波變換(DWT)的音頻數(shù)字水印模型，并給出了部分實驗結(jié)果。
1 音頻水印
　　音頻數(shù)字水印的主要應(yīng)用是隱蔽通信及版權(quán)保護(hù)。隱蔽通信注重信息的隱匿以及數(shù)據(jù)的嵌入容量，版權(quán)保護(hù)則強(qiáng)調(diào)穩(wěn)健性。目前應(yīng)用于音頻產(chǎn)品數(shù)字版權(quán)保護(hù)的水印技術(shù)大多局限于非壓縮域，包括時域和變換域。時域主要有LSB算法和回聲算法，變換域算法則主要采用DCT、DFT以及DWT。
　　音頻嵌入數(shù)字水印比較重要的算法有以下幾類：
　　(1)最不顯著位嵌入（LSB－Lesat Significant Bit）是一種最簡單的嵌入方法。任何形式的水印均可以轉(zhuǎn)換成一串二進(jìn)制的碼流。音頻文件的每一個采樣數(shù)據(jù)也是用二進(jìn)制數(shù)值加以表示的。這樣可以通過將每一個采樣值的最不顯著位（通常為最低位），用代表水印的二進(jìn)制位替換，即可在音頻信號中嵌入水印。如果將音頻信號看作水印傳輸?shù)男诺?，水印看作在信道中傳輸?shù)男盘枺硐肭闆r下，信道容量將是1Kbps/kHz，即采樣率和比特率在數(shù)值上相當(dāng)。為了加大對水印攻擊的難度，可以使用一段偽隨機(jī)序列控制水印嵌入的位置。偽隨機(jī)序列可以由偽隨機(jī)序列發(fā)生器產(chǎn)生。當(dāng)偽隨機(jī)序列發(fā)生器具有固定結(jié)構(gòu)時，不同的初始值會產(chǎn)生不同的偽隨機(jī)序列，這樣收發(fā)雙方只需要秘密傳送一個初值作為密匙而不必傳送整個偽隨機(jī)序列值。為增強(qiáng)水印穩(wěn)健性，可考慮將水印加到音頻數(shù)據(jù)的高頻分量上。
　　LSB法簡單易行，數(shù)據(jù)容量大，安全性較高。缺點是對抗信號處理的穩(wěn)健性差。
　　(2)擴(kuò)頻方法（Spread Sprectrum Encoding）。此方法是將編碼數(shù)據(jù)分布到盡可能多的頻譜中對信息流進(jìn)行編碼。常用的有直接序列擴(kuò)頻編碼（DSSS），它通常結(jié)合性能優(yōu)良的m序列進(jìn)行編碼和解碼。為了利用HAS的掩蔽效應(yīng)，一般需要對所采用的序列進(jìn)行若干級的濾波處理，水印的檢測則結(jié)合相關(guān)性假設(shè)檢驗檢測方法。該方法對MP3音頻編碼、PCM量化以及附加噪聲有一定的穩(wěn)健性。
　　(3)相位編碼。利用人耳聽覺系統(tǒng)對絕對相位不敏感以及對相對相位敏感的特性，使用代表水印信息的參考相位替代原始音頻段的絕對相位，并調(diào)整其余音頻段以保持相對相位的不變。其編碼步驟簡述如下：

　　⑥根據(jù)修改后得到的相位矩陣和原始幅度矩陣，進(jìn)行IDFT逆變換，生成含有水印的音頻信號。
　　(4)回聲隱藏。通過引入回聲將水印數(shù)據(jù)嵌入到音頻信號，其中利用了HAS的另一特性：音頻信號在時域的向后屏蔽作用，即弱信號在強(qiáng)信號消失之后被屏蔽，大約在強(qiáng)信號消失之后的50ms～200ms之內(nèi)繼續(xù)作用而不被人耳所察覺。
　　由于回聲隱藏是將水印信息作為載體數(shù)據(jù)的環(huán)境而非隨機(jī)噪聲嵌入到載體數(shù)據(jù)中，因此對一些有損壓縮的算法有令人滿意的穩(wěn)健性。
　　(5)變換域算法：變換域算法具有許多空域算法所不具備的優(yōu)點，其中最突出的一點是其算法的穩(wěn)健性。變換域算法包括離散傅立葉變化（DFT）、離散余弦變換（DCT）以及近年來興起的離散小波變換(DWT)。對于前二種方法，國內(nèi)外已經(jīng)做了相當(dāng)多的研究，基本思想都是結(jié)合HAS聽覺特性對原始音頻數(shù)據(jù)在一定的頻域內(nèi)進(jìn)行變換處理，然后改變相應(yīng)的變換系數(shù)來嵌入水印。本文的算法是基于第三種變換即離散小波變換的。這里簡單介紹一下DWT技術(shù)。
　　DWL算法是利用Daubechies-4小波基的原始音頻進(jìn)行L級的小波分解，保留前L-1級的差別分量而對第L級的細(xì)節(jié)分量進(jìn)行處理并嵌入水印。此算法的一個特點是將水印信號放在語音信號能量最集中的低頻部分。
　　本文基于離散小波分析技術(shù)提出一個算法，即將一副二值圖像作為水印嵌入到小波變換的原始音頻第三層細(xì)節(jié)分量（不同的是，本文取其高頻分量作為嵌入位置）。
2 人類聽覺模型
　　人類聽覺系統(tǒng)對于輸入信號所作出的反應(yīng)是基于頻率的，音調(diào)的不同對應(yīng)于頻率的變化。圖1所示即為人耳的靈敏度對于頻率的函數(shù)，圖中給出了可為人耳所聽到的最低聲音強(qiáng)度，對于每個不同頻率正好就是音頻靈敏度的倒數(shù)。從圖1可知，人耳對于3kHz左右的頻率最為敏感，對于過高（20kHz）以及過低（20Hz）的頻率，人耳敏感性將降低。

　　根據(jù)這一特性可知：水印嵌入到音頻數(shù)據(jù)的合適的高頻或者低頻分量上，都可以合理預(yù)期不破壞原始音頻的質(zhì)量。這一點可從后續(xù)試驗中得到驗證。
3 算法
　　本算法采用DWT，包含水印嵌入、水印檢測以及水印攻擊三個主要部分。水印的工作原理如圖2所示。水印的檢測需要原始音頻數(shù)據(jù)。

3.1 水印嵌入算法
　　(1)將待嵌入水印圖像置亂。本算法簡單地采用偽隨機(jī)數(shù)算法消除數(shù)據(jù)的相關(guān)性。(2)將原始音頻數(shù)據(jù)進(jìn)行多尺度一維分解，并分別提取低頻系數(shù)和三層高頻系數(shù)。為獲取較好的穩(wěn)健性，本算法將水印數(shù)據(jù)嵌入到音頻數(shù)據(jù)的第三層高頻分量上。(3)根據(jù)公式V_w(i)=V(i)+(α+e)×W(i)嵌入水印數(shù)據(jù)。其中V(i)為音頻數(shù)據(jù)位，W(i)為水印數(shù)據(jù)位，V_w(i)為嵌入水印后的音頻數(shù)據(jù)位，α為水印嵌入強(qiáng)度，e值作為修正，取值10^-20。通過試驗，發(fā)現(xiàn)α值取為0.004時嵌入水印效果較為理想。(4)將嵌入水印數(shù)據(jù)后的音頻進(jìn)行IDWT變換，即得到包含水印的音頻數(shù)據(jù)。
3.2 水印檢測算法
　　(1)將含有水印的音頻數(shù)據(jù)進(jìn)行多尺度一維分解，并提取其三層高頻分量系數(shù)。
　　(2)檢測算法為嵌入算法的逆過程，需要原始音頻數(shù)據(jù)參與檢測，表達(dá)為：
　　W(i)=(V_w(i)-V(i))/(α+e)，其中α以及e的值同嵌入算法中確定的值一致。
　　(3)步驟(2)得到的W(i)即為提取的一維水印信息序列，將其進(jìn)行升維處理，可以得到二維圖像形式。此結(jié)果便是檢測輸出的水印。
　　嵌入水印的原圖及一次嵌入后提取的水印分別如圖3和圖4所示。

4 部分試驗
　　為測試本水印系統(tǒng)的性能，對加水印的音頻數(shù)據(jù)進(jìn)行各類攻擊，這里給出部分實驗結(jié)果。
定義：
　　　

　　N_c作為衡量所提取水印圖像與原始水印圖像的相似程度，從未被攻擊的含水印音頻中直接提取的水印與原水印圖像相似度高達(dá)0.9998。
　　(1)二選一迫選實驗。對事先不知道精確原始音頻信號的測試者分別播放原始音頻和嵌入水印后的音頻，要求測試者指認(rèn)原始音頻。根據(jù)L.Boney等[5]的結(jié)論，如果二類音頻被指認(rèn)為原始音頻的比例大致相當(dāng)(各為50％上下)，則可認(rèn)為水印嵌入后沒有引起人耳感知上的顯著差別。試驗中隨機(jī)選取同實驗室學(xué)生8人，通過分別在不同wav文件中嵌入水印并隨機(jī)詢問的方法，結(jié)果約有53.4%的接受詢問者認(rèn)為原始音頻音質(zhì)更好。說明通過本系統(tǒng)嵌入的水印沒有引起原始音頻音質(zhì)上的顯著改變。
　　(2)將音頻截掉全部數(shù)據(jù)的n/10(n=1，2，3……)，原始音頻數(shù)據(jù)位長度稍大于40 000，從第20 000位開始剪切。
　　根據(jù)圖5、圖6、圖7可知將音頻剪切掉約三分之一內(nèi)容后，仍可提取出較為明顯的水印圖案。如果剪切部分再多一些，則無法滿意地檢測出水印。但由于三分之一的剪切率將同時導(dǎo)致載體音頻數(shù)據(jù)的大量丟失，故這個結(jié)果是可以接受的。

　　(3)MP3壓縮。目前對音頻信號進(jìn)行MP3壓縮編碼是較為常用的一種音頻處理技術(shù)，其目標(biāo)為在不影響原始音頻信號品質(zhì)的前提下盡可能地減少音頻數(shù)據(jù)量。不同的比特率對應(yīng)了不同的MP3壓縮比。本試驗對上面含有水印的一段音頻先進(jìn)行碼率為96Kbps的壓縮(壓縮比為7.4：1)，然后進(jìn)行相映解碼處理，檢測得到的水印圖像如圖8所示。

5 結(jié) 論
　　近年來音頻數(shù)字水印領(lǐng)域尤其是變換域音頻水印嵌入與檢測方面的研究工作發(fā)展迅速，而離散小波分析(DWT)是近年來整個數(shù)字水印系統(tǒng)研究的熱點之一。本文在論述音頻水印技術(shù)的基礎(chǔ)上，提出了一個基于離散小波分析并結(jié)合人耳聽覺特性(HAS)設(shè)計的算法。算法經(jīng)實驗表明具有很好的隱蔽性，對原始音頻的質(zhì)量幾乎沒有削弱，具備一定的抵抗剪切攻擊及其他攻擊的能力。為進(jìn)一步提高算法的穩(wěn)健性，應(yīng)該進(jìn)一步考慮如何利用更多HAS特性以及水印嵌入的位置和強(qiáng)度。顧及算法實用性，應(yīng)當(dāng)考慮增加嵌入水印的容量問題。這些都是需進(jìn)一步改善的方向。
參考文獻(xiàn)
1   Bender W，Gruhl D，Morimot N et al.Techniques for data hiding.IBM Systems Journal，1996；35(3)
2   鈕心忻，楊義先.基于小波變換的數(shù)字水印隱藏與檢測算法.計算機(jī)學(xué)報，2000；23(1)
3   楊行峻，遲惠生.語音信號數(shù)字處理.北京：電子工業(yè)出版社，1995
4   Hartung F，Kutter M.Multimedia watermarking techniques. Proceeding of the IEEE，1999；87(7)
5   Swanson M D，Zhu B，Tewfik A H et al.Robust audio watermarking using perceptual masking.Signal Processing，1998；66(3)
6   鄒瀟湘，戴瓊，黃晁等.零知識水印驗證協(xié)議.軟件學(xué)報，2003；14(9)
7   梁華慶，趙麗麗，鈕心忻等.一種基于心理聲學(xué)模型的小波包域音頻數(shù)字水印算法.石油大學(xué)學(xué)報（自然科學(xué)版)，2003；27(6)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容