文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.180439
中文引用格式: 金鵬,楊忠良,黃永峰. 基于卷積神經(jīng)網(wǎng)絡(luò)的詩詞隱寫檢測方法[J].電子技術(shù)應(yīng)用,2018,44(10):114-117,126.
英文引用格式: Jin Peng,Yang Zhongliang,Huang Yongfeng. Poetry steganalysis based on convolutional neural network[J]. Application of Electronic Technique,2018,44(10):114-117,126.
0 引言
隱寫術(shù)是信息安全領(lǐng)域的一個(gè)非常重要的研究熱點(diǎn),它通過難以察覺的方式將秘密信息隱藏到數(shù)字載體中。它可以用來建立秘密信道,并通過互聯(lián)網(wǎng)在連接受到限制或監(jiān)控的雙方之間傳遞隱蔽信息[1]。密碼術(shù)主要通過設(shè)計(jì)加密技術(shù),使保密信息不可讀,但同時(shí)也暴露了數(shù)據(jù)的重要性,使其更容易遭受攔截、破解等攻擊。而隱寫術(shù)則致力于通過設(shè)計(jì)精妙的方法,使其根本不會(huì)引起非授權(quán)者的注意并且無從得知保密信息的存在與否。由此可以看出,隱寫術(shù)的最大特征就是具有極強(qiáng)的隱蔽性?;诖?,設(shè)計(jì)并實(shí)現(xiàn)自動(dòng)隱寫檢測方法成為一件非常具有挑戰(zhàn)性的任務(wù)。
信息載體的形式多種多樣,因此有基于不同載體的信息隱藏方法,比如基于圖像[2]、語音[3]、文本[4-5]等。這些隱寫技術(shù)在信息安全保障體系的諸多方面發(fā)揮著重要作用。但隱寫術(shù)也有可能被用于非法目的。因此,急需解決非法信息的檢測問題,阻止非法信息的傳輸。由于圖像和語音相比于文本具有更大的信息冗余度,使其成為非常常用的信息隱藏載體,相關(guān)的信息隱藏技術(shù)[6-7]也已經(jīng)比較成熟。
文本中可用于隱藏?cái)?shù)據(jù)的冗余空間非常有限,導(dǎo)致在文本中嵌入信息非常困難,但也吸引了大量研究者對其進(jìn)行研究?,F(xiàn)有的基于文本的信息隱藏方法大致可以分為兩大類,一類是基于文本格式[5,8-9],一類是基于文本內(nèi)容[10-11]?;谖谋靖袷降男畔㈦[寫方法一般將文本當(dāng)成一種特殊編碼的圖像進(jìn)行處理,它們通過調(diào)整文本的字符間距[8]、字詞的偏移[5]、字符編碼方式[9]等實(shí)現(xiàn)信息隱藏。這一類方法通常容量較大、實(shí)現(xiàn)簡單,但魯棒性不強(qiáng)?;谖谋緝?nèi)容的方法,通常通過對文本進(jìn)行詞匯、句法、語義等方面的修改,盡量保持文本局部以及全局語義不變、語法正確的方式來實(shí)現(xiàn)信息的嵌入。例如,文獻(xiàn)[12]利用馬爾科夫模型進(jìn)行自然文本生成并通過對生成過程中轉(zhuǎn)移概率進(jìn)行編碼實(shí)現(xiàn)信息隱藏,但存在的缺點(diǎn)是生成的文本都不太自然。然而,隨著近些年自然語言處理技術(shù)的發(fā)展,出現(xiàn)了越來越多基于文本自動(dòng)生成的信息隱藏方法,例如一些隱寫技術(shù)能自動(dòng)生成大量的詩詞并在生成過程中實(shí)現(xiàn)大容量秘密信息嵌入[13-15],同時(shí)最終生成的詩很難與真實(shí)詩人寫的詩區(qū)分開。這一類方法比基于格式的方法具有更強(qiáng)的魯棒性和更好的隱蔽性。目前基于文本語義內(nèi)容的信息隱藏技術(shù)是文本信息隱藏技術(shù)發(fā)展的研究重點(diǎn)和熱點(diǎn)。本文主要針對這一類方法,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本自動(dòng)隱寫檢測方法,實(shí)現(xiàn)對文本中是否隱藏信息的自動(dòng)識(shí)別。
1 相關(guān)研究工作
隱寫分析技術(shù)是和隱寫術(shù)相對抗的一種技術(shù)。通常認(rèn)為判定某個(gè)數(shù)據(jù)載體中隱藏信息的存在即可認(rèn)為該隱寫系統(tǒng)被攻破。因此,本文重點(diǎn)研究自動(dòng)檢測文本中是否含有隱藏信息。
目前,已有的文本隱藏信息檢測研究要么是主要針對一些特定的隱藏算法進(jìn)行研究,要么是根據(jù)人為定義的統(tǒng)計(jì)規(guī)則進(jìn)行判別。針對前一類方法的研究有:吳明巧僅僅針對Stego工具,提出了基于標(biāo)記特征與統(tǒng)計(jì)特征相結(jié)合的檢測方法[16];KWON H等針對基于文檔結(jié)構(gòu)數(shù)據(jù)的隱藏信息,利用微軟復(fù)合文檔格式特征的分析,檢測利用未用空間和插入流數(shù)據(jù)隱藏的信息的存在性[17]。針對后一類方法的研究有:周繼軍借鑒概念圖的思想,提出了基于句間相關(guān)性度量判定法的自然語言隱藏信息檢測算法[18];HUANG L S研究團(tuán)隊(duì)也提出了基于詞位置分布統(tǒng)計(jì)特征[19]以及基于統(tǒng)計(jì)詞的頻度、檢測熵的方法[20]。這些文本隱寫檢測方法最大的缺點(diǎn)在于,它們的針對性太強(qiáng),覆蓋的可檢測的信息隱藏方法有限。
隨著技術(shù)的發(fā)展,已經(jīng)有很多研究將信息隱藏和特殊文本的生成相結(jié)合起來,取得了不錯(cuò)的效果。比如DESOKY A利用很多特殊的文本形式,例如筆記[15]、笑話[21]等來隱藏信息。文獻(xiàn)[14]中提出的模型利用計(jì)算機(jī)自動(dòng)生成詩詞實(shí)現(xiàn)信息隱藏。文獻(xiàn)[4]和[13]中也通過利用馬爾科夫模型和循環(huán)神經(jīng)網(wǎng)絡(luò)算法生成符合規(guī)則的詩詞。這一類方法生成的詩詞對于未經(jīng)訓(xùn)練的人很難區(qū)分開,因此具有極高的隱蔽性?,F(xiàn)在還沒有針對這一類隱寫算法的隱寫檢測算法,本文的目的就在于解決這個(gè)問題。
2 基于卷積神經(jīng)網(wǎng)絡(luò)的詩詞隱寫檢測方法
近兩年,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度神經(jīng)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺[22]和自然語言處理[23]等領(lǐng)域取得非常大的成功。大量的研究顯示卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征抽取和表達(dá)能力,能自動(dòng)從大量數(shù)據(jù)中學(xué)習(xí)得到特征[22]。本文中設(shè)計(jì)并實(shí)現(xiàn)了一套基于卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)文本隱寫檢測算法,它能自動(dòng)對待檢測的文本進(jìn)行特征抽取進(jìn)而判斷是否隱藏信息。
本文最終采用的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如下:一個(gè)輸入層、一個(gè)包含多個(gè)不同尺寸卷積核的卷積層、一個(gè)平均池化層、一個(gè)全連接層以及一個(gè)Softmax分類器。輸入層將輸入文本轉(zhuǎn)換成一個(gè)適合后續(xù)卷積層操作的二維矩陣。卷積層用來對輸入矩陣進(jìn)行特征抽取,不同尺寸的卷積核能學(xué)到不同的上下文相關(guān)特征。平均池化層用來對學(xué)習(xí)的特征進(jìn)行下采樣,它能增強(qiáng)模型的魯棒性并顯著提升模型性能。全連接層用來對學(xué)習(xí)到的特征進(jìn)行融合并送給Softmax分類器。Softmax分類器的參數(shù)通過自學(xué)習(xí)完成之后,對輸入的特征向量進(jìn)行分類,判斷是否發(fā)生了信息隱寫。卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
模型的輸入是待檢測的文本,輸出是判斷是否發(fā)生隱寫的概率。對于每一個(gè)輸入的待檢測文本S,將其表示成如式(1)所示的矩陣,其中矩陣的第i行表示文本S中第i個(gè)詞,每個(gè)詞表示成一個(gè)隨機(jī)初始化的D維的向量,即:
其中,P和T向量的維度都是2,分別表示有/沒有隱藏信息。T是輸入文本的標(biāo)簽,如:可以用向量[0,1]表示有隱寫,[1,0]表示沒有隱寫。
模型的訓(xùn)練過程是通過在訓(xùn)練數(shù)據(jù)集上最小化LOSS函數(shù),采用的是帶動(dòng)量項(xiàng)的隨機(jī)梯度下降算法(SGD)。對模型中參數(shù)w的更新公式如下:
3 實(shí)驗(yàn)結(jié)果及評估
3.1 實(shí)驗(yàn)數(shù)據(jù)
在本次實(shí)驗(yàn)中,為了測試本文模型的性能,收集了全唐詩共13 342首五言詩作為正樣本,即不含隱藏信息的樣本。然后利用文獻(xiàn)[4]中的算法生成10 000首隱藏信息的五言詩作為負(fù)樣本。因此整個(gè)實(shí)驗(yàn)所用到的數(shù)據(jù)集共含有23 342首五言詩,利用其中17 000首作為訓(xùn)練集訓(xùn)練本文模型,剩下6 342首作為測試集測試本文模型,具體劃分如表1所示。
3.2 實(shí)驗(yàn)設(shè)置
對于每首輸入模型的樣本,首先對其進(jìn)行去結(jié)構(gòu)化。具體來說,即去掉每首詩的標(biāo)題,并將剩下的4句話首尾相連,因此每首詩都轉(zhuǎn)化為一個(gè)包含20個(gè)字的文本。其次,將每個(gè)字映射成一個(gè)300維隨機(jī)初始化的向量,因此實(shí)際上模型的輸入是一個(gè)20×300的矩陣。卷積層中卷積核的寬度和輸入矩陣寬度一致,即300維。而卷積核的高度是可變的,實(shí)驗(yàn)中采用的卷積核高度是1,2,3,并且每個(gè)尺寸包含56個(gè)卷積核。最后輸出層的維度是2,對應(yīng)是否隱藏信息。訓(xùn)練過程中,采用隨機(jī)梯度下降方法訓(xùn)練模型參數(shù),初始學(xué)習(xí)率為0.01。
3.3 實(shí)驗(yàn)結(jié)果及分析
采用幾種分類任務(wù)中常用的指標(biāo)來評價(jià)本文模型最后的性能,即Precision、Recall、F1-score和Accuracy。計(jì)算公式如下:
其中,TP表示正樣本被預(yù)測為正樣本的數(shù)量,F(xiàn)P表示負(fù)樣本被預(yù)測成正樣本的數(shù)量,F(xiàn)N表示正樣本預(yù)測成負(fù)樣本的數(shù)量,TN表示負(fù)樣本預(yù)測成負(fù)樣本的數(shù)量。
表2中展示了本文模型以及其他3種機(jī)器學(xué)習(xí)算法的測試結(jié)果,其中CNN表示本文模型的結(jié)果。從結(jié)果中可以看到,本文模型在各個(gè)指標(biāo)上取得了最好的實(shí)驗(yàn)結(jié)果,這充分證明了本文模型強(qiáng)大的特征抽取能力,能非常有效地應(yīng)用于文本隱寫檢測任務(wù)上。
4 結(jié)論
文中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本隱寫分析算法。它能自動(dòng)從大量數(shù)據(jù)中提取到高層次的語義信息,并判斷輸入文本中是否隱藏信息。同時(shí),利用大量的數(shù)據(jù)訓(xùn)練并測試本文模型,結(jié)果反映該模型能非常高準(zhǔn)確率地檢測出文本中是否含有隱藏信息,證明了模型的有效性。
參考文獻(xiàn)
[1] PETITCOLAS F A P,ANDERSON R J,KUHN M G.Information hiding-a survey[J].Proceedings of the IEEE,1999,87(7):1062-1078.
[2] ZHOU Z,SUN H,HARIT R,et al.Coverless image stega-nography without embedding[C].International Conference on Cloud Computing and Security Nanjing University of Aeronautics and Astronautics,2015.
[3] PENG X,HUANG Y,LI F.A steganography scheme in a low-bit rate speech codec based on 3d-sudoku matrix[C].IEEE International Conference on Communication Software and Networks,2016:13-18.
[4] LUO Y,HUANG Y.Text steganography with high embedding rate: using recurrent neural networks to generate Chinese classic poetry[C].ACM Workshop on Information Hiding and Multimedia Security,2017:99-104.
[5] SHIRALI-SHAHREZA M H,SHIRALI-SHAHREZA M.A new approach to persian/arabic text steganography[C]. IEEE/ACIS International Conference on Computer and Information Science and IEEE/ACIS International Workshop on Component-Based Software Engineering,Software Architecture and Reuse,2006:310-315.
[6] KER A D,BOHME R.Revisiting weighted stego-image steganalysis[J].Proceedings of SPIE-The International Society for Optical Engineering,2008,6819:681905.
[7] ALTUN O,SHARMA G,CELIK M,et al.Morphological steganalysis of audio signals and the principle of diminishing marginal distortions[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2005,2:21-24.
[8] CHOTIKAKAMTHORN N.Electronic document data hiding technique using inter-character space[C].The 1998 IEEE Asia-Pacific Conference on Circuits and Systems,1998.IEEE APCCAS 1998,1998:419-422.
[9] LOW S H,MAXEMCHUK N F,LAPONE A M.Document identification for copyright protection using centroid detection[J].IEEE Transactions on Commun.1998,46(3):372-383.
[10] MAHATO S,KHAN D A,YADAV D K.A modified approach to data hiding in microsoft word documents by change-tracking technique[J/OL].Journal of King Saud University.(2017-08-30)[2018-02-08].https://www.sciencedirect.com/science/article/pii/S1319157817300939?via%3Dihub.
[11] MURPHY B,VOGE C.The syntax of concealment: reliable methods for plain text information hiding[C].Proceedings of SPIE,2007:6505.
[12] GE X,JIAO R,TIAN H,et al.Research on information hiding[J].US-China Education Review,2006,3(5):77-81.
[13] LUO Y,HUANG Y,LI F,et al.Text steganography based on ci-poetry generation using markov chain model[J].Ksii Transactions on Internet & Information Systems,2016,10(9):4568-4584.
[14] YU Z S,HUANG L S.High embedding ratio text steganography by ci-poetry of the song dynasty[J].Journal of Chinese Information Processing,2009,23(4):55-62.
[15] DESOKY A.Notestega:notes-based steganography methodology[J].Information Systems Security Journal,A Global Perspective,2009,18(4):178-193.
[16] 吳明巧,金士堯.針對文本隱寫工具Stego的隱寫分析方法[J].計(jì)算機(jī)工程,2006,32(23):10-12.
[17] KWON H,KIM Y,LEE S,et al.A tool for the detection of hidden data in microsoft compound document file format[C].International Conference on Information Science and Security.IEEE,2008:141-146.
[18] 周繼軍,楊著,鈕心忻,等.文本信息隱藏檢測算法研究[J].通信學(xué)報(bào),2004,25(12):97-101.
[19] CHEN Z L,HUANG L S,YU Z S,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C].Third International Conference on Availability, Reliability and Security.IEEE Computer Society,2008:558-563.
[20] CHEN Z L,HUANG L S,YU Z S,et al.Effective linguistic steganography detection[C].IEEE,International Conference on Computer and Information Technology Workshops,2008,Cit Workshops.IEEE,2008:224-229.
[21] DESOKY A.Jokestega:automatic joke generation-based steganography methodology[J].International Journal of Security and Networks,2012,7(3):148-160.
[22] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems.Curran Associates Inc.2012:1097-1105.
[23] KIM Y.Convolutional neural networks for sentence classification[Z].arXiv:1408.5882,2014.
作者信息:
金 鵬1,2,楊忠良1,2,黃永峰1,2
(1.清華大學(xué) 電子工程系,北京100084;2.清華信息科學(xué)與技術(shù)國家實(shí)驗(yàn)室,北京100084)