国产精品99久久99久久久不卡,国产精品自产在线播放 ,天美传媒春节回家相亲孟孟

基于多特征的打印文件層級分類研究

2016年電子技術(shù)應(yīng)用第3期

周晶晶，陳慶虎，彭文花，鄢煜塵

武漢大學(xué) 電子信息學(xué)院，湖北武漢430072

摘要： 打印文件鑒別是一種廣泛應(yīng)用于安全領(lǐng)域的取證技術(shù)，因此對其檢測的準(zhǔn)確率和速度均有較高要求。考慮到單個特征的信息不全，基于多特征融合的方法來提高準(zhǔn)確率，同時使用基于AdaBoost的SVM級聯(lián)分類器進(jìn)行分類判定。研究過程包括數(shù)據(jù)采集、圖像預(yù)處理、GMM和LBP特征提取、特征融合、單個SVM分類器分類以及基于AdaBoost的層級SVM分類器分類。通過對4 000張圖片集提取GMM和LBP特征，然后進(jìn)行特征融合，輸入分類器分類，結(jié)果表明，該方法能夠在一定程度上提高鑒別的準(zhǔn)確率和速度，具有良好的可擴(kuò)展性。

關(guān)鍵詞： 混合高斯模型局部二值模式特征融合級聯(lián)分類器打印文件鑒別

中圖分類號： TP391.4
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.2016.03.032
中文引用格式： 周晶晶，陳慶虎，彭文花，等. 基于多特征的打印文件層級分類研究[J].電子技術(shù)應(yīng)用，2016，42(3)：113-115，119.
英文引用格式： Zhou Jingjing，Chen Qinghu，Peng Wenhua，et al. Printed document identification with cascade classifier based on multi-feature[J].Application of Electronic Technique，2016，42(3)：113-115，119.

Printed document identification with cascade classifier based on multi-feature

Zhou Jingjing，Chen Qinghu，Peng Wenhua，Yan Yuchen

School of Electronic Information，Wuhan University，Wuhan 430072，China

Abstract： Printed document identification is a kind of technology which is widely used in the security field. So it needs higher accuracy and speed. Considering the information of a single feature is not complete, this paper improves the accuracy based on multi-feature. The research process includes data acquisition, image preprocessing, GMM and LBP feature extraction, feature fusion, SVM classifier and cascade detector. Through extracting the GMM and LBP features from 4 000 image sets, the feature fusion is performed, and the results show that the proposed method can improve the accuracy and speed of the identification in a certain extent.

Key words : gaussian mixture model；local binary pattern；feature fusion；cascade classifier；print document identification

0 引言

隨著信息時代的發(fā)展，各類圖像處理軟件及高質(zhì)量激光打印機(jī)應(yīng)運(yùn)而生，與此同時激光打印機(jī)的成本越來越低，這導(dǎo)致其越來越普遍。激光打印機(jī)的使用數(shù)量增長，犯罪分子制造偽證的技術(shù)更加高明，所以取證技術(shù)變得非常重要。打印文件的鑒別是一種廣泛應(yīng)用于安全領(lǐng)域的取證技術(shù)，可以通過對打印文件的分析判別打印設(shè)備的特性，當(dāng)發(fā)現(xiàn)打印設(shè)備偽造假文件時，即可幫助抓獲犯罪分子。

自打印機(jī)應(yīng)用以來，打印文件鑒別相關(guān)的研究有很多，針對傳統(tǒng)的噴墨打印機(jī)多通過分析打印文件中的墨粉、墨水等打印材料，查找打印機(jī)在打印文件中留下的痕跡，有基于墨粉紋理進(jìn)行的研究^[1]。隨著激光打印機(jī)的普遍，越來越多的研究從打印機(jī)文件中提取打印特性的各種特征，Delp等人^[2]提出了利用不同激光打印機(jī)的不同條帶頻率進(jìn)行識別的方案，然而這種方法并不適用于文本文檔。由于條帶頻率方案不能用于文本文檔，Deng等人^[3]提出了一種激光打印機(jī)識別文本文檔的方法，他們通過字符匹配來進(jìn)行識別。Mikkilineni 等人^[4]利用灰度共生矩陣特征(GLCM)方法，通過提取特定字體的打印字符“e”的紋理特征來鑒別打印文件的源打印機(jī)。Choi等人^[5]提出基于小波變換的打印機(jī)識別方案。

本文算法思想是基于多特征融合和層級分類器來提高準(zhǔn)確率，通過源于10臺打印機(jī)的4 000張圖片來進(jìn)行驗證，證明該方法能在一定程度上提高檢測準(zhǔn)確率和速度。

1 圖像特征提取

1.1 高斯混合模型

高斯混合模型（GMM）是一種利用多個單高斯函數(shù)建模的方式，其概率密度函數(shù)是由多個高斯概率密度函數(shù)加權(quán)求和得到的，如下所示：

對于打印字符，字符、字符邊緣以及背景三部分具有顯著的差異，這是典型的聚類問題。圖1（a）所示為原始圖像，圖1（b）所示為三階高斯混合模型建模后的圖像，圖中灰度值為零（黑色）的部分表示字符本身，灰度值為255（白色）的部分表示字符邊緣，灰度值為128（灰色）的部分表示紙張背景，可以看出三階高斯混合模型描述出了字符圖像的三部分信息。

1.2 LBP算子

局部二值模式(LBP)是由OJALA T^[6]等人提出的一種簡單但非常有效的描述圖像局部紋理特征的算子，原始的LBP特征提取是通過在3×3的矩形框內(nèi)，以矩形框中心點(diǎn)g_c的灰度值作為閾值，與周圍領(lǐng)域內(nèi)像素點(diǎn)(g₀，g₁…g_p-1)的灰度值進(jìn)行比較，得到的二進(jìn)制碼來表征圖像的紋理特征。g_c的LBP特征值LBP（P，R）定義為：

本文采用圓域均勻模式的LBP算子，對于測試圖像集X={x₁，x₂…x_N}，通過將字符圖像劃分為若干個區(qū)域，計算該區(qū)域內(nèi)所有像素點(diǎn)的LBP特征值，再統(tǒng)計該區(qū)域的LBP特征直方圖，最后將LBP特征譜的統(tǒng)計直方圖作為紋理分類的依據(jù)，最終的LBP圖譜直方圖如圖2所示。

2 多分類器級聯(lián)算法

多分類器級聯(lián)訓(xùn)練算法如圖3所示，SVM作為基分類器，每一級訓(xùn)練結(jié)果作為一個分類器模版，使用boosting^[7]策略集成融合，具體訓(xùn)練步驟如下：

(1)輸入樣本集X={x₁，x₂…x_N}，對應(yīng)的Y={y₁，y₂…y_M}為類別矩陣。

(2)初始化樣本權(quán)重。

(3)設(shè)置級聯(lián)層級T，對于t=1，2…T，根據(jù)樣本權(quán)重選擇訓(xùn)練樣本，訓(xùn)練每一級分類器H_t，新一層分類器會側(cè)重上一輪分錯的樣本，也就是難以區(qū)分的樣本，下文稱之為hard樣本。同時每一輪訓(xùn)練會加入部分新樣本，提高級聯(lián)分類器的穩(wěn)定性和適應(yīng)性。

(4)測試所有訓(xùn)練樣本，計算每一輪的錯誤率et。

(5)當(dāng)滿足錯誤率小于0.5時，計算分類器權(quán)重

(6)更新權(quán)重，分類錯誤的樣本權(quán)重增加，分類正確的樣本權(quán)重減少，計算公式為：

3 實驗與分析

為了測試本文的方法，建立了包含10臺激光打印機(jī)的打印文件數(shù)據(jù)庫，該數(shù)據(jù)庫共有4 000張完整圖像集，分別使用單一SVM分類器與級聯(lián)分類器作對比性研究，選取原始數(shù)據(jù)的3/4作為訓(xùn)練集，剩下的作為測試集。由于訓(xùn)練樣本是隨機(jī)挑選的，實際試驗中在相等訓(xùn)練集大小的情況下做了10次測試，并取測試的平均值作為識別率。具體實現(xiàn)步驟如下：

(1)特征提取。本文采用三階高斯混合模型，每一個高斯模型有均值、均方差、權(quán)重3個參數(shù)，最終特征集為9維。LBP特征提取采用圓域均勻模式LBP算子，圓域半徑r=2.5，取樣點(diǎn)p=12，LBP紋理特征向量以圖像的分塊LBP直方圖表示，其中N=14。

(2)特征融合。實驗中采用的是加權(quán)融合的辦法，具體思路是：

①歸一化：為了消除量綱影響，對數(shù)據(jù)集進(jìn)行歸一化操作，統(tǒng)一數(shù)據(jù)的標(biāo)準(zhǔn)，歸一化操作之后，GMM和LBP特征集就會被統(tǒng)一到一個特定的區(qū)間中。

②加權(quán)：通過循環(huán)判定，找出最優(yōu)權(quán)重，權(quán)重計算公式如下：

其中，w_GMM表示GMM特征集的權(quán)重，w_LBP表示LBP特征集的權(quán)重，w_0x(x=0，1)表示權(quán)重，初始值為w₀₀=0，w₀₁=1，步長step=0.01，k的取值為0，1，2…，50。最終取得的最優(yōu)權(quán)重為w_GMM=0.54 ，w_LBP=0.46。

③融合：GMM特征集的大小為4 000×9，LBP特征集大小為4 000×14，本文將GMM 的9維特征和LBP的14維特征融合成23維特征，圖像特征數(shù)量和種類的增加會更好地改善分類結(jié)果。特征融合模型圖4所示。

通過上述加權(quán)融合算法將GMM特征和LBP特征融合在同一特征空間中，分別對GMM和LBP單一特征集及融合特征集做分類研究，表1所示為SVM分類器的鑒別結(jié)果，GMM特征集和LBP特征集鑒別的準(zhǔn)確率分別為85.5%和84.7%。因為打印機(jī)自身的差異性以及打印設(shè)備使用過程中的不穩(wěn)定性，導(dǎo)致鑒別結(jié)果有一定的誤差，例如打印過程中可能出現(xiàn)的噴墨漏墨以及斷筆等情況，會一定程度上影響鑒別結(jié)果。融合特征集鑒別的準(zhǔn)確率為94.45%，說明高斯混合模型和局部二值模式相結(jié)合的算法可以提高打印文件識別率。

表2所示為GMM特征集、LBP特征集和融合特征集輸入級聯(lián)分類器的結(jié)果。對比表1的數(shù)據(jù)，級聯(lián)分類器一定程度上提高了分類的準(zhǔn)確度，融合特征集的識別率高達(dá)97.10%，驗證了本文算法的可行性。圖5所示的混淆矩陣描述了每一類打印樣本的識別效果。分類器級聯(lián)層數(shù)會影響分類的速度，圖6為訓(xùn)練10輪得到的層級分類器錯誤率，三層級聯(lián)即可取得較好的處理效果，級聯(lián)五層之后分類的準(zhǔn)確率變化不大，基本趨于平穩(wěn)，本文選取的是五層SVM分類器級聯(lián)。

4 結(jié)語

眾所周知，紋理分析有許多潛在的應(yīng)用，比如金屬表面、遙感圖片等，紋理分析應(yīng)用于打印文件鑒別中常用的是灰度共生矩陣，但是灰度共生矩陣的計算量太大，本文采用GMM和LBP特征集相結(jié)合的方法，特征集維度為23維，大大降低了計算量。同時，由于單一特征集包含的圖片信息不全，鑒別準(zhǔn)確率不高，采用多特征會大大提高鑒別的準(zhǔn)確率與速度。

GMM特征多用于語音識別，LBP特征常見的應(yīng)用場景是人臉識別，本文將這兩種特征應(yīng)用于打印文件鑒別，是一個重大突破。同時訓(xùn)練了基于AdaBoost的SVM級聯(lián)分類器，提高了分類的準(zhǔn)確度，使得打印文件鑒別工作的研究在安全領(lǐng)域的應(yīng)用更加可靠。

參考文獻(xiàn)

[1] 鄧偉.基于打印墨粉紋理分析的打印文件檢驗研究[J].電子測量技術(shù)，2014，37(2)：70-74.

[2] MIKKILINENI A K，KHANNA N，DELP E J.Texture based attacks on intrinsic signature based printer identification[C].IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics，2010：175-178.

[3] DENG W，CHEN Q，YUAN F，et al.Printer identification based on distance transform[C].First International Conference on Intelligent Networks and Intelligent Systems.IEEE Computer Society，2008：565-568.

[4] MIKKILINENI A K，CHIANG P J，ALI G N，et al.Printer identification based on graylevel co-occurrence features for security and forensic applications[C].Proceedings of SPIE-The International Society for Optical Engineering，2005，5681：430-440.

[5] CHOI J H，IM D H，LEE H Y，et al.Color laser printer identification by analyzing statistical features on discrete wavelet transform[C].Image Processing(ICIP)，2009 16th IEEE International Conference on.IEEE，2009：1505-1508.

[6] OJALA T，PIETIKAINEN M，HARWOOD D.Performance evaluation of texture measures with classification based on Kullback discrimination of distributions[C].Pattern Recognition，1994.Vol.1-Conference A：Computer Vision & Image Processing.，Proceedings of the 12th IAPR International Conference on.IEEE，1994，1：582-585.

[7] VIOLA P，JONES M.Fast and robust classification using asymmetric AdaBoost and a detector cascade[C].Advances in Neural Information Processing Systems，2002，14：1311-1318.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容