文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2010)12-0039-03
傳真服務(wù)器是隨著通信技術(shù)的發(fā)展,針對(duì)大中型企業(yè)、機(jī)關(guān)需求推出的一種集團(tuán)傳真通信解決方案。它的基本原理是通過軟硬件集成,實(shí)現(xiàn)多路傳真的并發(fā)收發(fā),并在此基礎(chǔ)上,與辦公流程相結(jié)合,實(shí)現(xiàn)更復(fù)雜的自動(dòng)化管理。
目前的傳真服務(wù)器,其主要業(yè)務(wù)是實(shí)現(xiàn)傳真的收發(fā)管理,但是不具備安全功能,因此很容易成為垃圾傳真的攻擊目標(biāo),尤其是一些大企業(yè),其號(hào)碼為公眾所熟悉,更是垃圾傳真的重災(zāi)區(qū)。垃圾傳真的泛濫不但造成巨大的浪費(fèi),而且嚴(yán)重影響正常辦公。
針對(duì)上述問題,本文提出一種安全傳真服務(wù)器的概念,在傳真服務(wù)器上增加垃圾傳真的自動(dòng)檢測(cè)功能,從而使分發(fā)或打印的傳真都是安全有效的。
1 安全傳真服務(wù)器模型
文獻(xiàn)[1]、文獻(xiàn)[2]等給出了傳真服務(wù)器的實(shí)現(xiàn)方法。為實(shí)現(xiàn)安全傳真服務(wù)器,需要在原來的傳真服務(wù)器上增加傳真自動(dòng)分類功能,只對(duì)無(wú)害的傳真進(jìn)行分發(fā),而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機(jī)器識(shí)別功能,如對(duì)傳真圖像進(jìn)行OCR[3](光學(xué)字符識(shí)別)識(shí)別,得到傳真圖像的文本字符信息,在此基礎(chǔ)上進(jìn)行文本分類。但是受限于傳真的實(shí)際情況,如手工發(fā)送造成的版面傾斜、手寫字體等,如果直接對(duì)其進(jìn)行OCR識(shí)別,較低的準(zhǔn)確率會(huì)嚴(yán)重影響系統(tǒng)的可用性,為此,需要對(duì)垃圾傳真的特征進(jìn)行全面研究及利用,確保分類方法的有效性。
垃圾傳真通常是將一份傳真進(jìn)行廣播式發(fā)送,因此在傳真服務(wù)器的接收端,垃圾傳真重復(fù)嚴(yán)重,而正常業(yè)務(wù)傳真則沒有此特征。所以本文的方法是對(duì)接收到的傳真進(jìn)行聚類處理,能夠聚類的認(rèn)為是垃圾傳真,不能聚類的認(rèn)為是正常業(yè)務(wù)傳真。根據(jù)上述分析,得到安全傳真服務(wù)器的系統(tǒng)模型,如圖1所示。與傳統(tǒng)的傳真服務(wù)器相比,本服務(wù)器在傳真分發(fā)前,增加了對(duì)垃圾傳真的聚類檢測(cè)功能。為達(dá)到最佳的檢測(cè)效果,且避免垃圾傳真因數(shù)量少而不能聚類,增加了垃圾傳真的歷史特征庫(kù)。
2 垃圾傳真檢測(cè)算法
由安全傳真服務(wù)器系統(tǒng)模型可見,調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務(wù)器具有的功能,相關(guān)資料中已有說明,本文不再重復(fù),這里只詳細(xì)介紹其中的垃圾傳真檢測(cè)算法。
本文中的應(yīng)用對(duì)精確度要求很高,不允許將正常業(yè)務(wù)傳真識(shí)別為垃圾傳真,所以需要選取一種能夠精確表達(dá)傳真內(nèi)容的特征進(jìn)行聚類,本文采用傳真的游程[4]特征。
每幅傳真圖片的黑白像素分布不同,從每一掃描行的圖像數(shù)據(jù)上看,這種不同體現(xiàn)在黑像素和白像素的分布上,即交替的次數(shù)不同,且連續(xù)黑白像素點(diǎn)的長(zhǎng)度也不同。將此特征以游程數(shù)M和游程值L來描述,游程數(shù)是指每個(gè)掃描行黑白像素變化的次數(shù),游程值是指每個(gè)連續(xù)像素段的像素個(gè)數(shù)。假如某一行的像素為00001111110011000,則該掃描行的游程特征為:M=4,L0,…,M=(4,6,2,2,3)。將所有的傳真圖像以此特征來描述,并進(jìn)行比較,即可實(shí)現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對(duì)比如圖2、圖3所示。
正常業(yè)務(wù)傳真在聚類過程中可以認(rèn)為是孤立點(diǎn)或者噪聲點(diǎn),大量重復(fù)的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶?duì)象?;诿芏鹊腄BSCAN[6]聚類算法能夠?qū)构铝Ⅻc(diǎn),并且能夠處理任意形狀和大小的類,因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義:
(2)如果一個(gè)對(duì)象的?著-近鄰中至少包含MinPts個(gè)對(duì)象,則稱這個(gè)對(duì)象為核對(duì)象。
(3)如果對(duì)象P為另一個(gè)對(duì)象q的ε-近鄰且q是核對(duì)象,則稱p是從q可“直接密度可達(dá)”(Density-Reachable)。
(4)如果存在一系列對(duì)象p1,p2,…,pn,其中p1=q,pn=p,而且pi+1(1≤i≤n-1)是從pi“直接密度可達(dá)”的,則稱p是從q可“密度可達(dá)”。
(5)若存在一個(gè)對(duì)象z,使得p和q都是從z“密度可達(dá)”的,則稱對(duì)象p“密度連接”對(duì)象q。
DBSCAN聚類算法就是檢查數(shù)據(jù)庫(kù)中每一個(gè)點(diǎn)的ε-近鄰。若一個(gè)對(duì)象p的ε-近鄰包含MinPts多于個(gè)對(duì)象,則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對(duì)象,循環(huán)搜索“直接密度可達(dá)”的對(duì)象,當(dāng)各聚類中再無(wú)新對(duì)象加入時(shí),聚類結(jié)束。
聚類算法的具體實(shí)現(xiàn)需要考慮如下因素:
(1)要判斷兩個(gè)圖像是否相同,只需要判斷有限個(gè)掃描行數(shù)據(jù)相似度大小即可。如果對(duì)整個(gè)圖片進(jìn)行特征比對(duì),會(huì)嚴(yán)重增加存儲(chǔ)和計(jì)算開支。
(2)正常情況下傳真都含有頁(yè)眉,頁(yè)眉涉及時(shí)間、主叫等信息,即使重復(fù)發(fā)送的垃圾傳真,頁(yè)眉顯示的時(shí)間也不相同,所以比較傳真時(shí)應(yīng)當(dāng)避開頁(yè)眉。
(3)在聚類處理的時(shí)段內(nèi),垃圾傳真如果數(shù)量少就會(huì)因?yàn)椴荒芫垲惗z,為此,應(yīng)該建立已知垃圾傳真特征庫(kù),供后續(xù)檢測(cè)使用。
基于上述考慮,聚類算法實(shí)現(xiàn)過程如下:
(1)分類器訓(xùn)練:利用訓(xùn)練數(shù)據(jù),采用最小方差準(zhǔn)則對(duì)?著、MinPts等聚類參數(shù)進(jìn)行確定。
(2)提取每個(gè)傳真圖片的游程特征C[i]:設(shè)定起始行Srow(如Srow=20),從此行向下搜索,找到有效圖像掃描行,作為新的起始行,從起始行開始,提取有限行Mrow(如Mrow=80)游程特征。
(3)確定垃圾傳真類:遍歷所有傳真,若一個(gè)傳真的ε-近鄰中至少包含MinPts個(gè)傳真,就創(chuàng)建包含這個(gè)傳真的類,該類中的所有傳真為垃圾傳真。
(4)確定類代表特征:設(shè)dij表示某傳真數(shù)為n的類中點(diǎn)i到點(diǎn)j的距離,di表示點(diǎn)i到該類所有點(diǎn)的距離和,如果di=min(d1,d1,…,dn),則點(diǎn)i為該類的中心點(diǎn),其游程特征作為該類的代表特征,加入垃圾傳真特征庫(kù)。
(5)確定孤立垃圾傳真:集合M={m1,m2,…}為垃圾傳真模版庫(kù),G={g1,g2,…}為不能聚類的傳真的集合,若d(gi,mj}<?著,則gi為垃圾傳真。
3 仿真測(cè)試
上述方法通過MATLAB完成了仿真實(shí)現(xiàn)。通過該方法實(shí)現(xiàn)的傳真服務(wù)器,不但具有一般傳真服務(wù)器的功能,而且能夠?qū)Υ职l(fā)的傳真進(jìn)行判別,確保最終用戶收到的傳真不是垃圾傳真。
本文最后進(jìn)行了性能測(cè)試。測(cè)試過程如下:
(1)從某公司傳真服務(wù)器處收集得到2 000份傳真數(shù)據(jù),隨機(jī)取其中400份作為訓(xùn)練集,另外1 600份作為測(cè)試集。
(2)建立傳真特征表,用來記錄傳真的特征數(shù)據(jù)。字段包括:文件名、屬性(垃圾傳真為0,其他為1)、可聚類性(在訓(xùn)練集中能夠聚類為1,否則為0)、聚類類別(人工對(duì)訓(xùn)練集中能夠聚類的傳真進(jìn)行分類,并標(biāo)以不同的類別值)。
(3)對(duì)訓(xùn)練集傳真進(jìn)行人工辨認(rèn),并將特征記入傳真特征表。
(4)根據(jù)最小方差準(zhǔn)則,用訓(xùn)練集中傳真對(duì)分類器參數(shù)進(jìn)行訓(xùn)練,使分類器輸出結(jié)果與傳真特征數(shù)據(jù)具有最大擬合度,從而得到分類器參數(shù)。
(5)對(duì)測(cè)試集中的傳真進(jìn)行人工辨認(rèn),并將特征記入傳真特征表。
(6)用訓(xùn)練得到的分類器對(duì)測(cè)試集中的1 600份傳真進(jìn)行分類,并將分類結(jié)果自動(dòng)記入數(shù)據(jù)庫(kù)。
(7)比對(duì)識(shí)別結(jié)果與人工辨認(rèn)數(shù)據(jù)。
測(cè)試結(jié)果如表1所示。
從表1中結(jié)果可知:
(1)沒有正常的業(yè)務(wù)傳真被檢測(cè)為垃圾傳真,說明本文的方法不會(huì)影響正常的傳真業(yè)務(wù)。
(2)垃圾傳真可能被誤識(shí)為正常傳真,這是因?yàn)楸痉椒ㄖ?,為了確保正常傳真不會(huì)被聚類,聚類的條件設(shè)置得比較苛刻,造成了部分垃圾傳真由于數(shù)量少不能聚類。
(3)在沒有影響正常傳真業(yè)務(wù)的情況下,本文方法對(duì)垃圾傳真的檢出率為92.5%,說明了本文方法的有效性。
在實(shí)際應(yīng)用中,能夠聚類的部分傳真可能包含用戶感興趣的資訊,用戶希望對(duì)此正常接收,所以在后續(xù)的工作中,應(yīng)該在聚類的基礎(chǔ)上,從用戶的感知和體驗(yàn)角度出發(fā),深入研究垃圾傳真的本質(zhì),使垃圾傳真的分類更加合理,進(jìn)一步提高安全傳真服務(wù)器的可用性。
參考文獻(xiàn)
[1] 羅新.基于局域網(wǎng)的傳真服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué)碩士學(xué)位論文,2006,6.
[2] 陳屹峰.嵌入式傳真服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[3] 李寶安,孟慶昌.中文信息處理技術(shù)——原理與應(yīng)用[M]. 北京:清華大學(xué)出版社,2005.
[4] 田麗華.編碼理論[M].陜西:西安電子科技大學(xué)出版社,2004.
[5] 楊蘭倉(cāng).?dāng)?shù)據(jù)挖掘中聚類和孤立點(diǎn)檢測(cè)算法的研究[D].復(fù)旦大學(xué)碩士學(xué)位論文,2004,4.
[6] 周水庚,周傲英.一種基于密度的快速聚類算法[J].計(jì)算機(jī)研究與發(fā)展,2000,37(11).