123,123,123

一种基于聚类技术的安全传真服务器设计方法

来源:电子技术应用2010年第12期

于洪涛，黄海，冯晓磊

国家数字交换系统工程技术研究中心，河南郑州450002

摘要： 提出一种安全传真服务器的概念，其基本原理是在传真服务器中增加垃圾传真检测功能，使用户免受垃圾传真的侵扰。利用垃圾传真普遍以广播形式散播的特点，采用游程特征进行聚类，从而判别接收的是否垃圾传真。仿真测试表明，该方法有较高的准确度。

關(guān)鍵詞： 传真服务器安全传真服务器垃圾传真游程特征聚类

中圖分類號(hào)： TN917
文獻(xiàn)標(biāo)識(shí)碼： A
文章編號(hào)： 0258-7998(2010)12-0039-03

A design method of safety fax server based on clustering techniques

YU Hong Tao，HUANG Hai，FENG Xiao Lei

National Digital Switching System Engineering & Technological R&D Center,Zhengzhou 450002，China

Abstract： This paper proposes a concept of safety fax server ,whose basic principle is to add junk fax detection function to the fax server to protect users from junk faxes. Junk faxes generally spread with the form of broadcast, thus the specific means is to cluster the receiving faxes with run-length characteristics to discriminate junk faxes from normal faxes, simulation result indicates that this method has high accuracy.

Key words : fax server；safety fax server；junk fax；run_length characteristics；cluster

    傳真服務(wù)器是隨著通信技術(shù)的發(fā)展，針對(duì)大中型企業(yè)、機(jī)關(guān)需求推出的一種集團(tuán)傳真通信解決方案。它的基本原理是通過軟硬件集成，實(shí)現(xiàn)多路傳真的并發(fā)收發(fā)，并在此基礎(chǔ)上，與辦公流程相結(jié)合，實(shí)現(xiàn)更復(fù)雜的自動(dòng)化管理。
   目前的傳真服務(wù)器，其主要業(yè)務(wù)是實(shí)現(xiàn)傳真的收發(fā)管理，但是不具備安全功能，因此很容易成為垃圾傳真的攻擊目標(biāo)，尤其是一些大企業(yè)，其號(hào)碼為公眾所熟悉，更是垃圾傳真的重災(zāi)區(qū)。垃圾傳真的泛濫不但造成巨大的浪費(fèi)，而且嚴(yán)重影響正常辦公。
   針對(duì)上述問題，本文提出一種安全傳真服務(wù)器的概念，在傳真服務(wù)器上增加垃圾傳真的自動(dòng)檢測(cè)功能，從而使分發(fā)或打印的傳真都是安全有效的。
1 安全傳真服務(wù)器模型
   文獻(xiàn)[1]、文獻(xiàn)[2]等給出了傳真服務(wù)器的實(shí)現(xiàn)方法。為實(shí)現(xiàn)安全傳真服務(wù)器，需要在原來的傳真服務(wù)器上增加傳真自動(dòng)分類功能，只對(duì)無害的傳真進(jìn)行分發(fā)，而將垃圾傳真剔除。一種直觀的方法是在分發(fā)之前增加內(nèi)容的機(jī)器識(shí)別功能，如對(duì)傳真圖像進(jìn)行OCR[3]（光學(xué)字符識(shí)別）識(shí)別，得到傳真圖像的文本字符信息，在此基礎(chǔ)上進(jìn)行文本分類。但是受限于傳真的實(shí)際情況，如手工發(fā)送造成的版面傾斜、手寫字體等，如果直接對(duì)其進(jìn)行OCR識(shí)別，較低的準(zhǔn)確率會(huì)嚴(yán)重影響系統(tǒng)的可用性，為此，需要對(duì)垃圾傳真的特征進(jìn)行全面研究及利用，確保分類方法的有效性。
   垃圾傳真通常是將一份傳真進(jìn)行廣播式發(fā)送，因此在傳真服務(wù)器的接收端，垃圾傳真重復(fù)嚴(yán)重，而正常業(yè)務(wù)傳真則沒有此特征。所以本文的方法是對(duì)接收到的傳真進(jìn)行聚類處理，能夠聚類的認(rèn)為是垃圾傳真，不能聚類的認(rèn)為是正常業(yè)務(wù)傳真。根據(jù)上述分析，得到安全傳真服務(wù)器的系統(tǒng)模型，如圖1所示。與傳統(tǒng)的傳真服務(wù)器相比，本服務(wù)器在傳真分發(fā)前，增加了對(duì)垃圾傳真的聚類檢測(cè)功能。為達(dá)到最佳的檢測(cè)效果，且避免垃圾傳真因數(shù)量少而不能聚類，增加了垃圾傳真的歷史特征庫。

2 垃圾傳真檢測(cè)算法
   由安全傳真服務(wù)器系統(tǒng)模型可見，調(diào)制解調(diào)、編碼解碼、傳真收集與分發(fā)等都屬于普通傳真服務(wù)器具有的功能，相關(guān)資料中已有說明，本文不再重復(fù)，這里只詳細(xì)介紹其中的垃圾傳真檢測(cè)算法。
   本文中的應(yīng)用對(duì)精確度要求很高，不允許將正常業(yè)務(wù)傳真識(shí)別為垃圾傳真，所以需要選取一種能夠精確表達(dá)傳真內(nèi)容的特征進(jìn)行聚類，本文采用傳真的游程[4]特征。
   每幅傳真圖片的黑白像素分布不同，從每一掃描行的圖像數(shù)據(jù)上看，這種不同體現(xiàn)在黑像素和白像素的分布上，即交替的次數(shù)不同，且連續(xù)黑白像素點(diǎn)的長(zhǎng)度也不同。將此特征以游程數(shù)M和游程值L來描述，游程數(shù)是指每個(gè)掃描行黑白像素變化的次數(shù)，游程值是指每個(gè)連續(xù)像素段的像素個(gè)數(shù)。假如某一行的像素為00001111110011000，則該掃描行的游程特征為：M=4，L0，…，M=(4，6，2，2，3)。將所有的傳真圖像以此特征來描述，并進(jìn)行比較，即可實(shí)現(xiàn)相同傳真圖像的聚類。傳真圖像與游程特征的對(duì)比如圖2、圖3所示。

    正常業(yè)務(wù)傳真在聚類過程中可以認(rèn)為是孤立點(diǎn)或者噪聲點(diǎn)，大量重復(fù)的垃圾傳真或者廣告?zhèn)髡媸潜疚木垲惖膶?duì)象?；诿芏鹊腄BSCAN[6]聚類算法能夠?qū)构铝Ⅻc(diǎn)，并且能夠處理任意形狀和大小的類，因此這里選擇DBSCAN算法。DBSCAN算法提出了一些新的定義：

    (2)如果一個(gè)對(duì)象的?著-近鄰中至少包含MinPts個(gè)對(duì)象，則稱這個(gè)對(duì)象為核對(duì)象。
    (3)如果對(duì)象P為另一個(gè)對(duì)象q的ε-近鄰且q是核對(duì)象，則稱p是從q可“直接密度可達(dá)”(Density-Reachable)。
    (4)如果存在一系列對(duì)象p1，p2，…，pn，其中p1=q，pn=p，而且pi+1(1≤i≤n-1)是從pi“直接密度可達(dá)”的，則稱p是從q可“密度可達(dá)”。
    (5)若存在一個(gè)對(duì)象z，使得p和q都是從z“密度可達(dá)”的，則稱對(duì)象p“密度連接”對(duì)象q。
   DBSCAN聚類算法就是檢查數(shù)據(jù)庫中每一個(gè)點(diǎn)的ε-近鄰。若一個(gè)對(duì)象p的ε-近鄰包含MinPts多于個(gè)對(duì)象，則創(chuàng)建包含p的聚類。然后DBSCAN根據(jù)這些核對(duì)象，循環(huán)搜索“直接密度可達(dá)”的對(duì)象，當(dāng)各聚類中再無新對(duì)象加入時(shí)，聚類結(jié)束。
   聚類算法的具體實(shí)現(xiàn)需要考慮如下因素：
   (1)要判斷兩個(gè)圖像是否相同，只需要判斷有限個(gè)掃描行數(shù)據(jù)相似度大小即可。如果對(duì)整個(gè)圖片進(jìn)行特征比對(duì)，會(huì)嚴(yán)重增加存儲(chǔ)和計(jì)算開支。
   (2)正常情況下傳真都含有頁眉，頁眉涉及時(shí)間、主叫等信息，即使重復(fù)發(fā)送的垃圾傳真，頁眉顯示的時(shí)間也不相同，所以比較傳真時(shí)應(yīng)當(dāng)避開頁眉。
   (3)在聚類處理的時(shí)段內(nèi)，垃圾傳真如果數(shù)量少就會(huì)因?yàn)椴荒芫垲惗z，為此，應(yīng)該建立已知垃圾傳真特征庫，供后續(xù)檢測(cè)使用。
   基于上述考慮，聚類算法實(shí)現(xiàn)過程如下：
   (1)分類器訓(xùn)練：利用訓(xùn)練數(shù)據(jù)，采用最小方差準(zhǔn)則對(duì)?著、MinPts等聚類參數(shù)進(jìn)行確定。
   (2)提取每個(gè)傳真圖片的游程特征C[i]：設(shè)定起始行Srow（如Srow=20），從此行向下搜索，找到有效圖像掃描行，作為新的起始行，從起始行開始，提取有限行Mrow（如Mrow=80）游程特征。
   (3)確定垃圾傳真類：遍歷所有傳真，若一個(gè)傳真的ε-近鄰中至少包含MinPts個(gè)傳真，就創(chuàng)建包含這個(gè)傳真的類，該類中的所有傳真為垃圾傳真。
   (4)確定類代表特征：設(shè)dij表示某傳真數(shù)為n的類中點(diǎn)i到點(diǎn)j的距離，di表示點(diǎn)i到該類所有點(diǎn)的距離和，如果di=min(d1，d1，…，dn)，則點(diǎn)i為該類的中心點(diǎn)，其游程特征作為該類的代表特征，加入垃圾傳真特征庫。
   (5)確定孤立垃圾傳真：集合M={m1，m2，…}為垃圾傳真模版庫，G={g1，g2，…}為不能聚類的傳真的集合，若d(gi，mj}<?著，則gi為垃圾傳真。
3 仿真測(cè)試
   上述方法通過MATLAB完成了仿真實(shí)現(xiàn)。通過該方法實(shí)現(xiàn)的傳真服務(wù)器，不但具有一般傳真服務(wù)器的功能，而且能夠?qū)Υ职l(fā)的傳真進(jìn)行判別，確保最終用戶收到的傳真不是垃圾傳真。
   本文最后進(jìn)行了性能測(cè)試。測(cè)試過程如下：
   (1)從某公司傳真服務(wù)器處收集得到2 000份傳真數(shù)據(jù)，隨機(jī)取其中400份作為訓(xùn)練集，另外1 600份作為測(cè)試集。
   (2)建立傳真特征表，用來記錄傳真的特征數(shù)據(jù)。字段包括：文件名、屬性（垃圾傳真為0，其他為1）、可聚類性（在訓(xùn)練集中能夠聚類為1，否則為0）、聚類類別（人工對(duì)訓(xùn)練集中能夠聚類的傳真進(jìn)行分類，并標(biāo)以不同的類別值）。
   (3)對(duì)訓(xùn)練集傳真進(jìn)行人工辨認(rèn)，并將特征記入傳真特征表。
   (4)根據(jù)最小方差準(zhǔn)則，用訓(xùn)練集中傳真對(duì)分類器參數(shù)進(jìn)行訓(xùn)練，使分類器輸出結(jié)果與傳真特征數(shù)據(jù)具有最大擬合度，從而得到分類器參數(shù)。
   (5)對(duì)測(cè)試集中的傳真進(jìn)行人工辨認(rèn)，并將特征記入傳真特征表。
   (6)用訓(xùn)練得到的分類器對(duì)測(cè)試集中的1 600份傳真進(jìn)行分類，并將分類結(jié)果自動(dòng)記入數(shù)據(jù)庫。
   (7)比對(duì)識(shí)別結(jié)果與人工辨認(rèn)數(shù)據(jù)。
   測(cè)試結(jié)果如表1所示。

    從表1中結(jié)果可知：
   (1)沒有正常的業(yè)務(wù)傳真被檢測(cè)為垃圾傳真，說明本文的方法不會(huì)影響正常的傳真業(yè)務(wù)。
   (2)垃圾傳真可能被誤識(shí)為正常傳真，這是因?yàn)楸痉椒ㄖ?，為了確保正常傳真不會(huì)被聚類，聚類的條件設(shè)置得比較苛刻，造成了部分垃圾傳真由于數(shù)量少不能聚類。
   (3)在沒有影響正常傳真業(yè)務(wù)的情況下，本文方法對(duì)垃圾傳真的檢出率為92.5%，說明了本文方法的有效性。
   在實(shí)際應(yīng)用中，能夠聚類的部分傳真可能包含用戶感興趣的資訊，用戶希望對(duì)此正常接收，所以在后續(xù)的工作中，應(yīng)該在聚類的基礎(chǔ)上，從用戶的感知和體驗(yàn)角度出發(fā)，深入研究垃圾傳真的本質(zhì)，使垃圾傳真的分類更加合理，進(jìn)一步提高安全傳真服務(wù)器的可用性。

參考文獻(xiàn)
[1] 羅新．基于局域網(wǎng)的傳真服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[D]．大連理工大學(xué)碩士學(xué)位論文，2006，6．
[2] 陳屹峰．嵌入式傳真服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[D]．復(fù)旦大學(xué)碩士學(xué)位論文，2004，4．
[3] 李寶安，孟慶昌．中文信息處理技術(shù)——原理與應(yīng)用[M]. 北京：清華大學(xué)出版社，2005.
[4] 田麗華．編碼理論[M].陜西：西安電子科技大學(xué)出版社，2004.
[5] 楊蘭倉．?dāng)?shù)據(jù)挖掘中聚類和孤立點(diǎn)檢測(cè)算法的研究[D]．復(fù)旦大學(xué)碩士學(xué)位論文，2004，4．
[6] 周水庚，周傲英．一種基于密度的快速聚類算法[J].計(jì)算機(jī)研究與發(fā)展，2000，37(11)．

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容