文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2014)02-0125-03
近年已有部分學(xué)者開(kāi)始進(jìn)行P2P流媒體識(shí)別技術(shù)的研究[1]。劉朝斌[2]等人提出了4個(gè)可區(qū)分P2P流媒體和P2P文件下載應(yīng)用業(yè)務(wù)的流量特征,采用支持向量機(jī)對(duì)P2P流媒體進(jìn)行識(shí)別。陳偉[3]通過(guò)提取6個(gè)端點(diǎn)流量特征并結(jié)合C4.5決策樹(shù)方法實(shí)現(xiàn)P2P流媒體的識(shí)別。上述方法通常采用P2P直播流代替P2P流媒體,未考慮P2P點(diǎn)播流的影響,識(shí)別算法較為片面。胡超、楊潔[4]等人通過(guò)P2P流媒體軟件的協(xié)議特征實(shí)現(xiàn)P2P流媒體的識(shí)別,但基于協(xié)議特征的識(shí)別方法不能識(shí)別未知的P2P流媒體軟件。周麗娟[5]利用P2P直播的暫存性,萬(wàn)成威[6]分析了P2P直播失敗會(huì)話比例較高的問(wèn)題,實(shí)現(xiàn)了P2P直播流的識(shí)別,但所屬方法需要對(duì)P2P節(jié)點(diǎn)的所有下行流量進(jìn)行統(tǒng)計(jì)計(jì)算,耗時(shí)較長(zhǎng),且識(shí)別效果不理想。
P2P流媒體識(shí)別的關(guān)鍵在于P2P流媒體特征的選取[7]。從上述研究發(fā)現(xiàn),基于協(xié)議特征的識(shí)別方法不能識(shí)別全部的P2P流媒體應(yīng)用[8-9];基于流量特征的識(shí)別方法未能提取有效區(qū)分P2P直播與點(diǎn)播的流量特征;基于行為特征的識(shí)別方法雖然可以識(shí)別P2P直播流,但由于提取特征較少,識(shí)別效果不理想。本文以此為出發(fā)點(diǎn)研究P2P流媒體的直播流的行為特征,提出了可以有效識(shí)別P2P直播流的行為特征,并結(jié)合直播流的流量特征實(shí)現(xiàn)了P2P流媒體的快速準(zhǔn)確識(shí)別。
1 P2P直播流識(shí)別方法
基于上述分析結(jié)果,本文提出了兩種能夠準(zhǔn)確識(shí)別P2P直播流的行為特征,一種是基于服務(wù)器角色的節(jié)點(diǎn)連接度,另一種是BM信息比,將兩者特征結(jié)合可以有效地識(shí)別P2P直播流。
1.1 基于節(jié)點(diǎn)連接度的P2P直播流識(shí)別(DLN)
在采用基于節(jié)點(diǎn)連接度的P2P直播流識(shí)別方法之前,需定義如下3個(gè)變量:
定義1 客戶端角色節(jié)點(diǎn)連接度 C_link
將一個(gè)節(jié)點(diǎn)作為目的 IP 地址,記錄在一段時(shí)間內(nèi)流經(jīng)該節(jié)點(diǎn)的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長(zhǎng)度大于800 B時(shí),記錄該數(shù)據(jù)包的源IP,最后計(jì)算相異的源IP個(gè)數(shù),即為客戶端角色的節(jié)點(diǎn)連接度。
定義 2 服務(wù)器角色節(jié)點(diǎn)連接度 S_link
將一個(gè)節(jié)點(diǎn)作為源 IP 地址,記錄一段時(shí)間內(nèi)該節(jié)點(diǎn)發(fā)出的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長(zhǎng)度大于800 B時(shí),記錄該數(shù)據(jù)包的目的IP,最后計(jì)算相異的目的IP個(gè)數(shù),即為服務(wù)器角色的節(jié)點(diǎn)連接度。
定義 3 節(jié)點(diǎn)出/入連接比 PL
PL=S_link/C link
DLN識(shí)別算法如下:
(1) 初始化C_link、S_link、PL和時(shí)間計(jì)數(shù)t。
(2) 當(dāng)有數(shù)據(jù)包流經(jīng)節(jié)點(diǎn)時(shí),判斷計(jì)時(shí)t,如果t≥T,轉(zhuǎn)步驟(7);如果t<T;則轉(zhuǎn)步驟(3)。T為截取數(shù)據(jù)包時(shí)間的常量閾值。
(3) 記錄當(dāng)前數(shù)據(jù)包源和目的IP,將IP與節(jié)點(diǎn)庫(kù)IPK中的IP進(jìn)行匹配。若成功,則轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4),并將該IP加入到IPK中。
(4) 如果該數(shù)據(jù)包以該節(jié)點(diǎn)為目的節(jié)點(diǎn),轉(zhuǎn)步驟(5);如果該數(shù)據(jù)包以該節(jié)點(diǎn)為源節(jié)點(diǎn),則轉(zhuǎn)步驟(6)。
(5) 測(cè)量該數(shù)據(jù)包長(zhǎng)度L1,若L1≥800,則C_link=C_link+1,轉(zhuǎn)步驟(2)。
(6) 測(cè)量該數(shù)據(jù)包長(zhǎng)度L2,若L2≥800,則S_link=S_link+1,轉(zhuǎn)步驟(2)。
(7) 計(jì)算PL。PL=S_Link/C_link。
(8) 對(duì)PL進(jìn)行判斷,如果PL>β,則該節(jié)點(diǎn)為P2P流媒體直播流。
1.2 基于BM信息比的P2P直播流識(shí)別
定義4 S為客戶端角色時(shí)的下行流量集合,S={S1,S2,…,Sn},其中Si(i=1,2,…,n)為其中的一條五元組流。
定義5 Ti為五元組流Si中IP包出現(xiàn)的時(shí)間數(shù)。
定義6 Di為五元組流Si中BM信息包出現(xiàn)的時(shí)間數(shù)。
定義7 Fi為五元組流Si的BM信息比,F(xiàn)i=Di/Ti。
H-IRI方法識(shí)別步驟如下:
(1) 初始化S為空集,n=0,t=0。
(2) 對(duì)于時(shí)間t計(jì)數(shù),如果t≥T,轉(zhuǎn)步驟(5)。
(3) 對(duì)于每一個(gè)到達(dá)的數(shù)據(jù)包P,如果flow(P)∈S,將其加入相應(yīng)子流,轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4)。
(4) 如果length(P)≥800,則將flow(P)加入S中,同時(shí)n=n+1。
(5) 對(duì)Si(i=1,2,…,n)進(jìn)行統(tǒng)計(jì),開(kāi)始時(shí)設(shè)置Ti,Di為0,然后進(jìn)行每秒統(tǒng)計(jì),在當(dāng)前1 s內(nèi),其中若有數(shù)據(jù)包,則Ti=Ti+1。若數(shù)據(jù)包中有BM信息數(shù)據(jù)包,則Di=Di+1,同時(shí)統(tǒng)計(jì)Si的數(shù)據(jù)包個(gè)數(shù)Ni。
(6)選取Ni最大的前6項(xiàng)五元組流集合SS={SS1, …,SS6},其中NNi為SSi的數(shù)據(jù)包個(gè)數(shù),TTi為SSi的IP包出現(xiàn)時(shí)間數(shù),DDi為SSi的BM包出現(xiàn)時(shí)間數(shù)。
(7) 計(jì)算SSi的BM信息比:FFi=DDi/TTi。
(8) 計(jì)算S的平均BM信息比:
(9) 判讀F,如果F≥?濁,則該節(jié)點(diǎn)流為P2P直播流。
采用主流的P2P流量進(jìn)行1 min流量采集,并進(jìn)行BM信息比測(cè)量,結(jié)果如表1所示。
從上述數(shù)據(jù)可知,H-IRI采用權(quán)重較大的五元組流進(jìn)行賦權(quán)重的BM信息比統(tǒng)計(jì),增大了直播流的BM信息比,減小了其他P2P應(yīng)用的BM信息比,使得直播流與其他應(yīng)用的BM信息比差距增大,有利于P2P直播流的識(shí)別。
1.3 基于聯(lián)合特征的P2P直播流識(shí)別方法
單個(gè)行為特征無(wú)法全面測(cè)量P2P直播流的多方面的特性,僅僅使用單個(gè)行為特征來(lái)識(shí)別P2P直播流,必然導(dǎo)致識(shí)別的片面性。如果能夠綜合多個(gè)P2P直播流特征來(lái)共同識(shí)別P2P流,將有效地提高P2P直播流的識(shí)別效率。
除上述兩特征,對(duì)實(shí)現(xiàn)較好的P2P流媒體PPTV、PPStream及QQlive分別進(jìn)行直播流和點(diǎn)播流的抓包測(cè)量,同時(shí)對(duì)P2P文件下載軟件迅雷和BT抓包測(cè)量。對(duì)它們的數(shù)據(jù)包長(zhǎng)進(jìn)行統(tǒng)計(jì),按字節(jié)長(zhǎng)度分為0~300 B、300~800 B及≥800 B三類(lèi)包,并統(tǒng)計(jì)每類(lèi)包的分布比例。表2為1 min內(nèi)3種P2P流媒體直播、點(diǎn)播及2種P2P下載軟件的包長(zhǎng)分布。
由表2可知P2P直播流短包數(shù)遠(yuǎn)大于長(zhǎng)包數(shù),而P2P點(diǎn)播流短包數(shù)稍小于長(zhǎng)包數(shù)。同時(shí)P2P直播流的下載速率較為穩(wěn)定,一般不低于50 kb/s,而且不高于300 kb/s。
本文采用基于特征加權(quán)的P2P識(shí)別方法,其中優(yōu)先級(jí)較高的特征擁有較高的權(quán)值,優(yōu)先級(jí)較低的特征擁有較低的權(quán)值。設(shè)定優(yōu)先級(jí)的權(quán)值為?琢i,?琢1>…>?琢n>0。根據(jù)匹配特征對(duì)識(shí)別準(zhǔn)確性的貢獻(xiàn)分配優(yōu)先級(jí),進(jìn)而確定權(quán)值大小。
從圖中知,采用聯(lián)合特征可以將P2P直播流的識(shí)別準(zhǔn)確率從90%提高到約95%,由此可見(jiàn)該方法識(shí)別性能良好。
P2P流媒體是當(dāng)前P2P技術(shù)的一個(gè)重要應(yīng)用方面,本文實(shí)現(xiàn)了P2P直播流的識(shí)別。下一步將對(duì)P2P點(diǎn)播進(jìn)行分析,實(shí)現(xiàn)P2P點(diǎn)播的識(shí)別。
參考文獻(xiàn)
[1] 孫衛(wèi)喜,席少龍.對(duì)等網(wǎng)聯(lián)下NAT穿越問(wèn)題的研究[J].電子技術(shù)應(yīng)用,2013,39(5):40-42.
[2] VALENTI S, ROSSI D, MEO M,et al. Accurate, finegrained classification of P2P-TV applications by simply counting packets[C].First International Workshop on Traffic Monitoring and Analysis, Aachen, Germany, 2009.
[3] 陳偉. 基于端點(diǎn)特征的P2P流媒體識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(7):60-62.
[4] 胡超. 實(shí)時(shí)識(shí)別P2P-TV視頻流的方法研究[J]. 電子與信息學(xué)報(bào),2011,33(9):19-24.
[5] 周麗娟. P2P流媒體識(shí)別方法的研究[D]. 武漢:華東科技大學(xué),2008.
[6] 萬(wàn)成威. 基于P2P流媒體模型的流量特征分析及實(shí)時(shí)分類(lèi)[D]. 鄭州:解放軍信息工程大學(xué),2012.
[7] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark[C].ACM SIGCOMM Conference, Philadelphia, USA, 2005.
[8] 魯剛,張宏利,葉麟. P2P流量識(shí)別[J].軟件學(xué)報(bào), 2011,22(6):81-86.
[9] 刑玲.基于節(jié)點(diǎn)連接度的 P2P 流量快速識(shí)別方法[J]. 計(jì)算機(jī)工程,2012,38(21):119-122.