《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于多特征的P2P直播流識(shí)別方法
基于多特征的P2P直播流識(shí)別方法
來(lái)源:電子技術(shù)應(yīng)用2014年第2期
楊 楷, 汪斌強(qiáng), 張 震
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心, 河南 鄭州450002)
摘要: 針對(duì)當(dāng)前P2P流媒體直播流的識(shí)別方法較少、識(shí)別效果一般的問(wèn)題,分析了P2P直播流的行為特征,提出了基于節(jié)點(diǎn)連接度的識(shí)別方法和基于BM信息比的識(shí)別方法,并結(jié)合兩個(gè)流量特征采用聯(lián)合特征進(jìn)行P2P直播流識(shí)別。實(shí)驗(yàn)表明,該識(shí)別方法整體上識(shí)別準(zhǔn)確率較高,可以實(shí)現(xiàn)P2P直播的在線識(shí)別。
中圖分類(lèi)號(hào): TP393
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2014)02-0125-03
A method of identifying P2P live streaming based on union features
Yang Kai, Wang Binqiang, Zhang Zhen
China National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002,China
Abstract: There is less paper focusing on identifying P2P live streaming.This paper analyzes the behavioral characteristics of P2P live streaming and proposes an identification method based on node connectivity or BM packet .Then it combines two flow characteristics for identification of P2P live streaming.The experiment shows that the recognition method based on the union features can accurately and quickly identify P2P live streaming.
Key words : P2P live; connectivity; BM packet; union features

     近年已有部分學(xué)者開(kāi)始進(jìn)行P2P流媒體識(shí)別技術(shù)的研究[1]。劉朝斌[2]等人提出了4個(gè)可區(qū)分P2P流媒體和P2P文件下載應(yīng)用業(yè)務(wù)的流量特征,采用支持向量機(jī)對(duì)P2P流媒體進(jìn)行識(shí)別。陳偉[3]通過(guò)提取6個(gè)端點(diǎn)流量特征并結(jié)合C4.5決策樹(shù)方法實(shí)現(xiàn)P2P流媒體的識(shí)別。上述方法通常采用P2P直播流代替P2P流媒體,未考慮P2P點(diǎn)播流的影響,識(shí)別算法較為片面。胡超、楊潔[4]等人通過(guò)P2P流媒體軟件的協(xié)議特征實(shí)現(xiàn)P2P流媒體的識(shí)別,但基于協(xié)議特征的識(shí)別方法不能識(shí)別未知的P2P流媒體軟件。周麗娟[5]利用P2P直播的暫存性,萬(wàn)成威[6]分析了P2P直播失敗會(huì)話比例較高的問(wèn)題,實(shí)現(xiàn)了P2P直播流的識(shí)別,但所屬方法需要對(duì)P2P節(jié)點(diǎn)的所有下行流量進(jìn)行統(tǒng)計(jì)計(jì)算,耗時(shí)較長(zhǎng),且識(shí)別效果不理想。
    P2P流媒體識(shí)別的關(guān)鍵在于P2P流媒體特征的選取[7]。從上述研究發(fā)現(xiàn),基于協(xié)議特征的識(shí)別方法不能識(shí)別全部的P2P流媒體應(yīng)用[8-9];基于流量特征的識(shí)別方法未能提取有效區(qū)分P2P直播與點(diǎn)播的流量特征;基于行為特征的識(shí)別方法雖然可以識(shí)別P2P直播流,但由于提取特征較少,識(shí)別效果不理想。本文以此為出發(fā)點(diǎn)研究P2P流媒體的直播流的行為特征,提出了可以有效識(shí)別P2P直播流的行為特征,并結(jié)合直播流的流量特征實(shí)現(xiàn)了P2P流媒體的快速準(zhǔn)確識(shí)別。
1 P2P直播流識(shí)別方法
    基于上述分析結(jié)果,本文提出了兩種能夠準(zhǔn)確識(shí)別P2P直播流的行為特征,一種是基于服務(wù)器角色的節(jié)點(diǎn)連接度,另一種是BM信息比,將兩者特征結(jié)合可以有效地識(shí)別P2P直播流。
1.1 基于節(jié)點(diǎn)連接度的P2P直播流識(shí)別(DLN)
    在采用基于節(jié)點(diǎn)連接度的P2P直播流識(shí)別方法之前,需定義如下3個(gè)變量:
    定義1 客戶端角色節(jié)點(diǎn)連接度 C_link
    將一個(gè)節(jié)點(diǎn)作為目的 IP 地址,記錄在一段時(shí)間內(nèi)流經(jīng)該節(jié)點(diǎn)的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長(zhǎng)度大于800 B時(shí),記錄該數(shù)據(jù)包的源IP,最后計(jì)算相異的源IP個(gè)數(shù),即為客戶端角色的節(jié)點(diǎn)連接度。
    定義 2  服務(wù)器角色節(jié)點(diǎn)連接度 S_link
    將一個(gè)節(jié)點(diǎn)作為源 IP 地址,記錄一段時(shí)間內(nèi)該節(jié)點(diǎn)發(fā)出的數(shù)據(jù)包。當(dāng)數(shù)據(jù)包長(zhǎng)度大于800 B時(shí),記錄該數(shù)據(jù)包的目的IP,最后計(jì)算相異的目的IP個(gè)數(shù),即為服務(wù)器角色的節(jié)點(diǎn)連接度。
    定義 3 節(jié)點(diǎn)出/入連接比 PL
    PL=S_link/C link
    DLN識(shí)別算法如下:
   (1) 初始化C_link、S_link、PL和時(shí)間計(jì)數(shù)t。
 (2) 當(dāng)有數(shù)據(jù)包流經(jīng)節(jié)點(diǎn)時(shí),判斷計(jì)時(shí)t,如果t&ge;T,轉(zhuǎn)步驟(7);如果t<T;則轉(zhuǎn)步驟(3)。T為截取數(shù)據(jù)包時(shí)間的常量閾值。
    (3) 記錄當(dāng)前數(shù)據(jù)包源和目的IP,將IP與節(jié)點(diǎn)庫(kù)IPK中的IP進(jìn)行匹配。若成功,則轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4),并將該IP加入到IPK中。
    (4) 如果該數(shù)據(jù)包以該節(jié)點(diǎn)為目的節(jié)點(diǎn),轉(zhuǎn)步驟(5);如果該數(shù)據(jù)包以該節(jié)點(diǎn)為源節(jié)點(diǎn),則轉(zhuǎn)步驟(6)。
    (5) 測(cè)量該數(shù)據(jù)包長(zhǎng)度L1,若L1&ge;800,則C_link=C_link+1,轉(zhuǎn)步驟(2)。
    (6) 測(cè)量該數(shù)據(jù)包長(zhǎng)度L2,若L2&ge;800,則S_link=S_link+1,轉(zhuǎn)步驟(2)。
    (7) 計(jì)算PL。PL=S_Link/C_link。
    (8) 對(duì)PL進(jìn)行判斷,如果PL>&beta;,則該節(jié)點(diǎn)為P2P流媒體直播流。
1.2 基于BM信息比的P2P直播流識(shí)別
    定義4  S為客戶端角色時(shí)的下行流量集合,S={S1,S2,&hellip;,Sn},其中Si(i=1,2,&hellip;,n)為其中的一條五元組流。
    定義5  Ti為五元組流Si中IP包出現(xiàn)的時(shí)間數(shù)。
    定義6  Di為五元組流Si中BM信息包出現(xiàn)的時(shí)間數(shù)。
    定義7  Fi為五元組流Si的BM信息比,F(xiàn)i=Di/Ti。
    H-IRI方法識(shí)別步驟如下:
    (1) 初始化S為空集,n=0,t=0。
    (2) 對(duì)于時(shí)間t計(jì)數(shù),如果t&ge;T,轉(zhuǎn)步驟(5)。
    (3) 對(duì)于每一個(gè)到達(dá)的數(shù)據(jù)包P,如果flow(P)&isin;S,將其加入相應(yīng)子流,轉(zhuǎn)步驟(2);否則轉(zhuǎn)步驟(4)。
    (4) 如果length(P)&ge;800,則將flow(P)加入S中,同時(shí)n=n+1。
    (5) 對(duì)Si(i=1,2,&hellip;,n)進(jìn)行統(tǒng)計(jì),開(kāi)始時(shí)設(shè)置Ti,Di為0,然后進(jìn)行每秒統(tǒng)計(jì),在當(dāng)前1 s內(nèi),其中若有數(shù)據(jù)包,則Ti=Ti+1。若數(shù)據(jù)包中有BM信息數(shù)據(jù)包,則Di=Di+1,同時(shí)統(tǒng)計(jì)Si的數(shù)據(jù)包個(gè)數(shù)Ni。
    (6)選取Ni最大的前6項(xiàng)五元組流集合SS={SS1, &hellip;,SS6},其中NNi為SSi的數(shù)據(jù)包個(gè)數(shù),TTi為SSi的IP包出現(xiàn)時(shí)間數(shù),DDi為SSi的BM包出現(xiàn)時(shí)間數(shù)。
 (7) 計(jì)算SSi的BM信息比:FFi=DDi/TTi。
    (8) 計(jì)算S的平均BM信息比:
    
    (9) 判讀F,如果F&ge;?濁,則該節(jié)點(diǎn)流為P2P直播流。
    采用主流的P2P流量進(jìn)行1 min流量采集,并進(jìn)行BM信息比測(cè)量,結(jié)果如表1所示。

    從上述數(shù)據(jù)可知,H-IRI采用權(quán)重較大的五元組流進(jìn)行賦權(quán)重的BM信息比統(tǒng)計(jì),增大了直播流的BM信息比,減小了其他P2P應(yīng)用的BM信息比,使得直播流與其他應(yīng)用的BM信息比差距增大,有利于P2P直播流的識(shí)別。
1.3 基于聯(lián)合特征的P2P直播流識(shí)別方法
    單個(gè)行為特征無(wú)法全面測(cè)量P2P直播流的多方面的特性,僅僅使用單個(gè)行為特征來(lái)識(shí)別P2P直播流,必然導(dǎo)致識(shí)別的片面性。如果能夠綜合多個(gè)P2P直播流特征來(lái)共同識(shí)別P2P流,將有效地提高P2P直播流的識(shí)別效率。
    除上述兩特征,對(duì)實(shí)現(xiàn)較好的P2P流媒體PPTV、PPStream及QQlive分別進(jìn)行直播流和點(diǎn)播流的抓包測(cè)量,同時(shí)對(duì)P2P文件下載軟件迅雷和BT抓包測(cè)量。對(duì)它們的數(shù)據(jù)包長(zhǎng)進(jìn)行統(tǒng)計(jì),按字節(jié)長(zhǎng)度分為0~300 B、300~800 B及&ge;800 B三類(lèi)包,并統(tǒng)計(jì)每類(lèi)包的分布比例。表2為1 min內(nèi)3種P2P流媒體直播、點(diǎn)播及2種P2P下載軟件的包長(zhǎng)分布。
    由表2可知P2P直播流短包數(shù)遠(yuǎn)大于長(zhǎng)包數(shù),而P2P點(diǎn)播流短包數(shù)稍小于長(zhǎng)包數(shù)。同時(shí)P2P直播流的下載速率較為穩(wěn)定,一般不低于50 kb/s,而且不高于300 kb/s。

 

 

    本文采用基于特征加權(quán)的P2P識(shí)別方法,其中優(yōu)先級(jí)較高的特征擁有較高的權(quán)值,優(yōu)先級(jí)較低的特征擁有較低的權(quán)值。設(shè)定優(yōu)先級(jí)的權(quán)值為?琢i,?琢1>&hellip;>?琢n>0。根據(jù)匹配特征對(duì)識(shí)別準(zhǔn)確性的貢獻(xiàn)分配優(yōu)先級(jí),進(jìn)而確定權(quán)值大小。
 

    從圖中知,采用聯(lián)合特征可以將P2P直播流的識(shí)別準(zhǔn)確率從90%提高到約95%,由此可見(jiàn)該方法識(shí)別性能良好。
    P2P流媒體是當(dāng)前P2P技術(shù)的一個(gè)重要應(yīng)用方面,本文實(shí)現(xiàn)了P2P直播流的識(shí)別。下一步將對(duì)P2P點(diǎn)播進(jìn)行分析,實(shí)現(xiàn)P2P點(diǎn)播的識(shí)別。
參考文獻(xiàn)
[1] 孫衛(wèi)喜,席少龍.對(duì)等網(wǎng)聯(lián)下NAT穿越問(wèn)題的研究[J].電子技術(shù)應(yīng)用,2013,39(5):40-42.
[2] VALENTI S, ROSSI D, MEO M,et al. Accurate, finegrained classification of P2P-TV applications by simply counting packets[C].First International Workshop on Traffic Monitoring and Analysis, Aachen, Germany, 2009.
[3] 陳偉. 基于端點(diǎn)特征的P2P流媒體識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(7):60-62.
[4] 胡超. 實(shí)時(shí)識(shí)別P2P-TV視頻流的方法研究[J]. 電子與信息學(xué)報(bào),2011,33(9):19-24.
[5] 周麗娟. P2P流媒體識(shí)別方法的研究[D]. 武漢:華東科技大學(xué),2008.
[6] 萬(wàn)成威. 基于P2P流媒體模型的流量特征分析及實(shí)時(shí)分類(lèi)[D]. 鄭州:解放軍信息工程大學(xué),2012.
[7] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark[C].ACM SIGCOMM Conference, Philadelphia, USA, 2005.
[8] 魯剛,張宏利,葉麟. P2P流量識(shí)別[J].軟件學(xué)報(bào), 2011,22(6):81-86.
[9] 刑玲.基于節(jié)點(diǎn)連接度的 P2P 流量快速識(shí)別方法[J]. 計(jì)算機(jī)工程,2012,38(21):119-122.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。