《電子技術應用》
您所在的位置:首頁 > 通信与网络 > 设计应用 > 基于双模型的半监督流形混合流量分类方法
基于双模型的半监督流形混合流量分类方法
网络安全与数据治理
马可1,何明枢1,蔡晶晶2,王小娟1
1.北京邮电大学电子工程学院;2.永信至诚科技集团股份有限公司
摘要: 深度学习技术在网络流量分类领域中得到广泛应用,但存在对大量数据的依赖以及过拟合问题。为解决该问题,提出了一种结合双模型协作与流形混合的半监督深度学习方法。该方法使用教师-学生架构,通过移动指数平均辅助模型学习过程,从而提升模型的泛化性能,并于模型的特征空间中进行数据的流形混合,能够有效改善模型的决策边界,进一步增强模型的鲁棒性。实验结果表明,在不同数据类别,数据量为1 000的条件下,方法在三种网络流量数据集上都能达到90%以上的准确率,并在更少量数据的条件下保持较高的分类精度。
中圖分類號:TP393.08文獻標志碼:ADOI:10.19358/j.issn.2097-1788.2026.01.001
中文引用格式:馬可,何明樞,蔡晶晶,等. 基于雙模型的半監(jiān)督流形混合流量分類方法[J].網(wǎng)絡安全與數(shù)據(jù)治理,2026,45(1):1-8.
英文引用格式:Ma Ke,He Mingshu,Cai Jingjing, et al. A semi-supervised manifold mixup traffic classification method based on MeanTeacher[J].Cyber Security and Data Governance,2026,45(1):1-8.
A semi-supervised manifold mixup traffic classification method based on Mean-Teacher
Ma Ke1,He Mingshu1,Cai Jingjing2,Wang Xiaojuan1
1. School of Electronic Engineering, Beijing University of Posts and Telecommunications; 2. Integrity Technology Group Inc.
Abstract: Deep Learning techniques have been widely applied in the field of network traffic classification. However, there still exist various challenges, including dependency on large scale data and overfitting. To address these issues, a semisupervised deep learning method combining mean teacher and manifold mixup is proposed. This method employs a teacher-student architecture, utilizing Exponential Moving Average (EMA) to assist the model learning process and to enhance the generalization capability of model. Additionally, manifold mixup in the feature space effectively refines the model′s decision boundary, strengthening robustness. Experimental results demonstrate that with only 1 000 samples per class, the method achieves over 90% accuracy across three network traffic datasets while maintaining outstanding performance under fewshot condition.
Key words : traffic classification; semisupervised learning; manifold mixup; teacher-student model

引言

網(wǎng)絡流量分類(Traffic Classification)技術能夠精準識別不同應用程序或服務所產(chǎn)生的網(wǎng)絡流量,同時探測出潛在的威脅流量,這對于維護網(wǎng)絡安全與穩(wěn)定運行具有關鍵意義。如今,互聯(lián)網(wǎng)技術呈現(xiàn)出日新月異的發(fā)展態(tài)勢,網(wǎng)絡流量也隨之呈現(xiàn)出爆炸式增長以及復雜化的特點。流量加密技術,諸如廣泛運用的TLS/SSL協(xié)議,在切實保障用戶隱私和數(shù)據(jù)安全方面成效顯著。然而,這種加密技術的廣泛應用也給網(wǎng)絡流量分類帶來了前所未有的挑戰(zhàn)。傳統(tǒng)的流量分類方法,例如基于端口的方法,主要依據(jù)流量五元組中的端口號信息來推斷應用類型。然而,面對當下動態(tài)端口和端口偽裝技術,尤其是針對日益復雜的加密流量,這類簡單依賴端口或明文載荷的方法已經(jīng)暴露出明顯的局限性,難以滿足實際需求。隨著研究的不斷深入,機器學習(Machine Learning)方法被引入到流量分類領域。但目前的機器學習方法大多依賴于人工設計的流量特征,這在很大程度上限制了其泛化能力,使其難以應對復雜多變的網(wǎng)絡環(huán)境。而深度學習(Deep Learning)方法雖具備自動從原始數(shù)據(jù)中提取有效特征的優(yōu)勢,但對大量標記數(shù)據(jù)存在高度依賴性,而在網(wǎng)絡安全領域,獲取大規(guī)模、高質(zhì)量的標記流量數(shù)據(jù)成本高昂。同時,當訓練數(shù)據(jù)規(guī)模不足、代表性不強或存在偏差時,深度模型因其高復雜度和海量參數(shù),極易學習到數(shù)據(jù)中的噪聲而非普適規(guī)律,從而導致過擬合問題,降低了模型在真實網(wǎng)絡環(huán)境中的泛化能力。鑒于上述問題,本文提出了一種基于教師-學生雙模型的半監(jiān)督流形混合流量分類方法(Manifold Mixup Mean Teacher,M3T)。教師-學生架構(Mean Teacher,MT)是一種利用雙模型架構的先進方法。在該架構中,學生模型借助梯度下降方法,利用標記數(shù)據(jù)與無標記數(shù)據(jù)進行更新迭代;而教師模型則采用移動指數(shù)平均(Exponential Moving Average, EMA)方式更新參數(shù),憑借其更為穩(wěn)定的輸出,對學生的模型學習過程進行有效監(jiān)督,進而顯著提升模型的泛化性能。在此基礎上,本研究進一步引入由教師模型引導的流形特征混合機制,于教師模型的深層特征空間中運用流形混合(Manifold Mixup)方法,構建起“教師特征擾動-學生動態(tài)對齊”的雙向優(yōu)化框架,以此增強模型對特征擾動的魯棒性,同時優(yōu)化決策邊界,使其更適應復雜的流量分類場景。綜上所述,本文的主要貢獻為:(1)提出教師模型引導的流形特征混合機制,將流形混合遷移至教師模型的深層特征空間,構建“教師特征擾動-學生動態(tài)對齊”雙向優(yōu)化框架。利用教師EMA參數(shù)提供的穩(wěn)定特征表達,避免學生模型早期特征的不確定性干擾。(2)通過三項損失的協(xié)同,在模型框架中實現(xiàn)基礎分類、一致性對齊與決策邊界平滑的聯(lián)合優(yōu)化。交叉熵損失保證基礎分類能力;一致性損失強制學生輸出與教師輸出對齊,實現(xiàn)一致性正則化,緩解模型過擬合問題;混合損失增強模型對特征擾動的魯棒性,優(yōu)化決策邊界平滑。(3)提出一種基于教師-學生架構的半監(jiān)督流形混合網(wǎng)絡流量分類模型框架,在多個流量數(shù)據(jù)集上評估預訓練模型,結果顯示能夠普遍取得90%以上的準確率。


本文詳細內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006926


作者信息:

馬可1,何明樞1,蔡晶晶2,王小娟1

(1.北京郵電大學電子工程學院,北京100876;

2.永信至誠科技集團股份有限公司,北京100089)

2.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。