《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測(cè)研究
基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測(cè)研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
馮美琪1,2,李赟1,2,蔣冰1,2,王立松1,2,劉春波3,陳偉1,2
1.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司運(yùn)行中心; 2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司IT基礎(chǔ)設(shè)施國(guó)產(chǎn)化適配工程技術(shù)研究中心; 3.中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心
摘要: 隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)站數(shù)量不斷增長(zhǎng),URL作為訪問(wèn)網(wǎng)站的唯一入口,成為Web攻擊的重點(diǎn)對(duì)象。傳統(tǒng)的URL檢測(cè)方式主要是針對(duì)惡意URL,主要方法是基于特征值和黑白名單,容易產(chǎn)生漏報(bào),且對(duì)于復(fù)雜URL的檢測(cè)能力不足。為解決上述問(wèn)題,基于集成學(xué)習(xí)中的Boosting思想,提出一種針對(duì)業(yè)務(wù)訪問(wèn)的風(fēng)險(xiǎn)URL檢測(cè)的混合模型。該模型前期將URL作為字符串,使用自然語(yǔ)言處理技術(shù)對(duì)其進(jìn)行分詞及向量化,然后采用分步建模法的思想,首先利用GBDT算法構(gòu)建二分類模型,判斷URL是否存在風(fēng)險(xiǎn),接著將風(fēng)險(xiǎn)URL原始字符串輸入到多分類模型中,利用XGBoost算法對(duì)其進(jìn)行多分類判定,明確風(fēng)險(xiǎn)URL的具體風(fēng)險(xiǎn)類型,為安全分析人員提供參考。在模型構(gòu)建過(guò)程中不斷進(jìn)行參數(shù)調(diào)優(yōu),并采用AUC值和F1值分別對(duì)二分類模型和多分類模型進(jìn)行評(píng)估,評(píng)估結(jié)果顯示二分類模型的AUC值為98.91%,多分類模型的F1值為0.993,效果較好。將其應(yīng)用到實(shí)際環(huán)境中,與現(xiàn)有檢測(cè)手段進(jìn)行對(duì)比,發(fā)現(xiàn)模型的檢出率高于現(xiàn)有WAF和APT安全設(shè)備,其檢測(cè)結(jié)果彌補(bǔ)了現(xiàn)有檢測(cè)手段的漏報(bào)。
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2024.07.006
引用格式:馮美琪,李赟,蔣冰,等.基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(7):32-40.
Research on risk URL detection based on Boosting ensemble learning
Li Yun 1,2,Jiang Bing 1,2,Wang Lisong 1,2,Liu Chunbo3,Chen Wei1,2
1. Operation Center,TravelSky Technology Limited; 2. IT Infrastructure Localization Adaptation Engineering Technology Research Center,TravelSky Technology Limited 3. Information Security Evaluation Center, Civil Aviation University of China
Abstract: With the continuous development of the Internet and the growing number of websites, URL, as the only access to websites, has become the focus of web attacks. The traditional URL detection method mainly targets malicious URLs, based on feature values and black-and-white lists, but it is prone to false positives and lacks detection capability for complex URLs. To resolve the appeal issue, a hybrid model for risk URL detection in business access is proposed based on the Boosting concept in ensemble learning. In the early stage of this model, the URL is treated as a string, and natural language processing techniques are used to segment and vectorize it. Then, a two-step approach is adopted. Firstly, the GBDT algorithm is used to construct a binary classification model to determine whether the URL is at risk. Then, the original string of the risk URL is input into a multi classification model, and the XGBoost algorithm is used to perform multi classification judgment on it, clarifying the specific risk types of the risk URL and providing reference for security analysts. During the model construction process, parameter optimization was continuously carried out, and the AUC value and F1 value were used to evaluate the binary classification model and the multi classification model, respectively. The evaluation results showed that the AUC value of the binary classification model was 98.91%, and the F1 value of the multi classification model was 0.993, indicating good performance. Applying it to practical environments and comparing it with existing detection methods, it was found that the detection rate of the model is higher than that of existing WAF and APT detection devices, and its detection results make up for the missed reports of existing detection methods.
Key words : web attacks; ensemble learning; regularization; stepwise modeling method

引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,在線購(gòu)物、出行服務(wù)、系統(tǒng)工具和生活服務(wù)等都為人們帶來(lái)了極大的便利。根據(jù)CNNIC數(shù)據(jù),截至2023年12月,中國(guó)網(wǎng)民數(shù)達(dá)10.92億,互聯(lián)網(wǎng)滲透率達(dá)77.5%。同時(shí),Log4j等重大漏洞的出現(xiàn)也印證了Web應(yīng)用程序所帶來(lái)的嚴(yán)重危害。而URL作為訪問(wèn)網(wǎng)站的唯一入口,其也成為了Web攻擊的重點(diǎn)對(duì)象,如何從海量業(yè)務(wù)訪問(wèn)中檢測(cè)出風(fēng)險(xiǎn)URL也成為了重點(diǎn)研究方向。針對(duì)URL的檢測(cè),目前的研究方向主要集中在惡意URL,是指通過(guò)作為釣魚(yú)網(wǎng)頁(yè)的載體、XSS攻擊等多種方式竊取用戶的隱私和財(cái)產(chǎn),造成嚴(yán)重的網(wǎng)絡(luò)安全威脅的URL[1],檢測(cè)方法主要包括特征值檢測(cè)、黑白名單過(guò)濾等,其不足之處在于,當(dāng)特征值或URL不在預(yù)設(shè)的名單中,則會(huì)產(chǎn)生漏報(bào),同時(shí)此類方法無(wú)法實(shí)時(shí)對(duì)新的URL進(jìn)行檢測(cè)。啟發(fā)式技術(shù)的提出解決了對(duì)新的URL檢測(cè)的不足,但此類方法僅能用于有效數(shù)量的常見(jiàn)威脅[1]。然而,隨著URL攻擊的復(fù)雜度以及攻擊能力的不斷增強(qiáng),傳統(tǒng)的檢測(cè)方法已無(wú)法滿足防護(hù)需求,且其覆蓋范圍較窄,無(wú)法識(shí)別海量業(yè)務(wù)訪問(wèn)中存在風(fēng)險(xiǎn)的URL,需要探索新的應(yīng)用場(chǎng)景和檢測(cè)方法。在20世紀(jì)80年代,隨著人工神經(jīng)網(wǎng)絡(luò)的成功,機(jī)器學(xué)習(xí)越來(lái)越受到重視,由于其使計(jì)算機(jī)能夠?qū)W習(xí)、適應(yīng)、推測(cè)模式,在沒(méi)有明確編程指令的情況下相互通信[2]的特點(diǎn),逐漸應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域。相較于傳統(tǒng)的檢測(cè)方法,機(jī)器學(xué)習(xí)模型具有更高的檢測(cè)效率和更強(qiáng)的泛化能力。目前對(duì)于URL的研究主要集中在惡意URL,而非業(yè)務(wù)相關(guān)的風(fēng)險(xiǎn)URL的檢測(cè)。惡意URL的相關(guān)研究主要可以分為三類:第一類是單一的機(jī)器學(xué)習(xí)算法,如BP神經(jīng)網(wǎng)絡(luò)[3]、卷積神經(jīng)網(wǎng)絡(luò)[4]、關(guān)聯(lián)規(guī)則[5]等。第二類是集成多種機(jī)器學(xué)習(xí)算法,如雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[6]和膠囊網(wǎng)絡(luò)結(jié)合、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合[7-9]等,同時(shí)引入注意力機(jī)制來(lái)增加關(guān)鍵特征的權(quán)重。此類研究中還有一種是集成學(xué)習(xí)[1],一種方法是主要利用嶺分類、支持向量機(jī)、樸素貝葉斯作為初級(jí)學(xué)習(xí)器,采用邏輯回歸作為次級(jí)學(xué)習(xí)器,通過(guò)初級(jí)學(xué)習(xí)器和次級(jí)學(xué)習(xí)器相結(jié)合的雙層結(jié)構(gòu)對(duì)URL進(jìn)行檢測(cè)[10];另一種方法采用CNN與XGBoost相結(jié)合的檢測(cè)模型,利用CNN實(shí)現(xiàn)自動(dòng)提取特征,通過(guò)XGBoost進(jìn)行分類[11]。最后一類研究是機(jī)器學(xué)習(xí)與其他手段聯(lián)合進(jìn)行檢測(cè),如威脅情報(bào)[12]、專家知識(shí)[13]、字符嵌入編碼[14]等。本文對(duì)業(yè)務(wù)從互聯(lián)網(wǎng)接收到的風(fēng)險(xiǎn)URL請(qǐng)求開(kāi)展檢測(cè)研究,采用分步建模法和集成學(xué)習(xí)的思想,將風(fēng)險(xiǎn)URL檢測(cè)模型分為兩個(gè)子模型:風(fēng)險(xiǎn)URL檢測(cè)以及風(fēng)險(xiǎn)URL類型分類。首先采用GBDT算法確定業(yè)務(wù)訪問(wèn)的URL是否存在風(fēng)險(xiǎn),針對(duì)風(fēng)險(xiǎn)URL,采用XGBoost算法確定具體的風(fēng)險(xiǎn)類型。同時(shí)產(chǎn)生告警供安全運(yùn)營(yíng)人員確認(rèn)并處置,在一定程度上彌補(bǔ)現(xiàn)有特征值檢測(cè)方法的漏報(bào)。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006089


作者信息:

馮美琪1,2,李赟1,2,蔣冰1,2,王立松1,2,劉春波3,陳偉1,2

(1.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司運(yùn)行中心,北京101318;

2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司IT基礎(chǔ)設(shè)施國(guó)產(chǎn)化適配工程技術(shù)研究中心,北京101318;

3.中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心,天津300300)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。