《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于BERT-LSTM模型的WebShell文件檢測(cè)研究
基于BERT-LSTM模型的WebShell文件檢測(cè)研究
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
鄧全才,徐懷彬
河北建筑工程學(xué)院信息工程學(xué)院
摘要: 針對(duì)基于傳統(tǒng)規(guī)則的WebShell文件檢測(cè)難度大,采用文本分類的思想,設(shè)計(jì)了一種基于BERT-LSTM模型的WebShell檢測(cè)方法。首先,對(duì)現(xiàn)有公開的正常PHP文件和惡意PHP文件進(jìn)行清洗編譯,得到指令opcode碼;然后,通過變換器的雙向編碼器表示技術(shù)(BERT)將操作碼轉(zhuǎn)換為特征向量;最后結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)從文本序列角度檢測(cè)特征建立分類模型。實(shí)驗(yàn)結(jié)果表明,該檢測(cè)模型的準(zhǔn)確率為98.95%,召回率為99.45%,F(xiàn)1值為99.09%,相比于其他模型檢測(cè)效果更好。
關(guān)鍵詞: BERT LSTM WebShell PyTorch
中圖分類號(hào):TP309;TP393文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2024.04.004
引用格式:鄧全才,徐懷彬.基于BERT-LSTM模型的WebShell文件檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(4):24-27.
Research on WebShell file detection based on BERT-LSTM model
Deng Quancai,Xu Huaibin
College of Information Engineering,Hebei University of Architecture
Abstract: Aiming at the difficulty of WebShell file detection based on traditional rules, a WebShell detection method based on BERT-LSTM model is designed using the idea of text classification. Firstly, the existing publicly available normal PHP files and malicious PHP files are cleaned and compiled to get the instruction opcode code; then, the opcode is converted into a feature vector by the bi-directional encoder representation technique (BERT) of the transformer; finally, the classification model is built by combining with the long-short-term memory network (LSTM) to detect the features from the perspective of text sequence. The experimental results show that the detection model has an accuracy of 98.95%, a recall of 99.45%, and an F1 value of 99.09%, which is better compared to other models for detection.
Key words : BERT;LSTM;WebShell;PyTorch

引言

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web應(yīng)用在電子商務(wù)、教育、社交網(wǎng)絡(luò)等眾多領(lǐng)域已成為人們?nèi)粘I詈凸ぷ髦斜夭豢扇鄙俚囊徊糠?,但是針?duì)Web服務(wù)的攻擊層出不窮,Web安全的重要性日益劇增。根據(jù)國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布的《2021年上半年我國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析報(bào)告》[1],雖然較之前我國被植入后門的網(wǎng)站有大幅的減少,但是還是有1.4萬個(gè)網(wǎng)站被植入WebShell后門,數(shù)量仍然巨大。大部分Web應(yīng)用都具有文件上傳功能,如果網(wǎng)站對(duì)上傳的文件沒有進(jìn)行嚴(yán)格的文件格式檢測(cè),那么黑客就可以上傳WebShell文件到服務(wù)器,對(duì)其進(jìn)行解析后可實(shí)現(xiàn)對(duì)服務(wù)器的控制。WebShell本質(zhì)是一種由PHP、ASP、NET、JSP等編程語言編寫的惡意腳本,該惡意腳本擁有獲取服務(wù)器信息、操作文件和數(shù)據(jù)庫、運(yùn)行系統(tǒng)命令等功能[2]。由于其通信方式與訪問普通網(wǎng)頁相同,因此不會(huì)被防火墻攔截,隱蔽性極強(qiáng)。因此,對(duì)服務(wù)器上的WebShell文件進(jìn)行有效檢測(cè),可以防范黑客的遠(yuǎn)程控制,保障Web應(yīng)用穩(wěn)定運(yùn)行。目前,WebShell擁有眾多的變體、高度簡(jiǎn)練的代碼以及多種混淆和加密技術(shù)的應(yīng)用,與傳統(tǒng)的規(guī)則檢測(cè)和流量檢測(cè)方法相比,它對(duì)文件檢測(cè)方法影響較小,所以文件檢測(cè)方法更具優(yōu)越性。因此,深入研究WebShell文件的檢測(cè)技術(shù)顯得尤為關(guān)鍵。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000005964


作者信息:

鄧全才,徐懷彬

(河北建筑工程學(xué)院信息工程學(xué)院,河北張家口075000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。