《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模拟设计 > 设计应用 > 基于BERT-LSTM模型的WebShell文件检测研究
基于BERT-LSTM模型的WebShell文件检测研究
网络安全与数据治理
邓全才,徐怀彬
河北建筑工程学院信息工程学院
摘要: 针对基于传统规则的WebShell文件检测难度大,采用文本分类的思想,设计了一种基于BERT-LSTM模型的WebShell检测方法。首先,对现有公开的正常PHP文件和恶意PHP文件进行清洗编译,得到指令opcode码;然后,通过变换器的双向编码器表示技术(BERT)将操作码转换为特征向量;最后结合长短期记忆网络(LSTM)从文本序列角度检测特征建立分类模型。实验结果表明,该检测模型的准确率为98.95%,召回率为99.45%,F1值为99.09%,相比于其他模型检测效果更好。
關(guān)鍵詞: BERT LSTM WebShell PyTorch
中圖分類(lèi)號(hào):TP309;TP393文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2024.04.004
引用格式:鄧全才,徐懷彬.基于BERT-LSTM模型的WebShell文件檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(4):24-27.
Research on WebShell file detection based on BERT-LSTM model
Deng Quancai,Xu Huaibin
College of Information Engineering,Hebei University of Architecture
Abstract: Aiming at the difficulty of WebShell file detection based on traditional rules, a WebShell detection method based on BERT-LSTM model is designed using the idea of text classification. Firstly, the existing publicly available normal PHP files and malicious PHP files are cleaned and compiled to get the instruction opcode code; then, the opcode is converted into a feature vector by the bi-directional encoder representation technique (BERT) of the transformer; finally, the classification model is built by combining with the long-short-term memory network (LSTM) to detect the features from the perspective of text sequence. The experimental results show that the detection model has an accuracy of 98.95%, a recall of 99.45%, and an F1 value of 99.09%, which is better compared to other models for detection.
Key words : BERT;LSTM;WebShell;PyTorch

引言

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web應(yīng)用在電子商務(wù)、教育、社交網(wǎng)絡(luò)等眾多領(lǐng)域已成為人們?nèi)粘I詈凸ぷ髦斜夭豢扇鄙俚囊徊糠?,但是針?duì)Web服務(wù)的攻擊層出不窮,Web安全的重要性日益劇增。根據(jù)國(guó)家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布的《2021年上半年我國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全監(jiān)測(cè)數(shù)據(jù)分析報(bào)告》[1],雖然較之前我國(guó)被植入后門(mén)的網(wǎng)站有大幅的減少,但是還是有1.4萬(wàn)個(gè)網(wǎng)站被植入WebShell后門(mén),數(shù)量仍然巨大。大部分Web應(yīng)用都具有文件上傳功能,如果網(wǎng)站對(duì)上傳的文件沒(méi)有進(jìn)行嚴(yán)格的文件格式檢測(cè),那么黑客就可以上傳WebShell文件到服務(wù)器,對(duì)其進(jìn)行解析后可實(shí)現(xiàn)對(duì)服務(wù)器的控制。WebShell本質(zhì)是一種由PHP、ASP、NET、JSP等編程語(yǔ)言編寫(xiě)的惡意腳本,該惡意腳本擁有獲取服務(wù)器信息、操作文件和數(shù)據(jù)庫(kù)、運(yùn)行系統(tǒng)命令等功能[2]。由于其通信方式與訪(fǎng)問(wèn)普通網(wǎng)頁(yè)相同,因此不會(huì)被防火墻攔截,隱蔽性極強(qiáng)。因此,對(duì)服務(wù)器上的WebShell文件進(jìn)行有效檢測(cè),可以防范黑客的遠(yuǎn)程控制,保障Web應(yīng)用穩(wěn)定運(yùn)行。目前,WebShell擁有眾多的變體、高度簡(jiǎn)練的代碼以及多種混淆和加密技術(shù)的應(yīng)用,與傳統(tǒng)的規(guī)則檢測(cè)和流量檢測(cè)方法相比,它對(duì)文件檢測(cè)方法影響較小,所以文件檢測(cè)方法更具優(yōu)越性。因此,深入研究WebShell文件的檢測(cè)技術(shù)顯得尤為關(guān)鍵。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000005964


作者信息:

鄧全才,徐懷彬

(河北建筑工程學(xué)院信息工程學(xué)院,河北張家口075000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容