文獻(xiàn)標(biāo)識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.012
引用格式: 劉向宇,燕瑋,孟星妤,等. 一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的網(wǎng)絡(luò)安全用戶發(fā)現(xiàn)方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(1):78-82.
0 引言
發(fā)現(xiàn)社交媒體中的網(wǎng)絡(luò)安全用戶可以有效追蹤網(wǎng)絡(luò)安全動態(tài),對網(wǎng)絡(luò)安全防護(hù)具有重要意義。實(shí)際上,識別社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)安全用戶也是對社交網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分類發(fā)現(xiàn)。
現(xiàn)實(shí)生活中,人們傾向于與類似的人發(fā)展社會關(guān)系,所以社交用戶的好友會分享更多的屬性,如種族、民族、宗教和職業(yè)——這就是所謂的“同質(zhì)性原則”[1]。這導(dǎo)致了在Twitter上相互關(guān)注的人通常有共同的話題興趣,可以通過相互關(guān)注關(guān)系來推斷社交媒體用戶的屬性。另外,社交用戶還具備其他可以獲取的數(shù)據(jù),如社交文本和用戶資料,這些資料構(gòu)成新的用戶屬性,也有助于推斷用戶的興趣或者職業(yè),與用戶的社交關(guān)系形成互補(bǔ)。
當(dāng)前已經(jīng)有大量的用戶分類工作都是基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行節(jié)點(diǎn)的分類。比如,網(wǎng)絡(luò)表示學(xué)習(xí)方法直接對網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行學(xué)習(xí)提取,將得到的特征用于分類可以取得不錯的效果。然而,現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏對社交文本和社交基本資料特征的學(xué)習(xí),極大地限制了其分類效果。相對于單純利用社交網(wǎng)絡(luò)結(jié)構(gòu)對用戶進(jìn)行分類,當(dāng)前主流的圖神經(jīng)網(wǎng)絡(luò)算法創(chuàng)新性地融入了網(wǎng)絡(luò)節(jié)點(diǎn)的其他屬性特征,獲得了更高的分類準(zhǔn)確率。本文針對網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏社交文本特征的問題,通過改進(jìn)Node2vec[2]方法,使其融合多種網(wǎng)絡(luò)屬性特征而更加有利于分類,從而識別出社交媒體中的網(wǎng)絡(luò)安全用戶。
本文的創(chuàng)新性工作包括:
(1)利用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec來進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的特征表示,將結(jié)構(gòu)特征向量和相應(yīng)用戶節(jié)點(diǎn)的文本特征向量進(jìn)行拼接,形成社交用戶節(jié)點(diǎn)的向量表示。
(2)標(biāo)注了部分網(wǎng)絡(luò)安全用戶,初步形成網(wǎng)絡(luò)安全用戶資料庫。對于每個用戶節(jié)點(diǎn),生成其網(wǎng)絡(luò)安全文本特征。
(3)利用自監(jiān)督學(xué)習(xí)方法進(jìn)行分類模型的訓(xùn)練樣本擴(kuò)充,提升了分類效果。
結(jié)果表明,在已經(jīng)收集的Twitter數(shù)據(jù)集上,所提方法的平均識別準(zhǔn)確率為96.37%,比現(xiàn)有常用的算法平均高出0.48%~3.67%。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000004615
作者信息:
劉向宇,燕 瑋,孟星妤,侯開茂
(華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)