文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.012
引用格式: 劉向宇,燕瑋,孟星妤,等. 一種基于網(wǎng)絡表示學習的網(wǎng)絡安全用戶發(fā)現(xiàn)方法[J].網(wǎng)絡安全與數(shù)據(jù)治理,2022,41(1):78-82.
0 引言
發(fā)現(xiàn)社交媒體中的網(wǎng)絡安全用戶可以有效追蹤網(wǎng)絡安全動態(tài),對網(wǎng)絡安全防護具有重要意義。實際上,識別社交網(wǎng)絡中的網(wǎng)絡安全用戶也是對社交網(wǎng)絡節(jié)點進行分類發(fā)現(xiàn)。
現(xiàn)實生活中,人們傾向于與類似的人發(fā)展社會關系,所以社交用戶的好友會分享更多的屬性,如種族、民族、宗教和職業(yè)——這就是所謂的“同質(zhì)性原則”[1]。這導致了在Twitter上相互關注的人通常有共同的話題興趣,可以通過相互關注關系來推斷社交媒體用戶的屬性。另外,社交用戶還具備其他可以獲取的數(shù)據(jù),如社交文本和用戶資料,這些資料構成新的用戶屬性,也有助于推斷用戶的興趣或者職業(yè),與用戶的社交關系形成互補。
當前已經(jīng)有大量的用戶分類工作都是基于網(wǎng)絡拓撲結構進行節(jié)點的分類。比如,網(wǎng)絡表示學習方法直接對網(wǎng)絡結構特征進行學習提取,將得到的特征用于分類可以取得不錯的效果。然而,現(xiàn)有的網(wǎng)絡表示學習方法缺乏對社交文本和社交基本資料特征的學習,極大地限制了其分類效果。相對于單純利用社交網(wǎng)絡結構對用戶進行分類,當前主流的圖神經(jīng)網(wǎng)絡算法創(chuàng)新性地融入了網(wǎng)絡節(jié)點的其他屬性特征,獲得了更高的分類準確率。本文針對網(wǎng)絡表示學習方法缺乏社交文本特征的問題,通過改進Node2vec[2]方法,使其融合多種網(wǎng)絡屬性特征而更加有利于分類,從而識別出社交媒體中的網(wǎng)絡安全用戶。
本文的創(chuàng)新性工作包括:
(1)利用網(wǎng)絡表示學習模型Node2vec來進行網(wǎng)絡節(jié)點的特征表示,將結構特征向量和相應用戶節(jié)點的文本特征向量進行拼接,形成社交用戶節(jié)點的向量表示。
(2)標注了部分網(wǎng)絡安全用戶,初步形成網(wǎng)絡安全用戶資料庫。對于每個用戶節(jié)點,生成其網(wǎng)絡安全文本特征。
(3)利用自監(jiān)督學習方法進行分類模型的訓練樣本擴充,提升了分類效果。
結果表明,在已經(jīng)收集的Twitter數(shù)據(jù)集上,所提方法的平均識別準確率為96.37%,比現(xiàn)有常用的算法平均高出0.48%~3.67%。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004615
作者信息:
劉向宇,燕 瑋,孟星妤,侯開茂
(華北計算機系統(tǒng)工程研究所,北京100083)