0 引言
隨著大數據與云計算時代的到來,互聯網技術為人們的生產生活帶來了極大的便利,但由此帶來的網絡信息安全威脅也日益嚴峻,關乎個人和企業(yè)甚至國家的安全和利益。對個人而言,短信、電子郵件、網絡搜索記錄、照片等都涉及公民隱私信息,惡意攻擊導致的信息泄露會對公民人格尊嚴、財產安全甚至人身安全都造成影響。對企業(yè)而言,網絡信息安全關乎企業(yè)的商業(yè)機密、核心技術、財務安全等關鍵領域,是企業(yè)正常生產經營的保障,在“信息就是價值”的時代意義更為重大。對國家而言,網絡信息安全涉及政治、經濟、文化、軍事等各個關鍵領域,美國“棱鏡門”事件充分表明,網絡攻擊和信息竊取可能不僅限于個人行為,也可能是國家行為,這種有組織大規(guī)模的攻擊竊取行為對他國安全構成嚴重威脅。
1 網絡信息安全挑戰(zhàn)
網絡信息安全主要包括網絡空間安全和信息內容安全,前者主要指網絡中軟件與硬件的安全,后者主要指網絡信息內容在生成、傳輸、存儲與使用中的安全,涉及網絡技術、計算機技術、密碼學等多學科。近年來信息與互聯網技術高速發(fā)展,但與此同時網絡信息安全技術發(fā)展相對滯后,這也造成國內外重大網絡信息安全事件頻發(fā)。
2015年,偉易達公司480萬家長及20萬兒童隱私信息被泄露、日本養(yǎng)老金服務系統遭攻擊致125萬人受影響、優(yōu)步公司5萬司機信息遭泄露、喜達屋旗下54家酒店POS機被植入惡意軟件致用戶信息泄露。2016年,凱悅集團遭惡意軟件入侵致318家酒店的顧客名冊泄露、蘋果商店1 000多款應用被曝存在安全漏洞、阿里巴巴云計算平臺遭黑客攻擊致2 059萬淘寶賬戶信息泄露、俄羅斯黑客盜取2.73億郵箱信息、京東用戶的12 GB數據包在網上販賣、MongoDB數據庫漏洞致5 800萬商業(yè)用戶信息泄露。2017年,勒索病毒WannaCry在全世界范圍內攻擊了30多萬用戶,給150多個國家的金融、醫(yī)療、教育等各個行業(yè)造成了百億美元損失、美國1.98億選民的政治數據被泄露、美國信用評級機構Equifax遭攻擊致1.43億用戶信息外泄。
2 傳統網絡信息安全策略及缺點
網絡攻擊行為發(fā)生的原因主要包括炫耀技術、惡意報復、獲取利益、政治目的,常見的攻擊方式包括跨站攻擊、暴力破解、頁面篡改、SQL注入、遠程代碼執(zhí)行、拒絕服務、越權攻擊等[1],攻擊手法不斷更新變化。人為錯誤、管理不善、程序和系統漏洞以及安全措施不當等是網絡攻擊可以實施的客觀因素。具體來說,賬號密碼過于簡單或者管理不善,導致網絡犯罪分子偽裝成合法用戶、運維人員或者開發(fā)人員獲取數據或者安裝惡意軟件;軟件開發(fā)者使用了不安全的編程接口或者開源代碼,導致軟件存在漏洞或后門遭到控制和攻擊;操作系統未及時安裝補丁;懷有惡意的內部人士竊取信息或者造成破壞;訪問權限管理不當導致的誤操作;防火墻、殺毒軟件以及網絡監(jiān)控等防護措施缺失增加了感染病毒的風險。
為了防范網絡風險,傳統的應對策略主要概括為:
(1)規(guī)范管理,加強憑證、秘鑰管理,提高防范意識,合理分配開發(fā)人員和運維人員權限,制定明確操作規(guī)章杜絕違規(guī)操作,制定突發(fā)事件預案,保證系統和數據的快速恢復。
(2)審查審計,嚴格審查軟件代碼和硬件芯片的原始安全隱患和漏洞,防范內部人員預留后門和植入惡意代碼,全面審計每條數據和操作的來源和去向,對于攻擊和數據泄露有跡可循。
(3)全面防范,及時更新操作系統補丁,安裝防火墻和殺毒軟件,對網絡運行狀態(tài)進行監(jiān)控,及時阻斷非法訪問,查殺病毒和惡意軟件。
傳統網絡信息安全策略雖然能夠阻止大部分網絡威脅,但這種被動應對策略也存在明顯不足。首先,目前的網絡攻擊防御都是針對已知的網絡攻擊手段進行檢測,但現在的網絡攻擊方式變化更新很快,攻擊代碼經過多層封裝可能就是一種新的病毒,傳統的安全策略對新型攻擊的識別能力不足。其次,一旦有新型攻擊手段,傳統安全策略需要依賴安裝補丁、更新殺毒軟件等方式,響應速度慢而增加了安全風險,應對能力不足。另外,傳統網絡信息安全策略在很多環(huán)節(jié)依賴人工操作,這就增加了人為干預導致的網絡安全風險,增加了防控的難度。在大數據時代,傳統網絡安全策略應對復雜多變的網絡環(huán)境明顯有些力不從心。
3 深度學習在網絡信息安全中的應用
深度學習作為機器學習技術的一個非常重要的新興領域,正被日益廣泛地應用于各個行業(yè)領域。2016年谷歌旗下DeepMind公司研發(fā)的基于深度學習的機器人AlphaGo輕松戰(zhàn)勝了圍棋世界冠軍李世石而轟動世界,表明深度學習技術有著很強的處理能力以及自我學習能力。當前深度學習在各領域的技術突破,也為其在網絡信息安全領域的應用提供了理論支持。可以預見,深度學習在網絡安全管理和信息保障中的應用將達到一個前所未有的新高度。
3.1 深度學習發(fā)展歷程
20世紀80年代末,淺層學習的興起依賴于RUMELHART D等人利用反向傳播(Back Propagation, BP)算法提出的多層前反饋神經網絡,此后相繼提出的高斯混合(GMMs)、支持向量機(SVM)、條件隨機場(CRF)等淺層模型相較人工規(guī)劃系統可以更加有效地解決多重限制的應用問題,但由于這些淺層結構模型通常不超過2層非線性特征轉換層,對于真實世界中需多層網絡訓練的復雜問題,其泛化處理能力和復雜函數表示能力依然無法滿足要求。
深度學習是機器學習由淺層學習在理論、算法及應用等方面不斷發(fā)展突破而形成的新興領域。深度學習概念在1976年由MARTON F和SALJO R首次提出,并在《學習的本質區(qū)別:結果和過程》中詳細解釋了其含義,但直到2006年,加拿大科學家Hinton的團隊突破性地提出了深度置信網絡(Deep Belief Network, DBN)結構,利用每一層受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)[2],以無監(jiān)督學習訓練學到的參數初始化有監(jiān)督學習訓練,克服了BP算法層數增加時訓練困難的問題。此后谷歌、微軟、IBM等科技企業(yè)紛紛加大了深度學習的研發(fā)投入,深度學習在自然語言處理、語音識別、計算機視覺等領域的應用也取得了突破性地進展[3]。
3.2 深度學習技術特征
深度學習在數據模型理論方面其實是模仿人類大腦的學習過程,在對大量的數據進行提取以及分析的過程中,其數據之間會形成相互交叉的、復雜的網絡構造,這種構造中有著許多的隱層,該隱層并不是人為設定的,而是從海量的數據信息中自我學習得出的。因此,這種包含多個隱層的構造在處理數據信息的時候,可以實現外部信息與內部數據之間相互協調配合,提取出目標信息的深層次特征。
3.3 深度學習在網絡信息安全領域的應用
3.3.1 公共網絡語音監(jiān)管
語音信息是人與人溝通交流的重要載體,除了傳統的電話通信,也誕生了微信等即時通信軟件,但近年來違法分子利用網絡進行電信詐騙、語音恐嚇甚至危害國家安全等犯罪行為,海量語音信息通過人工審核顯然無法實現,需要更加高效的語音識別能力才能應對。
在2010年以前,語音識別通常采用HMM-GMM等模型,這些淺層模型雖然經過訓練能夠實現一定程度上的語音識別功能,但無法充分描述語音的內部結構特征及狀態(tài)空間分布,而當時訓練深度的有監(jiān)督的模型則因為梯度不穩(wěn)定、訓練困難且代價高昂等原因都以失敗告終。深度學習徹底改變了語音識別原有技術框架,利用深度學習技術進行語音特征提取和聲學建模,可以有效提高語音識別能力。如圖1所示,公共網絡語音信息輸入含多個隱層的深度學習神經網絡,將提取的特征信息與語音特征庫進行比對[4],特征庫是大量違法犯罪語音信息樣本訓練深度神經網絡得到的抽象特征集合,對比后分離出可疑的語音信息,通過人工分析研判等方式,確定干預的方式。
3.3.2 安卓惡意軟件檢測
智能手機和平板電腦等移動終端能夠更好地滿足移動互聯時代快節(jié)奏的工作生活方式,包含用戶社會關系、財產信息、位置軌跡等隱私數據。2/3以上移動終端使用Android操作系統,不法分子利用Android系統開源的特性,開發(fā)惡意軟件對安裝設備實施惡意操作,造成嚴重安全威脅,而傳統檢測技術對于采用了代碼混淆和重打包技術的惡意軟件檢出率不高。
如圖2所示,使用大樣本的安卓程序訓練集,提取其中的靜態(tài)特征和動態(tài)特征,生成特征向量訓練深度置信網絡,生成深度學習網絡。利用深度學習網絡對待測Android程序靜態(tài)特征和動態(tài)特征結合生成的特征向量進行檢查分析[5],可以得到相對準確的結果。靜態(tài)信息和動態(tài)行為是分析安卓應用程序的主要手段,靜態(tài)特征可通過逆向工程方式提取,動態(tài)特征需要分析Android體系架構各層指令信息。
3.3.3 入侵檢測
入侵檢測是為了保護內部網絡避免異常訪問或攻擊等惡意活動而造成破壞,入侵方式的日益復雜也給網絡安全帶來嚴峻挑戰(zhàn),訪問控制、防火墻、數據加密等傳統應對技術越來越難以應對。目前的入侵檢測技術主要包括基于統計、基于聚類、基于分類和基于信息理論這幾種算法方式,雖然在一定條件下有較好的效果,但對于復雜網絡環(huán)境的入侵檢出率還是不理想。
深度學習技術在入侵檢測中逐漸得到應用,基于循環(huán)神經網絡、深度置信網絡、卷積神經網絡等深度學習算法的入侵檢測方式都取得了很大突破。一般首先對大量原始數據進行預處理得到原始訓練集,然后訓練基于特定算法的神經網絡,得到相應的檢測模型。待檢測數據預處理后輸入檢測模型,輸出結果通過分析判斷得到網絡入侵情況。
3.3.4 色情圖像檢測
網絡色情是嚴重的網絡違法犯罪行為,而互聯網和通信技術的發(fā)展使得色情信息傳播更加方便快捷和隱蔽,對廣大青少年的身心健康造成嚴重影響。之前圖像識別中常用的模板匹配等方法普遍采用人工特征提取與機器學習的方式,對于色情圖像的識別面臨一些困難,導致很多色情網站屢禁不止。
圖像識別中,圖像特征的提取是圖像識別性能的關鍵?;谄つw檢測的色情識別通過檢測裸露皮膚比例等參數,如HSV色彩模型,再運用相關方法進行判別,但對于復雜紋理和光照效果不理想;基于手工特征提取的色情識別,如視覺詞袋模型,通過相關部位特征提取和分類器獲取分類結果,速度和精度也不能完全滿足要求。深度學習在色情圖像檢測中的泛化處理能力和魯棒性優(yōu)勢明顯。一種基于深度學習的色情圖像檢測流程如圖3所示,待測圖像輸入卷積神經網絡CNN,比如ResNet、VGGNet、AlexNet[6]或者GoogleNet[7],判斷圖片是否是色情圖片。
3.3.5 違法文本信息檢測
不法分子利用互聯網傳播違法文本信息會造成惡劣的影響,這些信息包括虛假信息、反動信息、詐騙信息等,利用諧音、拆分、拼音等方式可以逃避目前通常采用的敏感詞檢測,這就要求自然語言處理需要更加完善和高效。
自然語言處理通常采用基于統計的淺層模型,多數研究采用分離詞性標注、語義相關詞、命名實體識別、語義角色標注等方式處理,將若干分離的任務進行特征串聯增大了誤差,同時忽視了語言的整體性。但隨著深度學習技術的發(fā)展,自然語言處理的研究成為熱點,卷積、循環(huán)、遞歸等網路模型在自然語言處理上的應用,使得違法文本信息檢測更加準確。
3.3.6 其他應用
深度學習也逐步在網絡信息安全的其他各個領域得到廣泛應用?;谏疃葘W習的人臉識別作為一種高效的身份認證手段,相比賬號密碼更加安全;在釣魚網站檢測中的應用避免了惡意信息的傳播和瀏覽用戶的風險;深度學習技術對基于HTTP協議惡意特征分析能夠避免Web應用中利用HTTP協議進行惡意操作;在信息檢索中應用深度學習技術可以防范搜索引擎的檢索結果中出現惡意鏈接。
4 結論
深度學習技術在語音、圖像、自然語言識別等領域的發(fā)展,為解決嚴峻的網絡信息安全威脅提供了更加智能和高效的解決手段。深度學習在公共網絡語音監(jiān)管、入侵檢測、色情圖像檢測和違法信息檢測等領域也逐步得到應用。但當前網絡環(huán)境日益復雜多變、網絡攻擊手段日益狡猾多樣,現階段的深度學習技術雖然在理論和建模上有所創(chuàng)新,但在工程應用中依然無法完全滿足實際要求。相信隨著深度學習技術的不斷發(fā)展和成熟,其在網絡信息安全領域的應用一定會取得更大的突破。
參考文獻
[1] 魏為民,袁仲雄.網絡攻擊與防御技術的研究與實踐[J].信息網絡安全,2012(12):53-56.
[2] 奚雪峰,周國棟.面向自然語言處理的深度學習研究[J].自動化學報,2016,42(10):1445-1465.
[3] 張巧麗,趙地,遲學斌.基于深度學習的醫(yī)學影像診斷綜述[J].計算機科學,2017,44(11A):1-7.
[4] 邵翀,張凡忠.深度學習在公共網絡安全管理中的應用研究[J].網絡安全技術與應用,2015(6):89-90.
[5] 蘇志達,祝躍飛,劉龍.基于深度學習的安卓惡意應用檢測[J].計算機應用,2017(6):1650-1656.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe: NIPS, 2012: 1097-1105.
[7] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015: 1-9.
(收稿日期:2018-07-01)
作者簡介:
陳驍(1990-),男,碩士研究生,主要研究方向:網絡安全。