隨著IT產(chǎn)業(yè)爆炸式的發(fā)展,大數(shù)據(jù)技術已深入國家戰(zhàn)略、企業(yè)發(fā)展和個人生活的方方面面。然而隨著大數(shù)據(jù)技術的蓬勃發(fā)展,與之伴隨安全方面的研究相對落后,大數(shù)據(jù)的安全問題往往會對國家、政府、企業(yè)及個人造成嚴重危害。通過研究已有的大數(shù)據(jù)框架,結合當前國內(nèi)外最新大數(shù)據(jù)安全標準和法規(guī),設計了一種在大數(shù)據(jù)環(huán)境下的安全稽查與風險評估平臺。首先,以研究大數(shù)據(jù)資產(chǎn)監(jiān)管為基礎,對資產(chǎn)與安全能力進行安全稽查;其次,結合稽查結果與大數(shù)據(jù)安全標準,完成風險評估以實現(xiàn)盡早發(fā)現(xiàn)平臺中所存在的安全威脅。
0 引 言
在享有“大數(shù)據(jù)時代的預言家”之稱的全球數(shù)據(jù)科學家維克托·邁爾 - 舍恩伯格所著的《大數(shù)據(jù)時代》一書中提出“大數(shù)據(jù)”概念,該書前瞻性地指出,大數(shù)據(jù)帶來的信息風暴對我們的生活、工作和思維習慣帶來了變革性的改變。隨著第三次信息化浪潮的涌動,見證了互聯(lián)網(wǎng)公司利用大數(shù)據(jù)技術對我們生活產(chǎn)生的巨大影響,可以毫不夸張地說,現(xiàn)在我們的生活已離不開大數(shù)據(jù)技術應用。在2020年5月,國家工業(yè)和信息化部發(fā)布《關于工業(yè)大數(shù)據(jù)發(fā)展的指導意見》中,提出“推動工業(yè)數(shù)據(jù)全采集、加快工業(yè)設備互聯(lián)互通、推動工業(yè)高質量匯聚、統(tǒng)籌建設國家工業(yè)大數(shù)據(jù)平臺、推動工業(yè)數(shù)據(jù)開發(fā)共享、激發(fā)工業(yè)數(shù)據(jù)市場活力、深化數(shù)據(jù)應用、完善數(shù)據(jù)治理”。由此可見,大數(shù)據(jù)已成為國家發(fā)展的重要戰(zhàn)略,已深入國家發(fā)展的關鍵領域,因此安全作為國家大數(shù)據(jù)發(fā)展的基石將面臨越發(fā)嚴峻的挑戰(zhàn)。
目前大數(shù)據(jù)在安全方面的研究還遠遠跟不上大數(shù)據(jù)技術的發(fā)展。2020年1月,微軟披露了存儲客戶支持分析上的數(shù)據(jù)大量泄漏,該數(shù)據(jù)安全事故發(fā)生在 2019年12月,由于服務器存在漏洞,造成2.5億個條目在沒有任何安全保護措施的情況下泄露。后經(jīng)調查分析,用于進行搜索操作的數(shù)據(jù)庫由5個ElasticSearch服務器組成,該服務器上的安全規(guī)則配置錯誤導致安全漏洞。2020年4月,經(jīng)醫(yī)療巨頭公司麥哲倫健康證實,由于受到勒索軟件和數(shù)據(jù)泄露攻擊,大約有36.5萬名患者信息遭到了泄露。攻擊者通過安全惡意軟件盜取員工的登錄憑證,再通過發(fā)送網(wǎng)絡釣魚郵件,冒充麥哲倫的客戶進入內(nèi)部系統(tǒng)完成信息盜取和勒索攻擊。2021年1月,日本汽車日產(chǎn)公司由于一臺服務器配置錯誤,導致公司Bitbucket Git服務器的信息在黑客論壇上開始傳播,該服務器賬戶主要用于儲存日產(chǎn)公司開發(fā)的應用程序和內(nèi)部工具的源代碼。在上述近一年發(fā)生的安全事件中可以看出,如何能近早發(fā)現(xiàn)已運行在大數(shù)據(jù)平臺中的安全問題,這對各類安全防護技術已有迫切要求,將為我國信息化建設和國防事業(yè)提供重要保障。
首先,分析大數(shù)據(jù)目前研究現(xiàn)狀;其次,基于大數(shù)據(jù)平臺資產(chǎn)監(jiān)控信息,提出了一種大數(shù)據(jù)安全稽查與風險評估框架,提前預防大數(shù)據(jù)平臺中可能出現(xiàn)的安全威脅;最后,總結研究意義并對大數(shù)據(jù)稽查與評估技術進行展望。
1 大數(shù)據(jù)安全研究概述
大數(shù)據(jù)安全的研究在產(chǎn)業(yè)界和學術界已開展很多年,下面從大數(shù)據(jù)安全技術和大數(shù)據(jù)安全標準兩個方面的研究現(xiàn)狀進行介紹。
1.1 大數(shù)據(jù)安全技術研究現(xiàn)狀
近年來,數(shù)據(jù)安全方面的研究受到越來越多的關注。在文獻中提到大數(shù)據(jù)生命周期可以分為數(shù)據(jù)生成、存儲和處理3個階段,在這3個階段采用訪問控制,利用數(shù)據(jù)偽造來保障數(shù)據(jù)的安全性。該文獻[3]中也提及對數(shù)據(jù)安全周期的定義各有不同,有些學者把數(shù)據(jù)安全周期分為4個階段,分別為數(shù)據(jù)發(fā)布、存儲、分析和處理階段,但采用的技術基本一致,通過訪問控制和數(shù)據(jù)偽造來防止數(shù)據(jù)泄露。數(shù)據(jù)安全在大數(shù)據(jù)安全技術應用中,更多的關注點仍在保護數(shù)據(jù)的完整性和隱私性,但對于大數(shù)據(jù)平臺自身安全的防護無法涉及,在實際大數(shù)據(jù)環(huán)境建設中,平臺自身的安全防護相比于數(shù)據(jù)安全需要更早地建立。
1.2 大數(shù)據(jù)安全標準研究現(xiàn)狀
在大數(shù)據(jù)安全研究中,由于不同的研究人員在需求理解、接觸的大數(shù)據(jù)實際運行場景方面存在差異,導致其在研究上產(chǎn)生方向、力度、關注點的不同。大數(shù)據(jù)安全法律法規(guī)和相關標準是規(guī)范不同研發(fā)人員研究大數(shù)據(jù)安全防護的基礎,從研發(fā)方向、深度、安全性防護能力等方面做出規(guī)范,是判定研發(fā)結果和大數(shù)據(jù)實際安全能力的重要依據(jù)。
2016年,黨中央、國務院高度重視大數(shù)據(jù)發(fā)展,并將大數(shù)據(jù)安全及相關標準化研究成果作為國家發(fā)展的重要戰(zhàn)略,要求盡快完善大數(shù)據(jù)安全相關法律法規(guī)和標準化制度。全國信息安全標準化委員會成立了大數(shù)據(jù)安全標準特別行動小組,通過參考大量國內(nèi)外大數(shù)據(jù)安全相關標準、大數(shù)據(jù)技術,根據(jù)大數(shù)據(jù)產(chǎn)業(yè)的相關需求,在2018年4月發(fā)布了《大數(shù)據(jù)安全標準化白皮書》。2017年12月,中國電子技術標準化研究院、清華大學和中國軟件評測中心等互聯(lián)網(wǎng)單位聯(lián)合編寫的GB/T 35274—2017《信息安全技術 大數(shù)據(jù)服務安全能力要求》,對大數(shù)據(jù)安全審查工作提供指導和依據(jù)。
在國際上,多個標準化組織早已展開針對大數(shù)據(jù)安全相關標準化的工作,其中主要有美國國家標準與技術研究院(National Institute of Standards and Teachnology,NIST)、國際標準化組織(ISO)/國際電工委員會(IEC)下的信息安全分技術委員會(SC27)、國際電信聯(lián)盟電信標準化部門(ITU-T)等。NIST已公開發(fā)布的有關大數(shù)據(jù)安全的標準主要有8個方面的內(nèi)容,分別為《數(shù)據(jù)完整性:從勒索軟件和其他破壞性時間中恢復》《非聯(lián)邦信息系統(tǒng)和組織的受控非機密信息的保護》《受控非保密信息的安全要求評估》《數(shù)據(jù)中心的系統(tǒng)威脅建模指南》《政府數(shù)據(jù)庫去標識化》《個人可識別信息去機密保密指南》《個人可識別信息去標識化》和《聯(lián)邦信息系統(tǒng)和組織的安全和隱私控制措施》。SC27針對安全研究的不同方向,分別根據(jù)信息安全體系、密碼技術與安全機制、安全評價和規(guī)范、安全控制與服務和身份管理與隱私管理5個方面設置不同的工作小組開展研究,目前已發(fā)布相關安全標準20項。ITU-T在大數(shù)據(jù)安全方面已發(fā)布4項相關標準,分別為《移動互聯(lián)網(wǎng)服務中大數(shù)據(jù)分析的安全要求和框架》《大數(shù)據(jù)服務安全指南》《大數(shù)據(jù)基礎設施和平臺安全指南》和《電信大數(shù)據(jù)生命周期管理的安全指南》。
國內(nèi)外不斷對大數(shù)據(jù)安全的標準展開研究,目的是進一步規(guī)范大數(shù)據(jù)在實踐應用中的合規(guī)性,提升數(shù)據(jù)安全保護能力。盡管目前國內(nèi)外已公開發(fā)布很多關于大數(shù)據(jù)安全方面的標準,但在大數(shù)據(jù)平臺實際建設和大數(shù)據(jù)技術實際應用中,這些安全標準的落地情況不是很樂觀。在目前已有的大數(shù)據(jù)產(chǎn)品中,研發(fā)人員更多的去關注大數(shù)據(jù)組件功能的研發(fā)和性能的提升,淡化了大數(shù)據(jù)安全法律法規(guī)和標準。下一章節(jié),本文將通過研究國內(nèi)大數(shù)據(jù)安全標準為依據(jù),提出一種大數(shù)據(jù)安全稽查與風險評估平臺框架設計。
2 安全稽查與風險評估
大數(shù)據(jù)安全稽查與風險評估系統(tǒng)對大數(shù)據(jù)平臺組件自身安全脆弱性情況進行分析,實現(xiàn)對大數(shù)據(jù)平臺中各數(shù)據(jù)全生命周期重要環(huán)節(jié)過程控制情況進行稽查和評估。該系統(tǒng)框架設計目標為核查大數(shù)據(jù)平臺中各類組件安全策略以及安全過程控制等落地情況,判斷各組件安全防護能力是否充分、能夠有效發(fā)揮。對大數(shù)據(jù)平臺內(nèi)部的安全風險做到智能稽查告警,最終實現(xiàn)動態(tài)評估大數(shù)據(jù)平臺綜合安全防護能力。
2.1 大數(shù)據(jù)安全稽查研究
大數(shù)據(jù)安全稽查設計通過研究相關大數(shù)據(jù)平臺組件模型、接口和大數(shù)據(jù)集群環(huán)境資源監(jiān)控方式為基礎,構建統(tǒng)一的大數(shù)據(jù)安全稽查模型。模型對大數(shù)據(jù)平臺內(nèi)部所有虛擬資產(chǎn)和大數(shù)據(jù)集群環(huán)境物理資產(chǎn)進行監(jiān)控,對每一種虛擬資產(chǎn)及物理資產(chǎn)進行身份標識,實時監(jiān)控資產(chǎn)變化原因、影響范圍和變動的合規(guī)性。
要實現(xiàn)對大數(shù)據(jù)平臺內(nèi)部資產(chǎn)做到實時、全面、細粒度和高要求的稽查,需要對平臺內(nèi)部資源進行分類整理,依據(jù)整理結果創(chuàng)建各類資產(chǎn)統(tǒng)一的監(jiān)管接口。在該資產(chǎn)稽查設計中,把虛擬資產(chǎn)分為計算類組件資源、存儲類組件資源、傳輸類組件資源、調度類組件資源、安全類資源。其中,計算類組件資源包括Mapreduce、Spark、Flink等;存儲類組件資源包括HDFS、Hive、Hbase等;傳輸類組件資源包括Kafka、Flume等;調度類組件資源包括Zookeeper、Mesos、Yarn等;安全類資源包括Ranger、Kerberos、Knox等。在該資產(chǎn)稽查設計中,同樣需要把大數(shù)據(jù)集群環(huán)境資源進行分類,可以分為基礎資源和安全設備資源。其中,基礎資源包括大數(shù)據(jù)集群各個節(jié)點的CPU、內(nèi)存、硬盤、網(wǎng)卡等資源的身份標識;安全設備資源包括大數(shù)據(jù)集群內(nèi)部部署的防火墻、堡壘機、入侵檢測服務器、病毒防護服務器等各類安全設備。與傳統(tǒng)監(jiān)控相比,利用收集到的虛擬資源身份標識、虛擬資源運行狀態(tài)、物理資源身份標識、物理資源運行狀態(tài),構建大數(shù)據(jù)平臺整體資源稽查藍圖。在傳統(tǒng)的大數(shù)據(jù)分析系統(tǒng)中,主要針對單一組件或者數(shù)據(jù)進行分析,而對于實際情況下的大數(shù)據(jù)平臺,其包括各種虛擬資產(chǎn)和物理資產(chǎn),相互之間協(xié)作工作緊密,傳統(tǒng)大數(shù)據(jù)分析手段因具有局限性,往往只能發(fā)現(xiàn)平臺內(nèi)部表面存在的安全風險,對于組件與組件之間、設備與設備之間、組件與設備之間的風險不能及時偵查。該資產(chǎn)稽查方案的設計,可以更加全面、細粒度地稽查出針對這些資產(chǎn)的攻擊。例如,攻擊者讓Kerberos服務不能正常運行,那么整個大數(shù)據(jù)平臺的認證功能失效,平臺面臨隨意接入的高安全威脅;又例如攻擊者偷換大數(shù)據(jù)集群中的某臺節(jié)點的網(wǎng)卡,并嵌入監(jiān)聽程序。通過資產(chǎn)多方位的檢測,能更加全面地稽查出平臺資產(chǎn)所存在的安全風險。
目前已有的大數(shù)據(jù)安全防護手段還停留在根據(jù)已產(chǎn)生的安全攻擊行為再做出及時反應,對不同的攻擊行為采取不同的響應措施。這種“亡羊補牢”式的防護手段已不能滿足大數(shù)據(jù)在各種國防關鍵領域中的應用,因此在大數(shù)據(jù)安全稽查設計中,還需要對大數(shù)據(jù)平臺中的攻擊進行響應,由被動抵御轉化為主動防御。通過大數(shù)據(jù)平臺內(nèi)部資產(chǎn)監(jiān)控結果,創(chuàng)建主動式和被動式安全稽查控制接口規(guī)范。在設計中依賴大數(shù)據(jù)平臺內(nèi)部資產(chǎn)稽查藍圖和安全風險評估結果為基礎,通過構建多種數(shù)據(jù)威脅攻防場景和應用案例,對平臺自身的安全防護能力進行稽查。一方面,研究大數(shù)據(jù)平臺中存在的各類威脅攻擊場景,驗證平臺中認證能力、授權能力、加密能力等安全防護措施是否有效。另一方面,模擬大數(shù)據(jù)平臺中各種敏感數(shù)據(jù)操作場景,驗證平臺威脅阻斷能力、脫敏能力、防泄漏能力等防護手段是否生效。大數(shù)據(jù)安全防護能力的稽查可以很好應對外部攻擊,并做出積極防御,智能發(fā)現(xiàn)大數(shù)據(jù)平臺安全能力中的薄弱點。
2.2 大數(shù)據(jù)安全風險評估研究
大數(shù)據(jù)平臺中產(chǎn)生的數(shù)據(jù)具有Velocity(高速)特點,但在目前已有的大數(shù)據(jù)安全研究中,對未知風險的檢測和內(nèi)部安全的評估不夠及時,一般通過采用各種組件以往的日志信息、操作信息、已產(chǎn)生的安全風險告警記錄等進行分析,評估整體平臺的安全風險。這種傳統(tǒng)的風險評估手段仍然屬于事后抵御風險模型。
通過研究大數(shù)據(jù)組件多維基線檢測模型,對大數(shù)據(jù)平臺內(nèi)部組件進行深度研究,把各個組件的配置屬性按照基礎性、合規(guī)性、健壯性、安全性進行多維分類。首先研究篩除組件中不重要屬性,使基線檢測模板具有通用性。進而對每一個重要檢測屬性分配閾值范圍,分別創(chuàng)建組件多維基線評估模型。在基礎性屬性中,以組件運行必須配置項進行劃分。在合規(guī)性屬性中,以組件內(nèi)部的各個模塊運行所需要的內(nèi)存類、核心數(shù)類、日志類、緩存類、線程類等屬性進行劃分。在健壯性屬性中,按照組件運行高可用性進行劃分。安全性屬性分為兩個方面:一方面研究組件自身安全特性,包括ACL屬性、SSL屬性、SASL屬性等;另一方面研究組件與大數(shù)據(jù)安全類組件所結合的安全屬性,主要結合Kerberos和Ranger與該組件的配置方式,分析組件授權和認證的安全風險。依賴大數(shù)據(jù)多維基線檢測模型,結合大數(shù)據(jù)資產(chǎn)稽查結果,通過監(jiān)控資產(chǎn)身份標識變化、資產(chǎn)變動的合規(guī)性與合法性、資源運行狀態(tài)的變化記錄等因子為基礎,對平臺內(nèi)部組件采用被動式和主動式安全風險檢測,生成各個組件的安全風險評估報告并給出風險整改建議。從平臺組件運行角度、安全防護角度來評估組件安全性,能更加全面地、準確地發(fā)現(xiàn)組件中潛在的安全漏洞。
該風險評估模型結合大數(shù)據(jù)資產(chǎn)稽查結果、大數(shù)據(jù)安全防護能力稽查結果、大數(shù)據(jù)組件風險估計結果,以國內(nèi)外大數(shù)據(jù)安全規(guī)范為指標,為平臺內(nèi)部各類風險分配不同的風險權重,通過計算,對大數(shù)據(jù)平臺安全風險等級進行劃分,對應給出安全風險建議整改方案,發(fā)現(xiàn)大數(shù)據(jù)平臺中未知安全威脅。目前對大數(shù)據(jù)平臺進行安全攻擊的一種常用方式為APT(高級持續(xù)威脅)攻擊,該攻擊方式具有攻擊時間長、攻擊面廣、隱蔽性強等特點,采用安全主動防御方式對整個大數(shù)據(jù)平臺的安全風險進行評估能有效地發(fā)現(xiàn)潛藏在系統(tǒng)中的APT攻擊,并及時進行預防。
3 平臺總體框架設計
大數(shù)據(jù)安全稽查與風險評估平臺總共分為5層,分別為大數(shù)據(jù)平臺層、資產(chǎn)采集與管理層、資產(chǎn)安全稽查與安全能力稽查層、安全風險評估層和綜合應用層,總體平臺架構如圖1所示。
圖片
圖1 大數(shù)據(jù)安全稽查與風險評估框架
(1)大數(shù)據(jù)平臺層:研究目前市場中大數(shù)據(jù)平臺資源數(shù)據(jù)格式和采集方式,建立統(tǒng)一資源采集接口和資源模板,采集平臺包括CDH(Cloudera's Distribution Including Apache Hadoop)平臺、CDP(Cloudera Data Platform)平臺、HDP(Hortonworks Data Platform)平臺、華為大數(shù)據(jù)平臺等。
?。?)資產(chǎn)采集與管理層:通過資產(chǎn)采集功能,智能發(fā)現(xiàn)接入系統(tǒng)的大數(shù)據(jù)平臺,自動監(jiān)控大數(shù)據(jù)平臺內(nèi)部資產(chǎn)變更信息,對平臺資源模板實現(xiàn)管理。利用統(tǒng)一的資產(chǎn)采集接口,把采集到的大數(shù)據(jù)平臺資產(chǎn)信息進行打標處理后,存入數(shù)據(jù)倉庫,為后續(xù)安全風險評估提供原始依據(jù)。
?。?)資產(chǎn)安全稽查與安全能力稽查層:利用資產(chǎn)稽查引擎對納入系統(tǒng)管理的大數(shù)據(jù)平臺進行稽查,構建資產(chǎn)稽查藍圖。生成稽查任務實時稽查平臺資產(chǎn)種類、數(shù)量、身份、狀態(tài)變更風險,稽查平臺內(nèi)部認證、授權、加密、脫敏安全防護能力并生成稽查報告,為平臺安全評估提供基礎。
(4)安全風險評估層:風險評估由基線掃描、基線驗證、安全性評估、評估模板4個模塊構成。依靠資產(chǎn)稽查結果為基礎結合組件基線掃描模板,利用安全風險評估引擎,生成組件基線掃描任務,定時對各個組件功能的可用性、合規(guī)性、健壯性、安全性進行基線掃描。利用大數(shù)據(jù)分析技術,評估大數(shù)據(jù)組件存在的安全威脅風險。在整體上,對資產(chǎn)稽查結果、安全能力稽查結果、組件評估結果分配不同的權重,利用大數(shù)據(jù)分析手段,對平臺整體風險性進行評分,再次評估平臺中所存在的安全風險。
?。?)綜合應用層:綜合應用主要包括分權分域、配置管理、任務管理、可視化展示、模板管理、報表管理和日志管理。一方面為用戶提供系統(tǒng)綜合服務,包括系統(tǒng)配置、模板配置、任務查詢等服務功能;另一方面為用戶提供風險監(jiān)控、風險告警、評估結果展示、日志展示等可視化界面。
該平臺與傳統(tǒng)大數(shù)據(jù)監(jiān)管平臺相比,對安全風險的發(fā)現(xiàn)由被動監(jiān)管模式轉為主動稽查模式。隨著大數(shù)據(jù)技術不斷成熟,已不能再片面化地分析大數(shù)據(jù)平臺所存在的安全風險,安全研究人員需要多方面研究最新的國內(nèi)外大數(shù)據(jù)安全規(guī)范標準,從各個角度、多維聯(lián)合分析在大數(shù)據(jù)平臺中出現(xiàn)的安全漏洞和安全威脅,對可能存在的風險進行預判并采取修復措施。
4 結 語
大數(shù)據(jù)技術早已深入國家發(fā)展和人們生活的各個領域,通過不斷挖掘數(shù)據(jù)價值來改變各行各業(yè)的工作方式,其隨之帶來的安全攻擊事件也越發(fā)頻繁。本文首先闡述目前大數(shù)據(jù)安全技術研究熱點,國內(nèi)外大數(shù)據(jù)安全標準研究狀況,然后以大數(shù)據(jù)資產(chǎn)為基礎,分別從稽查和評估兩個方面出發(fā),結合最新的大數(shù)據(jù)安全標準為依據(jù),設計大數(shù)據(jù)環(huán)境安全稽查與評估系統(tǒng),旨在實現(xiàn)“搶先”發(fā)現(xiàn)大數(shù)據(jù)平臺存在的安全風險,杜絕平臺潛在威脅。就目前來說,在大數(shù)據(jù)安全稽查和評估方面展開的研究遠遠落后于大數(shù)據(jù)技術的應用,為了更進一步提高大數(shù)據(jù)安全防護能力,亟待加強在安全標準與大數(shù)據(jù)技術相結合的基礎上展開更多研究。