0 引 言
根據麥肯錫全球研究所給出的定義,大數據是“一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低等特征”。
隨著云計算、物聯網、5G及人工智能等新技術的迅速發(fā)展,人們可以通過海量的終端、感知元件等獲得大量的信息化數據。利用這些數據對其進行分析,可以更加便捷地服務社會。在2019年全球數據量已超過41ZB的情況下,如何實現這些數據以達到人與物之間的互聯互通,是各國業(yè)界目前都在討論研究的課題。
發(fā)達國家方面,美國在2019年發(fā)布了《聯邦數據戰(zhàn)略第一年度行動計劃(Federal Data Strategy Year-1 Action Plan)》草案。該草案包含了美國如何利用大數據來制定未來發(fā)展戰(zhàn)略,提高整個社會效率。此外,英國政府正在研究如何利用交通行業(yè)的大數據來判定英國經濟情況和制定經濟政策。
我國在大數據領域的技術進展也不遑多讓。2019年5月,我國成立了國家電網大數據中心;2019年,三大電信運營商也完成了全集團大數據平臺的建設。
1 大數據環(huán)境下的安全風險
大數據在全球各行業(yè)都已取得了重大進展,但同時帶來了很多問題,其中最大的問題是大數據的安全問題。2019年爆出的Collection#1數據集事件泄露了超過27億個電子郵件/密碼對;2019年9月6日,杭州魔蝎數據科技有限公司因用戶隱私泄露被警方控制。
國內外用戶隱私泄露事件頻發(fā),表明大數據的安全必須被重視。大數據技術具有5V特征,即Volume(體量大)、Variety(種類多)、Velocity(速度快)、Velocity(準度高)和Value(價值大),如圖1所示。其中,體量大是指大數據技術中包含的數據規(guī)模巨大;種類多是指大數據技術來源的數據集多種多樣;速度快是指大數據技術需要對數據進行快速處理;準度高是指大數據技術處理后的結果需要具有較高的準確性;價值大是指大數據技術可以帶來很大的戰(zhàn)略價值。
圖1 大數據的5V特征
大數據環(huán)境下數據的安全概念來自于傳統(tǒng)的信息安全的數據安全。傳統(tǒng)的信息安全的目的是保障數據的機密性、完整性、可用性及不可否認性等。大數據環(huán)境下要保障數據在整個生命周期中的安全,即從數據產生階段到數據銷毀階段都需要保障數據自身的安全和用戶的隱私不被泄露,而使用密碼技術是一種通用的手段。同時,密碼技術也應滿足大數據具有的5V特征,并且不影響大數據的處理速度。
大數據環(huán)境下,數據擁有者即用戶希望將數據加密后上傳至服務器,使數據處理方在不解密的情況下對密文數據進行處理。如此可以使得用戶的隱私不會泄露,同時數據處理方也可以獲得數據處理后的結果。當用戶需要原始數據時,可以將密文數據從服務器處下載至本地進行解密操作得到原始數據。但是,這樣會導致每一次用戶上傳下載都將消耗很多的網絡帶寬,同時加解密操作也需要大量的計算資源。為了解決上述問題,可搜索加密、全同態(tài)加密和安全多方計算等技術隨之產生。
2 可搜索加密技術
數據擁有者將數據密文數據存儲在云端,可以對個人的隱私進行良好的保護。但是,如果需要訪問搜索自己保存在云端的數據,需要先將密文數據下載至本地再解密,會帶來很大的通信和計算開銷。如何使得數據擁有者在保障隱私的同時訪問搜索自己的數據即密文索引,成為近年來的研究熱點。
可搜索加密技術(Searchable Encryption,SE)可以滿足數據擁有者既可以確保個人隱私不被泄露又可以通過索引搜索到存儲在云端的數據??伤阉骷用芗夹g可以達到只有合法用戶才具備基于關鍵詞檢索的能力,提供了加密和檢索兩種服務。加密保證了數據擁有者信息的機密性,在數據傳輸過程和云端都不會被泄露;檢索保證了數據擁有者自身的隱私,同時提供了查詢檢索功能。
可搜索加密大體上可以分為兩類:對稱可搜索加密(Symmetric Searchable Encryption,SSE)和公鑰可搜索加密(Public Key Encryption with Keyword Search,PEKS)。其中,對稱可搜索加密主要是以基于索引的思想構建的,公鑰可搜索加密的典型構造一般都是基于身份的公鑰密碼(Identity-Based Cryptography,IBE)。
可搜索加密有多種模式,下面介紹一種可滿足大數據特征的模式,即授權委托模式。數據擁有者將原始密文和陷門發(fā)送至數據中心,數據中心收到密文后進行重加密(Re-crypt)步驟生成新的密文,原始密文只允許授權過的數據管理者查詢關鍵詞。如果其他的數據使用者想獲得需要的明文,則必須通過數據管理者發(fā)送重加密密鑰才能對新的密文進行解密,如圖2所示。
圖2 滿足大數據特征的可搜索加密模式
3 安全多方計算技術
安全多方計算(Secure Multiparty Computation,SMC)是指有若干位互不信任、相互獨立的數據參與方在分布式環(huán)境下通過共同計算得到對于每位數據參與方都公開的計算結果,但是無法獲取其他數據參與方的輸入數據。
安全多方計算基于姚期智院士在1982年提出的百萬富翁問題。百萬富翁問題的描述為“兩個百萬富翁的目的是比較雙方的財富總量,但是并不想知道對方的財富具體數量,如何解決這一問題”。具體來說,就是為了讓獨立數據擁有者可以在不信任對方以及第三方的情況下進行隱私協同計算。安全多方計算中,假設有n位計算參與者,這些計算參與者的數據為圖片。通過計算這些計算參與者共同得到一組數據圖片,任何一位計算參與者都可以得圖片,但是對于整個計算過程他們只能得到這一種結果。
正是基于百萬富翁問題的假設,安全多方計算可以滿足大數據環(huán)境下用戶數據交由數據處理方進行操作,數據操作方只能得到處理后的結果而不能獲得用戶的具體數據圖片,從而保護用戶的隱私。
通常安全多方計算系統(tǒng)中,每個數據持有者由數據反饋、數據庫和安全多方計算節(jié)點構成。所有的數據持有者權限相同,可以同時執(zhí)行計算任務。各個數據持有者之間的數據流通稱為數據流,而每個數據持有者在本地完成數據的處理并將處理后的結果發(fā)送給數據節(jié)點。這種系統(tǒng)可以保證在大數據環(huán)境下用戶的隱私,如圖3所示。
圖3 安全多方計算系統(tǒng)
4 全同態(tài)加密技術
大數據通常與云計算技術結合使用,將大數據置于云存儲服務器上,提供云服務的提供者為數據擁有者服務。但是,隨之產生了一個問題,即數據擁有者需要信任云服務提供者,否則將會泄露數據擁有者的隱私。如何解決這一問題,是大數據與云計算技術協同合作的難題。
為解決這一問題,人們先將數據加密為密文,再將密文存儲在云端進行處理,云服務提供者在不掌握數據持有者明文數據的情況下為數據擁有者提供計算等服務,這就是全同態(tài)加密的概念。
全同態(tài)加密最早是1978年Rivest等人提出的概念,即尋找一種密碼技術可以對兩個密文進行加和乘的操作,再對操作后的密文進行解密,所得的結果就是原始明文進行同樣操作的結果。其后專家學者們?yōu)榱藢ふ业綕M足這一特性的技術而不斷努力,直到2009年,Gentry[9]在其博士論文提出了一種基于可以實現的全同態(tài)加密技術,被稱為密碼學界的“圣杯”。
如果存在一個適合大數據的全同態(tài)加密系統(tǒng),那么數據擁有者可以將數據加密為密文,再將密文在云端進行處理。云端無法查看數據擁有者的具體數據,只可以對其進行處理,從而實現數據擁有者對自己隱私的有效保護。
5 大數據環(huán)境下密碼技術展望
針對大數據環(huán)境下的密碼技術,目前業(yè)內專家學者們已經對可搜索加密、安全多方計算和全同態(tài)加密技術進行了廣泛及深入研究,并在電子投票、智能電網及區(qū)塊鏈等不同領域取得了一定進展,但是仍然存在效率問題。當前認為解決效率問題的核心是優(yōu)化算法性能,對于特定場景的算法優(yōu)化可以使其在相應的應用領域提高效率。大數據環(huán)境下在滿足大數據5V特征的前提下進行算法優(yōu)化,對于整個大數據的應用研究至關重要。
另外,除了對算法本身研究優(yōu)化外,還應該結合先進的分布式計算技術和密碼芯片技術。其中,分布式計算可以整合共享算力資源,具有很高的計算負載均衡,并提高容錯和可靠性,也可以提高算法的效率;密碼芯片技術可以減低算法功耗,提高性能,并獲得更高的安全性。
國家標準有助于規(guī)范行業(yè)的發(fā)展,提高行業(yè)競爭力。因此,大數據環(huán)境下應完善國家相關標準,保證數據本身的安全和數據擁有者的隱私安全,推動我國大數據行業(yè)健康發(fā)展。
6 結 語
大數據環(huán)境下的數據安全是目前大數據技術面臨的重要問題,解決此問題的手段之一就是應用密碼技術。大數據技術在實際應用場景下通常與云計算技術結合使用,即大數據在云端進行處理,但是云端對于數據擁有者而言是不可信的,最好的解決方法是通過密碼技術將密文數據發(fā)給云服務提供者。本文對可搜索加密、安全多方計算和全同態(tài)加密技術進行介紹與分析,可以解決大數據安全中的用戶隱私問題。但是,由于上述3種密碼技術都需要對密文進行操作,面臨大數據環(huán)境下數據規(guī)模巨大、操作流程復雜的情況,性能會急劇下降。因此,下一步的工作重點是優(yōu)化技術,使其滿足大數據的特征。