0 引 言
根據(jù)麥肯錫全球研究所給出的定義,大數(shù)據(jù)是“一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低等特征”。
隨著云計(jì)算、物聯(lián)網(wǎng)、5G及人工智能等新技術(shù)的迅速發(fā)展,人們可以通過(guò)海量的終端、感知元件等獲得大量的信息化數(shù)據(jù)。利用這些數(shù)據(jù)對(duì)其進(jìn)行分析,可以更加便捷地服務(wù)社會(huì)。在2019年全球數(shù)據(jù)量已超過(guò)41ZB的情況下,如何實(shí)現(xiàn)這些數(shù)據(jù)以達(dá)到人與物之間的互聯(lián)互通,是各國(guó)業(yè)界目前都在討論研究的課題。
發(fā)達(dá)國(guó)家方面,美國(guó)在2019年發(fā)布了《聯(lián)邦數(shù)據(jù)戰(zhàn)略第一年度行動(dòng)計(jì)劃(Federal Data Strategy Year-1 Action Plan)》草案。該草案包含了美國(guó)如何利用大數(shù)據(jù)來(lái)制定未來(lái)發(fā)展戰(zhàn)略,提高整個(gè)社會(huì)效率。此外,英國(guó)政府正在研究如何利用交通行業(yè)的大數(shù)據(jù)來(lái)判定英國(guó)經(jīng)濟(jì)情況和制定經(jīng)濟(jì)政策。
我國(guó)在大數(shù)據(jù)領(lǐng)域的技術(shù)進(jìn)展也不遑多讓。2019年5月,我國(guó)成立了國(guó)家電網(wǎng)大數(shù)據(jù)中心;2019年,三大電信運(yùn)營(yíng)商也完成了全集團(tuán)大數(shù)據(jù)平臺(tái)的建設(shè)。
1 大數(shù)據(jù)環(huán)境下的安全風(fēng)險(xiǎn)
大數(shù)據(jù)在全球各行業(yè)都已取得了重大進(jìn)展,但同時(shí)帶來(lái)了很多問(wèn)題,其中最大的問(wèn)題是大數(shù)據(jù)的安全問(wèn)題。2019年爆出的Collection#1數(shù)據(jù)集事件泄露了超過(guò)27億個(gè)電子郵件/密碼對(duì);2019年9月6日,杭州魔蝎數(shù)據(jù)科技有限公司因用戶隱私泄露被警方控制。
國(guó)內(nèi)外用戶隱私泄露事件頻發(fā),表明大數(shù)據(jù)的安全必須被重視。大數(shù)據(jù)技術(shù)具有5V特征,即Volume(體量大)、Variety(種類多)、Velocity(速度快)、Velocity(準(zhǔn)度高)和Value(價(jià)值大),如圖1所示。其中,體量大是指大數(shù)據(jù)技術(shù)中包含的數(shù)據(jù)規(guī)模巨大;種類多是指大數(shù)據(jù)技術(shù)來(lái)源的數(shù)據(jù)集多種多樣;速度快是指大數(shù)據(jù)技術(shù)需要對(duì)數(shù)據(jù)進(jìn)行快速處理;準(zhǔn)度高是指大數(shù)據(jù)技術(shù)處理后的結(jié)果需要具有較高的準(zhǔn)確性;價(jià)值大是指大數(shù)據(jù)技術(shù)可以帶來(lái)很大的戰(zhàn)略價(jià)值。
圖1 大數(shù)據(jù)的5V特征
大數(shù)據(jù)環(huán)境下數(shù)據(jù)的安全概念來(lái)自于傳統(tǒng)的信息安全的數(shù)據(jù)安全。傳統(tǒng)的信息安全的目的是保障數(shù)據(jù)的機(jī)密性、完整性、可用性及不可否認(rèn)性等。大數(shù)據(jù)環(huán)境下要保障數(shù)據(jù)在整個(gè)生命周期中的安全,即從數(shù)據(jù)產(chǎn)生階段到數(shù)據(jù)銷毀階段都需要保障數(shù)據(jù)自身的安全和用戶的隱私不被泄露,而使用密碼技術(shù)是一種通用的手段。同時(shí),密碼技術(shù)也應(yīng)滿足大數(shù)據(jù)具有的5V特征,并且不影響大數(shù)據(jù)的處理速度。
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)擁有者即用戶希望將數(shù)據(jù)加密后上傳至服務(wù)器,使數(shù)據(jù)處理方在不解密的情況下對(duì)密文數(shù)據(jù)進(jìn)行處理。如此可以使得用戶的隱私不會(huì)泄露,同時(shí)數(shù)據(jù)處理方也可以獲得數(shù)據(jù)處理后的結(jié)果。當(dāng)用戶需要原始數(shù)據(jù)時(shí),可以將密文數(shù)據(jù)從服務(wù)器處下載至本地進(jìn)行解密操作得到原始數(shù)據(jù)。但是,這樣會(huì)導(dǎo)致每一次用戶上傳下載都將消耗很多的網(wǎng)絡(luò)帶寬,同時(shí)加解密操作也需要大量的計(jì)算資源。為了解決上述問(wèn)題,可搜索加密、全同態(tài)加密和安全多方計(jì)算等技術(shù)隨之產(chǎn)生。
2 可搜索加密技術(shù)
數(shù)據(jù)擁有者將數(shù)據(jù)密文數(shù)據(jù)存儲(chǔ)在云端,可以對(duì)個(gè)人的隱私進(jìn)行良好的保護(hù)。但是,如果需要訪問(wèn)搜索自己保存在云端的數(shù)據(jù),需要先將密文數(shù)據(jù)下載至本地再解密,會(huì)帶來(lái)很大的通信和計(jì)算開銷。如何使得數(shù)據(jù)擁有者在保障隱私的同時(shí)訪問(wèn)搜索自己的數(shù)據(jù)即密文索引,成為近年來(lái)的研究熱點(diǎn)。
可搜索加密技術(shù)(Searchable Encryption,SE)可以滿足數(shù)據(jù)擁有者既可以確保個(gè)人隱私不被泄露又可以通過(guò)索引搜索到存儲(chǔ)在云端的數(shù)據(jù)。可搜索加密技術(shù)可以達(dá)到只有合法用戶才具備基于關(guān)鍵詞檢索的能力,提供了加密和檢索兩種服務(wù)。加密保證了數(shù)據(jù)擁有者信息的機(jī)密性,在數(shù)據(jù)傳輸過(guò)程和云端都不會(huì)被泄露;檢索保證了數(shù)據(jù)擁有者自身的隱私,同時(shí)提供了查詢檢索功能。
可搜索加密大體上可以分為兩類:對(duì)稱可搜索加密(Symmetric Searchable Encryption,SSE)和公鑰可搜索加密(Public Key Encryption with Keyword Search,PEKS)。其中,對(duì)稱可搜索加密主要是以基于索引的思想構(gòu)建的,公鑰可搜索加密的典型構(gòu)造一般都是基于身份的公鑰密碼(Identity-Based Cryptography,IBE)。
可搜索加密有多種模式,下面介紹一種可滿足大數(shù)據(jù)特征的模式,即授權(quán)委托模式。數(shù)據(jù)擁有者將原始密文和陷門發(fā)送至數(shù)據(jù)中心,數(shù)據(jù)中心收到密文后進(jìn)行重加密(Re-crypt)步驟生成新的密文,原始密文只允許授權(quán)過(guò)的數(shù)據(jù)管理者查詢關(guān)鍵詞。如果其他的數(shù)據(jù)使用者想獲得需要的明文,則必須通過(guò)數(shù)據(jù)管理者發(fā)送重加密密鑰才能對(duì)新的密文進(jìn)行解密,如圖2所示。
圖2 滿足大數(shù)據(jù)特征的可搜索加密模式
3 安全多方計(jì)算技術(shù)
安全多方計(jì)算(Secure Multiparty Computation,SMC)是指有若干位互不信任、相互獨(dú)立的數(shù)據(jù)參與方在分布式環(huán)境下通過(guò)共同計(jì)算得到對(duì)于每位數(shù)據(jù)參與方都公開的計(jì)算結(jié)果,但是無(wú)法獲取其他數(shù)據(jù)參與方的輸入數(shù)據(jù)。
安全多方計(jì)算基于姚期智院士在1982年提出的百萬(wàn)富翁問(wèn)題。百萬(wàn)富翁問(wèn)題的描述為“兩個(gè)百萬(wàn)富翁的目的是比較雙方的財(cái)富總量,但是并不想知道對(duì)方的財(cái)富具體數(shù)量,如何解決這一問(wèn)題”。具體來(lái)說(shuō),就是為了讓獨(dú)立數(shù)據(jù)擁有者可以在不信任對(duì)方以及第三方的情況下進(jìn)行隱私協(xié)同計(jì)算。安全多方計(jì)算中,假設(shè)有n位計(jì)算參與者,這些計(jì)算參與者的數(shù)據(jù)為圖片。通過(guò)計(jì)算這些計(jì)算參與者共同得到一組數(shù)據(jù)圖片,任何一位計(jì)算參與者都可以得圖片,但是對(duì)于整個(gè)計(jì)算過(guò)程他們只能得到這一種結(jié)果。
正是基于百萬(wàn)富翁問(wèn)題的假設(shè),安全多方計(jì)算可以滿足大數(shù)據(jù)環(huán)境下用戶數(shù)據(jù)交由數(shù)據(jù)處理方進(jìn)行操作,數(shù)據(jù)操作方只能得到處理后的結(jié)果而不能獲得用戶的具體數(shù)據(jù)圖片,從而保護(hù)用戶的隱私。
通常安全多方計(jì)算系統(tǒng)中,每個(gè)數(shù)據(jù)持有者由數(shù)據(jù)反饋、數(shù)據(jù)庫(kù)和安全多方計(jì)算節(jié)點(diǎn)構(gòu)成。所有的數(shù)據(jù)持有者權(quán)限相同,可以同時(shí)執(zhí)行計(jì)算任務(wù)。各個(gè)數(shù)據(jù)持有者之間的數(shù)據(jù)流通稱為數(shù)據(jù)流,而每個(gè)數(shù)據(jù)持有者在本地完成數(shù)據(jù)的處理并將處理后的結(jié)果發(fā)送給數(shù)據(jù)節(jié)點(diǎn)。這種系統(tǒng)可以保證在大數(shù)據(jù)環(huán)境下用戶的隱私,如圖3所示。
圖3 安全多方計(jì)算系統(tǒng)
4 全同態(tài)加密技術(shù)
大數(shù)據(jù)通常與云計(jì)算技術(shù)結(jié)合使用,將大數(shù)據(jù)置于云存儲(chǔ)服務(wù)器上,提供云服務(wù)的提供者為數(shù)據(jù)擁有者服務(wù)。但是,隨之產(chǎn)生了一個(gè)問(wèn)題,即數(shù)據(jù)擁有者需要信任云服務(wù)提供者,否則將會(huì)泄露數(shù)據(jù)擁有者的隱私。如何解決這一問(wèn)題,是大數(shù)據(jù)與云計(jì)算技術(shù)協(xié)同合作的難題。
為解決這一問(wèn)題,人們先將數(shù)據(jù)加密為密文,再將密文存儲(chǔ)在云端進(jìn)行處理,云服務(wù)提供者在不掌握數(shù)據(jù)持有者明文數(shù)據(jù)的情況下為數(shù)據(jù)擁有者提供計(jì)算等服務(wù),這就是全同態(tài)加密的概念。
全同態(tài)加密最早是1978年Rivest等人提出的概念,即尋找一種密碼技術(shù)可以對(duì)兩個(gè)密文進(jìn)行加和乘的操作,再對(duì)操作后的密文進(jìn)行解密,所得的結(jié)果就是原始明文進(jìn)行同樣操作的結(jié)果。其后專家學(xué)者們?yōu)榱藢ふ业綕M足這一特性的技術(shù)而不斷努力,直到2009年,Gentry[9]在其博士論文提出了一種基于可以實(shí)現(xiàn)的全同態(tài)加密技術(shù),被稱為密碼學(xué)界的“圣杯”。
如果存在一個(gè)適合大數(shù)據(jù)的全同態(tài)加密系統(tǒng),那么數(shù)據(jù)擁有者可以將數(shù)據(jù)加密為密文,再將密文在云端進(jìn)行處理。云端無(wú)法查看數(shù)據(jù)擁有者的具體數(shù)據(jù),只可以對(duì)其進(jìn)行處理,從而實(shí)現(xiàn)數(shù)據(jù)擁有者對(duì)自己隱私的有效保護(hù)。
5 大數(shù)據(jù)環(huán)境下密碼技術(shù)展望
針對(duì)大數(shù)據(jù)環(huán)境下的密碼技術(shù),目前業(yè)內(nèi)專家學(xué)者們已經(jīng)對(duì)可搜索加密、安全多方計(jì)算和全同態(tài)加密技術(shù)進(jìn)行了廣泛及深入研究,并在電子投票、智能電網(wǎng)及區(qū)塊鏈等不同領(lǐng)域取得了一定進(jìn)展,但是仍然存在效率問(wèn)題。當(dāng)前認(rèn)為解決效率問(wèn)題的核心是優(yōu)化算法性能,對(duì)于特定場(chǎng)景的算法優(yōu)化可以使其在相應(yīng)的應(yīng)用領(lǐng)域提高效率。大數(shù)據(jù)環(huán)境下在滿足大數(shù)據(jù)5V特征的前提下進(jìn)行算法優(yōu)化,對(duì)于整個(gè)大數(shù)據(jù)的應(yīng)用研究至關(guān)重要。
另外,除了對(duì)算法本身研究?jī)?yōu)化外,還應(yīng)該結(jié)合先進(jìn)的分布式計(jì)算技術(shù)和密碼芯片技術(shù)。其中,分布式計(jì)算可以整合共享算力資源,具有很高的計(jì)算負(fù)載均衡,并提高容錯(cuò)和可靠性,也可以提高算法的效率;密碼芯片技術(shù)可以減低算法功耗,提高性能,并獲得更高的安全性。
國(guó)家標(biāo)準(zhǔn)有助于規(guī)范行業(yè)的發(fā)展,提高行業(yè)競(jìng)爭(zhēng)力。因此,大數(shù)據(jù)環(huán)境下應(yīng)完善國(guó)家相關(guān)標(biāo)準(zhǔn),保證數(shù)據(jù)本身的安全和數(shù)據(jù)擁有者的隱私安全,推動(dòng)我國(guó)大數(shù)據(jù)行業(yè)健康發(fā)展。
6 結(jié) 語(yǔ)
大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全是目前大數(shù)據(jù)技術(shù)面臨的重要問(wèn)題,解決此問(wèn)題的手段之一就是應(yīng)用密碼技術(shù)。大數(shù)據(jù)技術(shù)在實(shí)際應(yīng)用場(chǎng)景下通常與云計(jì)算技術(shù)結(jié)合使用,即大數(shù)據(jù)在云端進(jìn)行處理,但是云端對(duì)于數(shù)據(jù)擁有者而言是不可信的,最好的解決方法是通過(guò)密碼技術(shù)將密文數(shù)據(jù)發(fā)給云服務(wù)提供者。本文對(duì)可搜索加密、安全多方計(jì)算和全同態(tài)加密技術(shù)進(jìn)行介紹與分析,可以解決大數(shù)據(jù)安全中的用戶隱私問(wèn)題。但是,由于上述3種密碼技術(shù)都需要對(duì)密文進(jìn)行操作,面臨大數(shù)據(jù)環(huán)境下數(shù)據(jù)規(guī)模巨大、操作流程復(fù)雜的情況,性能會(huì)急劇下降。因此,下一步的工作重點(diǎn)是優(yōu)化技術(shù),使其滿足大數(shù)據(jù)的特征。