由于大數(shù)據(jù)分布式平臺(tái)的特殊性,防火墻、病毒防治等傳統(tǒng)安全機(jī)制無法保障大數(shù)據(jù)服務(wù)的安全,大數(shù)據(jù)在應(yīng)用過程中往往存在如下一些安全問題。
?。?)分布式計(jì)算的安全性。執(zhí)行多個(gè)計(jì)算階段分布式程序必須獲得雙重安全保護(hù),一個(gè)用于程序自身的安全保護(hù),一個(gè)保護(hù)程序中的數(shù)據(jù)。
?。?)分布式數(shù)據(jù)的安全性。NoSQL非關(guān)系型數(shù)據(jù)庫系統(tǒng)自身存儲(chǔ)的安全問題,以及分布式節(jié)點(diǎn)數(shù)據(jù)自動(dòng)分發(fā)與聚集等管理所需的額外安全機(jī)制。
?。?)數(shù)據(jù)來源的安全性。數(shù)據(jù)源的出處復(fù)雜性在不斷增長,當(dāng)一個(gè)系統(tǒng)接收到海量多源異構(gòu)數(shù)據(jù)時(shí),大數(shù)據(jù)采集平臺(tái)必須解決每一個(gè)輸入數(shù)據(jù)的安全可信問題。
?。?)安全監(jiān)控與審計(jì)問題。存儲(chǔ)海量數(shù)據(jù)的互聯(lián)網(wǎng)大數(shù)據(jù)云平臺(tái)和關(guān)鍵基礎(chǔ)信息系統(tǒng),已成為網(wǎng)絡(luò)攻擊的重要目標(biāo),同時(shí)數(shù)據(jù)的歸屬權(quán)問題也日益凸顯,需要研究實(shí)時(shí)保障大數(shù)據(jù)安全使用的監(jiān)控與審計(jì)系統(tǒng)。
?。?)加密與訪問控制問題。大數(shù)據(jù)安全須解決終端和云端兩種加密模式及其應(yīng)用;同時(shí),由于黑客攻擊、內(nèi)部人員非授權(quán)訪問等導(dǎo)致的信息泄露事件時(shí)有發(fā)生,大數(shù)據(jù)的訪問控制模型也面臨挑戰(zhàn)。
(6)大數(shù)據(jù)安全隱私問題。大數(shù)據(jù)時(shí)代的來臨,涉及安全和個(gè)人隱私的問題紛至沓來,這將使人們的生活安全以及隱私保護(hù)受到極大困擾,必須從技術(shù)、法規(guī)等多個(gè)角度加以解決。
人們普遍認(rèn)為,最令人焦慮的在于您根本不知道什么時(shí)候自己的隱私就無意中被泄露出去。在大數(shù)據(jù)時(shí)代,隱私泄露已成為人們最大的擔(dān)憂。大數(shù)據(jù)可將互聯(lián)網(wǎng)中的數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的資源,但當(dāng)大數(shù)據(jù)使人們的生活變得愈加方便快捷的同時(shí),隱私泄露問題也隨之爆發(fā)。
隨著大數(shù)據(jù)的搜集和分析技術(shù)的發(fā)展,數(shù)據(jù)泄露的風(fēng)險(xiǎn)也在不斷加大,人們應(yīng)該正視和規(guī)避這樣的風(fēng)險(xiǎn)。
1. 肆意收集帶來的隱私問題
在大數(shù)據(jù)環(huán)境中,可以通過醫(yī)療就醫(yī)記錄、購物及服務(wù)記錄、網(wǎng)站搜索記錄、手機(jī)通話記錄、手機(jī)位置軌跡記錄等來獲取用戶的信息。收集這些用戶個(gè)人信息時(shí),通常是未經(jīng)用戶同意,或者用戶很少有機(jī)會(huì)去思考、去認(rèn)同自己的數(shù)據(jù)的用途;是誰收集了自己的數(shù)據(jù);是誰二次使用了自己的數(shù)據(jù);如果自己的數(shù)據(jù)出現(xiàn)誤用,將由誰負(fù)責(zé);自己的數(shù)據(jù)是否在網(wǎng)上被惡意傳播;自己的數(shù)據(jù)什么時(shí)候被銷毀等。
因此,針對(duì)大數(shù)據(jù)平臺(tái),數(shù)據(jù)采集首先應(yīng)該脫敏處理。任何公民的個(gè)人信息都是“隱私”的一部分,在沒有得到個(gè)人許可或司法許可的前提下,若數(shù)據(jù)以原始狀態(tài)被采集,就必須理清超越邊界的范疇。而對(duì)原始數(shù)據(jù)進(jìn)行脫敏處理,包括屏蔽完整的姓名、證件號(hào)碼、聯(lián)系方式、地址等關(guān)鍵信息。數(shù)據(jù)脫敏后用于統(tǒng)計(jì)分析和處理,是大數(shù)據(jù)安全分析的基礎(chǔ)。
2. 集成融合帶來的隱私問題
集成和融合通常采用鏈接操作使多個(gè)異構(gòu)數(shù)據(jù)源匯聚在一起,并且識(shí)別出相應(yīng)的實(shí)體。小數(shù)據(jù)源通常能夠反映出用戶的某個(gè)活動(dòng),比如接受的醫(yī)療、購買的商品、搜索的網(wǎng)站、手機(jī)留下的位置特征、與社交網(wǎng)絡(luò)互動(dòng)信息、政治活動(dòng)等。融合不同的小數(shù)據(jù)可以更好地服務(wù)于數(shù)據(jù)分析與管理。零售商通過集成線上、線下以及銷售目錄數(shù)據(jù)庫,可以獲得更多消費(fèi)者的個(gè)人描述信息、預(yù)測消費(fèi)者的購物偏好等;GPS服務(wù)商通過集成路網(wǎng)不同路段上的傳感器數(shù)據(jù),可以得到更好的道路規(guī)劃與交通路線。然而,多個(gè)數(shù)據(jù)源的集成與融合幾乎能夠推理出個(gè)人所有的敏感信息,無形中給個(gè)人隱私的保護(hù)帶來嚴(yán)峻挑戰(zhàn)。
因此,大數(shù)據(jù)集成融合應(yīng)該在用戶知情授權(quán)的前提下進(jìn)行。啤酒與尿片這樣的經(jīng)典關(guān)聯(lián)分析案例,現(xiàn)在看來也是一種大數(shù)據(jù)應(yīng)用場景,而且并不針對(duì)任何個(gè)人的推銷。但當(dāng)我們針對(duì)消費(fèi)者個(gè)人消費(fèi)習(xí)慣進(jìn)行大數(shù)據(jù)分析,并得到針對(duì)性很強(qiáng)的個(gè)性化營銷策略的時(shí)候,其實(shí)消費(fèi)者的隱私已在并不知情和未經(jīng)授權(quán)的情況下被利用了,所以要針對(duì)個(gè)性化數(shù)據(jù)集成融合就需要以用戶知情為前提。
3. 數(shù)據(jù)分析帶來的風(fēng)險(xiǎn)
目前,基于大數(shù)據(jù)的計(jì)算框架,其計(jì)算分析能力幾乎已經(jīng)能夠達(dá)到“大海撈針”。數(shù)據(jù)科學(xué)家通過分析,可以挖掘出大數(shù)據(jù)中的異常點(diǎn)、頻繁模式、分類模式、數(shù)據(jù)之間的相關(guān)性以及用戶行為規(guī)律等信息。然而,大數(shù)據(jù)分析的最大障礙是數(shù)據(jù)隱私問題。在某種程度上,隱私不可怕,可怕的是用戶的行為可以通過大數(shù)據(jù)分析被預(yù)測。大數(shù)據(jù)下的個(gè)性化推薦系統(tǒng)是電子商務(wù)網(wǎng)站根據(jù)用戶的興趣特點(diǎn)和購買行為,向用戶推薦感興趣的信息和商品。然而,用戶的商品購買信息以及行為模式很有可能被商務(wù)網(wǎng)站挖掘出來,進(jìn)而導(dǎo)致隱私信息泄露。
因此,數(shù)據(jù)分析應(yīng)該針對(duì)群體對(duì)象,而非個(gè)體。大數(shù)據(jù)分析可以發(fā)現(xiàn)同性和趨勢、關(guān)聯(lián)與耦合。通過大量的脫敏數(shù)據(jù)的整合分析,可以發(fā)現(xiàn)一個(gè)社會(huì)群體的某些特質(zhì);通過一些共同的行為軌跡,可以發(fā)現(xiàn)事物之間的關(guān)聯(lián)。如購物網(wǎng)站經(jīng)常發(fā)布的網(wǎng)上購買最多的商品是什么、視頻網(wǎng)站經(jīng)常發(fā)布的熱門劇是什么、春運(yùn)時(shí)搜索網(wǎng)站經(jīng)常發(fā)布人口遷移的熱力指數(shù)及人口遷移方向和趨勢等,這樣的大數(shù)據(jù)分析都不針對(duì)具體個(gè)體,也不揭露任何個(gè)人信息。