引用格式:李思慧,戴明超,蔡伍洲. 基于差分隱私的數(shù)據(jù)脫敏技術研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2025,44(2):39-43.
引言
當前,人工智能、大模型、大數(shù)據(jù)技術飛速發(fā)展,數(shù)據(jù)是各項技術構建的關鍵基礎資源,全球數(shù)據(jù)產業(yè)正在呈爆發(fā)式增長。據(jù)國際數(shù)據(jù)公司(IDC)預測,2018~2025年,全球數(shù)據(jù)量將從33 ZB猛增至175 ZB,而根據(jù)工業(yè)和信息化部相關預測,2021~2025年,我國的大數(shù)據(jù)產業(yè)規(guī)模將從1.3萬億元突破至3萬億元,數(shù)據(jù)已然成為推動經濟社會發(fā)展最重要的基礎生產要素之一[1]。數(shù)據(jù)資源被充分利用的同時,數(shù)據(jù)安全問題也日益凸顯,數(shù)據(jù)被非法獲取事件頻頻發(fā)生,給企業(yè)和個人帶來了巨大損失。因此,在挖掘數(shù)據(jù)價值的同時,確保數(shù)據(jù)安全,已成為亟需解決的關鍵問題。
傳統(tǒng)的數(shù)據(jù)安全解決方案大多關注于數(shù)據(jù)的存儲和傳輸,在對數(shù)據(jù)進行挖掘利用時,仍然需要具有敏感信息的原始數(shù)據(jù),數(shù)據(jù)非法竊取者可通過身份攻擊、屬性攻擊、存在性攻擊和概率知識攻擊等,推斷出個體敏感信息[2]。數(shù)據(jù)脫敏技術是通過對數(shù)據(jù)進行一定處理來保護隱私的技術,其目的是在保留輸入數(shù)據(jù)的統(tǒng)計特征以及可用性的同時,保護數(shù)據(jù)的隱私和安全[3]。差分隱私技術是數(shù)據(jù)脫敏技術的一種,該技術提供了一種隱私保護方法,旨在向原始數(shù)據(jù)注入噪聲或擾動,實現(xiàn)在保護個體數(shù)據(jù)隱私的同時,完成對數(shù)據(jù)的挖掘利用[4]。
差分隱私技術在國外研究較早,且技術日趨成熟。2006年,Dwork等人[5]首次提出了差分隱私保護方法,該方法通過向原始數(shù)據(jù)添加服從特定分布的噪聲,用以保護敏感數(shù)據(jù),解決了傳統(tǒng)數(shù)據(jù)匿名脫敏技術無法抵抗背景知識攻擊的問題。2016年,Abadi等人[6]提出了具有差分隱私的深度學習算法,分析了差分隱私在深度學習框架內的隱私成本,在保護數(shù)據(jù)隱私的同時,訓練出有效的深度學習模型。2019年,Holohan等人[7]設計了IBM差分隱私庫,用于Python編程語言中研究、實驗和開發(fā)差分隱私應用程序。2023年,Holohan[8]又提出了差分隱私隨機數(shù)生成器和種子算法,實現(xiàn)了在差分算法和結果中進行測試和錯誤修復,為差分隱私算法選擇提供了有利幫助。
近年來,國內的差分隱私技術研究也取得了豐碩成果。2009年,袁進良[9]設計了統(tǒng)一的差分隱私聯(lián)邦學習平臺,擴展了傳統(tǒng)的隱私預算組合定理,實現(xiàn)了隨時間不斷更新的可用預算,解決了差分隱私的強隱私和聯(lián)邦系統(tǒng)的高吞吐難兼顧問題。2023年,張連福[10]提出了一種基于同態(tài)加密與差分隱私的隱私保護聯(lián)邦學習方案,利用多種防護措施實現(xiàn)了隱私防護范圍覆蓋聯(lián)邦學習全生命周期。同年,張旭[11]提出一種兼顧安全防御和隱私保護的分布式學習系統(tǒng),該系統(tǒng)實現(xiàn)隱私保護的同時,提升了訓練模型的準確性。隨著差分隱私技術的不斷迭代發(fā)展,其在數(shù)據(jù)隱私保護領域得到越來越多的應用。
本文探討基于差分隱私的數(shù)據(jù)脫敏方法,對數(shù)據(jù)集進行清洗整理后,利用Laplace機制對敏感數(shù)據(jù)進行處理,利用神經網(wǎng)絡模型分別對未脫敏數(shù)據(jù)和脫敏后的數(shù)據(jù)進行訓練和預測,對比原始數(shù)據(jù)、差分隱私脫敏數(shù)據(jù)及其他脫敏技術數(shù)據(jù)生成模型的預測效果,為神經網(wǎng)絡預測模型的數(shù)據(jù)隱私保護問題提供解決方案。
本文詳細內容請下載:
http://ihrv.cn/resource/share/2000006341
作者信息:
李思慧1,戴明超1,蔡伍洲2
(1.武警吉林省總隊,吉林長春130000;
2.武警部隊作戰(zhàn)勤務局,北京100000)