當(dāng)下,在許多廠商、專家的眼中和口中,隱私計(jì)算儼然成為了解決個(gè)人信息安全合規(guī)問題的“萬能解藥”。三位從事隱私工作的“老兵”基于他們自身的工作經(jīng)歷和感悟,撰寫了這篇反思性的文章,非常值得一讀。
清楚記得在2018年,前團(tuán)隊(duì)成員為驗(yàn)證多方計(jì)算性能的優(yōu)化,開發(fā)了多方+SGX的技術(shù)POC。場景是保護(hù)圖片隱私,在原圖不可見基礎(chǔ)上實(shí)現(xiàn)圖片AI分類。很快,有一天他興沖沖的告訴我,他的技術(shù)原型比僅使用多方計(jì)算性能提升了1000+倍。看著他渴望激勵(lì)的眼神,我問了他一個(gè)問題:多方+SGX的計(jì)算性能與直接明文計(jì)算的性能相差多少?至今,那個(gè)成員落寞的背影依然讓我記憶深刻:聯(lián)邦學(xué)習(xí)、多方計(jì)算、全同態(tài)等,既能保護(hù)個(gè)人信息,又能實(shí)現(xiàn)業(yè)務(wù)目標(biāo),數(shù)據(jù)可用不可見,多么完美的一個(gè)技術(shù)啊,可性能、通訊量等等成為橫亙?cè)谄鋺?yīng)用路上的大山,什么時(shí)候才能突破呢?
過去的2020年,如果說隱私增強(qiáng)技術(shù)領(lǐng)域至少在國內(nèi)個(gè)人信息保護(hù)技術(shù)領(lǐng)域只有一抹亮色的話,那么毫無疑問就是隱私計(jì)算技術(shù)在國內(nèi)的興起,眾多初創(chuàng)公司的涌現(xiàn)就是明證。(國外的亮點(diǎn)就多了,OneTrust強(qiáng)勢依舊、Collibra等公司的強(qiáng)勢崛起,Synthetic data的異軍突起等等)。據(jù)說半年前的測試結(jié)果表明,多方安全計(jì)算性能只比明文計(jì)算平均慢了25倍,而且計(jì)算類別也突破了之前簡單的加、減和比較三類,而開始支持統(tǒng)計(jì)分析、邏輯函數(shù)、分類算法甚至神經(jīng)網(wǎng)絡(luò)算法等等。隨著眾多力量的介入,一時(shí)間“可用不可見”成為隱私界的最流行語言,而隱私計(jì)算似乎代表了隱私/個(gè)人信息保護(hù)的方向。
如果僅作為一個(gè)技術(shù)研究人員,對(duì)隱私計(jì)算的進(jìn)展,除了高興還是高興,感謝有那么多的創(chuàng)新者為此的付出!但在今天,隨著對(duì)個(gè)人信息保護(hù)的理解,依然為技術(shù)進(jìn)步歡欣鼓舞的同時(shí),也需要提醒一下,隱私計(jì)算,并不是個(gè)人信息保護(hù)的全部,它只是試圖解決當(dāng)前個(gè)人信息保護(hù)最緊迫的問題之一而已,也只是個(gè)人信息保護(hù)發(fā)展的一個(gè)分支。那么,把隱私計(jì)算技術(shù)放在《個(gè)人信息保護(hù)法》所涉及到的場景下,它到底都有哪些問題呢?
一、隱私計(jì)算主要解決數(shù)據(jù)共享與流動(dòng)的問題
盡管差分隱私等技術(shù),其實(shí)也可應(yīng)用到數(shù)據(jù)的匿名化收集;聯(lián)邦學(xué)習(xí)算法,亦可實(shí)現(xiàn)用戶的個(gè)人信息不上云等;更不用說,有人亦將常見的data masking等也納入隱私計(jì)算的范疇,但當(dāng)前隱私計(jì)算最有價(jià)值的應(yīng)用場景,顯然在試圖解決“數(shù)據(jù)的孤島”問題,解決數(shù)據(jù)共享處理、實(shí)現(xiàn)數(shù)據(jù)的合規(guī)流動(dòng)的問題,尤其是在信貸的風(fēng)控、醫(yī)院間信息共享等場景。
但是,無論是GDPR還是中國的個(gè)人信息保護(hù)法,涉及到了個(gè)人信息的收集、存儲(chǔ)、使用、加工、傳輸、提供、公開等個(gè)人信息的全生命周期,企業(yè)的個(gè)人信息合規(guī)所面臨著的問題,顯然不僅僅是數(shù)據(jù)共享和流通問題,譬如近段時(shí)間,從網(wǎng)安、工信等部門通報(bào)APP來看,更多的是聚集在個(gè)人信息收集側(cè)。
《個(gè)人信息保護(hù)法》將于8月進(jìn)入人大三審,即將快速落地,法律制度建設(shè)基本成型,也意味著將進(jìn)入落實(shí)階段,即合規(guī)階段。近期的幾個(gè)重大事件表明,過去的無法可依、或法不責(zé)眾,或只是不痛不癢,那樣的互聯(lián)網(wǎng)發(fā)展時(shí)期已經(jīng)過去,強(qiáng)治理、強(qiáng)監(jiān)管的時(shí)代即將到來。在新的階段,企業(yè)需要“補(bǔ)課”,具體在個(gè)人信息保護(hù)領(lǐng)域,就是要盡快構(gòu)建涉及個(gè)人信息的收集、處理、使用、存儲(chǔ)、刪除或歸檔以及共享交換等全生命周期的合規(guī)管理系統(tǒng),而這個(gè)系統(tǒng),將是企業(yè)所有個(gè)人信息行為包括共享與交換“自證清白”的基礎(chǔ)。更主要的是個(gè)人信息保護(hù)法正在改變個(gè)人信息的數(shù)據(jù)生態(tài),尤其是明確了消費(fèi)者查/刪/改/復(fù)制等個(gè)人信息的權(quán)利,就如向消費(fèi)者“發(fā)槍”。面對(duì)人手一槍的消費(fèi)者,面臨著大量洶涌而來的請(qǐng)求,對(duì)現(xiàn)在的任何一個(gè)收集、使用個(gè)人信息的企業(yè)而言,都將是不得不面對(duì)的“合規(guī)噩夢”,不論大小,無一例外。
二、隱私計(jì)算未徹底解決合規(guī)問題
隱私計(jì)算實(shí)現(xiàn)“數(shù)據(jù)可用不可見”,數(shù)據(jù)合作方無法得到真實(shí)的用戶數(shù)據(jù),似乎完美的解決了個(gè)人信息使用的合規(guī)問題,但真的如此嗎?
消費(fèi)者的授權(quán)同意不可缺。無論是GDPR還是我們自己國內(nèi)的《個(gè)人信息保護(hù)法》,都明確表明,匿名化處理后的信息不屬于個(gè)人信息,自然也就不受個(gè)人信息保護(hù)的限制。從理論上分析,數(shù)據(jù)合作方使用隱私計(jì)算技術(shù),過程中的數(shù)據(jù)似乎都進(jìn)行了匿名化處理(真的嗎?),并不實(shí)際流轉(zhuǎn)數(shù)據(jù),或許不需要獲得用戶授權(quán)同意。但實(shí)踐中,原始數(shù)據(jù)采集在前,采用隱私計(jì)算在后,數(shù)據(jù)合作各方仍需獲得用戶授權(quán)同意收集數(shù)據(jù)。譬如當(dāng)在終端上使用聯(lián)邦學(xué)習(xí)對(duì)用戶行為建模時(shí),需要收集用戶的出行數(shù)據(jù)、購物消費(fèi)數(shù)據(jù)等進(jìn)行分析。盡管這些原始數(shù)據(jù)并未離開終端,并不意味著可隨意收集,用戶依然享有知情同意或者拒絕的權(quán)利,而企業(yè)需自證清白其在數(shù)據(jù)實(shí)際處理目的保持在合理的范圍內(nèi)。
在數(shù)據(jù)的使用階段,多方計(jì)算與同態(tài)加密等算法以及可信執(zhí)行環(huán)境等,盡管使用了高強(qiáng)度的加密算法,保證了數(shù)據(jù)不會(huì)泄露,但依然改變不了其“假名化”的本質(zhì)而非匿名化,加密后的數(shù)據(jù)依然可逆(盡管密鑰保護(hù)極好),使用加密計(jì)算后的結(jié)果在某些場景下依然反映出單個(gè)個(gè)體的某些特征,顯然屬于個(gè)人信息,將直接影響用戶的切身利益。在這種場景下,依然要確定數(shù)據(jù)合作雙方是否都獲得了用戶的授權(quán)同意;是否都未超范圍使用用戶的授權(quán);授權(quán)同意的證明又是什么等??傊?,即使“絕對(duì)的安全”,也并不等于“個(gè)人信息保護(hù)的合規(guī)”。隱私計(jì)算既不能豁免數(shù)據(jù)采集階段的授權(quán),更不能絕對(duì)豁免數(shù)據(jù)使用過程中的授權(quán),要依據(jù)場景和算法等具體判斷。
隱私計(jì)算實(shí)現(xiàn)了數(shù)據(jù)合作方之間的“可用不可見”,但從相關(guān)信息主體(消費(fèi)者)看來,數(shù)據(jù)必須是自己“可控且可見”,這是法律賦予的權(quán)利。除了“授權(quán)同意”,使用隱私計(jì)算在某些情況下將面對(duì)另一個(gè)合規(guī)困難:數(shù)據(jù)主體權(quán)利請(qǐng)求的響應(yīng)。無論是GDPR還是《個(gè)人信息保護(hù)法》,整體傾向于加強(qiáng)對(duì)個(gè)人信息主體權(quán)益的保護(hù),都明確了消費(fèi)者(個(gè)人信息主體)擁有對(duì)個(gè)人信息的查詢、修改、復(fù)制等權(quán)利。盡管在計(jì)算過程中保證了數(shù)據(jù)的安全性,但只要采集了用戶的個(gè)人信息,隱私計(jì)算數(shù)據(jù)合作雙方大部分情況下,依然要正確的響應(yīng)消費(fèi)者權(quán)利請(qǐng)求(盡管如何披露以及披露哪些信息依然需要規(guī)范指導(dǎo)),同時(shí)也有可能不得不將對(duì)方“暴露”給消費(fèi)者(如上文中提到,隱私計(jì)算的結(jié)果依然是用戶個(gè)人信息的情況),而這種“暴露”,將給對(duì)方帶來合規(guī)壓力。
總之,多方計(jì)算等算法,解決了數(shù)據(jù)合作方之間互不信任而又可釋放數(shù)據(jù)價(jià)值的問題,但并未解決所涉及個(gè)人信息主體的權(quán)利保護(hù);只解決了個(gè)人信息保護(hù)中“數(shù)據(jù)最小化”和“確保安全”(機(jī)密性、完整性等)的要求,卻無法保證消費(fèi)者的知情同意,可知可控的等權(quán)利。所以,隱私計(jì)算技術(shù)的使用過程中,不僅隱私計(jì)算合作方都需要合規(guī)管理系統(tǒng)的支撐,其計(jì)算過程中的合規(guī)要求,依然需根據(jù)具體應(yīng)用場景酌情判斷,隱私計(jì)算無法絕對(duì)豁免合規(guī)要求。
三、隱私計(jì)算效率和性能提升問題,是其不得不面對(duì)的最大困難
隱私計(jì)算中的多方計(jì)算、同態(tài)等算法,試圖用“絕對(duì)安全”解決數(shù)據(jù)的共享“合規(guī)”問題。這種安全,顯然是通過計(jì)算的復(fù)雜度、多方交互通訊量等的提高來獲得的,必然帶來使用的性能下降,也使得大部分的應(yīng)用場景均聚焦于少量數(shù)據(jù)的支持,對(duì)海量數(shù)據(jù)場景的支持能力還有待提升,存在著大系統(tǒng)、高算力、小任務(wù)的窘境。盡管隱私計(jì)算現(xiàn)在的性能提升了1000+倍甚至更高,但是其原理決定了性能優(yōu)化一定是有天花板的,而且這個(gè)天花板還可能不低。(清楚的記得,當(dāng)幾年前我們落地差分隱私算法的時(shí)候,基本要求之一就是ε<3,性能下降不能超過3%)。要突破隱私計(jì)算等算法的限制,要么是算法革命性突破,要么是DPU等專用芯片的出現(xiàn)。期待隱私計(jì)算性能下降或下降的影響度會(huì)越來越少,使得其接受度更高,應(yīng)用場景也更廣。
基于隱私計(jì)算的性能、算力等要求,隱私計(jì)算實(shí)現(xiàn)數(shù)據(jù)流動(dòng)的方式,其實(shí)像現(xiàn)實(shí)中的“武裝押運(yùn)”:數(shù)據(jù)的提供方、計(jì)算服務(wù)提供方、數(shù)據(jù)接收方互不信任,互相提防。這種模式,高安全、高成本、低效率,顯然只適用于運(yùn)送金錢、黃金等高價(jià)值目標(biāo)?!拔溲b押運(yùn)”模式,顯然并不適合應(yīng)用于常規(guī)商品的運(yùn)送,這時(shí)候,普適、高效、低成本的“快遞公司”才是王道。那么有“快遞公司”模式嗎?什么是“快遞公司”模式呢?后續(xù)詳談。
四、總結(jié)
隱私計(jì)算試圖使用互不信任的“絕對(duì)安全”在代替合規(guī),在解決數(shù)據(jù)提供方的自身數(shù)據(jù)安全不泄露來解決合規(guī)問題,本質(zhì)上還是用安全代替?zhèn)€人信息保護(hù),用安全(狹義)的思維來解決個(gè)人保護(hù)問題,那么,數(shù)據(jù)安全等于個(gè)人信息保護(hù)嗎?顯然不是。
隱私計(jì)算中的多方計(jì)算、同態(tài)算法等的應(yīng)用有一個(gè)基本的假設(shè):數(shù)據(jù)提供方對(duì)數(shù)據(jù)的任意使用享有控制權(quán)。這在個(gè)人信息保護(hù)法的背景下,顯然是存在問題的,隱私計(jì)算合作方并不能簡單通過技術(shù)豁免責(zé)任,依然需要合規(guī)管理系統(tǒng)的支撐。
考慮到實(shí)用性的問題,隱私計(jì)算性能改進(jìn),譬如多方計(jì)算安全性假設(shè)是其一個(gè)重要的參數(shù):是基于半誠實(shí)假設(shè)還是支持惡意的敵手模型等等。這些參數(shù)的設(shè)置顯然需要基于場景等進(jìn)行具體分析,天然依賴于個(gè)人信息合規(guī)管理系統(tǒng)的支撐。
事實(shí)上,如果將數(shù)據(jù)的共享交流不是單獨(dú)的割裂開來,而是將其納入個(gè)人信息全生命周期的合規(guī)管理之下,深刻理解個(gè)人信息保護(hù)的本質(zhì),將個(gè)人信息共享與流動(dòng)回歸商業(yè)行為的本來,那么就會(huì)發(fā)現(xiàn):隱私計(jì)算不是數(shù)據(jù)流動(dòng)和共享的唯一選擇?;谛湃误w系的構(gòu)建,基于數(shù)據(jù)使用和流動(dòng)生態(tài)的改變,基于數(shù)據(jù)的價(jià)值分配等等,不同的應(yīng)用場景,選擇最合適的數(shù)據(jù)共享和流動(dòng)策略亦會(huì)不同。
重技術(shù),輕管理的老毛病,不要再重犯了,在某個(gè)領(lǐng)域的教訓(xùn)還不夠深刻嗎?