當下,在許多廠商、專家的眼中和口中,隱私計算儼然成為了解決個人信息安全合規(guī)問題的“萬能解藥”。三位從事隱私工作的“老兵”基于他們自身的工作經歷和感悟,撰寫了這篇反思性的文章,非常值得一讀。
清楚記得在2018年,前團隊成員為驗證多方計算性能的優(yōu)化,開發(fā)了多方+SGX的技術POC。場景是保護圖片隱私,在原圖不可見基礎上實現(xiàn)圖片AI分類。很快,有一天他興沖沖的告訴我,他的技術原型比僅使用多方計算性能提升了1000+倍。看著他渴望激勵的眼神,我問了他一個問題:多方+SGX的計算性能與直接明文計算的性能相差多少?至今,那個成員落寞的背影依然讓我記憶深刻:聯(lián)邦學習、多方計算、全同態(tài)等,既能保護個人信息,又能實現(xiàn)業(yè)務目標,數據可用不可見,多么完美的一個技術啊,可性能、通訊量等等成為橫亙在其應用路上的大山,什么時候才能突破呢?
過去的2020年,如果說隱私增強技術領域至少在國內個人信息保護技術領域只有一抹亮色的話,那么毫無疑問就是隱私計算技術在國內的興起,眾多初創(chuàng)公司的涌現(xiàn)就是明證。(國外的亮點就多了,OneTrust強勢依舊、Collibra等公司的強勢崛起,Synthetic data的異軍突起等等)。據說半年前的測試結果表明,多方安全計算性能只比明文計算平均慢了25倍,而且計算類別也突破了之前簡單的加、減和比較三類,而開始支持統(tǒng)計分析、邏輯函數、分類算法甚至神經網絡算法等等。隨著眾多力量的介入,一時間“可用不可見”成為隱私界的最流行語言,而隱私計算似乎代表了隱私/個人信息保護的方向。
如果僅作為一個技術研究人員,對隱私計算的進展,除了高興還是高興,感謝有那么多的創(chuàng)新者為此的付出!但在今天,隨著對個人信息保護的理解,依然為技術進步歡欣鼓舞的同時,也需要提醒一下,隱私計算,并不是個人信息保護的全部,它只是試圖解決當前個人信息保護最緊迫的問題之一而已,也只是個人信息保護發(fā)展的一個分支。那么,把隱私計算技術放在《個人信息保護法》所涉及到的場景下,它到底都有哪些問題呢?
一、隱私計算主要解決數據共享與流動的問題
盡管差分隱私等技術,其實也可應用到數據的匿名化收集;聯(lián)邦學習算法,亦可實現(xiàn)用戶的個人信息不上云等;更不用說,有人亦將常見的data masking等也納入隱私計算的范疇,但當前隱私計算最有價值的應用場景,顯然在試圖解決“數據的孤島”問題,解決數據共享處理、實現(xiàn)數據的合規(guī)流動的問題,尤其是在信貸的風控、醫(yī)院間信息共享等場景。
但是,無論是GDPR還是中國的個人信息保護法,涉及到了個人信息的收集、存儲、使用、加工、傳輸、提供、公開等個人信息的全生命周期,企業(yè)的個人信息合規(guī)所面臨著的問題,顯然不僅僅是數據共享和流通問題,譬如近段時間,從網安、工信等部門通報APP來看,更多的是聚集在個人信息收集側。
《個人信息保護法》將于8月進入人大三審,即將快速落地,法律制度建設基本成型,也意味著將進入落實階段,即合規(guī)階段。近期的幾個重大事件表明,過去的無法可依、或法不責眾,或只是不痛不癢,那樣的互聯(lián)網發(fā)展時期已經過去,強治理、強監(jiān)管的時代即將到來。在新的階段,企業(yè)需要“補課”,具體在個人信息保護領域,就是要盡快構建涉及個人信息的收集、處理、使用、存儲、刪除或歸檔以及共享交換等全生命周期的合規(guī)管理系統(tǒng),而這個系統(tǒng),將是企業(yè)所有個人信息行為包括共享與交換“自證清白”的基礎。更主要的是個人信息保護法正在改變個人信息的數據生態(tài),尤其是明確了消費者查/刪/改/復制等個人信息的權利,就如向消費者“發(fā)槍”。面對人手一槍的消費者,面臨著大量洶涌而來的請求,對現(xiàn)在的任何一個收集、使用個人信息的企業(yè)而言,都將是不得不面對的“合規(guī)噩夢”,不論大小,無一例外。
二、隱私計算未徹底解決合規(guī)問題
隱私計算實現(xiàn)“數據可用不可見”,數據合作方無法得到真實的用戶數據,似乎完美的解決了個人信息使用的合規(guī)問題,但真的如此嗎?
消費者的授權同意不可缺。無論是GDPR還是我們自己國內的《個人信息保護法》,都明確表明,匿名化處理后的信息不屬于個人信息,自然也就不受個人信息保護的限制。從理論上分析,數據合作方使用隱私計算技術,過程中的數據似乎都進行了匿名化處理(真的嗎?),并不實際流轉數據,或許不需要獲得用戶授權同意。但實踐中,原始數據采集在前,采用隱私計算在后,數據合作各方仍需獲得用戶授權同意收集數據。譬如當在終端上使用聯(lián)邦學習對用戶行為建模時,需要收集用戶的出行數據、購物消費數據等進行分析。盡管這些原始數據并未離開終端,并不意味著可隨意收集,用戶依然享有知情同意或者拒絕的權利,而企業(yè)需自證清白其在數據實際處理目的保持在合理的范圍內。
在數據的使用階段,多方計算與同態(tài)加密等算法以及可信執(zhí)行環(huán)境等,盡管使用了高強度的加密算法,保證了數據不會泄露,但依然改變不了其“假名化”的本質而非匿名化,加密后的數據依然可逆(盡管密鑰保護極好),使用加密計算后的結果在某些場景下依然反映出單個個體的某些特征,顯然屬于個人信息,將直接影響用戶的切身利益。在這種場景下,依然要確定數據合作雙方是否都獲得了用戶的授權同意;是否都未超范圍使用用戶的授權;授權同意的證明又是什么等??傊词埂敖^對的安全”,也并不等于“個人信息保護的合規(guī)”。隱私計算既不能豁免數據采集階段的授權,更不能絕對豁免數據使用過程中的授權,要依據場景和算法等具體判斷。
隱私計算實現(xiàn)了數據合作方之間的“可用不可見”,但從相關信息主體(消費者)看來,數據必須是自己“可控且可見”,這是法律賦予的權利。除了“授權同意”,使用隱私計算在某些情況下將面對另一個合規(guī)困難:數據主體權利請求的響應。無論是GDPR還是《個人信息保護法》,整體傾向于加強對個人信息主體權益的保護,都明確了消費者(個人信息主體)擁有對個人信息的查詢、修改、復制等權利。盡管在計算過程中保證了數據的安全性,但只要采集了用戶的個人信息,隱私計算數據合作雙方大部分情況下,依然要正確的響應消費者權利請求(盡管如何披露以及披露哪些信息依然需要規(guī)范指導),同時也有可能不得不將對方“暴露”給消費者(如上文中提到,隱私計算的結果依然是用戶個人信息的情況),而這種“暴露”,將給對方帶來合規(guī)壓力。
總之,多方計算等算法,解決了數據合作方之間互不信任而又可釋放數據價值的問題,但并未解決所涉及個人信息主體的權利保護;只解決了個人信息保護中“數據最小化”和“確保安全”(機密性、完整性等)的要求,卻無法保證消費者的知情同意,可知可控的等權利。所以,隱私計算技術的使用過程中,不僅隱私計算合作方都需要合規(guī)管理系統(tǒng)的支撐,其計算過程中的合規(guī)要求,依然需根據具體應用場景酌情判斷,隱私計算無法絕對豁免合規(guī)要求。
三、隱私計算效率和性能提升問題,是其不得不面對的最大困難
隱私計算中的多方計算、同態(tài)等算法,試圖用“絕對安全”解決數據的共享“合規(guī)”問題。這種安全,顯然是通過計算的復雜度、多方交互通訊量等的提高來獲得的,必然帶來使用的性能下降,也使得大部分的應用場景均聚焦于少量數據的支持,對海量數據場景的支持能力還有待提升,存在著大系統(tǒng)、高算力、小任務的窘境。盡管隱私計算現(xiàn)在的性能提升了1000+倍甚至更高,但是其原理決定了性能優(yōu)化一定是有天花板的,而且這個天花板還可能不低。(清楚的記得,當幾年前我們落地差分隱私算法的時候,基本要求之一就是ε<3,性能下降不能超過3%)。要突破隱私計算等算法的限制,要么是算法革命性突破,要么是DPU等專用芯片的出現(xiàn)。期待隱私計算性能下降或下降的影響度會越來越少,使得其接受度更高,應用場景也更廣。
基于隱私計算的性能、算力等要求,隱私計算實現(xiàn)數據流動的方式,其實像現(xiàn)實中的“武裝押運”:數據的提供方、計算服務提供方、數據接收方互不信任,互相提防。這種模式,高安全、高成本、低效率,顯然只適用于運送金錢、黃金等高價值目標?!拔溲b押運”模式,顯然并不適合應用于常規(guī)商品的運送,這時候,普適、高效、低成本的“快遞公司”才是王道。那么有“快遞公司”模式嗎?什么是“快遞公司”模式呢?后續(xù)詳談。
四、總結
隱私計算試圖使用互不信任的“絕對安全”在代替合規(guī),在解決數據提供方的自身數據安全不泄露來解決合規(guī)問題,本質上還是用安全代替?zhèn)€人信息保護,用安全(狹義)的思維來解決個人保護問題,那么,數據安全等于個人信息保護嗎?顯然不是。
隱私計算中的多方計算、同態(tài)算法等的應用有一個基本的假設:數據提供方對數據的任意使用享有控制權。這在個人信息保護法的背景下,顯然是存在問題的,隱私計算合作方并不能簡單通過技術豁免責任,依然需要合規(guī)管理系統(tǒng)的支撐。
考慮到實用性的問題,隱私計算性能改進,譬如多方計算安全性假設是其一個重要的參數:是基于半誠實假設還是支持惡意的敵手模型等等。這些參數的設置顯然需要基于場景等進行具體分析,天然依賴于個人信息合規(guī)管理系統(tǒng)的支撐。
事實上,如果將數據的共享交流不是單獨的割裂開來,而是將其納入個人信息全生命周期的合規(guī)管理之下,深刻理解個人信息保護的本質,將個人信息共享與流動回歸商業(yè)行為的本來,那么就會發(fā)現(xiàn):隱私計算不是數據流動和共享的唯一選擇?;谛湃误w系的構建,基于數據使用和流動生態(tài)的改變,基于數據的價值分配等等,不同的應用場景,選擇最合適的數據共享和流動策略亦會不同。
重技術,輕管理的老毛病,不要再重犯了,在某個領域的教訓還不夠深刻嗎?