文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.01.001
引用格式: 王申奧,王亞龍,王乾旭,等. 安卓應用隱私合規(guī)檢測方法研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2023,42(1):4-14.
0 引言
近年來,移動應用超范圍收集用戶隱私信息,強制索取敏感權限等現(xiàn)象屢見不鮮。為了保護用戶的個人隱私信息,監(jiān)管部門要求企業(yè)或組織在隱私政策以簡潔易讀的方式告知用戶他們如何收集、存儲和管理用戶的個人信息。然而,根據(jù)武漢大學2021年的相關調查顯示,77.8%的用戶在安裝App時“很少或從未”閱讀過隱私協(xié)議,69.69%的用戶會忽略App隱私協(xié)議的更新提示。盡管一些服務提供商已經(jīng)提高了其隱私政策的可理解性和可讀性,但這些政策仍然篇幅太長,難以閱讀。此外,2021年國家計算機網(wǎng)絡應急技術處理協(xié)調中心和中國網(wǎng)絡空間安全協(xié)會共同發(fā)布的《App違法違規(guī)收集使用個人信息監(jiān)測分析報告》中也顯示,超范圍收集用戶隱私信息,違反用戶“知情同意”原則的違法違規(guī)應用在各主流應用市場仍然廣泛存在。
近來,隱私合規(guī)分析的相關工作在國外頗受關注,逐漸被應用到大規(guī)模網(wǎng)站隱私合規(guī)性分析、移動應用隱私泄露檢測等領域。移動應用的隱私合規(guī)分析主要包括隱私政策文本分析與程序分析兩個部分。靜態(tài)程序分析執(zhí)行效率高,然而由于缺乏運行時路徑信息,靜態(tài)分析往往會產生一定程度的誤報。動態(tài)污點分析通常是利用插裝和代碼重寫為污點數(shù)據(jù)創(chuàng)建污點標記,優(yōu)點是準確率更高,但插裝和代碼重寫往往帶來更大的性能開銷。隱私合規(guī)研究往往是在程序分析的基礎上結合隱私政策文本進行合規(guī)性檢查。隱私政策文本分析作為國外新興的研究熱點,已經(jīng)陸續(xù)建立起豐富的隱私政策語料庫。然而在中文領域,隱私政策命名實體識別的研究仍然缺乏,中文隱私政策的公開語料庫也仍處于空白。這些問題制約了國內隱私政策與程序分析相結合的自動化合規(guī)檢測技術的發(fā)展。
為了解決上述問題,本文通過人工注釋構建危險權限術語詞典,提出利用雙向最大匹配算法實現(xiàn)基于詞典的隱私政策自動標注,從而構建中文隱私政策權限詞實體識別語料庫。在此基礎上,本文為隱私政策語料構建預訓練字嵌入,通過雙向長短期記憶神經(jīng)-條件隨機場(Bi-directional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)架構實現(xiàn)最優(yōu)標簽序列預測,從而完成權限詞實體識別任務。在應用程序動靜態(tài)混合分析部分,基于Androguard實現(xiàn)交叉引用并對程序實際調用的危險權限進行靜態(tài)分析。通過隱私政策聲明權限集與實際調用權限集的一致性分析,實現(xiàn)了對超范圍收集敏感信息行為的檢測。此外,依托 Frida動態(tài)插樁與Hook技術,對敏感應用編程接口(Application Programming Interface,API)進行重載,記錄函數(shù)調用堆棧、調用頻次、關鍵參數(shù)等行為日志信息,針對同意隱私政策前收集、靜默狀態(tài)下頻繁訪問敏感信息實現(xiàn)運行時狀態(tài)監(jiān)測。
本文詳細內容請下載:http://ihrv.cn/resource/share/2000005092.
作者信息:
王申奧,王亞龍,王乾旭,賀紫怡,李 暉
(西安電子科技大學 網(wǎng)絡與信息安全學院,陜西 西安710071)
歡迎關注電子技術應用2023年2月22日==>>商業(yè)航天研討會<<