123,123,123

AI监管 | 用户数据用于AI模型训练场景的合规要点初探

日期： 2021-08-22

來源：网安寻路人

關(guān)鍵詞： AI监管

　　大數(shù)據(jù)、物聯(lián)網(wǎng)、深度學習等技術(shù)的發(fā)展，人工智能時代正在到來，商業(yè)級的AI應用如火如荼不斷深入。而人工智能的基本特征是需要收集和組合不同規(guī)模的數(shù)據(jù)、提取信息和知識進行自主學習、不同程度的自動化決策。一方面，需要海量用戶數(shù)據(jù)訓練出高質(zhì)量的模型，另一方面，如何保證數(shù)據(jù)的安全和用戶的隱私也面臨巨大的挑戰(zhàn)。本文針對用戶數(shù)據(jù)用于AI模型訓練的場景下的數(shù)據(jù)安全和隱私合規(guī)風險，筆者結(jié)合DPO群里專家的意見，整理該文，拋磚引玉，希望能共同探討新技術(shù)、新應用的不同場景下如何開展數(shù)據(jù)安全和隱私合規(guī)。

　　一、AI模型訓練場景的相關(guān)問題探討

　　1、AI模型訓練過程用戶數(shù)據(jù)的處理方式

　　數(shù)據(jù)采集：通過配合式采集、獲取公開數(shù)據(jù)集的方式合法采集數(shù)據(jù)。

　　數(shù)據(jù)清洗：對數(shù)據(jù)進行技術(shù)處理，刪除無用數(shù)據(jù)、進行質(zhì)量檢查、統(tǒng)一數(shù)據(jù)格式、刪除敏感信息數(shù)據(jù)脫敏、數(shù)據(jù)標注等。

　　數(shù)據(jù)運用：將清洗完畢的數(shù)據(jù)用于算法訓練。

　　數(shù)據(jù)管理：針對采集的數(shù)據(jù)及清洗后的數(shù)據(jù)，通過特定格式將數(shù)據(jù)以加密存儲的方式記錄在存儲介質(zhì)上，并根據(jù)法規(guī)要求及內(nèi)部數(shù)據(jù)合規(guī)制度要求進行管理。

　　2、關(guān)于AI模型訓練數(shù)據(jù)去標識化

　　AI模型訓練數(shù)據(jù)通常使用用戶使用產(chǎn)品/業(yè)務過程產(chǎn)生的數(shù)據(jù)，原始數(shù)據(jù)一般不需要用戶身份標識原始數(shù)據(jù)，因此在AI模型訓練時不建議將姓名、身份證、手機號等類型數(shù)據(jù)發(fā)送給使用方或者供應商，必須使用時需要對此類數(shù)據(jù)做去標識處理。

　　3、關(guān)于數(shù)據(jù)用于模型訓練的再次授權(quán)

　　個人數(shù)據(jù)用于模型訓練沒有豁免個人信息處理者的義務，所以仍然基于個人信息的敏感程度，獲取用戶的不同類別的授權(quán)，并且告知用戶訓練的基本邏輯，訓練后個人數(shù)據(jù)的后續(xù)處理方式（刪除/存留期）。但如涉及個人數(shù)據(jù)量大，無法做到對每個用戶進行再次詢問和獲取授權(quán)。此時考慮用戶原始授權(quán)的兼容性，及數(shù)據(jù)使用范圍是否擴大，綜合考慮是否需要再次獲取授權(quán)。

　　二、數(shù)據(jù)合規(guī)評估要點

　　1、業(yè)務必要性評估

　　遵循非必要不外發(fā)的原則，確認業(yè)務價值和必要性，數(shù)據(jù)外發(fā)是否為必要方式。業(yè)務方主管確認是否有數(shù)據(jù)外發(fā)的替代方案，確認數(shù)據(jù)外發(fā)的必要性。

　　業(yè)務方需詳細說明數(shù)據(jù)外發(fā)的業(yè)務邏輯和必要性，包括但不限于：業(yè)務場景描述、數(shù)據(jù)字段、渠道或方式、采取的安全控制措施、是否涉及數(shù)據(jù)交易、是否涉及用戶數(shù)據(jù)或用戶敏感數(shù)據(jù)、是否跨境、是否有用戶授權(quán)、與數(shù)據(jù)接收方的合作協(xié)議等內(nèi)容。

　　在此基礎上，安全人員評估數(shù)據(jù)外發(fā)的業(yè)務必要性。

　　示例：

　　——在數(shù)據(jù)外發(fā)供應商，供應商用于AI模型訓練場景，用于定位客戶的明確的信息，例如手機號、身份證號等，不是訓練數(shù)據(jù)，訓練數(shù)據(jù)通常為用戶產(chǎn)生的數(shù)據(jù)，此時如需外發(fā)客戶身份證號、手機號等信息時評估結(jié)果為業(yè)務非必要。

　　——AI模型盡量在本地部署，避免用戶數(shù)據(jù)外發(fā)。

　　涉及數(shù)據(jù)出境時，應按照相關(guān)法律、法規(guī)和國家標準要求處理，并且外發(fā)審批流程須升級處理。

　　2、數(shù)據(jù)使用的合法性評估

　　業(yè)務必要性評估結(jié)果通過后，需要評估數(shù)據(jù)用于AI技術(shù)或模型訓練是否合法，即數(shù)據(jù)使用合法性評估。

　　數(shù)據(jù)接收方使用數(shù)據(jù)的目的和用途需要在用戶授權(quán)相關(guān)條款說明告知，獲得用戶授權(quán)。

　　合法性評估建議由法務、安全共同評估。

　　3、如涉及數(shù)據(jù)外發(fā)須評估數(shù)據(jù)接收方的資質(zhì)

　　數(shù)據(jù)發(fā)送方須對開展數(shù)據(jù)合作的供應商或合作方在合作前進行安全評估，且簽署供應商保密協(xié)議。

　　應在保密協(xié)議或合同中，明確雙方在數(shù)據(jù)安全方面的責任及義務。明確說明數(shù)據(jù)使用的限制，包括使用目的、使用后立即刪除數(shù)據(jù)、處理結(jié)果僅用于某些產(chǎn)品、數(shù)據(jù)安全措施、以及違法協(xié)議的責任等。

　　示例：數(shù)據(jù)外發(fā)用于模型訓練的場景，應在保密協(xié)議或合同中明確數(shù)據(jù)的使用僅限于訓練，不能用于其他目的。明確模型的使用限制，數(shù)據(jù)使用結(jié)束后立即刪除用戶數(shù)據(jù)。

　　如有可能數(shù)據(jù)發(fā)送方應建立供應商或合作方誠信檔案，如有違反協(xié)議行為采取相應的處罰措施。

　　4、數(shù)據(jù)外發(fā)共享的安全要求

　　在必要性、合法性、接收方資質(zhì)都評估通過的情況下，數(shù)據(jù)外發(fā)或共享渠道應加密傳輸。

　　數(shù)據(jù)外發(fā)或共享時，如涉及姓名、身份證等用戶唯一標識類數(shù)據(jù)，應進行去標識處理。

　　數(shù)據(jù)加密、去標識的加密算法應滿足安全要求。

　　示例：身份證號經(jīng)過MD5哈希處理后外發(fā)給供應商，存在客戶身份證號被破解，重新定位用戶的可能。

　　用戶數(shù)據(jù)發(fā)送前，應與接收方明確告知隱私合規(guī)安全要求，明確數(shù)據(jù)期限和到期后清理刪除。

　　如數(shù)據(jù)接收方為企業(yè)供應商或合作伙伴，客戶數(shù)據(jù)進行訓練后的模型，建議在合同中約束模型使用的范圍。

　　以上是筆者總結(jié)的關(guān)于數(shù)據(jù)用于AI模型訓練需要進行數(shù)據(jù)外發(fā)或共享時需要進行的合規(guī)操作或評估要點，如有遺漏或錯誤，還望探討指正。（完）

電子技術(shù)圖片.png

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

AI监管 | 用户数据用于AI模型训练场景的合规要点初探

日期： 2021-08-22

來源：网安寻路人

相關(guān)內(nèi)容