文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.004
引用格式: 魏宏原,華蓓,林飛. 面向數(shù)據(jù)共享的模型訓練服務系統(tǒng)[J].網(wǎng)絡安全與數(shù)據(jù)治理,2022,41(2):20-29.
0 引言
隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術的發(fā)展,以及智慧城市、智慧醫(yī)療、電子商務等應用的廣泛普及,每天都有海量的數(shù)據(jù)產(chǎn)生,這些數(shù)據(jù)蘊涵了大量有價值的信息。但是另一方面,數(shù)據(jù)不足正成為當下制約人工智能發(fā)展的一大瓶頸。例如,深度神經(jīng)網(wǎng)絡需要大量數(shù)據(jù)來訓練,但現(xiàn)實中大多數(shù)領域只有少量數(shù)據(jù)集可用,如自動駕駛只有數(shù)個公開數(shù)據(jù)集,醫(yī)學圖像領域不僅數(shù)據(jù)集少,且每個數(shù)據(jù)集僅包含數(shù)十或數(shù)百個病例。造成這種現(xiàn)象的原因主要有兩個方面,一是原始數(shù)據(jù)必須經(jīng)過清洗和標注才能使用,而這一過程不僅費時費力,更可能需要專業(yè)人士的介入;二是目前各行各業(yè)的數(shù)據(jù)主要由政府和企業(yè)在收集,出于行業(yè)競爭、數(shù)據(jù)安全、管理制度等方面的考慮,這些數(shù)據(jù)不能被共享,形成了許許多多的數(shù)據(jù)孤島。如何在保護數(shù)據(jù)和使用數(shù)據(jù)之間取得平衡,是當下迫切需要解決的問題[1]。
一些企業(yè)和機構已經(jīng)或正在建設數(shù)據(jù)共享和交易平臺來促進數(shù)據(jù)流通,如Exchange、數(shù)據(jù)堂、上海數(shù)據(jù)交易中心等。但目前這些平臺多以交易數(shù)據(jù)為主,用戶在付費之后擁有對數(shù)據(jù)的永久/指定期限訪問權,可以在數(shù)據(jù)上執(zhí)行任意計算來挖掘感興趣的信息。這會帶來兩個問題,一是如果這些數(shù)據(jù)中包含敏感信息,直接開放給用戶下載會帶來數(shù)據(jù)安全問題;二是難以控制用戶對數(shù)據(jù)進行非法復制和傳播,數(shù)據(jù)可能被用于不正當用途。其實很多時候用戶只想利用數(shù)據(jù)來訓練他們需要的模型,對原始數(shù)據(jù)本身并不感興趣,向用戶提供數(shù)據(jù)的功能性服務而非直接提供數(shù)據(jù),可以在一定程度上解決數(shù)據(jù)保護和數(shù)據(jù)使用之間的矛盾。比如,交通管理部門可在自有的城市出行數(shù)據(jù)上,為社會學研究人員訓練用于分析人群移動規(guī)律的數(shù)學模型。
本文提出面向數(shù)據(jù)共享的模型訓練服務系統(tǒng),允許機構或企業(yè)利用自有數(shù)據(jù)集和自有計算資源,向用戶提供模型訓練服務(當然機構可以向用戶收費,但這不在本文討論的范圍內(nèi))。用戶只需指定需要的數(shù)據(jù)集并上傳自定義的模型結構(本系統(tǒng)主要考慮深度學習模型),系統(tǒng)可自動完成模型訓練作業(yè),并向用戶返回訓練好的模型,真正實現(xiàn)“數(shù)據(jù)可用不可見”。提供數(shù)據(jù)的功能性服務接口而非數(shù)據(jù)本身,對于消除數(shù)據(jù)孤島、促進數(shù)據(jù)安全流通具有極為積極的作用
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004854
作者信息:
魏宏原1,2,華 蓓1,2,林 飛1,2
(1.中國科學技術大學 計算機科學與技術學院,安徽 合肥230027;
2.中國科學院無線光電通信重點實驗室,安徽 合肥230027)