《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 面向数据共享的模型训练服务系统
面向数据共享的模型训练服务系统
网络安全与数据治理 2期
魏宏原1,2,华 蓓1,2,林 飞1,2
(1.中国科学技术大学 计算机科学与技术学院,安徽 合肥230027; 2.中国科学院无线光电通信重点实验室,安徽 合肥230027)
摘要: 数据驱动的人工智能应用需要大数据支持,然而现实中因隐私保护等原因,数据往往互不流通,而以孤岛形式存在。如何实现数据安全可用是当前亟待解决的问题。设计和实现了面向数据共享的模型训练服务系统,通过向用户提供数据功能服务接口而非数据本身,实现数据可用不可见。重点针对资源受限的数据共享平台,设计了高效的资源分配和作业调度方法,特别是通过自动资源缩放来应对多变的工作负载,达到优化用户体验和提高资源利用的目的。实验表明,相较于常规的作业调度方法,本系统在各种工作负载下都具有响应服务请求快、作业完成时间短的优点。
中圖分類號(hào): TP14
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.004
引用格式: 魏宏原,華蓓,林飛. 面向數(shù)據(jù)共享的模型訓(xùn)練服務(wù)系統(tǒng)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(2):20-29.
A model training service system for data sharing
Wei Hongyuan1,2,Hua Bei1,2,Lin Fei1,2
(1.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China; 2.CAS Key Laboratory of Wireless-Optical Communications,Hefei 230027,China)
Abstract: Data-driven artificial intelligence applications require the support of big data. However, in reality, most of the data do not circulate with each other due to privacy leakage. How to achieve data security and availability is an urgent problem to be solved. This paper designs and implements a data sharing-oriented model training service system. By providing users with data function service interfaces instead of the data itself, data availability is invisible. This paper focuses on resource-constrained data sharing platforms, and designs efficient resource allocation and job scheduling methods, especially through automatic resource scaling to cope with changing workloads, to optimize user experience and improve resource utilization. Experiments show that, compared with the conventional job scheduling method, the system has the advantages of fast response to service requests and short job completion time under various workloads.
Key words : data sharing;model training service;job schedule;resource allocation

0 引言

隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)的發(fā)展,以及智慧城市、智慧醫(yī)療、電子商務(wù)等應(yīng)用的廣泛普及,每天都有海量的數(shù)據(jù)產(chǎn)生,這些數(shù)據(jù)蘊(yùn)涵了大量有價(jià)值的信息。但是另一方面,數(shù)據(jù)不足正成為當(dāng)下制約人工智能發(fā)展的一大瓶頸。例如,深度神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)來訓(xùn)練,但現(xiàn)實(shí)中大多數(shù)領(lǐng)域只有少量數(shù)據(jù)集可用,如自動(dòng)駕駛只有數(shù)個(gè)公開數(shù)據(jù)集,醫(yī)學(xué)圖像領(lǐng)域不僅數(shù)據(jù)集少,且每個(gè)數(shù)據(jù)集僅包含數(shù)十或數(shù)百個(gè)病例。造成這種現(xiàn)象的原因主要有兩個(gè)方面,一是原始數(shù)據(jù)必須經(jīng)過清洗和標(biāo)注才能使用,而這一過程不僅費(fèi)時(shí)費(fèi)力,更可能需要專業(yè)人士的介入;二是目前各行各業(yè)的數(shù)據(jù)主要由政府和企業(yè)在收集,出于行業(yè)競(jìng)爭(zhēng)、數(shù)據(jù)安全、管理制度等方面的考慮,這些數(shù)據(jù)不能被共享,形成了許許多多的數(shù)據(jù)孤島。如何在保護(hù)數(shù)據(jù)和使用數(shù)據(jù)之間取得平衡,是當(dāng)下迫切需要解決的問題[1]。

一些企業(yè)和機(jī)構(gòu)已經(jīng)或正在建設(shè)數(shù)據(jù)共享和交易平臺(tái)來促進(jìn)數(shù)據(jù)流通,如Exchange、數(shù)據(jù)堂、上海數(shù)據(jù)交易中心等。但目前這些平臺(tái)多以交易數(shù)據(jù)為主,用戶在付費(fèi)之后擁有對(duì)數(shù)據(jù)的永久/指定期限訪問權(quán),可以在數(shù)據(jù)上執(zhí)行任意計(jì)算來挖掘感興趣的信息。這會(huì)帶來兩個(gè)問題,一是如果這些數(shù)據(jù)中包含敏感信息,直接開放給用戶下載會(huì)帶來數(shù)據(jù)安全問題;二是難以控制用戶對(duì)數(shù)據(jù)進(jìn)行非法復(fù)制和傳播,數(shù)據(jù)可能被用于不正當(dāng)用途。其實(shí)很多時(shí)候用戶只想利用數(shù)據(jù)來訓(xùn)練他們需要的模型,對(duì)原始數(shù)據(jù)本身并不感興趣,向用戶提供數(shù)據(jù)的功能性服務(wù)而非直接提供數(shù)據(jù),可以在一定程度上解決數(shù)據(jù)保護(hù)和數(shù)據(jù)使用之間的矛盾。比如,交通管理部門可在自有的城市出行數(shù)據(jù)上,為社會(huì)學(xué)研究人員訓(xùn)練用于分析人群移動(dòng)規(guī)律的數(shù)學(xué)模型。

本文提出面向數(shù)據(jù)共享的模型訓(xùn)練服務(wù)系統(tǒng),允許機(jī)構(gòu)或企業(yè)利用自有數(shù)據(jù)集和自有計(jì)算資源,向用戶提供模型訓(xùn)練服務(wù)(當(dāng)然機(jī)構(gòu)可以向用戶收費(fèi),但這不在本文討論的范圍內(nèi))。用戶只需指定需要的數(shù)據(jù)集并上傳自定義的模型結(jié)構(gòu)(本系統(tǒng)主要考慮深度學(xué)習(xí)模型),系統(tǒng)可自動(dòng)完成模型訓(xùn)練作業(yè),并向用戶返回訓(xùn)練好的模型,真正實(shí)現(xiàn)“數(shù)據(jù)可用不可見”。提供數(shù)據(jù)的功能性服務(wù)接口而非數(shù)據(jù)本身,對(duì)于消除數(shù)據(jù)孤島、促進(jìn)數(shù)據(jù)安全流通具有極為積極的作用




本文詳細(xì)內(nèi)容請(qǐng)下載http://ihrv.cn/resource/share/2000004854




作者信息:

魏宏原1,2,華  蓓1,2,林  飛1,2

(1.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;

2.中國科學(xué)院無線光電通信重點(diǎn)實(shí)驗(yàn)室,安徽 合肥230027)


微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。