《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 數據不出門就能被利用,聯(lián)邦學習讓機器學習工程化

數據不出門就能被利用,聯(lián)邦學習讓機器學習工程化

2022-07-13
來源:Soft6軟件網

近年來,人工智能相關技術持續(xù)演進,與云計算、大數據、物聯(lián)網、5G等技術不斷融合,成為引領未來的新興戰(zhàn)略性技術,是驅動新一輪科技革命和產業(yè)變革的重要力量。

在新科技革命和產業(yè)變革的大背景下,人工智能產業(yè)化和商業(yè)化進程不斷提速,正在加快與千行百業(yè)深度融合,正在促進新興產業(yè)之間、新興產業(yè)與傳統(tǒng)產業(yè)之間以及技術與社會的跨界融合發(fā)展。

中國軟件網、海比研究院認為,人工智能與產業(yè)深度融合,將成為企業(yè)釋放數字化疊加倍增效應、加快戰(zhàn)略新興產業(yè)發(fā)展、構筑綜合競爭優(yōu)勢的必然選擇,全面梳理人工智能技術、應用的發(fā)展態(tài)勢,對推動人工智能持續(xù)健康發(fā)展至關重要。

為此,中國軟件網、海比研究院特別推出了“人工智能行業(yè)洞察”系列報道,通過對人工智能技術、應用、企業(yè)等深度報道,助力企業(yè)數字化、智能化。

目前,中國軟件網、海比研究院已經推出的AI報道包括:

·HR擁抱人工智能,8大場景重塑無限可能

·一文透視“北京智源大會”十大AI熱點

·讓機器人解惑傳道,對話式AI能否為企業(yè)帶來巨量的業(yè)務

·MLOps:讓AI應用周期從9個月縮短到幾天

·超大規(guī)模與輕量化模型,誰會成為AI主流?

·大型機沒有滅亡,反而正成為AI、混合云的寵兒

·向死而生,浴火重生,創(chuàng)新能讓AI芯片新生?

·從蜂擁而上到紛紛退場,AI芯片誰在“裸泳”?

·谷歌微軟阿里華為都愛上大模型,AI開發(fā)邊界被打破

兩個百萬富翁街頭邂逅,想比比誰更有錢。但是出于隱私,都不想讓對方知道自己到底擁有多少財富。在不借助第三方的情況下,如何讓他們彼此知道誰更有錢呢?

這就是姚期智院士在1982年提出的隱私計算領域經典的“百萬富翁”問題。

其實,在手機輸入法的下一個詞預測、疑難疾病診斷、汽車自動駕駛、智能家居系統(tǒng)等AI應用中,同樣面臨著需要大量數據進行模型訓練,又需要保護用戶數據背后的隱私的問題。

作為一種機器學習方法,聯(lián)邦學習的核心理念是“數據不動模型動”,通過用戶數據不出本地的方式,完成云端模型訓練,實現(xiàn)了“數據可用不可見”,成為隱私保護計算的主流技術之一。

海比研究院認為,目前以聯(lián)邦學習為核心代表的隱私計算技術逐步發(fā)展,并在實踐中不斷走向成熟,正處于隱私計算商業(yè)引爆的前夜,2022年或成為規(guī)?;虡I(yè)落地的第一年。

1.理念:聯(lián)邦學習為機器學習開了一扇窗

AI模型需要大量的數據來訓練,而沒有數據和數據背后隱私如何保證呢?

目前全球有30億部智能手機和70億臺連接設備,這些手機和設備不斷生成新數據。傳統(tǒng)的機器學習需要在處理數據之前集中收集數據,以產生機器學習模型和最終形成更好的產品。

如果我們能夠在生成數據的設備上運行數據分析和機器學習,并且仍然能夠將所學知識匯總在一起,那不是更好嗎?

AI模型是靠數據來“喂養(yǎng)”的,而且需要大量優(yōu)質的數據?,F(xiàn)實生活中,除了少數巨頭公司能夠具備這樣條件外,絕大多數企業(yè)都存在數據量少、數據質量差的問題,不足以支撐人工智能技術的實現(xiàn)。

另外,數據是分散在不同地方的,放在不同的數據中心和不同的國家的,因為各個國家都有一些數據保護法規(guī),很難把數據拿出來。

有些客戶的數據量太大,沒辦法放在一個數據中心,可能需要放在多個城市、多個地方。

還有一種情況是不同的企業(yè)之間要進行數據共享、數據交換,但是因為數據的隱私,如《網絡安全法》合規(guī)要求等,無法把原始數據直接給別人。

在這些情況下,催生聯(lián)邦學習技術。

谷歌首倡的聯(lián)邦學習正在不斷發(fā)展進化。

聯(lián)邦學習(Federated  Learning)是一種新興的人工智能基礎技術,在2016 年由谷歌最先提出,用于解決安卓手機終端用戶在本地更新模型的問題。其設計目標是在保障大數據交換時的信息安全、終端數據和個人數據隱私、合法合規(guī)的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

信通院的報告認為,聯(lián)邦學習本質上是一種分布式機器學習框架,能做到了在保障數據隱私安全及合法合規(guī)的基礎上,實現(xiàn)數據共享,共同建模。

其核心思想是在多個數據源共同參與模型訓練時,不需要進行原始數據流轉的前提下,僅通過交互模型中間參數進行模型聯(lián)合訓練,原始數據可以不出本地。這種方式實現(xiàn)數據隱私保護和數據共享分析的平衡,即“數據可用不可見”的數據應用模式。

總體來說,聯(lián)邦學習技術,可以實現(xiàn)多個機構間構建統(tǒng)一的數據安全、高效、合規(guī)的多源數據應用生態(tài)系統(tǒng),實現(xiàn)跨機構的數據共享融合,通過系統(tǒng)擴大樣本量、增加數據維度為大數據應用提供高精度模型構建的有力支撐,進而提供更豐富、高質量的大數據服務。

聯(lián)邦學習的目標是在保證數據隱私安全及合法合規(guī)的基礎上,實現(xiàn)共同建模,提升AI模型的效果。

由此我們可以發(fā)現(xiàn),聯(lián)邦學習本質上是一種分布式機器學習技術,或機器學習框架。聯(lián)邦學習是機器學習領域的一個新興領域,與傳統(tǒng)的集中式機器學習方法相比,具有顯著的優(yōu)勢。

一是保護數據安全,將訓練數據集保留在設備上,因此模型不需要數據池。

二是保護數據多樣性。邊緣設備中的網絡不可用,可能會阻止公司合并來自不同來源的數據集。而聯(lián)邦學習有助于訪問異構數據,即使在數據源只能在特定時間進行通信的情況下也是如此。

三是實時持續(xù)學習,使用客戶數據不斷改進模型,無需聚合數據即可持續(xù)學習。

四是提升硬件效率,這種方法可以使用不太復雜的硬件,因為聯(lián)邦學習模型不需要一個復雜的中央服務器來分析數據。

2.技術:開源聯(lián)邦學習框架興起

了解聯(lián)邦學習的分類,可能有利于了解其技術和應用的范圍。

按照數據特征與分布方式的不同,聯(lián)邦學習可以分為三類:

橫向聯(lián)邦學習,在特征趨同的情況下對不同樣本進行聯(lián)合互補,用更大的樣本數據提升現(xiàn)有模型的精度。

比如罕見病研究中,每個醫(yī)院病例的數據維度基本一致,且病例樣本有限,通過聯(lián)邦學習可以在保障隱私的前提下,匯聚不同醫(yī)藥的相同病癥的數據,提高模型訓練的能力。

而縱向聯(lián)邦學習,比如同一個人,在樣本趨同的情況下,對不同特征進行聯(lián)合互補,用更多的特征數據,補全對某一客戶樣本的畫像。

比如同一地區(qū)的銀行、電商、運營商等用戶集可能包含該區(qū)域的大多數居民,但不同機構用戶數據特征不同,如果希望基于用戶的購買、收支、位置等數據進行信用等級評估,需要融合三方數據做回歸模型。

遷移聯(lián)邦學習則是一類樣本上面統(tǒng)一的模型,可以遷移到另外一批數據上面。有一些不同企業(yè)數據之間可能是互相影響的,就需要用個性聯(lián)邦學習來做統(tǒng)一的分析。

遷移聯(lián)邦學習適用于兩個數據集的重疊較少,不僅樣本不同,而且特征空間也有很大差異的場景下。

用于聯(lián)邦學習的流行框架包括Tensorflow Federated、Federated AI Technology Enabler(FATE)和PySyft,以及國內的FederatedScope。

PySyft是一個基于深度學習庫PyTorch的開源聯(lián)合學習庫,在主流深度學習框架PyTorch和TensorFlow等中使用聯(lián)邦學習,差分隱私和加密計算(如多方計算(MPC)、同態(tài)加密(HE))將隱私數據與模型訓練分離。

據介紹,PyTorch支持聯(lián)邦學習、安全多方計算、差分隱私等,可擴展,貢獻者可接入新的FL、MPC或DP方法,運算時間是純PyTorch的約46~70倍。

Tensorflow Federated是基于Google的Tensorflow平臺的開源聯(lián)邦學習框架。該方法使許多參與的客戶端能夠訓練共享的機器學習模型,同時將其數據保存在本地。

除了使用戶能夠創(chuàng)建自己的算法外,Tensorflow Federated還允許用戶在自己的模型和數據上模擬許多包含的聯(lián)邦學習算法。

FATE是由Webank AI設計的開源框架,旨在為Federated AI生態(tài)系統(tǒng)提供安全的計算框架。它基于同態(tài)加密和多方計算(MPC)實現(xiàn)安全的計算協(xié)議。它支持聯(lián)邦學習體系結構和各種機器學習算法的安全計算,包括邏輯回歸、深度學習和遷移學習等。

今年,阿里達摩院智能計算實驗室研發(fā)布了新型聯(lián)邦學習框架Federated Scope,并開源,希望促進隱私保護計算在研究和生產中的廣泛應用。

達摩院使用了事件驅動的編程范式來構建聯(lián)邦學習,即將聯(lián)邦學習看成是參與方之間收發(fā)消息的過程,通過定義消息類型以及處理消息的行為來描述聯(lián)邦學習過程。

通過這一方式,F(xiàn)ederated Scope實現(xiàn)了支持在豐富應用場景中進行大規(guī)模、高效率的聯(lián)邦學習異步訓練。

達摩院團隊對Federated Scope訓練模塊進行抽象,使其不依賴特定的深度學習后端,能兼容PyTorch、Tensorflow等不同設備運行環(huán)境,大幅降低了聯(lián)邦學習在科研與實際應用中的開發(fā)難度和成本。

為進一步適應不同應用場景,F(xiàn)ederated Scope還集成了多種功能模塊,包括自動調參、隱私保護、性能監(jiān)控、端模型個性化等。

3.市場:解決ML規(guī)?;俺杀镜裙こ虇栴}

市場研究機構KBV預言,全球聯(lián)邦學習市場規(guī)模,預計到2028年達到1.987億美元,在預測期間內將以11.1%的年復合成長率增長。

亞太地區(qū)的聯(lián)邦學習市場在預測期間(2022-2028年)將見證11.7%的復合年增長率。中國市場在2021年按國家劃分的亞太地區(qū)聯(lián)邦學習市場占主導地位,并將在未來幾年繼續(xù)成為主導市場。

同樣,中國的《網絡安全法》和《民法通則》等相繼頒布,規(guī)定互聯(lián)網企業(yè)不得泄露、篡改或破壞其收集的個人數據,在與第三方進行數據傳輸時,必須確保提交的合同明確描述要交換的數據范圍和數據保護義務。在不同程度上,這些法規(guī)的實施為人工智能的典型數據處理提出新的要求,同時也促進聯(lián)邦學習等市場的發(fā)展。

而國內的市場研究機構認為,包括聯(lián)邦學習在內的隱私計算將快速落地,服務企業(yè)智能應用發(fā)展。

與傳統(tǒng)的機器學習領域不同,新興的聯(lián)邦學習并不是因技術研究的推進而產生的,而是在實際應用中為解決數據隱私的問題而產生。因其特殊性,專家普遍認為“該技術正在進行工程化驗證其廣泛使用的可行性,解決規(guī)?;俺杀镜裙こ虇栴}”。

市場參與者遵循的主要策略是產品發(fā)布。根據KVB公司分析,微軟和谷歌是聯(lián)邦學習市場的先驅,英偉達(Nvidia)、IBM等公司是市場上的一些關鍵創(chuàng)新者,還包括英特爾、Cloudera、Edge Delta、DataFleets、Enveil和Secure AI Labs等參與者。

中國云服務商、AI企業(yè)和大數據企業(yè)如阿里云、騰訊云、第四范式等都進入隱私計算領域,其聯(lián)邦學習平臺正在擴大應用落地。

聯(lián)邦學習市場增長的主要因素是應用和協(xié)作學習。

一是在眾多應用中增強數據隱私。借助聯(lián)邦學習,機器學習方法的提供方式正在不斷發(fā)展。使用聯(lián)邦學習,企業(yè)可以加強現(xiàn)有的算法并改進其AI應用,小公司也可以發(fā)展自己的AI應用。在醫(yī)療保健領域,聯(lián)邦學習可以幫助醫(yī)療保健人員提供高質量的結果,同時加速藥物開發(fā),成為集中學習不足的一項補救措施。

二是實現(xiàn)不同用戶之間的協(xié)作學習。聯(lián)邦學習不是將數據保存在單臺計算機或數據集市上,而是將數據存儲在原始來源上,如智能手機、制造檢測設備、其他終端設備以及隨時隨地訓練的機器學習機,有助于在被發(fā)送到集中式服務器之前做出決策。

例如,聯(lián)邦學習在金融部門被廣泛用于債務風險評估。通常銀行使用白名單流程根據客戶的信用卡信息將客戶排除在集中儲備系統(tǒng)之外。風險評估變量,如稅收和聲譽,可以通過與其他金融機構和電子商務企業(yè)合作來使用。

但是市場制約因素是缺乏熟練的技術專業(yè)人員。由于訓練有素的人員(尤其是IT專家)的稀缺,許多企業(yè)在將機器學習集成到現(xiàn)有工作流程中時遇到了障礙。由于聯(lián)邦學習系統(tǒng)是一個新概念,因此人們很難掌握和執(zhí)行它們。招聘和維護技術技能成為公司的主要關注點。

4.應用:面向實際場景的優(yōu)化等亟待解決

在聯(lián)邦學習的應用方面,一方面應用場景不斷增多,如藥物發(fā)現(xiàn)、風險管理、在線視覺對象檢測、數據隱私和安全管理、工業(yè)物聯(lián)網、增強現(xiàn)實/虛擬現(xiàn)實、購物體驗個性化等。

另一方面,基于垂直行業(yè),醫(yī)療保健和生命科學、BFSI、IT和電信、能源和公用事業(yè)、制造、汽車和運輸、零售和電子商務等應用都開始應用聯(lián)邦學習技術。

介紹幾大典型應用場景。

政務數據交換。政務大數據蘊含著巨大的經濟與社會價值,其開放與共享對于促進政府自身轉型、社會需求獲取模式轉型、打造智慧城市以及產業(yè)經濟轉型都具有重要意義。

在政務數據開放共享的過程中,由于缺乏可信的數據資產權利確認方案,導致政府部門不愿意共享數據。因缺乏有效的隱私安全保護技術,數據共享后無法限制數據用途,導致數據濫用和隱私泄露等問題,政府部門共享數據意愿較低。

聯(lián)邦學習可以與大數據開發(fā)組件集成,打破政府部門數據孤島,實現(xiàn)跨部門、與社會數據等安全共享。除了提供“脫敏”、“審計”和“細粒度權限控制”等措施外,可以實現(xiàn)數據資源的定向使用,防范申請權限獲批后的數據濫用或二次分發(fā)等行為導致的隱私泄露問題。

移動應用。聯(lián)邦學習可用于從智能手機的數據池中構建用戶行為模型,而不會泄露個人數據,如用于下一個單詞預測、人臉檢測、語音識別等。Google使用聯(lián)邦學習來改進設備上的機器學習模型,例如Google Assistant中的“Hey Google”,允許用戶發(fā)出語音命令。

醫(yī)療保健和健康保險行業(yè)??梢岳寐?lián)邦學習,保護原始源中的敏感數據,可以通過從不同位置(如醫(yī)院、電子健康記錄數據庫等)收集數據來診斷罕見疾病,從而提供更好的數據多樣性。

自動駕駛汽車。為了正常運行,自動駕駛汽車可能需要更新的建筑、交通或行人行為模型。由于隱私問題和每個設備的連接受限,在這些情況下構建聚合模型可能具有挑戰(zhàn)性。聯(lián)邦學習方法可以訓練模型,可以在尊重用戶隱私的同時快速響應這些系統(tǒng)中的變化。聯(lián)邦學習可以通過實時數據和預測提供更好、更安全的自動駕駛汽車體驗。

制造行業(yè)預測性維護。制造公司可以使用聯(lián)邦學習模型來開發(fā)設備的預測性維護模型。預測性維護可能會面臨一些障礙,如客戶不想共享其個人數據或從不同國家/站點導出數據問題。聯(lián)邦學習可以通過使用本地數據集來處理這些挑戰(zhàn)。

盡管聯(lián)邦學習技術因工程而生,但由于其處于萌芽階段,專家認為該領域缺少足夠多的實際應用案例,且面向實際場景的優(yōu)化等問題也亟待解決。

業(yè)界經常用“數據不動模型動”和“讓數據可用不可見”來概括聯(lián)邦學習的基本原理。在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規(guī)的前提下,聯(lián)邦學習這一新興的人工智能基礎技術,在多參與方或多計算結點之間可以開展高效率的機器學習,是一項值得期待的技術。


  更多信息可以來這里獲取==>>電子技術應用-AET<<


1文章最后空三行圖片 (1).jpg


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。