123,123

数据不出门就能被利用，联邦学习让机器学习工程化

日期： 2022-07-13

來源：Soft6软件网

關鍵詞： 人工智能云计算大数据 5G

近年來，人工智能相關技術持續(xù)演進，與云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、5G等技術不斷融合，成為引領未來的新興戰(zhàn)略性技術，是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的重要力量。

在新科技革命和產(chǎn)業(yè)變革的大背景下，人工智能產(chǎn)業(yè)化和商業(yè)化進程不斷提速，正在加快與千行百業(yè)深度融合，正在促進新興產(chǎn)業(yè)之間、新興產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)之間以及技術與社會的跨界融合發(fā)展。

中國軟件網(wǎng)、海比研究院認為，人工智能與產(chǎn)業(yè)深度融合，將成為企業(yè)釋放數(shù)字化疊加倍增效應、加快戰(zhàn)略新興產(chǎn)業(yè)發(fā)展、構筑綜合競爭優(yōu)勢的必然選擇，全面梳理人工智能技術、應用的發(fā)展態(tài)勢，對推動人工智能持續(xù)健康發(fā)展至關重要。

為此，中國軟件網(wǎng)、海比研究院特別推出了“人工智能行業(yè)洞察”系列報道，通過對人工智能技術、應用、企業(yè)等深度報道，助力企業(yè)數(shù)字化、智能化。

目前，中國軟件網(wǎng)、海比研究院已經(jīng)推出的AI報道包括：

·HR擁抱人工智能，8大場景重塑無限可能

·一文透視“北京智源大會”十大AI熱點

·讓機器人解惑傳道，對話式AI能否為企業(yè)帶來巨量的業(yè)務

·MLOps：讓AI應用周期從9個月縮短到幾天

·超大規(guī)模與輕量化模型，誰會成為AI主流？

·大型機沒有滅亡，反而正成為AI、混合云的寵兒

·向死而生，浴火重生，創(chuàng)新能讓AI芯片新生？

·從蜂擁而上到紛紛退場，AI芯片誰在“裸泳”？

·谷歌微軟阿里華為都愛上大模型，AI開發(fā)邊界被打破

兩個百萬富翁街頭邂逅，想比比誰更有錢。但是出于隱私，都不想讓對方知道自己到底擁有多少財富。在不借助第三方的情況下，如何讓他們彼此知道誰更有錢呢？

這就是姚期智院士在1982年提出的隱私計算領域經(jīng)典的“百萬富翁”問題。

其實，在手機輸入法的下一個詞預測、疑難疾病診斷、汽車自動駕駛、智能家居系統(tǒng)等AI應用中，同樣面臨著需要大量數(shù)據(jù)進行模型訓練，又需要保護用戶數(shù)據(jù)背后的隱私的問題。

作為一種機器學習方法，聯(lián)邦學習的核心理念是“數(shù)據(jù)不動模型動”，通過用戶數(shù)據(jù)不出本地的方式，完成云端模型訓練，實現(xiàn)了“數(shù)據(jù)可用不可見”，成為隱私保護計算的主流技術之一。

海比研究院認為，目前以聯(lián)邦學習為核心代表的隱私計算技術逐步發(fā)展，并在實踐中不斷走向成熟，正處于隱私計算商業(yè)引爆的前夜，2022年或成為規(guī)?；虡I(yè)落地的第一年。

1．理念：聯(lián)邦學習為機器學習開了一扇窗

AI模型需要大量的數(shù)據(jù)來訓練，而沒有數(shù)據(jù)和數(shù)據(jù)背后隱私如何保證呢？

目前全球有30億部智能手機和70億臺連接設備，這些手機和設備不斷生成新數(shù)據(jù)。傳統(tǒng)的機器學習需要在處理數(shù)據(jù)之前集中收集數(shù)據(jù)，以產(chǎn)生機器學習模型和最終形成更好的產(chǎn)品。

如果我們能夠在生成數(shù)據(jù)的設備上運行數(shù)據(jù)分析和機器學習，并且仍然能夠?qū)⑺鶎W知識匯總在一起，那不是更好嗎？

AI模型是靠數(shù)據(jù)來“喂養(yǎng)”的，而且需要大量優(yōu)質(zhì)的數(shù)據(jù)。現(xiàn)實生活中，除了少數(shù)巨頭公司能夠具備這樣條件外，絕大多數(shù)企業(yè)都存在數(shù)據(jù)量少、數(shù)據(jù)質(zhì)量差的問題，不足以支撐人工智能技術的實現(xiàn)。

另外，數(shù)據(jù)是分散在不同地方的，放在不同的數(shù)據(jù)中心和不同的國家的，因為各個國家都有一些數(shù)據(jù)保護法規(guī)，很難把數(shù)據(jù)拿出來。

有些客戶的數(shù)據(jù)量太大，沒辦法放在一個數(shù)據(jù)中心，可能需要放在多個城市、多個地方。

還有一種情況是不同的企業(yè)之間要進行數(shù)據(jù)共享、數(shù)據(jù)交換，但是因為數(shù)據(jù)的隱私，如《網(wǎng)絡安全法》合規(guī)要求等，無法把原始數(shù)據(jù)直接給別人。

在這些情況下，催生聯(lián)邦學習技術。

谷歌首倡的聯(lián)邦學習正在不斷發(fā)展進化。

聯(lián)邦學習（Federated Learning）是一種新興的人工智能基礎技術，在2016 年由谷歌最先提出，用于解決安卓手機終端用戶在本地更新模型的問題。其設計目標是在保障大數(shù)據(jù)交換時的信息安全、終端數(shù)據(jù)和個人數(shù)據(jù)隱私、合法合規(guī)的前提下，在多參與方或多計算結點之間開展高效率的機器學習。

信通院的報告認為，聯(lián)邦學習本質(zhì)上是一種分布式機器學習框架，能做到了在保障數(shù)據(jù)隱私安全及合法合規(guī)的基礎上，實現(xiàn)數(shù)據(jù)共享，共同建模。

其核心思想是在多個數(shù)據(jù)源共同參與模型訓練時，不需要進行原始數(shù)據(jù)流轉的前提下，僅通過交互模型中間參數(shù)進行模型聯(lián)合訓練，原始數(shù)據(jù)可以不出本地。這種方式實現(xiàn)數(shù)據(jù)隱私保護和數(shù)據(jù)共享分析的平衡，即“數(shù)據(jù)可用不可見”的數(shù)據(jù)應用模式。

總體來說，聯(lián)邦學習技術，可以實現(xiàn)多個機構間構建統(tǒng)一的數(shù)據(jù)安全、高效、合規(guī)的多源數(shù)據(jù)應用生態(tài)系統(tǒng)，實現(xiàn)跨機構的數(shù)據(jù)共享融合，通過系統(tǒng)擴大樣本量、增加數(shù)據(jù)維度為大數(shù)據(jù)應用提供高精度模型構建的有力支撐，進而提供更豐富、高質(zhì)量的大數(shù)據(jù)服務。

聯(lián)邦學習的目標是在保證數(shù)據(jù)隱私安全及合法合規(guī)的基礎上，實現(xiàn)共同建模，提升AI模型的效果。

由此我們可以發(fā)現(xiàn)，聯(lián)邦學習本質(zhì)上是一種分布式機器學習技術，或機器學習框架。聯(lián)邦學習是機器學習領域的一個新興領域，與傳統(tǒng)的集中式機器學習方法相比，具有顯著的優(yōu)勢。

一是保護數(shù)據(jù)安全，將訓練數(shù)據(jù)集保留在設備上，因此模型不需要數(shù)據(jù)池。

二是保護數(shù)據(jù)多樣性。邊緣設備中的網(wǎng)絡不可用，可能會阻止公司合并來自不同來源的數(shù)據(jù)集。而聯(lián)邦學習有助于訪問異構數(shù)據(jù)，即使在數(shù)據(jù)源只能在特定時間進行通信的情況下也是如此。

三是實時持續(xù)學習，使用客戶數(shù)據(jù)不斷改進模型，無需聚合數(shù)據(jù)即可持續(xù)學習。

四是提升硬件效率，這種方法可以使用不太復雜的硬件，因為聯(lián)邦學習模型不需要一個復雜的中央服務器來分析數(shù)據(jù)。

2．技術：開源聯(lián)邦學習框架興起

了解聯(lián)邦學習的分類，可能有利于了解其技術和應用的范圍。

按照數(shù)據(jù)特征與分布方式的不同，聯(lián)邦學習可以分為三類：

橫向聯(lián)邦學習，在特征趨同的情況下對不同樣本進行聯(lián)合互補，用更大的樣本數(shù)據(jù)提升現(xiàn)有模型的精度。

比如罕見病研究中，每個醫(yī)院病例的數(shù)據(jù)維度基本一致，且病例樣本有限，通過聯(lián)邦學習可以在保障隱私的前提下，匯聚不同醫(yī)藥的相同病癥的數(shù)據(jù)，提高模型訓練的能力。

而縱向聯(lián)邦學習，比如同一個人，在樣本趨同的情況下，對不同特征進行聯(lián)合互補，用更多的特征數(shù)據(jù)，補全對某一客戶樣本的畫像。

比如同一地區(qū)的銀行、電商、運營商等用戶集可能包含該區(qū)域的大多數(shù)居民，但不同機構用戶數(shù)據(jù)特征不同，如果希望基于用戶的購買、收支、位置等數(shù)據(jù)進行信用等級評估，需要融合三方數(shù)據(jù)做回歸模型。

遷移聯(lián)邦學習則是一類樣本上面統(tǒng)一的模型，可以遷移到另外一批數(shù)據(jù)上面。有一些不同企業(yè)數(shù)據(jù)之間可能是互相影響的，就需要用個性聯(lián)邦學習來做統(tǒng)一的分析。

遷移聯(lián)邦學習適用于兩個數(shù)據(jù)集的重疊較少，不僅樣本不同，而且特征空間也有很大差異的場景下。

用于聯(lián)邦學習的流行框架包括Tensorflow Federated、Federated AI Technology Enabler（FATE）和PySyft，以及國內(nèi)的FederatedScope。

PySyft是一個基于深度學習庫PyTorch的開源聯(lián)合學習庫，在主流深度學習框架PyTorch和TensorFlow等中使用聯(lián)邦學習，差分隱私和加密計算（如多方計算（MPC）、同態(tài)加密（HE））將隱私數(shù)據(jù)與模型訓練分離。

據(jù)介紹，PyTorch支持聯(lián)邦學習、安全多方計算、差分隱私等，可擴展，貢獻者可接入新的FL、MPC或DP方法，運算時間是純PyTorch的約46～70倍。

Tensorflow Federated是基于Google的Tensorflow平臺的開源聯(lián)邦學習框架。該方法使許多參與的客戶端能夠訓練共享的機器學習模型，同時將其數(shù)據(jù)保存在本地。

除了使用戶能夠創(chuàng)建自己的算法外，Tensorflow Federated還允許用戶在自己的模型和數(shù)據(jù)上模擬許多包含的聯(lián)邦學習算法。

FATE是由Webank AI設計的開源框架，旨在為Federated AI生態(tài)系統(tǒng)提供安全的計算框架。它基于同態(tài)加密和多方計算（MPC）實現(xiàn)安全的計算協(xié)議。它支持聯(lián)邦學習體系結構和各種機器學習算法的安全計算，包括邏輯回歸、深度學習和遷移學習等。

今年，阿里達摩院智能計算實驗室研發(fā)布了新型聯(lián)邦學習框架Federated Scope，并開源，希望促進隱私保護計算在研究和生產(chǎn)中的廣泛應用。

達摩院使用了事件驅(qū)動的編程范式來構建聯(lián)邦學習，即將聯(lián)邦學習看成是參與方之間收發(fā)消息的過程，通過定義消息類型以及處理消息的行為來描述聯(lián)邦學習過程。

通過這一方式，F(xiàn)ederated Scope實現(xiàn)了支持在豐富應用場景中進行大規(guī)模、高效率的聯(lián)邦學習異步訓練。

達摩院團隊對Federated Scope訓練模塊進行抽象，使其不依賴特定的深度學習后端，能兼容PyTorch、Tensorflow等不同設備運行環(huán)境，大幅降低了聯(lián)邦學習在科研與實際應用中的開發(fā)難度和成本。

為進一步適應不同應用場景，F(xiàn)ederated Scope還集成了多種功能模塊，包括自動調(diào)參、隱私保護、性能監(jiān)控、端模型個性化等。

3．市場：解決ML規(guī)?；俺杀镜裙こ虇栴}

市場研究機構KBV預言，全球聯(lián)邦學習市場規(guī)模，預計到2028年達到1．987億美元，在預測期間內(nèi)將以11．1％的年復合成長率增長。

亞太地區(qū)的聯(lián)邦學習市場在預測期間（2022－2028年）將見證11．7％的復合年增長率。中國市場在2021年按國家劃分的亞太地區(qū)聯(lián)邦學習市場占主導地位，并將在未來幾年繼續(xù)成為主導市場。

同樣，中國的《網(wǎng)絡安全法》和《民法通則》等相繼頒布，規(guī)定互聯(lián)網(wǎng)企業(yè)不得泄露、篡改或破壞其收集的個人數(shù)據(jù)，在與第三方進行數(shù)據(jù)傳輸時，必須確保提交的合同明確描述要交換的數(shù)據(jù)范圍和數(shù)據(jù)保護義務。在不同程度上，這些法規(guī)的實施為人工智能的典型數(shù)據(jù)處理提出新的要求，同時也促進聯(lián)邦學習等市場的發(fā)展。

而國內(nèi)的市場研究機構認為，包括聯(lián)邦學習在內(nèi)的隱私計算將快速落地，服務企業(yè)智能應用發(fā)展。

與傳統(tǒng)的機器學習領域不同，新興的聯(lián)邦學習并不是因技術研究的推進而產(chǎn)生的，而是在實際應用中為解決數(shù)據(jù)隱私的問題而產(chǎn)生。因其特殊性，專家普遍認為“該技術正在進行工程化驗證其廣泛使用的可行性，解決規(guī)?；俺杀镜裙こ虇栴}”。

市場參與者遵循的主要策略是產(chǎn)品發(fā)布。根據(jù)KVB公司分析，微軟和谷歌是聯(lián)邦學習市場的先驅(qū)，英偉達（Nvidia）、IBM等公司是市場上的一些關鍵創(chuàng)新者，還包括英特爾、Cloudera、Edge Delta、DataFleets、Enveil和Secure AI Labs等參與者。

中國云服務商、AI企業(yè)和大數(shù)據(jù)企業(yè)如阿里云、騰訊云、第四范式等都進入隱私計算領域，其聯(lián)邦學習平臺正在擴大應用落地。

聯(lián)邦學習市場增長的主要因素是應用和協(xié)作學習。

一是在眾多應用中增強數(shù)據(jù)隱私。借助聯(lián)邦學習，機器學習方法的提供方式正在不斷發(fā)展。使用聯(lián)邦學習，企業(yè)可以加強現(xiàn)有的算法并改進其AI應用，小公司也可以發(fā)展自己的AI應用。在醫(yī)療保健領域，聯(lián)邦學習可以幫助醫(yī)療保健人員提供高質(zhì)量的結果，同時加速藥物開發(fā)，成為集中學習不足的一項補救措施。

二是實現(xiàn)不同用戶之間的協(xié)作學習。聯(lián)邦學習不是將數(shù)據(jù)保存在單臺計算機或數(shù)據(jù)集市上，而是將數(shù)據(jù)存儲在原始來源上，如智能手機、制造檢測設備、其他終端設備以及隨時隨地訓練的機器學習機，有助于在被發(fā)送到集中式服務器之前做出決策。

例如，聯(lián)邦學習在金融部門被廣泛用于債務風險評估。通常銀行使用白名單流程根據(jù)客戶的信用卡信息將客戶排除在集中儲備系統(tǒng)之外。風險評估變量，如稅收和聲譽，可以通過與其他金融機構和電子商務企業(yè)合作來使用。

但是市場制約因素是缺乏熟練的技術專業(yè)人員。由于訓練有素的人員（尤其是IT專家）的稀缺，許多企業(yè)在將機器學習集成到現(xiàn)有工作流程中時遇到了障礙。由于聯(lián)邦學習系統(tǒng)是一個新概念，因此人們很難掌握和執(zhí)行它們。招聘和維護技術技能成為公司的主要關注點。

4．應用：面向?qū)嶋H場景的優(yōu)化等亟待解決

在聯(lián)邦學習的應用方面，一方面應用場景不斷增多，如藥物發(fā)現(xiàn)、風險管理、在線視覺對象檢測、數(shù)據(jù)隱私和安全管理、工業(yè)物聯(lián)網(wǎng)、增強現(xiàn)實／虛擬現(xiàn)實、購物體驗個性化等。

另一方面，基于垂直行業(yè)，醫(yī)療保健和生命科學、BFSI、IT和電信、能源和公用事業(yè)、制造、汽車和運輸、零售和電子商務等應用都開始應用聯(lián)邦學習技術。

介紹幾大典型應用場景。

政務數(shù)據(jù)交換。政務大數(shù)據(jù)蘊含著巨大的經(jīng)濟與社會價值，其開放與共享對于促進政府自身轉型、社會需求獲取模式轉型、打造智慧城市以及產(chǎn)業(yè)經(jīng)濟轉型都具有重要意義。

在政務數(shù)據(jù)開放共享的過程中，由于缺乏可信的數(shù)據(jù)資產(chǎn)權利確認方案，導致政府部門不愿意共享數(shù)據(jù)。因缺乏有效的隱私安全保護技術，數(shù)據(jù)共享后無法限制數(shù)據(jù)用途，導致數(shù)據(jù)濫用和隱私泄露等問題，政府部門共享數(shù)據(jù)意愿較低。

聯(lián)邦學習可以與大數(shù)據(jù)開發(fā)組件集成，打破政府部門數(shù)據(jù)孤島，實現(xiàn)跨部門、與社會數(shù)據(jù)等安全共享。除了提供“脫敏”、“審計”和“細粒度權限控制”等措施外，可以實現(xiàn)數(shù)據(jù)資源的定向使用，防范申請權限獲批后的數(shù)據(jù)濫用或二次分發(fā)等行為導致的隱私泄露問題。

移動應用。聯(lián)邦學習可用于從智能手機的數(shù)據(jù)池中構建用戶行為模型，而不會泄露個人數(shù)據(jù)，如用于下一個單詞預測、人臉檢測、語音識別等。Google使用聯(lián)邦學習來改進設備上的機器學習模型，例如Google Assistant中的“Hey Google”，允許用戶發(fā)出語音命令。

醫(yī)療保健和健康保險行業(yè)?？梢岳寐?lián)邦學習，保護原始源中的敏感數(shù)據(jù)，可以通過從不同位置（如醫(yī)院、電子健康記錄數(shù)據(jù)庫等）收集數(shù)據(jù)來診斷罕見疾病，從而提供更好的數(shù)據(jù)多樣性。

自動駕駛汽車。為了正常運行，自動駕駛汽車可能需要更新的建筑、交通或行人行為模型。由于隱私問題和每個設備的連接受限，在這些情況下構建聚合模型可能具有挑戰(zhàn)性。聯(lián)邦學習方法可以訓練模型，可以在尊重用戶隱私的同時快速響應這些系統(tǒng)中的變化。聯(lián)邦學習可以通過實時數(shù)據(jù)和預測提供更好、更安全的自動駕駛汽車體驗。

制造行業(yè)預測性維護。制造公司可以使用聯(lián)邦學習模型來開發(fā)設備的預測性維護模型。預測性維護可能會面臨一些障礙，如客戶不想共享其個人數(shù)據(jù)或從不同國家／站點導出數(shù)據(jù)問題。聯(lián)邦學習可以通過使用本地數(shù)據(jù)集來處理這些挑戰(zhàn)。

盡管聯(lián)邦學習技術因工程而生，但由于其處于萌芽階段，專家認為該領域缺少足夠多的實際應用案例，且面向?qū)嶋H場景的優(yōu)化等問題也亟待解決。

業(yè)界經(jīng)常用“數(shù)據(jù)不動模型動”和“讓數(shù)據(jù)可用不可見”來概括聯(lián)邦學習的基本原理。在保障大數(shù)據(jù)交換時的信息安全、保護終端數(shù)據(jù)和個人數(shù)據(jù)隱私、保證合法合規(guī)的前提下，聯(lián)邦學習這一新興的人工智能基礎技術，在多參與方或多計算結點之間可以開展高效率的機器學習，是一項值得期待的技術。

　　更多信息可以來這里獲取==>>電子技術應用-AET<<

1文章最后空三行圖片 (1).jpg

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

数据不出门就能被利用，联邦学习让机器学习工程化

日期： 2022-07-13

來源：Soft6软件网

相關內(nèi)容