123,123,123

机器之心专访杨强教授：联邦迁移学习与金融领域的AI落地

日期： 2018-08-01

關(guān)鍵詞： KDDChina 交通大数据智能 AI

7 月 21 日、22 日，由 KDD China 主辦，西南交通大學(xué)和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference，「交通大數(shù)據(jù)智能」論壇在成都舉行，多位知名數(shù)據(jù)挖掘領(lǐng)域?qū)＜乙约?KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領(lǐng)域的進(jìn)展。

在會上，我們采訪了 KDD 中國主席楊強(qiáng)，與他聊了聊他在金融領(lǐng)域進(jìn)行的 AI 落地的工作，包括「聯(lián)邦學(xué)習(xí)」這個試圖在保護(hù)數(shù)據(jù)隱私、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)的新方法。同時，作為 KDD 中國主席，他也分享了當(dāng)下的遷移學(xué)習(xí)領(lǐng)域的新進(jìn)展和他對本屆 KDD 大會的展望。

聯(lián)邦學(xué)習(xí)：數(shù)據(jù)合規(guī)應(yīng)該是深度學(xué)習(xí)解決方案的一部分

機(jī)器之心：您如今在關(guān)注哪些 AI 的研究或應(yīng)用方向？在您看來，機(jī)器學(xué)習(xí)領(lǐng)域有哪些新的趨勢？

我現(xiàn)在關(guān)注的一個趨勢是如何在保護(hù)數(shù)據(jù)隱私、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)，我們將這部分研究稱為「聯(lián)邦學(xué)習(xí)」（Federated Learning）。

開始聯(lián)邦學(xué)習(xí)的契機(jī)是歐盟通過了「數(shù)據(jù)隱私保護(hù)條例」（General Data Protection Regulation，簡稱 GDPR）。GDPR 認(rèn)定「個人數(shù)據(jù)神圣不可侵犯」，要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用。這份條例的實(shí)行讓許多大數(shù)據(jù)公司噤若寒蟬，不敢再互相交流數(shù)據(jù)了，這對于極度依賴數(shù)據(jù)的機(jī)器學(xué)習(xí)是一個巨大的挑戰(zhàn)。

因此我們現(xiàn)在正在尋找比較正向的應(yīng)對方法，思考如何把 GDPR 囊括在機(jī)器學(xué)習(xí)框架之內(nèi)，而不是繞著它走。

聯(lián)邦學(xué)習(xí)希望在不共享數(shù)據(jù)的前提下，利用雙方的數(shù)據(jù)實(shí)現(xiàn)模型增長。

假設(shè)兩家公司想要建立一個用戶畫像模型，其中部分用戶是重合的。聯(lián)邦學(xué)習(xí)的做法是，首先通過加密交換的手段，建立用戶的識別符（identifier）并進(jìn)行溝通，在加密狀態(tài)下用減法找出共有的部分用戶。因?yàn)殛P(guān)鍵用戶信息并沒有得到交換，交換的只是共有的識別符，因此這并不違反數(shù)據(jù)隱私保護(hù)條例。然后，雙方將這部分?jǐn)?shù)據(jù)提取出來，將各自擁有的同樣用戶的不同特征作為輸入，迭代地進(jìn)行訓(xùn)練模型、交換參數(shù)的過程。我們證明了給定模型參數(shù)，雙方不能互相反推出對方擁有的、自己沒有的特征，因此用戶隱私仍然得到了保護(hù)。在不違反 GDPR 的情況下，雙方的模型性能都得到了提高。

聯(lián)邦學(xué)習(xí)相比于遷移學(xué)習(xí)的優(yōu)點(diǎn)在于「無損失」。之前的遷移學(xué)習(xí)都是存在性能損失的，當(dāng)模型從領(lǐng)域 A 遷移到領(lǐng)域 B，從模型中學(xué)到的一大部分關(guān)于 A 的知識全丟了，只有和 B 共享的一小部分保留下來，甚至?xí)霈F(xiàn)負(fù)遷移。然而聯(lián)邦學(xué)習(xí)保證，兩家公司的模型都比原來效果好。因此我們沒有繼續(xù)沿用遷移學(xué)習(xí)的名稱，而是將其命名為「聯(lián)邦學(xué)習(xí)」，意思是說，兩家公司并沒有聯(lián)合成為一個「國家」，而是像不同的「州」一樣，在一個「聯(lián)邦政府」——進(jìn)行信息與模型參數(shù)的加密交換的系統(tǒng)——的管理下，各自為政，同時獲得成長。在聯(lián)邦學(xué)習(xí)的基礎(chǔ)上，我們還可以啟發(fā)式地搭建遷移學(xué)習(xí)的能力。這樣，在模型成長的基礎(chǔ)上，做到舉一反三的效果。這個總的模型叫做「聯(lián)邦遷移學(xué)習(xí)」（Federated Transfer Learning）。

聯(lián)邦學(xué)習(xí)是我們應(yīng)對 GDPR 類事件的一個例子。在未來，我們面臨的社會大眾的要求和監(jiān)管一定越來越嚴(yán)格，因此我們?nèi)斯ぶ悄艿膹臉I(yè)者應(yīng)該擁抱這些條例，將其內(nèi)化為解決方案的一部分。如今機(jī)器學(xué)習(xí)最薄弱的環(huán)節(jié)其實(shí)并非算法結(jié)構(gòu)不夠豐富、準(zhǔn)確率不夠高，而是來自社會大眾對人工智能的態(tài)度和制約。GDPR 不是個例，在未來，不同國家和地區(qū)的隱私保護(hù)條例會如雨后春筍般出現(xiàn)，在這樣的背景之下，如果不作出改變和適應(yīng)，機(jī)器學(xué)習(xí)的一個重要的假設(shè)：假設(shè)我們擁有足夠多的數(shù)據(jù)，將不復(fù)成立。

因此我們希望機(jī)器學(xué)習(xí)學(xué)者除了關(guān)心算法的準(zhǔn)確率、效率之外，也將思考的維度上升到管理與合規(guī)的角度。我們希望能帶頭建立金融領(lǐng)域協(xié)同建模的規(guī)范，讓不同的企業(yè)受益于合規(guī)的聯(lián)合建模鏈條，更樂于加入這個 AI 建模聯(lián)邦，在遵守合規(guī)要求的同時享受數(shù)據(jù)福利，也讓機(jī)器學(xué)習(xí)更健康地發(fā)展下去。

我近年關(guān)注的問題是 AI 的落地，因?yàn)槿绻?AI 一直不落地，大家都埋頭寫論文，那么這個泡沫最后就破了。

我個人選擇在金融相關(guān)的領(lǐng)域來實(shí)現(xiàn) AI 落地，其原因是金融提高效率的痛點(diǎn)很強(qiáng)烈。現(xiàn)在很多媒體給大家的一個印象是「所有的領(lǐng)域」都可以馬上應(yīng)用 AI，這我是不贊同的。在一些領(lǐng)域里，如今的 AI 反而會把優(yōu)勢變成劣勢：例如 IBM Watson 在美國癌癥醫(yī)療中心就因?yàn)閿?shù)據(jù)缺失問題而導(dǎo)致診斷協(xié)助系統(tǒng)的失敗。

我認(rèn)為現(xiàn)在的情況是，并非所有領(lǐng)域都適合在當(dāng)下嘗試 AI，根據(jù)數(shù)據(jù)和場景的準(zhǔn)備狀態(tài)，有一些領(lǐng)域特別適合首先去嘗試 AI，其中就包括金融。

此外，我希望總結(jié)出一套方法論，可以告訴人們，一個領(lǐng)域在什么時間段、滿足哪些條件后，可以開始考慮使用 AI 了。

遷移學(xué)習(xí)：深度和對抗成為范式

機(jī)器之心：去年，您在機(jī)器之心的 GMIS 大會上提到了遷移學(xué)習(xí)的六個進(jìn)展，分別是結(jié)構(gòu)與內(nèi)容分離、多層次的特征學(xué)習(xí)、多步遷移學(xué)習(xí)、學(xué)習(xí)「如何遷移」、遷移學(xué)習(xí)作為元學(xué)習(xí)以及數(shù)據(jù)生成式的遷移學(xué)習(xí)。在過去的一年多時間里，有哪些方向出現(xiàn)了令人矚目的進(jìn)展？

首先是層次感。這方面進(jìn)展非常迅速。業(yè)界發(fā)現(xiàn)深度學(xué)習(xí)天然適合做遷移的學(xué)習(xí)，正是因?yàn)樯疃葘W(xué)習(xí)不同的層次負(fù)責(zé)編碼不同的知識。

因此多層次的特征學(xué)習(xí)有很多種可行結(jié)構(gòu)：一是多視角，讓不同的輸入分別進(jìn)入不同的初始層，處理后共享一些中間層；另一種是利用對抗的結(jié)構(gòu)，例如 GAN 和 DANN，篩出不同領(lǐng)域間可共享的特征。共享特征的意思是無法用這個特征區(qū)分兩個領(lǐng)域。用對抗找出共享特征的意思是，讓一個網(wǎng)絡(luò)負(fù)責(zé)篩選出讓對方區(qū)分不了的特征，讓另一個網(wǎng)絡(luò)負(fù)責(zé)根據(jù)特征區(qū)分兩個領(lǐng)域，兩個網(wǎng)絡(luò)通過博弈達(dá)到平衡時，就自動找到了兩個領(lǐng)域之間的重疊部分。

總的來說，對抗網(wǎng)絡(luò)現(xiàn)在已經(jīng)變成了遷移學(xué)習(xí)的一種已定式和系統(tǒng)了。

在學(xué)習(xí)如何遷移方面，我們最近有一篇 ICML 2018 文章，Transfer learning by learning to transfer 講的就是這個問題。這個文章的第一作者是魏穎博士。文章的主旨是，在我們積累了在很多領(lǐng)域進(jìn)行學(xué)習(xí)的經(jīng)驗(yàn)后，把領(lǐng)域間的遷移過程作為例子。例如在翻譯問題上，從日語到中文是一個遷移，從日語到英文是另一次遷移。如果有 N 個領(lǐng)域，就會有近 N*N 個例子。把遷移的例子做成訓(xùn)練集，就可以訓(xùn)練出一個自動的遷移規(guī)劃器，它會告訴你如何遷移或是說遷移的方法論。來了一個新問題，遷移器可以告訴你應(yīng)該挑那些遷移學(xué)習(xí)算法來用在這個問題上。

這個問題的輸入是算法的參數(shù)和描述不同領(lǐng)域的參數(shù)，優(yōu)化函數(shù)是所有樣本的期望損失最低，學(xué)出來的遷移器既挑選模型，也學(xué)習(xí)參數(shù)。這個工作的主題是「學(xué)習(xí)如何學(xué)習(xí)」，和時下流行的 AutoML 有緊密的聯(lián)系。今年，「第四范式公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽，也是給大家一次展示遷移學(xué)習(xí)能力的機(jī)會。

「學(xué)習(xí)如何學(xué)習(xí)」也不僅僅是計(jì)算機(jī)科學(xué)中的問題。在心理學(xué)領(lǐng)域，上世紀(jì)美國心理學(xué)家 Thorndike 就拿猴子做了一個實(shí)驗(yàn)，證明猴子是有遷移能力的。他讓猴子解決一些不同的任務(wù)，解決好了就能拿到食物，解決不好就讓他繼續(xù)解決，一段時間后，猴子就學(xué)會了在新的領(lǐng)域里尋找特征，利用原有的經(jīng)驗(yàn)解決新問題。因此 Thorndike 總結(jié)道：「智能就是遷移能力?！顾麑⑦@個觀點(diǎn)應(yīng)用到教育學(xué)上，認(rèn)為教育程度高，并不是考試分?jǐn)?shù)高，而是學(xué)下一門課學(xué)得更快。

最后，結(jié)構(gòu)與內(nèi)容分離，換言之，就是要用盡可能少的例子來學(xué)盡可能多的事兒，這方面的內(nèi)容仍然不是很多。但這其實(shí)并不是局限于遷移學(xué)習(xí)的一個討論，而是人工智能整體試圖解決的一個問題。

最近 Yann Lecun 的在 IJCAI2018 上的一個講座讓我覺得很有啟發(fā)。Yann 也在思考為什么人只需要幾個例子，而深度學(xué)習(xí)需要那么多例子。他的觀點(diǎn)是，一個例子中的內(nèi)容特別多，而用一個例子做一個任務(wù)，就等于把其他的內(nèi)容浪費(fèi)了，因此我們需要從一個樣本中找出多個任務(wù)。比如說遮擋圖片的一個特定部分，用沒遮擋部分來猜遮擋的部分是一個任務(wù)。那么通過遮擋不同的部分，就可以用一個樣本完成不同任務(wù)。Yann 描述的這個方法被業(yè)界稱作「自監(jiān)督學(xué)習(xí)」。

我覺得自監(jiān)督學(xué)習(xí)可以和遷移學(xué)習(xí)結(jié)合來做的。因?yàn)橐粋€樣本畢竟還是有局限性，它的變化很小，統(tǒng)計(jì)性很差，但是如果和以前的經(jīng)驗(yàn)?zāi)芙Y(jié)合起來，例如從其他任務(wù)里遷移一個偏置項(xiàng)，可能就是解決小樣本的一個方向。

機(jī)器之心：您如何對當(dāng)前的遷移學(xué)習(xí)算法進(jìn)行分類？原因是什么？

之前，我們通常將遷移學(xué)習(xí)分為三類。第一類是樣本遷移，將可能對新領(lǐng)域有用的樣本的權(quán)重加大。這一類方法非常經(jīng)典，但是現(xiàn)在用得比較少。

第二種叫做特征遷移，特征空間的維度很高，如果我發(fā)現(xiàn)第一個領(lǐng)域里發(fā)現(xiàn)的重要特征能夠覆蓋新領(lǐng)域，那么我就把它遷移到新領(lǐng)域中去。遷移的部分可能是人工選出來的特征，這種方法在自然語言處理遷移中比較常見，也可以是一個特征提取器，這種方法在計(jì)算機(jī)視覺遷移中比較常見。

最后一種是參數(shù)遷移，遷移的范圍與兩個領(lǐng)域之間的距離有關(guān)。例如和圖像相關(guān)的模型，越是靠下的層越通用，遷移能力越強(qiáng)，越是靠上的層越是特殊，遷移能力越弱。因此可以根據(jù)領(lǐng)域間距離定量地確定遷移的程度：如果兩個領(lǐng)域相距很遠(yuǎn)，那么可以只遷移最下方的幾層，如果兩個領(lǐng)域很相似，則可以多遷移幾層。此外還可以量化遷移后調(diào)節(jié)參數(shù)的時機(jī)：兩個領(lǐng)域相距越遠(yuǎn)，參數(shù)調(diào)節(jié)就應(yīng)該越早進(jìn)行，兩個領(lǐng)域相距越近，參數(shù)調(diào)節(jié)就可以越晚進(jìn)行。

近年一個有意思的特征遷移案例是斯坦福大學(xué)為聯(lián)合國做的「如何在衛(wèi)星圖片中標(biāo)記貧窮的地區(qū)」。聯(lián)合國在決定給每個地區(qū)分配的資助前，需要確定當(dāng)?shù)氐呢毟F程度。在過去，做法是派人去進(jìn)行經(jīng)濟(jì)調(diào)查，而斯坦福大學(xué)試圖用跨越式遷移的方法來解決這個問題。研究人員首先對白天的衛(wèi)星圖片進(jìn)行語義級別的分割，標(biāo)出橋梁、建筑物等。然后以燈光明亮度代表富裕程度，通過白天和夜晚的圖像比對，找出最富有的地區(qū)在白天有哪些可見的特征，比如游泳池。然后將游泳池視為富裕地區(qū)的顯著特征后，再通過搜索游泳池周圍經(jīng)常出現(xiàn)特征，進(jìn)行另一輪的代表性特征選擇。逐步擴(kuò)展下去，最后在識別貧富程度上達(dá)到和現(xiàn)場調(diào)查人員相近的準(zhǔn)確率。

這類非常具有社會意義的選題也是值得國內(nèi)研究者思考和借鑒的，我們不應(yīng)該只擅長刷 ImageNet 榜單。

除此之外，根據(jù)采用的模型結(jié)構(gòu)還可以分成采用/不采用深度學(xué)習(xí)的。近年隨著對抗生成網(wǎng)絡(luò)在遷移學(xué)習(xí)中的應(yīng)用越來越廣泛，還有一種分法是根據(jù)是否利用對抗的方法進(jìn)行分類。遷移學(xué)習(xí)中天然存在可以對抗的部分：希望算法在本領(lǐng)域準(zhǔn)確性盡可能高，希望算法在兩個領(lǐng)域間的差距盡可能小。把這兩個限制條件同時作為目標(biāo)，就形成了一個恰恰合適對抗生成網(wǎng)絡(luò)做的事情。

KDD：連接工作與會議趨勢

機(jī)器之心：作為 KDD 中國主席，能否分享下 KDD 中國的定位和任務(wù)，以及 KDD 大會的一些情況？

ACM SIGKDD 在中國的分會叫做 KDD China，這個學(xué)術(shù)社區(qū)的主旨是做好各項(xiàng)「連接」的工作，即連接學(xué)生和學(xué)者，連接公司和學(xué)校，以及連接學(xué)界和社會。本次 2018 的暑期學(xué)校分成三天（已于 2018 年 7 月 21-23 在成都的西南交通大學(xué)舉行），分別是業(yè)界專家觀點(diǎn)、學(xué)生 2018 KDD 工作展示，以及學(xué)界的「大?！怪v解如何寫論文、如何做研究。旨在進(jìn)行學(xué)生與業(yè)界領(lǐng)袖的連接，工業(yè)與學(xué)術(shù)界的連接，國內(nèi)和國外的連接等一系列工作?，F(xiàn)在看來效果還是非常不錯的，會員已經(jīng)超過了 1000 人，本次活動報(bào)名的會員/非會員也達(dá)到了場地的極限，達(dá)到三百多人。

而即將在倫敦召開的 KDD 2018，頒發(fā)的獎項(xiàng)包括：

Research Innovation Award，頒發(fā)給了芝加哥大學(xué)的劉兵教授，他率先開展了輿情分析方面的工作。

Distinguished Service Award，頒發(fā)給了清華大學(xué)的唐杰教授，他在 KDD 領(lǐng)域做了大量的突出的服務(wù)性工作，包括在 2012 年在北京舉行的 KDD 所做的大量支持工作和建立著名的論文庫系統(tǒng) A-MINER 等的工作。

Test of Time Award，這個獎項(xiàng)頒發(fā)給發(fā)表在十年前的、產(chǎn)生了重大影響的文章。今年的獲獎?wù)呤莵碜怨雀璧?Yehuda Koren，獲獎?wù)撐氖顷P(guān)于推薦系統(tǒng)中的協(xié)同過濾問題。

在趨勢方面，KDD 繼續(xù)以信息網(wǎng)絡(luò)的大數(shù)據(jù)為主題來研究，但 KDD 也在近幾年開始舉辦以深度學(xué)習(xí)命名的一個 workshop，這也標(biāo)志著深度學(xué)習(xí)也成為了 KDD 所接受的一類方法。

縱觀 KDD 的歷史，會發(fā)現(xiàn)發(fā)起者背景主要有二，一是來自工業(yè)界，比如曾經(jīng)以 IBM 、微軟等公司為代表一些領(lǐng)袖，二是學(xué)界的領(lǐng)軍人物。切入角度是起始于數(shù)據(jù)倉庫管理和關(guān)聯(lián)規(guī)則等的分析；后來機(jī)器學(xué)習(xí)算法逐漸進(jìn)入業(yè)界后，越來越多的機(jī)器學(xué)習(xí)學(xué)者也進(jìn)入 KDD 界，而 KDD 一直保持有很高的工業(yè)界參與度以及對工業(yè)實(shí)際問題的敏感度。

如今 KDD 和機(jī)器學(xué)習(xí)的一些區(qū)別包括，KDD 是更多地以應(yīng)用問題為導(dǎo)向的會議，很少有像強(qiáng)化學(xué)習(xí)等純機(jī)器學(xué)習(xí)算法的論文；KDD 相比于機(jī)器學(xué)習(xí)更關(guān)心社交網(wǎng)絡(luò)等信息網(wǎng)絡(luò)數(shù)據(jù)，更關(guān)心「人」的參與建模，更在乎模型的可解釋性、數(shù)據(jù)可視化、人對模型結(jié)論的理解等，而機(jī)器學(xué)習(xí)更關(guān)注自動化和端到端的建模。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

机器之心专访杨强教授：联邦迁移学习与金融领域的AI落地

日期： 2018-08-01

相關(guān)內(nèi)容