7 月 21 日、22 日,由 KDD China 主辦,西南交通大學(xué)和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference,「交通大數(shù)據(jù)智能」論壇在成都舉行,多位知名數(shù)據(jù)挖掘領(lǐng)域?qū)<乙约?KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領(lǐng)域的進(jìn)展。
在會上,我們采訪了 KDD 中國主席楊強(qiáng),與他聊了聊他在金融領(lǐng)域進(jìn)行的 AI 落地的工作,包括「聯(lián)邦學(xué)習(xí)」這個試圖在保護(hù)數(shù)據(jù)隱私、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)的新方法。同時,作為 KDD 中國主席,他也分享了當(dāng)下的遷移學(xué)習(xí)領(lǐng)域的新進(jìn)展和他對本屆 KDD 大會的展望。
聯(lián)邦學(xué)習(xí):數(shù)據(jù)合規(guī)應(yīng)該是深度學(xué)習(xí)解決方案的一部分
機(jī)器之心:您如今在關(guān)注哪些 AI 的研究或應(yīng)用方向?在您看來,機(jī)器學(xué)習(xí)領(lǐng)域有哪些新的趨勢?
我現(xiàn)在關(guān)注的一個趨勢是如何在保護(hù)數(shù)據(jù)隱私、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí),我們將這部分研究稱為「聯(lián)邦學(xué)習(xí)」(Federated Learning)。
開始聯(lián)邦學(xué)習(xí)的契機(jī)是歐盟通過了「數(shù)據(jù)隱私保護(hù)條例」(General Data Protection Regulation,簡稱 GDPR)。GDPR 認(rèn)定「個人數(shù)據(jù)神圣不可侵犯」,要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用。這份條例的實行讓許多大數(shù)據(jù)公司噤若寒蟬,不敢再互相交流數(shù)據(jù)了,這對于極度依賴數(shù)據(jù)的機(jī)器學(xué)習(xí)是一個巨大的挑戰(zhàn)。
因此我們現(xiàn)在正在尋找比較正向的應(yīng)對方法,思考如何把 GDPR 囊括在機(jī)器學(xué)習(xí)框架之內(nèi),而不是繞著它走。
聯(lián)邦學(xué)習(xí)希望在不共享數(shù)據(jù)的前提下,利用雙方的數(shù)據(jù)實現(xiàn)模型增長。
假設(shè)兩家公司想要建立一個用戶畫像模型,其中部分用戶是重合的。聯(lián)邦學(xué)習(xí)的做法是,首先通過加密交換的手段,建立用戶的識別符(identifier)并進(jìn)行溝通,在加密狀態(tài)下用減法找出共有的部分用戶。因為關(guān)鍵用戶信息并沒有得到交換,交換的只是共有的識別符,因此這并不違反數(shù)據(jù)隱私保護(hù)條例。然后,雙方將這部分?jǐn)?shù)據(jù)提取出來,將各自擁有的同樣用戶的不同特征作為輸入,迭代地進(jìn)行訓(xùn)練模型、交換參數(shù)的過程。我們證明了給定模型參數(shù),雙方不能互相反推出對方擁有的、自己沒有的特征,因此用戶隱私仍然得到了保護(hù)。在不違反 GDPR 的情況下,雙方的模型性能都得到了提高。
聯(lián)邦學(xué)習(xí)相比于遷移學(xué)習(xí)的優(yōu)點在于「無損失」。之前的遷移學(xué)習(xí)都是存在性能損失的,當(dāng)模型從領(lǐng)域 A 遷移到領(lǐng)域 B,從模型中學(xué)到的一大部分關(guān)于 A 的知識全丟了,只有和 B 共享的一小部分保留下來,甚至?xí)霈F(xiàn)負(fù)遷移。然而聯(lián)邦學(xué)習(xí)保證,兩家公司的模型都比原來效果好。因此我們沒有繼續(xù)沿用遷移學(xué)習(xí)的名稱,而是將其命名為「聯(lián)邦學(xué)習(xí)」,意思是說,兩家公司并沒有聯(lián)合成為一個「國家」,而是像不同的「州」一樣,在一個「聯(lián)邦政府」——進(jìn)行信息與模型參數(shù)的加密交換的系統(tǒng)——的管理下,各自為政,同時獲得成長。在聯(lián)邦學(xué)習(xí)的基礎(chǔ)上,我們還可以啟發(fā)式地搭建遷移學(xué)習(xí)的能力。這樣,在模型成長的基礎(chǔ)上,做到舉一反三的效果。這個總的模型叫做「聯(lián)邦遷移學(xué)習(xí)」(Federated Transfer Learning)。
聯(lián)邦學(xué)習(xí)是我們應(yīng)對 GDPR 類事件的一個例子。在未來,我們面臨的社會大眾的要求和監(jiān)管一定越來越嚴(yán)格,因此我們?nèi)斯ぶ悄艿膹臉I(yè)者應(yīng)該擁抱這些條例,將其內(nèi)化為解決方案的一部分。如今機(jī)器學(xué)習(xí)最薄弱的環(huán)節(jié)其實并非算法結(jié)構(gòu)不夠豐富、準(zhǔn)確率不夠高,而是來自社會大眾對人工智能的態(tài)度和制約。GDPR 不是個例,在未來,不同國家和地區(qū)的隱私保護(hù)條例會如雨后春筍般出現(xiàn),在這樣的背景之下,如果不作出改變和適應(yīng),機(jī)器學(xué)習(xí)的一個重要的假設(shè):假設(shè)我們擁有足夠多的數(shù)據(jù),將不復(fù)成立。
因此我們希望機(jī)器學(xué)習(xí)學(xué)者除了關(guān)心算法的準(zhǔn)確率、效率之外,也將思考的維度上升到管理與合規(guī)的角度。我們希望能帶頭建立金融領(lǐng)域協(xié)同建模的規(guī)范,讓不同的企業(yè)受益于合規(guī)的聯(lián)合建模鏈條,更樂于加入這個 AI 建模聯(lián)邦,在遵守合規(guī)要求的同時享受數(shù)據(jù)福利,也讓機(jī)器學(xué)習(xí)更健康地發(fā)展下去。
我近年關(guān)注的問題是 AI 的落地,因為如果 AI 一直不落地,大家都埋頭寫論文,那么這個泡沫最后就破了。
我個人選擇在金融相關(guān)的領(lǐng)域來實現(xiàn) AI 落地,其原因是金融提高效率的痛點很強(qiáng)烈?,F(xiàn)在很多媒體給大家的一個印象是「所有的領(lǐng)域」都可以馬上應(yīng)用 AI,這我是不贊同的。在一些領(lǐng)域里,如今的 AI 反而會把優(yōu)勢變成劣勢:例如 IBM Watson 在美國癌癥醫(yī)療中心就因為數(shù)據(jù)缺失問題而導(dǎo)致診斷協(xié)助系統(tǒng)的失敗。
我認(rèn)為現(xiàn)在的情況是,并非所有領(lǐng)域都適合在當(dāng)下嘗試 AI,根據(jù)數(shù)據(jù)和場景的準(zhǔn)備狀態(tài),有一些領(lǐng)域特別適合首先去嘗試 AI,其中就包括金融。
此外,我希望總結(jié)出一套方法論,可以告訴人們,一個領(lǐng)域在什么時間段、滿足哪些條件后,可以開始考慮使用 AI 了。
遷移學(xué)習(xí):深度和對抗成為范式
機(jī)器之心:去年,您在機(jī)器之心的 GMIS 大會上提到了遷移學(xué)習(xí)的六個進(jìn)展,分別是結(jié)構(gòu)與內(nèi)容分離、多層次的特征學(xué)習(xí)、多步遷移學(xué)習(xí)、學(xué)習(xí)「如何遷移」、遷移學(xué)習(xí)作為元學(xué)習(xí)以及數(shù)據(jù)生成式的遷移學(xué)習(xí)。在過去的一年多時間里,有哪些方向出現(xiàn)了令人矚目的進(jìn)展?
首先是層次感。這方面進(jìn)展非常迅速。業(yè)界發(fā)現(xiàn)深度學(xué)習(xí)天然適合做遷移的學(xué)習(xí),正是因為深度學(xué)習(xí)不同的層次負(fù)責(zé)編碼不同的知識。
因此多層次的特征學(xué)習(xí)有很多種可行結(jié)構(gòu):一是多視角,讓不同的輸入分別進(jìn)入不同的初始層,處理后共享一些中間層;另一種是利用對抗的結(jié)構(gòu),例如 GAN 和 DANN,篩出不同領(lǐng)域間可共享的特征。共享特征的意思是無法用這個特征區(qū)分兩個領(lǐng)域。用對抗找出共享特征的意思是,讓一個網(wǎng)絡(luò)負(fù)責(zé)篩選出讓對方區(qū)分不了的特征,讓另一個網(wǎng)絡(luò)負(fù)責(zé)根據(jù)特征區(qū)分兩個領(lǐng)域,兩個網(wǎng)絡(luò)通過博弈達(dá)到平衡時,就自動找到了兩個領(lǐng)域之間的重疊部分。
總的來說,對抗網(wǎng)絡(luò)現(xiàn)在已經(jīng)變成了遷移學(xué)習(xí)的一種已定式和系統(tǒng)了。
在學(xué)習(xí)如何遷移方面,我們最近有一篇 ICML 2018 文章,Transfer learning by learning to transfer 講的就是這個問題。這個文章的第一作者是魏穎博士。文章的主旨是,在我們積累了在很多領(lǐng)域進(jìn)行學(xué)習(xí)的經(jīng)驗后,把領(lǐng)域間的遷移過程作為例子。例如在翻譯問題上,從日語到中文是一個遷移,從日語到英文是另一次遷移。如果有 N 個領(lǐng)域,就會有 近 N*N 個例子。把遷移的例子做成訓(xùn)練集,就可以訓(xùn)練出一個自動的遷移規(guī)劃器,它會告訴你如何遷移或是說遷移的方法論。來了一個新問題,遷移器可以告訴你應(yīng)該挑那些遷移學(xué)習(xí)算法來用在這個問題上。
這個問題的輸入是算法的參數(shù)和描述不同領(lǐng)域的參數(shù),優(yōu)化函數(shù)是所有樣本的期望損失最低,學(xué)出來的遷移器既挑選模型,也學(xué)習(xí)參數(shù)。這個工作的主題是「學(xué)習(xí)如何學(xué)習(xí)」,和時下流行的 AutoML 有緊密的聯(lián)系。今年,「第四范式公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽,也是給大家一次展示遷移學(xué)習(xí)能力的機(jī)會。
「學(xué)習(xí)如何學(xué)習(xí)」也不僅僅是計算機(jī)科學(xué)中的問題。在心理學(xué)領(lǐng)域,上世紀(jì)美國心理學(xué)家 Thorndike 就拿猴子做了一個實驗,證明猴子是有遷移能力的。他讓猴子解決一些不同的任務(wù),解決好了就能拿到食物,解決不好就讓他繼續(xù)解決,一段時間后,猴子就學(xué)會了在新的領(lǐng)域里尋找特征,利用原有的經(jīng)驗解決新問題。因此 Thorndike 總結(jié)道:「智能就是遷移能力?!顾麑⑦@個觀點應(yīng)用到教育學(xué)上,認(rèn)為教育程度高,并不是考試分?jǐn)?shù)高,而是學(xué)下一門課學(xué)得更快。
最后,結(jié)構(gòu)與內(nèi)容分離,換言之,就是要用盡可能少的例子來學(xué)盡可能多的事兒,這方面的內(nèi)容仍然不是很多。但這其實并不是局限于遷移學(xué)習(xí)的一個討論,而是人工智能整體試圖解決的一個問題。
最近 Yann Lecun 的在 IJCAI2018 上的一個講座讓我覺得很有啟發(fā)。Yann 也在思考為什么人只需要幾個例子,而深度學(xué)習(xí)需要那么多例子。他的觀點是,一個例子中的內(nèi)容特別多,而用一個例子做一個任務(wù),就等于把其他的內(nèi)容浪費了,因此我們需要從一個樣本中找出多個任務(wù)。比如說遮擋圖片的一個特定部分,用沒遮擋部分來猜遮擋的部分是一個任務(wù)。那么通過遮擋不同的部分,就可以用一個樣本完成不同任務(wù)。Yann 描述的這個方法被業(yè)界稱作「自監(jiān)督學(xué)習(xí)」。
我覺得自監(jiān)督學(xué)習(xí)可以和遷移學(xué)習(xí)結(jié)合來做的。因為一個樣本畢竟還是有局限性,它的變化很小,統(tǒng)計性很差,但是如果和以前的經(jīng)驗?zāi)芙Y(jié)合起來,例如從其他任務(wù)里遷移一個偏置項,可能就是解決小樣本的一個方向。
機(jī)器之心:您如何對當(dāng)前的遷移學(xué)習(xí)算法進(jìn)行分類?原因是什么?
之前,我們通常將遷移學(xué)習(xí)分為三類。第一類是樣本遷移,將可能對新領(lǐng)域有用的樣本的權(quán)重加大。這一類方法非常經(jīng)典,但是現(xiàn)在用得比較少。
第二種叫做特征遷移,特征空間的維度很高,如果我發(fā)現(xiàn)第一個領(lǐng)域里發(fā)現(xiàn)的重要特征能夠覆蓋新領(lǐng)域,那么我就把它遷移到新領(lǐng)域中去。遷移的部分可能是人工選出來的特征,這種方法在自然語言處理遷移中比較常見,也可以是一個特征提取器,這種方法在計算機(jī)視覺遷移中比較常見。
最后一種是參數(shù)遷移,遷移的范圍與兩個領(lǐng)域之間的距離有關(guān)。例如和圖像相關(guān)的模型,越是靠下的層越通用,遷移能力越強(qiáng),越是靠上的層越是特殊,遷移能力越弱。因此可以根據(jù)領(lǐng)域間距離定量地確定遷移的程度:如果兩個領(lǐng)域相距很遠(yuǎn),那么可以只遷移最下方的幾層,如果兩個領(lǐng)域很相似,則可以多遷移幾層。此外還可以量化遷移后調(diào)節(jié)參數(shù)的時機(jī):兩個領(lǐng)域相距越遠(yuǎn),參數(shù)調(diào)節(jié)就應(yīng)該越早進(jìn)行,兩個領(lǐng)域相距越近,參數(shù)調(diào)節(jié)就可以越晚進(jìn)行。
近年一個有意思的特征遷移案例是斯坦福大學(xué)為聯(lián)合國做的「如何在衛(wèi)星圖片中標(biāo)記貧窮的地區(qū)」。聯(lián)合國在決定給每個地區(qū)分配的資助前,需要確定當(dāng)?shù)氐呢毟F程度。在過去,做法是派人去進(jìn)行經(jīng)濟(jì)調(diào)查,而斯坦福大學(xué)試圖用 跨越式遷移的方法來解決這個問題。研究人員首先對白天的衛(wèi)星圖片進(jìn)行語義級別的分割,標(biāo)出橋梁、建筑物等。然后以燈光明亮度代表富裕程度,通過白天和夜晚的圖像比對,找出最富有的地區(qū)在白天有哪些可見的特征,比如游泳池。然后將游泳池視為富裕地區(qū)的顯著特征后,再通過搜索游泳池周圍經(jīng)常出現(xiàn)特征,進(jìn)行另一輪的代表性特征選擇。逐步擴(kuò)展下去,最后在識別貧富程度上達(dá)到和現(xiàn)場調(diào)查人員相近的準(zhǔn)確率。
這類非常具有社會意義的選題也是值得國內(nèi)研究者思考和借鑒的,我們不應(yīng)該只擅長刷 ImageNet 榜單。
除此之外,根據(jù)采用的模型結(jié)構(gòu)還可以分成采用/不采用深度學(xué)習(xí)的。近年隨著對抗生成網(wǎng)絡(luò)在遷移學(xué)習(xí)中的應(yīng)用越來越廣泛,還有一種分法是根據(jù)是否利用對抗的方法進(jìn)行分類。遷移學(xué)習(xí)中天然存在可以對抗的部分:希望算法在本領(lǐng)域準(zhǔn)確性盡可能高,希望算法在兩個領(lǐng)域間的差距盡可能小。把這兩個限制條件同時作為目標(biāo),就形成了一個恰恰合適對抗生成網(wǎng)絡(luò)做的事情。
KDD:連接工作與會議趨勢
機(jī)器之心:作為 KDD 中國主席,能否分享下 KDD 中國的定位和任務(wù),以及 KDD 大會的一些情況?
ACM SIGKDD 在中國的分會叫做 KDD China,這個學(xué)術(shù)社區(qū)的主旨是做好各項「連接」的工作,即連接學(xué)生和學(xué)者,連接公司和學(xué)校,以及連接學(xué)界和社會。本次 2018 的暑期學(xué)校分成三天(已于 2018 年 7 月 21-23 在成都的西南交通大學(xué)舉行),分別是業(yè)界專家觀點、學(xué)生 2018 KDD 工作展示,以及學(xué)界的「大牛」講解如何寫論文、如何做研究。旨在進(jìn)行學(xué)生與業(yè)界領(lǐng)袖的連接,工業(yè)與學(xué)術(shù)界的連接,國內(nèi)和國外的連接等一系列工作?,F(xiàn)在看來效果還是非常不錯的,會員已經(jīng)超過了 1000 人,本次活動報名的會員/非會員也達(dá)到了場地的極限,達(dá)到三百多人。
而即將在倫敦召開的 KDD 2018,頒發(fā)的獎項包括:
Research Innovation Award,頒發(fā)給了芝加哥大學(xué)的劉兵教授,他率先開展了輿情分析方面的工作。
Distinguished Service Award,頒發(fā)給了清華大學(xué)的唐杰教授,他在 KDD 領(lǐng)域做了大量的突出的服務(wù)性工作,包括在 2012 年在北京舉行的 KDD 所做的大量支持工作和建立著名的論文庫系統(tǒng) A-MINER 等的工作。
Test of Time Award,這個獎項頒發(fā)給發(fā)表在十年前的、產(chǎn)生了重大影響的文章。今年的獲獎?wù)呤莵碜怨雀璧?Yehuda Koren,獲獎?wù)撐氖顷P(guān)于推薦系統(tǒng)中的協(xié)同過濾問題。
在趨勢方面,KDD 繼續(xù)以信息網(wǎng)絡(luò)的大數(shù)據(jù)為主題來研究,但 KDD 也在近幾年開始舉辦以深度學(xué)習(xí)命名的一個 workshop,這也標(biāo)志著深度學(xué)習(xí)也成為了 KDD 所接受的一類方法。
縱觀 KDD 的歷史,會發(fā)現(xiàn)發(fā)起者背景主要有二,一是來自工業(yè)界,比如曾經(jīng)以 IBM 、微軟等公司為代表一些領(lǐng)袖,二是學(xué)界的領(lǐng)軍人物。切入角度是起始于數(shù)據(jù)倉庫管理和關(guān)聯(lián)規(guī)則等的分析;后來機(jī)器學(xué)習(xí)算法逐漸進(jìn)入業(yè)界后,越來越多的機(jī)器學(xué)習(xí)學(xué)者也進(jìn)入 KDD 界,而 KDD 一直保持有很高的工業(yè)界參與度以及對工業(yè)實際問題的敏感度。
如今 KDD 和機(jī)器學(xué)習(xí)的一些區(qū)別包括,KDD 是更多地以應(yīng)用問題為導(dǎo)向的會議,很少有像強(qiáng)化學(xué)習(xí)等純機(jī)器學(xué)習(xí)算法的論文;KDD 相比于機(jī)器學(xué)習(xí)更關(guān)心社交網(wǎng)絡(luò)等信息網(wǎng)絡(luò)數(shù)據(jù),更關(guān)心「人」的參與建模,更在乎模型的可解釋性、數(shù)據(jù)可視化、人對模型結(jié)論的理解等,而機(jī)器學(xué)習(xí)更關(guān)注自動化和端到端的建模。