「第三代人工智能」能幫助我們做什么?瑞萊智慧 RealAI 用兩年的時間給出了一個答案。
「第一代知識驅(qū)動的 AI 利用知識、算法和算力 3 個要素構(gòu)造 AI;第二代數(shù)據(jù)驅(qū)動的 AI 利用數(shù)據(jù)、算法與算力 3 個要素構(gòu)造 AI。由于第一、二代 AI 只是從一個側(cè)面模擬人類的智能行為,因此存在各自的局限性,不可能觸及人類真正的智能。」清華大學人工智能研究院院長、中國科學院院士張鈸等人在今年 9 月份的一篇專刊文章中這樣寫道。
在這篇文章中,他們還首次全面闡述了第三代人工智能的理念,提出第三代人工智能的發(fā)展路徑是融合第一代的知識驅(qū)動和第二代的數(shù)據(jù)驅(qū)動的人工智能, 利用知識、數(shù)據(jù)、算法和算力 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發(fā)展安全、可信、可靠和可擴展的 AI 技術(shù)(詳細信息請參見:《清華張鈸院士專刊文章:邁向第三代人工智能(全文收錄)》)。
其實,早在 2016 年,張鈸教授就提出了發(fā)展「第三代人工智能」的理念。在他看來,雖然當前的 AI 已經(jīng)取得了一些進展,但仍面臨魯棒性差、決策不透明等問題,需要把知識驅(qū)動與數(shù)據(jù)驅(qū)動結(jié)合起來解決問題。
2018 年,由張鈸、朱軍(清華大學人工智能研究院基礎理論研究中心主任)擔任首席科學家的瑞萊智慧(RealAI)作為產(chǎn)學研技術(shù)公司從清華大學人工智能研究院孵化成立。這家公司的愿景是:以第三代人工智能技術(shù)為依托,克服一般深度學習存在的諸多缺點,從根本上增強人工智能的可靠性、可信性以及安全性。
兩年后的今天,在「2020 第三代人工智能產(chǎn)業(yè)論壇暨瑞萊智慧 RealAI 戰(zhàn)略發(fā)布會」上,RealAI 第一次向外界展示了他們基于第三代人工智能技術(shù)打造的 AI 原生基礎設施產(chǎn)品藍圖。
論壇上,瑞萊智慧 CEO 田天指出,當前 AI 基礎設施建設的重心集中在數(shù)據(jù)、算力平臺上,主要為 AI 提供基礎運算條件和生產(chǎn)力,打個比方,相當于是解決了 AI 的溫飽問題。數(shù)據(jù)和算力的快速增長作為「外部驅(qū)動力」的確帶動了 AI 技術(shù)在包括人臉識別、語音識別等領域的快速發(fā)展,驅(qū)動 AI 產(chǎn)業(yè)「第一增長曲線」的出現(xiàn)。
但隨著數(shù)據(jù)受場景復雜與隱私保護限制、算力增長緩慢等問題的出現(xiàn),AI 產(chǎn)業(yè)的第一增長曲線開始放緩。在此情景下,我們亟需為 AI 產(chǎn)業(yè)打開「數(shù)據(jù)」和「算力」之外的全新維度,從增強算法底層能力出發(fā),發(fā)展出AI「內(nèi)生驅(qū)動力」。
不過想要加強AI內(nèi)生驅(qū)動力,有幾道「關(guān)卡」需要我們?nèi)ネ黄?,包括更加安全可靠的決策(AI 決策邏輯和鏈路都不明確、易受攻擊)、數(shù)據(jù)隱私與安全(信息泄露、數(shù)據(jù)孤島)以及 AI 應用場景的管控(算法公平、社會倫理)。
「作為 AI 產(chǎn)業(yè)的建設者,我們從基礎設施的角度看待這一問題,在繼承自互聯(lián)網(wǎng)時代的數(shù)據(jù)平臺、算力平臺之外,需要建設 AI 原生基礎設施,從 AI 技術(shù)自身能力出發(fā)提供必備保障」,田天表示。
經(jīng)過兩年的努力,田天等人已經(jīng)給出了這套基礎設施的藍圖。
在算法可靠方面,他們研發(fā)了基于貝葉斯深度學習技術(shù)的可解釋 AI 建模平臺 RealBox。該平臺在 2019 年正式發(fā)布,目前已經(jīng)在多家金融機構(gòu)實際使用,并且通過了中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟的首批可信 AI 認證。在應用可控方面,他們推出的DeepReal深度偽造檢測工具,能夠高效精準地判斷視頻、圖片等內(nèi)容素材是否是經(jīng)過AI偽造生成的,避免相應輿情,DeepReal 入選了國家工信安全中心人工智能優(yōu)秀產(chǎn)品,基于其中的核心技術(shù),RealAI 也獲得了 GeekPwn2020 年深度偽造檢測項目冠軍。
除此以外,活動現(xiàn)場還發(fā)布了兩款新品。
其中一款是針對數(shù)據(jù)安全的RealSecure,它是業(yè)內(nèi)首個編譯級的隱私保護機器學習平臺,其核心模塊「隱私保護AI編譯器」能夠自動將普通機器學習算法程序轉(zhuǎn)換為分布式、隱私安全程序,使隱私安全的人工智能商業(yè)應用門檻大幅降低。
另一款是針對算法可靠發(fā)布的RealSafe2.0,它是世界首個企業(yè)級AI安全平臺RealSafe的升級版,相當于是針對AI模型的殺毒軟件和防火墻。升級后的RealSafe提供針對目標識別等算法的安全攻防能力,同時增加了后門漏洞檢測等功能。
田天表示,「這一系列 AI 原生基礎設施可以打開 AI 能力的全新維度,激發(fā) AI 的第二增長曲線,為 AI 賦能各行各業(yè)帶來全新市場機會?!?/p>
業(yè)內(nèi)首個編譯級隱私保護機器學習平臺 RealSecure 亮相
在 AI 的發(fā)展過程中,數(shù)據(jù)是基礎生產(chǎn)力,用于解決 AI 的「溫飽問題」。但由于數(shù)據(jù)本身難以獲取、加工,還涉及行業(yè)機密、用戶隱私等問題,很多數(shù)據(jù)擁有者不愿或不能將數(shù)據(jù)上傳至一個數(shù)據(jù)中心進行模型訓練,從而形成了一個個的「煙囪」或「孤島」。
針對這個問題,分布式隱私保護機器學習是一種新興的解決方案,它能使多方合作完成學習目標,但又避免各方傳輸原始數(shù)據(jù),這并不是一個全新的概念,類似的術(shù)語還包括谷歌等機構(gòu)提出的「聯(lián)邦學習」,實現(xiàn)「數(shù)據(jù)不出門,可用不可見」,但在實際商業(yè)應用中卻面臨三大痛點:
第一是學術(shù)界工業(yè)界公認的隱私保護機器學習最主要的問題—性能差。隱私保護機器學習需要多方配合執(zhí)行,多方需要以加密形式完成參數(shù)交換,加密帶來了高達百倍的性能損失。同時超參數(shù)設置等與既有機器學習生態(tài)存在差距,隱私保護機器學習的速度慢了近千倍。本地幾十秒的模型訓練,隱私保護下需要數(shù)小時。而特征篩選、模型調(diào)參、模型驗證又需要幾十上百次重復建模流程,為了實現(xiàn)數(shù)據(jù)安全,極大的犧牲了建模速度。
第二是隱私保護機器學習難以大規(guī)模商業(yè)化落地的重要原因—難以兼容現(xiàn)有機器學習生態(tài)。不同于傳統(tǒng)機器學習,隱私保護機器學習是分布式系統(tǒng)、密碼學、人工智能三個領域的結(jié)合。為了實現(xiàn)隱私保護的目標,各家機構(gòu)要組織團隊學習分布式系統(tǒng)、學習密碼學;學習使用新算法、新框架,并在新平臺下執(zhí)行程序。這也意味著,AI 團隊長期以來積累下的經(jīng)驗和方法論在隱私保護機器學習領域無法直接運用,重建或改寫的投入與代價非常之大。
第三隱私保護最核心的問題是保障數(shù)據(jù)財產(chǎn)的安全,這也意味著,平臺自身的安全性應該是可被檢驗的。現(xiàn)有模式都是純黑盒運行,安全性檢驗完全依賴專家背書,但整個平臺代碼量巨大,專家逐行審計模式難以實現(xiàn)。而且實際生產(chǎn)環(huán)境中,是否真的按照審計時提供的代碼邏輯執(zhí)行,也都難以保障。
隱私保護機器學習平臺 RealSecure 就是在以上需求下誕生的,它首創(chuàng)以底層數(shù)據(jù)流圖的視角揭示機器學習算法與對應分布式隱私保護機器學習算法的聯(lián)系,通過算子組合將機器學習生態(tài)與隱私保護機器學習生態(tài)一脈打通,解決企業(yè)搭建隱私保護生態(tài)面臨著的性能差、易用性差、黑盒協(xié)議等諸多難題,實現(xiàn)兩大生態(tài)的一體化。
得益于底層編譯級的能力,RSC 具備三大優(yōu)勢:
性能強勁。借助密碼學優(yōu)化、AI 算法優(yōu)化等改進實現(xiàn),模型訓練相比某主流國產(chǎn)開源框架(最新版)性能提升約 40 倍,耗時從 4 小時 40 分鐘縮減至 6 分鐘。考慮到特征工程與自動調(diào)參環(huán)境,隱私保護下完成全流程建模,總耗時實現(xiàn)從日級別到小時級別的飛躍。
無感應用。實現(xiàn)機器學習生態(tài)與隱私保護機器學習生態(tài)的「一脈相承」,僅需要少量改動,可以通過自動轉(zhuǎn)換完成機器學習算法平臺框架與隱私保護機器學習平臺框架的統(tǒng)一,數(shù)據(jù)科學家能夠以與機器學習建模相同的方式使用隱私保護機器學習,易用性大幅提升。
安全透明。真正的隱私保護學習應用應該是白盒可驗證的,所有底層執(zhí)行的計算是可審計的,這樣才能保證隱私保護學習平臺的安全性。RealSecure 以數(shù)據(jù)流圖形式,將中間計算過程公開,實現(xiàn)計算過程的安全透明。
RealAI 表示,易用性與性能的顛覆性提升,也讓 RealSecure 成為更快更容易應用到商業(yè)環(huán)境的「企業(yè)級」隱私保護機器學習平臺。
在發(fā)布會現(xiàn)場,田天還闡明了他們開發(fā)這兩款產(chǎn)品的理念:「當在應用中碰到技術(shù)難題時,我們不是見一個解決一個,修修補補;而是發(fā)現(xiàn)一個問題就看到一類問題,并通過底層技術(shù)框架、平臺的突破,助力產(chǎn)業(yè)的升級。今天我們重點發(fā)布的兩款新品都是這一理念的典型代表,它們的產(chǎn)品定位、功能和價值都是獨一無二,RealAI 首創(chuàng)。」
世界首款企業(yè)級 AI 安全平臺 RealSafe 迎來 2.0
在網(wǎng)絡安全時代,網(wǎng)絡攻擊的大規(guī)模滲透催生出一大批殺毒軟件。但隨著 AI 逐漸成為基礎設施的一部分,針對 AI 模型的「殺毒軟件」卻一直處于缺位狀態(tài)。
這種缺位存在巨大的安全隱患。數(shù)據(jù)顯示,去年就已經(jīng)有超過 40% 的手機配備了人臉識別方案,但其中一些通過一副印有特殊紋理圖案的眼鏡就能輕松解鎖。
如果說手機影響的只是隱私和財產(chǎn)安全,那自動駕駛系統(tǒng)的安全漏洞則是真正的致命威脅。國際管理咨詢公司(Roland Berger)預測,2020 年全球自動駕駛車端系統(tǒng)的市場規(guī)模有望超過 1000 億美元。但與此同時,黑客只需要在標識牌上加上特定圖案就可以讓機器把限速標識識別為停止標識,導致致命事故的發(fā)生。
要徹底解決這些問題,我們需要理解深度神經(jīng)網(wǎng)絡等 AI 算法是如何學習和工作的,但直到今天,我們?nèi)詫Υ酥跎?。因此,我們可能需要換一個思路。
對此,RealAI 給出的解決方案是:模型安全檢測 + 防御。也就是說,我們可以先通過多種攻擊方法對模型的安全風險類別和高低進行檢測,然后提供多種方案提升模型的安全性。這就是他們今年年初推出的世界首款企業(yè)級 AI 安全平臺——RealSafe。
在安全檢測階段,RealSafe 會利用多種攻擊算法生成不同迭代次數(shù)、擾動大小的對抗樣本進行模擬攻擊,嘗試使其出錯,然后統(tǒng)計其出錯的概率和分布,輸出檢測報告。該平臺相當于一款「殺毒軟件」,整個檢測過程全界面化操作,用戶無需具備專業(yè)的模型安全算法知識和編程開發(fā)經(jīng)驗。
在防御階段,RealSafe 支持多種去除對抗噪聲的通用防御方法,可實現(xiàn)對輸入數(shù)據(jù)的自動去噪處理,破壞攻擊者惡意添加的對抗噪聲。同時,RealSafe 也支持檢測輸入數(shù)據(jù)是否含有對抗樣本,這種防御方式在模型和輸入數(shù)據(jù)之間構(gòu)建了一道「防火墻」,將有攻擊意圖的數(shù)據(jù)擋在了模型之外。
今年 4 月份,RealAI 發(fā)布了 RealSafe 1.0,可用于提高人臉識別模型的安全性,提高應對對抗樣本攻擊(如上文中印有特殊紋理圖案的眼鏡)的能力。幾個月后的今天,RealSafe 實現(xiàn)了快速迭代,2.0 版本正式上線。與 RealSafe 1.0 相比,2.0 版本在支持防御的攻擊類型、適用范圍等方面進行了擴展。
首先,在檢測抗對抗樣本攻擊的安全性基礎上,新版本增加了「模型后門攻擊」自動化檢測,可以針對模型每個類別搜索并還原后門觸發(fā)器的最終結(jié)果,并依據(jù)還原結(jié)果的離散程度判別模型是否被植入后門。此外,測試報告還可以展示出模型被植入后門的類別以及對應的后門所在區(qū)域。
「模型后門攻擊」是一種新興的針對機器學習模型的攻擊方式,攻擊者會在模型中埋藏后門,使得被感染的模型在一般情況下表現(xiàn)正常。但當后門觸發(fā)器被激活時,模型的輸出將變?yōu)楣粽哳A先設置的惡意目標。由于模型在后門未被觸發(fā)之前表現(xiàn)正常,因此這種惡意的攻擊行為很難被發(fā)現(xiàn)。雖然目前來看這種攻擊方式在實際場景中還不太常見,但針對可能存在的攻擊對算法進行加固仍然具有重要意義。這也表現(xiàn)了 RealAI 在產(chǎn)品布局上的前瞻性。
其次,2.0 版的 RealSafe 將適用范圍擴展到了目標檢測、圖像分類等底層 AI 模型。前者的典型應用場景包括安防場景中的人體檢測、車輛、無人機檢測,以及自動駕駛場景中的人體檢測、車輛檢測等。后者的典型應用場景包括社交網(wǎng)絡與短視頻應用的色情、暴恐、侵權(quán)元素的識別,手機相冊的自動分類等。這些場景也是目前 AI 模型應用最廣泛、安全需求最迫切的領域。
在進行安全性檢測后,RealSafe 平臺還提供了多種功能幫助用戶提升 AI 模型安全性。以對抗樣本去噪為例,平臺將自動針對已被測的模型,量化出多種通用對抗樣本去噪方案對模型安全性的提升效果,便于用戶選擇最適合當前被測模型的防御解決方案。
RealSafe 集成了多項國際領先的 AI 對抗攻防算法,榮獲多項世界 AI 安全大賽冠軍。與業(yè)界已有的一些人工智能對抗技術(shù)工具包相比,RealSafe 還具有支持基于生成模型的對抗樣本攻防、支持黑盒檢測、零代碼易上手等優(yōu)勢。
目前,RealSafe 已在工信部重大建設項目以及某電網(wǎng)公司落地應用。
RealAI 表示,未來,RealSafe 還將提供應對模型竊取、數(shù)據(jù)逆向還原等新型 AI 安全風險的解決方案。
底層技術(shù)與應用場景
為了打造基于第三代 AI 的基礎設施,RealAI 應用了多項技術(shù),包括:
貝葉斯深度學習:將深度學習和貝葉斯方法的優(yōu)勢有機結(jié)合,將數(shù)據(jù)和預測結(jié)果中天然存在的不確定性納入考慮,提升 AI 模型的泛化能力,從而實現(xiàn)可靠可解釋的 AI;
可解釋機器學習:保證在建模過程中,從關(guān)鍵特征和決策相關(guān)依據(jù)等不同維度給出解釋,增進人們對 AI 結(jié)果的理解;
AI 安全對抗攻防:通過對抗的方式發(fā)現(xiàn) AI 算法存在漏洞的機理,并通過對抗防御技術(shù)指導魯棒 AI 算法和系統(tǒng)研發(fā);
新一代知識圖譜:將領域知識引入到 AI 建模中,實現(xiàn)知識與數(shù)據(jù)的共同驅(qū)動;
隱私保護機器學習:解決 AI 場景下的數(shù)據(jù)流通問題,實現(xiàn)在明文數(shù)據(jù)不出庫的情況下,通過與密碼學和分布式系統(tǒng)結(jié)合的方式,支持 AI 模型的訓練和預測;同時保證 AI 對數(shù)據(jù)的用量和用途,控制權(quán)屬和收益。
……
這些技術(shù)的運用極大地提高了 AI 技術(shù)在現(xiàn)實場景中的可用性。RealAI的AI基礎設施產(chǎn)品已經(jīng)用于解決金融風控場景中的數(shù)據(jù)有偏、資產(chǎn)配置效率低、基建場景中的數(shù)據(jù)缺失等問題。
為了進一步從研究、平臺、產(chǎn)業(yè)賦能三方面持續(xù)發(fā)力,加速安全、可信、可靠的產(chǎn)業(yè)智能化升級,RealAI 也與北京智源人工智能研究院聯(lián)合成立安全人工智能創(chuàng)新中心,助力人工智能產(chǎn)業(yè)負責任發(fā)展。
AI 基礎設施的建設是一項長期任務,田天表示,RealAI 將「堅持長期主義,推動 AI 更高質(zhì)量的服務于人類社會?!?/p>