123,123,123

专访Michael Jordan：AI的分布式决策与不确定性

日期： 2018-10-22

關(guān)鍵詞： IA 语音识别人工智能

今年四月，Michael Jordan 在 Medium 上發(fā)表了一篇名為《人工智能：革命尚未到來》的文章。文章指出，如今「AI」這個概念被各界人士當(dāng)做包治百病的萬金油，大肆使用，但不同人在使用「AI」一詞時，指代的其實是不同的學(xué)科領(lǐng)域，常見的有三類：

一，擬人 AI。最近深度學(xué)習(xí)的一系列成功案例，包括計算機(jī)視覺、語音識別、游戲人工智能等，都屬于這一范疇。

二，增強人類能力的 IA（Intelligence Augmentation）。能夠增強人類記憶能力的搜索引擎和增強人類溝通能力的機(jī)器翻譯都屬于此類。

三，智能基礎(chǔ)設(shè)施 II（Intelligent Infrastructure）。這一領(lǐng)域旨在利用計算機(jī)技術(shù)讓人類生活的環(huán)境更加安全、有趣，從基礎(chǔ)設(shè)施的角度為人類生活提供支持?！肝锫?lián)網(wǎng)」是這一類概念的早期版本。

Jordan 認(rèn)為，概念的模糊和混淆會帶來一系列問題，例如試圖用同一種思路提供解決方案，而枉顧其思路與大多數(shù)需要解決的問題范式有所沖突。

如今吸引了大規(guī)模神化與誤解的「擬人 AI」思路真的適合解決所有問題嗎？結(jié)構(gòu)工程在復(fù)雜的地形上架構(gòu)橋梁的思路并非「設(shè)計一個能計算橋梁承重的擬人 AI 工程師」?；瘜W(xué)工程生產(chǎn)出諸多化工產(chǎn)品的思路也不是「設(shè)計一個擬人 AI，再讓它幫助我們建造化工廠」。由此類推，自動駕駛的恰當(dāng)思路是「設(shè)計一個擬人 AI 司機(jī)」嗎？自動客服的最佳思路是「設(shè)計一個擬人 AI 話務(wù)員」嗎？

當(dāng)我們辨明了萬金油 AI 中所包含的各類思想后，會不會有不一樣的答案？

九月，Jordan 再次來到中國，進(jìn)行了一系列的學(xué)術(shù)演講。我們在 Boolan 主辦的「全球機(jī)器學(xué)習(xí)技術(shù)大會」（ML-Summit 2018）上對 Jordan 進(jìn)行了采訪，從「AI 分類法」出發(fā)，聊了聊「不擬人的 AI」是什么，能夠解決什么問題。

機(jī)器之心：為什么要將 AI 的概念劃分成不同的三類？

Michael Jordan：提出擬人 AI、IA 和 II 的概念，并不是試圖給「AI」建立一個不重不漏的分類，而只是想要對這幾個經(jīng)常被混為一談的概念進(jìn)行區(qū)分。在談?wù)撨@件事的時候，我跳出了「學(xué)者」角色，嘗試以一個對業(yè)界出現(xiàn)的新用例感興趣、對不同概念的歷史發(fā)展感興趣的人的身份來進(jìn)行思考。

我認(rèn)為在付出艱巨努力之前，首先要確定我們面對的「重大問題」究竟是什么。是建立一個能夠和人以自然語言進(jìn)行溝通的系統(tǒng)？還是獲得一個能夠擬人活動的機(jī)器人？還是試圖建立一個市場，能夠讓更多的商品、服務(wù)、信息以更快的速度流通？在這個世界上，某些問題亟待解決。只有在厘清了基本概念及其差異之后，才能更好地確定你想解決哪類問題。

除此之外，很多人在單純從「擬人 AI」角度出發(fā)設(shè)計基于機(jī)器的系統(tǒng)時并未考慮其社會影響，而只是在系統(tǒng)產(chǎn)生影響后思考對策。如果設(shè)計者能夠從更多的角度思考，那么他們會更早地發(fā)現(xiàn)系統(tǒng)正在制造問題，甚至從一開始就避免問題的出現(xiàn)。

機(jī)器之心：相比于擬人 AI，您對 II 似乎有更為濃厚的興趣，能否給出一個更為具體的 II 的定義？

Michael Jordan：II，或是說智能基礎(chǔ)設(shè)施，某種程度上就是過去大家所說的「物聯(lián)網(wǎng)」。物聯(lián)網(wǎng)已經(jīng)是一個有些歷史的概念了，但是參與到這一類技術(shù)發(fā)展的主體成員還是網(wǎng)絡(luò)研究者和工程師。他們關(guān)注的問題只有一個：給每一樣?xùn)|西賦予一個 IP 地址，讓它可以連接到某個網(wǎng)絡(luò)上。然而對 II 的討論并不應(yīng)該停留在「聯(lián)網(wǎng)」本身，II 所關(guān)注的問題更為廣泛：在「聯(lián)網(wǎng)」完成后，如何在不同事物之間進(jìn)行數(shù)據(jù)傳遞、如何利用利用數(shù)據(jù)進(jìn)行推理，并將所有事物視為一個整體建立起基于數(shù)據(jù)流的知識網(wǎng)絡(luò)，才是問題的核心所在。

機(jī)器之心：II 系統(tǒng)能否像現(xiàn)在的 AI 系統(tǒng)一樣，從輸入、輸出的角度看待呢？

Michael Jordan：與其從輸入輸出的角度思考問題，我更多希望從「誰是這個系統(tǒng)中的參與者？他們?nèi)绾螀⑴c到這個系統(tǒng)中？」的角度進(jìn)行思考。

現(xiàn)階段，一個并不完整的有限 II 系統(tǒng)的例子是網(wǎng)約車。

你可以看到，這個系統(tǒng)本身并非由一個「超級智能」控制，它只是一個雙邊交通系統(tǒng)，讓司機(jī)和乘客從不同的 App 登錄，讓需求方的乘客看到供給方的司機(jī)情況然后出價。和普通的市場不同的地方在于，它的適應(yīng)性更強——因為它有更多的數(shù)據(jù)，更清楚雙邊的偏好，然而它的局限性也非常大，現(xiàn)在只能解決一小部分出行問題。

但是想象一下，如果市場互動能夠和推薦系統(tǒng)相結(jié)合，又是不一樣的故事。推薦系統(tǒng)是歷史上最重要的機(jī)器學(xué)習(xí)應(yīng)用之一，但是如果它不能在市場中扮演角色，其作用始終有限。舉一個推薦系統(tǒng)和市場互動的例子：在餐廳老板和食客這對雙邊關(guān)系中，如果我作為一名食客，能夠在晚餐時段走在街上打開一個 app，表示我有興趣尋找餐廳，app 知道我的地理位置、口味，把信息告訴相關(guān)的餐館「這里有一個潛在客戶」，仍有余位的餐館學(xué)習(xí)我的基本情況后，可以用折扣等方式對我「競價」。如是這般，一個雙邊市場就形成了，我可以選擇接受或拒絕，而餐廳從我的行為中變得更了解我，如果我再多去幾次這家餐廳，我們就建立起了一種聯(lián)系。

在這個過程中，我，作為一個食客很開心：因為我拿到了折扣，吃到了合口味的食物，并且與餐廳建立了好的聯(lián)系。餐廳老板也很開心：因為他們得以充分利用餐廳的資源，并且招徠到了喜歡這家餐廳的客戶。這個過程中并不存在一個復(fù)雜的、超級智能的中樞系統(tǒng)，而只有數(shù)以百萬計的實體，每天進(jìn)行巨量的數(shù)據(jù)交換和分布式的決策。飲食、娛樂、交通……城市里的任何服務(wù)都能以這種形式進(jìn)行。

機(jī)器之心：分布式的決策系統(tǒng)和單線程決策系統(tǒng)有什么區(qū)別？

Michael Jordan：人類是「單線程生物」，我們自己做出的決策大多是單一決策。而只有當(dāng)存在稀缺性的時候，分布式?jīng)Q策才會比多個單一決策更加困難。

解決任何現(xiàn)實世界的問題都要考慮稀缺性。例如，道路容量是有限額的，如果我將所有從 A 地點前往 B 地點的人都指向同一條「最優(yōu)路徑」，無疑這條路會堵車，不再是一條「最優(yōu)路徑」。再比如，因為我沒有無限量物流車（即使我有，這也會變成超出道路容量的問題），所以派送包裹時總會有先后順序。這時，我解決排序的方式并不是設(shè)計一個尋找「最優(yōu)解」的中心算法，而是讓大家以競價的方式表達(dá)自己的偏好。

注意，我們并非在討論建立一個簡單的經(jīng)典市場。而是一個能夠允許數(shù)據(jù)充分流動、偏好充分表達(dá)的市場。因此，經(jīng)濟(jì)學(xué)家會對這個市場異常感興趣，因為當(dāng)市場中的決策者手握大量信息，他們可以做得更好。

機(jī)器之心：現(xiàn)有擬人 AI 技術(shù)的進(jìn)步會給 II 帶來哪些影響嗎？

Michael Jordan：其實，大部分現(xiàn)存的市場模型并不要求每個身處其中的智能體具有高級的智能，而只要求他們做簡單的決策?；氐骄W(wǎng)約車的例子里，網(wǎng)約車中的司機(jī)和乘客都是具有高級智能的人，但是在系統(tǒng)里他們并不需要大量動用智慧，他們只需要表達(dá)需求（我要去機(jī)場）和偏好（我愿意加價調(diào)度）就可以了。

但是，當(dāng)每個智能體都擁有更多信息，并且能夠根據(jù)這些信息更可靠、更有邏輯地運作時，市場會變得更高效、更好。比如，在商品市場或者股票交易市場上，參與者的「智慧」就得到了更多的利用。

因此，我們也可以想象，那些經(jīng)典的、擬人 AI 在一些有趣的市場中也能夠成為很好的玩家。擬人 AI 和 II 的概念就融合在一起了。

對于視覺問題、語音問題來說，我們有如此及大量的標(biāo)注數(shù)據(jù)，所以用監(jiān)督學(xué)習(xí)解決這個問題是合適的。任何其他有標(biāo)注的高維統(tǒng)計分析問題也可以用監(jiān)督學(xué)習(xí)的思路解決。無論最終目標(biāo)是擬人 AI 還是 IA 還是 II，解決方案都會是一個監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、Bandit 算法等等的組合。

并非說 II 是優(yōu)于 AI 的一個概念，而是當(dāng)人人都「全力投入 AI」卻不能準(zhǔn)確描述他們所投入的究竟是什么，對一些基本概念做區(qū)分有助于人們厘清自己的思路。

機(jī)器之心：在您看來，當(dāng)前公眾缺乏對 II 的關(guān)注，那么從研發(fā)角度呢？

Michael Jordan：研發(fā)角度的關(guān)注重點也有所偏頗。

我并不擔(dān)心業(yè)界巨頭們，大公司層面一直不缺少相關(guān)研究。但是有非常多的小公司，仍然認(rèn)為他們能夠通過提出一種新型的智能 AI 設(shè)備就解決某個存在已久的大問題。但是可以預(yù)見的是，在大多數(shù)情況下，這并不會發(fā)生。

當(dāng)然，對于硬件公司來說，鼓勵更多人在更大量的數(shù)據(jù)上運行各式各樣的 AI 算法是符合他們的利益的做法：因為無論算法是否有效，只要賣出硬件他們就能夠掙錢。這并不是一件壞事，但人們需要清楚，許多硬件的賣點不是「他們能夠立刻解決當(dāng)前的問題」。

想要讓電腦對真實世界進(jìn)行高級抽象然后得出結(jié)論是非常、非常艱巨的任務(wù)。我并不認(rèn)為我們能夠在可見的未來里實現(xiàn)這一點。然而我并不認(rèn)為計算能力是當(dāng)前技術(shù)發(fā)展的瓶頸。事實上如今我們每個人手上的算力都非常可觀：甚至當(dāng)下的大部分生產(chǎn)側(cè)的應(yīng)用程序都能夠運行在你的筆記本電腦上。即使一個商業(yè)模式依賴對大量數(shù)據(jù)的快速處理，大部分也能夠通過云實現(xiàn)，只有自動駕駛等非常少部分的應(yīng)用需要大量終端計算力。

另一方面，對于學(xué)界來說，我也并不十分擔(dān)心。學(xué)界的風(fēng)向變化是非常快的，大家對新話題總是迅速燃起興趣，又輕易感到厭倦。深度學(xué)習(xí)的一個好處是吸引了非常多學(xué)生進(jìn)入計算機(jī)科學(xué)領(lǐng)域，這是好事：當(dāng)他們進(jìn)入這個領(lǐng)域，他們不會停步于這一個小范疇，而是會在更廣泛的問題空間里進(jìn)行探索。

機(jī)器之心：您所關(guān)注的 II 問題有許多與經(jīng)濟(jì)學(xué)問題相似的設(shè)定，這類問題和現(xiàn)有機(jī)器學(xué)習(xí)算法有哪些差異？

Michael Jordan：現(xiàn)有的機(jī)器學(xué)習(xí)通常假設(shè)有一個玩家。而和經(jīng)濟(jì)學(xué)相關(guān)的算法，例如許多和拍賣、競價的算法中都有許多個參與者。參與者會掌握部分其他參與者的信息，并且會進(jìn)行策略性的思考，進(jìn)行多回合的假設(shè)最終確定如何采取行動。

但是這兩類算法之間并不會有本質(zhì)的差異，因為人類世界的基本算法是簡單且相通的，梯度下降的概念、矩陣算法的概念、概率模型的概念，都被應(yīng)用于解決各領(lǐng)域問題。例如鞍點問題，也在經(jīng)濟(jì)學(xué)領(lǐng)域中存在：經(jīng)濟(jì)學(xué)家總是試圖找到均衡（equilibrium），即市場中具有競爭關(guān)系的雙方都無法獲得更優(yōu)的福利。但是因為雙方處于競爭關(guān)系，在均衡點二者的優(yōu)化方向是不同的，換言之，這不是一個「規(guī)避鞍點」，而是一個「尋找鞍點」的故事。有專門的一類研究，就聚焦在「以尋找鞍點為目標(biāo)的梯度下降」。

現(xiàn)在二者看似有很大的差異，是因為現(xiàn)在的機(jī)器學(xué)習(xí)算法，例如計算機(jī)視覺算法，還只是單純的模式識別。而真正的計算機(jī)視覺算法應(yīng)該是一個嘗試學(xué)習(xí)其所處環(huán)境的實體。它能夠移動、尋找資源以實現(xiàn)自己的目的。我們的視覺算法正在朝向這個方向發(fā)展，在過程中越來越接近經(jīng)濟(jì)相關(guān)的算法。

機(jī)器之心：機(jī)器學(xué)習(xí)在今后的發(fā)展路徑上有哪些需要研究者和應(yīng)用者特別注意的地方？

Michael Jordan：不確定性。機(jī)器學(xué)習(xí)本質(zhì)上就是統(tǒng)計學(xué)與計算機(jī)科學(xué)概念的結(jié)合，而今值得擔(dān)憂的是，在結(jié)合的過程中，有一些因素未被考慮到或是說未得到足夠的重視，比如不確定性。

大眾對于不確定性缺乏關(guān)注。而研究者雖然清楚不確定性的存在，仍然缺乏對其足夠的關(guān)注：他們簡單地假定，當(dāng)數(shù)據(jù)足夠大、標(biāo)簽足夠多的時候，不確定性會逐漸消失，系統(tǒng)給出的就是正確答案。

這就是現(xiàn)在大部分視覺問題的解決方案，當(dāng)你有如此多標(biāo)注數(shù)據(jù)的時候，不確定性出于某些未知原因逐漸消失。但這并不是一個典型的解決方案，我們無法消除世界上大部分問題的不確定性。世界上不可衡量的因素太多了，有眾多問題需要在存在巨大不確定性的情況下得到解答。例如，雖然醫(yī)生并不確切知道患者體內(nèi)究竟發(fā)生了什么，他仍然要在這種情況下根據(jù)患者表現(xiàn)出來的癥狀為其選擇治療方案。

想要把不確定性納入考量，算法需要做出許多額外的假設(shè)。例如，boostrap 就通過重復(fù)地從數(shù)據(jù)中抽樣獲得一些關(guān)于不確定性的估計，但是抽樣過程需要花費大量的算力。

還有一些貝葉斯派的方法，你對最初的不確定性作出假設(shè)，而后關(guān)注它的變化。但這也是計算非常昂貴的算法。

因此，和不確定性相關(guān)的研究工作里，有一大部分工程性的研究工作就是在嘗試如何用盡可能便宜的方法引入不確定性。以及在不能對不確定性作出準(zhǔn)確預(yù)估的時候，起碼給出明確的聲明：算法的置信度是多少，如果算法不足夠好，那么給出更大的置信區(qū)間，以便作出更保守的估計。

傳統(tǒng)地看，統(tǒng)計學(xué)里不確定性無處不在，其核心就是清楚錯誤的存在、明確來源并進(jìn)行管理。而傳統(tǒng)的計算機(jī)科學(xué)是不存在不確定性的。機(jī)器學(xué)習(xí)研究者開始將不確定性的思想引入計算機(jī)科學(xué)學(xué)科，算法有了訓(xùn)練與測試階段，人們開始考量隨機(jī)性對兩個階段的結(jié)果產(chǎn)生哪些影響。但是，從「文化」的角度上來看，整個領(lǐng)域仍然缺乏對不確定性的關(guān)注。

機(jī)器之心：您近期多次在公開演講中提到高性能分布式框架 Ray，能否介紹一下 Ray 的設(shè)計思路和主要特點？

Michael Jordan：對于更好的框架和語言的需求的確一直在上升。當(dāng)我年輕時，我們有 Fortran，有 C 語言，他們比之前一代的編程語言有了顯著的提升，并且?guī)砹烁咝У陌l(fā)展。但是想要在多線程的分布式平臺上使用這樣的語言變得越來越痛苦，它們并不適合數(shù)據(jù)分布在不同地方的模型。

這一次深度學(xué)習(xí)的成功背后，很大一部分要歸功于 Hadoop、Spark、TensorFlow 這些工具，它們讓分布式模型變得易用。但這也只是針對當(dāng)前的需求而向分布式框架邁進(jìn)的第一步。

Ray 在嘗試更進(jìn)一步，我們試圖把問題中與分布式相關(guān)的問題抽取出來：一個算法運行在一臺、五臺還是上百臺計算機(jī)上需要進(jìn)行哪些調(diào)整不應(yīng)該是算法設(shè)計者需要考慮的問題。

這是一個非常有趣、有價值的問題，但不應(yīng)該讓大多數(shù)工程師為此花費大量精力，底層工程師思考這個問題就夠了。Ray 旨在提供一個底層框架，能夠高效利用你所有的計算資源，讓進(jìn)程在不同處理器之間切換，并保持整個過程的魯棒性和一致性。

它關(guān)注的不是「模式識別」這類 AI，而是支持決策類 AI，比如強化學(xué)習(xí)、Bandit 算法以及其他很多搜索算法的運行。

機(jī)器之心：決策類 AI 相比于識別類 AI 需要的算力支持有何不同？

Michael Jordan：相比于模式識別類的 AI 算法，決策類 AI 更需要異構(gòu)負(fù)載（heterogeneous workload）。模式識別類的任務(wù)通常很容易切分成子任務(wù)，每一個子任務(wù)的大小、需要的資源種類都基本相同。常見的模式是，把數(shù)據(jù)切分成小塊，讓每個小塊在不同的計算單元上進(jìn)行同樣的求導(dǎo)運算，它們耗時大體相等，等所有運算完成后，再把它們的結(jié)果加起來。Hadoop 和 Spark 之下的 MapReduce 范式，正是這樣的范式。

但是對于決策類的問題來說，問題切分成很多個小的搜索問題之后，每部分的耗時都是未知的：你需要進(jìn)行嘗試，有一些通路可以迅速被排除，另一些則需要很多步的嘗試才能判斷。每個進(jìn)程需要一直搜索到確定為止，而在這個進(jìn)程停止之后，系統(tǒng)需要為這一個特定處理器分配一項新任務(wù)。這是一個動態(tài)任務(wù)圖，也就是所謂的異構(gòu)負(fù)載。這就是 Ray 試圖解決的問題。

機(jī)器之心：在 Ray 之外，您還關(guān)注哪些其他研究方向？

Michael Jordan：研究者選擇課題與藝術(shù)家、音樂家選擇創(chuàng)造主題其實是一樣的。我對于萬事萬物都很好奇，喜歡學(xué)習(xí)一切，因此我保持開放的心態(tài)，與大量的人交談，思考技術(shù)的潮流正在將世界帶向何方。然后你會發(fā)現(xiàn)一些新的思考方式、一些尚未得到關(guān)注的領(lǐng)域，一些讓你相信假以時日一定會得到有趣的發(fā)現(xiàn)的問題。所以你進(jìn)行嘗試、與其他人公開探討，嘗試激起他們的興趣，尤其是你的學(xué)生的興趣。

我經(jīng)常在公開場合談?wù)?Ray，是因為我希望更多人加入進(jìn)來，在更多的使用場景下測試它的能力。除此之外，我還對錯誤發(fā)現(xiàn)率（false discovery rate）十分感興趣，尤其是在線錯誤發(fā)現(xiàn)率。這一類算法想要實現(xiàn)的目標(biāo)是，當(dāng)算法在運算的任何階段被中止，都能保證當(dāng)前作出的決策大部分是好的決策。

我也對很多數(shù)學(xué)相關(guān)的工作感興趣。比如梯度下降算法以及搜索算法等的幾何學(xué)研究。

梯度下降算法從數(shù)學(xué)角度來看，就是試圖在參數(shù)空間內(nèi)進(jìn)行運動。這類運動有哪些動態(tài)性質(zhì)？有哪些幾何性質(zhì)？其動態(tài)性質(zhì)與幾何性質(zhì)之間又是如何相互影響？我對這些問題都很感興趣。

鞍點問題就是這類問題中的典型。梯度下降算法經(jīng)常長時間卡在鞍點附近，因此，如何設(shè)計參數(shù)優(yōu)化算法以避免在鞍點停留，如何利用鞍點的性質(zhì)找到優(yōu)化的方向，都是我們正在研究的問題。

數(shù)學(xué)類問題吸引我的地方在于有一個良性循環(huán)的社區(qū)：你在他人的工作之上開展自己的工作，提出猜想、進(jìn)行證明、得到定理，而在未來，你的工作又會被之后的學(xué)生做為探索的起點。

十年之后，人們不會再談及我，我的時代已經(jīng)過去。我不認(rèn)為當(dāng)今有哪些研究者的工作能夠像愛因斯坦的成果一樣，有延續(xù)百年的生命力。我們的貢獻(xiàn)要小一些，但是我希望它們足夠扎實，能夠讓十年后的其他研究者愿意在我們的成果之上繼續(xù)前行。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

专访Michael Jordan：AI的分布式决策与不确定性

日期： 2018-10-22

相關(guān)內(nèi)容