《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 從李世石到柯潔 AlphaGo有哪些演進(jìn)

從李世石到柯潔 AlphaGo有哪些演進(jìn)

2017-05-25

世界排名第一的柯潔,曾認(rèn)真研究了一年多AlphaGo喜歡的三三式;在這一年多,AlphaGo則從第18代迭代為第60代。這些表象背后,人工智能深度學(xué)習(xí)能力經(jīng)歷了怎樣的演進(jìn)?

1495682180270085576.jpg

一場(chǎng)科技層面注定失敗的比賽

這是一場(chǎng)業(yè)內(nèi)同行普遍不看好結(jié)果的比賽。

盡管柯潔在大戰(zhàn)前悲壯地表示,“我會(huì)用所有的熱情去與它做最后的對(duì)決,不管面對(duì)再?gòu)?qiáng)大的對(duì)手——我也絕不會(huì)后退!”賽前的豪邁,依然改變不了失敗的結(jié)果。在專(zhuān)業(yè)棋手看來(lái),輸四分之一子的柯潔雖敗猶榮。

對(duì)柯潔而言,這是一場(chǎng)注定艱難但必須爭(zhēng)勝的戰(zhàn)斗。在此之前,柯潔專(zhuān)門(mén)研究了AlphaGo喜歡的三三式,并在比賽中應(yīng)用。

而在這一年中,AlphaGo從對(duì)陣?yán)钍朗瘯r(shí)的第18代,迭代為對(duì)陣柯潔時(shí)的第60代。快速迭代的背后,是AlphaGo全新的深度學(xué)習(xí)邏輯。這種經(jīng)歷迭代的深度學(xué)習(xí)邏輯,其強(qiáng)大力讓人難以望其項(xiàng)背。

深度學(xué)習(xí)的兩次邏輯變更

2016年在AlphaGo以4:1大勝李世石后,人工智能再次進(jìn)入大眾的視野,而在這場(chǎng)世紀(jì)“人機(jī)大戰(zhàn)”后,Deepmind隨即宣布“阿爾法狗”進(jìn)入閉關(guān)狀態(tài)。

1495682180379073782.jpg

直到2016年12月29日,AlphaGo才化身為神秘的Master再次復(fù)出。隨后其在短短一周內(nèi),擊敗了包括目前中韓第一人柯潔和樸廷桓,以及古力、陳耀燁、范廷鈺、常昊等10多位中韓世界冠軍,豪取60連勝,就連原來(lái)信心滿(mǎn)滿(mǎn)的柯潔也對(duì)此也一改以往自信狂傲的口吻,聲稱(chēng)自己很可能全輸給AlphaGo。

而前兩次人機(jī)對(duì)決的場(chǎng)景還歷歷在目,第三次人機(jī)大戰(zhàn)卻已悄然來(lái)臨,但整個(gè)人類(lèi)世界對(duì)于兩方選手的感情卻發(fā)生了顛覆性的變化,一邊倒的認(rèn)為柯潔必輸。

那么這一年時(shí)間里AlphaGo身上究竟發(fā)生了什么?居然讓輿論變化如此之大,這無(wú)疑源于人們對(duì)AlphaGo了解的加深。

與李世石對(duì)戰(zhàn)的AlphaGo 1.0版混合了三種算法:蒙特卡洛樹(shù)搜索+監(jiān)督學(xué)習(xí)+增強(qiáng)學(xué)習(xí)。其中,蒙特卡洛樹(shù)搜索是一種優(yōu)化過(guò)的暴力計(jì)算,比1997年深藍(lán)的暴力計(jì)算更聰明。而這里的監(jiān)督學(xué)習(xí),是通過(guò)學(xué)習(xí)3000萬(wàn)部人類(lèi)棋譜,對(duì)六段以上職業(yè)棋手走棋規(guī)律進(jìn)行模仿,也是AlphaGo獲得突破性進(jìn)展的關(guān)鍵算法。而增強(qiáng)學(xué)習(xí)作為輔助,是兩臺(tái)AlphaGo從自我對(duì)戰(zhàn)眾中學(xué)習(xí)如何下棋,對(duì)棋力提升有限。

此次AlphaGo 2.0的技術(shù)原理已有顛覆式改變。首先是放棄了監(jiān)督學(xué)習(xí),沒(méi)有再用人的3000萬(wàn)局棋譜進(jìn)行訓(xùn)練。這本是AlphaGo最亮眼的算法,也是今天主流機(jī)器學(xué)習(xí)不可避免的核心條件:依賴(lài)于優(yōu)質(zhì)的數(shù)據(jù),在這個(gè)特定問(wèn)題下就這么被再次突破了。

其次,放棄了蒙特卡洛樹(shù)搜索,不再進(jìn)行暴力計(jì)算。理論上,算法越笨,就越需要暴力計(jì)算做補(bǔ)充。算法越聰明,就可以大大減少暴力計(jì)算。從AlphaGo 2.0的“馬甲”Master的歷史行為看,走棋非常迅速,約在每10秒鐘就走棋一步,如此速度很可能是放棄了暴力計(jì)算。

再次,極大地強(qiáng)化了增強(qiáng)學(xué)習(xí)的作用,之前敲邊鼓的算法,正式成為扛把子主力。想想看有多勵(lì)志:兩臺(tái)白癡機(jī)器,遵守走棋和獲勝規(guī)則,從隨機(jī)走棋開(kāi)始日夜切磋,總結(jié)經(jīng)驗(yàn),不斷批評(píng)和自我批評(píng),一周后終成大器。

通俗地講,1.0版本的AlphaGo尚需借助人類(lèi)棋譜來(lái)增長(zhǎng)功力,而新版阿爾法狗2.0已正式摒棄人類(lèi)棋譜,只靠計(jì)算機(jī)自身深度學(xué)習(xí)的方式成長(zhǎng)——即探索“深度學(xué)習(xí)”方式的極限,臻至“圍棋之神”的境界。所以,它現(xiàn)在在圍棋方面儼然打通了任督二脈,人類(lèi)根本找不到其脈搏。

而在今年4月,AlphaGo之父哈薩比斯在英國(guó)劍橋大學(xué)進(jìn)行了演講,專(zhuān)門(mén)提到為了幫助 AlphaGo 提升。他公開(kāi)表示,之前 AlphaGo 提升一個(gè)版本需要 3 個(gè)月,現(xiàn)在只需要 1 周。AlphaGo 對(duì)陣?yán)钍朗瘯r(shí)的版本號(hào)是 V18,而當(dāng)下的版本估計(jì)已經(jīng)到了 V60,在邏輯上和棋局策略上已經(jīng)今非昔比。

誠(chéng)如哈薩比斯所說(shuō),AlphaGo證明了人類(lèi)3000年來(lái)在圍棋上犯了一個(gè)大錯(cuò),其僅憑兩臺(tái)機(jī)器自我對(duì)弈中學(xué)習(xí)和進(jìn)化,最終不僅趕超了人類(lèi)進(jìn)化的速度,還發(fā)展出一套截然不同的下棋方法,并且更加接近完美的狀態(tài),實(shí)現(xiàn)了對(duì)人類(lèi)的碾壓,重演了一部圍棋的進(jìn)化史,而且得出了與這兩千年來(lái)不同的進(jìn)化結(jié)果。

如今,人工智能已經(jīng)上升為國(guó)家戰(zhàn)略,而在2017年業(yè)界的聲音也的確進(jìn)入了該領(lǐng)域的下一個(gè)階段——更加強(qiáng)調(diào)人工智能技術(shù)的落地。未來(lái)社會(huì)每個(gè)人身邊獨(dú)有一個(gè)人工智能助手,人類(lèi)將從簡(jiǎn)單重復(fù)的勞動(dòng)中解脫出來(lái)。

1495682182142007493.jpg

人工智能產(chǎn)業(yè)風(fēng)口已來(lái)

不過(guò),柯潔輸給AlphaGo并不代表人類(lèi)敗給了人工智能,因?yàn)檫@種對(duì)抗從來(lái)不是技術(shù)與人關(guān)系的實(shí)質(zhì)。人工智能的出現(xiàn)從來(lái)不是作為人類(lèi)的對(duì)手,而是作為人類(lèi)的助手。

就好像現(xiàn)在多數(shù)人應(yīng)該都覺(jué)得,讓人和汽車(chē)比誰(shuí)跑得快,連娛樂(lè)價(jià)值都沒(méi)有了,而如何利用汽車(chē)、利用無(wú)人駕駛讓我們的生活更方便,才是更有價(jià)值的探索方向。這也是谷歌一直所追求的“如何讓機(jī)器更智能,如何讓人的生活更好”,而且阿爾法狗后面站著的實(shí)際上就是人類(lèi)本身。

而隨著阿爾法狗在深度學(xué)習(xí)領(lǐng)域的示范效應(yīng),深度學(xué)習(xí)有望進(jìn)一步加速滲透至各個(gè)行業(yè),垂直行業(yè)的信息化公司有望充分利用深度學(xué)習(xí)提升行業(yè)智能水平。目前,谷歌、微軟、 Facebook、百度等巨頭紛紛開(kāi)源深度學(xué)習(xí)框架,大大降低開(kāi)發(fā)深度學(xué)習(xí)系統(tǒng)應(yīng)用門(mén)檻,加速滲透至各個(gè)行業(yè),包括金融、醫(yī)療、服務(wù)機(jī)器人、法律、無(wú)人駕駛、教育、氣象、農(nóng)業(yè)等,垂直行業(yè)的信息化公司有望迎來(lái)發(fā)展良機(jī)。2017年被業(yè)內(nèi)評(píng)價(jià)為人工智能應(yīng)用元年。

基于人工智能巨大的發(fā)展空間,國(guó)內(nèi)相關(guān)上市公司也將迎來(lái)發(fā)展契機(jī)。阿里云、騰訊、百度、科大訊飛等行業(yè)巨頭,大疆、華大基因、柔宇科技等創(chuàng)新企業(yè)正在人工智能領(lǐng)域開(kāi)始耕耘。

而相較于在原創(chuàng)性研究領(lǐng)域的薄弱,中國(guó)在AI應(yīng)用方面具有獨(dú)特的優(yōu)勢(shì):一方面政府統(tǒng)一規(guī)劃使得國(guó)內(nèi)在人工智能方面的投入可能取得更好成果,另一方面國(guó)內(nèi)巨大的市場(chǎng)需求,將促使人工智能在產(chǎn)業(yè)應(yīng)用的落地加快,最終產(chǎn)生一些在國(guó)外無(wú)法實(shí)現(xiàn)的應(yīng)用模式。

在AlphaGo不斷迭代深度學(xué)習(xí)邏輯的同時(shí),人類(lèi)在不斷拓寬對(duì)人工智能的應(yīng)用。在這一場(chǎng)永不停歇的人機(jī)大戰(zhàn)中,誰(shuí)是最終的贏家,結(jié)局已經(jīng)注定。

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。