《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 「AlphaGo 之父」David Silver最新演講,傳授強化學(xué)習(xí)的十大原則

「AlphaGo 之父」David Silver最新演講,傳授強化學(xué)習(xí)的十大原則

2018-09-17

9 月 9 日-14 日,Deep Learning Indaba 2018 大會在南非斯泰倫博斯舉行。會上,DeepMind 強化學(xué)習(xí)研究小組負(fù)責(zé)人、首席研究員、AlphaGo 項目負(fù)責(zé)人 David Silver 發(fā)表演講,介紹了強化學(xué)習(xí)的十大原則。機器之心對該演講進(jìn)行了介紹。


演講課件地址:http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

微信圖片_20180917215347.jpg


原則一:評估方法驅(qū)動研究進(jìn)展


David Silver 指出,客觀、量化的評估方法是強化學(xué)習(xí)進(jìn)展的重要驅(qū)動力:


評估指標(biāo)的選擇決定了研究進(jìn)展的方向;

這可以說是強化學(xué)習(xí)項目中最重要的一個決定。


David Silver 介紹了兩種評估方法:


排行榜驅(qū)動的研究

  確保評估指標(biāo)緊密對應(yīng)最終目標(biāo);

  避免主觀評估(如人類評估)。


假設(shè)驅(qū)動的研究

  形成一個假設(shè):Double-Q 學(xué)習(xí)優(yōu)于 Q 學(xué)習(xí),因為前者減少了向上偏誤(upward bias);

  在寬泛的條件下驗證該假設(shè);

  對比同類方法,而不是只與當(dāng)前最優(yōu)方法進(jìn)行對比;

  尋求理解,而不是排行榜表現(xiàn)。

微信圖片_20180917215411.jpg


原則二:可擴展性是成功的關(guān)鍵


David Silver 認(rèn)為可擴展性是強化學(xué)習(xí)研究成功的關(guān)鍵。


算法的可擴展性指與資源相關(guān)的算法的性能變化;

資源包括計算量、內(nèi)存或數(shù)據(jù);

算法的可擴展性最終決定算法成功與否;

可擴展性比研究的起點更加重要;

優(yōu)秀的算法在給定有限資源的條件下是最優(yōu)的。

微信圖片_20180917215439.jpg


原則三:通用性(Generality)支持算法的長遠(yuǎn)有效性


算法的通用性指它在不同強化學(xué)習(xí)環(huán)境中的性能。研究者在訓(xùn)練時要避免在當(dāng)前任務(wù)上的過擬合,并尋求可以泛化至未來未知環(huán)境的算法。


我們無法預(yù)測未來,但是未來任務(wù)的復(fù)雜度可能至少和當(dāng)前任務(wù)持平;在當(dāng)前任務(wù)上遇到的困難在未來則很有可能增加。


因此,要想使算法可以泛化至未來的不同強化學(xué)習(xí)環(huán)境,研究者必須在多樣化且真實的強化學(xué)習(xí)環(huán)境集合上測試算法。

微信圖片_20180917215508.jpg


原則四:信任智能體的經(jīng)驗


David Silver 指出經(jīng)驗(觀察、動作和獎勵)是強化學(xué)習(xí)的數(shù)據(jù),公式可以寫作:


h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t


經(jīng)驗流隨智能體在環(huán)境中學(xué)習(xí)時間的延長而累積。


他告誡我們,要把智能體的經(jīng)驗作為知識的唯一來源。人們在智能體學(xué)習(xí)遇到問題時傾向于添加人類的專業(yè)知識(人類數(shù)據(jù)、特征、啟發(fā)式方法、約束、抽象、域操控)。


他認(rèn)為,完全從經(jīng)驗中學(xué)習(xí)看起來似乎不可能。也就是說,強化學(xué)習(xí)的核心問題非常棘手。但這是 AI 的核心問題,也值得我們付出努力。從長遠(yuǎn)來看,從經(jīng)驗中學(xué)習(xí)一直是正確的選擇。

微信圖片_20180917215530.jpg


原則五:狀態(tài)是主觀的


David Silver 指出:


智能體應(yīng)該從它們的經(jīng)驗中構(gòu)建屬于自己的狀態(tài),即:s_t=f(h_t)

智能體狀態(tài)是前一個狀態(tài)和新觀察的函數(shù):s_t=f(s_t-1,a_t-1,o_t,r_t) 


如下圖所示:

微信圖片_20180917215557.jpg

它是循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)。

永遠(yuǎn)不要根據(jù)環(huán)境的「真實」?fàn)顟B(tài)來定義狀態(tài)(智能體應(yīng)該是一個部分可觀察馬爾可夫鏈模型)。

微信圖片_20180917215712.jpg


原則六:控制數(shù)據(jù)流


智能體存在于豐富的感覺運動(sensorimotor)數(shù)據(jù)流中:

  觀測結(jié)果的數(shù)據(jù)流輸入到智能體中;

  智能體輸出動作流。

智能體的動作會影響數(shù)據(jù)流:

微信圖片_20180917215733.jpg

特征控制 => 數(shù)據(jù)流控制

數(shù)據(jù)流控制 => 控制未來

控制未來 => 可以最大化任意獎勵

微信圖片_20180917215807.jpg


原則七:用價值函數(shù)對環(huán)境建模


David Silver 首先給出了使用價值函數(shù)的三個原因:


高效地對未來進(jìn)行總結(jié)/緩存;

將規(guī)劃過程簡化為固定時間的查找,而不是進(jìn)行指數(shù)時間量級的預(yù)測;

獨立于時間步跨度進(jìn)行計算和學(xué)習(xí)。


他指出,學(xué)習(xí)多個價值函數(shù)可以高效地建模環(huán)境的多個方面(控制狀態(tài)流),包括隨后的狀態(tài)變量;還能在多個時間尺度上學(xué)習(xí)。他還提醒我們避免在過于簡化的時間步上建模環(huán)境。

微信圖片_20180917215831.jpg


原則八:規(guī)劃:從想象的經(jīng)驗中學(xué)習(xí)


David Silver 提出了一種有效的規(guī)劃方法,并將其分為兩步。首先想象下一步會發(fā)生什么,從模型中采樣狀態(tài)的軌跡;然后利用我們在真實經(jīng)驗中用過的 RL 算法從想象的經(jīng)驗中學(xué)習(xí)。他提醒我們從現(xiàn)在開始關(guān)注價值函數(shù)逼近。

微信圖片_20180917215904.jpg


原則九:使用函數(shù)近似器


David Silver 認(rèn)為,可微網(wǎng)絡(luò)架構(gòu)是一種強大的工具,可以豐富狀態(tài)表示,同時使可微記憶、可微規(guī)劃以及分層控制更加便利。他提出將算法復(fù)雜度引入網(wǎng)絡(luò)架構(gòu),以減少算法復(fù)雜度(指參數(shù)的更新方式),增加架構(gòu)的表達(dá)性(指參數(shù)的作用)。

微信圖片_20180917215925.jpg


原則十:學(xué)會學(xué)習(xí)


AI 史是一個進(jìn)步史:


第一代:舊式的 AI

  手動預(yù)測:此時的人工智能只能執(zhí)行手動預(yù)測

  什么也學(xué)不會

第二代:淺層學(xué)習(xí)

  手動構(gòu)建特征:研究人員需要耗費大量時間、精力手動構(gòu)建特征

  學(xué)習(xí)預(yù)測

第三代:深度學(xué)習(xí)

  手動構(gòu)建的算法(優(yōu)化器、目標(biāo)、架構(gòu)……)

  端到端學(xué)習(xí)特征和預(yù)測

第四代:元學(xué)習(xí)

  無需手工

  端到端學(xué)習(xí)算法和特征以及預(yù)測


微信圖片_20180917215950.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。