奪魁NeurIPS 2020電網(wǎng)調(diào)度大賽,百度PARL實(shí)現(xiàn)NeurIPS強(qiáng)化學(xué)習(xí)競(jìng)賽三連冠
2020-11-17
來(lái)源: 機(jī)器之心
受疫情影響,人工智能頂級(jí)學(xué)術(shù)會(huì)議 NeurIPS 2020 將通過(guò)線上的形式進(jìn)行。隨著會(huì)議召開(kāi)時(shí)間臨近,該會(huì)議承辦的競(jìng)賽也陸續(xù)揭曉結(jié)果。今年新增的電網(wǎng)調(diào)度競(jìng)賽(Learning To Run a Power Network Challenge)共包含兩個(gè)賽道:魯棒能力賽道和泛化能力賽道,經(jīng)過(guò)三個(gè)月的激烈比拼,最終來(lái)自百度的 PARL 團(tuán)隊(duì)拿下全部?jī)蓚€(gè)賽道的冠軍。同時(shí),這也是該團(tuán)隊(duì)在 NeurIPS 上拿下的第三個(gè)強(qiáng)化學(xué)習(xí)賽事冠軍,實(shí)現(xiàn)三連冠的里程碑。
NeurIPS 2020 電網(wǎng)調(diào)度大賽主要是由 RTE(法國(guó)電網(wǎng)公司)、EPRI(美國(guó)電力研究協(xié)會(huì))和 TenneT(德國(guó) - 荷蘭電網(wǎng)公司)等能源企業(yè)聯(lián)合 INRIA(法國(guó)國(guó)家信息與自動(dòng)化研究所)、谷歌研究、UCL 和卡塞爾大學(xué)等人工智能研究機(jī)構(gòu)共同舉辦。賽事共吸引了來(lái)自全球的上百支隊(duì)伍,參賽選手中有來(lái)自各個(gè)地區(qū)的人工智能研究機(jī)構(gòu),還有來(lái)自清華大學(xué)、國(guó)家電網(wǎng)北美研究院等機(jī)構(gòu)的電網(wǎng)領(lǐng)域?qū)<?。本次賽事的舉辦主旨是探索強(qiáng)化學(xué)習(xí)在能源調(diào)度領(lǐng)域的應(yīng)用,希望結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)電網(wǎng)傳輸?shù)淖詣?dòng)化控制,保障整個(gè)電網(wǎng)系統(tǒng)在各種突發(fā)狀況下都能穩(wěn)定運(yùn)行。
PARL 開(kāi)源倉(cāng)庫(kù)地址:https://github.com/PaddlePaddle/PARL
競(jìng)賽任務(wù)
電能是現(xiàn)代化的重要標(biāo)志之一,與我們每個(gè)人的日常生活息息相關(guān)。電網(wǎng)在不同地區(qū),國(guó)家甚至大洲之間輸送電力,是配電的中堅(jiān)力量,通過(guò)向工業(yè)和消費(fèi)者提供可靠的電力來(lái)發(fā)揮重要的經(jīng)濟(jì)和社會(huì)作用。但由于受突發(fā)狀況、自然災(zāi)害和人為災(zāi)害等不確定性事件的影響,電網(wǎng)系統(tǒng)需要大量的監(jiān)控人員和電網(wǎng)專家,結(jié)合領(lǐng)域知識(shí)和歷史經(jīng)驗(yàn),針對(duì)不同突發(fā)場(chǎng)景進(jìn)行干預(yù)和維護(hù)。根據(jù)主辦方發(fā)布的競(jìng)賽白皮書(shū),電網(wǎng)系統(tǒng)平均每運(yùn)行一小時(shí)便需要實(shí)施人工干預(yù)操作,不然可能導(dǎo)致局部甚至整個(gè)城市的停電。電網(wǎng)調(diào)度競(jìng)賽的目的便是探索 AI 在復(fù)雜的電網(wǎng)調(diào)度場(chǎng)景上的智能決策能力。
電網(wǎng)事故示例和電網(wǎng)控制室。
本次電網(wǎng)調(diào)度競(jìng)賽的總體任務(wù)目標(biāo)是維持整個(gè)電網(wǎng)仿真系統(tǒng)的供需平衡,并應(yīng)對(duì)各種突發(fā)事件。在電網(wǎng)仿真環(huán)境運(yùn)行的每一個(gè)時(shí)刻,參賽選手需要根據(jù)觀測(cè)到的電網(wǎng)狀態(tài)(供電 / 用電數(shù)據(jù)、電網(wǎng)拓?fù)浣Y(jié)構(gòu)和電線負(fù)載等信息),選擇合適的動(dòng)作(包括變電站拓?fù)湫薷暮桶l(fā)電廠發(fā)電功率修改等)來(lái)保持電網(wǎng)的穩(wěn)定運(yùn)行。NeurIPS 2020 舉辦的電網(wǎng)調(diào)度賽事相比前兩屆的電網(wǎng)調(diào)度賽事具有更大的挑戰(zhàn)難度,不僅電網(wǎng)規(guī)模更大,動(dòng)作空間也更復(fù)雜,而且根據(jù)電網(wǎng)的真實(shí)場(chǎng)景,分別設(shè)置了更具有現(xiàn)實(shí)意義的魯棒性(Robustness)和適應(yīng)性(Adaptability)兩個(gè)挑戰(zhàn)賽道。兩個(gè)賽道的設(shè)置分別如下:
Track 1(賽道一):采用中型電網(wǎng)(相當(dāng)于三分之一的美國(guó)中西部電網(wǎng)),離散動(dòng)作空間數(shù)量有 6 萬(wàn)多個(gè)。該賽道中,每天電網(wǎng)的不同線路會(huì)因隨機(jī)的攻擊而斷開(kāi),以此模擬現(xiàn)實(shí)生活中電網(wǎng)系統(tǒng)受到不可預(yù)期的事故(例如被閃電擊中),對(duì)決策系統(tǒng)在各種突發(fā)事件下的魯棒性而言,是個(gè)很大的挑戰(zhàn)。
Track 2(賽道二):采用大型電網(wǎng)(相當(dāng)于整個(gè)美國(guó)中西部電網(wǎng)),離散動(dòng)作空間數(shù)量高達(dá) 7 萬(wàn)多個(gè)。該賽道中,發(fā)電廠的可再生能源比例是動(dòng)態(tài)變化的(比如風(fēng)能在夏季發(fā)電效率高,冬季則下降),為了保持整個(gè)電網(wǎng)的供需平衡,這個(gè)賽道對(duì)決策系統(tǒng)在不同能源比例下的自動(dòng)適應(yīng)能力有很高的要求。
電網(wǎng)調(diào)度系列賽事。
競(jìng)賽結(jié)果
從官方榜單中可以看到,百度 PARL 團(tuán)隊(duì)拿下了兩個(gè)賽道的冠軍,在比賽階段的公榜以及評(píng)估階段的私榜上都名列第一,體現(xiàn)了強(qiáng)大的技術(shù)能力,以及針對(duì)實(shí)際場(chǎng)景的技術(shù)實(shí)用性。
百度 PARL 拿下電網(wǎng)調(diào)度大賽雙料冠軍。
冠軍方案:融合專家知識(shí)的大規(guī)模進(jìn)化神經(jīng)網(wǎng)絡(luò)
在參賽過(guò)程中,百度 PARL 團(tuán)隊(duì)注意到專家系統(tǒng)方案以及純強(qiáng)化學(xué)習(xí)方案很難解決這次的挑戰(zhàn)。傳統(tǒng)的專家系統(tǒng)解決方案主要是利用專家先驗(yàn)知識(shí)進(jìn)行候選動(dòng)作的篩選,然后根據(jù)電網(wǎng)系統(tǒng)的預(yù)仿真(simulate)功能來(lái)評(píng)估不同動(dòng)作給電網(wǎng)系統(tǒng)帶來(lái)的影響,這種方案需要有一定的專家經(jīng)驗(yàn),并且存在搜索耗時(shí)長(zhǎng)和無(wú)法考慮長(zhǎng)遠(yuǎn)收益等缺點(diǎn)。純強(qiáng)化學(xué)習(xí)方案雖然可以考慮長(zhǎng)遠(yuǎn)收益,但在大規(guī)模電網(wǎng)調(diào)度場(chǎng)景中,動(dòng)作空間復(fù)雜,電網(wǎng)系統(tǒng)運(yùn)行過(guò)程中不確定性大,這個(gè)方案存在探索難度大和價(jià)值函數(shù)訓(xùn)練方差大等問(wèn)題,很難在數(shù)萬(wàn)個(gè)候選動(dòng)作中直接選擇一個(gè)最優(yōu)動(dòng)作。
百度 PARL 團(tuán)隊(duì)提出了一種融合專家系統(tǒng)和強(qiáng)化學(xué)習(xí)兩者優(yōu)點(diǎn)的解決方案:融合專家知識(shí)的大規(guī)模進(jìn)化神經(jīng)網(wǎng)絡(luò),該方案首先采用模仿學(xué)習(xí)(Imitation learning)來(lái)學(xué)習(xí)專家知識(shí),得到一個(gè)用神經(jīng)網(wǎng)絡(luò)表示的策略之后,通過(guò)進(jìn)化算法迭代這個(gè)策略。需要注意的是,一般強(qiáng)化學(xué)習(xí)算法是每次采樣一個(gè)動(dòng)作然后根據(jù)反饋(reward)進(jìn)行更新,在該方案的進(jìn)化算法中,每次會(huì)采樣多個(gè)動(dòng)作(動(dòng)作組合)進(jìn)行優(yōu)化。當(dāng)選出動(dòng)作組合之后,后續(xù)的策略依然可以拼接多種專家經(jīng)驗(yàn),選出更優(yōu)的動(dòng)作。得益于進(jìn)化算法的黑盒優(yōu)化特點(diǎn),整個(gè)策略可以直接把電網(wǎng)平穩(wěn)運(yùn)行時(shí)長(zhǎng)作為反饋來(lái)更新策略。這個(gè)解決方案不僅可以克服強(qiáng)化學(xué)習(xí)選擇單一動(dòng)作風(fēng)險(xiǎn)高的問(wèn)題,還可以考慮電網(wǎng)系統(tǒng)的長(zhǎng)期獎(jiǎng)勵(lì),有利于尋找維持電網(wǎng)系統(tǒng)穩(wěn)定運(yùn)行的最優(yōu)解。
大規(guī)模進(jìn)化算法圖示。
在大規(guī)模進(jìn)化訓(xùn)練過(guò)程中,百度利用 PARL 高性能并行框架同時(shí)在上千 CPU 上對(duì)近 500 萬(wàn)參數(shù)的較大規(guī)模神經(jīng)網(wǎng)絡(luò)進(jìn)行進(jìn)化學(xué)習(xí)。在此過(guò)程中,需要先對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行不同的高斯噪聲擾動(dòng),然后將擾動(dòng)后網(wǎng)絡(luò)作為專家系統(tǒng)新的動(dòng)作打分模型,分別和電網(wǎng)系統(tǒng)進(jìn)行交互,并計(jì)算噪聲擾動(dòng)后網(wǎng)絡(luò)相比原始網(wǎng)絡(luò)在電網(wǎng)系統(tǒng)中的平穩(wěn)運(yùn)行時(shí)長(zhǎng)增益,作為該采樣噪聲的獎(jiǎng)勵(lì);最后,整合不同噪聲方向的獎(jiǎng)勵(lì)來(lái)決定下一輪網(wǎng)絡(luò)參數(shù)的進(jìn)化方向。據(jù)悉,一個(gè)這樣的電網(wǎng)調(diào)度打分模型需要進(jìn)行 60 萬(wàn)個(gè) episode 迭代, 合計(jì)總的電網(wǎng)模擬時(shí)長(zhǎng)一萬(wàn)多年,包含 10 億多步探索。而這些僅僅需要 10 個(gè)小時(shí)左右的時(shí)間就能完成。
奪冠背后:飛槳強(qiáng)化學(xué)習(xí)框架 PARL 加持
PARL 是基于百度飛槳深度學(xué)習(xí)平臺(tái)(PaddlePaddle)自主研發(fā)的強(qiáng)化學(xué)習(xí)框架,匯聚了百度多年來(lái)在強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)深耕和產(chǎn)品應(yīng)用經(jīng)驗(yàn)。PARL 采用模塊式的編碼設(shè)計(jì),已復(fù)現(xiàn)的算法覆蓋了包括 Multi-gent、Model-based、Evolution Strategy 和 Distributed RL 等不同方向的主流強(qiáng)化學(xué)習(xí)算法。除了強(qiáng)可擴(kuò)展性和高質(zhì)量算法復(fù)現(xiàn),PARL 框架更提供了高性能且便捷靈活的并行支持能力。開(kāi)發(fā)者只需要通過(guò)數(shù)行代碼和命令就能搭建起集群,并行調(diào)度資源,低成本地實(shí)現(xiàn)數(shù)百倍的性能加速。正是基于這樣的能力,PARL 團(tuán)隊(duì)連續(xù)拿下了 NeurIPS 2018/2019 仿生人 Learning To Run 挑戰(zhàn)和 NeurIPS 2020 L2RPN 挑戰(zhàn)三連冠。
PARL 框架概覽。
據(jù)悉,PARL 框架已經(jīng)應(yīng)用在信息流推薦、智能打車、智能機(jī)器人等多個(gè)行業(yè)領(lǐng)域,也將致力于把強(qiáng)化學(xué)習(xí)運(yùn)用在能源調(diào)度、供應(yīng)鏈和交通等更多場(chǎng)景,將強(qiáng)化學(xué)習(xí)獨(dú)有的決策能力賦予到各行各業(yè)。
開(kāi)源鏈接:https://github.com/PaddlePaddle/PARL
競(jìng)賽地址:https://l2rpn.chalearn.org/competitions