文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2020.06.001
引用格式: 郭瑝清,陳鋒. 干線動(dòng)態(tài)協(xié)調(diào)控制的深度Q網(wǎng)絡(luò)方法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(6):1-6.
隨著城市人口的增多與經(jīng)濟(jì)的快速發(fā)展,我國(guó)汽車(chē)保有量不斷增長(zhǎng),城市交通擁堵問(wèn)題日益嚴(yán)峻。而城市交通干線是城市交通的動(dòng)脈,實(shí)現(xiàn)干線各交叉口間交通信號(hào)的動(dòng)態(tài)協(xié)調(diào),有效地疏導(dǎo)干線車(chē)輛,對(duì)于緩解城市交通擁堵具有重要意義。
目前,城市主干道多交叉口的協(xié)調(diào)控制,主要采用Maxband和Multiband法以及圖解法、數(shù)解法等綠波方法。LITTLE J D C等人最早提出最大綠波帶寬Maxband模型;GARTNER N H等人在Maxband模型的基礎(chǔ)上,提出復(fù)合綠波帶寬Multiband模型;陳昕等人對(duì)圖解法進(jìn)行了優(yōu)化,基于綠波帶的中心線交點(diǎn),設(shè)計(jì)了一種新的雙向綠波圖解法;盧凱等人[在綠燈中心點(diǎn)型雙向綠波協(xié)調(diào)設(shè)計(jì)數(shù)解法的基礎(chǔ)上,建立了一種綠燈終點(diǎn)型的雙向綠波數(shù)解法,從而減少了干線車(chē)隊(duì)的延誤時(shí)間;曲大義等人在綠波協(xié)調(diào)中考慮了公交車(chē)輛的影響,并通過(guò)增加綠信比與對(duì)公交車(chē)輛適當(dāng)?shù)奶崴?,進(jìn)一步提升了交叉口的通行效率。
現(xiàn)有的綠波方法難以準(zhǔn)確地描述復(fù)雜的城市干線交通流狀態(tài),且采用靜態(tài)的控制模式,無(wú)法有效地協(xié)調(diào)時(shí)變的干線交通流。隨著人工智能的不斷發(fā)展,采用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)城市交通信號(hào)優(yōu)化控制已成為研究的熱點(diǎn)。HA-LI P等人為提高交叉口通行能力,提出了一種基于深度強(qiáng)化學(xué)習(xí)算法的單交叉口信號(hào)優(yōu)化控制方法;GAO J等人提出一種深度強(qiáng)化學(xué)習(xí)算法,從實(shí)時(shí)的交通流數(shù)據(jù)中自動(dòng)提取有用特征,實(shí)現(xiàn)單交叉口交通流的自適應(yīng)控制,并采用經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)技術(shù),提高了算法的穩(wěn)定性;LI C C等人為提高城市路網(wǎng)通行能力,提出了一種用于區(qū)域交叉口交通信號(hào)控制的深度強(qiáng)化學(xué)習(xí)算法,通過(guò)多智能體學(xué)習(xí)最佳的交通信號(hào)控制策略;VAN DER POL E采用Max-plus算法和基于深度強(qiáng)化學(xué)習(xí)的多智能體方法,實(shí)現(xiàn)城市交通區(qū)域協(xié)調(diào)控制。
在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,目前對(duì)于城市交通信號(hào)控制的研究,多以單交叉口為研究對(duì)象,而對(duì)于多交叉口的協(xié)調(diào)處理,普遍采用多智能體的協(xié)調(diào)控制。本文結(jié)合了雙重深度Q網(wǎng)絡(luò)(Double Deep Q Network,Double DQN)與基于競(jìng)爭(zhēng)架構(gòu)深度Q網(wǎng)絡(luò)(Dueling Deep Q Network,Dueling DQN),設(shè)計(jì)了基于DDDQN(Dueling Double Deep Q Network,DDDQN)的干線動(dòng)態(tài)協(xié)調(diào)控制算法。通過(guò)將干線多交叉口的交通信號(hào)作為一個(gè)整體進(jìn)行處理,相比于采用多智能體協(xié)調(diào)控制,減輕了智能體間通信協(xié)調(diào)的負(fù)擔(dān),且智能體通過(guò)獲取多交叉口的實(shí)時(shí)狀態(tài),掌握干線全局信息,并使用Dueling DQN網(wǎng)絡(luò)結(jié)構(gòu)模型,能更充分地發(fā)揮網(wǎng)絡(luò)提取干線交通流特征的能力,挖掘出多交叉口間協(xié)調(diào)控制的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,本文方法相比于現(xiàn)有綠波方法、經(jīng)典的深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)、以及Double DQN與Dueling DQN,能夠更有效地降低城市主干道的車(chē)均延誤和車(chē)輛的停車(chē)次數(shù)等重要的交通評(píng)價(jià)指標(biāo)。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003143
作者信息:
郭瑝清1,陳 鋒1,2
(1.中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230027;
2.安徽中科龍安科技股份有限公司,安徽 合肥230088)