文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.06.001
引用格式: 郭瑝清,陳鋒. 干線動態(tài)協(xié)調(diào)控制的深度Q網(wǎng)絡方法[J].信息技術(shù)與網(wǎng)絡安全,2020,39(6):1-6.
隨著城市人口的增多與經(jīng)濟的快速發(fā)展,我國汽車保有量不斷增長,城市交通擁堵問題日益嚴峻。而城市交通干線是城市交通的動脈,實現(xiàn)干線各交叉口間交通信號的動態(tài)協(xié)調(diào),有效地疏導干線車輛,對于緩解城市交通擁堵具有重要意義。
目前,城市主干道多交叉口的協(xié)調(diào)控制,主要采用Maxband和Multiband法以及圖解法、數(shù)解法等綠波方法。LITTLE J D C等人最早提出最大綠波帶寬Maxband模型;GARTNER N H等人在Maxband模型的基礎(chǔ)上,提出復合綠波帶寬Multiband模型;陳昕等人對圖解法進行了優(yōu)化,基于綠波帶的中心線交點,設(shè)計了一種新的雙向綠波圖解法;盧凱等人[在綠燈中心點型雙向綠波協(xié)調(diào)設(shè)計數(shù)解法的基礎(chǔ)上,建立了一種綠燈終點型的雙向綠波數(shù)解法,從而減少了干線車隊的延誤時間;曲大義等人在綠波協(xié)調(diào)中考慮了公交車輛的影響,并通過增加綠信比與對公交車輛適當?shù)奶崴?,進一步提升了交叉口的通行效率。
現(xiàn)有的綠波方法難以準確地描述復雜的城市干線交通流狀態(tài),且采用靜態(tài)的控制模式,無法有效地協(xié)調(diào)時變的干線交通流。隨著人工智能的不斷發(fā)展,采用深度強化學習實現(xiàn)城市交通信號優(yōu)化控制已成為研究的熱點。HA-LI P等人為提高交叉口通行能力,提出了一種基于深度強化學習算法的單交叉口信號優(yōu)化控制方法;GAO J等人提出一種深度強化學習算法,從實時的交通流數(shù)據(jù)中自動提取有用特征,實現(xiàn)單交叉口交通流的自適應控制,并采用經(jīng)驗回放和目標網(wǎng)絡技術(shù),提高了算法的穩(wěn)定性;LI C C等人為提高城市路網(wǎng)通行能力,提出了一種用于區(qū)域交叉口交通信號控制的深度強化學習算法,通過多智能體學習最佳的交通信號控制策略;VAN DER POL E采用Max-plus算法和基于深度強化學習的多智能體方法,實現(xiàn)城市交通區(qū)域協(xié)調(diào)控制。
在深度強化學習領(lǐng)域,目前對于城市交通信號控制的研究,多以單交叉口為研究對象,而對于多交叉口的協(xié)調(diào)處理,普遍采用多智能體的協(xié)調(diào)控制。本文結(jié)合了雙重深度Q網(wǎng)絡(Double Deep Q Network,Double DQN)與基于競爭架構(gòu)深度Q網(wǎng)絡(Dueling Deep Q Network,Dueling DQN),設(shè)計了基于DDDQN(Dueling Double Deep Q Network,DDDQN)的干線動態(tài)協(xié)調(diào)控制算法。通過將干線多交叉口的交通信號作為一個整體進行處理,相比于采用多智能體協(xié)調(diào)控制,減輕了智能體間通信協(xié)調(diào)的負擔,且智能體通過獲取多交叉口的實時狀態(tài),掌握干線全局信息,并使用Dueling DQN網(wǎng)絡結(jié)構(gòu)模型,能更充分地發(fā)揮網(wǎng)絡提取干線交通流特征的能力,挖掘出多交叉口間協(xié)調(diào)控制的相關(guān)性。實驗結(jié)果表明,本文方法相比于現(xiàn)有綠波方法、經(jīng)典的深度Q網(wǎng)絡(Deep Q Network,DQN)、以及Double DQN與Dueling DQN,能夠更有效地降低城市主干道的車均延誤和車輛的停車次數(shù)等重要的交通評價指標。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000003143
作者信息:
郭瑝清1,陳 鋒1,2
(1.中國科學技術(shù)大學 信息科學技術(shù)學院,安徽 合肥230027;
2.安徽中科龍安科技股份有限公司,安徽 合肥230088)