文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場景下基于深度強化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,41(6):43-49.
0 引言
目前我國交通環(huán)境日益復(fù)雜,現(xiàn)有交通體系的服務(wù)能力難以滿足城市居民的出行期望,城市面臨日益嚴峻的交通管理挑戰(zhàn)。研究者們希望借助交通數(shù)字孿生技術(shù),通過數(shù)據(jù)驅(qū)動、精準建模,實現(xiàn)交通的模擬、預(yù)測診斷和優(yōu)化[1]。然而在交通仿真模擬層次,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實交通的多變狀況。在人-車-路的核心體系中,天氣氣候、交通管制、突發(fā)事故等影響因子將時刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。
在當前的交通數(shù)字孿生系統(tǒng)中,現(xiàn)有的路徑分配方法主要分為兩類,第一類為用于實現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改進算法等,本質(zhì)為基于圖論中重要的最短路徑問題所提出的各種方案,也即在一個加權(quán)有向圖中,按一定要求尋找一條權(quán)重總和最短的路徑[3]。如Xu[4]等基于二叉樹結(jié)構(gòu),通過雙向搜索方法加快搜索效率,作為A-Star改進算法;Lee[5]等基于遺傳算法實現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時,該類算法難以做出及時反饋。如果需要滿足動態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃機制。第二類指的是通過機器學(xué)習(xí)、時空神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等技術(shù)來實現(xiàn)路徑分配。這一類更加強調(diào)數(shù)據(jù)的搜集、分析和處理,通過提取海量歷史數(shù)據(jù)的價值信息,為解決路徑規(guī)劃問題提供了一個新的思路[6]。
本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強化學(xué)習(xí)的感知型路徑分配算法,首先通過改進版Dijkstra算法為所有車輛分配初始路徑,路網(wǎng)中的車輛在不斷感知當前位置、行駛軌跡以及目標路網(wǎng)中各路段的車流等信息后,通過DDQN(Double DQN)將自動選擇是否重新進行全局的路徑規(guī)劃,實現(xiàn)路徑更新。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,本文提出的規(guī)劃方案填補了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,同時基于強化學(xué)習(xí)模型在長期收益方面的優(yōu)越性,本文模型更加滿足路徑分配模型對當今城市路網(wǎng)交通出行的各種需求。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004534
作者信息:
曹 歡
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥230026)