| 聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法 | |
| 所屬分類:技術(shù)論文 | |
| 上傳者:zhoubin333 | |
| 文檔大?。?span>679 K | |
| 標(biāo)簽: 強(qiáng)化學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 探索利用困境 | |
| 所需積分:0分積分不夠怎么辦? | |
| 文檔介紹: 目前深度強(qiáng)化學(xué)習(xí)算法已經(jīng)可以解決許多復(fù)雜的任務(wù),然而如何平衡探索和利用的關(guān)系仍然是強(qiáng)化學(xué)習(xí)領(lǐng)域的一個基本的難題,為此提出一種聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法。該方法利用隨機(jī)性策略具有探索能力的特點,用隨機(jī)性策略生成的經(jīng)驗樣本訓(xùn)練確定性策略,鼓勵確定性策略在保持自身優(yōu)勢的前提下學(xué)會探索。通過結(jié)合確定性策略算法DDPG和提出的探索方法,得到基于隨機(jī)性策略指導(dǎo)的確定性策略梯度算法(SGDPG)。在多個復(fù)雜環(huán)境下的實驗表明,面對探索問題,SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法。 | |
| 現(xiàn)在下載 | |
| VIP會員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 | |
Copyright ? 2005-2024 華北計算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2