文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.01.024
中文引用格式: 朱江,陳紅翠,熊加毫. 基于賭博機(jī)模型的非時(shí)隙信道選擇機(jī)制[J].電子技術(shù)應(yīng)用,2016,42(1):91-94.
英文引用格式: Zhu Jiang,Chen Hongcui,Xiong Jiahao. A selection mechanism of un-slotted channel based on multi-armed bandit[J].Application of Electronic Technique,2016,42(1):91-94.
0 引言
隨著無線網(wǎng)絡(luò)飛速發(fā)展和頻譜資源需求劇增,以及無線環(huán)境逐步變復(fù)雜,使得無線網(wǎng)絡(luò)系統(tǒng)中的非授權(quán)用戶想要獲得完整的網(wǎng)絡(luò)環(huán)境的參數(shù)信息變得愈加困難。因此,對(duì)于非完全信息以致未知環(huán)境無線網(wǎng)絡(luò)中的資源分配問題的研究已經(jīng)成為解決當(dāng)前網(wǎng)絡(luò)困境的主要研究方向之一。目前主要應(yīng)用于未知網(wǎng)絡(luò)環(huán)境下資源分配的理論是部分可觀測(cè)馬爾科夫(Partially Observable Markov Decision Process,POMDP)以及隱馬爾科夫模型(Hidden Markov Model,HMM)。文獻(xiàn)[1]中將網(wǎng)絡(luò)環(huán)境搭建為未知環(huán)境情形,首先通過最大似然算法實(shí)現(xiàn)網(wǎng)絡(luò)中信道使用情形的預(yù)測(cè),然后借助POMDP模型實(shí)現(xiàn)了網(wǎng)絡(luò)系統(tǒng)中多信道接入問題。文獻(xiàn)[2]為基于未知信息環(huán)境認(rèn)知網(wǎng)絡(luò)中頻譜分配問題,使用Q學(xué)習(xí)算法機(jī)會(huì)式頻譜接入的研究。文獻(xiàn)[5]將POMDP模型與Q學(xué)習(xí)算法相結(jié)合構(gòu)建了分布式認(rèn)知網(wǎng)絡(luò)中的MAC協(xié)議,使網(wǎng)絡(luò)系統(tǒng)中的信道資源得以合理、有效的利用。
現(xiàn)今基于RMAB或者M(jìn)AB模型的無線資源分配方法存在兩方面局限性:一是對(duì)于復(fù)雜型網(wǎng)絡(luò)系統(tǒng)研究較少,尤其是信道模型大多只采用簡(jiǎn)單的0-1模型進(jìn)行研究;二是對(duì)于存在條件限制的MAB模型研究較少。因此,本文采用了不分時(shí)隙的ON-OFF信道模型,并考慮了系統(tǒng)內(nèi)的干擾限制以及認(rèn)知用戶的感知誤差等因素,然后借助Q學(xué)習(xí)算法實(shí)現(xiàn)Gittins索引值算法的求解。最后,通過仿真實(shí)驗(yàn)驗(yàn)證了提出的信道選擇機(jī)制的合理性以及優(yōu)越性。
1 系統(tǒng)模型
1.1 信道模型
假設(shè)由N個(gè)獨(dú)立的認(rèn)知用戶組成一個(gè)認(rèn)知無線網(wǎng)絡(luò),且每個(gè)用戶均不知其他用戶的存在。在此網(wǎng)絡(luò)中所有的用戶共用M個(gè)信道,并且在無線網(wǎng)絡(luò)環(huán)境中,由于衰落、干擾以及用戶地理位置的差異導(dǎo)致不同信道對(duì)同一用戶的質(zhì)量不相同。信道的質(zhì)量矩陣表示為用戶集合N={1,…,N},信道集合表示為M={1,…,M},且1≤M≤N。信道的ON狀態(tài)和OFF狀態(tài)交替出現(xiàn),并且分別服從均值為
的指數(shù)分布,信道間相互獨(dú)立,主用戶占用信道的平均概率則可以表示為:P0=μi/(λi+μi),信道空閑的平均概率則為:P1=λi/(λi+μi)。
信道模型和感知模型如圖1所示,設(shè)時(shí)隙長度為T,感知模塊的時(shí)間為τ。為方便展示,圖中只描述了一個(gè)認(rèn)知用戶的感知情形。
假設(shè)認(rèn)知用戶采用能量感知形式進(jìn)行信道可用性感知。認(rèn)知用戶感知階段接收到的信道表示為:
H1:y(t)=u(t)
H0:y(t)=u(t)+s(t)
H0表示為主用戶占用信道,H1表示信道空閑狀態(tài),u(t)和s(t)分別為噪聲與主用戶信號(hào)的抽樣值,并且彼此相互獨(dú)立。能量檢測(cè)表示為:
1.2 效用函數(shù)
系統(tǒng)的值函數(shù)表示為:
其中ωn,i(t)表示當(dāng)前信道空閑的概率,Bn,i表示用戶n使用信道i時(shí)的信道帶寬,(T-τ)表示信道空閑時(shí)認(rèn)知用戶傳輸?shù)臅r(shí)間長度,ωn,i(t)exp(-λiT)表示信道空閑且時(shí)間持續(xù)為 T的概率。在此需要針對(duì)不同的用戶找到相應(yīng)的最優(yōu)策略ρ*:
1.3 干擾概率
因?yàn)檎J(rèn)知用戶對(duì)網(wǎng)絡(luò)環(huán)境中主用戶的行為是未知的,且信道狀態(tài)在感知階段不發(fā)生變化,只在認(rèn)知用戶傳輸階段改變。則有感知階段信道狀態(tài)為0,且持續(xù)時(shí)間T的概率為:
2 信道參數(shù)學(xué)習(xí)算法
圖2所描述的是認(rèn)知用戶節(jié)點(diǎn)的不規(guī)則采樣圖。
將連續(xù)時(shí)間馬爾科夫鏈的參數(shù)估計(jì)問題轉(zhuǎn)換為離散時(shí)間的馬爾科夫參數(shù)估計(jì)問題,然后采用最大期望算法(Expectation-Maximization Algorithm,EMA)實(shí)現(xiàn)參數(shù)估計(jì)。
其中表示在采樣時(shí)間間隔sk-sk-1內(nèi)采樣值由zk-1無間隔轉(zhuǎn)變?yōu)閦k的概率。假設(shè)S表示在采樣空間中所有采樣間隔的總個(gè)數(shù),Oijt表示經(jīng)過t個(gè)時(shí)間間隔后所觀測(cè)的數(shù)據(jù)中從狀態(tài)i轉(zhuǎn)變?yōu)閖的次數(shù),(Pt)ij表示矩陣(Pt)中第i行第j列元素。所以估計(jì)矩陣的近似表示也可以寫成:
由對(duì)數(shù)公式可知,如果S=1則轉(zhuǎn)移矩陣估計(jì)可以直接由數(shù)學(xué)公式求出,但是在本系統(tǒng)中使用的S遠(yuǎn)遠(yuǎn)大于1,所以提出使用EMA算法實(shí)現(xiàn)轉(zhuǎn)移矩陣的估計(jì)。
假定第l次的E步操作中獲得P的對(duì)數(shù)似然估計(jì)值表示為P(l),此時(shí)的采樣值(非完全數(shù)據(jù))仍表示為Z,Y為未完全觀測(cè)值Z構(gòu)建的一個(gè)完全的數(shù)據(jù)陣,則在l+1次的E步操作中的計(jì)算表示為:
綜上可知,通過已知的未完全觀測(cè)數(shù)據(jù)以及設(shè)定初始的轉(zhuǎn)移矩陣P(0)、算法收斂條件ε,然后經(jīng)過式(13)和式(14)不斷迭代直至最終收斂,可得出轉(zhuǎn)移矩陣的估計(jì)值P。
3 基于Q學(xué)習(xí)算法Gittins索引值計(jì)算
具體的Q學(xué)習(xí)算法的操作步驟如下:
(1)初始化用戶的Qn=(si,t,an,i,t)=0;
(2)每個(gè)用戶在時(shí)隙感知階段以概率Pt(n,i)隨機(jī)地選擇所要感知的信道,其中:
其中T表示波爾茲曼干擾溫度系數(shù)。
根據(jù)文獻(xiàn)[8]提出的結(jié)論,可以得出此過程中狀態(tài)x的Gittins索引值為:
(3)用戶n以Pt(n,i)的概率的大小排序各個(gè)信道并從中選擇一個(gè)或者多個(gè)信道進(jìn)行感知,根據(jù)感知結(jié)果用戶制定相應(yīng)的行為策略去更新不同行為下的Qn(si,t,an,i,t),計(jì)算信道在不同行為下的Gittins索引值,并選擇對(duì)其中索引值最大的一個(gè)或者多個(gè)信道進(jìn)行接入、傳輸數(shù)據(jù),然后根據(jù)立即回報(bào)值,更新各自的Q值:
其中,vni表示為用戶n對(duì)信道i的學(xué)習(xí)因子,其數(shù)學(xué)公式表示為:
ωn,i,t表示為用戶n對(duì)信道i空閑的信任概率值,其更新公式:
(4)如果對(duì)于任意的信道i(i∈M),有Pt(n,i)≥0.99,則此學(xué)習(xí)過程退出,否則繼續(xù)步驟(2),并以此進(jìn)行其后操作。
4 仿真分析
為驗(yàn)證本文提出的選擇機(jī)制的優(yōu)越性,設(shè)定了兩種常用算法進(jìn)行比較:?jiǎn)我坏腝學(xué)習(xí)算法選擇機(jī)制以及RMAB模型下常用的UCB算法。設(shè)定系統(tǒng)中信道數(shù)為10,用戶數(shù)為4,并且不同時(shí)隙用戶根據(jù)需求調(diào)整自己的選擇信道的數(shù)目,使得系統(tǒng)內(nèi)用戶能夠?qū)崿F(xiàn)多信道接入(考慮到實(shí)際系統(tǒng)條件限制,設(shè)定每個(gè)用戶最多選擇信道數(shù)位3)。信道參數(shù)T=0.25 s,τ=0.01,β=0.95,用戶數(shù)為3~15。
圖3顯示在用戶數(shù)為N=9時(shí),不同沖突約束、不同算法中用戶獲得平均吞吐量的變化。從圖中可以看出本文提出的信道選擇機(jī)制能夠很好地處理認(rèn)知用戶與主用戶之間的沖突,使網(wǎng)絡(luò)中各用戶之間充分的使用信道資源,實(shí)現(xiàn)系統(tǒng)通信量的提升。同時(shí),因?yàn)闆_突約束越小用戶選擇信道的概率越小致使信道使用不充分,隨著沖突約束的提升在保證用戶選擇的同時(shí)能夠有效的避免與主用戶的沖突,所以取15%作為系統(tǒng)沖突的限制,既能夠保證認(rèn)知用戶選擇,同時(shí)又能不對(duì)主用戶通信造成干擾。
圖4顯示了不同算法中采用不同認(rèn)知用戶數(shù)時(shí)系統(tǒng)內(nèi)信道利用率的變化,從圖中可以看出本文提出的算法能夠取得很好的信道利用率。隨著認(rèn)知用戶的不斷增大,當(dāng)用戶數(shù)超過系統(tǒng)承受能力之后系統(tǒng)中認(rèn)知用戶之間會(huì)產(chǎn)生沖突,同時(shí)用戶通信需求的擴(kuò)大也會(huì)對(duì)主用戶的通信造成影響,致使系統(tǒng)內(nèi)信道使用率會(huì)有一定下降。
圖5顯示的是在系統(tǒng)中干擾限制以認(rèn)知用戶數(shù)目固定的條件下(N=9,Imax=0.20),隨著系統(tǒng)中信道數(shù)的變化,認(rèn)知用戶與主用戶產(chǎn)生干擾沖突的變化情況。從圖中可以看出,本文提出的機(jī)制能夠在較小范圍內(nèi)控制認(rèn)知用戶的信道選擇,盡量避免與主用戶的通信產(chǎn)生干擾,從圖中可以看出隨著系統(tǒng)中信道數(shù)目的增大,認(rèn)知用戶對(duì)主用戶的干擾逐漸減小,也就是系統(tǒng)中認(rèn)知用戶選擇信道的范圍增大,選擇空閑信道的概率增大。
5 結(jié)論
本文中應(yīng)用RMAB模型來搭建未知信息參數(shù)的網(wǎng)絡(luò)系統(tǒng),然后通過EMA算法實(shí)現(xiàn)用戶對(duì)系統(tǒng)內(nèi)信道使用情形的初步學(xué)習(xí),然后借助Q學(xué)習(xí)算法實(shí)現(xiàn)了RMAB模型下的Gittins索引值求解,制定出了認(rèn)知用戶的信道選擇策略,同時(shí)又能通過不斷學(xué)習(xí)更新自身策略,最終實(shí)現(xiàn)系統(tǒng)內(nèi)信道資源的充分使用,以及保證認(rèn)知用戶對(duì)主用戶通信干擾的可控性。最終,仿真實(shí)驗(yàn)從多方面證明本文提出的選擇機(jī)制能夠很好地提高系統(tǒng)通信容量,使未知環(huán)境中的信道利用率得到明顯提升。
參考文獻(xiàn)
[1] Gao Yang,Wang Yiming.Multi-channel access algorithm with channel state information unknown[C].Intelligent Computation Technology and Automation(ICICTA),2012 Fifth International Conference on.IEEE,2012:427-430.
[2] 張凱,李鷗,楊白薇.基于Q-learning的機(jī)會(huì)頻譜接入信道選擇算法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(5):1467-1470.
[3] 劉振坤,鮮永菊.認(rèn)知網(wǎng)絡(luò)中基于競(jìng)價(jià)模型的頻譜分配研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(3).
[4] Raschellà A,Pérez-Romero J,Sallent O,et al.On the use of POMDP for spectrum selection in cognitive radio networks[C].Cognitive Radio Oriented Wireless Networks(CROWNCOM),2013 8th International Conference on.IEEE,2013:19-24.
[5] LAN Z,JIANG H,WU X.Decentralized cognitive MAC protocol design based on POMDP and Q-Learning[C].IEEE International ICST Conference on Communication and Networking.2012:548-551.
[6] LAZAR N A.Statistical analysis with missing data[J].Technometrics,2003,45(4):364-365.
[7] GITTINS J,GLAZEBROOK K,WEBER R.Multi-armed bandit allocation indices[M].John Wiley & Sons,2011.
[8] CHAKRAVORTY J,MAHAJAN A.Multi-armed bandits,gittins index,and its calculation[J].Methods and Applications of Statistics in Clinical Trials:Planning,Analysis,and Inferential Methods,2013(2):416-435.