文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.183086
中文引用格式: 王舒平,張毅,韋文聞,等. 內(nèi)容分發(fā)網(wǎng)絡(luò)預(yù)取技術(shù)綜述[J].電子技術(shù)應(yīng)用,2019,45(4):23-28.
英文引用格式: Wang Shuping,Zhang Yi,Wei Wenwen,et al. Overview of prefetching technology in content deliver networks[J]. Application of Electronic Technique,2019,45(4):23-28.
0 引言
隨著互聯(lián)技術(shù)的發(fā)展,各類創(chuàng)新型應(yīng)用如雨后春筍般涌現(xiàn),以文件傳輸、視頻會(huì)議等為代表業(yè)務(wù)顯著提高了企業(yè)工作效率,網(wǎng)絡(luò)視頻直播、網(wǎng)上購(gòu)物等熱點(diǎn)業(yè)務(wù)使人們的生活變得豐富、便捷[1]。由于智能終端的不斷普及,互聯(lián)網(wǎng)已成為現(xiàn)代人來(lái)獲取信息和信息分享的重要途徑,Web及流媒體業(yè)務(wù)用量爆炸式增長(zhǎng),網(wǎng)絡(luò)中服務(wù)器的負(fù)荷加重問(wèn)題和網(wǎng)絡(luò)流量擁塞問(wèn)題日益嚴(yán)峻。
大規(guī)模的用戶請(qǐng)求導(dǎo)致服務(wù)器負(fù)荷加重,成為網(wǎng)絡(luò)故障中的重要隱患,更有甚者它將會(huì)使服務(wù)器宕機(jī),產(chǎn)生拒絕服務(wù)現(xiàn)象,嚴(yán)重影響用戶體驗(yàn)質(zhì)量。此外,大規(guī)模請(qǐng)求會(huì)造成網(wǎng)絡(luò)擁塞,顯著增加用戶側(cè)內(nèi)容的獲取時(shí)延, 嚴(yán)重網(wǎng)絡(luò)擁塞將引發(fā)數(shù)據(jù)包的大量丟失,導(dǎo)致用戶訪問(wèn)失敗。為了解決上述問(wèn)題,研究者們提出了內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Deliver Network,CDN)。如圖1所示,CDN是由分布在網(wǎng)絡(luò)邊緣節(jié)點(diǎn)服務(wù)器構(gòu)成的一層智能虛擬網(wǎng),主要原理是將內(nèi)容副本緩存到靠近用戶端的節(jié)點(diǎn)服務(wù)器上,并根據(jù)實(shí)時(shí)網(wǎng)絡(luò)情況把原始服務(wù)器的用戶請(qǐng)求重定向至距離用戶就近狀態(tài)最佳的節(jié)點(diǎn)服務(wù)器,使用戶可以就近獲取所需內(nèi)容,從而有效地緩解由大量遠(yuǎn)程訪問(wèn)引起的骨干網(wǎng)流量擁塞[2]。
在CDN中,緩存技術(shù)[3]是保證用戶請(qǐng)求加速的一項(xiàng)關(guān)鍵技術(shù),但就CDN本身而言,節(jié)點(diǎn)處的內(nèi)容緩存主要由用戶驅(qū)動(dòng),即當(dāng)有用戶請(qǐng)求內(nèi)容時(shí),節(jié)點(diǎn)服務(wù)器里沒(méi)有該內(nèi)容,節(jié)點(diǎn)服務(wù)器向內(nèi)容源服務(wù)器獲取該請(qǐng)求內(nèi)容,在發(fā)給用戶的同時(shí),將該內(nèi)容保存在節(jié)點(diǎn)服務(wù)器中,為未來(lái)相同的請(qǐng)求提供服務(wù)。本質(zhì)上,該技術(shù)所采用的是一種被動(dòng)緩存方式。在網(wǎng)絡(luò)終端不斷普及的趨勢(shì)下,這種被動(dòng)式內(nèi)容存儲(chǔ)將無(wú)法滿足互聯(lián)網(wǎng)流量爆炸式增長(zhǎng)的需求,典型地引發(fā)下述問(wèn)題:(1)緩存具有滯后性,即服務(wù)器節(jié)點(diǎn)無(wú)法預(yù)測(cè)內(nèi)容的流行趨勢(shì),內(nèi)容緩存滯后于潛在的用戶需求;(2)節(jié)點(diǎn)處緩存空間利用率低,尤其是在節(jié)點(diǎn)服務(wù)器處用戶請(qǐng)求較少的情況下,由用戶驅(qū)動(dòng)的被動(dòng)緩存將使服務(wù)器節(jié)點(diǎn)僅緩存有限的請(qǐng)求內(nèi)容,致使節(jié)點(diǎn)處存在大量閑置緩存空間。為提升節(jié)點(diǎn)服務(wù)器上的緩存空間利用率以及提供更好的服務(wù)質(zhì)量,眾多研究者提出在CDN節(jié)點(diǎn)處引入預(yù)取技術(shù)[4]。CDN預(yù)取技術(shù)是對(duì)其緩存的補(bǔ)充,核心思想是由節(jié)點(diǎn)服務(wù)器預(yù)先主動(dòng)從內(nèi)容源服務(wù)器處獲取部分內(nèi)容,以期加速用戶對(duì)于內(nèi)容的獲取。預(yù)取技術(shù)的引入,使得服務(wù)器節(jié)點(diǎn)可以先驗(yàn)地緩存部分內(nèi)容,解決了因無(wú)法預(yù)測(cè)網(wǎng)絡(luò)中內(nèi)容流行趨勢(shì)所導(dǎo)致的緩存滯后的問(wèn)題;此外,通過(guò)引入預(yù)取技術(shù),服務(wù)器節(jié)點(diǎn)可以預(yù)取部分流行度較高的內(nèi)容,避免節(jié)點(diǎn)處大量緩存空間閑置,使有限的網(wǎng)絡(luò)資源得到合理的利用。預(yù)取技術(shù)作為內(nèi)容分發(fā)中的關(guān)鍵技術(shù)在國(guó)內(nèi)外受到廣泛關(guān)注,眾多學(xué)者圍繞內(nèi)容流行度及用戶需求等對(duì)預(yù)取進(jìn)行了大量研究。
1 CDN預(yù)取分類
根據(jù)預(yù)取時(shí)關(guān)注的對(duì)象不同,將CDN預(yù)取分為面向內(nèi)容的預(yù)取和面向用戶的預(yù)取。面向內(nèi)容的預(yù)取依據(jù)網(wǎng)絡(luò)中內(nèi)容請(qǐng)求數(shù)量變化來(lái)進(jìn)行預(yù)取,稱之為基于流行度的預(yù)取。面向用戶的預(yù)取進(jìn)一步劃分為三類預(yù)取方式:第一類主要通過(guò)對(duì)用戶興趣進(jìn)行分析來(lái)決定預(yù)取的內(nèi)容,稱之為基于用戶偏好的預(yù)?。坏诙惛鶕?jù)用戶之間的社交關(guān)系來(lái)預(yù)測(cè)內(nèi)容的傳播趨勢(shì),并據(jù)此進(jìn)行內(nèi)容預(yù)取,將其定義為基于社交網(wǎng)絡(luò)的預(yù)取;第三類旨在通過(guò)研究用戶移動(dòng)性對(duì)節(jié)點(diǎn)服務(wù)器上緩存內(nèi)容流行度的影響來(lái)動(dòng)態(tài)調(diào)整內(nèi)容預(yù)取策略,稱之為基于移動(dòng)性的預(yù)取。
1.1 基于流行度的預(yù)取
大量統(tǒng)計(jì)表明:內(nèi)容的訪問(wèn)流行度分布符合zipf定律[5],即僅有近20%的內(nèi)容對(duì)象被超過(guò)80%的用戶訪問(wèn),這一現(xiàn)象反映了在網(wǎng)絡(luò)中不同內(nèi)容被用戶的訪問(wèn)分布情況。流行度被定義為統(tǒng)計(jì)時(shí)間段中內(nèi)容對(duì)象被訪問(wèn)的次數(shù)或概率來(lái)表示,在研究中,基于流行度的預(yù)取利用上述現(xiàn)象對(duì)流行度較高的內(nèi)容進(jìn)行預(yù)取[6]。在CDN中,一方面,不允許存儲(chǔ)新內(nèi)容時(shí),根據(jù)流行度來(lái)確定所需要?jiǎng)h除的內(nèi)容; 另一方面,根據(jù)流行度來(lái)選擇所要預(yù)取的具體內(nèi)容。基于流行度的預(yù)取是CDN中一種主流的內(nèi)容預(yù)取技術(shù),其關(guān)鍵在于內(nèi)容流行度的確定,目前常采用統(tǒng)計(jì)學(xué)、控制理論的預(yù)測(cè)方法,有指數(shù)平滑預(yù)測(cè)、多項(xiàng)式回歸預(yù)測(cè)及Savitzky-Golay濾波預(yù)測(cè)三種。
1.1.1 指數(shù)平滑預(yù)測(cè)
指數(shù)平滑預(yù)測(cè)是指采用指數(shù)平滑法(Exponential Smoothing,ES)對(duì)內(nèi)容流行度進(jìn)行預(yù)測(cè),由于每個(gè)內(nèi)容在其生命周期的早期和后期的流行度存在很強(qiáng)的相關(guān)性,指數(shù)平滑法已被廣泛地應(yīng)用于預(yù)測(cè)內(nèi)容未來(lái)的請(qǐng)求數(shù)量[7]。指數(shù)平滑法是在移動(dòng)平均法[8]基礎(chǔ)上發(fā)展起來(lái)的一種時(shí)間序列分析預(yù)測(cè)法,既可以同全期平均法一樣無(wú)遺漏地對(duì)歷史數(shù)據(jù)加以利用,又可以同加權(quán)移動(dòng)平均法一樣為近期數(shù)據(jù)賦予更大權(quán)重的熱點(diǎn)。指數(shù)平滑法兼容了全期平均和移動(dòng)平均的優(yōu)點(diǎn),在不舍棄歷史數(shù)據(jù)的情況下,僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠(yuǎn)離,賦予逐漸收斂為零的權(quán)數(shù);并且指數(shù)平滑法對(duì)不同時(shí)間訪問(wèn)量賦予的權(quán)值具有伸縮性,可以通過(guò)賦予不同平滑指數(shù)來(lái)更改權(quán)值的變化速度。
文獻(xiàn)[9]提出一次指數(shù)平滑(Single Exponential Smoothing,SES)和二次指數(shù)平滑(Second Exponential Smoothing,DES)來(lái)預(yù)測(cè)各個(gè)階段的內(nèi)容流行度,作者從YouTube以天為觀察單位提取每個(gè)內(nèi)容流行度從上傳到觀測(cè)時(shí)間結(jié)束的真實(shí)軌跡,在每個(gè)觀測(cè)單位分別采用SES和DES來(lái)根據(jù)觀測(cè)時(shí)間前的流行度從而預(yù)測(cè)當(dāng)前時(shí)間的流行度。
指數(shù)平滑預(yù)測(cè)法的優(yōu)點(diǎn)是僅需少量數(shù)據(jù)資料,便可預(yù)測(cè)出短期的內(nèi)容流行度值。但由于指數(shù)平滑法對(duì)近期數(shù)據(jù)所賦予的權(quán)重高,而對(duì)遠(yuǎn)期數(shù)據(jù)的參考性弱,無(wú)法對(duì)遠(yuǎn)期流行度進(jìn)行預(yù)測(cè),只能做短期的預(yù)測(cè)。
1.1.2 多項(xiàng)式回歸預(yù)測(cè)
在實(shí)際工作中,人們經(jīng)常采用多項(xiàng)式回歸模型來(lái)解釋自變量與因變量的相關(guān)關(guān)系[10]。多項(xiàng)式回歸預(yù)測(cè)通過(guò)多項(xiàng)式回歸法擬合內(nèi)容流行度隨時(shí)間變化的曲線,得到因變量?jī)?nèi)容流行度與自變量時(shí)間的變化函數(shù),這一模型可以表示為,流行度等于時(shí)間的各次項(xiàng)與對(duì)應(yīng)回歸系數(shù)的乘積之和。在擬合過(guò)程中,主要是通過(guò)增加時(shí)間變量的高次項(xiàng)推導(dǎo)出逼近真實(shí)的時(shí)間函數(shù),推導(dǎo)時(shí)主要是找到各次項(xiàng)的合適系數(shù)。
文獻(xiàn)[11]研究提出屬于同一類別的內(nèi)容具有相同的流行度隨時(shí)間變化的曲線相似,多項(xiàng)式回歸預(yù)測(cè)可以得到某一類內(nèi)容流行度隨時(shí)間變化的規(guī)律,因此該規(guī)律可以用于該類內(nèi)容流行度的長(zhǎng)期和短期預(yù)測(cè)。
1.1.3 Savitzky-Golay濾波預(yù)測(cè)
Savitzky-Golay濾波預(yù)測(cè)通過(guò)Savitzky-Golay濾波器平滑觀測(cè)流行度隨時(shí)間的變化曲線,以便最好地保留流行度采樣曲線的特征。文獻(xiàn)[12]利用Savitzky-Golay濾波預(yù)測(cè)得到流行度時(shí)間模型,可表示為圍繞時(shí)間觀測(cè)窗口中心k的n次多項(xiàng)式,該模型能夠使得預(yù)測(cè)值和實(shí)際值的累積平方誤差值最小。
1.2 基于用戶偏好的預(yù)取
前面基于流行度的預(yù)取技術(shù)是利用流行度變化反映內(nèi)容的訪問(wèn)趨勢(shì),這種趨勢(shì)相對(duì)于個(gè)體用戶偏好而言存在明顯的差異,造成邊緣節(jié)點(diǎn)預(yù)取的部分內(nèi)容被閑置。為了解決上述問(wèn)題,有學(xué)者提出了基于用戶偏好的預(yù)取,并且相關(guān)研究統(tǒng)計(jì)證明了用戶偏好在一定時(shí)間內(nèi)是保持穩(wěn)定的,這一特性為基于用戶偏好的預(yù)取的可行性提供了有力的保證。
在對(duì)從未訪問(wèn)過(guò)的新內(nèi)容做預(yù)取時(shí),基于流行度的預(yù)取由于缺乏歷史數(shù)據(jù)作為分析基礎(chǔ),無(wú)法做出正確的預(yù)測(cè),但基于用戶偏好預(yù)取則可以根據(jù)用戶興趣內(nèi)容標(biāo)簽集合并結(jié)合用戶請(qǐng)求預(yù)判用戶偏好,指導(dǎo)預(yù)取的執(zhí)行?;谟脩羝玫念A(yù)取一般分為兩個(gè)階段,第一個(gè)階段是獲取用戶偏好;第二個(gè)階段是根據(jù)用戶偏好制定預(yù)取策略。
文獻(xiàn)[13]采用文檔主題生成模型(Latent Dirichlet Allocation,LDA)[14]獲取內(nèi)容的潛在主題,并用對(duì)稱Jensen-Shannon散度[15]衡量?jī)?nèi)容主題與用戶興趣主題之間的相似性,節(jié)點(diǎn)將預(yù)取相似性較高的內(nèi)容以供用戶未來(lái)請(qǐng)求。
文獻(xiàn)[16]通過(guò)預(yù)測(cè)函數(shù)對(duì)用戶為評(píng)分內(nèi)容進(jìn)行預(yù)測(cè),將評(píng)分較高的一部分內(nèi)容預(yù)取到邊緣節(jié)點(diǎn)。在該文獻(xiàn)中,作者首先將用戶偏好向量定義為用戶對(duì)不同內(nèi)容屬性的偏好度,偏好度表示用戶訪問(wèn)的全部?jī)?nèi)容屬性疊加后該屬性所占的權(quán)重;然后通過(guò)余弦相似性得到群體用戶的偏好相似度;最后根據(jù)用戶評(píng)分相似性和偏好相似性帶入對(duì)內(nèi)容評(píng)分預(yù)測(cè)函數(shù)中得到內(nèi)容的評(píng)分,并預(yù)取評(píng)分較高的內(nèi)容。
1.3 基于社交網(wǎng)絡(luò)的預(yù)取
據(jù)統(tǒng)計(jì),網(wǎng)絡(luò)中大量HTTP流量來(lái)自于在線社交網(wǎng)絡(luò)(Online Social Network,OSN)中的帶寬密集型媒體內(nèi)容[17]。在線社交網(wǎng)絡(luò)可以捕捉朋友之間的聯(lián)系,且許多在線社交網(wǎng)絡(luò)上可以獲取用戶的地理位置,這為基于社交網(wǎng)絡(luò)的預(yù)取提供了實(shí)施條件。媒體提供商通常依靠CDN將其內(nèi)容從內(nèi)容源服務(wù)器分發(fā)到多個(gè)位置,基于社交關(guān)系的預(yù)取利用OSN上人們的社交關(guān)系了解內(nèi)容地理傳播方式,從而改善CDN用戶訪問(wèn)體驗(yàn)。
社交預(yù)取主要利用社交網(wǎng)絡(luò)中的朋友關(guān)系信息、用戶的交互行為,如提到、轉(zhuǎn)發(fā)、評(píng)論等,來(lái)分析社交網(wǎng)絡(luò)的朋友關(guān)系。通過(guò)引入朋友關(guān)系強(qiáng)弱程度的預(yù)取模型,主動(dòng)將某用戶訪問(wèn)內(nèi)容分發(fā)給可能訪問(wèn)該內(nèi)容的朋友附近的CDN節(jié)點(diǎn),使其朋友下載內(nèi)容時(shí)減少延遲。
SASTRY N[18]等人構(gòu)建了Buzztraq模型,該模型根據(jù)用戶的朋友數(shù)量和朋友的位置信息,將用戶發(fā)布的內(nèi)容副本放置在更靠近較多用戶朋友的位置,以滿足未來(lái)請(qǐng)求。但該模型僅僅強(qiáng)調(diào)了捕捉潛在的下一個(gè)內(nèi)容訪問(wèn)地址,并沒(méi)有考慮服務(wù)器帶寬和存儲(chǔ)等復(fù)雜約束。
KILANIOTI I[17]提出了利用OSN提取用戶活動(dòng)的動(dòng)態(tài)預(yù)取策略,并且考慮到網(wǎng)絡(luò)拓?fù)?、服?wù)器位置以及緩存容量的限制的情況,實(shí)驗(yàn)證明了結(jié)合OSN的預(yù)取模型能夠改善CDN的性能。
1.4 基于用戶移動(dòng)性的預(yù)取
CDN中大多數(shù)預(yù)取方案針對(duì)的是固定網(wǎng)絡(luò),而據(jù)Cisco公司統(tǒng)計(jì),在2016年,全球移動(dòng)數(shù)據(jù)流量較2015年增長(zhǎng)了63%,其中移動(dòng)視頻流量占移動(dòng)數(shù)據(jù)流量總量的60%,并且移動(dòng)數(shù)據(jù)流量和移動(dòng)視頻流量在未來(lái)幾年內(nèi)還將呈現(xiàn)持續(xù)增長(zhǎng)趨勢(shì)[19]。同樣,CDN網(wǎng)絡(luò)也將面臨著大量移動(dòng)用戶接入的問(wèn)題,文獻(xiàn)[22]通過(guò)測(cè)量發(fā)現(xiàn)移動(dòng)用戶的緩存命中率遠(yuǎn)低于LRU緩存策略下的靜態(tài)用戶的緩存命中率。因此用戶移動(dòng)性是CDN緩存和預(yù)取策略的重要因素。
由于個(gè)人的移動(dòng)性存在一定的隨機(jī)性,CDN節(jié)點(diǎn)下可以分為不同的用戶群體,不同群體與CDN節(jié)點(diǎn)存在不同的關(guān)聯(lián)程度,因此可以通過(guò)構(gòu)建群體移動(dòng)模型來(lái)優(yōu)化CDN預(yù)取。文獻(xiàn)[20]引入了PageRank的人群移動(dòng)性內(nèi)容傳播(Crowd Mobility-based Content Propagation,CMCP)解決方案,通過(guò)關(guān)注不同用戶群體移動(dòng)用戶的比例,預(yù)測(cè)未來(lái)的內(nèi)容需求分配。
1.5 預(yù)取方法的比較
以上根據(jù)預(yù)取時(shí)關(guān)注的對(duì)象不同,介紹了現(xiàn)有的預(yù)取方式,包括基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取和基于用戶移動(dòng)性的預(yù)取,表1給出了幾種預(yù)取方式的對(duì)比。
基于流行度的預(yù)取僅根據(jù)內(nèi)容流行的趨勢(shì),一般采用統(tǒng)計(jì)學(xué)方法,實(shí)現(xiàn)相對(duì)簡(jiǎn)單。它不依賴于用戶的特性,可以作為服務(wù)器端宏觀地控制邊緣節(jié)點(diǎn)預(yù)取。早期的IPTV也是采用該預(yù)取方式,將部分流行度高的內(nèi)容預(yù)取到邊緣節(jié)點(diǎn)上,從而提高用戶的訪問(wèn)質(zhì)量。但是基于流行度的預(yù)取技術(shù)缺乏對(duì)用戶訪問(wèn)特性的研究,而且不同的用戶群體之間也存在著明顯的差異,比如在大學(xué)里學(xué)生一般大量地訪問(wèn)科技文獻(xiàn)和技術(shù)視頻,而小區(qū)家庭中一般傾向于少兒視頻、體育賽事等一系列偏向于娛樂(lè)的業(yè)務(wù)需求。并且隨著P2P與CDN的結(jié)合,邊緣CDN節(jié)點(diǎn)越來(lái)越向用戶端靠近,節(jié)點(diǎn)附近用戶偏好對(duì)邊緣節(jié)點(diǎn)的緩存影響也愈加顯著,因此解決用戶訪問(wèn)內(nèi)容差異性問(wèn)題成為了提高預(yù)取質(zhì)量的重要所在。基于用戶偏好的預(yù)取根據(jù)用戶的歷史訪問(wèn)記錄構(gòu)建用戶畫像,提取用戶群體共同的內(nèi)容偏好,預(yù)取時(shí)根據(jù)用戶偏好對(duì)當(dāng)前流行的內(nèi)容和最新發(fā)布的內(nèi)容進(jìn)行預(yù)取。它給用戶訪問(wèn)提供更精確服務(wù)的同時(shí),采用數(shù)據(jù)挖掘方法又給節(jié)點(diǎn)帶來(lái)了大量的運(yùn)算開(kāi)銷。由于內(nèi)容的傳播很多的是由用戶之間的推薦,并且大量的內(nèi)容也在社交網(wǎng)絡(luò)上發(fā)布?;谏缃痪W(wǎng)絡(luò)的預(yù)取,通過(guò)用戶之間的社交關(guān)系,也可以提高用戶的訪問(wèn)質(zhì)量?;谟脩粢苿?dòng)性的預(yù)取主要應(yīng)用于移動(dòng)互聯(lián)網(wǎng)中的內(nèi)容預(yù)取,增加了用戶對(duì)移動(dòng)性對(duì)邊緣節(jié)點(diǎn)內(nèi)容需求的影響因素,以提高節(jié)點(diǎn)的服務(wù)質(zhì)量。
2 評(píng)價(jià)標(biāo)準(zhǔn)
為了對(duì)不同預(yù)取技術(shù)進(jìn)行公平對(duì)比,學(xué)術(shù)界通常采用命中率[21]、準(zhǔn)確率[22]、帶寬成本[23]以及平均響應(yīng)時(shí)延[24]評(píng)估預(yù)取技術(shù)對(duì)CDN系統(tǒng)性能的改善效果。
2.1 命中率
CDN系統(tǒng)中希望將用戶請(qǐng)求重新定向到離用戶最近的邊緣服務(wù)器上,以提高用戶訪問(wèn)速度。在實(shí)際中,如果當(dāng)服務(wù)器節(jié)點(diǎn)預(yù)先存儲(chǔ)有用戶請(qǐng)求內(nèi)容時(shí)稱之為命中;如果沒(méi)有事先緩存稱為未命中。命中率(Hit Rate,HR)體現(xiàn)了預(yù)取和緩存對(duì)用戶訪問(wèn)加速的貢獻(xiàn),定義為:
其中SR表示命中的請(qǐng)求數(shù),NR表示沒(méi)有命中的請(qǐng)求數(shù)。
2.2 準(zhǔn)確率
命中率要求預(yù)取應(yīng)該在用戶訪問(wèn)之前緩存內(nèi)容增加用戶的體驗(yàn)質(zhì)量,但是如果用戶并沒(méi)有訪問(wèn),則預(yù)取會(huì)浪費(fèi)網(wǎng)絡(luò)資源和服務(wù)器存儲(chǔ)資源。當(dāng)預(yù)取規(guī)則沒(méi)有準(zhǔn)確地獲取用戶需求時(shí),節(jié)點(diǎn)服務(wù)器會(huì)從源服務(wù)器下載必要的內(nèi)容,導(dǎo)致服務(wù)器緩存資源浪費(fèi)、帶寬成本增加。準(zhǔn)確率可以間接表示預(yù)取規(guī)則的有效性,定義為:
其中TP表示用戶訪問(wèn)的預(yù)取內(nèi)容數(shù)量,F(xiàn)P表示用戶沒(méi)有訪問(wèn)的預(yù)取內(nèi)容數(shù)量。
2.3 帶寬成本
由于用戶訪問(wèn)類型的多樣性,為了提高命中率則需要頻繁地進(jìn)行預(yù)取操作,會(huì)造成邊緣節(jié)點(diǎn)和內(nèi)容服務(wù)器之間產(chǎn)生大量額外的帶寬消耗和節(jié)點(diǎn)服務(wù)器過(guò)于頻繁的緩存、刪除操作,從而降低用戶的體驗(yàn)質(zhì)量。通常用帶寬成本作為預(yù)取觸發(fā)的約束條件,帶寬成本可定義為:
其中,Pband表示包含有預(yù)取策略的CDN系統(tǒng)下滿足用戶需求所需的總帶寬,Rband表示沒(méi)有預(yù)取策略的原CDN系統(tǒng)下用戶請(qǐng)求所需的總帶寬。
2.4 平均響應(yīng)時(shí)間
CDN的主要目標(biāo)是提高用戶訪問(wèn)速度,平均響應(yīng)時(shí)間的變化直接地反映了預(yù)取策略對(duì)CDN的優(yōu)化程度,現(xiàn)實(shí)中預(yù)取往往在減少平均響應(yīng)時(shí)間和帶寬成本之間進(jìn)行權(quán)衡。平均響應(yīng)時(shí)間是CDN系統(tǒng)性能和用戶體驗(yàn)質(zhì)量的重要指標(biāo),定義為:
其中,M是用戶請(qǐng)求的總數(shù)量,ti代表第i個(gè)請(qǐng)求開(kāi)始時(shí)到連接結(jié)束時(shí)間。
3 未來(lái)研究方向
CDN預(yù)取技術(shù)是提升用戶體驗(yàn)的有效方式,但CDN網(wǎng)絡(luò)本身仍有一些不足,信息時(shí)代的來(lái)臨和市場(chǎng)需求都迫切需要將CDN與新型技術(shù)進(jìn)行融合,主要有軟件定義網(wǎng)絡(luò)(Software Define Network,SDN)[25]、網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization,NFV)[26]技術(shù)以及深度學(xué)習(xí)技術(shù),使其實(shí)現(xiàn)邊緣智能和自適應(yīng)組網(wǎng)等功能。未來(lái)對(duì)CDN預(yù)取技術(shù)研究將更加關(guān)注于CDN網(wǎng)絡(luò)與新技術(shù)融合帶來(lái)的挑戰(zhàn)。
3.1 SDN/NFV技術(shù)與CDN網(wǎng)絡(luò)融合
目前,大多數(shù)的CDN網(wǎng)絡(luò)是由各大廠家研制開(kāi)發(fā)的專用型設(shè)備組成的,對(duì)多樣性的業(yè)務(wù)支持的能力不足,且自建網(wǎng)絡(luò)方式產(chǎn)生了資源獨(dú)占的現(xiàn)象,阻礙著CDN行業(yè)的快速發(fā)展。融合SDN/NFV技術(shù)到CDN網(wǎng)絡(luò),利用NFV的軟硬件解耦和功能抽象特點(diǎn),以及利用SDN的設(shè)備控制與數(shù)據(jù)分離的特征,可以加強(qiáng)CDN的多業(yè)務(wù)智能化服務(wù)能力[27]。
在這種契機(jī)下,由差異化業(yè)務(wù)給CDN中內(nèi)容預(yù)取帶來(lái)的挑戰(zhàn):不同業(yè)務(wù)對(duì)應(yīng)內(nèi)容的格式、類型以及大小不盡相同;針對(duì)不同業(yè)務(wù)下相同類型的內(nèi)容的用戶需求也有所不同;不同業(yè)務(wù)的用戶訪問(wèn)場(chǎng)景也存在差異。如何針對(duì)差異化業(yè)務(wù)預(yù)取合理的內(nèi)容,滿足不同業(yè)務(wù)下用戶的需求,實(shí)現(xiàn)CDN預(yù)取的靈活性,是下一步CDN預(yù)取技術(shù)的關(guān)鍵所在。
3.2 深度學(xué)習(xí)與CDN網(wǎng)絡(luò)融合
目前視頻提供商依賴于地理上分布的CDN網(wǎng)絡(luò),將視頻內(nèi)容盡可能靠近用戶放置,以提高視頻質(zhì)量并避免服務(wù)器端的單點(diǎn)故障。視頻流量爆炸式增長(zhǎng)嚴(yán)重增加了CDN網(wǎng)絡(luò)的負(fù)擔(dān),準(zhǔn)確分析視頻的特征并預(yù)取用戶需求的視頻內(nèi)容,是減輕網(wǎng)絡(luò)負(fù)擔(dān)的重要途徑。相對(duì)于自然語(yǔ)言的分析,對(duì)視頻數(shù)據(jù)的分析更為困難。深度神經(jīng)網(wǎng)絡(luò)通過(guò)分層學(xué)習(xí)過(guò)程,能夠有效地提取輸入數(shù)據(jù)的高維度特征,顯著提升計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及語(yǔ)音識(shí)別的精確度[28]。
深度神經(jīng)網(wǎng)絡(luò)給CDN中視頻預(yù)取帶來(lái)新的契機(jī),例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[29]能夠仿造生物的視知覺(jué)(Visual Perception)[30]機(jī)制,可以應(yīng)用于預(yù)取機(jī)制中的視頻分類和用戶偏好挖掘。此外,遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)[31]能夠?qū)r(shí)間順序的自然語(yǔ)言、語(yǔ)音識(shí)別等數(shù)據(jù)的變化進(jìn)行建模,可用于預(yù)取時(shí)預(yù)測(cè)用戶需求。深度學(xué)習(xí)可以為CDN預(yù)取中內(nèi)容分類方法、用戶興趣挖掘等提供了更優(yōu)的解決方法,隨著流媒體內(nèi)容的發(fā)展,對(duì)視頻、音樂(lè)的預(yù)取將更加依賴于深度學(xué)習(xí)。
4 結(jié)論
本文以預(yù)取關(guān)注對(duì)象為基礎(chǔ),對(duì)近年來(lái)CDN預(yù)取技術(shù)進(jìn)行綜述,總結(jié)歸納出基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取以及基于用戶移動(dòng)性的預(yù)取這四類預(yù)取方式?;诹餍卸鹊念A(yù)取關(guān)注了網(wǎng)絡(luò)中普遍的內(nèi)容流行情況,本質(zhì)上反映出內(nèi)容的請(qǐng)求趨勢(shì),它是當(dāng)前一種主流的預(yù)取方式?;谟脩羝玫念A(yù)取通過(guò)挖掘群體用戶的偏好,使預(yù)取技術(shù)更加適應(yīng)于用戶的個(gè)性化需求,進(jìn)一步提高了邊緣節(jié)點(diǎn)中緩存內(nèi)容的準(zhǔn)確率?;谏缃痪W(wǎng)絡(luò)的預(yù)取根據(jù)用戶之間的聯(lián)系構(gòu)建內(nèi)容傳播的模型,預(yù)測(cè)用戶訪問(wèn)內(nèi)容傳播位置,提高邊緣節(jié)點(diǎn)的緩存命中率。基于用戶移動(dòng)性的預(yù)取根據(jù)用戶的移動(dòng)性對(duì)節(jié)點(diǎn)內(nèi)容需求的影響,動(dòng)態(tài)地調(diào)整內(nèi)容預(yù)取,提高了移動(dòng)場(chǎng)景下節(jié)點(diǎn)服務(wù)器的緩存命中率。預(yù)取機(jī)制的主要目的是為了提高CDN網(wǎng)絡(luò)的緩存命中率和準(zhǔn)確率,但是也會(huì)帶來(lái)一定的網(wǎng)絡(luò)資源消耗,因此可以大規(guī)模實(shí)施的預(yù)取技術(shù)需要控制預(yù)取的帶寬成本。CDN網(wǎng)絡(luò)與新技術(shù)融合發(fā)展是滿足信息時(shí)代需求的必然走向,本文分析了新型技術(shù)融合下預(yù)取技術(shù)面臨的挑戰(zhàn),并給出了可能的研究方向。
參考文獻(xiàn)
[1] “互聯(lián)網(wǎng)+”時(shí)代企業(yè)辦公自動(dòng)化研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2015(8):66-69.
[2] 尹芹,華新海.基于融合CDN構(gòu)建未來(lái)智能內(nèi)容管道[J].電信科學(xué),2015,31(4):33-37.
[3] HWANG K,SUH D Y.Reducing perceptible IPTV zapping delay using CDN cache server[C].2013 International Conference on ICT Convergence(ICTC),2013:738-739.
[4] PARMAR J,VERMA J.State-of-artsurvey of various web prefetching techniques[C].International Conference on Inventive Computation Technologies.IEEE,2016:1-7.
[5] 王道誼,周文安,劉元安.內(nèi)容分發(fā)網(wǎng)絡(luò)中內(nèi)容流行度集中性的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):102-104.
[6] 聶華,張敏,郭敬榮,等.基于內(nèi)容流行度差異性的CDN-P2P融合分發(fā)網(wǎng)絡(luò)緩存替換機(jī)制研究[J].通信學(xué)報(bào),2015,36(s1):9-15.
[7] SZABO G,HUBERMAN B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[8] 李琦,陳玉新.移動(dòng)平均法的滯后問(wèn)題[J].統(tǒng)計(jì)與決策,2008(22):152-153.
[9] HASSINE N B,MARINCA D,MINET P,et al.Caching strategies based on popularity prediction in content delivery networks[C].2016 IEEE 12th International Conference on Wireless and Mobile Computing,Networking and Communi-cations(WiMob),New York,2016:1-8.
[10] 付凌暉,王惠文.多項(xiàng)式回歸的建模方法比較研究[J].數(shù)理統(tǒng)計(jì)與管理,2004,23(1):48-52.
[11] HASSINE N B,MARINCA D,MINET P,et al.Popularity prediction in content delivery networks[C].2015 IEEE 26th Annual International Symposium on Personal,Indoor, and Mobile Radio Communications(PIMRC),Hong Kong,2015:2083-2088.
[12] HASSINE N B,MARINCA D,MINET P,et al.Expert-based on-line learning and prediction in content delivery networks[C].2016 International Wireless Communications and Mobile Computing Conference(IWCMC),Paphos,2016:182-187.
[13] Hu Wen,Huang Jiahui,Wang Zhi,et al.MUSA:Wi-Fi AP-assisted video prefetching via Tensor Learning[C].2017 IEEE/ACM 25th International Symposium on Quality of Service(IWQoS),Vilanova i la Geltru,2017:1-6.
[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[15] LIN J,LIN J H.Divergence measures based on the Shannon entropy[J].IEEE Transactions on Inform Theory,1991,37(1):145-151.
[16] 田瑞云.基于Hadoop的CDN-P2P系統(tǒng)中內(nèi)容預(yù)測(cè)機(jī)制研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[17] KILANIOTI I.Improving multimedia content delivery via augmentation with social information: the social prefetcher approach[J].IEEE Transactions on Multimedia,2015,17(9):1460-1470.
[18] SASTRY N,YONEKI E,CROWCROFT J.Buzztraq:predicting geographical access patterns of social cascades using social networks[C].Proceedings of the Second ACM Euvosys Workshop on Social Network Systems,2009:39-45.
[19] 唐紅,韓健,段潔,等.基于內(nèi)容流行度的移動(dòng)CCN緩存策略研究[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,30(1):119-126.
文獻(xiàn)[20]-[31]略
作者信息:
王舒平,張 毅,韋文聞,楊 碩,何 皇
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶400065)