《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 內(nèi)容分發(fā)網(wǎng)絡(luò)預(yù)取技術(shù)綜述
內(nèi)容分發(fā)網(wǎng)絡(luò)預(yù)取技術(shù)綜述
2019年電子技術(shù)應(yīng)用第4期
王舒平,張 毅,韋文聞,楊 碩,何 皇
重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶400065
摘要: 內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Delivery Network,CDN)已成為近年來(lái)研究熱點(diǎn)領(lǐng)域之一,為減少用戶訪問(wèn)時(shí)延從而提高網(wǎng)絡(luò)服務(wù)質(zhì)量,相關(guān)研究在CDN緩存技術(shù)的基礎(chǔ)上引入內(nèi)容預(yù)取技術(shù)來(lái)克服緩存技術(shù)的滯后性并提高CDN中資源利用率。按照預(yù)取時(shí)研究的對(duì)象不同,根據(jù)CDN預(yù)取技術(shù)的分類,概括并比較了不同分類的優(yōu)勢(shì)與不足,并對(duì)各種評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了詳細(xì)分析,最后指出了融合新型網(wǎng)絡(luò)與技術(shù)的CDN預(yù)取的研究方向。
中圖分類號(hào): TN92
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.183086
中文引用格式: 王舒平,張毅,韋文聞,等. 內(nèi)容分發(fā)網(wǎng)絡(luò)預(yù)取技術(shù)綜述[J].電子技術(shù)應(yīng)用,2019,45(4):23-28.
英文引用格式: Wang Shuping,Zhang Yi,Wei Wenwen,et al. Overview of prefetching technology in content deliver networks[J]. Application of Electronic Technique,2019,45(4):23-28.
Overview of prefetching technology in content deliver networks
Wang Shuping,Zhang Yi,Wei Wenwen,Yang Shuo,He Huang
Future Network Research Institute,Chongqing University of Posts and Telecommunications,Chongqing 400065,China
Abstract: Content Delivery Network(CDN) has recently become one of the most popular research fields. To reduce the user access latency and improve the quality of service the network, the content prefetching technology is introduced based on the CDN cache technology in related studies. The prefetching technology can overcome the lag time between the demands for user request and content caching, and improve resource utilization of the CDN. In this paper, the classification of CDN prefetching techniques is summarized from the perspective of the different objects in prefetching. The advantages and weaknesses of different classifications are summarized and compared between each other, and various evaluation criteria are clarified in detail. Finally, the research direction of content prefetching in CDN with new networks and technologies is pointed out.
Key words : content delivery network(CDN);quality of service;content prefetching;resource utilization

0 引言

    隨著互聯(lián)技術(shù)的發(fā)展,各類創(chuàng)新型應(yīng)用如雨后春筍般涌現(xiàn),以文件傳輸、視頻會(huì)議等為代表業(yè)務(wù)顯著提高了企業(yè)工作效率,網(wǎng)絡(luò)視頻直播、網(wǎng)上購(gòu)物等熱點(diǎn)業(yè)務(wù)使人們的生活變得豐富、便捷[1]。由于智能終端的不斷普及,互聯(lián)網(wǎng)已成為現(xiàn)代人來(lái)獲取信息和信息分享的重要途徑,Web及流媒體業(yè)務(wù)用量爆炸式增長(zhǎng),網(wǎng)絡(luò)中服務(wù)器的負(fù)荷加重問(wèn)題和網(wǎng)絡(luò)流量擁塞問(wèn)題日益嚴(yán)峻。

    大規(guī)模的用戶請(qǐng)求導(dǎo)致服務(wù)器負(fù)荷加重,成為網(wǎng)絡(luò)故障中的重要隱患,更有甚者它將會(huì)使服務(wù)器宕機(jī),產(chǎn)生拒絕服務(wù)現(xiàn)象,嚴(yán)重影響用戶體驗(yàn)質(zhì)量。此外,大規(guī)模請(qǐng)求會(huì)造成網(wǎng)絡(luò)擁塞,顯著增加用戶側(cè)內(nèi)容的獲取時(shí)延, 嚴(yán)重網(wǎng)絡(luò)擁塞將引發(fā)數(shù)據(jù)包的大量丟失,導(dǎo)致用戶訪問(wèn)失敗。為了解決上述問(wèn)題,研究者們提出了內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Deliver Network,CDN)。如圖1所示,CDN是由分布在網(wǎng)絡(luò)邊緣節(jié)點(diǎn)服務(wù)器構(gòu)成的一層智能虛擬網(wǎng),主要原理是將內(nèi)容副本緩存到靠近用戶端的節(jié)點(diǎn)服務(wù)器上,并根據(jù)實(shí)時(shí)網(wǎng)絡(luò)情況把原始服務(wù)器的用戶請(qǐng)求重定向至距離用戶就近狀態(tài)最佳的節(jié)點(diǎn)服務(wù)器,使用戶可以就近獲取所需內(nèi)容,從而有效地緩解由大量遠(yuǎn)程訪問(wèn)引起的骨干網(wǎng)流量擁塞[2]。

zs1-t1.gif

    在CDN中,緩存技術(shù)[3]是保證用戶請(qǐng)求加速的一項(xiàng)關(guān)鍵技術(shù),但就CDN本身而言,節(jié)點(diǎn)處的內(nèi)容緩存主要由用戶驅(qū)動(dòng),即當(dāng)有用戶請(qǐng)求內(nèi)容時(shí),節(jié)點(diǎn)服務(wù)器里沒(méi)有該內(nèi)容,節(jié)點(diǎn)服務(wù)器向內(nèi)容源服務(wù)器獲取該請(qǐng)求內(nèi)容,在發(fā)給用戶的同時(shí),將該內(nèi)容保存在節(jié)點(diǎn)服務(wù)器中,為未來(lái)相同的請(qǐng)求提供服務(wù)。本質(zhì)上,該技術(shù)所采用的是一種被動(dòng)緩存方式。在網(wǎng)絡(luò)終端不斷普及的趨勢(shì)下,這種被動(dòng)式內(nèi)容存儲(chǔ)將無(wú)法滿足互聯(lián)網(wǎng)流量爆炸式增長(zhǎng)的需求,典型地引發(fā)下述問(wèn)題:(1)緩存具有滯后性,即服務(wù)器節(jié)點(diǎn)無(wú)法預(yù)測(cè)內(nèi)容的流行趨勢(shì),內(nèi)容緩存滯后于潛在的用戶需求;(2)節(jié)點(diǎn)處緩存空間利用率低,尤其是在節(jié)點(diǎn)服務(wù)器處用戶請(qǐng)求較少的情況下,由用戶驅(qū)動(dòng)的被動(dòng)緩存將使服務(wù)器節(jié)點(diǎn)僅緩存有限的請(qǐng)求內(nèi)容,致使節(jié)點(diǎn)處存在大量閑置緩存空間。為提升節(jié)點(diǎn)服務(wù)器上的緩存空間利用率以及提供更好的服務(wù)質(zhì)量,眾多研究者提出在CDN節(jié)點(diǎn)處引入預(yù)取技術(shù)[4]。CDN預(yù)取技術(shù)是對(duì)其緩存的補(bǔ)充,核心思想是由節(jié)點(diǎn)服務(wù)器預(yù)先主動(dòng)從內(nèi)容源服務(wù)器處獲取部分內(nèi)容,以期加速用戶對(duì)于內(nèi)容的獲取。預(yù)取技術(shù)的引入,使得服務(wù)器節(jié)點(diǎn)可以先驗(yàn)地緩存部分內(nèi)容,解決了因無(wú)法預(yù)測(cè)網(wǎng)絡(luò)中內(nèi)容流行趨勢(shì)所導(dǎo)致的緩存滯后的問(wèn)題;此外,通過(guò)引入預(yù)取技術(shù),服務(wù)器節(jié)點(diǎn)可以預(yù)取部分流行度較高的內(nèi)容,避免節(jié)點(diǎn)處大量緩存空間閑置,使有限的網(wǎng)絡(luò)資源得到合理的利用。預(yù)取技術(shù)作為內(nèi)容分發(fā)中的關(guān)鍵技術(shù)在國(guó)內(nèi)外受到廣泛關(guān)注,眾多學(xué)者圍繞內(nèi)容流行度及用戶需求等對(duì)預(yù)取進(jìn)行了大量研究。

1 CDN預(yù)取分類

    根據(jù)預(yù)取時(shí)關(guān)注的對(duì)象不同,將CDN預(yù)取分為面向內(nèi)容的預(yù)取和面向用戶的預(yù)取。面向內(nèi)容的預(yù)取依據(jù)網(wǎng)絡(luò)中內(nèi)容請(qǐng)求數(shù)量變化來(lái)進(jìn)行預(yù)取,稱之為基于流行度的預(yù)取。面向用戶的預(yù)取進(jìn)一步劃分為三類預(yù)取方式:第一類主要通過(guò)對(duì)用戶興趣進(jìn)行分析來(lái)決定預(yù)取的內(nèi)容,稱之為基于用戶偏好的預(yù)?。坏诙惛鶕?jù)用戶之間的社交關(guān)系來(lái)預(yù)測(cè)內(nèi)容的傳播趨勢(shì),并據(jù)此進(jìn)行內(nèi)容預(yù)取,將其定義為基于社交網(wǎng)絡(luò)的預(yù)取;第三類旨在通過(guò)研究用戶移動(dòng)性對(duì)節(jié)點(diǎn)服務(wù)器上緩存內(nèi)容流行度的影響來(lái)動(dòng)態(tài)調(diào)整內(nèi)容預(yù)取策略,稱之為基于移動(dòng)性的預(yù)取。

1.1 基于流行度的預(yù)取

    大量統(tǒng)計(jì)表明:內(nèi)容的訪問(wèn)流行度分布符合zipf定律[5],即僅有近20%的內(nèi)容對(duì)象被超過(guò)80%的用戶訪問(wèn),這一現(xiàn)象反映了在網(wǎng)絡(luò)中不同內(nèi)容被用戶的訪問(wèn)分布情況。流行度被定義為統(tǒng)計(jì)時(shí)間段中內(nèi)容對(duì)象被訪問(wèn)的次數(shù)或概率來(lái)表示,在研究中,基于流行度的預(yù)取利用上述現(xiàn)象對(duì)流行度較高的內(nèi)容進(jìn)行預(yù)取[6]。在CDN中,一方面,不允許存儲(chǔ)新內(nèi)容時(shí),根據(jù)流行度來(lái)確定所需要?jiǎng)h除的內(nèi)容; 另一方面,根據(jù)流行度來(lái)選擇所要預(yù)取的具體內(nèi)容。基于流行度的預(yù)取是CDN中一種主流的內(nèi)容預(yù)取技術(shù),其關(guān)鍵在于內(nèi)容流行度的確定,目前常采用統(tǒng)計(jì)學(xué)、控制理論的預(yù)測(cè)方法,有指數(shù)平滑預(yù)測(cè)、多項(xiàng)式回歸預(yù)測(cè)及Savitzky-Golay濾波預(yù)測(cè)三種。

1.1.1 指數(shù)平滑預(yù)測(cè)

    指數(shù)平滑預(yù)測(cè)是指采用指數(shù)平滑法(Exponential Smoothing,ES)對(duì)內(nèi)容流行度進(jìn)行預(yù)測(cè),由于每個(gè)內(nèi)容在其生命周期的早期和后期的流行度存在很強(qiáng)的相關(guān)性,指數(shù)平滑法已被廣泛地應(yīng)用于預(yù)測(cè)內(nèi)容未來(lái)的請(qǐng)求數(shù)量[7]。指數(shù)平滑法是在移動(dòng)平均法[8]基礎(chǔ)上發(fā)展起來(lái)的一種時(shí)間序列分析預(yù)測(cè)法,既可以同全期平均法一樣無(wú)遺漏地對(duì)歷史數(shù)據(jù)加以利用,又可以同加權(quán)移動(dòng)平均法一樣為近期數(shù)據(jù)賦予更大權(quán)重的熱點(diǎn)。指數(shù)平滑法兼容了全期平均和移動(dòng)平均的優(yōu)點(diǎn),在不舍棄歷史數(shù)據(jù)的情況下,僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠(yuǎn)離,賦予逐漸收斂為零的權(quán)數(shù);并且指數(shù)平滑法對(duì)不同時(shí)間訪問(wèn)量賦予的權(quán)值具有伸縮性,可以通過(guò)賦予不同平滑指數(shù)來(lái)更改權(quán)值的變化速度。

    文獻(xiàn)[9]提出一次指數(shù)平滑(Single Exponential Smoothing,SES)和二次指數(shù)平滑(Second Exponential Smoothing,DES)來(lái)預(yù)測(cè)各個(gè)階段的內(nèi)容流行度,作者從YouTube以天為觀察單位提取每個(gè)內(nèi)容流行度從上傳到觀測(cè)時(shí)間結(jié)束的真實(shí)軌跡,在每個(gè)觀測(cè)單位分別采用SES和DES來(lái)根據(jù)觀測(cè)時(shí)間前的流行度從而預(yù)測(cè)當(dāng)前時(shí)間的流行度。

    指數(shù)平滑預(yù)測(cè)法的優(yōu)點(diǎn)是僅需少量數(shù)據(jù)資料,便可預(yù)測(cè)出短期的內(nèi)容流行度值。但由于指數(shù)平滑法對(duì)近期數(shù)據(jù)所賦予的權(quán)重高,而對(duì)遠(yuǎn)期數(shù)據(jù)的參考性弱,無(wú)法對(duì)遠(yuǎn)期流行度進(jìn)行預(yù)測(cè),只能做短期的預(yù)測(cè)。

1.1.2 多項(xiàng)式回歸預(yù)測(cè)

    在實(shí)際工作中,人們經(jīng)常采用多項(xiàng)式回歸模型來(lái)解釋自變量與因變量的相關(guān)關(guān)系[10]。多項(xiàng)式回歸預(yù)測(cè)通過(guò)多項(xiàng)式回歸法擬合內(nèi)容流行度隨時(shí)間變化的曲線,得到因變量?jī)?nèi)容流行度與自變量時(shí)間的變化函數(shù),這一模型可以表示為,流行度等于時(shí)間的各次項(xiàng)與對(duì)應(yīng)回歸系數(shù)的乘積之和。在擬合過(guò)程中,主要是通過(guò)增加時(shí)間變量的高次項(xiàng)推導(dǎo)出逼近真實(shí)的時(shí)間函數(shù),推導(dǎo)時(shí)主要是找到各次項(xiàng)的合適系數(shù)。

    文獻(xiàn)[11]研究提出屬于同一類別的內(nèi)容具有相同的流行度隨時(shí)間變化的曲線相似,多項(xiàng)式回歸預(yù)測(cè)可以得到某一類內(nèi)容流行度隨時(shí)間變化的規(guī)律,因此該規(guī)律可以用于該類內(nèi)容流行度的長(zhǎng)期和短期預(yù)測(cè)。

1.1.3 Savitzky-Golay濾波預(yù)測(cè)

    Savitzky-Golay濾波預(yù)測(cè)通過(guò)Savitzky-Golay濾波器平滑觀測(cè)流行度隨時(shí)間的變化曲線,以便最好地保留流行度采樣曲線的特征。文獻(xiàn)[12]利用Savitzky-Golay濾波預(yù)測(cè)得到流行度時(shí)間模型,可表示為圍繞時(shí)間觀測(cè)窗口中心k的n次多項(xiàng)式,該模型能夠使得預(yù)測(cè)值和實(shí)際值的累積平方誤差值最小。

1.2 基于用戶偏好的預(yù)取

    前面基于流行度的預(yù)取技術(shù)是利用流行度變化反映內(nèi)容的訪問(wèn)趨勢(shì),這種趨勢(shì)相對(duì)于個(gè)體用戶偏好而言存在明顯的差異,造成邊緣節(jié)點(diǎn)預(yù)取的部分內(nèi)容被閑置。為了解決上述問(wèn)題,有學(xué)者提出了基于用戶偏好的預(yù)取,并且相關(guān)研究統(tǒng)計(jì)證明了用戶偏好在一定時(shí)間內(nèi)是保持穩(wěn)定的,這一特性為基于用戶偏好的預(yù)取的可行性提供了有力的保證。

    在對(duì)從未訪問(wèn)過(guò)的新內(nèi)容做預(yù)取時(shí),基于流行度的預(yù)取由于缺乏歷史數(shù)據(jù)作為分析基礎(chǔ),無(wú)法做出正確的預(yù)測(cè),但基于用戶偏好預(yù)取則可以根據(jù)用戶興趣內(nèi)容標(biāo)簽集合并結(jié)合用戶請(qǐng)求預(yù)判用戶偏好,指導(dǎo)預(yù)取的執(zhí)行?;谟脩羝玫念A(yù)取一般分為兩個(gè)階段,第一個(gè)階段是獲取用戶偏好;第二個(gè)階段是根據(jù)用戶偏好制定預(yù)取策略。

    文獻(xiàn)[13]采用文檔主題生成模型(Latent Dirichlet Allocation,LDA)[14]獲取內(nèi)容的潛在主題,并用對(duì)稱Jensen-Shannon散度[15]衡量?jī)?nèi)容主題與用戶興趣主題之間的相似性,節(jié)點(diǎn)將預(yù)取相似性較高的內(nèi)容以供用戶未來(lái)請(qǐng)求。

    文獻(xiàn)[16]通過(guò)預(yù)測(cè)函數(shù)對(duì)用戶為評(píng)分內(nèi)容進(jìn)行預(yù)測(cè),將評(píng)分較高的一部分內(nèi)容預(yù)取到邊緣節(jié)點(diǎn)。在該文獻(xiàn)中,作者首先將用戶偏好向量定義為用戶對(duì)不同內(nèi)容屬性的偏好度,偏好度表示用戶訪問(wèn)的全部?jī)?nèi)容屬性疊加后該屬性所占的權(quán)重;然后通過(guò)余弦相似性得到群體用戶的偏好相似度;最后根據(jù)用戶評(píng)分相似性和偏好相似性帶入對(duì)內(nèi)容評(píng)分預(yù)測(cè)函數(shù)中得到內(nèi)容的評(píng)分,并預(yù)取評(píng)分較高的內(nèi)容。

1.3 基于社交網(wǎng)絡(luò)的預(yù)取

    據(jù)統(tǒng)計(jì),網(wǎng)絡(luò)中大量HTTP流量來(lái)自于在線社交網(wǎng)絡(luò)(Online Social Network,OSN)中的帶寬密集型媒體內(nèi)容[17]。在線社交網(wǎng)絡(luò)可以捕捉朋友之間的聯(lián)系,且許多在線社交網(wǎng)絡(luò)上可以獲取用戶的地理位置,這為基于社交網(wǎng)絡(luò)的預(yù)取提供了實(shí)施條件。媒體提供商通常依靠CDN將其內(nèi)容從內(nèi)容源服務(wù)器分發(fā)到多個(gè)位置,基于社交關(guān)系的預(yù)取利用OSN上人們的社交關(guān)系了解內(nèi)容地理傳播方式,從而改善CDN用戶訪問(wèn)體驗(yàn)。

    社交預(yù)取主要利用社交網(wǎng)絡(luò)中的朋友關(guān)系信息、用戶的交互行為,如提到、轉(zhuǎn)發(fā)、評(píng)論等,來(lái)分析社交網(wǎng)絡(luò)的朋友關(guān)系。通過(guò)引入朋友關(guān)系強(qiáng)弱程度的預(yù)取模型,主動(dòng)將某用戶訪問(wèn)內(nèi)容分發(fā)給可能訪問(wèn)該內(nèi)容的朋友附近的CDN節(jié)點(diǎn),使其朋友下載內(nèi)容時(shí)減少延遲。

    SASTRY N[18]等人構(gòu)建了Buzztraq模型,該模型根據(jù)用戶的朋友數(shù)量和朋友的位置信息,將用戶發(fā)布的內(nèi)容副本放置在更靠近較多用戶朋友的位置,以滿足未來(lái)請(qǐng)求。但該模型僅僅強(qiáng)調(diào)了捕捉潛在的下一個(gè)內(nèi)容訪問(wèn)地址,并沒(méi)有考慮服務(wù)器帶寬和存儲(chǔ)等復(fù)雜約束。

    KILANIOTI I[17]提出了利用OSN提取用戶活動(dòng)的動(dòng)態(tài)預(yù)取策略,并且考慮到網(wǎng)絡(luò)拓?fù)?、服?wù)器位置以及緩存容量的限制的情況,實(shí)驗(yàn)證明了結(jié)合OSN的預(yù)取模型能夠改善CDN的性能。 

1.4 基于用戶移動(dòng)性的預(yù)取

    CDN中大多數(shù)預(yù)取方案針對(duì)的是固定網(wǎng)絡(luò),而據(jù)Cisco公司統(tǒng)計(jì),在2016年,全球移動(dòng)數(shù)據(jù)流量較2015年增長(zhǎng)了63%,其中移動(dòng)視頻流量占移動(dòng)數(shù)據(jù)流量總量的60%,并且移動(dòng)數(shù)據(jù)流量和移動(dòng)視頻流量在未來(lái)幾年內(nèi)還將呈現(xiàn)持續(xù)增長(zhǎng)趨勢(shì)[19]。同樣,CDN網(wǎng)絡(luò)也將面臨著大量移動(dòng)用戶接入的問(wèn)題,文獻(xiàn)[22]通過(guò)測(cè)量發(fā)現(xiàn)移動(dòng)用戶的緩存命中率遠(yuǎn)低于LRU緩存策略下的靜態(tài)用戶的緩存命中率。因此用戶移動(dòng)性是CDN緩存和預(yù)取策略的重要因素。

    由于個(gè)人的移動(dòng)性存在一定的隨機(jī)性,CDN節(jié)點(diǎn)下可以分為不同的用戶群體,不同群體與CDN節(jié)點(diǎn)存在不同的關(guān)聯(lián)程度,因此可以通過(guò)構(gòu)建群體移動(dòng)模型來(lái)優(yōu)化CDN預(yù)取。文獻(xiàn)[20]引入了PageRank的人群移動(dòng)性內(nèi)容傳播(Crowd Mobility-based Content Propagation,CMCP)解決方案,通過(guò)關(guān)注不同用戶群體移動(dòng)用戶的比例,預(yù)測(cè)未來(lái)的內(nèi)容需求分配。

1.5 預(yù)取方法的比較

    以上根據(jù)預(yù)取時(shí)關(guān)注的對(duì)象不同,介紹了現(xiàn)有的預(yù)取方式,包括基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取和基于用戶移動(dòng)性的預(yù)取,表1給出了幾種預(yù)取方式的對(duì)比。

zs1-b1.gif

    基于流行度的預(yù)取僅根據(jù)內(nèi)容流行的趨勢(shì),一般采用統(tǒng)計(jì)學(xué)方法,實(shí)現(xiàn)相對(duì)簡(jiǎn)單。它不依賴于用戶的特性,可以作為服務(wù)器端宏觀地控制邊緣節(jié)點(diǎn)預(yù)取。早期的IPTV也是采用該預(yù)取方式,將部分流行度高的內(nèi)容預(yù)取到邊緣節(jié)點(diǎn)上,從而提高用戶的訪問(wèn)質(zhì)量。但是基于流行度的預(yù)取技術(shù)缺乏對(duì)用戶訪問(wèn)特性的研究,而且不同的用戶群體之間也存在著明顯的差異,比如在大學(xué)里學(xué)生一般大量地訪問(wèn)科技文獻(xiàn)和技術(shù)視頻,而小區(qū)家庭中一般傾向于少兒視頻、體育賽事等一系列偏向于娛樂(lè)的業(yè)務(wù)需求。并且隨著P2P與CDN的結(jié)合,邊緣CDN節(jié)點(diǎn)越來(lái)越向用戶端靠近,節(jié)點(diǎn)附近用戶偏好對(duì)邊緣節(jié)點(diǎn)的緩存影響也愈加顯著,因此解決用戶訪問(wèn)內(nèi)容差異性問(wèn)題成為了提高預(yù)取質(zhì)量的重要所在。基于用戶偏好的預(yù)取根據(jù)用戶的歷史訪問(wèn)記錄構(gòu)建用戶畫像,提取用戶群體共同的內(nèi)容偏好,預(yù)取時(shí)根據(jù)用戶偏好對(duì)當(dāng)前流行的內(nèi)容和最新發(fā)布的內(nèi)容進(jìn)行預(yù)取。它給用戶訪問(wèn)提供更精確服務(wù)的同時(shí),采用數(shù)據(jù)挖掘方法又給節(jié)點(diǎn)帶來(lái)了大量的運(yùn)算開(kāi)銷。由于內(nèi)容的傳播很多的是由用戶之間的推薦,并且大量的內(nèi)容也在社交網(wǎng)絡(luò)上發(fā)布?;谏缃痪W(wǎng)絡(luò)的預(yù)取,通過(guò)用戶之間的社交關(guān)系,也可以提高用戶的訪問(wèn)質(zhì)量?;谟脩粢苿?dòng)性的預(yù)取主要應(yīng)用于移動(dòng)互聯(lián)網(wǎng)中的內(nèi)容預(yù)取,增加了用戶對(duì)移動(dòng)性對(duì)邊緣節(jié)點(diǎn)內(nèi)容需求的影響因素,以提高節(jié)點(diǎn)的服務(wù)質(zhì)量。

2 評(píng)價(jià)標(biāo)準(zhǔn)

    為了對(duì)不同預(yù)取技術(shù)進(jìn)行公平對(duì)比,學(xué)術(shù)界通常采用命中率[21]、準(zhǔn)確率[22]、帶寬成本[23]以及平均響應(yīng)時(shí)延[24]評(píng)估預(yù)取技術(shù)對(duì)CDN系統(tǒng)性能的改善效果。

2.1 命中率

    CDN系統(tǒng)中希望將用戶請(qǐng)求重新定向到離用戶最近的邊緣服務(wù)器上,以提高用戶訪問(wèn)速度。在實(shí)際中,如果當(dāng)服務(wù)器節(jié)點(diǎn)預(yù)先存儲(chǔ)有用戶請(qǐng)求內(nèi)容時(shí)稱之為命中;如果沒(méi)有事先緩存稱為未命中。命中率(Hit Rate,HR)體現(xiàn)了預(yù)取和緩存對(duì)用戶訪問(wèn)加速的貢獻(xiàn),定義為:

    zs1-gs1.gif

其中SR表示命中的請(qǐng)求數(shù),NR表示沒(méi)有命中的請(qǐng)求數(shù)。

2.2 準(zhǔn)確率

    命中率要求預(yù)取應(yīng)該在用戶訪問(wèn)之前緩存內(nèi)容增加用戶的體驗(yàn)質(zhì)量,但是如果用戶并沒(méi)有訪問(wèn),則預(yù)取會(huì)浪費(fèi)網(wǎng)絡(luò)資源和服務(wù)器存儲(chǔ)資源。當(dāng)預(yù)取規(guī)則沒(méi)有準(zhǔn)確地獲取用戶需求時(shí),節(jié)點(diǎn)服務(wù)器會(huì)從源服務(wù)器下載必要的內(nèi)容,導(dǎo)致服務(wù)器緩存資源浪費(fèi)、帶寬成本增加。準(zhǔn)確率可以間接表示預(yù)取規(guī)則的有效性,定義為:

    zs1-gs2.gif

其中TP表示用戶訪問(wèn)的預(yù)取內(nèi)容數(shù)量,F(xiàn)P表示用戶沒(méi)有訪問(wèn)的預(yù)取內(nèi)容數(shù)量。

2.3 帶寬成本

    由于用戶訪問(wèn)類型的多樣性,為了提高命中率則需要頻繁地進(jìn)行預(yù)取操作,會(huì)造成邊緣節(jié)點(diǎn)和內(nèi)容服務(wù)器之間產(chǎn)生大量額外的帶寬消耗和節(jié)點(diǎn)服務(wù)器過(guò)于頻繁的緩存、刪除操作,從而降低用戶的體驗(yàn)質(zhì)量。通常用帶寬成本作為預(yù)取觸發(fā)的約束條件,帶寬成本可定義為:

    zs1-gs3.gif

其中,Pband表示包含有預(yù)取策略的CDN系統(tǒng)下滿足用戶需求所需的總帶寬,Rband表示沒(méi)有預(yù)取策略的原CDN系統(tǒng)下用戶請(qǐng)求所需的總帶寬。

2.4 平均響應(yīng)時(shí)間

    CDN的主要目標(biāo)是提高用戶訪問(wèn)速度,平均響應(yīng)時(shí)間的變化直接地反映了預(yù)取策略對(duì)CDN的優(yōu)化程度,現(xiàn)實(shí)中預(yù)取往往在減少平均響應(yīng)時(shí)間和帶寬成本之間進(jìn)行權(quán)衡。平均響應(yīng)時(shí)間是CDN系統(tǒng)性能和用戶體驗(yàn)質(zhì)量的重要指標(biāo),定義為:

    zs1-gs4.gif

其中,M是用戶請(qǐng)求的總數(shù)量,ti代表第i個(gè)請(qǐng)求開(kāi)始時(shí)到連接結(jié)束時(shí)間。

3 未來(lái)研究方向

    CDN預(yù)取技術(shù)是提升用戶體驗(yàn)的有效方式,但CDN網(wǎng)絡(luò)本身仍有一些不足,信息時(shí)代的來(lái)臨和市場(chǎng)需求都迫切需要將CDN與新型技術(shù)進(jìn)行融合,主要有軟件定義網(wǎng)絡(luò)(Software Define Network,SDN)[25]、網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization,NFV)[26]技術(shù)以及深度學(xué)習(xí)技術(shù),使其實(shí)現(xiàn)邊緣智能和自適應(yīng)組網(wǎng)等功能。未來(lái)對(duì)CDN預(yù)取技術(shù)研究將更加關(guān)注于CDN網(wǎng)絡(luò)與新技術(shù)融合帶來(lái)的挑戰(zhàn)。

3.1 SDN/NFV技術(shù)與CDN網(wǎng)絡(luò)融合

    目前,大多數(shù)的CDN網(wǎng)絡(luò)是由各大廠家研制開(kāi)發(fā)的專用型設(shè)備組成的,對(duì)多樣性的業(yè)務(wù)支持的能力不足,且自建網(wǎng)絡(luò)方式產(chǎn)生了資源獨(dú)占的現(xiàn)象,阻礙著CDN行業(yè)的快速發(fā)展。融合SDN/NFV技術(shù)到CDN網(wǎng)絡(luò),利用NFV的軟硬件解耦和功能抽象特點(diǎn),以及利用SDN的設(shè)備控制與數(shù)據(jù)分離的特征,可以加強(qiáng)CDN的多業(yè)務(wù)智能化服務(wù)能力[27]。

    在這種契機(jī)下,由差異化業(yè)務(wù)給CDN中內(nèi)容預(yù)取帶來(lái)的挑戰(zhàn):不同業(yè)務(wù)對(duì)應(yīng)內(nèi)容的格式、類型以及大小不盡相同;針對(duì)不同業(yè)務(wù)下相同類型的內(nèi)容的用戶需求也有所不同;不同業(yè)務(wù)的用戶訪問(wèn)場(chǎng)景也存在差異。如何針對(duì)差異化業(yè)務(wù)預(yù)取合理的內(nèi)容,滿足不同業(yè)務(wù)下用戶的需求,實(shí)現(xiàn)CDN預(yù)取的靈活性,是下一步CDN預(yù)取技術(shù)的關(guān)鍵所在。

3.2 深度學(xué)習(xí)與CDN網(wǎng)絡(luò)融合

    目前視頻提供商依賴于地理上分布的CDN網(wǎng)絡(luò),將視頻內(nèi)容盡可能靠近用戶放置,以提高視頻質(zhì)量并避免服務(wù)器端的單點(diǎn)故障。視頻流量爆炸式增長(zhǎng)嚴(yán)重增加了CDN網(wǎng)絡(luò)的負(fù)擔(dān),準(zhǔn)確分析視頻的特征并預(yù)取用戶需求的視頻內(nèi)容,是減輕網(wǎng)絡(luò)負(fù)擔(dān)的重要途徑。相對(duì)于自然語(yǔ)言的分析,對(duì)視頻數(shù)據(jù)的分析更為困難。深度神經(jīng)網(wǎng)絡(luò)通過(guò)分層學(xué)習(xí)過(guò)程,能夠有效地提取輸入數(shù)據(jù)的高維度特征,顯著提升計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及語(yǔ)音識(shí)別的精確度[28]

    深度神經(jīng)網(wǎng)絡(luò)給CDN中視頻預(yù)取帶來(lái)新的契機(jī),例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[29]能夠仿造生物的視知覺(jué)(Visual Perception)[30]機(jī)制,可以應(yīng)用于預(yù)取機(jī)制中的視頻分類和用戶偏好挖掘。此外,遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)[31]能夠?qū)r(shí)間順序的自然語(yǔ)言、語(yǔ)音識(shí)別等數(shù)據(jù)的變化進(jìn)行建模,可用于預(yù)取時(shí)預(yù)測(cè)用戶需求。深度學(xué)習(xí)可以為CDN預(yù)取中內(nèi)容分類方法、用戶興趣挖掘等提供了更優(yōu)的解決方法,隨著流媒體內(nèi)容的發(fā)展,對(duì)視頻、音樂(lè)的預(yù)取將更加依賴于深度學(xué)習(xí)。

4 結(jié)論

    本文以預(yù)取關(guān)注對(duì)象為基礎(chǔ),對(duì)近年來(lái)CDN預(yù)取技術(shù)進(jìn)行綜述,總結(jié)歸納出基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取以及基于用戶移動(dòng)性的預(yù)取這四類預(yù)取方式?;诹餍卸鹊念A(yù)取關(guān)注了網(wǎng)絡(luò)中普遍的內(nèi)容流行情況,本質(zhì)上反映出內(nèi)容的請(qǐng)求趨勢(shì),它是當(dāng)前一種主流的預(yù)取方式?;谟脩羝玫念A(yù)取通過(guò)挖掘群體用戶的偏好,使預(yù)取技術(shù)更加適應(yīng)于用戶的個(gè)性化需求,進(jìn)一步提高了邊緣節(jié)點(diǎn)中緩存內(nèi)容的準(zhǔn)確率?;谏缃痪W(wǎng)絡(luò)的預(yù)取根據(jù)用戶之間的聯(lián)系構(gòu)建內(nèi)容傳播的模型,預(yù)測(cè)用戶訪問(wèn)內(nèi)容傳播位置,提高邊緣節(jié)點(diǎn)的緩存命中率。基于用戶移動(dòng)性的預(yù)取根據(jù)用戶的移動(dòng)性對(duì)節(jié)點(diǎn)內(nèi)容需求的影響,動(dòng)態(tài)地調(diào)整內(nèi)容預(yù)取,提高了移動(dòng)場(chǎng)景下節(jié)點(diǎn)服務(wù)器的緩存命中率。預(yù)取機(jī)制的主要目的是為了提高CDN網(wǎng)絡(luò)的緩存命中率和準(zhǔn)確率,但是也會(huì)帶來(lái)一定的網(wǎng)絡(luò)資源消耗,因此可以大規(guī)模實(shí)施的預(yù)取技術(shù)需要控制預(yù)取的帶寬成本。CDN網(wǎng)絡(luò)與新技術(shù)融合發(fā)展是滿足信息時(shí)代需求的必然走向,本文分析了新型技術(shù)融合下預(yù)取技術(shù)面臨的挑戰(zhàn),并給出了可能的研究方向。

參考文獻(xiàn)

[1] “互聯(lián)網(wǎng)+”時(shí)代企業(yè)辦公自動(dòng)化研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2015(8):66-69.

[2] 尹芹,華新海.基于融合CDN構(gòu)建未來(lái)智能內(nèi)容管道[J].電信科學(xué),2015,31(4):33-37.

[3] HWANG K,SUH D Y.Reducing perceptible IPTV zapping delay using CDN cache server[C].2013 International Conference on ICT Convergence(ICTC),2013:738-739.

[4] PARMAR J,VERMA J.State-of-artsurvey of various web prefetching techniques[C].International Conference on Inventive Computation Technologies.IEEE,2016:1-7.

[5] 王道誼,周文安,劉元安.內(nèi)容分發(fā)網(wǎng)絡(luò)中內(nèi)容流行度集中性的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):102-104.

[6] 聶華,張敏,郭敬榮,等.基于內(nèi)容流行度差異性的CDN-P2P融合分發(fā)網(wǎng)絡(luò)緩存替換機(jī)制研究[J].通信學(xué)報(bào),2015,36(s1):9-15.

[7] SZABO G,HUBERMAN B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.

[8] 李琦,陳玉新.移動(dòng)平均法的滯后問(wèn)題[J].統(tǒng)計(jì)與決策,2008(22):152-153.

[9] HASSINE N B,MARINCA D,MINET P,et al.Caching strategies based on popularity prediction in content delivery networks[C].2016 IEEE 12th International Conference on Wireless and Mobile Computing,Networking and Communi-cations(WiMob),New York,2016:1-8.

[10] 付凌暉,王惠文.多項(xiàng)式回歸的建模方法比較研究[J].數(shù)理統(tǒng)計(jì)與管理,2004,23(1):48-52.

[11] HASSINE N B,MARINCA D,MINET P,et al.Popularity prediction in content delivery networks[C].2015 IEEE 26th Annual International Symposium on Personal,Indoor, and Mobile Radio Communications(PIMRC),Hong Kong,2015:2083-2088.

[12] HASSINE N B,MARINCA D,MINET P,et al.Expert-based on-line learning and prediction in content delivery networks[C].2016 International Wireless Communications and Mobile Computing Conference(IWCMC),Paphos,2016:182-187.

[13] Hu Wen,Huang Jiahui,Wang Zhi,et al.MUSA:Wi-Fi AP-assisted video prefetching via Tensor Learning[C].2017 IEEE/ACM 25th International Symposium on Quality of Service(IWQoS),Vilanova i la Geltru,2017:1-6.

[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

[15] LIN J,LIN J H.Divergence measures based on the Shannon entropy[J].IEEE Transactions on Inform Theory,1991,37(1):145-151.

[16] 田瑞云.基于Hadoop的CDN-P2P系統(tǒng)中內(nèi)容預(yù)測(cè)機(jī)制研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.

[17] KILANIOTI I.Improving multimedia content delivery via augmentation with social information: the social prefetcher approach[J].IEEE Transactions on Multimedia,2015,17(9):1460-1470.

[18] SASTRY N,YONEKI E,CROWCROFT J.Buzztraq:predicting geographical access patterns of social cascades using social networks[C].Proceedings of the Second ACM Euvosys Workshop on Social Network Systems,2009:39-45.

[19] 唐紅,韓健,段潔,等.基于內(nèi)容流行度的移動(dòng)CCN緩存策略研究[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,30(1):119-126.

文獻(xiàn)[20]-[31]略





作者信息:

王舒平,張  毅,韋文聞,楊  碩,何  皇

(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶400065)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。