文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.183086
中文引用格式: 王舒平,張毅,韋文聞,等. 內(nèi)容分發(fā)網(wǎng)絡(luò)預(yù)取技術(shù)綜述[J].電子技術(shù)應(yīng)用,2019,45(4):23-28.
英文引用格式: Wang Shuping,Zhang Yi,Wei Wenwen,et al. Overview of prefetching technology in content deliver networks[J]. Application of Electronic Technique,2019,45(4):23-28.
0 引言
隨著互聯(lián)技術(shù)的發(fā)展,各類創(chuàng)新型應(yīng)用如雨后春筍般涌現(xiàn),以文件傳輸、視頻會議等為代表業(yè)務(wù)顯著提高了企業(yè)工作效率,網(wǎng)絡(luò)視頻直播、網(wǎng)上購物等熱點業(yè)務(wù)使人們的生活變得豐富、便捷[1]。由于智能終端的不斷普及,互聯(lián)網(wǎng)已成為現(xiàn)代人來獲取信息和信息分享的重要途徑,Web及流媒體業(yè)務(wù)用量爆炸式增長,網(wǎng)絡(luò)中服務(wù)器的負荷加重問題和網(wǎng)絡(luò)流量擁塞問題日益嚴峻。
大規(guī)模的用戶請求導(dǎo)致服務(wù)器負荷加重,成為網(wǎng)絡(luò)故障中的重要隱患,更有甚者它將會使服務(wù)器宕機,產(chǎn)生拒絕服務(wù)現(xiàn)象,嚴重影響用戶體驗質(zhì)量。此外,大規(guī)模請求會造成網(wǎng)絡(luò)擁塞,顯著增加用戶側(cè)內(nèi)容的獲取時延, 嚴重網(wǎng)絡(luò)擁塞將引發(fā)數(shù)據(jù)包的大量丟失,導(dǎo)致用戶訪問失敗。為了解決上述問題,研究者們提出了內(nèi)容分發(fā)網(wǎng)絡(luò)(Content Deliver Network,CDN)。如圖1所示,CDN是由分布在網(wǎng)絡(luò)邊緣節(jié)點服務(wù)器構(gòu)成的一層智能虛擬網(wǎng),主要原理是將內(nèi)容副本緩存到靠近用戶端的節(jié)點服務(wù)器上,并根據(jù)實時網(wǎng)絡(luò)情況把原始服務(wù)器的用戶請求重定向至距離用戶就近狀態(tài)最佳的節(jié)點服務(wù)器,使用戶可以就近獲取所需內(nèi)容,從而有效地緩解由大量遠程訪問引起的骨干網(wǎng)流量擁塞[2]。
在CDN中,緩存技術(shù)[3]是保證用戶請求加速的一項關(guān)鍵技術(shù),但就CDN本身而言,節(jié)點處的內(nèi)容緩存主要由用戶驅(qū)動,即當有用戶請求內(nèi)容時,節(jié)點服務(wù)器里沒有該內(nèi)容,節(jié)點服務(wù)器向內(nèi)容源服務(wù)器獲取該請求內(nèi)容,在發(fā)給用戶的同時,將該內(nèi)容保存在節(jié)點服務(wù)器中,為未來相同的請求提供服務(wù)。本質(zhì)上,該技術(shù)所采用的是一種被動緩存方式。在網(wǎng)絡(luò)終端不斷普及的趨勢下,這種被動式內(nèi)容存儲將無法滿足互聯(lián)網(wǎng)流量爆炸式增長的需求,典型地引發(fā)下述問題:(1)緩存具有滯后性,即服務(wù)器節(jié)點無法預(yù)測內(nèi)容的流行趨勢,內(nèi)容緩存滯后于潛在的用戶需求;(2)節(jié)點處緩存空間利用率低,尤其是在節(jié)點服務(wù)器處用戶請求較少的情況下,由用戶驅(qū)動的被動緩存將使服務(wù)器節(jié)點僅緩存有限的請求內(nèi)容,致使節(jié)點處存在大量閑置緩存空間。為提升節(jié)點服務(wù)器上的緩存空間利用率以及提供更好的服務(wù)質(zhì)量,眾多研究者提出在CDN節(jié)點處引入預(yù)取技術(shù)[4]。CDN預(yù)取技術(shù)是對其緩存的補充,核心思想是由節(jié)點服務(wù)器預(yù)先主動從內(nèi)容源服務(wù)器處獲取部分內(nèi)容,以期加速用戶對于內(nèi)容的獲取。預(yù)取技術(shù)的引入,使得服務(wù)器節(jié)點可以先驗地緩存部分內(nèi)容,解決了因無法預(yù)測網(wǎng)絡(luò)中內(nèi)容流行趨勢所導(dǎo)致的緩存滯后的問題;此外,通過引入預(yù)取技術(shù),服務(wù)器節(jié)點可以預(yù)取部分流行度較高的內(nèi)容,避免節(jié)點處大量緩存空間閑置,使有限的網(wǎng)絡(luò)資源得到合理的利用。預(yù)取技術(shù)作為內(nèi)容分發(fā)中的關(guān)鍵技術(shù)在國內(nèi)外受到廣泛關(guān)注,眾多學(xué)者圍繞內(nèi)容流行度及用戶需求等對預(yù)取進行了大量研究。
1 CDN預(yù)取分類
根據(jù)預(yù)取時關(guān)注的對象不同,將CDN預(yù)取分為面向內(nèi)容的預(yù)取和面向用戶的預(yù)取。面向內(nèi)容的預(yù)取依據(jù)網(wǎng)絡(luò)中內(nèi)容請求數(shù)量變化來進行預(yù)取,稱之為基于流行度的預(yù)取。面向用戶的預(yù)取進一步劃分為三類預(yù)取方式:第一類主要通過對用戶興趣進行分析來決定預(yù)取的內(nèi)容,稱之為基于用戶偏好的預(yù)?。坏诙惛鶕?jù)用戶之間的社交關(guān)系來預(yù)測內(nèi)容的傳播趨勢,并據(jù)此進行內(nèi)容預(yù)取,將其定義為基于社交網(wǎng)絡(luò)的預(yù)??;第三類旨在通過研究用戶移動性對節(jié)點服務(wù)器上緩存內(nèi)容流行度的影響來動態(tài)調(diào)整內(nèi)容預(yù)取策略,稱之為基于移動性的預(yù)取。
1.1 基于流行度的預(yù)取
大量統(tǒng)計表明:內(nèi)容的訪問流行度分布符合zipf定律[5],即僅有近20%的內(nèi)容對象被超過80%的用戶訪問,這一現(xiàn)象反映了在網(wǎng)絡(luò)中不同內(nèi)容被用戶的訪問分布情況。流行度被定義為統(tǒng)計時間段中內(nèi)容對象被訪問的次數(shù)或概率來表示,在研究中,基于流行度的預(yù)取利用上述現(xiàn)象對流行度較高的內(nèi)容進行預(yù)取[6]。在CDN中,一方面,不允許存儲新內(nèi)容時,根據(jù)流行度來確定所需要刪除的內(nèi)容; 另一方面,根據(jù)流行度來選擇所要預(yù)取的具體內(nèi)容。基于流行度的預(yù)取是CDN中一種主流的內(nèi)容預(yù)取技術(shù),其關(guān)鍵在于內(nèi)容流行度的確定,目前常采用統(tǒng)計學(xué)、控制理論的預(yù)測方法,有指數(shù)平滑預(yù)測、多項式回歸預(yù)測及Savitzky-Golay濾波預(yù)測三種。
1.1.1 指數(shù)平滑預(yù)測
指數(shù)平滑預(yù)測是指采用指數(shù)平滑法(Exponential Smoothing,ES)對內(nèi)容流行度進行預(yù)測,由于每個內(nèi)容在其生命周期的早期和后期的流行度存在很強的相關(guān)性,指數(shù)平滑法已被廣泛地應(yīng)用于預(yù)測內(nèi)容未來的請求數(shù)量[7]。指數(shù)平滑法是在移動平均法[8]基礎(chǔ)上發(fā)展起來的一種時間序列分析預(yù)測法,既可以同全期平均法一樣無遺漏地對歷史數(shù)據(jù)加以利用,又可以同加權(quán)移動平均法一樣為近期數(shù)據(jù)賦予更大權(quán)重的熱點。指數(shù)平滑法兼容了全期平均和移動平均的優(yōu)點,在不舍棄歷史數(shù)據(jù)的情況下,僅給予逐漸減弱的影響程度,即隨著數(shù)據(jù)的遠離,賦予逐漸收斂為零的權(quán)數(shù);并且指數(shù)平滑法對不同時間訪問量賦予的權(quán)值具有伸縮性,可以通過賦予不同平滑指數(shù)來更改權(quán)值的變化速度。
文獻[9]提出一次指數(shù)平滑(Single Exponential Smoothing,SES)和二次指數(shù)平滑(Second Exponential Smoothing,DES)來預(yù)測各個階段的內(nèi)容流行度,作者從YouTube以天為觀察單位提取每個內(nèi)容流行度從上傳到觀測時間結(jié)束的真實軌跡,在每個觀測單位分別采用SES和DES來根據(jù)觀測時間前的流行度從而預(yù)測當前時間的流行度。
指數(shù)平滑預(yù)測法的優(yōu)點是僅需少量數(shù)據(jù)資料,便可預(yù)測出短期的內(nèi)容流行度值。但由于指數(shù)平滑法對近期數(shù)據(jù)所賦予的權(quán)重高,而對遠期數(shù)據(jù)的參考性弱,無法對遠期流行度進行預(yù)測,只能做短期的預(yù)測。
1.1.2 多項式回歸預(yù)測
在實際工作中,人們經(jīng)常采用多項式回歸模型來解釋自變量與因變量的相關(guān)關(guān)系[10]。多項式回歸預(yù)測通過多項式回歸法擬合內(nèi)容流行度隨時間變化的曲線,得到因變量內(nèi)容流行度與自變量時間的變化函數(shù),這一模型可以表示為,流行度等于時間的各次項與對應(yīng)回歸系數(shù)的乘積之和。在擬合過程中,主要是通過增加時間變量的高次項推導(dǎo)出逼近真實的時間函數(shù),推導(dǎo)時主要是找到各次項的合適系數(shù)。
文獻[11]研究提出屬于同一類別的內(nèi)容具有相同的流行度隨時間變化的曲線相似,多項式回歸預(yù)測可以得到某一類內(nèi)容流行度隨時間變化的規(guī)律,因此該規(guī)律可以用于該類內(nèi)容流行度的長期和短期預(yù)測。
1.1.3 Savitzky-Golay濾波預(yù)測
Savitzky-Golay濾波預(yù)測通過Savitzky-Golay濾波器平滑觀測流行度隨時間的變化曲線,以便最好地保留流行度采樣曲線的特征。文獻[12]利用Savitzky-Golay濾波預(yù)測得到流行度時間模型,可表示為圍繞時間觀測窗口中心k的n次多項式,該模型能夠使得預(yù)測值和實際值的累積平方誤差值最小。
1.2 基于用戶偏好的預(yù)取
前面基于流行度的預(yù)取技術(shù)是利用流行度變化反映內(nèi)容的訪問趨勢,這種趨勢相對于個體用戶偏好而言存在明顯的差異,造成邊緣節(jié)點預(yù)取的部分內(nèi)容被閑置。為了解決上述問題,有學(xué)者提出了基于用戶偏好的預(yù)取,并且相關(guān)研究統(tǒng)計證明了用戶偏好在一定時間內(nèi)是保持穩(wěn)定的,這一特性為基于用戶偏好的預(yù)取的可行性提供了有力的保證。
在對從未訪問過的新內(nèi)容做預(yù)取時,基于流行度的預(yù)取由于缺乏歷史數(shù)據(jù)作為分析基礎(chǔ),無法做出正確的預(yù)測,但基于用戶偏好預(yù)取則可以根據(jù)用戶興趣內(nèi)容標簽集合并結(jié)合用戶請求預(yù)判用戶偏好,指導(dǎo)預(yù)取的執(zhí)行。基于用戶偏好的預(yù)取一般分為兩個階段,第一個階段是獲取用戶偏好;第二個階段是根據(jù)用戶偏好制定預(yù)取策略。
文獻[13]采用文檔主題生成模型(Latent Dirichlet Allocation,LDA)[14]獲取內(nèi)容的潛在主題,并用對稱Jensen-Shannon散度[15]衡量內(nèi)容主題與用戶興趣主題之間的相似性,節(jié)點將預(yù)取相似性較高的內(nèi)容以供用戶未來請求。
文獻[16]通過預(yù)測函數(shù)對用戶為評分內(nèi)容進行預(yù)測,將評分較高的一部分內(nèi)容預(yù)取到邊緣節(jié)點。在該文獻中,作者首先將用戶偏好向量定義為用戶對不同內(nèi)容屬性的偏好度,偏好度表示用戶訪問的全部內(nèi)容屬性疊加后該屬性所占的權(quán)重;然后通過余弦相似性得到群體用戶的偏好相似度;最后根據(jù)用戶評分相似性和偏好相似性帶入對內(nèi)容評分預(yù)測函數(shù)中得到內(nèi)容的評分,并預(yù)取評分較高的內(nèi)容。
1.3 基于社交網(wǎng)絡(luò)的預(yù)取
據(jù)統(tǒng)計,網(wǎng)絡(luò)中大量HTTP流量來自于在線社交網(wǎng)絡(luò)(Online Social Network,OSN)中的帶寬密集型媒體內(nèi)容[17]。在線社交網(wǎng)絡(luò)可以捕捉朋友之間的聯(lián)系,且許多在線社交網(wǎng)絡(luò)上可以獲取用戶的地理位置,這為基于社交網(wǎng)絡(luò)的預(yù)取提供了實施條件。媒體提供商通常依靠CDN將其內(nèi)容從內(nèi)容源服務(wù)器分發(fā)到多個位置,基于社交關(guān)系的預(yù)取利用OSN上人們的社交關(guān)系了解內(nèi)容地理傳播方式,從而改善CDN用戶訪問體驗。
社交預(yù)取主要利用社交網(wǎng)絡(luò)中的朋友關(guān)系信息、用戶的交互行為,如提到、轉(zhuǎn)發(fā)、評論等,來分析社交網(wǎng)絡(luò)的朋友關(guān)系。通過引入朋友關(guān)系強弱程度的預(yù)取模型,主動將某用戶訪問內(nèi)容分發(fā)給可能訪問該內(nèi)容的朋友附近的CDN節(jié)點,使其朋友下載內(nèi)容時減少延遲。
SASTRY N[18]等人構(gòu)建了Buzztraq模型,該模型根據(jù)用戶的朋友數(shù)量和朋友的位置信息,將用戶發(fā)布的內(nèi)容副本放置在更靠近較多用戶朋友的位置,以滿足未來請求。但該模型僅僅強調(diào)了捕捉潛在的下一個內(nèi)容訪問地址,并沒有考慮服務(wù)器帶寬和存儲等復(fù)雜約束。
KILANIOTI I[17]提出了利用OSN提取用戶活動的動態(tài)預(yù)取策略,并且考慮到網(wǎng)絡(luò)拓撲、服務(wù)器位置以及緩存容量的限制的情況,實驗證明了結(jié)合OSN的預(yù)取模型能夠改善CDN的性能。
1.4 基于用戶移動性的預(yù)取
CDN中大多數(shù)預(yù)取方案針對的是固定網(wǎng)絡(luò),而據(jù)Cisco公司統(tǒng)計,在2016年,全球移動數(shù)據(jù)流量較2015年增長了63%,其中移動視頻流量占移動數(shù)據(jù)流量總量的60%,并且移動數(shù)據(jù)流量和移動視頻流量在未來幾年內(nèi)還將呈現(xiàn)持續(xù)增長趨勢[19]。同樣,CDN網(wǎng)絡(luò)也將面臨著大量移動用戶接入的問題,文獻[22]通過測量發(fā)現(xiàn)移動用戶的緩存命中率遠低于LRU緩存策略下的靜態(tài)用戶的緩存命中率。因此用戶移動性是CDN緩存和預(yù)取策略的重要因素。
由于個人的移動性存在一定的隨機性,CDN節(jié)點下可以分為不同的用戶群體,不同群體與CDN節(jié)點存在不同的關(guān)聯(lián)程度,因此可以通過構(gòu)建群體移動模型來優(yōu)化CDN預(yù)取。文獻[20]引入了PageRank的人群移動性內(nèi)容傳播(Crowd Mobility-based Content Propagation,CMCP)解決方案,通過關(guān)注不同用戶群體移動用戶的比例,預(yù)測未來的內(nèi)容需求分配。
1.5 預(yù)取方法的比較
以上根據(jù)預(yù)取時關(guān)注的對象不同,介紹了現(xiàn)有的預(yù)取方式,包括基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取和基于用戶移動性的預(yù)取,表1給出了幾種預(yù)取方式的對比。
基于流行度的預(yù)取僅根據(jù)內(nèi)容流行的趨勢,一般采用統(tǒng)計學(xué)方法,實現(xiàn)相對簡單。它不依賴于用戶的特性,可以作為服務(wù)器端宏觀地控制邊緣節(jié)點預(yù)取。早期的IPTV也是采用該預(yù)取方式,將部分流行度高的內(nèi)容預(yù)取到邊緣節(jié)點上,從而提高用戶的訪問質(zhì)量。但是基于流行度的預(yù)取技術(shù)缺乏對用戶訪問特性的研究,而且不同的用戶群體之間也存在著明顯的差異,比如在大學(xué)里學(xué)生一般大量地訪問科技文獻和技術(shù)視頻,而小區(qū)家庭中一般傾向于少兒視頻、體育賽事等一系列偏向于娛樂的業(yè)務(wù)需求。并且隨著P2P與CDN的結(jié)合,邊緣CDN節(jié)點越來越向用戶端靠近,節(jié)點附近用戶偏好對邊緣節(jié)點的緩存影響也愈加顯著,因此解決用戶訪問內(nèi)容差異性問題成為了提高預(yù)取質(zhì)量的重要所在?;谟脩羝玫念A(yù)取根據(jù)用戶的歷史訪問記錄構(gòu)建用戶畫像,提取用戶群體共同的內(nèi)容偏好,預(yù)取時根據(jù)用戶偏好對當前流行的內(nèi)容和最新發(fā)布的內(nèi)容進行預(yù)取。它給用戶訪問提供更精確服務(wù)的同時,采用數(shù)據(jù)挖掘方法又給節(jié)點帶來了大量的運算開銷。由于內(nèi)容的傳播很多的是由用戶之間的推薦,并且大量的內(nèi)容也在社交網(wǎng)絡(luò)上發(fā)布?;谏缃痪W(wǎng)絡(luò)的預(yù)取,通過用戶之間的社交關(guān)系,也可以提高用戶的訪問質(zhì)量?;谟脩粢苿有缘念A(yù)取主要應(yīng)用于移動互聯(lián)網(wǎng)中的內(nèi)容預(yù)取,增加了用戶對移動性對邊緣節(jié)點內(nèi)容需求的影響因素,以提高節(jié)點的服務(wù)質(zhì)量。
2 評價標準
為了對不同預(yù)取技術(shù)進行公平對比,學(xué)術(shù)界通常采用命中率[21]、準確率[22]、帶寬成本[23]以及平均響應(yīng)時延[24]評估預(yù)取技術(shù)對CDN系統(tǒng)性能的改善效果。
2.1 命中率
CDN系統(tǒng)中希望將用戶請求重新定向到離用戶最近的邊緣服務(wù)器上,以提高用戶訪問速度。在實際中,如果當服務(wù)器節(jié)點預(yù)先存儲有用戶請求內(nèi)容時稱之為命中;如果沒有事先緩存稱為未命中。命中率(Hit Rate,HR)體現(xiàn)了預(yù)取和緩存對用戶訪問加速的貢獻,定義為:
其中SR表示命中的請求數(shù),NR表示沒有命中的請求數(shù)。
2.2 準確率
命中率要求預(yù)取應(yīng)該在用戶訪問之前緩存內(nèi)容增加用戶的體驗質(zhì)量,但是如果用戶并沒有訪問,則預(yù)取會浪費網(wǎng)絡(luò)資源和服務(wù)器存儲資源。當預(yù)取規(guī)則沒有準確地獲取用戶需求時,節(jié)點服務(wù)器會從源服務(wù)器下載必要的內(nèi)容,導(dǎo)致服務(wù)器緩存資源浪費、帶寬成本增加。準確率可以間接表示預(yù)取規(guī)則的有效性,定義為:
其中TP表示用戶訪問的預(yù)取內(nèi)容數(shù)量,F(xiàn)P表示用戶沒有訪問的預(yù)取內(nèi)容數(shù)量。
2.3 帶寬成本
由于用戶訪問類型的多樣性,為了提高命中率則需要頻繁地進行預(yù)取操作,會造成邊緣節(jié)點和內(nèi)容服務(wù)器之間產(chǎn)生大量額外的帶寬消耗和節(jié)點服務(wù)器過于頻繁的緩存、刪除操作,從而降低用戶的體驗質(zhì)量。通常用帶寬成本作為預(yù)取觸發(fā)的約束條件,帶寬成本可定義為:
其中,Pband表示包含有預(yù)取策略的CDN系統(tǒng)下滿足用戶需求所需的總帶寬,Rband表示沒有預(yù)取策略的原CDN系統(tǒng)下用戶請求所需的總帶寬。
2.4 平均響應(yīng)時間
CDN的主要目標是提高用戶訪問速度,平均響應(yīng)時間的變化直接地反映了預(yù)取策略對CDN的優(yōu)化程度,現(xiàn)實中預(yù)取往往在減少平均響應(yīng)時間和帶寬成本之間進行權(quán)衡。平均響應(yīng)時間是CDN系統(tǒng)性能和用戶體驗質(zhì)量的重要指標,定義為:
其中,M是用戶請求的總數(shù)量,ti代表第i個請求開始時到連接結(jié)束時間。
3 未來研究方向
CDN預(yù)取技術(shù)是提升用戶體驗的有效方式,但CDN網(wǎng)絡(luò)本身仍有一些不足,信息時代的來臨和市場需求都迫切需要將CDN與新型技術(shù)進行融合,主要有軟件定義網(wǎng)絡(luò)(Software Define Network,SDN)[25]、網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization,NFV)[26]技術(shù)以及深度學(xué)習(xí)技術(shù),使其實現(xiàn)邊緣智能和自適應(yīng)組網(wǎng)等功能。未來對CDN預(yù)取技術(shù)研究將更加關(guān)注于CDN網(wǎng)絡(luò)與新技術(shù)融合帶來的挑戰(zhàn)。
3.1 SDN/NFV技術(shù)與CDN網(wǎng)絡(luò)融合
目前,大多數(shù)的CDN網(wǎng)絡(luò)是由各大廠家研制開發(fā)的專用型設(shè)備組成的,對多樣性的業(yè)務(wù)支持的能力不足,且自建網(wǎng)絡(luò)方式產(chǎn)生了資源獨占的現(xiàn)象,阻礙著CDN行業(yè)的快速發(fā)展。融合SDN/NFV技術(shù)到CDN網(wǎng)絡(luò),利用NFV的軟硬件解耦和功能抽象特點,以及利用SDN的設(shè)備控制與數(shù)據(jù)分離的特征,可以加強CDN的多業(yè)務(wù)智能化服務(wù)能力[27]。
在這種契機下,由差異化業(yè)務(wù)給CDN中內(nèi)容預(yù)取帶來的挑戰(zhàn):不同業(yè)務(wù)對應(yīng)內(nèi)容的格式、類型以及大小不盡相同;針對不同業(yè)務(wù)下相同類型的內(nèi)容的用戶需求也有所不同;不同業(yè)務(wù)的用戶訪問場景也存在差異。如何針對差異化業(yè)務(wù)預(yù)取合理的內(nèi)容,滿足不同業(yè)務(wù)下用戶的需求,實現(xiàn)CDN預(yù)取的靈活性,是下一步CDN預(yù)取技術(shù)的關(guān)鍵所在。
3.2 深度學(xué)習(xí)與CDN網(wǎng)絡(luò)融合
目前視頻提供商依賴于地理上分布的CDN網(wǎng)絡(luò),將視頻內(nèi)容盡可能靠近用戶放置,以提高視頻質(zhì)量并避免服務(wù)器端的單點故障。視頻流量爆炸式增長嚴重增加了CDN網(wǎng)絡(luò)的負擔(dān),準確分析視頻的特征并預(yù)取用戶需求的視頻內(nèi)容,是減輕網(wǎng)絡(luò)負擔(dān)的重要途徑。相對于自然語言的分析,對視頻數(shù)據(jù)的分析更為困難。深度神經(jīng)網(wǎng)絡(luò)通過分層學(xué)習(xí)過程,能夠有效地提取輸入數(shù)據(jù)的高維度特征,顯著提升計算機視覺、自然語言處理以及語音識別的精確度[28]。
深度神經(jīng)網(wǎng)絡(luò)給CDN中視頻預(yù)取帶來新的契機,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[29]能夠仿造生物的視知覺(Visual Perception)[30]機制,可以應(yīng)用于預(yù)取機制中的視頻分類和用戶偏好挖掘。此外,遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)[31]能夠?qū)r間順序的自然語言、語音識別等數(shù)據(jù)的變化進行建模,可用于預(yù)取時預(yù)測用戶需求。深度學(xué)習(xí)可以為CDN預(yù)取中內(nèi)容分類方法、用戶興趣挖掘等提供了更優(yōu)的解決方法,隨著流媒體內(nèi)容的發(fā)展,對視頻、音樂的預(yù)取將更加依賴于深度學(xué)習(xí)。
4 結(jié)論
本文以預(yù)取關(guān)注對象為基礎(chǔ),對近年來CDN預(yù)取技術(shù)進行綜述,總結(jié)歸納出基于流行度的預(yù)取、基于用戶偏好的預(yù)取、基于社交網(wǎng)絡(luò)的預(yù)取以及基于用戶移動性的預(yù)取這四類預(yù)取方式?;诹餍卸鹊念A(yù)取關(guān)注了網(wǎng)絡(luò)中普遍的內(nèi)容流行情況,本質(zhì)上反映出內(nèi)容的請求趨勢,它是當前一種主流的預(yù)取方式?;谟脩羝玫念A(yù)取通過挖掘群體用戶的偏好,使預(yù)取技術(shù)更加適應(yīng)于用戶的個性化需求,進一步提高了邊緣節(jié)點中緩存內(nèi)容的準確率?;谏缃痪W(wǎng)絡(luò)的預(yù)取根據(jù)用戶之間的聯(lián)系構(gòu)建內(nèi)容傳播的模型,預(yù)測用戶訪問內(nèi)容傳播位置,提高邊緣節(jié)點的緩存命中率?;谟脩粢苿有缘念A(yù)取根據(jù)用戶的移動性對節(jié)點內(nèi)容需求的影響,動態(tài)地調(diào)整內(nèi)容預(yù)取,提高了移動場景下節(jié)點服務(wù)器的緩存命中率。預(yù)取機制的主要目的是為了提高CDN網(wǎng)絡(luò)的緩存命中率和準確率,但是也會帶來一定的網(wǎng)絡(luò)資源消耗,因此可以大規(guī)模實施的預(yù)取技術(shù)需要控制預(yù)取的帶寬成本。CDN網(wǎng)絡(luò)與新技術(shù)融合發(fā)展是滿足信息時代需求的必然走向,本文分析了新型技術(shù)融合下預(yù)取技術(shù)面臨的挑戰(zhàn),并給出了可能的研究方向。
參考文獻
[1] “互聯(lián)網(wǎng)+”時代企業(yè)辦公自動化研究[J].信息技術(shù)與標準化,2015(8):66-69.
[2] 尹芹,華新海.基于融合CDN構(gòu)建未來智能內(nèi)容管道[J].電信科學(xué),2015,31(4):33-37.
[3] HWANG K,SUH D Y.Reducing perceptible IPTV zapping delay using CDN cache server[C].2013 International Conference on ICT Convergence(ICTC),2013:738-739.
[4] PARMAR J,VERMA J.State-of-artsurvey of various web prefetching techniques[C].International Conference on Inventive Computation Technologies.IEEE,2016:1-7.
[5] 王道誼,周文安,劉元安.內(nèi)容分發(fā)網(wǎng)絡(luò)中內(nèi)容流行度集中性的研究[J].計算機工程與應(yīng)用,2011,47(6):102-104.
[6] 聶華,張敏,郭敬榮,等.基于內(nèi)容流行度差異性的CDN-P2P融合分發(fā)網(wǎng)絡(luò)緩存替換機制研究[J].通信學(xué)報,2015,36(s1):9-15.
[7] SZABO G,HUBERMAN B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[8] 李琦,陳玉新.移動平均法的滯后問題[J].統(tǒng)計與決策,2008(22):152-153.
[9] HASSINE N B,MARINCA D,MINET P,et al.Caching strategies based on popularity prediction in content delivery networks[C].2016 IEEE 12th International Conference on Wireless and Mobile Computing,Networking and Communi-cations(WiMob),New York,2016:1-8.
[10] 付凌暉,王惠文.多項式回歸的建模方法比較研究[J].數(shù)理統(tǒng)計與管理,2004,23(1):48-52.
[11] HASSINE N B,MARINCA D,MINET P,et al.Popularity prediction in content delivery networks[C].2015 IEEE 26th Annual International Symposium on Personal,Indoor, and Mobile Radio Communications(PIMRC),Hong Kong,2015:2083-2088.
[12] HASSINE N B,MARINCA D,MINET P,et al.Expert-based on-line learning and prediction in content delivery networks[C].2016 International Wireless Communications and Mobile Computing Conference(IWCMC),Paphos,2016:182-187.
[13] Hu Wen,Huang Jiahui,Wang Zhi,et al.MUSA:Wi-Fi AP-assisted video prefetching via Tensor Learning[C].2017 IEEE/ACM 25th International Symposium on Quality of Service(IWQoS),Vilanova i la Geltru,2017:1-6.
[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[15] LIN J,LIN J H.Divergence measures based on the Shannon entropy[J].IEEE Transactions on Inform Theory,1991,37(1):145-151.
[16] 田瑞云.基于Hadoop的CDN-P2P系統(tǒng)中內(nèi)容預(yù)測機制研究與實現(xiàn)[D].北京:北京郵電大學(xué),2013.
[17] KILANIOTI I.Improving multimedia content delivery via augmentation with social information: the social prefetcher approach[J].IEEE Transactions on Multimedia,2015,17(9):1460-1470.
[18] SASTRY N,YONEKI E,CROWCROFT J.Buzztraq:predicting geographical access patterns of social cascades using social networks[C].Proceedings of the Second ACM Euvosys Workshop on Social Network Systems,2009:39-45.
[19] 唐紅,韓健,段潔,等.基于內(nèi)容流行度的移動CCN緩存策略研究[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2018,30(1):119-126.
文獻[20]-[31]略
作者信息:
王舒平,張 毅,韋文聞,楊 碩,何 皇
(重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶400065)