《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 設(shè)計應(yīng)用 > LDA模型在網(wǎng)絡(luò)視頻推薦中的應(yīng)用
LDA模型在網(wǎng)絡(luò)視頻推薦中的應(yīng)用
2016年微型機與應(yīng)用第11期
盧盛祺1,2,3,管連4,金敏3,韓景倜1,2
(1.上海財經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財經(jīng)大學(xué)上海市金融信息技術(shù)重點實驗室,上海 200433; 3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國際商業(yè)機器(中國)有限公司,北京 100101)
摘要: 視頻推薦系統(tǒng)最主要的功能就是從用戶的歷史行為中發(fā)現(xiàn)用戶興趣偏好,然后找出其可能感興趣的視頻并展示給用戶。該文針對用戶的視頻選擇過多、視頻轉(zhuǎn)化率較低等問題,提出了一種基于LDA模型的電影推薦方法。首先將視頻的評論文本集轉(zhuǎn)化為評論主題詞語的三層貝葉斯模型,提取每個視頻的評論關(guān)鍵詞,再基于目標(biāo)用戶的歷史行為發(fā)現(xiàn)其偏好的視頻關(guān)鍵詞集合,最后利用杰卡德相似系數(shù),預(yù)測用戶可能感興趣的視頻,以實現(xiàn)基于內(nèi)容的個性化視頻推薦服務(wù)。實驗表明,該方法可以提高視頻推薦的精度,使得視頻轉(zhuǎn)化率得到較好的提升。
Abstract:
Key words :

  盧盛祺1,2,3,管連4,金敏3,韓景倜1,2

 ?。?.上海財經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海財經(jīng)大學(xué)上海市金融信息技術(shù)重點實驗室,上海 200433;3.復(fù)旦大學(xué) 軟件學(xué)院,上海 200433;4.國際商業(yè)機器(中國)有限公司,北京 100101)

  摘要視頻推薦系統(tǒng)最主要的功能就是從用戶的歷史行為中發(fā)現(xiàn)用戶興趣偏好,然后找出其可能感興趣的視頻并展示給用戶。該文針對用戶的視頻選擇過多、視頻轉(zhuǎn)化率較低等問題,提出了一種基于LDA模型的電影推薦方法。首先將視頻的評論文本集轉(zhuǎn)化為評論主題詞語的三層貝葉斯模型,提取每個視頻的評論關(guān)鍵詞,再基于目標(biāo)用戶的歷史行為發(fā)現(xiàn)其偏好的視頻關(guān)鍵詞集合,最后利用杰卡德相似系數(shù),預(yù)測用戶可能感興趣的視頻,以實現(xiàn)基于內(nèi)容的個性化視頻推薦服務(wù)。實驗表明,該方法可以提高視頻推薦的精度,使得視頻轉(zhuǎn)化率得到較好的提升。

  關(guān)鍵詞:LDA模型;用戶偏好;視頻推薦;電子推薦;貝葉斯模型

0引言

  隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)民數(shù)量的迅速上升,人們正處在信息過載的時代。尤其在網(wǎng)絡(luò)視頻領(lǐng)域,各種視頻數(shù)據(jù)正在以驚人的速度增長。例如,YouTube視頻分享網(wǎng)站目前已經(jīng)擁有超過1.5×108個視頻[1],國內(nèi)的專業(yè)視頻網(wǎng)站優(yōu)酷土豆、騰訊視頻、搜狐、愛奇藝等,視頻播放量和瀏覽次數(shù)也每日劇增。面對海量的視頻信息,用戶很難找到自己感興趣的內(nèi)容,而視頻提供商又迫切地需要將優(yōu)質(zhì)的視頻準(zhǔn)確地推送給用戶,以提高視頻轉(zhuǎn)化率和用戶停留時間。推薦系統(tǒng)被認為是行之有效的方法,其可以建立用戶與用戶、用戶與視頻之間的關(guān)系,因而成為近幾年來視頻領(lǐng)域的研究熱點。

  目前在視頻網(wǎng)站中使用的推薦方法主要有相關(guān)性推薦和個性化推薦兩大類,相關(guān)性推薦就是把用戶正在觀看或瀏覽的相關(guān)視頻推薦給用戶,個性化推薦是根據(jù)用戶的歷史行為推斷用戶的興趣愛好,并以此推薦用戶可能感興趣的視頻列表。在90年代中期,美國人工智能協(xié)會春季會議(AAAI)、ACM智能用戶接口會議(ACMIUI)、國際人工智能聯(lián)合大會(IJCAI)等國際會議上發(fā)表了多篇有關(guān)個性化推薦系統(tǒng)的論文[2],此后,推薦系統(tǒng)在電子商務(wù)、網(wǎng)絡(luò)視頻等領(lǐng)域得到深入研究。例如,在2006年,美國著名的電影租賃公司Netflix就推出了關(guān)于推薦系統(tǒng)研究的比賽,在2005~2009年間,更多的推薦算法[36]被提出,并取得令人矚目的研究成果。從視頻推薦的研究技術(shù)上看,目前主流的視頻推薦方法有基于協(xié)同過濾的推薦和基于內(nèi)容的推薦。協(xié)同過濾推薦[7]的核心思想是通過發(fā)現(xiàn)具有相似喜好的用戶群體,或評分相似的視頻集合,將用戶可能感興趣的視頻推薦給用戶。例如,美國視頻網(wǎng)站YouTube,由于其視頻內(nèi)容繁多、視頻標(biāo)簽不規(guī)則、存儲周期不確定等原因,采用的就是最簡單的協(xié)同過濾算法。參考文獻[8]詳細介紹了YouTube推薦算法的實現(xiàn)。參考文獻[9]提出使用基于群組內(nèi)其他用戶信息預(yù)測用戶興趣點的方法;參考文獻[10]采用基于社會化網(wǎng)絡(luò)的視頻推薦方法,認為社交網(wǎng)絡(luò)中的好友也應(yīng)該具有相似的視頻偏好。參考文獻[11]將不同源網(wǎng)站針對某部電影的相關(guān)推薦聚合起來,結(jié)合語義知識從中按照相似度高低進行推薦?;趦?nèi)容的推薦[12]核心思想是通過分析用戶歷史行為來獲取用戶興趣特征,然后推薦與用戶偏好視頻內(nèi)容相似的視頻。比如網(wǎng)站Jinni定義了描述電影基因的900多個標(biāo)簽(類型、劇情、評分等),然后人工標(biāo)注每部電影的這些標(biāo)簽,最后根據(jù)專家標(biāo)注的向量空間做出推薦。此外,PARK J等人提出基于視頻關(guān)鍵詞的個性化推薦方法[13],YANG B等人提出線性組合描述視頻相關(guān)性的方法[14]。

  人工標(biāo)注電影標(biāo)簽耗時又耗力,在實際應(yīng)用中無法大規(guī)模應(yīng)用;基于關(guān)鍵詞的視頻特征描述是可行的方法,最常用的關(guān)鍵詞提取方法是TFIDF,該方法是一種基于詞頻的統(tǒng)計方法,但是局限于字面匹配,缺乏語義理解。LDA(Latent Dirichlet Allocation)則是近些年興起的比較熱門的文本挖掘技術(shù),主要用于文本語義層面的分析處理,由BLEI D M等人在 2003 年提出[15],用來發(fā)現(xiàn)大規(guī)模文檔的主題分布情況。目前,該技術(shù)在視頻推薦領(lǐng)域也得到良好的應(yīng)用。例如,美國的視頻網(wǎng)站Hulu,搭建了Hadoop集群來處理用戶興趣行為,包括觀看、搜索、評論以及用戶對推薦系統(tǒng)的反饋行為等,其推薦引擎的離線部分,用于計算一系列的關(guān)聯(lián)矩陣,例如視頻之間的兩兩相似度、視頻主題與視頻之間的關(guān)聯(lián)等,其使用的關(guān)鍵技術(shù)之一就是LDA模型。

  本文基于LDA模型,研究其在電影推薦系統(tǒng)中的應(yīng)用。以視頻的用戶評論為數(shù)據(jù)基礎(chǔ),識別出每個視頻的影評關(guān)鍵詞序列,再結(jié)合目標(biāo)用戶的歷史行為視頻列表,建立用戶興趣模型,最后利用杰卡德相似系數(shù)(Jaccard Similarity)方法[16],發(fā)現(xiàn)影評內(nèi)容相關(guān)的視頻列表,為用戶提供相關(guān)性視頻和個性化的視頻推薦服務(wù)。

1基于LDA模型的網(wǎng)絡(luò)視頻推薦

  1.1影評數(shù)據(jù)預(yù)處理

  基于LDA模型的網(wǎng)絡(luò)視頻推薦中,用戶歷史行為包括視頻觀看、視頻下載和視頻收藏等。這些視頻列表可以看作為該用戶的偏好視頻集合,集合中每個視頻對應(yīng)一個影評數(shù)據(jù)集。在對影評數(shù)據(jù)集進行LDA建模前,需對每個數(shù)據(jù)集進行中文分詞、詞性標(biāo)注、新詞識別、停用詞過濾等預(yù)處理操作,以降低文本空間的維度,提高LDA建模效率。

  一般的中文分詞方法有正向最大匹配法、逆向最大匹配法和雙向最大匹配法,其主要原理就是將文本劃分為單字或單詞串,再與詞庫進行匹配,直至劃分成功。本文對中科院的NLPIR分詞系統(tǒng)[17]進行二次開發(fā),實現(xiàn)對影評數(shù)據(jù)集的中文分詞和詞性標(biāo)注。每個詞都指派合適的詞性,標(biāo)注格式表示為名詞(/n)、動詞(/v)、形容詞(/a)、數(shù)詞(/m)、量詞(/q)、副詞(/d)、標(biāo)點符號(/w)等。

  在分詞過程中,系統(tǒng)還需識別新詞,這些詞是字典中未收錄過的詞語。比如在句子“力挺趙又廷”中,“趙又廷”是個詞, 如果要計算機識別,最終結(jié)果可能是劃分成3個單獨的字。目前,新詞識別是評價分詞效果的重要指標(biāo)之一,解決這個問題的簡單方法是創(chuàng)建用戶詞典。本文創(chuàng)建的典型用戶詞典有影視明星詞典、影視名稱詞典、影視流行語詞典等,創(chuàng)建方式主要是從網(wǎng)絡(luò)詞庫載入,或手動輸入添加。

  分詞后的評論文本中,包含大量的無用詞,比如代詞、方位詞、介詞、限定詞、 助詞、嘆詞、連詞、擬聲詞等,這些字或詞沒有特別的含義,不僅對主題發(fā)現(xiàn)的語義層面的分析沒有太大幫助,而且還會降低 LDA 建模的效率,因此需要將這些詞過濾掉。本文首先根據(jù)詞性將代詞、介詞、連詞等過濾掉,再導(dǎo)入停用詞表對評論文本進行二次過濾,以提高分詞效果。

  1.2影評LDA建模過程

  本文利用MCMC方法中的Gibbs Sampling算法對每部電影的用戶評論數(shù)據(jù)集進行參數(shù)估計,也就是估計文本集的影評主題概率分布Θ和主題詞項概率分布Φ。LDA模型是一個文檔、主題、單詞三層的貝葉斯模型,應(yīng)用到視頻推薦系統(tǒng)中,可轉(zhuǎn)化為影評集、影評潛在主題、影評詞項三層用戶評論模型,其矩陣模型圖如1所示。

001.jpg

  其中,D表示一部電影用戶評論集合, dm是第m條影評;Θ表示每條影評的主題分布,zk是第k個隱含主題;Φ表示每個主題在所有詞項上的概率分布,wn是第n個詞項。分詞后的影評數(shù)據(jù)集,對應(yīng)矩陣圖中的文本集D,算法的目標(biāo)就是估計模型中后兩個矩陣的參數(shù)分布。

  Gibbs Sampling算法就是每次選取概率向量的一個維度,通過給定其他維度的變量值來采樣當(dāng)前維度的值,不斷迭代該運行過程,直到待估計的參數(shù)收斂[18]。其計算公式如下:

  1.png

  其中,zi表示第i個單詞對應(yīng)的主題變量;┐i表示不包括其中的第i項;n(t)k表示主題k中出現(xiàn)詞項t的次數(shù);βt是詞項t的Dirichlet先驗;n(k)m表示評論文本m出現(xiàn)主題k的次數(shù);αk是主題k的Dirichlet先驗。

  在視頻推薦系統(tǒng)中,影評數(shù)據(jù)集的LDA訓(xùn)練過程為:

  (1)對影評數(shù)據(jù)集中每條影評中的每個詞語w,隨機分配一個主題編號z(該z是隱含變量,即每個單詞所對應(yīng)的語義是未知的);

  (2)重新掃描影評數(shù)據(jù)集,對集合中的每個詞項w,按照Gibbs Sampling公式,重新采樣詞語w的主題z,并在集合中進行更新;

  (3)重復(fù)上述影評數(shù)據(jù)集的重新采樣過程,直至Gibbs Sampling收斂,即每條評論下的主題分布和每個主題下的詞項分布收斂;

  (4)統(tǒng)計影評數(shù)據(jù)集的主題詞項和影評主題的共現(xiàn)頻率矩陣,該矩陣就是LDA的生成模型。

  上述LDA模型的訓(xùn)練,預(yù)設(shè)參數(shù)有α和β,一般β取默認值 0.01,α等于50/K,K為影評數(shù)據(jù)集的主題數(shù)目[19]。本文采用perplexity(困惑度)來確定最佳主題數(shù)量,即設(shè)定不同的K值,對影評數(shù)據(jù)集進行LDA模型的訓(xùn)練,直至模型的困惑度盡量低[20]。困惑度計算公式如下:

  2.png

  上式中,D為某視頻的影評數(shù)據(jù)集,dm={w1,w2,w3,…,wNn}表示第m條用戶評論,一條評論看成一篇文檔,N為數(shù)據(jù)集中的評論文檔個數(shù),Nm為評論文檔d中詞語的個數(shù),P(dm)為評論文檔dm相似性,dm的似然值為:

  3.png

  其中n(wn,d)為文檔d中詞w出現(xiàn)的次數(shù)。

  1.3影評關(guān)鍵詞提取

  視頻推薦系統(tǒng)的一個首要任務(wù)是根據(jù)用戶歷史行為發(fā)現(xiàn)用戶的興趣偏好,也就是從用戶偏好的視頻列表中,提取每部視頻的影評數(shù)據(jù)集的關(guān)鍵詞,其提取過程依賴LDA生成模型的兩個重要分布:影評主題概率分布Θ和主題詞項概率分布Φ。詞語的重要度由主題生成該詞語的概率和該主題在影評數(shù)據(jù)集中的重要度共同決定[21]。

  首先,基于影評主題分布計算影評數(shù)據(jù)集中每個主題的重要度。該分布是每行一條用戶評論、每列一個隱含主題的概率矩陣。其計算公式為:

  4.png

  其中,N為影評數(shù)據(jù)集用戶評論的個數(shù),T為文檔集中主題的個數(shù),dn表示第n條用戶評論,zi 表示第i個主題。

  然后,基于主題詞項分布計算影評數(shù)據(jù)集合中每個詞語的重要度。該分布是每行一個主題,每列一個詞語的分布,表示了每個詞語在不同主題上的概率值,其計算公式為:

  5.png

  其中,T為主題個數(shù),P(w|zi)為詞語w在主題zi上的概率值,而 P(zi|D)表示zi在影評數(shù)據(jù)集D中主題的重要度。

  最后,將詞語按詞語重要度從大到小排序,取權(quán)重較大的前i個詞語作為該視頻的影評關(guān)鍵詞集合{kw1,kw2,kw3,…,kwi},其中kwi表示該視頻的第i個關(guān)鍵詞。

  1.4個性化視頻推薦

  視頻推薦系統(tǒng)的最終目的是根據(jù)用戶的興趣偏好進行個性化的視頻推薦,也就是根據(jù)目標(biāo)用戶偏好的視頻集合,將影評主題相似的視頻推薦給該用戶。本文利用杰卡德相似系數(shù)(Jaccard Similarity)方法,衡量兩部視頻間的相似度,實質(zhì)是計算兩個視頻的影評關(guān)鍵詞集合的相似度,系數(shù)越大,說明這兩部視頻的內(nèi)容越相似。電影的關(guān)鍵詞集合可以表示為U{a1,a2,a3,…,ai},其中ai表示該電影的第i個關(guān)鍵詞。

  本文個性化視頻推薦的主要流程為:

  (1)從用戶偏好視頻列表中取出一部視頻,其影評關(guān)鍵詞集合為U。

  (2)從待匹配視頻列表中取出一部視頻,其影評關(guān)鍵詞集合為V;使用 Jaccard Similarity方法計算這兩部視頻影評之間的相似度,即集合U和V的交集元素在U和V的并集中所占的比例,用符號Jr(U, V)表示:

  6.png

  (3)計算這兩部視頻的類型之間的相似度,假設(shè)這兩部視頻的類型集合分別為A和B,同樣利用 Jaccard Similarity方法計算類型相似度,記作Jt(A, B)。為影評相似度Jr和類型相似度Jt分配權(quán)衡因子p(0<p<1),綜合衡量計算這兩部視頻之間的相似度,記作J:

  J=p×Jr(A,B)+(1-p)×Jt(A,B)(7)

  其中,p的取值要通過反復(fù)試驗和專家評審最終確定,初始化為0.1。計算視頻間的相似度J,每次以0.1為單位在定義域范圍內(nèi)遞增賦值,重新計算視頻間的相似度。再根據(jù)不同p值下的視頻相似度系數(shù),由專家指定最佳p值。一般視頻類型有“動作”、“愛情”、“魔幻”、“劇情”等。之所以添加這一特征項,是考慮到如果同時有多部電影與目標(biāo)電影的相似度系數(shù)接近,那么同一類型的視頻應(yīng)該優(yōu)先被推薦。

  (4)從待匹配視頻列表中取出下一部視頻,按照上述步驟(2)和(3),計算新取的視頻與目標(biāo)視頻的相似度,直至待匹配視頻列表為空。

  (5)從用戶偏好視頻列表中取出下一部視頻,重復(fù)上述步驟(2)、(3)、(4),分別計算待匹配列表L中每部視頻與該視頻的相似度,直至用戶偏好視頻列表為空。

  

002.jpg

  視頻列表L之間的相似度矩陣(6)至此,已經(jīng)建立了用戶偏好視頻列表與待匹配視頻列表的影評相似度矩陣,如圖2所示,其中,用戶偏好視頻列表為M,待匹配視頻列表為L。假設(shè)個性化推薦列表為G,其格式為G{視頻ID:相似度系數(shù)},系統(tǒng)根據(jù)視頻間的相似度矩陣,為M中的每個視頻從L中提取相似系數(shù)較大的前n個視頻,添加到G中生成該用戶的個性化視頻推薦列表,如果待添加的視頻在G中已經(jīng)存在,但相似系數(shù)較大,則在G中更新該視頻的相似系數(shù);否則,添加下一部匹配的視頻,即:

  8.png

  其中,f(i)=Ji,k-Ji,t,Ji,k表示L中第i個視頻與M中第k個視頻的相似度,Ji,t表示L中第i個視頻與M中第t個視頻的相似度。在個性化推薦列表最終生成后,還需按照相似系數(shù)從大到小對視頻進行排序,排序后的格式為{ID1:J1,ID2:J2,…,IDi:Ji},J1>J2>J3>…>Ji,系統(tǒng)選取相似系數(shù)較大的前n個視頻推薦給用戶,完成個性化視頻推薦服務(wù)。

2實驗設(shè)計與結(jié)果評測

  2.1實驗基本流程

  從某專業(yè)視頻網(wǎng)站中隨機選取500名活躍用戶,每個用戶的歷史行為記錄中平均包含100部左右的電影,實驗將每個用戶的偏好視頻列表分為兩個部分:60%的視頻作為訓(xùn)練集,用來訓(xùn)練最佳LDA主題模型,發(fā)現(xiàn)用戶的興趣偏好特征(影評關(guān)鍵詞的提取),并使用Jaccard Similarity方法推導(dǎo)用戶可能感興趣的視頻集合;40%的視頻作為測試集,用于評估和檢測本文提出的推薦系統(tǒng)的性能。圖3顯示的是訓(xùn)練集中部分用戶的歷史行為數(shù)據(jù)。

003.jpg

  實驗數(shù)據(jù)準(zhǔn)備好后,按照本文介紹的視頻推薦方法分別對這500個用戶的訓(xùn)練集中用戶偏好視頻的影評數(shù)據(jù)集合進行分析處理,生成個性化視頻推薦列表。步驟如下:

 ?。?)提取訓(xùn)練集視頻列表中每個視頻的影評內(nèi)容,包含電影ID、用戶ID、評論文本、用戶評分、評論時間等,提取每部電影的所有評論數(shù)據(jù),一條評論看作一篇文檔,n條評論構(gòu)成該視頻的一個影評數(shù)據(jù)集。然后對每個數(shù)據(jù)集分別進行中文分詞、詞性標(biāo)注、新詞識別、停用詞過濾等預(yù)處理操作,將數(shù)據(jù)集的噪音降到最低,并轉(zhuǎn)化為標(biāo)準(zhǔn)的LDA詞袋矩陣(如圖1中的D)。

  (2)隨機抽取50個視頻及其對應(yīng)的影評內(nèi)容,分別對每個影評數(shù)據(jù)集設(shè)置不同的主題數(shù)目K,令β=0.01,α=50/K,利用開源的GibbsLDA++建模工具,對影評數(shù)據(jù)集應(yīng)用LDA語義分析過程,并結(jié)合困惑度計算公式(2)和(3)訓(xùn)練出每個數(shù)據(jù)集的最佳主題數(shù)目K,然后取這50個視頻的最佳主題的均值K^,作為本次實驗樣本集的LDA建模主題數(shù)目。

 ?。?)根據(jù)每個影評數(shù)據(jù)集的LDA生成模型中的影評主題概率分布Θ和主題詞項概率分布Φ,利用式(4)計算各個隱含主題的重要性,圖4是某個影評數(shù)據(jù)集的LDA生成模型中的部分主題概率分布圖;然后利用詞語重要性計算公式(5),提取影評數(shù)據(jù)集的關(guān)鍵詞,記作Vi{t1,t2,t3,…},Vi表示第i部視頻的關(guān)鍵詞集合。

  

004.jpg

  (4)對于每個目標(biāo)用戶,其視頻偏好列表中每個視頻的關(guān)鍵詞集合為{V1,V2,…,Vi,…,Vj},每個集合中大概包含50個關(guān)鍵詞,偏好視頻數(shù)目平均為60個,所有偏好視頻的關(guān)鍵詞集合構(gòu)成了該目標(biāo)用戶的興趣偏好特征集合,利用Jaccard Similarity方法,建立待推薦視頻與偏好視頻的相似度矩陣。實驗訓(xùn)練集中共有3 480部視頻,除去目標(biāo)用戶的偏好視頻列表M(大約60部),將剩下的3 420多部視頻表示為待匹配視頻列表L,該列表中的每一部視頻有其自身的影評關(guān)鍵詞序列,利用式(6)和(7)分別計算L中每個視頻與M中偏好視頻的相似度,建立相似度矩陣,其中,權(quán)衡因子p取值0.7(實驗過程中發(fā)現(xiàn),該值的權(quán)衡效果最好)。

 ?。?)根據(jù)相似度矩陣,利用式(8)從待匹配視頻列表L中選取相關(guān)性系數(shù)較高的視頻,添加到匹配視頻列表G,并不斷更新G中每部視頻的權(quán)值直至列表完全生成,再從大到小按序?qū)⑶?0部電影推薦給該目標(biāo)用戶,完成個性化視頻推薦服務(wù)。

  2.2實驗結(jié)果評測

  判斷一個推薦系統(tǒng)的質(zhì)量和性能,常用的評測指標(biāo)有:準(zhǔn)確度、覆蓋率、召回率、多樣性、新穎性、驚喜度等[22],本文從準(zhǔn)確率和召回率兩個角度評測本文推薦算法的性能。

  (1)準(zhǔn)確率和召回率

  準(zhǔn)確度Precision用于度量一個推薦系統(tǒng)預(yù)測用戶行為的能力,描述的是推薦視頻列表中正確視頻的條數(shù)與推薦列表條數(shù)的比值。召回率Recall描述的是推薦視頻列表中正確視頻的條數(shù)與測試集視頻列表條數(shù)的比值,衡量的是查全率。F1是Precision和Recall的加權(quán)調(diào)和平均,用于綜合反映整體指標(biāo)。

  (2)實驗結(jié)果分析

  為了說明本文推薦算法的性能特點,實驗中每次隨機選取10個用戶作為1組,共生成10個分組,然后分別使用本文的推薦方法(方法1)、基于item的協(xié)同過濾方法(方法2)、基于user的協(xié)同過濾方法(方法3),生成視頻推薦列表,然后分別對實驗結(jié)果進行評估,以證明本文推薦算法的良好應(yīng)用效果。方法2和方法3都是以評分為數(shù)據(jù)基礎(chǔ),前者參照的是該用戶對與某視頻相似的多個視頻的已有評分值,后者參照的是與該用戶相似的多個用戶對某視頻的已有評分值。

007.jpg

  圖5分別顯示了3種推薦方法在不同用戶分組上的準(zhǔn)確率和召回率分布情況,圖6顯示了3種推薦方法在不同用戶分組上的F1值分布情況。

005.jpg

006.jpg

  從評測結(jié)果中可以發(fā)現(xiàn),不管在準(zhǔn)確率還是召回率上,本文的推薦算法都要優(yōu)于基于user的協(xié)同過濾算法和基于item的協(xié)同過濾算法,其主要原因在于:(1)基于user的協(xié)同過濾方法考慮的是用戶間的相似度,但在實際的項目應(yīng)用過程中,用戶間的相似性會受到多種因素的影響,具有極大的不穩(wěn)定性和不可靠性;而基于item的協(xié)同過濾算法中視頻相似度的計算,僅僅依靠用戶對視頻的打分情況來判斷,并不能取得很好的效果,還可能導(dǎo)致推薦視頻并不是目標(biāo)用戶所感興趣的,反而降低用戶體驗。(2)基于內(nèi)容的視頻推薦方法的實質(zhì)是計算兩個視頻之間內(nèi)容或主題上的相似度,為用戶推薦主題相關(guān)的視頻,這種方法具有穩(wěn)定性和確定性,極大地提高了推薦視頻的用戶觀看轉(zhuǎn)化率。但是,這種方法存在無法為用戶推薦從未涉及過的領(lǐng)域,即冷啟動的缺點,這也是本課題今后研究的重點。

3結(jié)束語

  本文應(yīng)用LDA語義分析過程,首先對視頻系統(tǒng)中每部電影的影評數(shù)據(jù)集進行關(guān)鍵詞提取,然后基于用戶歷史行為,構(gòu)建偏好視頻的所有關(guān)鍵詞集合,最后利用杰卡德相似系數(shù),將影評主題相關(guān)的視頻推薦給目標(biāo)用戶。實驗證明,本文的推薦方法是行之有效的,而且極大地提高了推薦精度。

  在網(wǎng)絡(luò)視頻這個開放性的平臺,用戶歷史行為是推薦系統(tǒng)的重要依據(jù)之一,但是并非所有歷史記錄中的電影都是用戶喜歡的,還需要根據(jù)觀看時長、評論文本情感傾向等多方面判斷用戶真正偏好的視頻。此外,用戶的興趣愛好具有階段性,不同的時間點可能偏向不同類型的視頻;社會化網(wǎng)絡(luò)的發(fā)展,使得用戶的興趣愛好還可能會受到朋友圈的影響;用戶對于系統(tǒng)推薦的視頻,所表現(xiàn)出的在線反饋行為等,這些問題都是本文下一步的研究重點。

  參考文獻

 ?。?] SKRISHNAPP, D K, ZINK M, Griwodz C. Cachecentric video recommendation: an approach to improve the efficiency of YouTube caches[C]. In Proceedings of the 4th ACM Multimedia Systems Conference, 2013: 261270.

 ?。?] McSHERRY F, MIRONOV I. Differentially private recommender systems: building privacy into the net[C].In Proceeding of the 15th ACM SIGKDD Dnternational Conference on Knowledge Discovery and Data Mining, 2009: 627636.

 ?。?] LEMIRE D, MACLACHLAN A. Slope one predictors for online ratingbased collaborative filtering[C]. In SIAM Data Mining, 2005: 15.

  [4] BELL R, KOREN Y, VOLINSKY C. Modeling relationships at multiple scales to improve accuracy of large recommender systems[C]. In Proceeding of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007: 95104.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。