123,123,123

协同过滤推荐研究综述

来源：微型机与应用2013年第6期

张瑶，陈维斌，傅顺开

(华侨大学计算机科学与技术学院，福建厦门 361000)

摘要： 推荐技术是目前在很多领域中广泛使用的技术之一。而协同过滤推荐算法是应用在推荐技术中很成功的算法。主要介绍了协同过滤推荐技术，总结了当前推荐算法的传统方法、改进算法以及性能评测方法。同时，分析了协同过滤推荐算法中的问题以及相应的解决办法。最后阐述了协同过滤推荐系统中仍需解决的问题和未来可能的发展方向。

關(guān)鍵詞： 推荐系统协同过滤推荐算法稀疏性冷启动能评测

Abstract：

Key words :

摘要：推薦技術(shù)是目前在很多領(lǐng)域中廣泛使用的技術(shù)之一。而協(xié)同過濾推薦算法是應用在推薦技術(shù)中很成功的算法。主要介紹了協(xié)同過濾推薦技術(shù)，總結(jié)了當前推薦算法的傳統(tǒng)方法、改進算法以及性能評測方法。同時，分析了協(xié)同過濾推薦算法中的問題以及相應的解決辦法。最后闡述了協(xié)同過濾推薦系統(tǒng)中仍需解決的問題和未來可能的發(fā)展方向。
關(guān)鍵詞：推薦系統(tǒng)；協(xié)同過濾推薦算法；稀疏性；冷啟動；性能評測

    每天，人們都要面對很多的選擇，通常會以周圍人的意見作出選擇。然而，面對海量的網(wǎng)絡資源時，要從中作出最適合的選擇就變得非常困難。電子商務系統(tǒng)作為目前典型的成功互聯(lián)網(wǎng)應用，提供了更豐富的物品。為幫助大家更快速準確地定位自己的需求，推薦系統(tǒng)在電子商務系統(tǒng)中應運而生,例如知名的亞馬遜等平臺[1]。
    目前，應用于推薦系統(tǒng)的算法主要分三類：基于內(nèi)容的過濾推薦算法、協(xié)同過濾推薦算法及混合推薦算法。
    基于內(nèi)容的過濾推薦算法[2]是對用戶的興趣進行分析，構(gòu)成用戶配置文件，并將其和文件集中的文件用共同的特征變量表示。最后比較兩者的相似度來為用戶進行推薦。隨后，通過用戶的反饋信息，不斷更新用戶配置文件，以此來動態(tài)地為用戶推薦感興趣的信息[3]。
    協(xié)同過濾推薦算法是通過用戶對項目的評分數(shù)據(jù)，找到與目標用戶或項目相似的對象作為候選推薦。當前主要的協(xié)同過濾推薦算法有兩種：基于用戶(user-based)和基于項目(item-based)的協(xié)同過濾推薦算法?；谟脩舻膮f(xié)同過濾推薦算法認為,如果用戶對一些項目的評分比較相似, 那么他們對其他項目的評分也比較相似;基于項目的協(xié)同過濾推薦算法認為,項目間的評分具有相似性,可以通過用戶對目標項目的若干相似項目的評分來估計該項目的分值[4-5]。
    混合推薦算法[6]是將基于內(nèi)容的過濾和協(xié)同過濾相結(jié)合的方法,既保留了用戶配置文件來代表用戶的興趣，同時又根據(jù)該配置文件來尋找相似的用戶，兩種方法互補完成推薦。
    本文主要介紹協(xié)同過濾推薦算法,因為目前它的應用最為普遍。
1 協(xié)同過濾推薦技術(shù)
    協(xié)同過濾推薦技術(shù)之所以得到廣泛的應用，主要得益于它獨立于被推薦對象的內(nèi)容，只依靠用戶對項目的評分或是喜好就可以為用戶推薦。同時，還可以幫助用戶發(fā)掘潛在的興趣。這些優(yōu)點使得它幾乎適用于所有領(lǐng)域。
1.1 當前的協(xié)同過濾推薦算法
　當前最常用的協(xié)同過濾推薦算法是基于用戶和基于項目的算法?；谟脩舻膮f(xié)同過濾技術(shù)[7]首先獲取用戶對于項目的評分，然后通過用戶間的相似性尋找目標用戶的最近鄰居，最后利用預測函數(shù)和鄰居用戶的評分來完成推薦；基于項目的協(xié)同過濾技術(shù)[5,8]則根據(jù)項目間相似性得到目標項目的相似項目集合，然后通過預測函數(shù)和相似項目集合來產(chǎn)生推薦列表。
    下文將詳細地介紹和討論以上兩種算法及其一些改進算法。
1.2 基于用戶的協(xié)同過濾推薦算法
    基于用戶的協(xié)同過濾算法是早期較傳統(tǒng)的一種自動協(xié)同過濾技術(shù)。它主要依靠系統(tǒng)中的用戶評分矩陣來計算用戶間的相似性，再根據(jù)相似性來計算目標用戶對于項目的預測評分。
   定義用戶評分矩陣
    一個m×n的矩陣。m和n分別代表矩陣中的用戶數(shù)和項目數(shù)。矩陣中的元素代表用戶對項目的評分或偏好。
1.2.1 相似性計算方法
    協(xié)同過濾推薦算法本質(zhì)上是基于近鄰的搜索算法，其核心是計算用戶/項目間的相似性。常用的相似性度量方法主要有三種[5,8]：余弦相似性度量方法、皮爾森相關(guān)相似度量方法、修正的余弦相似性度量方法。
    余弦相似性度量方法：該方法把用戶對項目的評分看作是一個n維向量，則用戶間的相似性就由兩個用戶向量間的余弦夾角來決定。
    修正的余弦相似性度量方法：該方法是對余弦相似性度量方法的改進算法。它通過減去用戶對于項目的平均分來彌補不同用戶對項目的評分尺度不同的問題。

1.2.2 評分預測
    預測評分可由相似度作為權(quán)重，通過計算鄰居用戶對未評分項目的加權(quán)平均值來得出。
    該方法的不足之處在于:(1)如果用戶評分的項目較少，推薦效果會比較差。對于一個新加入系統(tǒng)的用戶，這個方法完全無法“工作”。(2)為了反應用戶最新狀態(tài)，需要在線計算詳盡用戶，這可能導致在線響應速度低下。
1.3 基于項目的協(xié)同過濾推薦算法
    基于項目的協(xié)同過濾算法[5]依賴的是項目間的相似性，這對更新的實時性要求較低，因此也是目前應用較多的一種算法。該算法與基于用戶的協(xié)同過濾算法在過程上類似，只是在相似度上稍有不同。
   在相似性度量方法上，1.2.1中提到的方法仍適用，只是此時計算相似度的對象不同。除此之外，針對項目間相似性的度量，還可使用條件概率度量方法[9]。之所以可以用它來計算相似度是因為，如果選擇一個項目的用戶中也有很多用戶選擇另一個項目,則兩個項目相似。
1.4 協(xié)同過濾推薦改進算法
1.4.1 基于項目評分預測的協(xié)同過濾推薦算法
　參考文獻[8]提出了一種對未評分項目預測評分的改進算法。該算法先找出用戶i和j分別評分的項目集合的并集Iij,然后計算用戶i和j對于Iij中各自未評分項目的評分，最后利用基于用戶的協(xié)同過濾算法來計算用戶i和j的相似度，并產(chǎn)生相應的推薦列表。
   該算法在一定程度上解決了稀疏性的問題，使得兩個用戶共同評分的項目有所增加，同時在計算兩個用戶的相似性時，也不會出現(xiàn)用戶未評分項目為0的狀況，提高了推薦精度。但是，由于采用的是傳統(tǒng)的相似度量方法，算法的冷啟動問題仍未得到根本的解決。
1.4.2 基于項目聚類的協(xié)同過濾推薦算法
    參考文獻[4]是將項目以K均值方法進行聚類，然后計算目標項目與聚類中心的相似性，并選擇相似度大于e的聚類來作為搜索鄰居的項目空間，最終完成推薦。
    該算法選擇若干個聚類來搜索項目的鄰居，可以減少搜索空間，提高搜索效率，但相似性閾值e的選取需進行權(quán)衡。用戶需要不斷調(diào)整e來進行聚類數(shù)量的控制，以此來調(diào)整精度。
1.4.3 基于項目類別相似性的協(xié)同過濾推薦算法[10]
    參考文獻[10]同時考慮評分和類別相似性，并將類別表達成一顆類別樹(如圖1所示)來計算類別相似性，然后通過權(quán)重系數(shù)α將兩者進行加權(quán)組合，得出綜合相似性。

    該算法計算的是綜合相似性，從而在一定程度上提高了推薦精度，緩解了稀疏性問題。但它也有一定的缺點：(1)類別標示一般需要人工標注，工作量太大，并會造成一定的主觀偏見；(2)權(quán)重系數(shù)的選取一般只能靠經(jīng)驗來定。
1.4.4 其他的改進算法
    隨著研究的深入，更多的改進推薦算法被提出。如參考文獻[11]是在1.4.1中所提到算法的基礎上，通過引入類別相似性來改進；參考文獻[12]是綜合評分相似度和類別相似度，并引入閾值來調(diào)整評分相似性和最近鄰的選取；參考文獻[13]也利用“組合”的思想，但不再是相似度組合，而是將用戶加權(quán)評分和項目加權(quán)評分進行組合來達到與1.4.1中算法一樣的目的。這些算法都改進了精度，緩解了稀疏性、冷啟動等問題。
2 系統(tǒng)性能的評測
   對推薦系統(tǒng)來說，系統(tǒng)的性能直接影響用戶對系統(tǒng)的使用程度。因為推薦出來的項目不符合用戶的興趣，用戶對系統(tǒng)的信任度就會下降。常用的精度測評方法有平均絕對誤差MAE、規(guī)范化的平均絕對誤差NMAE方法和召回率—精度等方法。以前大家關(guān)注較多的是精度問題，現(xiàn)在評測一個系統(tǒng)的性能，除了精度之外，新穎性、多樣性、覆蓋率等更多指標越來越受重視[14]。
    多樣性可以分為系統(tǒng)用戶間多樣性和用戶內(nèi)多樣性[15]。前者反映了系統(tǒng)為不同用戶推薦不同項目的能力，可以通過計算用戶對之間的漢明距離，然后取均值來得出；后者反映了系統(tǒng)為一個用戶推薦不同種類項目的能力，可以通過計算某一用戶推薦列表中的項目間相似度的差距，最后取均值來得出。
    新穎度指系統(tǒng)可以為用戶推薦的非流行項目的能力。較常使用的是計算一個用戶推薦列表中商品的平均度[16],商品的平均度越低證明商品的新穎度越高。
    覆蓋率可以體現(xiàn)出系統(tǒng)為用戶推薦的項范圍的大小，若覆蓋率太低，推薦范圍太窄，用戶滿意度就可能會下降。較常用的為推薦覆蓋率[14]，用來計算推薦項占全部項的比例。
3 推薦系統(tǒng)面臨的問題
3.1 稀疏性問題
　推薦系統(tǒng)中，由于用戶瀏覽的項目有限，導致用戶評分矩陣非常稀疏，從而使得推薦精度不高。參考文獻[4,8,11]的出發(fā)點都是希望緩和矩陣稀疏性問題。因為如果兩個用戶沒有共同評分的項目，那將無法計算他們的相似度。同樣的，如果兩個項目共同評分的用戶交集為空，則項目之間的相似度也無法得出。目前解決稀疏性問題效果較好的是奇異值分解（SVD）的技術(shù)[17]。在推薦時，可以先使用SVD方法計算出項目評分，然后再計算相似度最終得出預測。SVD的方法在評分預測上不依賴相似度方法進行計算，并且通過維數(shù)化簡來得到密集的矩陣。雖然解決了數(shù)據(jù)稀疏性問題，但是在化簡過程中丟失掉了一些數(shù)據(jù)信息，精度也會受到一定的影響。
3.2 冷啟動問題
　冷啟動問題[7,17]分為新項目和新用戶問題。參考文獻[10-13]的出發(fā)點就是為了解決冷啟動問題。因為當一個系統(tǒng)增加一個新的項目并且該項目沒有任何用戶對其進行評分時，這個項目就無法被推薦出去，新項目問題就產(chǎn)生了。新用戶問題的產(chǎn)生是由于系統(tǒng)的用戶增多，當用戶沒有對系統(tǒng)中的項目進行評價時，系統(tǒng)無法分析出用戶的偏好，也就無法產(chǎn)生推薦。
    目前對于冷啟動問題的解決有兩種方法：眾數(shù)法和信息熵法。
    一般而言，大部分用戶對于喜愛和不喜愛的項目評分較為相似，所以評分的數(shù)值分布在一定范圍內(nèi)的概率較大。因此可以使用眾數(shù)法來對新項目或新用戶對項目的評分進行預測。
　   對于冷啟動問題也可采用信息熵法來解決。對于新項目問題，排序計算所得的信息熵，選取其中信息熵較大的用戶，通過預測這些用戶對該項目的平均評分來作為新項目的預測評分。對于新用戶問題，排序用戶信息熵值，然后選擇其中較大熵值的用戶來預測新用戶對某一項目的評分。
    本文介紹了協(xié)同過濾推薦算法的傳統(tǒng)算法和改進算法。最后對于系統(tǒng)的性能評測做了詳細介紹，對系統(tǒng)常見問題也進行了分析研究。
   很多研究者提出的改進算法都是用來解決系統(tǒng)的稀疏性和冷啟動問題，并且在一定程度上緩解了這些問題?？梢娤∈栊院屠鋯訂栴}對于推薦系統(tǒng)的精度影響尤為重要。另外，一個系統(tǒng)的推薦性能是否良好，也需要一定的策略來評估。這些方面也是繼續(xù)改進的研究方向。
參考文獻
[1] LINDEN G, SMITH B，YORK J. Amazon.com recommendations item-to-item collaborative filtering[J].IEEE Computer Society, 2003(1-2):76-80.
[2] METEREN R V. M.v.S. using content-based filtering for recommendation[C]. In CML/MLNET Workshop on Machine Learning and the New Information Age,Baecelona, 2000:47-56.
[3] 黃萱菁，夏迎炬, 吳立德. 基于向量空間模型的文本過濾系統(tǒng)[J].軟件學報, 2003，14(3):435-442.
[4] 鄧愛林，左子葉，朱揚勇. 基于項目聚類的協(xié)同過濾推薦算法[J]. 小型微型計算機系統(tǒng), 2004,25(9):1665-1670.
[5] Badrul Sarwar, G.K., KONSTAN J, et al. Item based collaborative filtering recommendation algorithms[C]. Proceedings of the 10th International World Wide Web Confer-ence, 2001.
[6] 曹毅.基于內(nèi)容和協(xié)同過濾的混合模式推薦技術(shù)研究[D].長沙：中南大學，2007.
[7] EKSTRAND M D, RIDEL J T, KONSTAN J A. Collaborative filtering recommender systems[M]. Hanover:Now Publishers Inc, 2010:81-173.
[8] 鄧愛林，朱揚勇，施伯樂.基于項目評分預測的協(xié)同過濾推薦算法[J]. 軟件學報, 2003,14(9):1621-1628.
[9] 周軍鋒,湯顯，郭景峰.一種優(yōu)化的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展, 1994，41(10):1842-1847.
[10] 李聰，梁昌勇，董珂.基于項目類別相似性的協(xié)同過濾推薦算法[J]. 合肥工業(yè)大學學報(自然科學版), 2008，31(3)：360-363.
[11] 張忠平，郭獻麗.一種優(yōu)化的基于項目評分預測的協(xié)同過濾推薦算法[J].計算機應用研究, 2008,25(9):2658-2660.
[12] 汪靜，印鑒. 一種優(yōu)化的Item-based協(xié)同過濾推薦算法[J]. 小型微型計算機系統(tǒng), 2010,31(22):2337-2342.
[13] 馬麗. 基于組合加權(quán)評分的Item-based協(xié)同過濾推薦系統(tǒng)[J]. 現(xiàn)代圖書情報技術(shù), 2008(11):60-64.
[14] 朱郁筱，呂琳媛.推薦系統(tǒng)評價指標綜述[J]. 電子科技大學學報, 2012,41(2):163-175.
[15] Zhou Tao, Jiang Luoluo, Su Riqi, et al. Effect of initial configuration on network-based recommendation[J]. Europhysics Letters, 2008(81):58004-58007.
[16] Zhang Zike, Liu Chuang, Zhang Yicheng, et al. Solving the cold-start problem in recommender systems with social tags[J]. Europhysics Letters, 2010,92(2): 28002-28007.
[17] 孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究[D].
       杭州：浙江大學，2005.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容