引用格式:李雄清,李永,王駿飛,等. 基于改進FP-growth的多品類打包推薦算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(3):47-53.
引言
多品類打包推薦作為現(xiàn)代推薦系統(tǒng)中的一類重要問題,在服裝搭配[1]、電子商務(wù)[2]等眾多領(lǐng)域受到了廣泛關(guān)注。該問題的核心在于如何挖掘多個不同類型產(chǎn)品間的關(guān)聯(lián)性并將其捆綁組合,以滿足用戶多樣化需求并提升用戶體驗。隨著推薦系統(tǒng)處理數(shù)據(jù)量的增長,現(xiàn)有的多品類打包推薦面臨諸多挑戰(zhàn):一是即時響應(yīng)需求高,擬打包產(chǎn)品數(shù)據(jù)會根據(jù)現(xiàn)實情況實時更新,推薦算法需要能夠即時準(zhǔn)確地完成數(shù)據(jù)處理;二是數(shù)據(jù)規(guī)模龐大,需要推薦算法從海量數(shù)據(jù)中高效挖掘出產(chǎn)品間的關(guān)聯(lián)關(guān)系;三是數(shù)據(jù)稀疏性高,即數(shù)據(jù)中僅有少部分產(chǎn)品出現(xiàn)頻次很高,其余大部分產(chǎn)品的出現(xiàn)頻次極低,難以發(fā)掘出產(chǎn)品間關(guān)聯(lián)關(guān)系。
目前,應(yīng)用于多品類打包的方法主要包括貝葉斯個性化推薦[3]、基于序列的方法[4-5]、基于圖的方法[6-7]等。其中,貝葉斯個性化推薦[3]利用貝葉斯定理更新用戶對產(chǎn)品的偏好概率,能夠處理用戶點擊等隱式反饋?;谛蛄械姆椒▽⒋衫壈曌鳟a(chǎn)品序列,應(yīng)用序列模型實現(xiàn)產(chǎn)品建模及捆綁包生成。He等[2]應(yīng)用Transformer架構(gòu)實現(xiàn)了捆綁包的預(yù)生成,并通過多輪對話框架進一步對捆綁包進行優(yōu)化,能夠有效緩解交互稀疏性問題。Wei等[4]通過引入類型的嵌入向量,提高了對不同類型產(chǎn)品的建模精度,并采用非自回歸方式并行計算,提高了生成效率?;趫D的方法利用圖結(jié)構(gòu)構(gòu)建產(chǎn)品間關(guān)聯(lián)關(guān)系,能夠?qū)崿F(xiàn)對復(fù)雜關(guān)系的精準(zhǔn)建模。Chang等[6]使用多個視圖分別構(gòu)建了產(chǎn)品、捆綁包和用戶的兩兩間關(guān)系,并設(shè)計了束搜索算法以實現(xiàn)捆綁包生成。Gong等[7]將打包推薦歸為圖的最大團問題,并提出了一種具有多頭自注意力編碼器和帶注意力機制解碼器的圖注意力網(wǎng)絡(luò),實現(xiàn)了較高的打包準(zhǔn)確率。
然而,上述方法模型訓(xùn)練時間較長,難以滿足部分推薦系統(tǒng)的即時響應(yīng)需求。例如,在航空旅游零售領(lǐng)域,機票、酒店等產(chǎn)品的價格、庫存等信息經(jīng)常發(fā)生變動,推薦系統(tǒng)需要能夠即時快速響應(yīng),根據(jù)更新后的數(shù)據(jù)即時產(chǎn)出新的推薦結(jié)果。關(guān)聯(lián)規(guī)則挖掘是一種基于頻繁項集的方法,能夠有效挖掘出單品類產(chǎn)品間隱藏的關(guān)聯(lián)關(guān)系,同時由于關(guān)聯(lián)規(guī)則可以存儲在數(shù)據(jù)庫中,在實際應(yīng)用中具有較高的推薦效率。Apriori算法[8]是關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的方法,其不足在于需要頻繁掃描數(shù)據(jù)庫,運算耗時長。為解決這一問題,Zaki等[9]提出了Eclat算法,加入倒排思想,降低了數(shù)據(jù)庫掃描次數(shù);Han等[10]提出了FP-growth算法,采用另一種更為高效的數(shù)據(jù)結(jié)構(gòu)FP-Tree,有效壓縮了數(shù)據(jù),提高了運算效率。
不過,在現(xiàn)實場景中,多品類產(chǎn)品數(shù)量龐大,包含不同品類產(chǎn)品的訂單數(shù)量較少,產(chǎn)品間關(guān)聯(lián)信息往往更為稀疏,導(dǎo)致Apriori、FP-growth等傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法需要海量訂單數(shù)據(jù)才能進行有效挖掘。為此,本文提出一種基于改進FP-growth的多品類打包推薦算法,將頻繁項集中的項從產(chǎn)品替換為產(chǎn)品屬性,從挖掘產(chǎn)品間的關(guān)聯(lián)規(guī)則轉(zhuǎn)變?yōu)橥诰虍a(chǎn)品屬性間的關(guān)聯(lián)規(guī)則,有效降低潛在規(guī)則數(shù)量,提高稀疏數(shù)據(jù)的挖掘效率,減少挖掘過程所需訂單數(shù)量。
本文詳細內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006377
作者信息:
李雄清1,2,李永1,2,王駿飛1,2,臧凌1,2,劉德志1,3,
卞宇軒1,3,柴閱林1,3,李卓瀟 1,3,劉云韜1,3
(1.北京市民航大數(shù)據(jù)工程技術(shù)研究中心, 北京101318;
2.中國民航信息網(wǎng)絡(luò)股份有限公司, 北京101318;
3.北京航空航天大學(xué), 北京100191)