《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于改進(jìn)FP-growth的多品類打包推薦算法
基于改進(jìn)FP-growth的多品類打包推薦算法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
李雄清1,2,李永1,2,王駿飛1,2,臧凌1,2,劉德志1,3, 卞宇軒1,3,柴閱林1,3,李卓瀟 1,3,劉云韜1,3
1.北京市民航大數(shù)據(jù)工程技術(shù)研究中心; 2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司; 3.北京航空航天大學(xué)
摘要: 多品類打包推薦是現(xiàn)代推薦系統(tǒng)中的重要任務(wù),旨在通過組合不同類別的產(chǎn)品,向用戶進(jìn)行一站式推薦,以滿足用戶的多樣化需求并提升用戶體驗(yàn)。目前,該任務(wù)面臨即時(shí)響應(yīng)需求高、數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)稀疏性高等挑戰(zhàn),現(xiàn)有打包算法難以應(yīng)對(duì)。為解決上述問題,提出了一種基于改進(jìn)FP-growth算法的多品類打包推薦算法,即在FP-growth算法的基礎(chǔ)上,對(duì)產(chǎn)品屬性間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘,并根據(jù)屬性關(guān)聯(lián)規(guī)則匹配出符合度最高的打包產(chǎn)品,有效緩解了產(chǎn)品間的數(shù)據(jù)稀疏性問題。在基于航空旅游零售領(lǐng)域的數(shù)據(jù)集上,本方法相較于基準(zhǔn)方法顯著提高了打包質(zhì)量和打包效率。
中圖分類號(hào):TP311.1; TP274文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.03.008
引用格式:李雄清,李永,王駿飛,等. 基于改進(jìn)FP-growth的多品類打包推薦算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(3):47-53.
A multi-category bundling recommendation algorithm based on the improved FP-growth algorithm
Li Xiongqing1,2, Li Yong1,2, Wang Junfei1,2, Zang Ling1,2, Liu Dezhi1,3, Bian Yuxuan1,3, Chai Yuelin1,3, Li Zhuoxiao1,3, Liu Yuntao1,3
1. Beijing Engineering Research Center of Civil Aviation Big Data; 2. Travelsky Technology Limited; 3. Beihang University
Abstract: Multi-category bundling recommendation is a critical task in modern recommender systems, which aims to combine products from various categories into a one-stop recommendation to meet users′ diverse needs and enhance their experience. This task faces challenges such as high demand for real-time responses, large data scale and high data sparsity, which existing bundling algorithms struggle to address. This paper proposes a multi-category bundling recommendation algorithm based on an improved FP-growth algorithm, which mines associations between product attributes. The algorithm matches the most relevant bundling products based on attribute association rules,which effectively alleviates data sparsity under the product view. Experimental results on a dataset from the aviation travel retail sector show that the proposed method significantly improves both bundling quality and efficiency compared to baseline methods.
Key words : multi-category bundling; recommender systems; association rule mining; FP-growth algorithm; aviation travel retail

引言

多品類打包推薦作為現(xiàn)代推薦系統(tǒng)中的一類重要問題,在服裝搭配[1]、電子商務(wù)[2]等眾多領(lǐng)域受到了廣泛關(guān)注。該問題的核心在于如何挖掘多個(gè)不同類型產(chǎn)品間的關(guān)聯(lián)性并將其捆綁組合,以滿足用戶多樣化需求并提升用戶體驗(yàn)。隨著推薦系統(tǒng)處理數(shù)據(jù)量的增長(zhǎng),現(xiàn)有的多品類打包推薦面臨諸多挑戰(zhàn):一是即時(shí)響應(yīng)需求高,擬打包產(chǎn)品數(shù)據(jù)會(huì)根據(jù)現(xiàn)實(shí)情況實(shí)時(shí)更新,推薦算法需要能夠即時(shí)準(zhǔn)確地完成數(shù)據(jù)處理;二是數(shù)據(jù)規(guī)模龐大,需要推薦算法從海量數(shù)據(jù)中高效挖掘出產(chǎn)品間的關(guān)聯(lián)關(guān)系;三是數(shù)據(jù)稀疏性高,即數(shù)據(jù)中僅有少部分產(chǎn)品出現(xiàn)頻次很高,其余大部分產(chǎn)品的出現(xiàn)頻次極低,難以發(fā)掘出產(chǎn)品間關(guān)聯(lián)關(guān)系。

目前,應(yīng)用于多品類打包的方法主要包括貝葉斯個(gè)性化推薦[3]、基于序列的方法[4-5]、基于圖的方法[6-7]等。其中,貝葉斯個(gè)性化推薦[3]利用貝葉斯定理更新用戶對(duì)產(chǎn)品的偏好概率,能夠處理用戶點(diǎn)擊等隱式反饋?;谛蛄械姆椒▽⒋衫壈曌鳟a(chǎn)品序列,應(yīng)用序列模型實(shí)現(xiàn)產(chǎn)品建模及捆綁包生成。He等[2]應(yīng)用Transformer架構(gòu)實(shí)現(xiàn)了捆綁包的預(yù)生成,并通過多輪對(duì)話框架進(jìn)一步對(duì)捆綁包進(jìn)行優(yōu)化,能夠有效緩解交互稀疏性問題。Wei等[4]通過引入類型的嵌入向量,提高了對(duì)不同類型產(chǎn)品的建模精度,并采用非自回歸方式并行計(jì)算,提高了生成效率?;趫D的方法利用圖結(jié)構(gòu)構(gòu)建產(chǎn)品間關(guān)聯(lián)關(guān)系,能夠?qū)崿F(xiàn)對(duì)復(fù)雜關(guān)系的精準(zhǔn)建模。Chang等[6]使用多個(gè)視圖分別構(gòu)建了產(chǎn)品、捆綁包和用戶的兩兩間關(guān)系,并設(shè)計(jì)了束搜索算法以實(shí)現(xiàn)捆綁包生成。Gong等[7]將打包推薦歸為圖的最大團(tuán)問題,并提出了一種具有多頭自注意力編碼器和帶注意力機(jī)制解碼器的圖注意力網(wǎng)絡(luò),實(shí)現(xiàn)了較高的打包準(zhǔn)確率。

然而,上述方法模型訓(xùn)練時(shí)間較長(zhǎng),難以滿足部分推薦系統(tǒng)的即時(shí)響應(yīng)需求。例如,在航空旅游零售領(lǐng)域,機(jī)票、酒店等產(chǎn)品的價(jià)格、庫(kù)存等信息經(jīng)常發(fā)生變動(dòng),推薦系統(tǒng)需要能夠即時(shí)快速響應(yīng),根據(jù)更新后的數(shù)據(jù)即時(shí)產(chǎn)出新的推薦結(jié)果。關(guān)聯(lián)規(guī)則挖掘是一種基于頻繁項(xiàng)集的方法,能夠有效挖掘出單品類產(chǎn)品間隱藏的關(guān)聯(lián)關(guān)系,同時(shí)由于關(guān)聯(lián)規(guī)則可以存儲(chǔ)在數(shù)據(jù)庫(kù)中,在實(shí)際應(yīng)用中具有較高的推薦效率。Apriori算法[8]是關(guān)聯(lián)規(guī)則挖掘中最經(jīng)典的方法,其不足在于需要頻繁掃描數(shù)據(jù)庫(kù),運(yùn)算耗時(shí)長(zhǎng)。為解決這一問題,Zaki等[9]提出了Eclat算法,加入倒排思想,降低了數(shù)據(jù)庫(kù)掃描次數(shù);Han等[10]提出了FP-growth算法,采用另一種更為高效的數(shù)據(jù)結(jié)構(gòu)FP-Tree,有效壓縮了數(shù)據(jù),提高了運(yùn)算效率。

不過,在現(xiàn)實(shí)場(chǎng)景中,多品類產(chǎn)品數(shù)量龐大,包含不同品類產(chǎn)品的訂單數(shù)量較少,產(chǎn)品間關(guān)聯(lián)信息往往更為稀疏,導(dǎo)致Apriori、FP-growth等傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘算法需要海量訂單數(shù)據(jù)才能進(jìn)行有效挖掘。為此,本文提出一種基于改進(jìn)FP-growth的多品類打包推薦算法,將頻繁項(xiàng)集中的項(xiàng)從產(chǎn)品替換為產(chǎn)品屬性,從挖掘產(chǎn)品間的關(guān)聯(lián)規(guī)則轉(zhuǎn)變?yōu)橥诰虍a(chǎn)品屬性間的關(guān)聯(lián)規(guī)則,有效降低潛在規(guī)則數(shù)量,提高稀疏數(shù)據(jù)的挖掘效率,減少挖掘過程所需訂單數(shù)量。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://ihrv.cn/resource/share/2000006377


作者信息:

李雄清1,2,李永1,2,王駿飛1,2,臧凌1,2,劉德志1,3,

卞宇軒1,3,柴閱林1,3,李卓瀟 1,3,劉云韜1,3

(1.北京市民航大數(shù)據(jù)工程技術(shù)研究中心, 北京101318;

2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司, 北京101318;

3.北京航空航天大學(xué), 北京100191)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。