王晗璐,夏斌
?。ㄉ虾:J麓髮W(xué) 信息工程學(xué)院,上海 201306)
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已經(jīng)成為一種新的商業(yè)活動(dòng)模式。商品在電子商務(wù)平臺(tái)的排名,直接決定了產(chǎn)品的銷量。如何優(yōu)化產(chǎn)品的排名,是所有電子商務(wù)公司關(guān)注的問(wèn)題。從商品的文本信息角度出發(fā),利用機(jī)器學(xué)習(xí)方法來(lái)研究文本信息與產(chǎn)品排名之間的關(guān)系。從特征提取方法和分類算法兩個(gè)角度進(jìn)行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進(jìn)一步又比較了樸素貝葉斯、支持向量機(jī)(SVM)以及隨機(jī)森林(RF)三個(gè)分類算法。研究結(jié)果表明,在該文的數(shù)據(jù)集上進(jìn)行文本分類排名分析,詞頻法結(jié)合隨機(jī)森林取得了最好的分類效果。
關(guān)鍵詞:產(chǎn)品排名; 詞頻法; 隨機(jī)森林; 文本分類
0引言
電子商務(wù)的概念起源于1995年,阿里巴巴國(guó)際站(簡(jiǎn)稱:阿里國(guó)際站)是一個(gè)主要的電商平臺(tái)[1],它為小型商家的國(guó)際貿(mào)易提供良好的平臺(tái)。商家們通過(guò)在平臺(tái)上展示商品,從而獲得商機(jī)[23]。為了獲得更多的商機(jī),改善產(chǎn)品在阿里平臺(tái)上的排名十分重要。平臺(tái)中產(chǎn)品展示的信息包括產(chǎn)品標(biāo)題、屬性、圖片等,還有一些無(wú)法看到的信息,如產(chǎn)品關(guān)鍵詞。當(dāng)用戶輸入關(guān)鍵詞后,阿里平臺(tái)會(huì)根據(jù)相關(guān)產(chǎn)品的信息進(jìn)行打分,然后生成一個(gè)產(chǎn)品列表,得分越高的產(chǎn)品排名越靠前,被用戶瀏覽到的可能性越大,反之,產(chǎn)品分?jǐn)?shù)越低,排名越靠后,產(chǎn)品銷量越小。
如今,有很多人討論如何做好阿里平臺(tái)產(chǎn)品的信息優(yōu)化,從而改善產(chǎn)品排名,但大多是更換產(chǎn)品關(guān)鍵詞、更新標(biāo)題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動(dòng)工作,而且效果也不盡人意,可行性較低。
根據(jù)阿里國(guó)際站的官方白皮書介紹,商品的標(biāo)題及相關(guān)的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標(biāo)題和屬性特征進(jìn)行分析,研究這類文本信息與商品排名之間的關(guān)系。假設(shè)產(chǎn)品標(biāo)題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結(jié)合自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法,擬利用文本分類的方法來(lái)研究,如果排名相近的產(chǎn)品在標(biāo)題和屬性的組合上存在一些共性,則它們應(yīng)該會(huì)被分到同一類別中。
1方法
1.1特征提取
本文中,使用的產(chǎn)品標(biāo)題和屬性屬于文本數(shù)據(jù),首先要對(duì)其進(jìn)行特征提取,轉(zhuǎn)化為數(shù)字樣本。本文應(yīng)用了兩種自然語(yǔ)言處理中常用的特征提取方法[4]。
?。?)TFIDF
假如一個(gè)詞語(yǔ)在一篇文檔中頻繁出現(xiàn),但在其他文檔中極少出現(xiàn),則可用這個(gè)詞語(yǔ)去區(qū)分這篇文檔。其中TF和IDF分別計(jì)算如下:
式(1)中,nij表示第i個(gè)詞在文檔dj中出現(xiàn)的次數(shù),分母表示文檔dj中包括詞語(yǔ)的總數(shù)。式(2)中,|D|表示數(shù)據(jù)集中的文檔總數(shù),|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。于是TFIDF計(jì)算如下:
TFIDFi,j=TFi,j*IDFi(3)
?。?)WF
對(duì)文檔中出現(xiàn)的詞語(yǔ)進(jìn)行計(jì)數(shù)。如果單詞在文檔中出現(xiàn),計(jì)數(shù)加1,本文還應(yīng)用了2gram方法,即每?jī)蓚€(gè)相鄰的詞語(yǔ),也記為一項(xiàng)。
1.2分類器
?。?)樸素貝葉斯
在短文本分類問(wèn)題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個(gè)類似于x的向量,樣本集合記作X。對(duì)應(yīng)地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設(shè)每個(gè)特征之間是相互獨(dú)立的,通過(guò)比較后驗(yàn)概率值的大小,把該樣本判別為后驗(yàn)概率值最大的那一類。后驗(yàn)概率的計(jì)算公式為:
P(ci|x)=P(x|ci)P(ci)P(x)(4)
(2)支持向量機(jī)
SVM是基于間隔最大化的一種分類算法[56]。對(duì)于線性數(shù)據(jù)而言,它希望空間中的樣本點(diǎn)盡可能地遠(yuǎn)離分類超平面。對(duì)于非線性輸入,SVM可以應(yīng)用核函數(shù),將其映射到高維空間轉(zhuǎn)換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問(wèn)題中表現(xiàn)良好。
?。?)隨機(jī)森林
隨機(jī)森林是Breiman Leo和Adele Cutler于2001年提出的, 它是一種基于決策樹的機(jī)器學(xué)習(xí)算法[7]。其訓(xùn)練模型的方法是訓(xùn)練多棵決策樹,并綜合每棵樹的分類結(jié)果進(jìn)行最終的決策。在該算法中,需要考慮的參數(shù)有兩個(gè),一個(gè)是決策樹的數(shù)量,另一個(gè)是分裂節(jié)點(diǎn)輸入的特征數(shù),通常設(shè)置為總特征數(shù)的開方,文本也是使用這種方法。
隨機(jī)森林的分類結(jié)果取決于每個(gè)決策樹的分類結(jié)果[8]。本文應(yīng)用對(duì)每棵樹判別為每個(gè)類別的概率取平均值,將概率最大的那類判別為樣本的類別。
2實(shí)驗(yàn)
2.1實(shí)驗(yàn)數(shù)據(jù)
本文使用10個(gè)類別(包括:服裝、運(yùn)輸、電子產(chǎn)品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個(gè)詞,在阿里國(guó)際站平臺(tái)抓取產(chǎn)品信息。每個(gè)類別選取了10個(gè)詞,每個(gè)詞選擇前三頁(yè)和后三頁(yè)的產(chǎn)品信息作為數(shù)據(jù)集。移除了首頁(yè)前5個(gè)付費(fèi)(P4P)產(chǎn)品。綜上,共有100個(gè)關(guān)鍵詞,每個(gè)有6頁(yè)產(chǎn)品信息,每頁(yè)有38個(gè)產(chǎn)品。因此,數(shù)據(jù)集中共有22 800個(gè)樣本。其中前三頁(yè)的產(chǎn)品被記為正類樣本,后三頁(yè)記為負(fù)類樣本。整個(gè)數(shù)據(jù)集按照7∶3劃分為訓(xùn)練樣本集和測(cè)試樣本集,并以5次實(shí)驗(yàn)得到的分類準(zhǔn)確率的平均值作為最終的結(jié)果。
2.2實(shí)驗(yàn)結(jié)果
?。?)特征提取方法比較結(jié)果
為了尋找適合表示產(chǎn)品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應(yīng)用這兩種方法對(duì)文本信息進(jìn)行特征提取后,應(yīng)用RF分類算法進(jìn)行分類模型的訓(xùn)練和驗(yàn)證。表1是測(cè)試準(zhǔn)確率的對(duì)比結(jié)果。結(jié)果很顯然,不論森林中決策樹的數(shù)量為多少,WF在分類準(zhǔn)確率方面始終優(yōu)于TFIDF。但是使用相同的分類器模型時(shí),TFIDF擁有較少的特征數(shù),所以計(jì)算時(shí)間要比WF短。
?。?)分類器比較結(jié)果
為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應(yīng)用WF和TFIDF進(jìn)行特征提取,并輸入到上述三種分類器中,測(cè)試準(zhǔn)確率結(jié)果對(duì)比分別如表2和表3。結(jié)果很顯然,在三種分類器的分類效果對(duì)比中,RF表現(xiàn)最好。
2.3實(shí)驗(yàn)分析
首先,采用RF作為分類器,分別應(yīng)用WF和TFIDF,結(jié)果顯示W(wǎng)F的分類效果始終優(yōu)于TFIDF。這應(yīng)該是由阿里國(guó)際站中產(chǎn)品的信息結(jié)構(gòu)決定的,因?yàn)楫a(chǎn)品標(biāo)題主要由產(chǎn)品核心詞以及部分屬性構(gòu)成。因此同類產(chǎn)品中出現(xiàn)近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無(wú)法發(fā)揮出有效區(qū)分文檔的作用。而WF方法很好地表現(xiàn)了產(chǎn)品標(biāo)題和屬性包含哪些詞。因此WF是更適合對(duì)產(chǎn)品標(biāo)題進(jìn)行特征提取的方法。
其次,可以看到RF表現(xiàn)最好,準(zhǔn)確率達(dá)到了86.88%。因?yàn)镾VM的缺點(diǎn)是不適合大數(shù)據(jù)集。樸素貝葉斯的缺點(diǎn)是,當(dāng)特征維數(shù)較高時(shí)表現(xiàn)較差。
3結(jié)論
本文利用機(jī)器學(xué)習(xí)方法研究了商品文本信息對(duì)排名的影響。研究結(jié)果表明,排名相近的商品在文本屬性上也有相似性,在分類問(wèn)題中表現(xiàn)為可以被分到同一類中。根據(jù)本文的比較分析,針對(duì)本文應(yīng)用的數(shù)據(jù)集,WF與RF結(jié)合的方法在分類性能上表現(xiàn)最佳,也有最好的計(jì)算效率。
參考文獻(xiàn)
?。?] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. EBusiness and EGovernment(ICEE), 2010: 224227.
?。?] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 8186.
?。?] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on eBusiness engineering (ICEBE), 2006:545548.
[4] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 24192423.
?。?] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.
[6] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):39233926.
?。?] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[8] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):10431047.