王晗璐,夏斌
?。ㄉ虾:J麓髮W 信息工程學院,上海 201306)
摘要:隨著互聯(lián)網(wǎng)的發(fā)展,電子商務已經(jīng)成為一種新的商業(yè)活動模式。商品在電子商務平臺的排名,直接決定了產(chǎn)品的銷量。如何優(yōu)化產(chǎn)品的排名,是所有電子商務公司關(guān)注的問題。從商品的文本信息角度出發(fā),利用機器學習方法來研究文本信息與產(chǎn)品排名之間的關(guān)系。從特征提取方法和分類算法兩個角度進行了比較研究。首先比較了TFIDF和詞頻法(WF)兩種特征提取方法,進一步又比較了樸素貝葉斯、支持向量機(SVM)以及隨機森林(RF)三個分類算法。研究結(jié)果表明,在該文的數(shù)據(jù)集上進行文本分類排名分析,詞頻法結(jié)合隨機森林取得了最好的分類效果。
關(guān)鍵詞:產(chǎn)品排名; 詞頻法; 隨機森林; 文本分類
0引言
電子商務的概念起源于1995年,阿里巴巴國際站(簡稱:阿里國際站)是一個主要的電商平臺[1],它為小型商家的國際貿(mào)易提供良好的平臺。商家們通過在平臺上展示商品,從而獲得商機[23]。為了獲得更多的商機,改善產(chǎn)品在阿里平臺上的排名十分重要。平臺中產(chǎn)品展示的信息包括產(chǎn)品標題、屬性、圖片等,還有一些無法看到的信息,如產(chǎn)品關(guān)鍵詞。當用戶輸入關(guān)鍵詞后,阿里平臺會根據(jù)相關(guān)產(chǎn)品的信息進行打分,然后生成一個產(chǎn)品列表,得分越高的產(chǎn)品排名越靠前,被用戶瀏覽到的可能性越大,反之,產(chǎn)品分數(shù)越低,排名越靠后,產(chǎn)品銷量越小。
如今,有很多人討論如何做好阿里平臺產(chǎn)品的信息優(yōu)化,從而改善產(chǎn)品排名,但大多是更換產(chǎn)品關(guān)鍵詞、更新標題、增加屬性、多使用熱搜詞、展示更清晰精美的圖片等。這些都需要大量的手動工作,而且效果也不盡人意,可行性較低。
根據(jù)阿里國際站的官方白皮書介紹,商品的標題及相關(guān)的商品屬性描述,是影響商品排名的重要因素。在本文中,考慮利用商品的標題和屬性特征進行分析,研究這類文本信息與商品排名之間的關(guān)系。假設產(chǎn)品標題及屬性的組合,在排名靠前的商品中有一些共同的特性。為了分析這樣的共性,結(jié)合自然語言處理技術(shù)和機器學習方法,擬利用文本分類的方法來研究,如果排名相近的產(chǎn)品在標題和屬性的組合上存在一些共性,則它們應該會被分到同一類別中。
1方法
1.1特征提取
本文中,使用的產(chǎn)品標題和屬性屬于文本數(shù)據(jù),首先要對其進行特征提取,轉(zhuǎn)化為數(shù)字樣本。本文應用了兩種自然語言處理中常用的特征提取方法[4]。
(1)TFIDF
假如一個詞語在一篇文檔中頻繁出現(xiàn),但在其他文檔中極少出現(xiàn),則可用這個詞語去區(qū)分這篇文檔。其中TF和IDF分別計算如下:
式(1)中,nij表示第i個詞在文檔dj中出現(xiàn)的次數(shù),分母表示文檔dj中包括詞語的總數(shù)。式(2)中,|D|表示數(shù)據(jù)集中的文檔總數(shù),|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。于是TFIDF計算如下:
TFIDFi,j=TFi,j*IDFi(3)
?。?)WF
對文檔中出現(xiàn)的詞語進行計數(shù)。如果單詞在文檔中出現(xiàn),計數(shù)加1,本文還應用了2gram方法,即每兩個相鄰的詞語,也記為一項。
1.2分類器
?。?)樸素貝葉斯
在短文本分類問題中,x=(x1,x2,…,xn)表示一篇文檔,每篇文檔均表示為一個類似于x的向量,樣本集合記作X。對應地,類別集合記作C={c1,c2,…,cm}。樸素貝葉斯分類器的原理是:假設每個特征之間是相互獨立的,通過比較后驗概率值的大小,把該樣本判別為后驗概率值最大的那一類。后驗概率的計算公式為:
P(ci|x)=P(x|ci)P(ci)P(x)(4)
?。?)支持向量機
SVM是基于間隔最大化的一種分類算法[56]。對于線性數(shù)據(jù)而言,它希望空間中的樣本點盡可能地遠離分類超平面。對于非線性輸入,SVM可以應用核函數(shù),將其映射到高維空間轉(zhuǎn)換輸入為線性的。SVM具有良好的泛化能力,在各種文本分類問題中表現(xiàn)良好。
?。?)隨機森林
隨機森林是Breiman Leo和Adele Cutler于2001年提出的, 它是一種基于決策樹的機器學習算法[7]。其訓練模型的方法是訓練多棵決策樹,并綜合每棵樹的分類結(jié)果進行最終的決策。在該算法中,需要考慮的參數(shù)有兩個,一個是決策樹的數(shù)量,另一個是分裂節(jié)點輸入的特征數(shù),通常設置為總特征數(shù)的開方,文本也是使用這種方法。
隨機森林的分類結(jié)果取決于每個決策樹的分類結(jié)果[8]。本文應用對每棵樹判別為每個類別的概率取平均值,將概率最大的那類判別為樣本的類別。
2實驗
2.1實驗數(shù)據(jù)
本文使用10個類別(包括:服裝、運輸、電子產(chǎn)品、工藝品、玩具、箱包、食品、鞋子、家具和照明)的100個詞,在阿里國際站平臺抓取產(chǎn)品信息。每個類別選取了10個詞,每個詞選擇前三頁和后三頁的產(chǎn)品信息作為數(shù)據(jù)集。移除了首頁前5個付費(P4P)產(chǎn)品。綜上,共有100個關(guān)鍵詞,每個有6頁產(chǎn)品信息,每頁有38個產(chǎn)品。因此,數(shù)據(jù)集中共有22 800個樣本。其中前三頁的產(chǎn)品被記為正類樣本,后三頁記為負類樣本。整個數(shù)據(jù)集按照7∶3劃分為訓練樣本集和測試樣本集,并以5次實驗得到的分類準確率的平均值作為最終的結(jié)果。
2.2實驗結(jié)果
?。?)特征提取方法比較結(jié)果
為了尋找適合表示產(chǎn)品信息的方法,本文采用了WF和TFIDF兩種文本特征提取方法。應用這兩種方法對文本信息進行特征提取后,應用RF分類算法進行分類模型的訓練和驗證。表1是測試準確率的對比結(jié)果。結(jié)果很顯然,不論森林中決策樹的數(shù)量為多少,WF在分類準確率方面始終優(yōu)于TFIDF。但是使用相同的分類器模型時,TFIDF擁有較少的特征數(shù),所以計算時間要比WF短。
?。?)分類器比較結(jié)果
為了找到適合本課題的分類算法,分別采用了樸素貝葉斯、SVM以及RF三種分類算法。應用WF和TFIDF進行特征提取,并輸入到上述三種分類器中,測試準確率結(jié)果對比分別如表2和表3。結(jié)果很顯然,在三種分類器的分類效果對比中,RF表現(xiàn)最好。
2.3實驗分析
首先,采用RF作為分類器,分別應用WF和TFIDF,結(jié)果顯示W(wǎng)F的分類效果始終優(yōu)于TFIDF。這應該是由阿里國際站中產(chǎn)品的信息結(jié)構(gòu)決定的,因為產(chǎn)品標題主要由產(chǎn)品核心詞以及部分屬性構(gòu)成。因此同類產(chǎn)品中出現(xiàn)近似詞匯的可能性極大,這樣TFIDF算法中的IDF將無法發(fā)揮出有效區(qū)分文檔的作用。而WF方法很好地表現(xiàn)了產(chǎn)品標題和屬性包含哪些詞。因此WF是更適合對產(chǎn)品標題進行特征提取的方法。
其次,可以看到RF表現(xiàn)最好,準確率達到了86.88%。因為SVM的缺點是不適合大數(shù)據(jù)集。樸素貝葉斯的缺點是,當特征維數(shù)較高時表現(xiàn)較差。
3結(jié)論
本文利用機器學習方法研究了商品文本信息對排名的影響。研究結(jié)果表明,排名相近的商品在文本屬性上也有相似性,在分類問題中表現(xiàn)為可以被分到同一類中。根據(jù)本文的比較分析,針對本文應用的數(shù)據(jù)集,WF與RF結(jié)合的方法在分類性能上表現(xiàn)最佳,也有最好的計算效率。
參考文獻
[1] Hu Yongquan, Zhao Shukun. A case study of online retail innovation system on alibaba Taobao[C]. EBusiness and EGovernment(ICEE), 2010: 224227.
?。?] Bai Ou. Governance of innovation network in services: The case of alibaba[C]. International Symposium on Management of Technology (ISMOT), 2012: 8186.
[3] Guo Jingzhi, LAM J H, LEI J, et al. Alibaba international: building a global electronic marketplace[C].IEEE International Conference on eBusiness engineering (ICEBE), 2006:545548.
?。?] Li Shengdong, Lv Xueqiang, Zhou Qiang, et al. Study on key technology of topic tracking based on VSM[C]. IEEE International Conference on Information and Automation (ICIA), 2010: 24192423.
?。?] Thorsten Joachims. Text Categorization with support vector machines: learning with many relevant feature[C]. Proceedings of ECML98, 10th European Conference on Machine Learning, Chemnitz,Germany, 1998.
?。?] Li Tianbing. On KNN and SVM text classification technology in knowledge management[J]. Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011, 36(3):39233926.
?。?] 李航.統(tǒng)計學習方法[M].北京:清華大學出版社,2012.
?。?] BERNARD S, ADAM S, HEUTTE L. Using random forests for handwritten digit recognition[J]. Document Analysis and Recognition, 2007, 12(10):10431047.