《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 淘寶商品評價(jià)屬性分類研究
淘寶商品評價(jià)屬性分類研究
摘要: 淘寶開放平臺是一個(gè)綜合性、商業(yè)性的開放平臺[1]。TOP發(fā)布的API涵蓋了商品、產(chǎn)品、類目、用戶、交易、評價(jià)和物流等不同專業(yè)領(lǐng)域的開放接口。使用這些預(yù)先定義好的函數(shù),可以更加方便、快捷地調(diào)用這些接口來完成一些有關(guān)處理工作。
Abstract:
Key words :

  摘  要: 設(shè)計(jì)了一個(gè)基于API技術(shù)的淘寶商品評價(jià)分類系統(tǒng)。利用淘寶開放平臺提供的API接口獲取商品評價(jià)信息,然后將這些評價(jià)信息按照質(zhì)量、物流以及服務(wù)態(tài)度等屬性分別分出好評和差評,通過對典型操作實(shí)例的理論分析和實(shí)驗(yàn)結(jié)果,驗(yàn)證了該方法的有效性。

  關(guān)鍵詞淘寶API評價(jià)屬性;評價(jià)分類

  淘寶開放平臺是一個(gè)綜合性、商業(yè)性的開放平臺[1]。TOP發(fā)布的API涵蓋了商品、產(chǎn)品、類目、用戶、交易、評價(jià)和物流等不同專業(yè)領(lǐng)域的開放接口。使用這些預(yù)先定義好的函數(shù),可以更加方便、快捷地調(diào)用這些接口來完成一些有關(guān)處理工作。

  淘寶網(wǎng)作為國內(nèi)最大的電商網(wǎng)站,每月每天甚至每小時(shí)的交易量都是相當(dāng)大的,而作為買家在淘寶網(wǎng)上購買商品之后,無論對商品滿意與否,都可以通過淘寶網(wǎng)提供的商品評價(jià)系統(tǒng)對所購買的商品作出自己的評價(jià),這就產(chǎn)生了大量的評價(jià)信息。這些評價(jià)對今后購買同種商品的買家可以產(chǎn)生重要的指導(dǎo)作用;評價(jià)信息里反映出的買家對商品比較關(guān)注的一些問題也為賣家不斷改進(jìn)商品提供了方向。

  但是目前淘寶評價(jià)系統(tǒng)只是單純地將買家的評價(jià)羅列在產(chǎn)品信息頁面上,這些評價(jià)包含了買家對該商品在做工、款式、服務(wù)態(tài)度、發(fā)貨速度和物流速度等相關(guān)評價(jià)屬性的信息反饋,這對想查看該商品某種評價(jià)屬性信息的買家和賣家?guī)砹撕艽蟮睦щy。有些商品評價(jià)信息較少,可以通過逐條查看的方法來獲取需要的信息。但是對于有幾千條甚至上萬條評價(jià)信息的商品來說,逐條查看必定會耗費(fèi)大量的精力,也無法取得較好的效果。同時(shí),淘寶提供的好評、中評和差評都是由買家人工選擇的。有時(shí)候買家對商品并不很滿意,但是由于賣家服務(wù)態(tài)度較好等原因也給出了好評;而有些差評則是因?yàn)橘u家服務(wù)態(tài)度不好或者物流送貨不及時(shí)等原因,但是商品本身質(zhì)量并沒有問題,這就對信息獲取造成了誤差。針對上面的問題設(shè)計(jì)并實(shí)現(xiàn)的淘寶商品評價(jià)屬性分類系統(tǒng),利用淘寶開放平臺提供的API技術(shù)獲取相關(guān)評價(jià)信息,然后按質(zhì)量、物流和服務(wù)這3項(xiàng)關(guān)注度最高的屬性將評價(jià)信息進(jìn)行分類,并對每種屬性按評價(jià)內(nèi)容情感傾向度分別判別出好評和差評。本系統(tǒng)實(shí)現(xiàn)了買家在淘寶網(wǎng)意向商品的大量評價(jià)中篩選出自己希望了解的關(guān)于商品某屬性的評價(jià)信息,同時(shí)也幫助賣家了解在售商品各個(gè)屬性的買家反饋信息,更好地改進(jìn)商品。

  1 相關(guān)工作

  本系統(tǒng)通過評價(jià)API接口獲取商品評價(jià)信息作為基本的數(shù)據(jù)來源。系統(tǒng)中的商品評價(jià)主要分為兩類。(1)按照商品屬性進(jìn)行分類。商品的屬性特征都是由它的特征詞來表現(xiàn)的,主要是能夠定義屬性的名詞或者名詞短語。本系統(tǒng)將評價(jià)信息按照質(zhì)量、服務(wù)、物流3個(gè)屬性進(jìn)行分類。(2)按照情感傾向度進(jìn)行分類。本系統(tǒng)提取評價(jià)信息中的情感詞并按照一定規(guī)則組成短語模型與事先建立好的短語模型情感傾向庫進(jìn)行匹配,開發(fā)了一種計(jì)算情感傾向度的算法,按照此算法將商品的每個(gè)屬性都分為了好評和差評。

  2 系統(tǒng)的具體設(shè)計(jì)

  2.1 評價(jià)API獲取評價(jià)內(nèi)容

  該模塊主要是獲取評價(jià)文本和文本轉(zhuǎn)存兩個(gè)功能。使用API要先創(chuàng)建一個(gè)ITopClient對象,向接口地址http://gw.api.taobao.com/router/rest發(fā)起連接請求,請求成功后,建立TraderatesGetRequest評價(jià)文本查詢請求對象,設(shè)置請求的字段和參數(shù),再建立TraderatesGetResponse對象接收返回的數(shù)據(jù),把獲得評價(jià)文本內(nèi)容保存到文本文件。格式是Json字符串。

  2.2 建立商品屬性特征詞庫

  商品特征詞的抽取主要有分詞標(biāo)注和按規(guī)則抽取特征詞兩個(gè)步驟。

  (1)要抽取特征詞,必須要用分詞工具先把句子分成詞語,然后對詞性進(jìn)行標(biāo)注,才能分析每個(gè)詞語的意義。使用SHARPICTCLAS分詞工具分詞標(biāo)注,例如:衣服/n很/d/a!/w很/d合身/a!/w店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,/w雖然/c中間/f出/v了/ul點(diǎn)/q小/a插曲/n,/w但是/c很/d快/a都/d給/v解決/v了/y。/w店家/n工作/vn相當(dāng)/d給/p力/n。/w快遞/vn也/d很/d給/p力/n!/w贊/vg一個(gè)/m!/w

 ?。?)分詞標(biāo)注之后,還要過濾掉一些沒有意義或者不是想要的詞。首先就是根據(jù)詞性過濾。例如店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,這個(gè)是標(biāo)注完畢的句子,看到“服務(wù)態(tài)度”這個(gè)名詞短語其實(shí)就是商品服務(wù)的一個(gè)特征,也可以簡化成“態(tài)度”。前面提過,只有名詞或名詞短語才能表示商品的屬性特征,所以可以把名詞短語以外的非名詞詞語過濾掉,上面的例子過濾后就是“店家/n服務(wù)/vn態(tài)度/n”,其他詞性就不要了。然后再根據(jù)手工收集的一些無意義詞文件,過濾掉無意義詞,最后去除詞性標(biāo)注,合并同類項(xiàng),再利用Apriori算法中的頻繁項(xiàng)定義,過濾掉噪音詞,屬性特征詞庫就建立了[2]。將需要分類的評價(jià)信息分詞標(biāo)注之后與屬性特征詞庫進(jìn)行匹配,實(shí)現(xiàn)按照商品評價(jià)屬性分類。

  2.3 基于構(gòu)造短語模型的情感分類方法設(shè)計(jì)

  文本中能表達(dá)情感傾向的詞語組成的短語模型是判斷文本情感傾向的基礎(chǔ),文本最終的情感傾向和短語模型所表達(dá)出的情感傾向是一致的。本文的情感分類方法包括兩部分。(1)建立情感詞詞庫和短語模型庫,其中情感詞詞庫就是抽取的有情感傾向的詞,短語庫是從訓(xùn)練文本中選取的比較有代表性的短語模型,計(jì)算它們的情感傾向值,組成一個(gè)短語模型的匹配庫[3]。(2)進(jìn)行情感分類,對一個(gè)新文本進(jìn)行分析,得出其情感傾向。

  2.3.1 建立情感詞詞庫

  一篇文本中有很多詞語都能表達(dá)情感,需要知道哪幾個(gè)詞的情感傾向性最強(qiáng)。現(xiàn)在已經(jīng)有了不少成熟的提取情感詞的算法,由于本系統(tǒng)是針對淘寶網(wǎng)這個(gè)特定領(lǐng)域的評價(jià)信息,這些評價(jià)信息情感詞的精確度比較高而且量也不太大,所以采用人工選取的方法從200篇好評樣本和200篇差評樣本中人為地選出情感詞[4],并與中國知網(wǎng)情感詞庫共同組成情感詞庫。

  2.3.2 建立短語模型

  在分析文本時(shí),僅僅依靠情感詞的情感傾向性來判斷文本的情感傾向性是不準(zhǔn)確的,需要找出情感詞對應(yīng)的評價(jià)對象,把情感詞和評價(jià)對象組成情感模型,然后把這些情感模型作為判斷文本情感傾向的基本元素[5]。

  首先找出樣本中出現(xiàn)的情感模型,同時(shí)找出與之相關(guān)的連詞、副詞、否定詞,然后把他們組合成短語模型,利用這些短語模型去分析情感傾向。基于短語模型的情感分類的方法目前有很多,本系統(tǒng)選用了如表1的短語模型[2,6]。

03G65BT3NHJ`2`_{RAH9D5I.jpg

  抽取的短語模型不是一般語法意義上的短語,而是從文本中選取能表達(dá)情感的詞按照短語模型規(guī)則組合成的。

  把從樣本中選出的情感詞以及相關(guān)的連詞、副詞、否定詞和評價(jià)對象進(jìn)行二次標(biāo)注[3,7],約定:

 ?。?)在好評情感詞前面加注“@!”;

 ?。?)在差評情感詞前面加注“@?”;

 ?。?)在連詞、代詞前面加注“@”;

 ?。?)在評價(jià)對象前面標(biāo)注“@*”;

  (5)在否定詞前面標(biāo)注“@~”。

  根據(jù)表1所示的短語模型,用以下選取短語模型的算法。

 ?。?)尋找標(biāo)注為“@*”的短語;

  (2)如果沒有找到標(biāo)注為“@*”的短語,則跳到(6);

  (3)如果找到標(biāo)注為“@*”的短語,則尋找標(biāo)注為“@!”、“@?”的短語;

 ?。?)如果沒有找到標(biāo)注為“@!”、“@?”的短語,則跳到(6);

  (5)取出標(biāo)注為“@”的短語,加上(2)和(3)中找到的短語,把這些短語按原來的順序組成一個(gè)短語模型;

  (6)處理下一個(gè)訓(xùn)練語料,重新從(1)開始執(zhí)行,循環(huán)。

  2.3.3 計(jì)算短語模型情感傾向

  通過上面介紹的方法,已經(jīng)建好了短語模型,然而每個(gè)短語模型表達(dá)的情感傾向以及強(qiáng)度是不盡相同的。人工將傾向于好評的短語模型賦值1,傾向于差評的短語模型賦值-1的話,最后的分析結(jié)果誤差明顯比較大,無法得到比較好的效果。

  本文采用的短語模型情感傾向值的計(jì)算方法為統(tǒng)計(jì)一個(gè)短語模型在好評情感短語模型中出現(xiàn)的次數(shù)(記為Gi)和在差評情感短語模型中出現(xiàn)的次數(shù)(記為Bi),然后計(jì)算Gi與Bi的比值,具體計(jì)算公式如式(1)所示:

  V=log2(Gi/Bi) Gi≠0andBi≠0 log2((Gi+1)/Bi+1)) Gi=0orBi=0 (1)

  由計(jì)算出來的表2和公式(1)可知:

EOS%P~2YQC}@5QVQCT928CP.jpg

  (1)當(dāng)0<Gi<Bi時(shí),V<0,該短語模型表達(dá)的是差評的情感傾向;

  (2)當(dāng)Gi>Bi>0時(shí),V>0,該短語模型表達(dá)的是好評的情感傾向;

 ?。?)當(dāng)Gi=Bi時(shí),V=0,無法確定該短語模型的情感傾向,需要根據(jù)實(shí)際情況進(jìn)行判斷;

 ?。?)當(dāng)Gi=0,Bi≠0時(shí),V<0,該短語模型表達(dá)的是差評的情感傾向;

  (5)當(dāng)Gi≠0,Bi=0時(shí),V>0,該短語模型表達(dá)的是好評的情感傾向。

  2.3.4 計(jì)算評價(jià)文本情感傾向值

  有了短語模型的情感傾向值,就可以分析評價(jià)文本的情感傾向了。評價(jià)文本都是由一個(gè)個(gè)句子組成,而句子可以分詞標(biāo)注后組成短語模型,所以評價(jià)文本的情感傾向值是由其分解出的短語模型情感傾向值加成得到的。具體公式如下:

  S=Vi(i≥0)(2)

 ?。?)如果S>0,判定這條評價(jià)文本為好評;

  (2)如果S<0,判定這條評價(jià)文本為差評;

 ?。?)如果S=0,判定這條評價(jià)文本為中評。

  3 實(shí)驗(yàn)結(jié)果分析

  通過淘寶評價(jià)API接口獲取某女裝的好評、差評各300條評價(jià)作為測試的數(shù)據(jù)來源如表3所示。

  經(jīng)過簡單過濾,過濾掉一些無意義的評價(jià),如“好!”,“good”,“……”等無意義的評價(jià),然后手工分別篩選出224條好評和224條差評,選取數(shù)目相等,是為了比較直觀。將獲取的評價(jià)數(shù)據(jù)導(dǎo)入系統(tǒng)中,首先進(jìn)行分詞標(biāo)注:

  0衣服/n很/d好/a!/w很/d合身/a!/w店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,/w<br/>/nx雖然/c中間/f出/v了/ul點(diǎn)/q小/a插曲/n,/w但是/c很/d快/a都/d給/v解決/v了/y。/w<br/>/nx店家/n工作/vn相當(dāng)/d給/p力/n。/w<br/>/nx快遞/vn也/d很/d給/p力/n!/w贊/vg一個(gè)/m!/w<br/>/nx

  經(jīng)過初步的分詞標(biāo)注,整個(gè)評價(jià)內(nèi)容結(jié)構(gòu)已經(jīng)清晰,然后按照上文中的約定對評價(jià)內(nèi)容進(jìn)行二次標(biāo)注。標(biāo)注結(jié)果如下:

  衣服/@*n很/d好/@!a。很/d合身/@!a。店家/@*n服務(wù)/@*vn態(tài)度/@*n也/d很/d好/@!a。<br/>/nx雖然/@c中間/f出/v了/ul點(diǎn)/q小/@?a插曲/@*n。但是/@c很/d快/@!a都/d給/v解決/v了/y。<br/>/nx店家/@*n工作/@*vn相當(dāng)/@!d給/p力/@*n。<br/>/nx快遞/@*vn也/d很/d給/p力/@*n。贊/vg一個(gè)/m。<br/>/nx。

A4FD%YM}B5_9]28GJELS4B8.jpg

  根據(jù)“二次標(biāo)注”結(jié)果,抽取評價(jià)文本的每個(gè)句子的短語模型,與短語模型情感傾向庫對比,匹配極性情感值,將每個(gè)短語模型的情感值相加,就是整個(gè)文本的情感值。同時(shí)還要對照分類特征詞,如果評價(jià)文本中句子含有上述特征詞的,就把這個(gè)文本劃分到對應(yīng)的分類,做上標(biāo)記,同時(shí),這個(gè)句子的情感傾向值也是這個(gè)文本在這個(gè)分類上的情感傾向表示。

  表4所示是本項(xiàng)目在實(shí)踐過程中的實(shí)驗(yàn)結(jié)果。

TQRHPDC%9[OM~Z@ZXFY[W7B.jpg

  經(jīng)過人工排除異類,盡可能保證測試文本類別正確的情況下,看到差評的查準(zhǔn)率有83.9%,要比好評的查準(zhǔn)率82.6%高,而且中評數(shù)量上的判斷結(jié)果(28>17)也高。這是由于在淘寶上顧客表達(dá)厭惡和憤怒的情感要更明確一些,有些顧客有不滿意的地方,但是可能還是給予好評,只是表達(dá)勉強(qiáng),所以好的情感表達(dá)上就會模糊,相比之下,差評更容易判斷。

  通過表4可以看出,兩類評價(jià)由情感傾向值累加得出的情感傾向值的方法的查準(zhǔn)率都達(dá)到80%以上,說明采用情感傾向值累加的方法效果還不錯(cuò),在抽取少量樣本的情況下,能比較準(zhǔn)確細(xì)致地判斷文本的真實(shí)情感傾向。但是效果還不夠好,如何選取準(zhǔn)確的評價(jià)對象,抽取真正的短語模型,使方法結(jié)果逼近真實(shí)將是繼續(xù)研究的方向。

  參考文獻(xiàn)

  [1] 孫穎.淘寶開放平臺[J].程序員,2009(8):43-45.

  [2] TURNEY P D. Thumbs up or thumbs down: semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, 2002.

  [3] TURNEY P D, LITTMAN M L. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems(TOIS), 2003, 21(4): 315-346.

  [4] XU K, LIAO S S, LI J, et al. Mining comparative opinions from customer reviews for competitive intelligence[J]. Decision support systems, 2011,50(4):743-754.

  [5] LIU B. Opinion mining and sentiment analysis[M]. Web Data Mining. Springer Berlin Heidelberg, 2011.

  [6] 方美玉,鄭小林,陳德人,等.商品評論聚焦爬蟲算法設(shè)計(jì)與實(shí)現(xiàn)[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2012(51):1.

  [7] 陳濤,徐睿峰,吳明芬,等.一種基于情感句模的文本情感分類方法[J].中文信息學(xué)報(bào),2013,27(5):67-74.

  [8] 李綱,王忠義,寇廣增.情感分類中情感詞的情感傾向度的計(jì)算方法研究[J].情報(bào)學(xué)報(bào),2011,30(3):292-298.

  [9] LI S S, HUANG C R, ZONG C Q. Multi-domain sentiment classification with classifier combination[J]. Journal of Computer Science and Technology, 2011,26(1):25-33.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。