改進(jìn)的TF-IDF算法在文本分類中的研究 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>491 K | |
標(biāo)簽: 文本分類 VSM TF-IDF | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:企業(yè)數(shù)字化建設(shè)過程中,對(duì)大量日常經(jīng)營活動(dòng)文本的數(shù)字化處理通常是多任務(wù)的,需要對(duì)文本數(shù)據(jù)同時(shí)完成信息抽取和文本分類任。在此應(yīng)用場(chǎng)景下,為了實(shí)現(xiàn)更加精準(zhǔn)的分類效果,提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征。通過引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。實(shí)驗(yàn)以石油行業(yè)中文文本為例,選取測(cè)試文本2 006條進(jìn)行文本分類對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)的TF-IDF算法精確率P達(dá)到99.3%,召回率R達(dá)到98.7%,相比于傳統(tǒng)TF-IDF算法文本分類效果得到顯著提高。 | |
現(xiàn)在下載 | |
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2