文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進的TF-IDF算法在文本分類中的研究[J].信息技術與網(wǎng)絡安全,2021,40(7):72-76,83.
0 引言
TF-IDF算法結(jié)構簡單,類別區(qū)分力強,且容易實現(xiàn),被廣泛應用于信息檢索、文本挖掘、文本分類、信息抽取等領域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對此很多研究者都提出過改進算法,王小林在傳統(tǒng)TF-IDF算法基礎上,提出利用段落標注技術,對處于不同位置的詞語給予不同的位置權重,并對分詞結(jié)果中詞頻較高的同詞性詞語進行相似度計算,合并相似度較高的詞語,改進傳統(tǒng)算法中忽視特征詞位置因素和語義對相似度的問題[1]。覃世安針對傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時提取特征值效果差的問題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進TF-IDF算法[2]。葉雪梅認為傳統(tǒng)的特征詞權重TF-IDF算法未考慮到網(wǎng)絡新詞,針對特征項中的新詞對分類結(jié)果的影響給予不同權重值,提出基于網(wǎng)絡新詞改進文本分類TF-IDF算法[3]。這些改進算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯的實驗效果。但以往改進算法研究主要集中在通過完善算法本身的缺陷以實現(xiàn)詞條在文本中更加準確的權重賦值,忽略了其他類別區(qū)分特征因子。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000003681
作者信息:
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京102206;
2.中國人民大學 信息學院,北京100872)