文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進(jìn)的TF-IDF算法在文本分類中的研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):72-76,83.
0 引言
TF-IDF算法結(jié)構(gòu)簡單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對此很多研究者都提出過改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對處于不同位置的詞語給予不同的位置權(quán)重,并對分詞結(jié)果中詞頻較高的同詞性詞語進(jìn)行相似度計(jì)算,合并相似度較高的詞語,改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語義對相似度的問題[1]。覃世安針對傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對特征項(xiàng)中的新詞對分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000003681
作者信息:
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;
2.中國人民大學(xué) 信息學(xué)院,北京100872)