文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進(jìn)的TF-IDF算法在文本分類中的研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(7):72-76,83.
0 引言
TF-IDF算法結(jié)構(gòu)簡(jiǎn)單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒(méi)有考慮詞語(yǔ)出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對(duì)此很多研究者都提出過(guò)改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語(yǔ)給予不同的位置權(quán)重,并對(duì)分詞結(jié)果中詞頻較高的同詞性詞語(yǔ)進(jìn)行相似度計(jì)算,合并相似度較高的詞語(yǔ),改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語(yǔ)義對(duì)相似度的問(wèn)題[1]。覃世安針對(duì)傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問(wèn)題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對(duì)特征項(xiàng)中的新詞對(duì)分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過(guò)完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003681
作者信息:
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;
2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)