一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
所屬分類:技術論文
上傳者:zhoubin333
文檔大?。?span>3591 K
標簽: 科技項目文本 文本相似度 TF-IDF
所需積分:0分積分不夠怎么辦?
文檔介紹:為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。
現(xiàn)在下載
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。