一種結合TF-IDF和Simhash的科技項目文本相似性度量方法 | |
所屬分類:技術論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>3591 K | |
標簽: 科技項目文本 文本相似度 TF-IDF | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統(tǒng)工程研究所版權所有 京ICP備10017138號-2